--- license: apache-2.0 language: - zh tags: - pretrained - olmo3 - chinese library_name: transformers pipeline_tag: text-generation --- # OLMo3-190M-zh (v3, base) **从零训练的 190M 中文 base 模型**,OLMo3 canonical 架构。活水 42ailab 出品,配套《零基础 AI 大模型研发训练营》L04 预训练讲。 ## 用法 ```python from transformers import AutoModelForCausalLM, AutoTokenizer tok = AutoTokenizer.from_pretrained("42ailab/OLMo3-190M-zh") model = AutoModelForCausalLM.from_pretrained("42ailab/OLMo3-190M-zh") ``` ## 训练 - 架构:OLMo3-190M(d=768, L=12, ffn=3072, QK-Norm, SWA=4096) - Tokenizer:48k 中文 BPE(自训) - 数据:Ultra-FineWeb-zh + Fineweb-Edu-Chinese V2.1(合计 3.4B tokens) - 训练:Modal H100,14500 steps × 262K tokens/step,cosine 5e-4 → 5e-5 - Final mean train loss: 3.953 ## 7-prompt 抽测(v3 基线) | Prompt | 结果 | |---|---| | 人工智能是 | 🟢 流畅科普 | | 山里有座庙 | 🟡 主题漂移 | | 今天天气不错,我准备 | 🟡 漂移 | | 北京大学位于 | 🔴 "江苏省"(错)| | 四大发明是 | 🔴 "铜管/铁器/铜锤/铜镐"(全错)| | 《红楼梦》人物 | 🟡 对错混杂 | | Python 是一种 | 🔴 "开源库"(错)| **合计 1 绿 / 3 黄 / 3 红** — 这是 base 的状态。改进版见 [`42ailab/OLMo3-190M-zh-v3.1`](https://huggingface.co/42ailab/OLMo3-190M-zh-v3.1)(continue pretrain 后"北大在北京"/"Python 是编程语言"等改善)。 ## 关系 ``` v3 (本 repo) ──continue pretrain──▶ v3.1 (42ailab/OLMo3-190M-zh-v3.1) ``` ## License - 权重 Apache-2.0 - 训练数据主要 Apache-2.0;不含 Wikipedia(v3.1 才引入 wiki) ## Citation ```bibtex @misc{huoshui-olmo3-190m-zh, title={OLMo3-190M-zh: Chinese Pretrain Teaching Model}, author={活水 AI 实验室 (42ailab) and 阳志平}, year={2026}, howpublished={\url{https://huggingface.co/42ailab/OLMo3-190M-zh}}, note={LLM001 Course, Lecture 04} } ```