Files
OLMo3-190M-zh/README.md
ModelHub XC a6694cd2c4 初始化项目,由ModelHub XC社区提供模型
Model: 42ailab/OLMo3-190M-zh
Source: Original Platform
2026-05-07 15:27:00 +08:00

69 lines
2.0 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
license: apache-2.0
language:
- zh
tags:
- pretrained
- olmo3
- chinese
library_name: transformers
pipeline_tag: text-generation
---
# OLMo3-190M-zh (v3, base)
**从零训练的 190M 中文 base 模型**OLMo3 canonical 架构。活水 42ailab 出品,配套《零基础 AI 大模型研发训练营》L04 预训练讲。
## 用法
```python
from transformers import AutoModelForCausalLM, AutoTokenizer
tok = AutoTokenizer.from_pretrained("42ailab/OLMo3-190M-zh")
model = AutoModelForCausalLM.from_pretrained("42ailab/OLMo3-190M-zh")
```
## 训练
- 架构OLMo3-190Md=768, L=12, ffn=3072, QK-Norm, SWA=4096
- Tokenizer48k 中文 BPE自训
- 数据Ultra-FineWeb-zh + Fineweb-Edu-Chinese V2.1(合计 3.4B tokens
- 训练Modal H10014500 steps × 262K tokens/stepcosine 5e-4 → 5e-5
- Final mean train loss: 3.953
## 7-prompt 抽测v3 基线)
| Prompt | 结果 |
|---|---|
| 人工智能是 | 🟢 流畅科普 |
| 山里有座庙 | 🟡 主题漂移 |
| 今天天气不错,我准备 | 🟡 漂移 |
| 北京大学位于 | 🔴 "江苏省"(错)|
| 四大发明是 | 🔴 "铜管/铁器/铜锤/铜镐"(全错)|
| 《红楼梦》人物 | 🟡 对错混杂 |
| Python 是一种 | 🔴 "开源库"(错)|
**合计 1 绿 / 3 黄 / 3 红** — 这是 base 的状态。改进版见 [`42ailab/OLMo3-190M-zh-v3.1`](https://huggingface.co/42ailab/OLMo3-190M-zh-v3.1)continue pretrain 后"北大在北京"/"Python 是编程语言"等改善)。
## 关系
```
v3 (本 repo) ──continue pretrain──▶ v3.1 (42ailab/OLMo3-190M-zh-v3.1)
```
## License
- 权重 Apache-2.0
- 训练数据主要 Apache-2.0;不含 Wikipediav3.1 才引入 wiki
## Citation
```bibtex
@misc{huoshui-olmo3-190m-zh,
title={OLMo3-190M-zh: Chinese Pretrain Teaching Model},
author={活水 AI 实验室 (42ailab) and 阳志平},
year={2026},
howpublished={\url{https://huggingface.co/42ailab/OLMo3-190M-zh}},
note={LLM001 Course, Lecture 04}
}
```