初始化项目,由ModelHub XC社区提供模型

Model: 42ailab/OLMo3-190M-zh
Source: Original Platform
This commit is contained in:
ModelHub XC
2026-05-07 15:27:00 +08:00
commit a6694cd2c4
9 changed files with 239242 additions and 0 deletions

68
README.md Normal file
View File

@@ -0,0 +1,68 @@
---
license: apache-2.0
language:
- zh
tags:
- pretrained
- olmo3
- chinese
library_name: transformers
pipeline_tag: text-generation
---
# OLMo3-190M-zh (v3, base)
**从零训练的 190M 中文 base 模型**OLMo3 canonical 架构。活水 42ailab 出品,配套《零基础 AI 大模型研发训练营》L04 预训练讲。
## 用法
```python
from transformers import AutoModelForCausalLM, AutoTokenizer
tok = AutoTokenizer.from_pretrained("42ailab/OLMo3-190M-zh")
model = AutoModelForCausalLM.from_pretrained("42ailab/OLMo3-190M-zh")
```
## 训练
- 架构OLMo3-190Md=768, L=12, ffn=3072, QK-Norm, SWA=4096
- Tokenizer48k 中文 BPE自训
- 数据Ultra-FineWeb-zh + Fineweb-Edu-Chinese V2.1(合计 3.4B tokens
- 训练Modal H10014500 steps × 262K tokens/stepcosine 5e-4 → 5e-5
- Final mean train loss: 3.953
## 7-prompt 抽测v3 基线)
| Prompt | 结果 |
|---|---|
| 人工智能是 | 🟢 流畅科普 |
| 山里有座庙 | 🟡 主题漂移 |
| 今天天气不错,我准备 | 🟡 漂移 |
| 北京大学位于 | 🔴 "江苏省"(错)|
| 四大发明是 | 🔴 "铜管/铁器/铜锤/铜镐"(全错)|
| 《红楼梦》人物 | 🟡 对错混杂 |
| Python 是一种 | 🔴 "开源库"(错)|
**合计 1 绿 / 3 黄 / 3 红** — 这是 base 的状态。改进版见 [`42ailab/OLMo3-190M-zh-v3.1`](https://huggingface.co/42ailab/OLMo3-190M-zh-v3.1)continue pretrain 后"北大在北京"/"Python 是编程语言"等改善)。
## 关系
```
v3 (本 repo) ──continue pretrain──▶ v3.1 (42ailab/OLMo3-190M-zh-v3.1)
```
## License
- 权重 Apache-2.0
- 训练数据主要 Apache-2.0;不含 Wikipediav3.1 才引入 wiki
## Citation
```bibtex
@misc{huoshui-olmo3-190m-zh,
title={OLMo3-190M-zh: Chinese Pretrain Teaching Model},
author={活水 AI 实验室 (42ailab) and 阳志平},
year={2026},
howpublished={\url{https://huggingface.co/42ailab/OLMo3-190M-zh}},
note={LLM001 Course, Lecture 04}
}
```