Files
gogpt-7b/README.md
ModelHub XC 1da307b26f 初始化项目,由ModelHub XC社区提供模型
Model: golaxy/gogpt-7b
Source: Original Platform
2026-06-08 21:34:21 +08:00

92 lines
3.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
license: apache-2.0
datasets:
- BelleGroup/train_1M_CN
- BAAI/COIG
- silk-road/alpaca-data-gpt4-chinese
language:
- zh
tags:
- gogpt-7b
---
# GoGPT
> GoGPT:ICT中英文底座增强大模型,基于Llama/Llama 2训练的底座大模型,参数规模包括70亿参数、130亿参数
<p align="center">
<br>
<img src="resources/assets/gogpt-banner-tou.png" width="600"/>
<br>
</p>
<p align="center">
<img alt="GitHub" src="https://img.shields.io/github/license/ymcui/Chinese-LLaMA-Alpaca.svg?color=blue&style=flat-square">
<img alt="GitHub top language" src="https://img.shields.io/github/languages/top/ymcui/Chinese-LLaMA-Alpaca">
</p>
## 模型部署
🤗Huggingface上提供了GoGPT权重目前开放了gogpt-7b和gogpt2-7b权重
| 模型名称 | 基座模型 | 模型大小 | 下载地址 |
|-------------------------------------------------------------|-----------|------|-------------------------------------------------|
| [golaxy/gogpt-7b](https://huggingface.co/golaxy/gogpt-7b) | Llama-7b | 7B | [模型下载](https://huggingface.co/golaxy/gogpt-7b) |
| [golaxy/gogpt2-7b](https://huggingface.co/golaxy/gogpt2-7b) | Llama2-7b | 7B | [模型下载](https://huggingface.co/golaxy/gogpt2-7b) |
## 训练细节
### step1训练分词器
[🐱怎么从零到一训练一个LLM分词器](https://github.com/yanqiangmiffy/how-to-train-tokenizer)
```text
├── data
│ └── corpus.txt 训练语料
├── llama
│ ├── tokenizer_checklist.chk
│ └── tokenizer.model
├── merged_tokenizer_hf 合并结果 hf格式
│ ├── special_tokens_map.json
│ ├── tokenizer_config.json
│ └── tokenizer.model
├── merged_tokenizer_sp
│ └── open_llama.model #
├── merge_tokenizer
│ └── tokenizer.model
├── open_llama.model 训练的sp模型
├── open_llama.vocab 训练的sp词汇表
├── README.md
├── step0_step0_process_text.py 基于多分数据集准备训练语料
├── step1_make_corpus.py 基于中文Wikipedia数据准备训练语料
├── step2_train_tokenzier.py 训练分词器
├── step3_tokenzier_segment.py 测试训练后的模型,包括编码和解码测试样例
└── step4_merge_tokenizers.py 与原版llama的分词器进行合并得到hf格式的tokenizer
```
### step2二次预训练
> 在中文预训练语料上对LLaMA进行增量预训练、继续预训练
### step3: 有监督微调
- belle数据120k数据 v1
- stanford_alapca52k数据 v2
- [sharegpt](data%2Ffinetune%2Fsharegpt):90k数据
### step4: 强化学习
> TODO
## 免责声明
本项目相关资源仅供学术研究之用,严禁用于商业用途。 使用涉及第三方代码的部分时,请严格遵循相应的开源协议。
模型生成的内容受模型计算、随机性和量化精度损失等因素影响,本项目不对其准确性作出保证。
对于模型输出的任何内容,本项目不承担任何法律责任,亦不对因使用相关资源和输出结果而可能产生的任何损失承担责任。
## 研究与开发团队
本项目由网络数据科学与技术重点实验室GoGPT团队完成团队指导老师为郭嘉丰研究员。