readme
This commit is contained in:
@@ -13,7 +13,8 @@
|
|||||||
|
|
||||||
随着Mistral AI公司开源其七十亿参数模型[Mistral-7B](https://huggingface.co/meta-llama/Llama-2-7b-hf),该模型超越[Llama](https://huggingface.co/meta-llama),成为当前最强大的开源模型之一。Mistral-7B在各类基准测试中,不仅超过了Llama2-13B,而且在推理、数学、代码生成任务中超过Llama2-34B。
|
随着Mistral AI公司开源其七十亿参数模型[Mistral-7B](https://huggingface.co/meta-llama/Llama-2-7b-hf),该模型超越[Llama](https://huggingface.co/meta-llama),成为当前最强大的开源模型之一。Mistral-7B在各类基准测试中,不仅超过了Llama2-13B,而且在推理、数学、代码生成任务中超过Llama2-34B。
|
||||||
然而,Mistral-7B的训练语料主要为英文文本,其中文能力较为欠缺。其次,Mistral-7B的词表不支持中文,导致其对中文的编码和解码效率较低,限制了在中文场景的应用。<br>
|
然而,Mistral-7B的训练语料主要为英文文本,其中文能力较为欠缺。其次,Mistral-7B的词表不支持中文,导致其对中文的编码和解码效率较低,限制了在中文场景的应用。<br>
|
||||||
为了克服这一局限,清华大学地球系统科学系地球和空间信息科学实验室基于Mistral-7B进行了中文词表扩充和增量预训练,增强了Mistral-7B在中文任务上的表现,并提高了其对中文文本的编解码效率。
|
为了克服这一局限,清华大学地球系统科学系地球和空间信息科学实验室基于Mistral-7B进行了中文词表扩充和增量预训练,增强了Mistral-7B在中文任务上的表现,并提高了其对中文文本的编解码效率。<br>
|
||||||
|
项目地址:https://github.com/THU-EarthInformationScienceLab/Chinese-Mistral
|
||||||
|
|
||||||
## 📥 模型下载
|
## 📥 模型下载
|
||||||
|
|
||||||
@@ -96,7 +97,7 @@ from transformers import AutoTokenizer, AutoModelForCausalLM
|
|||||||
|
|
||||||
device = torch.device("cuda:0") if torch.cuda.is_available() else torch.device("cpu")
|
device = torch.device("cuda:0") if torch.cuda.is_available() else torch.device("cpu")
|
||||||
|
|
||||||
model_path = "/home/chenzhou/project/Chinese-Mistral-7B-Instruct-v0.1"
|
model_path = "itpossible/Chinese-Mistral-7B-Instruct-v0.1"
|
||||||
tokenizer = AutoTokenizer.from_pretrained(model_path)
|
tokenizer = AutoTokenizer.from_pretrained(model_path)
|
||||||
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map=device)
|
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map=device)
|
||||||
|
|
||||||
@@ -109,8 +110,6 @@ outputs = tokenizer.batch_decode(outputs_id, skip_special_tokens=True)[0]
|
|||||||
print(outputs)
|
print(outputs)
|
||||||
```
|
```
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
## 📝 训练数据
|
## 📝 训练数据
|
||||||
|
|
||||||
训练数据采样于WanJuan、baike2018qa、Dolma、gutenberg-books等高质量开源数据集。我们对这些数据集进行细粒度清洗,并充分考虑训练数据集中不同类别数据的占比。
|
训练数据采样于WanJuan、baike2018qa、Dolma、gutenberg-books等高质量开源数据集。我们对这些数据集进行细粒度清洗,并充分考虑训练数据集中不同类别数据的占比。
|
||||||
@@ -121,7 +120,7 @@ Chinese-Mistral-7B的开发旨在为开源社区提供一个性能优越的中
|
|||||||
|
|
||||||
## ✒️ 引用
|
## ✒️ 引用
|
||||||
|
|
||||||
如果您觉得本项目对您的研究有所帮助或使用了本项目的,请引用本项目:
|
如果您觉得本项目对您的研究有所帮助或使用了本项目的模型,请引用本项目:
|
||||||
|
|
||||||
```bibtex
|
```bibtex
|
||||||
@misc{Chinese-Mistral,
|
@misc{Chinese-Mistral,
|
||||||
|
|||||||
Reference in New Issue
Block a user