初始化项目，由ModelHub XC社区提供模型

Model: shibing624/ziya-llama-13b-medical-merged Source: Original Platform
2026-05-30 07:22:17 +08:00
commit 5185513963
15 changed files with 18500 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,35 @@
+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,236 @@
+---
+language:
+- zh
+- en
+tags:
+- chatglm
+- pytorch
+- Text-Generation
+- medical
+license: apache-2.0
+widget:
+- text: 一岁宝宝发烧能吃啥药?
+library_name: transformers
+pipeline_tag: text-generation
+inference: false
+---
+
+# Medical LLaMA-13B Model
+基于LLaMA-13B的中英医疗问答模型
+
+`shibing624/ziya-llama-13b-medical-merged` evaluate test data：
+
+The overall performance of model on QA **test**:
+
+|input_text|predict|
+|:-- |:--- |
+|一岁宝宝发烧能吃啥药?|孩子的身体是很脆弱的，如果不注意保护好自己就会出现各种疾病。有些家长在看到孩子生病后都非常着急，想要立刻给他们用药治疗，但其实并没有那么简单，因为每个人对于药物的敏感度和耐受性都是不同的，所以我们需要根据具体情况来选择合适的方法进行治疗才可以达到最佳效果。1、首先大多数小儿退热药中含有解热镇痛成分阿司匹林或布洛芬等，这类药品虽然副作用较少，但也存在过量使用引起胃肠道损伤甚至消化道溃疡出血的风险；2、还有部分小儿退热药中含有扑尔敏等抗组胺药，它们本身属于处方药，应该严格按照医嘱服用，切勿擅自加减剂量或者延长用药时间;3、此外，某些小儿退热药中含有维生素C及葡萄糖酸钙等营养补充剂，只有当患儿伴随脱水症状（如口渴、尿色深）时才考虑添加，否则容易造成电解质紊乱。|
+
+在中文开放测试集中的表现优异，继承了两方面的优势：1）微调训练的底座是Ziya-LLaMA-13B模型，是较强的中英文底座模型，2）微调使用的是高质量240万条中英文医疗指令数据集，和多种通用指令数据集，微调后的模型在医疗行业答复能力达到领先水平，在通用问题上的答复能力不弱于LLaMA-13B。
+
+
+## Training details
+
+training args:
+```json
+{"per_device_train_batch_size": 8,
+"per_device_eval_batch_size": 8,
+"gradient_accumulation_steps": 1,
+"eval_accumulation_steps": null,
+"eval_delay": 0,
+"learning_rate": 2e-05,
+"weight_decay": 0.0,
+"num_train_epochs": 3.0,
+"max_steps": -1,
+"lr_scheduler_type": "linear",
+"warmup_ratio": 0.0,
+"warmup_steps": 50,
+"logging_dir": "outputs-ziya-llama-13b-sft-med-v2/logs",
+"logging_strategy": "steps",
+"logging_steps": 50,
+"save_strategy": "steps",
+"save_steps": 50,
+"save_total_limit": 30,
+"save_safetensors": false,
+"save_on_each_node": false,
+"no_cuda": false,
+"use_mps_device": false,
+"seed": 42,
+"data_seed": null,
+"jit_mode_eval": false,
+"use_ipex": false,
+"bf16": false,
+"fp16": true,
+"fp16_opt_level": "O1",
+"half_precision_backend": "cuda_amp",
+"bf16_full_eval": false,
+"fp16_full_eval": false,
+"tf32": null,
+"local_rank": 0,
+"dataloader_drop_last": false,
+"eval_steps": 50,
+"dataloader_num_workers": 0,
+"run_name": "outputs-ziya-llama-13b-sft-med-v2",
+"remove_unused_columns": false,
+"label_names": null,
+"load_best_model_at_end": true,
+"metric_for_best_model": "loss",
+"greater_is_better": false,
+"deepspeed": null,
+"label_smoothing_factor": 0.0,
+"optim": "adamw_torch",
+"optim_args": null,
+"adafactor": false,
+"group_by_length": false,
+"length_column_name": "length",
+"report_to": [ "tensorboard" ],
+"ddp_find_unused_parameters": false,
+"gradient_checkpointing": true,
+"fp16_backend": "auto",
+"ddp_timeout": 1800,
+"torch_compile": false }
+```
+
+train loss:
+
+<img src="https://huggingface.co/shibing624/ziya-llama-13b-medical-merged/resolve/main/trainloss.png" alt="trainloss">
+
+
+evaluate loss:
+
+<img src="https://huggingface.co/shibing624/ziya-llama-13b-medical-merged/resolve/main/evalloss.png" alt="trainloss">
+
+## Usage
+本项目开源在 github repo: 
+- [shibing624/textgen](https://github.com/shibing624/textgen)
+- [shibing624/MedicalGPT](https://github.com/shibing624/MedicalGPT)
+  
+使用textgen库：[textgen](https://github.com/shibing624/textgen)，可调用LLaMA模型：
+
+Install package:
+```shell
+pip install -U textgen
+```
+
+```python
+from textgen import GptModel
+
+def generate_prompt(instruction):
+    return f"""Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:{instruction}\n\n### Response: """
+
+
+model = GptModel("llama", "shibing624/ziya-llama-13b-medical-merged")
+predict_sentence = generate_prompt("一岁宝宝发烧能吃啥药?")
+r = model.predict([predict_sentence])
+print(r) # ["1、首先大多数小儿退热药中含有解热镇痛成分阿司匹林或布洛芬等，这类药品虽然副作用较少..."]
+```
+
+## Usage (HuggingFace Transformers)
+Without [textgen](https://github.com/shibing624/textgen), you can use the model like this: 
+
+First, you pass your input through the transformer model, then you get the generated sentence.
+
+Install package:
+```
+pip install transformers 
+```
+
+```python
+import sys
+from transformers import LlamaForCausalLM, LlamaTokenizer
+
+
+model = LlamaForCausalLM.from_pretrained("shibing624/ziya-llama-13b-medical-merged", device_map='auto')
+tokenizer = LlamaTokenizer.from_pretrained("shibing624/ziya-llama-13b-medical-merged")
+device = "cuda" if torch.cuda.is_available() else "cpu"
+
+def generate_prompt(instruction):
+    return f"""Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:{instruction}\n\n### Response: """
+
+
+sents = ['一岁宝宝发烧能吃啥药', "who are you?"]
+for s in sents:
+    q = generate_prompt(s)
+    inputs = tokenizer(q, return_tensors="pt")
+    inputs = inputs.to(device=device)
+
+    generate_ids = model.generate(
+        **inputs,
+        max_new_tokens=120, 
+        do_sample=True, 
+        top_p=0.85, 
+        temperature=1.0, 
+        repetition_penalty=1.0
+    )
+
+    output = tokenizer.batch_decode(generate_ids, skip_special_tokens=True)[0]
+    print(output)
+    print()
+```
+
+output:
+```shell
+一岁宝宝发烧能吃啥药
+孩子的身体是很脆弱的，如果不注意保护好自己就会出现各种疾病。有些家长在看到孩子生病后都非常着急，想要立刻给他们用药治疗，但其实并没有那么简单，因为每个人对于药物的敏感度和耐受性都是不同的，所以我们需要根据具体情况来选择合适的方法进行治疗才可以达到最佳效果。1、首先大多数小儿退热药中含有解热镇痛成分阿司匹林或布洛芬等，这类药品虽然副作用较少，但也存在过量使用引起胃肠道损伤甚至消化道溃疡出血的风险；2、还有部分小儿退热药中含有扑尔敏等抗组胺药，它们本身属于处方药，应该严格按照医嘱服用，切勿擅自加减剂量或者延长用药时间;3、此外，某些小儿退热药中含有维生素C及葡萄糖酸钙等营养补充剂，只有当患儿伴随脱水症状（如口渴、尿色深）时才考虑添加，否则容易造成电解质紊乱。
+```
+
+
+模型文件组成：
+```
+ziya-llama-13b-medical-merged
+|-- added_tokens.json
+|-- config.json
+|-- generation_config.json
+|-- pytorch_model-00001-of-00003.bin
+|-- pytorch_model-00002-of-00003.bin
+|-- pytorch_model-00003-of-00003.bin
+|-- pytorch_model.bin.index.json
+|-- README.md
+|-- special_tokens_map.json
+|-- tokenizer_config.json
+`-- tokenizer.model
+```
+
+
+### Inference Examples
+
+
+
+| Human                                                                              | Assitant                                                                                                                                                                                                                                                                                                                                                                                            |
+|------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+| 小孩发烧怎么办                                                                            | 宝宝的抵抗力是比较差的，所以很容易就会出现感冒或者其他疾病。如果宝宝在平时没有注意保暖，那么也可能导致身体受凉而引起了感冒等症状，这样不仅对于健康造成影响，还可能让宝宝出现高热的情况。因此当家长们发现自己的宝宝出现了高热的问题之后一定要及早进行治疗和护理才好。<br/>1、首先我们应该给宝宝服用退烧药物来帮助降温，但是千万不要盲目使用退烧药物，否则只会加重宝宝的病情，最好带着宝宝到医院去检查清楚具体原因之后再针对性地采取措施处理。<br/>2、另外大人们也需要做好预防工作，尤其是天气变化的时候更应该多关心下宝宝的身体状态，避免宝宝受寒受凉从而诱发各种疾病，同时也要尽量减少宝宝接触细菌病毒的机会，增强宝宝的免疫力。<br/>3、除了上面两点之外，大人们还可以通过按摩推拿穴位的方式来缓解宝宝的病痛，促进血液循环，提升新陈代谢速度，达到快速消炎止疼的效果         |
+| 一岁宝宝发烧能吃啥药？                                                                        | 孩子的身体是很脆弱的，如果不注意保护好自己就会出现各种疾病。有些家长在看到孩子生病后都非常着急，想要立刻给他们用药治疗，但其实并没有那么简单，因为每个人对于药物的敏感度和耐受性都是不同的，所以我们需要根据具体情况来选择合适的方法进行治疗才可以达到最佳效果。1、首先大多数小儿退热药中含有解热镇痛成分阿司匹林或布洛芬等，这类药品虽然副作用较少，但也存在过量使用引起胃肠道损伤甚至消化道溃疡出血的风险；2、还有部分小儿退热药中含有扑尔敏等抗组胺药，它们本身属于处方药，应该严格按照医嘱服用，切勿擅自加减剂量或者延长用药时间;3、此外，某些小儿退热药中含有维生素C及葡萄糖酸钙等营养补充剂，只有当患儿伴随脱水症状（如口渴、尿色深）时才考虑添加，否则容易造成电解质紊乱。                                                         |
+| 肛门病变可能是什么疾病的症状                                                                     | 痔疮、直肠息肉等。                                                                                                                                                                                                                                                                                                                                                                                           |
+| 医生，您好白带增多泛黄怎么回事？                                                                   | 你这种情况考虑可能会是阴道炎症引起的建议平时留意卫生清洁，勤换洗衣物内裤，必要时去正规公立医院妇科复诊做分泌物常规等相关检查明确病因后对症治疗，不同原因所致的疾病在临床表现上也存在差异性，如果患者出现了类似于的症状应当及早到专业、权威的医院进行详细的检验和救治                                                                                                                                                                                                                                                                  |
+| 药流后有巧克力白带是没流干净吗                                                                    | 在日常生活中，我们要或多或少了解一些常见疾病的相关知识，不仅能起到增加知识水平的作用，更能让自己更好地预防此类疾病的产生。很多女性都会出现月经紊乱、腹痛等症状，这时候就需要考虑妇科炎症可能，比如说宫颈糜烂和盆腔积液。那么下面小编来给大家介绍一种情况：药物流产后白带呈巧克力色怎么回事？1、首先，对于药物流产之后发现阴道分泌物异常，应该及时去医院做检查确诊具体原因，然后再根据结果进行治疗调理。2、其次，由于每个人身体素质以及患病程度存在差别，所以采取的措施也不尽相同，但无论选择哪种方式处理，都必须严格按照规定剂量服用，并且注意观察副作用反映情况，若出现明显不适感觉，则应立即停止使用。3、最后，建议你保持外阴清洁卫生，勤换内裤，避免吃辛辣刺激食品，而且还要禁忌房事，否则容易引起交叉感染影响恢复健康。                                     |
+| 维胺酯维E乳膏能治理什么疾病                                                                     | 皮肤淀粉样变性；脂溢性角化症                                                                                                                                                                                                                                                                                                                                                                                      |
+| 痤疮是什么原因导致的?                                                                        | 痤疮，又称青春痘、粉刺。它主要发生在面部和胸背部位，表现为黑头粉刺、白头粉刺、丘疹、脓疱、结节等多种形式。其中以黑头粉刺最常见，约占全身皮肤病患者的70%左右。那么，痤疮是什么原因引起的呢？下面就给大家介绍一些相关内容。1、雄性激素分泌过旺：男女都会长痘痘，但是女孩子比较喜欢用化妆品来掩盖脸上的问题，而且很多人不知道这样做反而加重了自己的毛囊炎症状，所以说平时应该少使用含有雌激素类的产品。2、饮食习惯差：经常吃辛辣油腻的东西或者甜食也可能造成体内毒素堆积，从而诱发痤疮。3、压力太大：如果你总是处于紧张焦虑的情绪之中，同时还没有及时调整好心态，那么很容易出现内分泌失调的情况，进而影响到肌肤健康。4、睡眠质量差：熬夜对我们的身体伤害非常严重，尤其是对于年轻人群更甚，他们需要保证充足的睡眠才行，否则很容易让肌肤变得暗沉无光泽。                       |
+| 脸上长青春痘怎么办,能吃啥药,需要注意啥                                                               | 你好，根据您的描述考虑是痤疮。建议外用维胺酯乳膏或者阿达帕林凝胶进行治疗看看，平时禁忌辛辣和刺激性食物，如海鲜、狗肉、羊肉等“发”动品，以及葱蒜韭姜等刺激性调料。多喝水，少吃油腻高热量食物。                                                                                                                                                                                                                                                                                                     |
+| 由于输精管堵塞会不会导致男性不育？，医生您好，我同事这几天不开心，我问她怎么了，她说她老公输精管堵塞，所以一直没孩子，不是不想要，请问输精管堵塞会不会导致男性不育？ | 你好！根据你的叙述及症状推测：如果有输精管阻塞或者狭窄等情况都可能会引来无法排出来精液而影响怀上。建议到正规专业的快孕医院实施进行咨询和治疗为宜。对于输精管患者来说，及时救治是可以减低病发，如果不及时救治会影响到受孕情况。因此患者要及时药物救治，并且日常生活中要多看重自身护理                                                                                                                                                                                                                                                          |
+| 心肌梗塞能治疗吗？                                                                          | 心脏病是一种危害性极大的疾病，我们要对它有足够多的了解。在生活中很多人都会患上这个疾病，而且还不知道怎么去预防和护理，所以就导致自己的身体越来越差，那么下面小编给你介绍几点关于心脏病的常识吧！1、冠状动脉粥样硬化性心脏病：又称为冠心病或缺血型心脏病（IHD）,是世界各地最重要的死亡原因之一。2、风湿热：主要侵犯心脏瓣膜，可引起二尖瓣狭窄及其他类型的心脏瓣膜病变；3、先天性心脏病：包括房间隔缺损、室间隔缺损等；4、高脂蛋白血症：由于胆固醇与低密度脂蛋白升高，使得动脉壁增厚，管腔缩小，易形成斑块并脱落造成急性栓塞；5、肥胖：过量摄入食物，特别是含糖饮料，加速脂肪堆积，促进动脉粥样硬化发展；6、吸烟：尼古丁刺激交感神经兴奋，使外周阻力增强，收缩压升高，舒张期减短，从而降低左右心室射血分数，诱发心律失常；7、酗酒：长期嗜酒者，肝功受到影响，代谢紊乱，容易出现脂质代谢异常。 |
+| 怎么让自己精力充沛，列5点建议                                                                    | 1、保证睡眠质量：每天晚上7-8小时的高质量睡眠是提升身体和大脑活跃度最有效的方法。2、合理饮食：均衡营养摄入对于维持人体正常运转至关重要，多吃蔬菜水果，少油腻辛辣刺激性食物。3、适当锻炼：坚持一定强度的锻炼可以促进血液循环，增加肌肉耐力，改善心肺功能等。4、学习新知识：不断接触新事物，开拓视野，思考问题，都会使得我们更具创造力与灵感。5、放松心情：通过冥想或者瑜伽来缓解压力，也可以听音乐或看电影来调节情绪。                                                                                                                                                                 |
+| 写个春天的诗                                                                             | 春风吹拂，花儿绽放。<br/>阳光明媚，鸟语鸣叫。<br/>树木抽芽，草地变绿。<br/>万物复苏，生机勃发。                                                                                                                                                                                                                                                                                                                                                   |
+| 南极洲为啥没有北极熊?                                                                        |南极是世界上最大的冰盖，覆盖着98％以上的地球表面积。它位于南纬60度至74度之间，环绕在海洋中心周围。由于其独特的气候条件和生态系统，南极被称为“真正的荒野”。南极洲拥有丰富多样的动植物资源，但这里并不存在北极熊。 那么，为什么南极洲没有北极熊呢？首先，我们需要了解一下两者栖息地的差异。北极熊主要分布在北半球寒冷的高纬度地区，如加拿大、格陵兰岛等地。而南极洲则处于南半球，属于温带或寒带气候类型。虽然南极洲也有很低的平均气温（-25℃左右），但与北极相比还是太热了。因此，即使北极熊能够适应更严酷的气候条件，它们也无法在南极找到合适的栖息地。另外，南极洲缺乏陆地哺乳动物食物来源，包括鱼类、鲸鱼和企鹅等。尽管南极洲的水域中也有各种鱼类，但数量远少于北极圈内。同时，南极洲的土著居民——企鹅群体繁殖季节期间会消耗掉大部分可用的食物资源，导致当地的鱼类数量减少甚至枯竭。|
+
+### 训练数据集
+
+- 50万条中文ChatGPT指令Belle数据集：[BelleGroup/train_0.5M_CN](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN)
+- 100万条中文ChatGPT指令Belle数据集：[BelleGroup/train_1M_CN](https://huggingface.co/datasets/BelleGroup/train_1M_CN)
+- 5万条英文ChatGPT指令Alpaca数据集：[50k English Stanford Alpaca dataset](https://github.com/tatsu-lab/stanford_alpaca#data-release)
+- 2万条中文ChatGPT指令Alpaca数据集：[shibing624/alpaca-zh](https://huggingface.co/datasets/shibing624/alpaca-zh)
+- 69万条中文指令Guanaco数据集(Belle50万条+Guanaco19万条)：[Chinese-Vicuna/guanaco_belle_merge_v1.0](https://huggingface.co/datasets/Chinese-Vicuna/guanaco_belle_merge_v1.0)
+- 240万条中文医疗数据集(包括预训练数据和指令微调数据集)：[shibing624/medical](https://huggingface.co/datasets/shibing624/medical)
+
+如果需要训练ChatGLM/LLAMA/BLOOM模型，请参考[https://github.com/shibing624/textgen](https://github.com/shibing624/textgen)
+
+
+## Citation
+
+```latex
+@software{textgen,
+  author = {Ming Xu},
+  title = {textgen: Implementation of language model finetune},
+  year = {2023},
+  url = {https://github.com/shibing624/textgen},
+}
+```
--- a/added_tokens.json
+++ b/added_tokens.json
@@ -0,0 +1,4 @@
+{
+  "<bot>": 39409,
+  "<human>": 39408
+}
--- a/config.json
+++ b/config.json
@@ -0,0 +1,23 @@
+{
+  "_name_or_path": "shibing624/ziya-llama-13b-medical-merged",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 5120,
+  "initializer_range": 0.02,
+  "intermediate_size": 13824,
+  "max_position_embeddings": 2048,
+  "model_type": "llama",
+  "num_attention_heads": 40,
+  "num_hidden_layers": 40,
+  "pad_token_id": 0,
+  "rms_norm_eps": 1e-06,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.30.2",
+  "use_cache": true,
+  "vocab_size": 39410
+}
--- a/evalloss.png
+++ b/evalloss.png
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,7 @@
+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.30.2"
+}
--- a/pytorch_model-00001-of-00003.bin
+++ b/pytorch_model-00001-of-00003.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:06b5be544b641e85e9f88537f9c7c947fceb34e0eb171aec27cdb9ccdb9b6b96
+size 9972179827
--- a/pytorch_model-00002-of-00003.bin
+++ b/pytorch_model-00002-of-00003.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b22ef3cba54b5cb975f2d9bd213647eb15cdebc7fef90cebdb446e24c843e124
+size 9956596375
--- a/pytorch_model-00003-of-00003.bin
+++ b/pytorch_model-00003-of-00003.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4773088e6a09343abf518b3a5b58f5a59e15640cf47a06b35b5d0021c063e913
+size 6254863369
--- a/pytorch_model.bin.index.json
+++ b/pytorch_model.bin.index.json
@@ -0,0 +1,410 @@
+{
+  "metadata": {
+    "total_size": 26183495680
+  },
+  "weight_map": {
+    "lm_head.weight": "pytorch_model-00003-of-00003.bin",
+    "model.embed_tokens.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.15.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.15.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.2.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.20.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.3.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.30.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.30.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.30.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.30.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.30.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.31.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.4.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.norm.weight": "pytorch_model-00003-of-00003.bin"
+  }
+}
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,27 @@
+{
+  "additional_special_tokens": [
+    "<human>",
+    "<bot>"
+  ],
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}
--- a/tokenizer.model
+++ b/tokenizer.model
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6fd7e445833dd0889206aba242c2a51ecbae2437fd328d1759a35475fd8c0423
+size 588619
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,34 @@
+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "trust_remote_code": true,
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}
--- a/trainer_state.json
+++ b/trainer_state.json
--- a/trainloss.png
+++ b/trainloss.png