初始化项目，由ModelHub XC社区提供模型

Model: bigcode/octocoder Source: Original Platform
2026-05-10 08:17:22 +08:00
commit f3a7d2dfc3
25 changed files with 49830 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,49 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer_config.json filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
 vocab.json filter=lfs diff=lfs merge=lfs -text
 config.json filter=lfs diff=lfs merge=lfs -text
 generation_config.json filter=lfs diff=lfs merge=lfs -text
 pytorch_model.bin.index.json filter=lfs diff=lfs merge=lfs -text
 special_tokens_map.json filter=lfs diff=lfs merge=lfs -text
 pytorch_model-00003-of-00007.bin filter=lfs diff=lfs merge=lfs -text
 pytorch_model-00004-of-00007.bin filter=lfs diff=lfs merge=lfs -text
 pytorch_model-00005-of-00007.bin filter=lfs diff=lfs merge=lfs -text
 pytorch_model-00006-of-00007.bin filter=lfs diff=lfs merge=lfs -text
 pytorch_model-00007-of-00007.bin filter=lfs diff=lfs merge=lfs -text
 pytorch_model-00001-of-00007.bin filter=lfs diff=lfs merge=lfs -text
 pytorch_model-00002-of-00007.bin filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,334 @@
 ---
 pipeline_tag: text-generation
 inference: true
 widget:
 - text: 'Question: Please write a function in Python that performs bubble sort.\n\nAnswer:'
  example_title: Bubble sort
  group: Python
 license: bigcode-openrail-m
 datasets:
 - bigcode/commitpackft
 - bigcode/oasst-octopack
 metrics:
 - code_eval
 library_name: transformers
 tags:
 - code
 model-index:
 - name: OctoCoder
  results:
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalSynthesize Python
    metrics:
    - name: pass@1
      type: pass@1
      value: 46.2
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalSynthesize JavaScript
    metrics:
    - name: pass@1
      type: pass@1
      value: 39.2
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalSynthesize Java
    metrics:
    - name: pass@1
      type: pass@1
      value: 38.2
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalSynthesize Go
    metrics:
    - name: pass@1
      type: pass@1
      value: 30.4
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalSynthesize C++
    metrics:
    - name: pass@1
      type: pass@1
      value: 35.6
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalSynthesize Rust
    metrics:
    - name: pass@1
      type: pass@1
      value: 23.4
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalSynthesize Average
    metrics:
    - name: pass@1
      type: pass@1
      value: 35.5
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalFix Python
    metrics:
    - name: pass@1
      type: pass@1
      value: 30.4
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalFix JavaScript
    metrics:
    - name: pass@1
      type: pass@1
      value: 28.4
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalFix Java
    metrics:
    - name: pass@1
      type: pass@1
      value: 30.6
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalFix Go
    metrics:
    - name: pass@1
      type: pass@1
      value: 30.2
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalFix C++
    metrics:
    - name: pass@1
      type: pass@1
      value: 26.1
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalFix Rust
    metrics:
    - name: pass@1
      type: pass@1
      value: 16.5
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalFix Average
    metrics:
    - name: pass@1
      type: pass@1
      value: 27.0
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalExplain Python
    metrics:
    - name: pass@1
      type: pass@1
      value: 35.1
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalExplain JavaScript
    metrics:
    - name: pass@1
      type: pass@1
      value: 24.5
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalExplain Java
    metrics:
    - name: pass@1
      type: pass@1
      value: 27.3
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalExplain Go
    metrics:
    - name: pass@1
      type: pass@1
      value: 21.1
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalExplain C++
    metrics:
    - name: pass@1
      type: pass@1
      value: 24.1
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalExplain Rust
    metrics:
    - name: pass@1
      type: pass@1
      value: 14.8
      verified: false
  - task:
      type: text-generation
    dataset:
      type: bigcode/humanevalpack
      name: HumanEvalExplain Average
    metrics:
    - name: pass@1
      type: pass@1
      value: 24.5
      verified: false
 ---
 ![Octopack](https://github.com/bigcode-project/octopack/blob/31f3320f098703c7910e43492c39366eeea68d83/banner.png?raw=true)
 # Table of Contents
 1. [Model Summary](#model-summary)
 2. [Use](#use)
 3. [Training](#training)
 4. [Citation](#citation)
 # Model Summary
 > OctoCoder is an instruction tuned model with 15.5B parameters created by finetuning StarCoder on CommitPackFT & OASST as described in the OctoPack paper.
 - **Repository:** [bigcode-project/octopack](https://github.com/bigcode-project/octopack)
 - **Paper:** [OctoPack: Instruction Tuning Code Large Language Models](https://arxiv.org/abs/2308.07124)
 - **Languages:** 80+ Programming languages
 - **OctoPack🐙🎒:**
 <table>
 <tr>
 <th>Data</t> 
 <th><a href=https://huggingface.co/datasets/bigcode/commitpack>CommitPack</a></th>
 <td>4TB of GitHub commits across 350 programming languages</td>
 </tr>
 <tr>
 <th></t> 
 <th><a href=https://huggingface.co/datasets/bigcode/commitpackft>CommitPackFT</a></th>
 <td>Filtered version of CommitPack for high-quality commit messages that resemble instructions</td>
 </tr>
 <tr>
 <th>Model</t> 
 <th><a href=https://huggingface.co/bigcode/octocoder>OctoCoder</a></th>
 <td>StarCoder (16B parameters) instruction tuned on CommitPackFT + OASST</td>
 </tr>
 <tr>
 <th></t> 
 <th><a href=https://huggingface.co/bigcode/octogeex>OctoGeeX</a></th>
 <td>CodeGeeX2 (6B parameters) instruction tuned on CommitPackFT + OASST</td>
 </tr>
 <tr>
 <th>Evaluation&nbsp;&nbsp;</t> 
 <th><a href=https://huggingface.co/datasets/bigcode/humanevalpack>HumanEvalPack</a></th>
 <td>Extension of OpenAI's HumanEval to cover 3 scenarios across 6 languages</td>
 </tr>
 </table>
 # Use
 ## Intended use
 The model follows instructions provided in the input. You should always preface your input with "Question: " and finish it with "Answer:", for example: "Question: Please write a function in Python that performs bubble sort.\n\nAnswer:"
 **Feel free to share your generations in the Community tab!**
 ## Generation
 ```python
 # pip install -q transformers
 from transformers import AutoModelForCausalLM, AutoTokenizer
 checkpoint = "bigcode/octocoder"
 device = "cuda" # for GPU usage or "cpu" for CPU usage
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
 inputs = tokenizer.encode("Question: Please write a function in Python that performs bubble sort.\n\nAnswer:", return_tensors="pt").to(device)
 outputs = model.generate(inputs)
 print(tokenizer.decode(outputs[0]))
 ```
 # Training
 ## Model
 - **Architecture:** GPT-2 model with multi-query attention and Fill-in-the-Middle objective
 - **Steps:** 250k pretraining & 30 instruction tuning
 - **Pretraining tokens:** 1 trillion pretraining & 2M instruction tuning
 - **Precision:** bfloat16
 ## Hardware
 - **Pretraining:**
  - **GPUs:** 512 Tesla A100
  - **Training time:** 24 days
 - **Instruction tuning:**
  - **GPUs:** 8 Tesla A100
  - **Training time:** 4 hours
 ## Software
 - **Orchestration:** [Megatron-LM/Transformers](https://github.com/bigcode-project/octopack#training)
 - **Neural networks:** [PyTorch](https://github.com/pytorch/pytorch)
 # Citation
 ```bibtex
@article{muennighoff2023octopack,
      title={OctoPack: Instruction Tuning Code Large Language Models}, 
      author={Niklas Muennighoff and Qian Liu and Armel Zebaze and Qinkai Zheng and Binyuan Hui and Terry Yue Zhuo and Swayam Singh and Xiangru Tang and Leandro von Werra and Shayne Longpre},
      journal={arXiv preprint arXiv:2308.07124},
      year={2023}
 }
 ```
--- a/config.json
+++ b/config.json
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:0dc5b8bf6be78dfacc1a5ddb7e2224b69dfbe0a30e632db4891784ce3340f9bb
 size 1008
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:634b0b7323db9a5f1421a068af9f79c9a2b403496a74cd2ce44e6207af41d912
 size 116
--- a/merges.txt
+++ b/merges.txt
--- a/model-00001-of-00007.safetensors
+++ b/model-00001-of-00007.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:09ac7601c3d2f981714b44d2b52c9caebd0c77b934e56203d6021d91e00bf41c
 size 9904362872
--- a/model-00002-of-00007.safetensors
+++ b/model-00002-of-00007.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:e983ec634521f4e32fb06de0a37de5a12adf1195f1d56ef662647a20179c2dd8
 size 9860447256
--- a/model-00003-of-00007.safetensors
+++ b/model-00003-of-00007.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:dc9b7beaba475db0578e79ecc545a2f6c7647c05deab03bed3b92da52b930341
 size 9854228560
--- a/model-00004-of-00007.safetensors
+++ b/model-00004-of-00007.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:1c3207001107e933840897b7b4f54f89c666115efa47c15e5624be58a8bae189
 size 9860447304
--- a/model-00005-of-00007.safetensors
+++ b/model-00005-of-00007.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:71f732da4a08546b712eed97021bf29aa7d57f40f817528eab4a46214c6b15e9
 size 9854228560
--- a/model-00006-of-00007.safetensors
+++ b/model-00006-of-00007.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:e3834928c2ea4919d6fe81e379ff16343f802dd57d9a00d1828c92df89a706ec
 size 9860447304
--- a/model-00007-of-00007.safetensors
+++ b/model-00007-of-00007.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:b053bc62199e0d4636f6819412fb45065311f71a886194a14309ebbb1608c69b
 size 2875714840
--- a/model.safetensors.index.json
+++ b/model.safetensors.index.json
@@ -0,0 +1,492 @@
 {
    "metadata": {
        "total_size": 62069825536
    },
    "weight_map": {
        "lm_head.weight": "model-00001-of-00007.safetensors",
        "transformer.h.0.attn.c_attn.bias": "model-00001-of-00007.safetensors",
        "transformer.h.0.attn.c_attn.weight": "model-00001-of-00007.safetensors",
        "transformer.h.0.attn.c_proj.bias": "model-00001-of-00007.safetensors",
        "transformer.h.0.attn.c_proj.weight": "model-00001-of-00007.safetensors",
        "transformer.h.0.ln_1.bias": "model-00001-of-00007.safetensors",
        "transformer.h.0.ln_1.weight": "model-00001-of-00007.safetensors",
        "transformer.h.0.ln_2.bias": "model-00001-of-00007.safetensors",
        "transformer.h.0.ln_2.weight": "model-00001-of-00007.safetensors",
        "transformer.h.0.mlp.c_fc.bias": "model-00001-of-00007.safetensors",
        "transformer.h.0.mlp.c_fc.weight": "model-00001-of-00007.safetensors",
        "transformer.h.0.mlp.c_proj.bias": "model-00001-of-00007.safetensors",
        "transformer.h.0.mlp.c_proj.weight": "model-00001-of-00007.safetensors",
        "transformer.h.1.attn.c_attn.bias": "model-00001-of-00007.safetensors",
        "transformer.h.1.attn.c_attn.weight": "model-00001-of-00007.safetensors",
        "transformer.h.1.attn.c_proj.bias": "model-00001-of-00007.safetensors",
        "transformer.h.1.attn.c_proj.weight": "model-00001-of-00007.safetensors",
        "transformer.h.1.ln_1.bias": "model-00001-of-00007.safetensors",
        "transformer.h.1.ln_1.weight": "model-00001-of-00007.safetensors",
        "transformer.h.1.ln_2.bias": "model-00001-of-00007.safetensors",
        "transformer.h.1.ln_2.weight": "model-00001-of-00007.safetensors",
        "transformer.h.1.mlp.c_fc.bias": "model-00001-of-00007.safetensors",
        "transformer.h.1.mlp.c_fc.weight": "model-00001-of-00007.safetensors",
        "transformer.h.1.mlp.c_proj.bias": "model-00001-of-00007.safetensors",
        "transformer.h.1.mlp.c_proj.weight": "model-00001-of-00007.safetensors",
        "transformer.h.10.attn.c_attn.bias": "model-00002-of-00007.safetensors",
        "transformer.h.10.attn.c_attn.weight": "model-00002-of-00007.safetensors",
        "transformer.h.10.attn.c_proj.bias": "model-00002-of-00007.safetensors",
        "transformer.h.10.attn.c_proj.weight": "model-00002-of-00007.safetensors",
        "transformer.h.10.ln_1.bias": "model-00002-of-00007.safetensors",
        "transformer.h.10.ln_1.weight": "model-00002-of-00007.safetensors",
        "transformer.h.10.ln_2.bias": "model-00002-of-00007.safetensors",
        "transformer.h.10.ln_2.weight": "model-00002-of-00007.safetensors",
        "transformer.h.10.mlp.c_fc.bias": "model-00002-of-00007.safetensors",
        "transformer.h.10.mlp.c_fc.weight": "model-00002-of-00007.safetensors",
        "transformer.h.10.mlp.c_proj.bias": "model-00002-of-00007.safetensors",
        "transformer.h.10.mlp.c_proj.weight": "model-00002-of-00007.safetensors",
        "transformer.h.11.attn.c_attn.bias": "model-00002-of-00007.safetensors",
        "transformer.h.11.attn.c_attn.weight": "model-00002-of-00007.safetensors",
        "transformer.h.11.attn.c_proj.bias": "model-00002-of-00007.safetensors",
        "transformer.h.11.attn.c_proj.weight": "model-00002-of-00007.safetensors",
        "transformer.h.11.ln_1.bias": "model-00002-of-00007.safetensors",
        "transformer.h.11.ln_1.weight": "model-00002-of-00007.safetensors",
        "transformer.h.11.ln_2.bias": "model-00002-of-00007.safetensors",
        "transformer.h.11.ln_2.weight": "model-00002-of-00007.safetensors",
        "transformer.h.11.mlp.c_fc.bias": "model-00002-of-00007.safetensors",
        "transformer.h.11.mlp.c_fc.weight": "model-00002-of-00007.safetensors",
        "transformer.h.11.mlp.c_proj.bias": "model-00002-of-00007.safetensors",
        "transformer.h.11.mlp.c_proj.weight": "model-00002-of-00007.safetensors",
        "transformer.h.12.attn.c_attn.bias": "model-00002-of-00007.safetensors",
        "transformer.h.12.attn.c_attn.weight": "model-00002-of-00007.safetensors",
        "transformer.h.12.attn.c_proj.bias": "model-00003-of-00007.safetensors",
        "transformer.h.12.attn.c_proj.weight": "model-00003-of-00007.safetensors",
        "transformer.h.12.ln_1.bias": "model-00002-of-00007.safetensors",
        "transformer.h.12.ln_1.weight": "model-00002-of-00007.safetensors",
        "transformer.h.12.ln_2.bias": "model-00003-of-00007.safetensors",
        "transformer.h.12.ln_2.weight": "model-00003-of-00007.safetensors",
        "transformer.h.12.mlp.c_fc.bias": "model-00003-of-00007.safetensors",
        "transformer.h.12.mlp.c_fc.weight": "model-00003-of-00007.safetensors",
        "transformer.h.12.mlp.c_proj.bias": "model-00003-of-00007.safetensors",
        "transformer.h.12.mlp.c_proj.weight": "model-00003-of-00007.safetensors",
        "transformer.h.13.attn.c_attn.bias": "model-00003-of-00007.safetensors",
        "transformer.h.13.attn.c_attn.weight": "model-00003-of-00007.safetensors",
        "transformer.h.13.attn.c_proj.bias": "model-00003-of-00007.safetensors",
        "transformer.h.13.attn.c_proj.weight": "model-00003-of-00007.safetensors",
        "transformer.h.13.ln_1.bias": "model-00003-of-00007.safetensors",
        "transformer.h.13.ln_1.weight": "model-00003-of-00007.safetensors",
        "transformer.h.13.ln_2.bias": "model-00003-of-00007.safetensors",
        "transformer.h.13.ln_2.weight": "model-00003-of-00007.safetensors",
        "transformer.h.13.mlp.c_fc.bias": "model-00003-of-00007.safetensors",
        "transformer.h.13.mlp.c_fc.weight": "model-00003-of-00007.safetensors",
        "transformer.h.13.mlp.c_proj.bias": "model-00003-of-00007.safetensors",
        "transformer.h.13.mlp.c_proj.weight": "model-00003-of-00007.safetensors",
        "transformer.h.14.attn.c_attn.bias": "model-00003-of-00007.safetensors",
        "transformer.h.14.attn.c_attn.weight": "model-00003-of-00007.safetensors",
        "transformer.h.14.attn.c_proj.bias": "model-00003-of-00007.safetensors",
        "transformer.h.14.attn.c_proj.weight": "model-00003-of-00007.safetensors",
        "transformer.h.14.ln_1.bias": "model-00003-of-00007.safetensors",
        "transformer.h.14.ln_1.weight": "model-00003-of-00007.safetensors",
        "transformer.h.14.ln_2.bias": "model-00003-of-00007.safetensors",
        "transformer.h.14.ln_2.weight": "model-00003-of-00007.safetensors",
        "transformer.h.14.mlp.c_fc.bias": "model-00003-of-00007.safetensors",
        "transformer.h.14.mlp.c_fc.weight": "model-00003-of-00007.safetensors",
        "transformer.h.14.mlp.c_proj.bias": "model-00003-of-00007.safetensors",
        "transformer.h.14.mlp.c_proj.weight": "model-00003-of-00007.safetensors",
        "transformer.h.15.attn.c_attn.bias": "model-00003-of-00007.safetensors",
        "transformer.h.15.attn.c_attn.weight": "model-00003-of-00007.safetensors",
        "transformer.h.15.attn.c_proj.bias": "model-00003-of-00007.safetensors",
        "transformer.h.15.attn.c_proj.weight": "model-00003-of-00007.safetensors",
        "transformer.h.15.ln_1.bias": "model-00003-of-00007.safetensors",
        "transformer.h.15.ln_1.weight": "model-00003-of-00007.safetensors",
        "transformer.h.15.ln_2.bias": "model-00003-of-00007.safetensors",
        "transformer.h.15.ln_2.weight": "model-00003-of-00007.safetensors",
        "transformer.h.15.mlp.c_fc.bias": "model-00003-of-00007.safetensors",
        "transformer.h.15.mlp.c_fc.weight": "model-00003-of-00007.safetensors",
        "transformer.h.15.mlp.c_proj.bias": "model-00003-of-00007.safetensors",
        "transformer.h.15.mlp.c_proj.weight": "model-00003-of-00007.safetensors",
        "transformer.h.16.attn.c_attn.bias": "model-00003-of-00007.safetensors",
        "transformer.h.16.attn.c_attn.weight": "model-00003-of-00007.safetensors",
        "transformer.h.16.attn.c_proj.bias": "model-00003-of-00007.safetensors",
        "transformer.h.16.attn.c_proj.weight": "model-00003-of-00007.safetensors",
        "transformer.h.16.ln_1.bias": "model-00003-of-00007.safetensors",
        "transformer.h.16.ln_1.weight": "model-00003-of-00007.safetensors",
        "transformer.h.16.ln_2.bias": "model-00003-of-00007.safetensors",
        "transformer.h.16.ln_2.weight": "model-00003-of-00007.safetensors",
        "transformer.h.16.mlp.c_fc.bias": "model-00003-of-00007.safetensors",
        "transformer.h.16.mlp.c_fc.weight": "model-00003-of-00007.safetensors",
        "transformer.h.16.mlp.c_proj.bias": "model-00003-of-00007.safetensors",
        "transformer.h.16.mlp.c_proj.weight": "model-00003-of-00007.safetensors",
        "transformer.h.17.attn.c_attn.bias": "model-00003-of-00007.safetensors",
        "transformer.h.17.attn.c_attn.weight": "model-00003-of-00007.safetensors",
        "transformer.h.17.attn.c_proj.bias": "model-00003-of-00007.safetensors",
        "transformer.h.17.attn.c_proj.weight": "model-00003-of-00007.safetensors",
        "transformer.h.17.ln_1.bias": "model-00003-of-00007.safetensors",
        "transformer.h.17.ln_1.weight": "model-00003-of-00007.safetensors",
        "transformer.h.17.ln_2.bias": "model-00003-of-00007.safetensors",
        "transformer.h.17.ln_2.weight": "model-00003-of-00007.safetensors",
        "transformer.h.17.mlp.c_fc.bias": "model-00003-of-00007.safetensors",
        "transformer.h.17.mlp.c_fc.weight": "model-00003-of-00007.safetensors",
        "transformer.h.17.mlp.c_proj.bias": "model-00003-of-00007.safetensors",
        "transformer.h.17.mlp.c_proj.weight": "model-00003-of-00007.safetensors",
        "transformer.h.18.attn.c_attn.bias": "model-00003-of-00007.safetensors",
        "transformer.h.18.attn.c_attn.weight": "model-00003-of-00007.safetensors",
        "transformer.h.18.attn.c_proj.bias": "model-00003-of-00007.safetensors",
        "transformer.h.18.attn.c_proj.weight": "model-00003-of-00007.safetensors",
        "transformer.h.18.ln_1.bias": "model-00003-of-00007.safetensors",
        "transformer.h.18.ln_1.weight": "model-00003-of-00007.safetensors",
        "transformer.h.18.ln_2.bias": "model-00003-of-00007.safetensors",
        "transformer.h.18.ln_2.weight": "model-00003-of-00007.safetensors",
        "transformer.h.18.mlp.c_fc.bias": "model-00003-of-00007.safetensors",
        "transformer.h.18.mlp.c_fc.weight": "model-00003-of-00007.safetensors",
        "transformer.h.18.mlp.c_proj.bias": "model-00004-of-00007.safetensors",
        "transformer.h.18.mlp.c_proj.weight": "model-00004-of-00007.safetensors",
        "transformer.h.19.attn.c_attn.bias": "model-00004-of-00007.safetensors",
        "transformer.h.19.attn.c_attn.weight": "model-00004-of-00007.safetensors",
        "transformer.h.19.attn.c_proj.bias": "model-00004-of-00007.safetensors",
        "transformer.h.19.attn.c_proj.weight": "model-00004-of-00007.safetensors",
        "transformer.h.19.ln_1.bias": "model-00004-of-00007.safetensors",
        "transformer.h.19.ln_1.weight": "model-00004-of-00007.safetensors",
        "transformer.h.19.ln_2.bias": "model-00004-of-00007.safetensors",
        "transformer.h.19.ln_2.weight": "model-00004-of-00007.safetensors",
        "transformer.h.19.mlp.c_fc.bias": "model-00004-of-00007.safetensors",
        "transformer.h.19.mlp.c_fc.weight": "model-00004-of-00007.safetensors",
        "transformer.h.19.mlp.c_proj.bias": "model-00004-of-00007.safetensors",
        "transformer.h.19.mlp.c_proj.weight": "model-00004-of-00007.safetensors",
        "transformer.h.2.attn.c_attn.bias": "model-00001-of-00007.safetensors",
        "transformer.h.2.attn.c_attn.weight": "model-00001-of-00007.safetensors",
        "transformer.h.2.attn.c_proj.bias": "model-00001-of-00007.safetensors",
        "transformer.h.2.attn.c_proj.weight": "model-00001-of-00007.safetensors",
        "transformer.h.2.ln_1.bias": "model-00001-of-00007.safetensors",
        "transformer.h.2.ln_1.weight": "model-00001-of-00007.safetensors",
        "transformer.h.2.ln_2.bias": "model-00001-of-00007.safetensors",
        "transformer.h.2.ln_2.weight": "model-00001-of-00007.safetensors",
        "transformer.h.2.mlp.c_fc.bias": "model-00001-of-00007.safetensors",
        "transformer.h.2.mlp.c_fc.weight": "model-00001-of-00007.safetensors",
        "transformer.h.2.mlp.c_proj.bias": "model-00001-of-00007.safetensors",
        "transformer.h.2.mlp.c_proj.weight": "model-00001-of-00007.safetensors",
        "transformer.h.20.attn.c_attn.bias": "model-00004-of-00007.safetensors",
        "transformer.h.20.attn.c_attn.weight": "model-00004-of-00007.safetensors",
        "transformer.h.20.attn.c_proj.bias": "model-00004-of-00007.safetensors",
        "transformer.h.20.attn.c_proj.weight": "model-00004-of-00007.safetensors",
        "transformer.h.20.ln_1.bias": "model-00004-of-00007.safetensors",
        "transformer.h.20.ln_1.weight": "model-00004-of-00007.safetensors",
        "transformer.h.20.ln_2.bias": "model-00004-of-00007.safetensors",
        "transformer.h.20.ln_2.weight": "model-00004-of-00007.safetensors",
        "transformer.h.20.mlp.c_fc.bias": "model-00004-of-00007.safetensors",
        "transformer.h.20.mlp.c_fc.weight": "model-00004-of-00007.safetensors",
        "transformer.h.20.mlp.c_proj.bias": "model-00004-of-00007.safetensors",
        "transformer.h.20.mlp.c_proj.weight": "model-00004-of-00007.safetensors",
        "transformer.h.21.attn.c_attn.bias": "model-00004-of-00007.safetensors",
        "transformer.h.21.attn.c_attn.weight": "model-00004-of-00007.safetensors",
        "transformer.h.21.attn.c_proj.bias": "model-00004-of-00007.safetensors",
        "transformer.h.21.attn.c_proj.weight": "model-00004-of-00007.safetensors",
        "transformer.h.21.ln_1.bias": "model-00004-of-00007.safetensors",
        "transformer.h.21.ln_1.weight": "model-00004-of-00007.safetensors",
        "transformer.h.21.ln_2.bias": "model-00004-of-00007.safetensors",
        "transformer.h.21.ln_2.weight": "model-00004-of-00007.safetensors",
        "transformer.h.21.mlp.c_fc.bias": "model-00004-of-00007.safetensors",
        "transformer.h.21.mlp.c_fc.weight": "model-00004-of-00007.safetensors",
        "transformer.h.21.mlp.c_proj.bias": "model-00004-of-00007.safetensors",
        "transformer.h.21.mlp.c_proj.weight": "model-00004-of-00007.safetensors",
        "transformer.h.22.attn.c_attn.bias": "model-00004-of-00007.safetensors",
        "transformer.h.22.attn.c_attn.weight": "model-00004-of-00007.safetensors",
        "transformer.h.22.attn.c_proj.bias": "model-00004-of-00007.safetensors",
        "transformer.h.22.attn.c_proj.weight": "model-00004-of-00007.safetensors",
        "transformer.h.22.ln_1.bias": "model-00004-of-00007.safetensors",
        "transformer.h.22.ln_1.weight": "model-00004-of-00007.safetensors",
        "transformer.h.22.ln_2.bias": "model-00004-of-00007.safetensors",
        "transformer.h.22.ln_2.weight": "model-00004-of-00007.safetensors",
        "transformer.h.22.mlp.c_fc.bias": "model-00004-of-00007.safetensors",
        "transformer.h.22.mlp.c_fc.weight": "model-00004-of-00007.safetensors",
        "transformer.h.22.mlp.c_proj.bias": "model-00004-of-00007.safetensors",
        "transformer.h.22.mlp.c_proj.weight": "model-00004-of-00007.safetensors",
        "transformer.h.23.attn.c_attn.bias": "model-00004-of-00007.safetensors",
        "transformer.h.23.attn.c_attn.weight": "model-00004-of-00007.safetensors",
        "transformer.h.23.attn.c_proj.bias": "model-00004-of-00007.safetensors",
        "transformer.h.23.attn.c_proj.weight": "model-00004-of-00007.safetensors",
        "transformer.h.23.ln_1.bias": "model-00004-of-00007.safetensors",
        "transformer.h.23.ln_1.weight": "model-00004-of-00007.safetensors",
        "transformer.h.23.ln_2.bias": "model-00004-of-00007.safetensors",
        "transformer.h.23.ln_2.weight": "model-00004-of-00007.safetensors",
        "transformer.h.23.mlp.c_fc.bias": "model-00004-of-00007.safetensors",
        "transformer.h.23.mlp.c_fc.weight": "model-00004-of-00007.safetensors",
        "transformer.h.23.mlp.c_proj.bias": "model-00004-of-00007.safetensors",
        "transformer.h.23.mlp.c_proj.weight": "model-00004-of-00007.safetensors",
        "transformer.h.24.attn.c_attn.bias": "model-00004-of-00007.safetensors",
        "transformer.h.24.attn.c_attn.weight": "model-00004-of-00007.safetensors",
        "transformer.h.24.attn.c_proj.bias": "model-00004-of-00007.safetensors",
        "transformer.h.24.attn.c_proj.weight": "model-00004-of-00007.safetensors",
        "transformer.h.24.ln_1.bias": "model-00004-of-00007.safetensors",
        "transformer.h.24.ln_1.weight": "model-00004-of-00007.safetensors",
        "transformer.h.24.ln_2.bias": "model-00004-of-00007.safetensors",
        "transformer.h.24.ln_2.weight": "model-00004-of-00007.safetensors",
        "transformer.h.24.mlp.c_fc.bias": "model-00004-of-00007.safetensors",
        "transformer.h.24.mlp.c_fc.weight": "model-00004-of-00007.safetensors",
        "transformer.h.24.mlp.c_proj.bias": "model-00004-of-00007.safetensors",
        "transformer.h.24.mlp.c_proj.weight": "model-00004-of-00007.safetensors",
        "transformer.h.25.attn.c_attn.bias": "model-00004-of-00007.safetensors",
        "transformer.h.25.attn.c_attn.weight": "model-00004-of-00007.safetensors",
        "transformer.h.25.attn.c_proj.bias": "model-00005-of-00007.safetensors",
        "transformer.h.25.attn.c_proj.weight": "model-00005-of-00007.safetensors",
        "transformer.h.25.ln_1.bias": "model-00004-of-00007.safetensors",
        "transformer.h.25.ln_1.weight": "model-00004-of-00007.safetensors",
        "transformer.h.25.ln_2.bias": "model-00005-of-00007.safetensors",
        "transformer.h.25.ln_2.weight": "model-00005-of-00007.safetensors",
        "transformer.h.25.mlp.c_fc.bias": "model-00005-of-00007.safetensors",
        "transformer.h.25.mlp.c_fc.weight": "model-00005-of-00007.safetensors",
        "transformer.h.25.mlp.c_proj.bias": "model-00005-of-00007.safetensors",
        "transformer.h.25.mlp.c_proj.weight": "model-00005-of-00007.safetensors",
        "transformer.h.26.attn.c_attn.bias": "model-00005-of-00007.safetensors",
        "transformer.h.26.attn.c_attn.weight": "model-00005-of-00007.safetensors",
        "transformer.h.26.attn.c_proj.bias": "model-00005-of-00007.safetensors",
        "transformer.h.26.attn.c_proj.weight": "model-00005-of-00007.safetensors",
        "transformer.h.26.ln_1.bias": "model-00005-of-00007.safetensors",
        "transformer.h.26.ln_1.weight": "model-00005-of-00007.safetensors",
        "transformer.h.26.ln_2.bias": "model-00005-of-00007.safetensors",
        "transformer.h.26.ln_2.weight": "model-00005-of-00007.safetensors",
        "transformer.h.26.mlp.c_fc.bias": "model-00005-of-00007.safetensors",
        "transformer.h.26.mlp.c_fc.weight": "model-00005-of-00007.safetensors",
        "transformer.h.26.mlp.c_proj.bias": "model-00005-of-00007.safetensors",
        "transformer.h.26.mlp.c_proj.weight": "model-00005-of-00007.safetensors",
        "transformer.h.27.attn.c_attn.bias": "model-00005-of-00007.safetensors",
        "transformer.h.27.attn.c_attn.weight": "model-00005-of-00007.safetensors",
        "transformer.h.27.attn.c_proj.bias": "model-00005-of-00007.safetensors",
        "transformer.h.27.attn.c_proj.weight": "model-00005-of-00007.safetensors",
        "transformer.h.27.ln_1.bias": "model-00005-of-00007.safetensors",
        "transformer.h.27.ln_1.weight": "model-00005-of-00007.safetensors",
        "transformer.h.27.ln_2.bias": "model-00005-of-00007.safetensors",
        "transformer.h.27.ln_2.weight": "model-00005-of-00007.safetensors",
        "transformer.h.27.mlp.c_fc.bias": "model-00005-of-00007.safetensors",
        "transformer.h.27.mlp.c_fc.weight": "model-00005-of-00007.safetensors",
        "transformer.h.27.mlp.c_proj.bias": "model-00005-of-00007.safetensors",
        "transformer.h.27.mlp.c_proj.weight": "model-00005-of-00007.safetensors",
        "transformer.h.28.attn.c_attn.bias": "model-00005-of-00007.safetensors",
        "transformer.h.28.attn.c_attn.weight": "model-00005-of-00007.safetensors",
        "transformer.h.28.attn.c_proj.bias": "model-00005-of-00007.safetensors",
        "transformer.h.28.attn.c_proj.weight": "model-00005-of-00007.safetensors",
        "transformer.h.28.ln_1.bias": "model-00005-of-00007.safetensors",
        "transformer.h.28.ln_1.weight": "model-00005-of-00007.safetensors",
        "transformer.h.28.ln_2.bias": "model-00005-of-00007.safetensors",
        "transformer.h.28.ln_2.weight": "model-00005-of-00007.safetensors",
        "transformer.h.28.mlp.c_fc.bias": "model-00005-of-00007.safetensors",
        "transformer.h.28.mlp.c_fc.weight": "model-00005-of-00007.safetensors",
        "transformer.h.28.mlp.c_proj.bias": "model-00005-of-00007.safetensors",
        "transformer.h.28.mlp.c_proj.weight": "model-00005-of-00007.safetensors",
        "transformer.h.29.attn.c_attn.bias": "model-00005-of-00007.safetensors",
        "transformer.h.29.attn.c_attn.weight": "model-00005-of-00007.safetensors",
        "transformer.h.29.attn.c_proj.bias": "model-00005-of-00007.safetensors",
        "transformer.h.29.attn.c_proj.weight": "model-00005-of-00007.safetensors",
        "transformer.h.29.ln_1.bias": "model-00005-of-00007.safetensors",
        "transformer.h.29.ln_1.weight": "model-00005-of-00007.safetensors",
        "transformer.h.29.ln_2.bias": "model-00005-of-00007.safetensors",
        "transformer.h.29.ln_2.weight": "model-00005-of-00007.safetensors",
        "transformer.h.29.mlp.c_fc.bias": "model-00005-of-00007.safetensors",
        "transformer.h.29.mlp.c_fc.weight": "model-00005-of-00007.safetensors",
        "transformer.h.29.mlp.c_proj.bias": "model-00005-of-00007.safetensors",
        "transformer.h.29.mlp.c_proj.weight": "model-00005-of-00007.safetensors",
        "transformer.h.3.attn.c_attn.bias": "model-00001-of-00007.safetensors",
        "transformer.h.3.attn.c_attn.weight": "model-00001-of-00007.safetensors",
        "transformer.h.3.attn.c_proj.bias": "model-00001-of-00007.safetensors",
        "transformer.h.3.attn.c_proj.weight": "model-00001-of-00007.safetensors",
        "transformer.h.3.ln_1.bias": "model-00001-of-00007.safetensors",
        "transformer.h.3.ln_1.weight": "model-00001-of-00007.safetensors",
        "transformer.h.3.ln_2.bias": "model-00001-of-00007.safetensors",
        "transformer.h.3.ln_2.weight": "model-00001-of-00007.safetensors",
        "transformer.h.3.mlp.c_fc.bias": "model-00001-of-00007.safetensors",
        "transformer.h.3.mlp.c_fc.weight": "model-00001-of-00007.safetensors",
        "transformer.h.3.mlp.c_proj.bias": "model-00001-of-00007.safetensors",
        "transformer.h.3.mlp.c_proj.weight": "model-00001-of-00007.safetensors",
        "transformer.h.30.attn.c_attn.bias": "model-00005-of-00007.safetensors",
        "transformer.h.30.attn.c_attn.weight": "model-00005-of-00007.safetensors",
        "transformer.h.30.attn.c_proj.bias": "model-00005-of-00007.safetensors",
        "transformer.h.30.attn.c_proj.weight": "model-00005-of-00007.safetensors",
        "transformer.h.30.ln_1.bias": "model-00005-of-00007.safetensors",
        "transformer.h.30.ln_1.weight": "model-00005-of-00007.safetensors",
        "transformer.h.30.ln_2.bias": "model-00005-of-00007.safetensors",
        "transformer.h.30.ln_2.weight": "model-00005-of-00007.safetensors",
        "transformer.h.30.mlp.c_fc.bias": "model-00005-of-00007.safetensors",
        "transformer.h.30.mlp.c_fc.weight": "model-00005-of-00007.safetensors",
        "transformer.h.30.mlp.c_proj.bias": "model-00005-of-00007.safetensors",
        "transformer.h.30.mlp.c_proj.weight": "model-00005-of-00007.safetensors",
        "transformer.h.31.attn.c_attn.bias": "model-00005-of-00007.safetensors",
        "transformer.h.31.attn.c_attn.weight": "model-00005-of-00007.safetensors",
        "transformer.h.31.attn.c_proj.bias": "model-00005-of-00007.safetensors",
        "transformer.h.31.attn.c_proj.weight": "model-00005-of-00007.safetensors",
        "transformer.h.31.ln_1.bias": "model-00005-of-00007.safetensors",
        "transformer.h.31.ln_1.weight": "model-00005-of-00007.safetensors",
        "transformer.h.31.ln_2.bias": "model-00005-of-00007.safetensors",
        "transformer.h.31.ln_2.weight": "model-00005-of-00007.safetensors",
        "transformer.h.31.mlp.c_fc.bias": "model-00005-of-00007.safetensors",
        "transformer.h.31.mlp.c_fc.weight": "model-00005-of-00007.safetensors",
        "transformer.h.31.mlp.c_proj.bias": "model-00006-of-00007.safetensors",
        "transformer.h.31.mlp.c_proj.weight": "model-00006-of-00007.safetensors",
        "transformer.h.32.attn.c_attn.bias": "model-00006-of-00007.safetensors",
        "transformer.h.32.attn.c_attn.weight": "model-00006-of-00007.safetensors",
        "transformer.h.32.attn.c_proj.bias": "model-00006-of-00007.safetensors",
        "transformer.h.32.attn.c_proj.weight": "model-00006-of-00007.safetensors",
        "transformer.h.32.ln_1.bias": "model-00006-of-00007.safetensors",
        "transformer.h.32.ln_1.weight": "model-00006-of-00007.safetensors",
        "transformer.h.32.ln_2.bias": "model-00006-of-00007.safetensors",
        "transformer.h.32.ln_2.weight": "model-00006-of-00007.safetensors",
        "transformer.h.32.mlp.c_fc.bias": "model-00006-of-00007.safetensors",
        "transformer.h.32.mlp.c_fc.weight": "model-00006-of-00007.safetensors",
        "transformer.h.32.mlp.c_proj.bias": "model-00006-of-00007.safetensors",
        "transformer.h.32.mlp.c_proj.weight": "model-00006-of-00007.safetensors",
        "transformer.h.33.attn.c_attn.bias": "model-00006-of-00007.safetensors",
        "transformer.h.33.attn.c_attn.weight": "model-00006-of-00007.safetensors",
        "transformer.h.33.attn.c_proj.bias": "model-00006-of-00007.safetensors",
        "transformer.h.33.attn.c_proj.weight": "model-00006-of-00007.safetensors",
        "transformer.h.33.ln_1.bias": "model-00006-of-00007.safetensors",
        "transformer.h.33.ln_1.weight": "model-00006-of-00007.safetensors",
        "transformer.h.33.ln_2.bias": "model-00006-of-00007.safetensors",
        "transformer.h.33.ln_2.weight": "model-00006-of-00007.safetensors",
        "transformer.h.33.mlp.c_fc.bias": "model-00006-of-00007.safetensors",
        "transformer.h.33.mlp.c_fc.weight": "model-00006-of-00007.safetensors",
        "transformer.h.33.mlp.c_proj.bias": "model-00006-of-00007.safetensors",
        "transformer.h.33.mlp.c_proj.weight": "model-00006-of-00007.safetensors",
        "transformer.h.34.attn.c_attn.bias": "model-00006-of-00007.safetensors",
        "transformer.h.34.attn.c_attn.weight": "model-00006-of-00007.safetensors",
        "transformer.h.34.attn.c_proj.bias": "model-00006-of-00007.safetensors",
        "transformer.h.34.attn.c_proj.weight": "model-00006-of-00007.safetensors",
        "transformer.h.34.ln_1.bias": "model-00006-of-00007.safetensors",
        "transformer.h.34.ln_1.weight": "model-00006-of-00007.safetensors",
        "transformer.h.34.ln_2.bias": "model-00006-of-00007.safetensors",
        "transformer.h.34.ln_2.weight": "model-00006-of-00007.safetensors",
        "transformer.h.34.mlp.c_fc.bias": "model-00006-of-00007.safetensors",
        "transformer.h.34.mlp.c_fc.weight": "model-00006-of-00007.safetensors",
        "transformer.h.34.mlp.c_proj.bias": "model-00006-of-00007.safetensors",
        "transformer.h.34.mlp.c_proj.weight": "model-00006-of-00007.safetensors",
        "transformer.h.35.attn.c_attn.bias": "model-00006-of-00007.safetensors",
        "transformer.h.35.attn.c_attn.weight": "model-00006-of-00007.safetensors",
        "transformer.h.35.attn.c_proj.bias": "model-00006-of-00007.safetensors",
        "transformer.h.35.attn.c_proj.weight": "model-00006-of-00007.safetensors",
        "transformer.h.35.ln_1.bias": "model-00006-of-00007.safetensors",
        "transformer.h.35.ln_1.weight": "model-00006-of-00007.safetensors",
        "transformer.h.35.ln_2.bias": "model-00006-of-00007.safetensors",
        "transformer.h.35.ln_2.weight": "model-00006-of-00007.safetensors",
        "transformer.h.35.mlp.c_fc.bias": "model-00006-of-00007.safetensors",
        "transformer.h.35.mlp.c_fc.weight": "model-00006-of-00007.safetensors",
        "transformer.h.35.mlp.c_proj.bias": "model-00006-of-00007.safetensors",
        "transformer.h.35.mlp.c_proj.weight": "model-00006-of-00007.safetensors",
        "transformer.h.36.attn.c_attn.bias": "model-00006-of-00007.safetensors",
        "transformer.h.36.attn.c_attn.weight": "model-00006-of-00007.safetensors",
        "transformer.h.36.attn.c_proj.bias": "model-00006-of-00007.safetensors",
        "transformer.h.36.attn.c_proj.weight": "model-00006-of-00007.safetensors",
        "transformer.h.36.ln_1.bias": "model-00006-of-00007.safetensors",
        "transformer.h.36.ln_1.weight": "model-00006-of-00007.safetensors",
        "transformer.h.36.ln_2.bias": "model-00006-of-00007.safetensors",
        "transformer.h.36.ln_2.weight": "model-00006-of-00007.safetensors",
        "transformer.h.36.mlp.c_fc.bias": "model-00006-of-00007.safetensors",
        "transformer.h.36.mlp.c_fc.weight": "model-00006-of-00007.safetensors",
        "transformer.h.36.mlp.c_proj.bias": "model-00006-of-00007.safetensors",
        "transformer.h.36.mlp.c_proj.weight": "model-00006-of-00007.safetensors",
        "transformer.h.37.attn.c_attn.bias": "model-00006-of-00007.safetensors",
        "transformer.h.37.attn.c_attn.weight": "model-00006-of-00007.safetensors",
        "transformer.h.37.attn.c_proj.bias": "model-00006-of-00007.safetensors",
        "transformer.h.37.attn.c_proj.weight": "model-00006-of-00007.safetensors",
        "transformer.h.37.ln_1.bias": "model-00006-of-00007.safetensors",
        "transformer.h.37.ln_1.weight": "model-00006-of-00007.safetensors",
        "transformer.h.37.ln_2.bias": "model-00006-of-00007.safetensors",
        "transformer.h.37.ln_2.weight": "model-00006-of-00007.safetensors",
        "transformer.h.37.mlp.c_fc.bias": "model-00006-of-00007.safetensors",
        "transformer.h.37.mlp.c_fc.weight": "model-00006-of-00007.safetensors",
        "transformer.h.37.mlp.c_proj.bias": "model-00006-of-00007.safetensors",
        "transformer.h.37.mlp.c_proj.weight": "model-00006-of-00007.safetensors",
        "transformer.h.38.attn.c_attn.bias": "model-00006-of-00007.safetensors",
        "transformer.h.38.attn.c_attn.weight": "model-00006-of-00007.safetensors",
        "transformer.h.38.attn.c_proj.bias": "model-00007-of-00007.safetensors",
        "transformer.h.38.attn.c_proj.weight": "model-00007-of-00007.safetensors",
        "transformer.h.38.ln_1.bias": "model-00006-of-00007.safetensors",
        "transformer.h.38.ln_1.weight": "model-00006-of-00007.safetensors",
        "transformer.h.38.ln_2.bias": "model-00007-of-00007.safetensors",
        "transformer.h.38.ln_2.weight": "model-00007-of-00007.safetensors",
        "transformer.h.38.mlp.c_fc.bias": "model-00007-of-00007.safetensors",
        "transformer.h.38.mlp.c_fc.weight": "model-00007-of-00007.safetensors",
        "transformer.h.38.mlp.c_proj.bias": "model-00007-of-00007.safetensors",
        "transformer.h.38.mlp.c_proj.weight": "model-00007-of-00007.safetensors",
        "transformer.h.39.attn.c_attn.bias": "model-00007-of-00007.safetensors",
        "transformer.h.39.attn.c_attn.weight": "model-00007-of-00007.safetensors",
        "transformer.h.39.attn.c_proj.bias": "model-00007-of-00007.safetensors",
        "transformer.h.39.attn.c_proj.weight": "model-00007-of-00007.safetensors",
        "transformer.h.39.ln_1.bias": "model-00007-of-00007.safetensors",
        "transformer.h.39.ln_1.weight": "model-00007-of-00007.safetensors",
        "transformer.h.39.ln_2.bias": "model-00007-of-00007.safetensors",
        "transformer.h.39.ln_2.weight": "model-00007-of-00007.safetensors",
        "transformer.h.39.mlp.c_fc.bias": "model-00007-of-00007.safetensors",
        "transformer.h.39.mlp.c_fc.weight": "model-00007-of-00007.safetensors",
        "transformer.h.39.mlp.c_proj.bias": "model-00007-of-00007.safetensors",
        "transformer.h.39.mlp.c_proj.weight": "model-00007-of-00007.safetensors",
        "transformer.h.4.attn.c_attn.bias": "model-00001-of-00007.safetensors",
        "transformer.h.4.attn.c_attn.weight": "model-00001-of-00007.safetensors",
        "transformer.h.4.attn.c_proj.bias": "model-00001-of-00007.safetensors",
        "transformer.h.4.attn.c_proj.weight": "model-00001-of-00007.safetensors",
        "transformer.h.4.ln_1.bias": "model-00001-of-00007.safetensors",
        "transformer.h.4.ln_1.weight": "model-00001-of-00007.safetensors",
        "transformer.h.4.ln_2.bias": "model-00001-of-00007.safetensors",
        "transformer.h.4.ln_2.weight": "model-00001-of-00007.safetensors",
        "transformer.h.4.mlp.c_fc.bias": "model-00001-of-00007.safetensors",
        "transformer.h.4.mlp.c_fc.weight": "model-00001-of-00007.safetensors",
        "transformer.h.4.mlp.c_proj.bias": "model-00001-of-00007.safetensors",
        "transformer.h.4.mlp.c_proj.weight": "model-00001-of-00007.safetensors",
        "transformer.h.5.attn.c_attn.bias": "model-00001-of-00007.safetensors",
        "transformer.h.5.attn.c_attn.weight": "model-00001-of-00007.safetensors",
        "transformer.h.5.attn.c_proj.bias": "model-00001-of-00007.safetensors",
        "transformer.h.5.attn.c_proj.weight": "model-00001-of-00007.safetensors",
        "transformer.h.5.ln_1.bias": "model-00001-of-00007.safetensors",
        "transformer.h.5.ln_1.weight": "model-00001-of-00007.safetensors",
        "transformer.h.5.ln_2.bias": "model-00001-of-00007.safetensors",
        "transformer.h.5.ln_2.weight": "model-00001-of-00007.safetensors",
        "transformer.h.5.mlp.c_fc.bias": "model-00001-of-00007.safetensors",
        "transformer.h.5.mlp.c_fc.weight": "model-00001-of-00007.safetensors",
        "transformer.h.5.mlp.c_proj.bias": "model-00002-of-00007.safetensors",
        "transformer.h.5.mlp.c_proj.weight": "model-00002-of-00007.safetensors",
        "transformer.h.6.attn.c_attn.bias": "model-00002-of-00007.safetensors",
        "transformer.h.6.attn.c_attn.weight": "model-00002-of-00007.safetensors",
        "transformer.h.6.attn.c_proj.bias": "model-00002-of-00007.safetensors",
        "transformer.h.6.attn.c_proj.weight": "model-00002-of-00007.safetensors",
        "transformer.h.6.ln_1.bias": "model-00002-of-00007.safetensors",
        "transformer.h.6.ln_1.weight": "model-00002-of-00007.safetensors",
        "transformer.h.6.ln_2.bias": "model-00002-of-00007.safetensors",
        "transformer.h.6.ln_2.weight": "model-00002-of-00007.safetensors",
        "transformer.h.6.mlp.c_fc.bias": "model-00002-of-00007.safetensors",
        "transformer.h.6.mlp.c_fc.weight": "model-00002-of-00007.safetensors",
        "transformer.h.6.mlp.c_proj.bias": "model-00002-of-00007.safetensors",
        "transformer.h.6.mlp.c_proj.weight": "model-00002-of-00007.safetensors",
        "transformer.h.7.attn.c_attn.bias": "model-00002-of-00007.safetensors",
        "transformer.h.7.attn.c_attn.weight": "model-00002-of-00007.safetensors",
        "transformer.h.7.attn.c_proj.bias": "model-00002-of-00007.safetensors",
        "transformer.h.7.attn.c_proj.weight": "model-00002-of-00007.safetensors",
        "transformer.h.7.ln_1.bias": "model-00002-of-00007.safetensors",
        "transformer.h.7.ln_1.weight": "model-00002-of-00007.safetensors",
        "transformer.h.7.ln_2.bias": "model-00002-of-00007.safetensors",
        "transformer.h.7.ln_2.weight": "model-00002-of-00007.safetensors",
        "transformer.h.7.mlp.c_fc.bias": "model-00002-of-00007.safetensors",
        "transformer.h.7.mlp.c_fc.weight": "model-00002-of-00007.safetensors",
        "transformer.h.7.mlp.c_proj.bias": "model-00002-of-00007.safetensors",
        "transformer.h.7.mlp.c_proj.weight": "model-00002-of-00007.safetensors",
        "transformer.h.8.attn.c_attn.bias": "model-00002-of-00007.safetensors",
        "transformer.h.8.attn.c_attn.weight": "model-00002-of-00007.safetensors",
        "transformer.h.8.attn.c_proj.bias": "model-00002-of-00007.safetensors",
        "transformer.h.8.attn.c_proj.weight": "model-00002-of-00007.safetensors",
        "transformer.h.8.ln_1.bias": "model-00002-of-00007.safetensors",
        "transformer.h.8.ln_1.weight": "model-00002-of-00007.safetensors",
        "transformer.h.8.ln_2.bias": "model-00002-of-00007.safetensors",
        "transformer.h.8.ln_2.weight": "model-00002-of-00007.safetensors",
        "transformer.h.8.mlp.c_fc.bias": "model-00002-of-00007.safetensors",
        "transformer.h.8.mlp.c_fc.weight": "model-00002-of-00007.safetensors",
        "transformer.h.8.mlp.c_proj.bias": "model-00002-of-00007.safetensors",
        "transformer.h.8.mlp.c_proj.weight": "model-00002-of-00007.safetensors",
        "transformer.h.9.attn.c_attn.bias": "model-00002-of-00007.safetensors",
        "transformer.h.9.attn.c_attn.weight": "model-00002-of-00007.safetensors",
        "transformer.h.9.attn.c_proj.bias": "model-00002-of-00007.safetensors",
        "transformer.h.9.attn.c_proj.weight": "model-00002-of-00007.safetensors",
        "transformer.h.9.ln_1.bias": "model-00002-of-00007.safetensors",
        "transformer.h.9.ln_1.weight": "model-00002-of-00007.safetensors",
        "transformer.h.9.ln_2.bias": "model-00002-of-00007.safetensors",
        "transformer.h.9.ln_2.weight": "model-00002-of-00007.safetensors",
        "transformer.h.9.mlp.c_fc.bias": "model-00002-of-00007.safetensors",
        "transformer.h.9.mlp.c_fc.weight": "model-00002-of-00007.safetensors",
        "transformer.h.9.mlp.c_proj.bias": "model-00002-of-00007.safetensors",
        "transformer.h.9.mlp.c_proj.weight": "model-00002-of-00007.safetensors",
        "transformer.ln_f.bias": "model-00007-of-00007.safetensors",
        "transformer.ln_f.weight": "model-00007-of-00007.safetensors",
        "transformer.wpe.weight": "model-00001-of-00007.safetensors",
        "transformer.wte.weight": "model-00001-of-00007.safetensors"
    }
 }
--- a/pytorch_model-00001-of-00007.bin
+++ b/pytorch_model-00001-of-00007.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:3e3be7ef755097a936f6134cd543ccb3ac80f641c882421dccb7906519f524b1
 size 9904379303
--- a/pytorch_model-00002-of-00007.bin
+++ b/pytorch_model-00002-of-00007.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:b7b8a5ee8e5c9141b9aff700b8c9ae1ce7ac8fc0169faa39bb073493d673fdfa
 size 9860464915
--- a/pytorch_model-00003-of-00007.bin
+++ b/pytorch_model-00003-of-00007.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:f4c1c61abafb7d59a3a0d44bd8c8a8901cbfc67f40b61c5da1b08e5823e66326
 size 9854246167
--- a/pytorch_model-00004-of-00007.bin
+++ b/pytorch_model-00004-of-00007.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:7cc8d33c7b57f58ad31d1a0aef3f8e7f00fd3259a3278654315f4a26e45ad59d
 size 9860464979
--- a/pytorch_model-00005-of-00007.bin
+++ b/pytorch_model-00005-of-00007.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:d2b2177e79d0efd24ceca9678b5aa47fef3bbc262f23fae42834e65510313d72
 size 9854246167
--- a/pytorch_model-00006-of-00007.bin
+++ b/pytorch_model-00006-of-00007.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:e054051316d386683f3577f50551bdb3a6af3e13d3f2657fb87d35ec9ba478ba
 size 9860464979
--- a/pytorch_model-00007-of-00007.bin
+++ b/pytorch_model-00007-of-00007.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:e6eb36a714f29b6f8004f17ac3c96407595cd5d2f580c05a23f43b095afdf26e
 size 2875719771
--- a/pytorch_model.bin.index.json
+++ b/pytorch_model.bin.index.json
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:b217742d53295e992d923051a73d629425169b9088af65b76724d3b5195a3ac9
 size 36278
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:0823292e24ea07b89317e9ede9d08da2a1b6c014290c06908a7ad04f1efd6719
 size 532
--- a/tokenizer.json
+++ b/tokenizer.json
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:9af07a3123a1f4d75dcb85fbdc4c62f9b7873d23fa39c449d2240c3e33eb3ab5
 size 2057423
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:4d8a576be1b7a37446e07a524202302c08ddc116e68b2e042d9fe4eaef46192e
 size 717
--- a/vocab.json
+++ b/vocab.json
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:20175afb9f164fad4829aca2279f8df7eeff1e2e3f671378aaa287a740aff09f
 size 776993