初始化项目，由ModelHub XC社区提供模型

Model: artificialguybr/llama3-8b-sql-create-context Source: Original Platform
2026-04-29 04:08:51 +08:00
commit 21979bd7b8
57 changed files with 1655022 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,35 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,158 @@
 ---
 base_model: NousResearch/Meta-Llama-3-8B
 tags:
 - generated_from_trainer
 model-index:
 - name: LLAMA-3-8B-SQL-CREATE-CONTEXT
  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
 [<img src="https://raw.githubusercontent.com/OpenAccess-AI-Collective/axolotl/main/image/axolotl-badge-web.png" alt="Built with Axolotl" width="200" height="32"/>](https://github.com/OpenAccess-AI-Collective/axolotl)
 <details><summary>See axolotl config</summary>
 axolotl version: `0.4.0`
 ```yaml
 base_model: NousResearch/Meta-Llama-3-8B
 model_type: LlamaForCausalLM
 tokenizer_type: AutoTokenizer
 load_in_8bit: false
 load_in_4bit: false
 strict: false
 datasets:
  - path: b-mc2/sql-create-context
    type: context_qa.load_v2
 dataset_prepared_path: last_run_prepared
 val_set_size: 0.05
 output_dir: ./out-llama8b-createcontext
 sequence_len: 8192
 sample_packing: true
 pad_to_sequence_len: true
 wandb_project: meta-llama-8b-sql-create-context
 wandb_entity:
 wandb_watch:
 wandb_name:
 wandb_log_model:
 gradient_accumulation_steps: 8
 micro_batch_size: 1
 num_epochs: 3
 optimizer: paged_adamw_8bit
 lr_scheduler: cosine
 learning_rate: 2e-5
 train_on_inputs: false
 group_by_length: false
 bf16: auto
 fp16:
 tf32: false
 gradient_checkpointing: true
 gradient_checkpointing_kwargs:
  use_reentrant: false
 early_stopping_patience:
 resume_from_checkpoint:
 logging_steps: 1
 xformers_attention:
 flash_attention: true
 warmup_steps: 100
 evals_per_epoch: 2
 eval_table_size:
 saves_per_epoch: 1
 ---
 ### 🌐 Website
 You can find more of my models, projects, and information on my official website:
 - **[artificialguy.com](https://artificialguy.com/)**
 ### 🚀 Prompt Hub
 Need high-quality prompts for image models and LLMs? Explore **[findgoodprompt.com](https://findgoodprompt.com)**.
 ### 💖 Support My Work
 If you find this model useful, please consider supporting my work. It helps me cover server costs and dedicate more time to new open-source projects.
 - **Patreon:** [Support on Patreon](https://www.patreon.com/user?u=81570187)
 - **Ko-fi:** [Buy me a Ko-fi](https://ko-fi.com/artificialguybr)
 - **Buy Me a Coffee:** [Buy me a Coffee](https://buymeacoffee.com/jvkape)
 debug:
 deepspeed:
 weight_decay: 0.0
 fsdp:
 fsdp_config:
 special_tokens:
  pad_token: <|end_of_text|>
 ```
 </details><br>
 # LLAMA 3 8B SQL CREATE CONTEXT
 Thanks to [Redmond.ai](https://redmond.ai) for the GPU Support!
 This model is a fine-tuned version of [NousResearch/Meta-Llama-3-8B](https://huggingface.co/NousResearch/Meta-Llama-3-8B) on the [b-mc2/sql-create-context](https://huggingface.co/datasets/b-mc2/sql-create-context) dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0201
 ## Model description
 The model is a text-to-SQL language model designed to generate SQL queries from natural language inputs. It takes as input a natural language question and a SQL CREATE TABLE statement as context, and outputs a SQL query that answers the question based on the provided table schema.
 The model is trained on a dataset of 78,577 examples, which combines the WikiSQL and Spider datasets. The dataset is specifically designed to prevent hallucination of column and table names, a common issue in text-to-SQL models. The CREATE TABLE statement provides the necessary context for the model to generate accurate SQL queries without requiring actual rows of data.
 The model is intended to be used in applications where the table schema is known, and the goal is to generate SQL queries that answer specific questions based on that schema. The model can be fine-tuned for specific use cases and SQL dialects.
 ## Intended uses & limitations
 Intended uses:
 Generating SQL queries from natural language inputs in applications where the table schema is known
 Supporting data analysis and visualization tasks in various domains
 Integrating with other language models or tools to provide a more comprehensive data analysis pipeline
 Limitations:
 The model relies on the accuracy of the provided CREATE TABLE statement and may not perform well if the schema is incomplete or incorrect
 The model may not generalize well to unseen SQL dialects or table schemas
 The model may not be able to handle complex queries that require multiple joins or subqueries
 The model may not be able to handle queries that require external knowledge or common sense
 The model may not be able to handle queries that are ambiguous or open-ended
 ## Training procedure
 ### Training hyperparameters
 The following hyperparameters were used during training:
 - learning_rate: 2e-05
 - train_batch_size: 1
 - eval_batch_size: 1
 - seed: 42
 - gradient_accumulation_steps: 8
 - total_train_batch_size: 8
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 100
 - num_epochs: 3
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
 | 0.7175        | 0.01  | 1    | 0.7699          |
 | 0.055         | 0.51  | 35   | 0.0394          |
 | 0.03          | 1.01  | 70   | 0.0231          |
 | 0.0215        | 1.5   | 105  | 0.0203          |
 | 0.0185        | 2.01  | 140  | 0.0193          |
 | 0.0106        | 2.5   | 175  | 0.0201          |
 ### Framework versions
 - Transformers 4.40.0.dev0
 - Pytorch 2.2.2+cu121
 - Datasets 2.15.0
 - Tokenizers 0.15.0
--- a/checkpoint-138/config.json
+++ b/checkpoint-138/config.json
@@ -0,0 +1,28 @@
 {
  "_name_or_path": "NousResearch/Meta-Llama-3-8B",
  "architectures": [
    "LlamaForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 128000,
  "eos_token_id": 128001,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 14336,
  "max_position_embeddings": 8192,
  "model_type": "llama",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "num_key_value_heads": 8,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-05,
  "rope_scaling": null,
  "rope_theta": 500000.0,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.40.0.dev0",
  "use_cache": false,
  "vocab_size": 128256
 }
--- a/checkpoint-138/generation_config.json
+++ b/checkpoint-138/generation_config.json
@@ -0,0 +1,7 @@
 {
  "_from_model_config": true,
  "bos_token_id": 128000,
  "do_sample": true,
  "eos_token_id": 128001,
  "transformers_version": "4.40.0.dev0"
 }
--- a/checkpoint-138/model-00001-of-00004.safetensors
+++ b/checkpoint-138/model-00001-of-00004.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:bbdd7096866cf6fd30d3ab49404aae7222afa2cdc55e25d13a118175cb2cabcd
 size 4976698672
--- a/checkpoint-138/model-00002-of-00004.safetensors
+++ b/checkpoint-138/model-00002-of-00004.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:e85a716382555576900fd6fa724cfdc72eb0f79aefa7d995d9003356e430ea99
 size 4999802720
--- a/checkpoint-138/model-00003-of-00004.safetensors
+++ b/checkpoint-138/model-00003-of-00004.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:b14f7b3dd36f679a6a5e72c1ca2a5c5d61d0c52068274c65e47fc266908dee3b
 size 4915916176
--- a/checkpoint-138/model-00004-of-00004.safetensors
+++ b/checkpoint-138/model-00004-of-00004.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:8fb980ad8aa0fbe13e97614b07483f76a5f9e1f4df6681edbad279744c379e2e
 size 1168138808
--- a/checkpoint-138/model.safetensors.index.json
+++ b/checkpoint-138/model.safetensors.index.json
@@ -0,0 +1,298 @@
 {
  "metadata": {
    "total_size": 16060522496
  },
  "weight_map": {
    "lm_head.weight": "model-00004-of-00004.safetensors",
    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.input_layernorm.weight": "model-00004-of-00004.safetensors",
    "model.layers.31.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.norm.weight": "model-00004-of-00004.safetensors"
  }
 }
--- a/checkpoint-138/optimizer.pt
+++ b/checkpoint-138/optimizer.pt
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:73536b6a26b2911588859c0c2f2c05dd2e9ec905c5f1c8167206e549838ad44f
 size 16092246776
--- a/checkpoint-138/rng_state.pth
+++ b/checkpoint-138/rng_state.pth
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:c062f7f375beded48b5337f5a3f3a5cb38807fa3e85dbf3e294c0ab6b627bfc2
 size 14244
--- a/checkpoint-138/scheduler.pt
+++ b/checkpoint-138/scheduler.pt
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:9393aebf3a2fc4c33bb60edc114d3f54f6f607435a79d4538f263b1ac9daffe0
 size 1064
--- a/checkpoint-138/special_tokens_map.json
+++ b/checkpoint-138/special_tokens_map.json
@@ -0,0 +1,23 @@
 {
  "bos_token": {
    "content": "<|begin_of_text|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "eos_token": {
    "content": "<|end_of_text|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "pad_token": {
    "content": "<|end_of_text|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  }
 }
--- a/checkpoint-138/tokenizer.json
+++ b/checkpoint-138/tokenizer.json
--- a/checkpoint-138/tokenizer_config.json
+++ b/checkpoint-138/tokenizer_config.json
--- a/checkpoint-138/trainer_state.json
+++ b/checkpoint-138/trainer_state.json
--- a/checkpoint-138/training_args.bin
+++ b/checkpoint-138/training_args.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:9339665961faf54a0df81c65c4cbfc12ff9b1e06474d5811095755eccc85a7e1
 size 5816
--- a/checkpoint-207/config.json
+++ b/checkpoint-207/config.json
@@ -0,0 +1,28 @@
 {
  "_name_or_path": "NousResearch/Meta-Llama-3-8B",
  "architectures": [
    "LlamaForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 128000,
  "eos_token_id": 128001,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 14336,
  "max_position_embeddings": 8192,
  "model_type": "llama",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "num_key_value_heads": 8,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-05,
  "rope_scaling": null,
  "rope_theta": 500000.0,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.40.0.dev0",
  "use_cache": false,
  "vocab_size": 128256
 }
--- a/checkpoint-207/generation_config.json
+++ b/checkpoint-207/generation_config.json
@@ -0,0 +1,7 @@
 {
  "_from_model_config": true,
  "bos_token_id": 128000,
  "do_sample": true,
  "eos_token_id": 128001,
  "transformers_version": "4.40.0.dev0"
 }
--- a/checkpoint-207/model-00001-of-00004.safetensors
+++ b/checkpoint-207/model-00001-of-00004.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:c57151de03fa379d46ceaf1dffaa26aaaf0c58b6710f6df7448c1f86c945bbad
 size 4976698672
--- a/checkpoint-207/model-00002-of-00004.safetensors
+++ b/checkpoint-207/model-00002-of-00004.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:55527342a8ac19a3907519392f3a63bc10ef5bf1d9ada5fdc48651a6a8531b10
 size 4999802720
--- a/checkpoint-207/model-00003-of-00004.safetensors
+++ b/checkpoint-207/model-00003-of-00004.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:2fe4b770fedc11cfaee4eeaae3345d095c629308f92e36923ac6a3333bbd9ce1
 size 4915916176
--- a/checkpoint-207/model-00004-of-00004.safetensors
+++ b/checkpoint-207/model-00004-of-00004.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:f73561cb787e7cb029a5f1e9ba57bce0107d6fe5893a905f0a7ca2c8b180b91c
 size 1168138808
--- a/checkpoint-207/model.safetensors.index.json
+++ b/checkpoint-207/model.safetensors.index.json
@@ -0,0 +1,298 @@
 {
  "metadata": {
    "total_size": 16060522496
  },
  "weight_map": {
    "lm_head.weight": "model-00004-of-00004.safetensors",
    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.input_layernorm.weight": "model-00004-of-00004.safetensors",
    "model.layers.31.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.norm.weight": "model-00004-of-00004.safetensors"
  }
 }
--- a/checkpoint-207/optimizer.pt
+++ b/checkpoint-207/optimizer.pt
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:394bbfee12e159bd11d898e8c74837fdec5334b1188f448b3f7bc557bcacb91a
 size 16092246776
--- a/checkpoint-207/rng_state.pth
+++ b/checkpoint-207/rng_state.pth
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:48ee9b73399c28d7e668360bf1d5a4d11095c4738bf96c13f7bb6fbff59f8ccb
 size 14244
--- a/checkpoint-207/scheduler.pt
+++ b/checkpoint-207/scheduler.pt
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:0f71b5f43b99b734f1a811a11ebbb7c875acdad2f7699e8a988d7ffb9d3b30d3
 size 1064
--- a/checkpoint-207/special_tokens_map.json
+++ b/checkpoint-207/special_tokens_map.json
@@ -0,0 +1,23 @@
 {
  "bos_token": {
    "content": "<|begin_of_text|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "eos_token": {
    "content": "<|end_of_text|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "pad_token": {
    "content": "<|end_of_text|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  }
 }
--- a/checkpoint-207/tokenizer.json
+++ b/checkpoint-207/tokenizer.json
--- a/checkpoint-207/tokenizer_config.json
+++ b/checkpoint-207/tokenizer_config.json
--- a/checkpoint-207/trainer_state.json
+++ b/checkpoint-207/trainer_state.json
--- a/checkpoint-207/training_args.bin
+++ b/checkpoint-207/training_args.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:9339665961faf54a0df81c65c4cbfc12ff9b1e06474d5811095755eccc85a7e1
 size 5816
--- a/checkpoint-69/config.json
+++ b/checkpoint-69/config.json
@@ -0,0 +1,28 @@
 {
  "_name_or_path": "NousResearch/Meta-Llama-3-8B",
  "architectures": [
    "LlamaForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 128000,
  "eos_token_id": 128001,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 14336,
  "max_position_embeddings": 8192,
  "model_type": "llama",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "num_key_value_heads": 8,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-05,
  "rope_scaling": null,
  "rope_theta": 500000.0,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.40.0.dev0",
  "use_cache": false,
  "vocab_size": 128256
 }
--- a/checkpoint-69/generation_config.json
+++ b/checkpoint-69/generation_config.json
@@ -0,0 +1,7 @@
 {
  "_from_model_config": true,
  "bos_token_id": 128000,
  "do_sample": true,
  "eos_token_id": 128001,
  "transformers_version": "4.40.0.dev0"
 }
--- a/checkpoint-69/model-00001-of-00004.safetensors
+++ b/checkpoint-69/model-00001-of-00004.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:3e21e1a691d5d5503bad2692095b7ea4877bf0a07cc801eb54a7e02e5eb017f9
 size 4976698672
--- a/checkpoint-69/model-00002-of-00004.safetensors
+++ b/checkpoint-69/model-00002-of-00004.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:d2a50311b6b795d3a9f96b1daf84b4bf7123887dede101014d31b50d21daf052
 size 4999802720
--- a/checkpoint-69/model-00003-of-00004.safetensors
+++ b/checkpoint-69/model-00003-of-00004.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:c002fd1165e52216b89829a5ee7e4bc1472cfe27ca1feec6b22d3f72526e1f69
 size 4915916176
--- a/checkpoint-69/model-00004-of-00004.safetensors
+++ b/checkpoint-69/model-00004-of-00004.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:646b9582e85b469e7b4632b1658a584b64e00b2e76b9da1c5f99f2efd7af1b90
 size 1168138808
--- a/checkpoint-69/model.safetensors.index.json
+++ b/checkpoint-69/model.safetensors.index.json
@@ -0,0 +1,298 @@
 {
  "metadata": {
    "total_size": 16060522496
  },
  "weight_map": {
    "lm_head.weight": "model-00004-of-00004.safetensors",
    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.input_layernorm.weight": "model-00004-of-00004.safetensors",
    "model.layers.31.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.norm.weight": "model-00004-of-00004.safetensors"
  }
 }
--- a/checkpoint-69/optimizer.pt
+++ b/checkpoint-69/optimizer.pt
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:7429bccb78540f2063a98c611b92742719525a119cd1897f0db64dc61905d050
 size 16092246776
--- a/checkpoint-69/rng_state.pth
+++ b/checkpoint-69/rng_state.pth
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:9196a1e708bf24d6abba41cce3f8558820acc3e50f9394c5955e29eb41ffea3d
 size 14244
--- a/checkpoint-69/scheduler.pt
+++ b/checkpoint-69/scheduler.pt
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:3b4d8157aae3fbbfb17d282ac607c60eccd6f8fed5edc2f9710401f322c5150b
 size 1064
--- a/checkpoint-69/special_tokens_map.json
+++ b/checkpoint-69/special_tokens_map.json
@@ -0,0 +1,23 @@
 {
  "bos_token": {
    "content": "<|begin_of_text|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "eos_token": {
    "content": "<|end_of_text|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "pad_token": {
    "content": "<|end_of_text|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  }
 }
--- a/checkpoint-69/tokenizer.json
+++ b/checkpoint-69/tokenizer.json
--- a/checkpoint-69/tokenizer_config.json
+++ b/checkpoint-69/tokenizer_config.json
--- a/checkpoint-69/trainer_state.json
+++ b/checkpoint-69/trainer_state.json
@@ -0,0 +1,520 @@
 {
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 35,
  "global_step": 69,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01,
      "grad_norm": 43.0,
      "learning_rate": 2.0000000000000002e-07,
      "loss": 0.7175,
      "step": 1
    },
    {
      "epoch": 0.01,
      "eval_loss": 0.7699161767959595,
      "eval_runtime": 19.565,
      "eval_samples_per_second": 200.818,
      "eval_steps_per_second": 200.818,
      "step": 1
    },
    {
      "epoch": 0.03,
      "grad_norm": 42.5,
      "learning_rate": 4.0000000000000003e-07,
      "loss": 0.7271,
      "step": 2
    },
    {
      "epoch": 0.04,
      "grad_norm": 42.5,
      "learning_rate": 6.000000000000001e-07,
      "loss": 0.7161,
      "step": 3
    },
    {
      "epoch": 0.06,
      "grad_norm": 41.25,
      "learning_rate": 8.000000000000001e-07,
      "loss": 0.7088,
      "step": 4
    },
    {
      "epoch": 0.07,
      "grad_norm": 42.5,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.7022,
      "step": 5
    },
    {
      "epoch": 0.09,
      "grad_norm": 41.0,
      "learning_rate": 1.2000000000000002e-06,
      "loss": 0.6846,
      "step": 6
    },
    {
      "epoch": 0.1,
      "grad_norm": 38.25,
      "learning_rate": 1.4000000000000001e-06,
      "loss": 0.629,
      "step": 7
    },
    {
      "epoch": 0.12,
      "grad_norm": 32.5,
      "learning_rate": 1.6000000000000001e-06,
      "loss": 0.5753,
      "step": 8
    },
    {
      "epoch": 0.13,
      "grad_norm": 28.125,
      "learning_rate": 1.8000000000000001e-06,
      "loss": 0.5368,
      "step": 9
    },
    {
      "epoch": 0.14,
      "grad_norm": 22.125,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 0.4946,
      "step": 10
    },
    {
      "epoch": 0.16,
      "grad_norm": 19.125,
      "learning_rate": 2.2e-06,
      "loss": 0.4351,
      "step": 11
    },
    {
      "epoch": 0.17,
      "grad_norm": 15.3125,
      "learning_rate": 2.4000000000000003e-06,
      "loss": 0.3873,
      "step": 12
    },
    {
      "epoch": 0.19,
      "grad_norm": 12.25,
      "learning_rate": 2.6e-06,
      "loss": 0.3382,
      "step": 13
    },
    {
      "epoch": 0.2,
      "grad_norm": 10.3125,
      "learning_rate": 2.8000000000000003e-06,
      "loss": 0.2777,
      "step": 14
    },
    {
      "epoch": 0.22,
      "grad_norm": 8.4375,
      "learning_rate": 3e-06,
      "loss": 0.241,
      "step": 15
    },
    {
      "epoch": 0.23,
      "grad_norm": 7.46875,
      "learning_rate": 3.2000000000000003e-06,
      "loss": 0.2278,
      "step": 16
    },
    {
      "epoch": 0.25,
      "grad_norm": 5.65625,
      "learning_rate": 3.4000000000000005e-06,
      "loss": 0.1924,
      "step": 17
    },
    {
      "epoch": 0.26,
      "grad_norm": 4.65625,
      "learning_rate": 3.6000000000000003e-06,
      "loss": 0.1635,
      "step": 18
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.546875,
      "learning_rate": 3.8000000000000005e-06,
      "loss": 0.1549,
      "step": 19
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.5,
      "learning_rate": 4.000000000000001e-06,
      "loss": 0.1374,
      "step": 20
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.875,
      "learning_rate": 4.2000000000000004e-06,
      "loss": 0.12,
      "step": 21
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.59375,
      "learning_rate": 4.4e-06,
      "loss": 0.118,
      "step": 22
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.453125,
      "learning_rate": 4.600000000000001e-06,
      "loss": 0.1095,
      "step": 23
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.171875,
      "learning_rate": 4.800000000000001e-06,
      "loss": 0.0964,
      "step": 24
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.7578125,
      "learning_rate": 5e-06,
      "loss": 0.0887,
      "step": 25
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.703125,
      "learning_rate": 5.2e-06,
      "loss": 0.077,
      "step": 26
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.625,
      "learning_rate": 5.400000000000001e-06,
      "loss": 0.074,
      "step": 27
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.4609375,
      "learning_rate": 5.600000000000001e-06,
      "loss": 0.0659,
      "step": 28
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.140625,
      "learning_rate": 5.8e-06,
      "loss": 0.0586,
      "step": 29
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.265625,
      "learning_rate": 6e-06,
      "loss": 0.0518,
      "step": 30
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.609375,
      "learning_rate": 6.200000000000001e-06,
      "loss": 0.0566,
      "step": 31
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.453125,
      "learning_rate": 6.4000000000000006e-06,
      "loss": 0.0475,
      "step": 32
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.296875,
      "learning_rate": 6.600000000000001e-06,
      "loss": 0.0495,
      "step": 33
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.234375,
      "learning_rate": 6.800000000000001e-06,
      "loss": 0.0493,
      "step": 34
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.03125,
      "learning_rate": 7e-06,
      "loss": 0.055,
      "step": 35
    },
    {
      "epoch": 0.51,
      "eval_loss": 0.03942573070526123,
      "eval_runtime": 19.6691,
      "eval_samples_per_second": 199.755,
      "eval_steps_per_second": 199.755,
      "step": 35
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.94921875,
      "learning_rate": 7.2000000000000005e-06,
      "loss": 0.0457,
      "step": 36
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.09375,
      "learning_rate": 7.4e-06,
      "loss": 0.0452,
      "step": 37
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.83203125,
      "learning_rate": 7.600000000000001e-06,
      "loss": 0.0373,
      "step": 38
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9296875,
      "learning_rate": 7.800000000000002e-06,
      "loss": 0.0379,
      "step": 39
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.0625,
      "learning_rate": 8.000000000000001e-06,
      "loss": 0.0403,
      "step": 40
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.91015625,
      "learning_rate": 8.2e-06,
      "loss": 0.0445,
      "step": 41
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.96484375,
      "learning_rate": 8.400000000000001e-06,
      "loss": 0.0377,
      "step": 42
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.73046875,
      "learning_rate": 8.6e-06,
      "loss": 0.0367,
      "step": 43
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.88671875,
      "learning_rate": 8.8e-06,
      "loss": 0.035,
      "step": 44
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.94921875,
      "learning_rate": 9e-06,
      "loss": 0.0417,
      "step": 45
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.81640625,
      "learning_rate": 9.200000000000002e-06,
      "loss": 0.0279,
      "step": 46
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.91796875,
      "learning_rate": 9.4e-06,
      "loss": 0.0292,
      "step": 47
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5625,
      "learning_rate": 9.600000000000001e-06,
      "loss": 0.0345,
      "step": 48
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.8515625,
      "learning_rate": 9.800000000000001e-06,
      "loss": 0.0348,
      "step": 49
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.98046875,
      "learning_rate": 1e-05,
      "loss": 0.0337,
      "step": 50
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.75,
      "learning_rate": 1.02e-05,
      "loss": 0.0361,
      "step": 51
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.71875,
      "learning_rate": 1.04e-05,
      "loss": 0.0363,
      "step": 52
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.7265625,
      "learning_rate": 1.0600000000000002e-05,
      "loss": 0.0329,
      "step": 53
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.68359375,
      "learning_rate": 1.0800000000000002e-05,
      "loss": 0.032,
      "step": 54
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.46875,
      "learning_rate": 1.1000000000000001e-05,
      "loss": 0.0275,
      "step": 55
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.62890625,
      "learning_rate": 1.1200000000000001e-05,
      "loss": 0.0304,
      "step": 56
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.7421875,
      "learning_rate": 1.14e-05,
      "loss": 0.0325,
      "step": 57
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.51953125,
      "learning_rate": 1.16e-05,
      "loss": 0.027,
      "step": 58
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.015625,
      "learning_rate": 1.18e-05,
      "loss": 0.0283,
      "step": 59
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.62890625,
      "learning_rate": 1.2e-05,
      "loss": 0.0301,
      "step": 60
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.734375,
      "learning_rate": 1.22e-05,
      "loss": 0.0334,
      "step": 61
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6875,
      "learning_rate": 1.2400000000000002e-05,
      "loss": 0.0312,
      "step": 62
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.58203125,
      "learning_rate": 1.2600000000000001e-05,
      "loss": 0.0282,
      "step": 63
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.65625,
      "learning_rate": 1.2800000000000001e-05,
      "loss": 0.0315,
      "step": 64
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.66015625,
      "learning_rate": 1.3000000000000001e-05,
      "loss": 0.0316,
      "step": 65
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.55078125,
      "learning_rate": 1.3200000000000002e-05,
      "loss": 0.0292,
      "step": 66
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.84375,
      "learning_rate": 1.3400000000000002e-05,
      "loss": 0.0304,
      "step": 67
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.498046875,
      "learning_rate": 1.3600000000000002e-05,
      "loss": 0.0235,
      "step": 68
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6875,
      "learning_rate": 1.38e-05,
      "loss": 0.0262,
      "step": 69
    }
  ],
  "logging_steps": 1,
  "max_steps": 207,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 69,
  "total_flos": 2.036228957279355e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
 }
--- a/checkpoint-69/training_args.bin
+++ b/checkpoint-69/training_args.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:9339665961faf54a0df81c65c4cbfc12ff9b1e06474d5811095755eccc85a7e1
 size 5816
--- a/config.json
+++ b/config.json
@@ -0,0 +1,28 @@
 {
  "_name_or_path": "NousResearch/Meta-Llama-3-8B",
  "architectures": [
    "LlamaForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 128000,
  "eos_token_id": 128001,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 14336,
  "max_position_embeddings": 8192,
  "model_type": "llama",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "num_key_value_heads": 8,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-05,
  "rope_scaling": null,
  "rope_theta": 500000.0,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.40.0.dev0",
  "use_cache": false,
  "vocab_size": 128256
 }
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,7 @@
 {
  "_from_model_config": true,
  "bos_token_id": 128000,
  "do_sample": true,
  "eos_token_id": 128001,
  "transformers_version": "4.40.0.dev0"
 }
--- a/pytorch_model-00001-of-00004.bin
+++ b/pytorch_model-00001-of-00004.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:34e6d3f72de38dc9f6b7d169c17a9a9b49fb39cd83b89fc4d3292c007c856225
 size 4976718466
--- a/pytorch_model-00002-of-00004.bin
+++ b/pytorch_model-00002-of-00004.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:4cfc961f90898ffee64ad627dfdb91e211b6f640c27c6e05171a3611543eb2a6
 size 4999827718
--- a/pytorch_model-00003-of-00004.bin
+++ b/pytorch_model-00003-of-00004.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:fe6c0ccf5cd3e76f5f85ecdeb5167f67e546bf11cddc7678ba07a9ee072d5db1
 size 4915940170
--- a/pytorch_model-00004-of-00004.bin
+++ b/pytorch_model-00004-of-00004.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:40ac8a4b1784f005b5d10c56d731122f2d1cd22465078b13937c4fdd0fa756ee
 size 1168140873
--- a/pytorch_model.bin.index.json
+++ b/pytorch_model.bin.index.json
@@ -0,0 +1,298 @@
 {
  "metadata": {
    "total_size": 16060522496
  },
  "weight_map": {
    "lm_head.weight": "pytorch_model-00004-of-00004.bin",
    "model.embed_tokens.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.1.input_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.10.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.11.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.12.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.13.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.14.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.15.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.16.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.17.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.18.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.19.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.2.input_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.20.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.21.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.22.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.23.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.24.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.25.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.26.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.27.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.28.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.28.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.28.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.28.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.28.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.28.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.28.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.29.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.29.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.29.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.29.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.29.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.29.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.29.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.3.input_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.30.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.30.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.30.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.30.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.30.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.30.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.30.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.31.input_layernorm.weight": "pytorch_model-00004-of-00004.bin",
    "model.layers.31.mlp.down_proj.weight": "pytorch_model-00004-of-00004.bin",
    "model.layers.31.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.31.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.31.post_attention_layernorm.weight": "pytorch_model-00004-of-00004.bin",
    "model.layers.31.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.31.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
    "model.layers.4.input_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.5.input_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.6.input_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.7.input_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.8.input_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00001-of-00004.bin",
    "model.layers.9.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
    "model.norm.weight": "pytorch_model-00004-of-00004.bin"
  }
 }
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,23 @@
 {
  "bos_token": {
    "content": "<|begin_of_text|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "eos_token": {
    "content": "<|end_of_text|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "pad_token": {
    "content": "<|end_of_text|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  }
 }
--- a/tokenizer.json
+++ b/tokenizer.json
--- a/tokenizer_config.json
+++ b/tokenizer_config.json