初始化项目，由ModelHub XC社区提供模型

Model: RikkiXu/zephyr-7b-sft-full Source: Original Platform
2026-04-24 16:00:02 +08:00
commit 210bc7141a
87 changed files with 93427 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,35 @@
+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,66 @@
+---
+license: apache-2.0
+base_model: mistralai/Mistral-7B-v0.1
+tags:
+- trl
+- sft
+- generated_from_trainer
+datasets:
+- generator
+model-index:
+- name: zephyr-7b-sft-full
+  results: []
+---
+
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+
+# zephyr-7b-sft-full
+
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the generator dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.9406
+
+## Model description
+
+More information needed
+
+## Intended uses & limitations
+
+More information needed
+
+## Training and evaluation data
+
+More information needed
+
+## Training procedure
+
+### Training hyperparameters
+
+The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 16
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- total_train_batch_size: 128
+- total_eval_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+
+### Training results
+
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 0.9198        | 1.0   | 1084 | 0.9406          |
+
+
+### Framework versions
+
+- Transformers 4.41.1
+- Pytorch 2.1.2+cu118
+- Datasets 2.16.1
+- Tokenizers 0.19.1
--- a/added_tokens.json
+++ b/added_tokens.json
@@ -0,0 +1,4 @@
+{
+  "<|end_of_turn|>": 32000,
+  "<|pad_0|>": 32001
+}
--- a/all_results.json
+++ b/all_results.json
@@ -0,0 +1,9 @@
+{
+    "epoch": 1.0,
+    "total_flos": 1.515445781320958e+18,
+    "train_loss": 0.6863565506530424,
+    "train_runtime": 5790.4174,
+    "train_samples": 207864,
+    "train_samples_per_second": 23.951,
+    "train_steps_per_second": 0.187
+}
--- a/config.json
+++ b/config.json
@@ -0,0 +1,26 @@
+{
+  "_name_or_path": "mistralai/Mistral-7B-v0.1",
+  "architectures": [
+    "MistralForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 32768,
+  "model_type": "mistral",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-05,
+  "rope_theta": 10000.0,
+  "sliding_window": 4096,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.41.1",
+  "use_cache": false,
+  "vocab_size": 32000
+}
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,6 @@
+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.39.3"
+}
--- a/model-00001-of-00003.safetensors
+++ b/model-00001-of-00003.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:97bc9ba5fda3820613528c7020adc08e0324d9d17eb34b2df064f9466c077ab6
+size 4943162336
--- a/model-00002-of-00003.safetensors
+++ b/model-00002-of-00003.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6465729604922a61a5823ced600e8f4687c65d7d905528cc934843c6815fcdc8
+size 4999819336
--- a/model-00003-of-00003.safetensors
+++ b/model-00003-of-00003.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e4f90c8a0b887397147f13592416daeda1551a36a7951d8b609a064cfe8cd8aa
+size 4540516344
--- a/model.safetensors.index.json
+++ b/model.safetensors.index.json
@@ -0,0 +1,298 @@
+{
+  "metadata": {
+    "total_size": 14483464192
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00003-of-00003.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.norm.weight": "model-00003-of-00003.safetensors"
+  }
+}
--- a/runs/Apr19_11-55-07_n136-147-090/events.out.tfevents.1713501585.n136-147-090.252697.0
+++ b/runs/Apr19_11-55-07_n136-147-090/events.out.tfevents.1713501585.n136-147-090.252697.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c24dea46d1e602cb3f1c8a27277bb31cf5053cee6a578fa389b2323b413b5c29
+size 4697
--- a/runs/Apr19_12-56-05_n136-147-090/events.out.tfevents.1713502620.n136-147-090.291311.0
+++ b/runs/Apr19_12-56-05_n136-147-090/events.out.tfevents.1713502620.n136-147-090.291311.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ac3df19e520fb461ced3f493c39485cb5c0a43764d6212a7f56419ff324fa936
+size 4697
--- a/runs/Apr19_13-01-36_n136-147-090/events.out.tfevents.1713502951.n136-147-090.293651.0
+++ b/runs/Apr19_13-01-36_n136-147-090/events.out.tfevents.1713502951.n136-147-090.293651.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ec11e66e4e6f7d6b5de9efbaa4f7bf53efb82a8365a3fdc08c3781adfb776149
+size 4697
--- a/runs/Apr19_13-03-46_n136-147-090/events.out.tfevents.1713503093.n136-147-090.295674.0
+++ b/runs/Apr19_13-03-46_n136-147-090/events.out.tfevents.1713503093.n136-147-090.295674.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:20df062c98ba958d0be1b62a460e76398283ecd37bd67a35b0aa57424274dd40
+size 4697
--- a/runs/Apr19_13-53-20_n136-147-090/events.out.tfevents.1713507208.n136-147-090.314082.0
+++ b/runs/Apr19_13-53-20_n136-147-090/events.out.tfevents.1713507208.n136-147-090.314082.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3dccdae4ea9e8f19908162683e7a11082bea163762c5a1dd6c169a5cc1986f75
+size 4664
--- a/runs/Apr19_14-12-55_n136-147-090/events.out.tfevents.1713507391.n136-147-090.335860.0
+++ b/runs/Apr19_14-12-55_n136-147-090/events.out.tfevents.1713507391.n136-147-090.335860.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0507524644edacd3c28c308f78e24686eda160c781eb1fa970e8a17fc8b787e5
+size 4664
--- a/runs/Apr19_14-16-26_n136-147-090/events.out.tfevents.1713507447.n136-147-090.343478.0
+++ b/runs/Apr19_14-16-26_n136-147-090/events.out.tfevents.1713507447.n136-147-090.343478.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8a85a889560e9a16a135873b79cb2fda6da15cac5b47c073e0c572e1b97fda3e
+size 4664
--- a/runs/Apr19_14-21-06_n136-147-090/events.out.tfevents.1713508878.n136-147-090.348202.0
+++ b/runs/Apr19_14-21-06_n136-147-090/events.out.tfevents.1713508878.n136-147-090.348202.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1c3435cb9da8daf87b6601da7961da3a0d9a4f40c0cc2f01427caf70b27489f1
+size 4664
--- a/runs/Apr19_15-16-27_n136-147-090/events.out.tfevents.1713511167.n136-147-090.391336.0
+++ b/runs/Apr19_15-16-27_n136-147-090/events.out.tfevents.1713511167.n136-147-090.391336.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e2c5ca09535fb986cfc7ac7bb5d2624d675f5aa7205c980165b5e0e5858a60fc
+size 4664
--- a/runs/Apr19_15-20-27_n136-147-090/events.out.tfevents.1713511251.n136-147-090.395396.0
+++ b/runs/Apr19_15-20-27_n136-147-090/events.out.tfevents.1713511251.n136-147-090.395396.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:53daaf92b8c7583673e41aaac419c45b8b871ab84eca91b77c2f2cb0b41a4b74
+size 4664
--- a/runs/Apr19_15-26-54_n136-147-090/events.out.tfevents.1713511632.n136-147-090.400266.0
+++ b/runs/Apr19_15-26-54_n136-147-090/events.out.tfevents.1713511632.n136-147-090.400266.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eca3d1d58727722445320f7d8e881b0396a2add61d9655a0b9045efa6bdd1fe6
+size 4664
--- a/runs/Apr19_15-43-13_n136-147-090/events.out.tfevents.1713512613.n136-147-090.408119.0
+++ b/runs/Apr19_15-43-13_n136-147-090/events.out.tfevents.1713512613.n136-147-090.408119.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b1f84c5c24fcd31a3117f36ed09cc0023c1e008d8ea70b6496a6ca5f6ae9a62c
+size 9011
--- a/runs/Apr19_17-47-46_n136-147-090/events.out.tfevents.1713520143.n136-147-090.484016.0
+++ b/runs/Apr19_17-47-46_n136-147-090/events.out.tfevents.1713520143.n136-147-090.484016.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:17e1cee2bef8d12f4571730d8738f8dd85accd522f059b52b43782cf8fbbcc96
+size 4975
--- a/runs/Apr19_18-10-06_n136-147-090/events.out.tfevents.1713521430.n136-147-090.507324.0
+++ b/runs/Apr19_18-10-06_n136-147-090/events.out.tfevents.1713521430.n136-147-090.507324.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:10ce483d6d4a810fbdafc384de19f820f1a4e3436fdbe188296531fe32ab9e05
+size 4768
--- a/runs/Apr19_18-22-46_n136-147-090/events.out.tfevents.1713522190.n136-147-090.515476.0
+++ b/runs/Apr19_18-22-46_n136-147-090/events.out.tfevents.1713522190.n136-147-090.515476.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4edb439c637b7750d9f802801202cb7ccbd932619cb39410eddab32125796c19
+size 6216
--- a/runs/Apr19_20-41-32_n136-147-090/events.out.tfevents.1713530517.n136-147-090.541607.0
+++ b/runs/Apr19_20-41-32_n136-147-090/events.out.tfevents.1713530517.n136-147-090.541607.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:70f071ce7593944808bda6e67106f7de20e67b30f348409024667f9901722364
+size 12470
--- a/runs/Apr19_20-47-51_n136-147-090/events.out.tfevents.1713531041.n136-147-090.546117.0
+++ b/runs/Apr19_20-47-51_n136-147-090/events.out.tfevents.1713531041.n136-147-090.546117.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f7a80641419b976505969c6569383a0403f3e51f1674d6032e47c8d725022903
+size 19023
--- a/runs/Apr19_21-57-14_n136-148-198/events.out.tfevents.1713535061.n136-148-198.50931.0
+++ b/runs/Apr19_21-57-14_n136-148-198/events.out.tfevents.1713535061.n136-148-198.50931.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9fe1df3ea1f1784c66f2593181c767cb4b5e36dd827bb63bfda6372dfbb81028
+size 5083
--- a/runs/Apr19_22-09-39_n136-148-198/events.out.tfevents.1713535807.n136-148-198.56001.0
+++ b/runs/Apr19_22-09-39_n136-148-198/events.out.tfevents.1713535807.n136-148-198.56001.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:74a45f59471c42ecc19f1692d51ea1f8a8f005b12f7d8eabe2ef71dae0c11f0b
+size 5083
--- a/runs/Apr19_23-13-20_n136-147-090/events.out.tfevents.1713539677.n136-147-090.624072.0
+++ b/runs/Apr19_23-13-20_n136-147-090/events.out.tfevents.1713539677.n136-147-090.624072.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:103d2f07a9b60d9c050967f788645b92f92074197fb1237b300e79de5d609aa2
+size 9672
--- a/runs/Apr19_23-14-37_n136-148-198/events.out.tfevents.1713539756.n136-148-198.81772.0
+++ b/runs/Apr19_23-14-37_n136-148-198/events.out.tfevents.1713539756.n136-148-198.81772.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3a4b7bd8c7397fb4cde6740a6a1d8c40a2d7b0d6014f003e04e24cb8a6c071fd
+size 125892
--- a/runs/Apr20_00-21-32_n136-147-090/events.out.tfevents.1713543726.n136-147-090.680033.0
+++ b/runs/Apr20_00-21-32_n136-147-090/events.out.tfevents.1713543726.n136-147-090.680033.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7b4e1220e250bc9ccd9c4136289726719d174d098b9ad04a8cae500065d35bf7
+size 5400
--- a/runs/Apr20_00-37-22_n136-147-090/events.out.tfevents.1713544674.n136-147-090.753769.0
+++ b/runs/Apr20_00-37-22_n136-147-090/events.out.tfevents.1713544674.n136-147-090.753769.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7bebd01033fbce47d8fd0c38b759814f624dc180dded29c095078ab88801355c
+size 9672
--- a/runs/Apr20_11-46-07_n136-147-090/events.out.tfevents.1713584874.n136-147-090.930598.0
+++ b/runs/Apr20_11-46-07_n136-147-090/events.out.tfevents.1713584874.n136-147-090.930598.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6e519689d4a6cafb6dbcd14b66f7e7ba2ecfc46e5d2b374aa2fc97f131167080
+size 7887
--- a/runs/Apr20_18-20-53_n136-148-198/events.out.tfevents.1713609196.n136-148-198.516294.0
+++ b/runs/Apr20_18-20-53_n136-148-198/events.out.tfevents.1713609196.n136-148-198.516294.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bb06e55e689458f239af29de708b5eddc9dbabf9d709de14942226dc99a9ee79
+size 47445
--- a/runs/Apr21_01-36-46_n136-148-198/events.out.tfevents.1713634703.n136-148-198.682627.0
+++ b/runs/Apr21_01-36-46_n136-148-198/events.out.tfevents.1713634703.n136-148-198.682627.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:75571fa0389e9415429740769783bc43e1a96af9024fe4d0b2af8d5651c32854
+size 103272
--- a/runs/Apr21_02-08-47_n136-147-090/events.out.tfevents.1713636698.n136-147-090.1353823.0
+++ b/runs/Apr21_02-08-47_n136-147-090/events.out.tfevents.1713636698.n136-147-090.1353823.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8de5c4c93768a64c609fdc0ce0ce2f408bc9231778dffb22be2948d40bee124d
+size 5211
--- a/runs/Apr21_02-13-22_n136-147-090/events.out.tfevents.1713636898.n136-147-090.1358298.0
+++ b/runs/Apr21_02-13-22_n136-147-090/events.out.tfevents.1713636898.n136-147-090.1358298.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2f0c487593208605bc042b2bb5e6a884e97e262e166a961ba995f5b5fbf09172
+size 56198
--- a/runs/Apr21_05-05-01_n136-147-090/events.out.tfevents.1713647203.n136-147-090.1467570.0
+++ b/runs/Apr21_05-05-01_n136-147-090/events.out.tfevents.1713647203.n136-147-090.1467570.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:954001da49ad7c95d9d9b9ccc3fa89acab7bcad72149dfed62351a6eb9dd19d5
+size 195482
--- a/runs/Apr21_13-50-04_n136-128-070/events.out.tfevents.1713678734.n136-128-070.503227.0
+++ b/runs/Apr21_13-50-04_n136-128-070/events.out.tfevents.1713678734.n136-128-070.503227.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:339072fdbb55df8c7a850515be86050d929c188e1353986eecafd1c8227af4f1
+size 47227
--- a/runs/Apr21_15-02-12_n136-085-012/events.out.tfevents.1713683652.n136-085-012.31939.0
+++ b/runs/Apr21_15-02-12_n136-085-012/events.out.tfevents.1713683652.n136-085-012.31939.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:744f38fc7314a9c3307484c4e1214911946217eacc65996b359ea613ee38289c
+size 19630
--- a/runs/Apr21_16-14-36_n136-148-198/events.out.tfevents.1713687998.n136-148-198.1010753.0
+++ b/runs/Apr21_16-14-36_n136-148-198/events.out.tfevents.1713687998.n136-148-198.1010753.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:95fac4f17ccbf5a306fe44369aa7e60d7717196df855b20ccca1e3b121cf0db2
+size 19639
--- a/runs/Apr21_16-57-33_n136-128-070/events.out.tfevents.1713690007.n136-128-070.635588.0
+++ b/runs/Apr21_16-57-33_n136-128-070/events.out.tfevents.1713690007.n136-128-070.635588.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:515bb24c66f59ef3875088ebd7aba3d82b86039f33d9b2c6ddc0fbc2a29831c0
+size 128644
--- a/runs/Apr21_17-29-09_n136-085-012/events.out.tfevents.1713691778.n136-085-012.82033.0
+++ b/runs/Apr21_17-29-09_n136-085-012/events.out.tfevents.1713691778.n136-085-012.82033.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:52ae0e7260c05ddaf15131c576cfa8172db8f006052a30b7a5e053b91fc9f281
+size 25960
--- a/runs/Apr21_18-02-50_n136-098-146/events.out.tfevents.1713693851.n136-098-146.30201.0
+++ b/runs/Apr21_18-02-50_n136-098-146/events.out.tfevents.1713693851.n136-098-146.30201.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5e95999081a25e71ea085c58fc6759a858aef306b02ef84d742cd3d9e76bc6fc
+size 25963
--- a/runs/Apr21_18-35-53_n136-148-198/events.out.tfevents.1713695866.n136-148-198.1070068.0
+++ b/runs/Apr21_18-35-53_n136-148-198/events.out.tfevents.1713695866.n136-148-198.1070068.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5a27fe03b80d76505401021c23ddd28b1548d36a859e1ac2b8ed391eb85503e2
+size 13731
--- a/runs/Apr21_20-41-59_n136-148-198/events.out.tfevents.1713703783.n136-148-198.1124931.0
+++ b/runs/Apr21_20-41-59_n136-148-198/events.out.tfevents.1713703783.n136-148-198.1124931.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4303dda4e200212ee0ac9ad39479e51a61e61ab8d536941c429a492b0c503613
+size 449055
--- a/runs/Apr21_21-18-05_n136-085-012/events.out.tfevents.1713706271.n136-085-012.146019.0
+++ b/runs/Apr21_21-18-05_n136-085-012/events.out.tfevents.1713706271.n136-085-012.146019.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:99fed54609ef6b4a3d9846c630971c77310d5bc5629ef86ee3735a25bfba526a
+size 4764
--- a/runs/Apr21_21-38-08_n136-085-012/events.out.tfevents.1713706717.n136-085-012.160167.0
+++ b/runs/Apr21_21-38-08_n136-085-012/events.out.tfevents.1713706717.n136-085-012.160167.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1670b813ee5c9548781ba7a97d8bcf1804220e17a72239602143741084b3145d
+size 5178
--- a/runs/Apr21_21-40-06_n136-085-012/events.out.tfevents.1713706834.n136-085-012.161795.0
+++ b/runs/Apr21_21-40-06_n136-085-012/events.out.tfevents.1713706834.n136-085-012.161795.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f321a7e16a683719e067f8640af3f21055921bd6f405bcc2db851231dc511a26
+size 427956
--- a/runs/Apr21_21-55-19_n136-098-146/events.out.tfevents.1713708395.n136-098-146.114298.0
+++ b/runs/Apr21_21-55-19_n136-098-146/events.out.tfevents.1713708395.n136-098-146.114298.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f32f6953c6a3edc3c5d2e99340c99bc596c361fdecac4c5c6356c922da14c0e6
+size 385494
--- a/runs/Apr22_13-22-04_n136-128-070/events.out.tfevents.1713763959.n136-128-070.1171306.0
+++ b/runs/Apr22_13-22-04_n136-128-070/events.out.tfevents.1713763959.n136-128-070.1171306.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1a92baa57b22ca5467fb7fc18007f6c71cbc7a8258dcb4d868d66180e97e17c7
+size 4882
--- a/runs/Apr22_13-42-47_n136-128-070/events.out.tfevents.1713764684.n136-128-070.1184259.0
+++ b/runs/Apr22_13-42-47_n136-128-070/events.out.tfevents.1713764684.n136-128-070.1184259.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:007cddfaa2bf968e7a65c61c53e2c9a5e14d6d6b8c9b332dc02436c2f0dd07f9
+size 4882
--- a/runs/Apr22_13-50-33_n136-128-070/events.out.tfevents.1713765130.n136-128-070.1187357.0
+++ b/runs/Apr22_13-50-33_n136-128-070/events.out.tfevents.1713765130.n136-128-070.1187357.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:03835d9ee1fac8bae5d4dd44c15285576aa5335d3be31665dd2f8516c3118c4f
+size 127390
--- a/runs/Apr23_15-54-20_n136-128-070/events.out.tfevents.1713858963.n136-128-070.1960238.0
+++ b/runs/Apr23_15-54-20_n136-128-070/events.out.tfevents.1713858963.n136-128-070.1960238.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e333b44a1b392a5973f75354565c1033764b4c8e6fd6606810683c3f6389f946
+size 111579
--- a/runs/Apr23_17-47-51_n136-085-012/events.out.tfevents.1713865809.n136-085-012.1059306.0
+++ b/runs/Apr23_17-47-51_n136-085-012/events.out.tfevents.1713865809.n136-085-012.1059306.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:15776a2074ab36c883c932bd28ef22c84f2af8e953ef5df4252efbe3d37e7e47
+size 5196
--- a/runs/Apr23_17-51-29_n136-085-012/events.out.tfevents.1713865995.n136-085-012.1062707.0
+++ b/runs/Apr23_17-51-29_n136-085-012/events.out.tfevents.1713865995.n136-085-012.1062707.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6df93fa7d2e259ddefcfba5f744b18ec6d4099ccd1ff42bbf9dbf95dbc5d3815
+size 5196
--- a/runs/Apr23_17-57-53_n136-085-012/events.out.tfevents.1713866692.n136-085-012.1067198.0
+++ b/runs/Apr23_17-57-53_n136-085-012/events.out.tfevents.1713866692.n136-085-012.1067198.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:310e8930ece76c8f527b5a51eabbee4fcd2f48501a7df259310937a132c50785
+size 495063
--- a/runs/Jul23_20-15-45_n122-143-008/events.out.tfevents.1721739057.n122-143-008.113937.0
+++ b/runs/Jul23_20-15-45_n122-143-008/events.out.tfevents.1721739057.n122-143-008.113937.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cfda7653cd2af4a61aad5f2b23ceff71db1fd8b4f2bfdce74172cf71e163affb
+size 13537
--- a/runs/Jul23_20-26-09_n122-143-008/events.out.tfevents.1721739061.n122-143-008.121887.0
+++ b/runs/Jul23_20-26-09_n122-143-008/events.out.tfevents.1721739061.n122-143-008.121887.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cf8cf0909a263042d7750890780b58761c8cef388562d6227887d48efb4044e7
+size 5197
--- a/runs/Jul23_21-20-12_n122-143-008/events.out.tfevents.1721740857.n122-143-008.163121.0
+++ b/runs/Jul23_21-20-12_n122-143-008/events.out.tfevents.1721740857.n122-143-008.163121.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9d9365c78faae78633c1fff16d912c181e048165f6c19f31c8a8341d74934e72
+size 13537
--- a/runs/Jul24_09-32-01_n122-143-008/events.out.tfevents.1721784767.n122-143-008.313419.0
+++ b/runs/Jul24_09-32-01_n122-143-008/events.out.tfevents.1721784767.n122-143-008.313419.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c6f60a58e819cb6ffeeef093ccd37bd2b0b89ede0e7b84ac2bfdb1c3cb2eb3af
+size 19671
--- a/runs/Jul24_11-47-11_n122-233-098/events.out.tfevents.1721795032.n122-233-098.55810.0
+++ b/runs/Jul24_11-47-11_n122-233-098/events.out.tfevents.1721795032.n122-233-098.55810.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:38d2fb5fa09e17c41dd1946bb5b22cdec48828bff419bbef711ac796d8ae7402
+size 38546
--- a/runs/Jun12_23-56-37_n136-129-074/events.out.tfevents.1718210521.n136-129-074.3717215.0
+++ b/runs/Jun12_23-56-37_n136-129-074/events.out.tfevents.1718210521.n136-129-074.3717215.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7f2aed5119ca9a8d3b598059ce7b678e97182c035a061146d7524dfba04d893c
+size 52117
--- a/runs/Jun20_14-52-15_n136-082-130/events.out.tfevents.1718867508.n136-082-130.1454865.0
+++ b/runs/Jun20_14-52-15_n136-082-130/events.out.tfevents.1718867508.n136-082-130.1454865.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a9d18beb33d5f34293bfd7169557f4c40a21c6a21d9cbcb3ec83391fa3643782
+size 5466
--- a/runs/Jun20_15-15-23_n136-082-130/events.out.tfevents.1718867751.n136-082-130.1469838.0
+++ b/runs/Jun20_15-15-23_n136-082-130/events.out.tfevents.1718867751.n136-082-130.1469838.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0a7438050d3da0d44467395b2b68b8c87244c0552923da5b7a02b3ab204e2fb5
+size 5673
--- a/runs/Jun20_15-22-36_n136-082-130/events.out.tfevents.1718868183.n136-082-130.1473504.0
+++ b/runs/Jun20_15-22-36_n136-082-130/events.out.tfevents.1718868183.n136-082-130.1473504.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c3bc0cdd63689c735241fd1744c526c9f5aaffe602a305fdcd476a175217b7dc
+size 5259
--- a/runs/Jun20_15-26-22_n136-082-130/events.out.tfevents.1718869557.n136-082-130.1477821.0
+++ b/runs/Jun20_15-26-22_n136-082-130/events.out.tfevents.1718869557.n136-082-130.1477821.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5b65f7ccf808fada64a2b8b1647e58b1243f7fe480a78b2f5a34b4c629a068f3
+size 47359
--- a/runs/Jun20_15-28-21_n136-129-074/events.out.tfevents.1718869497.n136-129-074.3627432.0
+++ b/runs/Jun20_15-28-21_n136-129-074/events.out.tfevents.1718869497.n136-129-074.3627432.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c127d15c15f1886bf6fb7117555e8534e22a541bfdc616295ab5a06855448f7e
+size 110696
--- a/runs/May20_16-24-56_n136-129-074/events.out.tfevents.1716194161.n136-129-074.1487698.0
+++ b/runs/May20_16-24-56_n136-129-074/events.out.tfevents.1716194161.n136-129-074.1487698.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:70246f3d29d8213a9a46c7290ec2773d53762866ca78e7e187a1e506a79672b5
+size 4789
--- a/runs/May20_17-14-02_n136-129-074/events.out.tfevents.1716197400.n136-129-074.1626555.0
+++ b/runs/May20_17-14-02_n136-129-074/events.out.tfevents.1716197400.n136-129-074.1626555.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5fd9e783289fdd5ea2d476548543763fd6304cf67c0e603ce57278b05855e9fb
+size 4767
--- a/runs/May20_17-38-20_n136-129-074/events.out.tfevents.1716197925.n136-129-074.1639482.0
+++ b/runs/May20_17-38-20_n136-129-074/events.out.tfevents.1716197925.n136-129-074.1639482.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0182ed0bc6f622632884edf5099c9336180da01f0797ceb7d0aacaaf234eebe8
+size 89544
--- a/runs/May20_18-22-32_n136-100-194/events.out.tfevents.1716201282.n136-100-194.1221795.0
+++ b/runs/May20_18-22-32_n136-100-194/events.out.tfevents.1716201282.n136-100-194.1221795.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:72291e0f2d47c26251ec10d02c5f245412346f1375ab4ff19b21a8d4aec6e585
+size 68432
--- a/runs/May21_00-12-03_n136-129-074/events.out.tfevents.1716221549.n136-129-074.1777913.0
+++ b/runs/May21_00-12-03_n136-129-074/events.out.tfevents.1716221549.n136-129-074.1777913.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ed21faa94df127a63e9a5450dab62047c4aee1596adaffed968956d8c2ecda63
+size 259157
--- a/runs/May21_00-12-07_n136-100-194/events.out.tfevents.1716221553.n136-100-194.1316791.0
+++ b/runs/May21_00-12-07_n136-100-194/events.out.tfevents.1716221553.n136-100-194.1316791.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b562e536b77996fe64a0bd95732776ee2bf5088660c64ea09b2e395f7b062af2
+size 238045
--- a/runs/May21_19-25-27_n136-129-074/events.out.tfevents.1716290753.n136-129-074.2182717.0
+++ b/runs/May21_19-25-27_n136-129-074/events.out.tfevents.1716290753.n136-129-074.2182717.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7361c07c0068eb174740b2a04b044028b1463c460168899db6cada181009bdab
+size 5165
--- a/runs/May21_19-31-17_n136-129-074/events.out.tfevents.1716291226.n136-129-074.2185350.0
+++ b/runs/May21_19-31-17_n136-129-074/events.out.tfevents.1716291226.n136-129-074.2185350.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:037361b48f4485993467f5883a171cd50ac1fcc9fc3a23f2c71df291bce7de7f
+size 26793
--- a/runs/May22_12-17-57_n136-129-074/events.out.tfevents.1716352017.n136-129-074.2581668.0
+++ b/runs/May22_12-17-57_n136-129-074/events.out.tfevents.1716352017.n136-129-074.2581668.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5377b87767c04159caf85c2c4ff1e30c5356d24b5304e53ae683146d9b5f00a8
+size 244172
--- a/runs/May27_20-21-22_n136-129-074/events.out.tfevents.1716812808.n136-129-074.1226363.0
+++ b/runs/May27_20-21-22_n136-129-074/events.out.tfevents.1716812808.n136-129-074.1226363.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a264e399e334516d52ac5c9c1eb5754ba3d14ae61cb58f998f97f24e7f413a0a
+size 48179
--- a/runs/May28_00-32-39_n136-129-074/events.out.tfevents.1716827575.n136-129-074.1294144.0
+++ b/runs/May28_00-32-39_n136-129-074/events.out.tfevents.1716827575.n136-129-074.1294144.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:958186ac6d0f35aa2a3dac3cb6355c6c96f86cdb19a7549f278b3a79d859bada
+size 14394
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,24 @@
+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}
--- a/tokenizer.json
+++ b/tokenizer.json
--- a/tokenizer.model
+++ b/tokenizer.model
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,43 @@
+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}\n{% if message['role'] == 'user' %}\n{{ '<|user|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'system' %}\n{{ '<|system|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'assistant' %}\n{{ '<|assistant|>\n'  + message['content'] + eos_token }}\n{% endif %}\n{% if loop.last and add_generation_prompt %}\n{{ '<|assistant|>' }}\n{% endif %}\n{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 2048,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}
--- a/train_results.json
+++ b/train_results.json
@@ -0,0 +1,9 @@
+{
+    "epoch": 1.0,
+    "total_flos": 1.515445781320958e+18,
+    "train_loss": 0.6863565506530424,
+    "train_runtime": 5790.4174,
+    "train_samples": 207864,
+    "train_samples_per_second": 23.951,
+    "train_steps_per_second": 0.187
+}
--- a/trainer_state.json
+++ b/trainer_state.json
--- a/training_args.bin
+++ b/training_args.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:456f5bbdf64a68523c5e1f162b68eade260c95ad0851d70f66513e8271eb5708
+size 5240