初始化项目，由ModelHub XC社区提供模型

Model: hZzy/mistral-7b-sft-7b-submission-win Source: Original Platform
2026-05-13 18:59:47 +08:00
commit dc8d9d300e
18 changed files with 282950 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,35 @@
+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,58 @@
+---
+base_model: mistralai/Mistral-7B-Instruct-v0.3
+library_name: transformers
+model_name: mistral-7b-sft-7b-submission-win
+tags:
+- generated_from_trainer
+- sft
+- trl
+licence: license
+---
+
+# Model Card for mistral-7b-sft-7b-submission-win
+
+This model is a fine-tuned version of [mistralai/Mistral-7B-Instruct-v0.3](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.3).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+
+## Quick start
+
+```python
+from transformers import pipeline
+
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="hZzy/mistral-7b-sft-7b-submission-win", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+
+## Training procedure
+
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/zhiyuzha-university-of-florida/huggingface/runs/yo1p58je) 
+
+
+This model was trained with SFT.
+
+### Framework versions
+
+- TRL: 0.20.0
+- Transformers: 4.54.1
+- Pytorch: 2.7.0+cu128
+- Datasets: 4.0.0
+- Tokenizers: 0.21.4
+
+## Citations
+
+
+
+Cite TRL as:
+    
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```
--- a/all_results.json
+++ b/all_results.json
@@ -0,0 +1,12 @@
+{
+    "eval_loss": 2.474679708480835,
+    "eval_runtime": 21.3356,
+    "eval_samples_per_second": 39.652,
+    "eval_steps_per_second": 6.609,
+    "total_flos": 9184917397504.0,
+    "train_loss": 1.2657821722901785,
+    "train_runtime": 1593.4425,
+    "train_samples": 7474,
+    "train_samples_per_second": 9.381,
+    "train_steps_per_second": 0.131
+}
--- a/chat_template.jinja
+++ b/chat_template.jinja
@@ -0,0 +1,87 @@
+{%- if messages[0]["role"] == "system" %}
+    {%- set system_message = messages[0]["content"] %}
+    {%- set loop_messages = messages[1:] %}
+{%- else %}
+    {%- set loop_messages = messages %}
+{%- endif %}
+{%- if not tools is defined %}
+    {%- set tools = none %}
+{%- endif %}
+{%- set user_messages = loop_messages | selectattr("role", "equalto", "user") | list %}
+
+{#- This block checks for alternating user/assistant messages, skipping tool calling messages #}
+{%- set ns = namespace() %}
+{%- set ns.index = 0 %}
+{%- for message in loop_messages %}
+    {%- if not (message.role == "tool" or message.role == "tool_results" or (message.tool_calls is defined and message.tool_calls is not none)) %}
+        {%- if (message["role"] == "user") != (ns.index % 2 == 0) %}
+            {{- raise_exception("After the optional system message, conversation roles must alternate user/assistant/user/assistant/...") }}
+        {%- endif %}
+        {%- set ns.index = ns.index + 1 %}
+    {%- endif %}
+{%- endfor %}
+
+{{- bos_token }}
+{%- for message in loop_messages %}
+    {%- if message["role"] == "user" %}
+        {%- if tools is not none and (message == user_messages[-1]) %}
+            {{- "[AVAILABLE_TOOLS] [" }}
+            {%- for tool in tools %}
+                {%- set tool = tool.function %}
+                {{- '{"type": "function", "function": {' }}
+                {%- for key, val in tool.items() if key != "return" %}
+                    {%- if val is string %}
+                        {{- '"' + key + '": "' + val + '"' }}
+                    {%- else %}
+                        {{- '"' + key + '": ' + val|tojson }}
+                    {%- endif %}
+                    {%- if not loop.last %}
+                        {{- ", " }}
+                    {%- endif %}
+                {%- endfor %}
+                {{- "}}" }}
+                {%- if not loop.last %}
+                    {{- ", " }}
+                {%- else %}
+                    {{- "]" }}
+                {%- endif %}
+            {%- endfor %}
+            {{- "[/AVAILABLE_TOOLS]" }}
+            {%- endif %}
+        {%- if loop.last and system_message is defined %}
+            {{- "[INST] " + system_message + "\n\n" + message["content"] + "[/INST]" }}
+        {%- else %}
+            {{- "[INST] " + message["content"] + "[/INST]" }}
+        {%- endif %}
+    {%- elif message.tool_calls is defined and message.tool_calls is not none %}
+        {{- "[TOOL_CALLS] [" }}
+        {%- for tool_call in message.tool_calls %}
+            {%- set out = tool_call.function|tojson %}
+            {{- out[:-1] }}
+            {%- if not tool_call.id is defined or tool_call.id|length != 9 %}
+                {{- raise_exception("Tool call IDs should be alphanumeric strings with length 9!") }}
+            {%- endif %}
+            {{- ', "id": "' + tool_call.id + '"}' }}
+            {%- if not loop.last %}
+                {{- ", " }}
+            {%- else %}
+                {{- "]" + eos_token }}
+            {%- endif %}
+        {%- endfor %}
+    {%- elif message["role"] == "assistant" %}
+        {{- " " + message["content"]|trim + eos_token}}
+    {%- elif message["role"] == "tool_results" or message["role"] == "tool" %}
+        {%- if message.content is defined and message.content.content is defined %}
+            {%- set content = message.content.content %}
+        {%- else %}
+            {%- set content = message.content %}
+        {%- endif %}
+        {{- '[TOOL_RESULTS] {"content": ' + content|string + ", " }}
+        {%- if not message.tool_call_id is defined or message.tool_call_id|length != 9 %}
+            {{- raise_exception("Tool call IDs should be alphanumeric strings with length 9!") }}
+        {%- endif %}
+        {{- '"call_id": "' + message.tool_call_id + '"}[/TOOL_RESULTS]' }}
+    {%- else %}
+        {{- raise_exception("Only user and assistant roles are supported, with the exception of an initial optional system message!") }}
+    {%- endif %}
+{%- endfor %}
--- a/config.json
+++ b/config.json
@@ -0,0 +1,26 @@
+{
+  "architectures": [
+    "MistralForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": null,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 32768,
+  "model_type": "mistral",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-05,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.54.1",
+  "use_cache": false,
+  "vocab_size": 32768
+}
--- a/eval_results.json
+++ b/eval_results.json
@@ -0,0 +1,6 @@
+{
+    "eval_loss": 2.474679708480835,
+    "eval_runtime": 21.3356,
+    "eval_samples_per_second": 39.652,
+    "eval_steps_per_second": 6.609
+}
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,6 @@
+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.54.1"
+}
--- a/model-00001-of-00003.safetensors
+++ b/model-00001-of-00003.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4ce8c6b8bacf42542d6f783f055d5b8637f166a2313e45407b376c6c389888db
+size 4949453696
--- a/model-00002-of-00003.safetensors
+++ b/model-00002-of-00003.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:16b227e971f551a17c1fadf6da2984316b3aa5cc1ace656fc1072e759d2f1a6f
+size 4999819232
--- a/model-00003-of-00003.safetensors
+++ b/model-00003-of-00003.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f90cae529af0259f056327e1f029f4480ab65ffdfb5b37c0d63ab4b58c31d9a1
+size 4546807712
--- a/model.safetensors.index.json
+++ b/model.safetensors.index.json
@@ -0,0 +1,299 @@
+{
+  "metadata": {
+    "total_parameters": 266240,
+    "total_size": 14496047104
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00003-of-00003.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.norm.weight": "model-00003-of-00003.safetensors"
+  }
+}
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,24 @@
+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}
--- a/tokenizer.json
+++ b/tokenizer.json
--- a/tokenizer.model
+++ b/tokenizer.model
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:37f00374dea48658ee8f5d0f21895b9bc55cb0103939607c8185bfd1c6ca1f89
+size 587404
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
--- a/train_results.json
+++ b/train_results.json
@@ -0,0 +1,8 @@
+{
+    "total_flos": 9184917397504.0,
+    "train_loss": 1.2657821722901785,
+    "train_runtime": 1593.4425,
+    "train_samples": 7474,
+    "train_samples_per_second": 9.381,
+    "train_steps_per_second": 0.131
+}
--- a/trainer_state.json
+++ b/trainer_state.json
@@ -0,0 +1,454 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 50,
+  "global_step": 208,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.048154093097913325,
+      "grad_norm": 0.0,
+      "learning_rate": 0.0,
+      "loss": 3.2127,
+      "mean_token_accuracy": 0.46168680985768634,
+      "num_tokens": 75485.0,
+      "step": 5
+    },
+    {
+      "epoch": 0.09630818619582665,
+      "grad_norm": 64.61959180680725,
+      "learning_rate": 7.142857142857143e-07,
+      "loss": 3.0841,
+      "mean_token_accuracy": 0.475005774696668,
+      "num_tokens": 152218.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.14446227929373998,
+      "grad_norm": 17.215265821295326,
+      "learning_rate": 1.904761904761905e-06,
+      "loss": 2.495,
+      "mean_token_accuracy": 0.5029486671090126,
+      "num_tokens": 229001.0,
+      "step": 15
+    },
+    {
+      "epoch": 0.1926163723916533,
+      "grad_norm": 11.563556030723554,
+      "learning_rate": 3.0952380952380957e-06,
+      "loss": 2.2543,
+      "mean_token_accuracy": 0.5284626389543216,
+      "num_tokens": 312645.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.24077046548956663,
+      "grad_norm": 10.852610543715219,
+      "learning_rate": 4.2857142857142855e-06,
+      "loss": 2.2246,
+      "mean_token_accuracy": 0.5318902805447578,
+      "num_tokens": 386208.0,
+      "step": 25
+    },
+    {
+      "epoch": 0.28892455858747995,
+      "grad_norm": 9.119415789634052,
+      "learning_rate": 4.998588939359435e-06,
+      "loss": 2.1391,
+      "mean_token_accuracy": 0.5403730009992918,
+      "num_tokens": 459892.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.33707865168539325,
+      "grad_norm": 9.556488008181512,
+      "learning_rate": 4.982732794633588e-06,
+      "loss": 2.0366,
+      "mean_token_accuracy": 0.5523023113608361,
+      "num_tokens": 539227.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.3852327447833066,
+      "grad_norm": 10.950335586706586,
+      "learning_rate": 4.949368867399567e-06,
+      "loss": 1.9687,
+      "mean_token_accuracy": 0.5595992157856623,
+      "num_tokens": 623998.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.4333868378812199,
+      "grad_norm": 13.153480823091519,
+      "learning_rate": 4.8987324340362445e-06,
+      "loss": 1.9844,
+      "mean_token_accuracy": 0.553166281680266,
+      "num_tokens": 699068.0,
+      "step": 45
+    },
+    {
+      "epoch": 0.48154093097913325,
+      "grad_norm": 13.142079983198274,
+      "learning_rate": 4.83118057351089e-06,
+      "loss": 1.9087,
+      "mean_token_accuracy": 0.5681869551539421,
+      "num_tokens": 778660.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.48154093097913325,
+      "eval_loss": 2.167543411254883,
+      "eval_mean_token_accuracy": 0.5312999839901079,
+      "eval_num_tokens": 778660.0,
+      "eval_runtime": 21.1924,
+      "eval_samples_per_second": 39.92,
+      "eval_steps_per_second": 6.653,
+      "step": 50
+    },
+    {
+      "epoch": 0.5296950240770465,
+      "grad_norm": 12.256186585359213,
+      "learning_rate": 4.747189649322894e-06,
+      "loss": 1.8243,
+      "mean_token_accuracy": 0.5790426706274351,
+      "num_tokens": 851058.0,
+      "step": 55
+    },
+    {
+      "epoch": 0.5778491171749599,
+      "grad_norm": 12.978284928577644,
+      "learning_rate": 4.647351950274548e-06,
+      "loss": 1.7875,
+      "mean_token_accuracy": 0.5851869150996208,
+      "num_tokens": 924603.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.6260032102728732,
+      "grad_norm": 13.029623166002976,
+      "learning_rate": 4.532371513757564e-06,
+      "loss": 1.7335,
+      "mean_token_accuracy": 0.5922025551398595,
+      "num_tokens": 1003191.0,
+      "step": 65
+    },
+    {
+      "epoch": 0.6741573033707865,
+      "grad_norm": 12.579451224581598,
+      "learning_rate": 4.403059161008762e-06,
+      "loss": 1.6306,
+      "mean_token_accuracy": 0.6137229397892952,
+      "num_tokens": 1084380.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.7223113964686998,
+      "grad_norm": 8.781697503753147,
+      "learning_rate": 4.2603267793453925e-06,
+      "loss": 1.6176,
+      "mean_token_accuracy": 0.6137419521808625,
+      "num_tokens": 1158912.0,
+      "step": 75
+    },
+    {
+      "epoch": 0.7704654895666132,
+      "grad_norm": 10.353422421141829,
+      "learning_rate": 4.105180891700746e-06,
+      "loss": 1.6269,
+      "mean_token_accuracy": 0.6146789371967316,
+      "num_tokens": 1233420.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.8186195826645265,
+      "grad_norm": 11.13618005328121,
+      "learning_rate": 3.938715558806525e-06,
+      "loss": 1.5826,
+      "mean_token_accuracy": 0.6222126225630442,
+      "num_tokens": 1304754.0,
+      "step": 85
+    },
+    {
+      "epoch": 0.8667736757624398,
+      "grad_norm": 9.752065879303624,
+      "learning_rate": 3.7621046640744973e-06,
+      "loss": 1.4856,
+      "mean_token_accuracy": 0.63288747270902,
+      "num_tokens": 1379628.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.9149277688603531,
+      "grad_norm": 11.231583007810258,
+      "learning_rate": 3.5765936355830353e-06,
+      "loss": 1.4762,
+      "mean_token_accuracy": 0.6418172031641006,
+      "num_tokens": 1457505.0,
+      "step": 95
+    },
+    {
+      "epoch": 0.9630818619582665,
+      "grad_norm": 11.752764891234037,
+      "learning_rate": 3.3834906635436355e-06,
+      "loss": 1.4247,
+      "mean_token_accuracy": 0.6503905127445857,
+      "num_tokens": 1534494.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.9630818619582665,
+      "eval_loss": 2.2062435150146484,
+      "eval_mean_token_accuracy": 0.5240506884899545,
+      "eval_num_tokens": 1534494.0,
+      "eval_runtime": 21.3286,
+      "eval_samples_per_second": 39.665,
+      "eval_steps_per_second": 6.611,
+      "step": 100
+    },
+    {
+      "epoch": 1.0096308186195826,
+      "grad_norm": 14.993373196343875,
+      "learning_rate": 3.184157475180208e-06,
+      "loss": 1.3243,
+      "mean_token_accuracy": 0.6802589081484696,
+      "num_tokens": 1612839.0,
+      "step": 105
+    },
+    {
+      "epoch": 1.057784911717496,
+      "grad_norm": 14.998634173948343,
+      "learning_rate": 2.9799997320750506e-06,
+      "loss": 0.8052,
+      "mean_token_accuracy": 0.7905437111854553,
+      "num_tokens": 1694998.0,
+      "step": 110
+    },
+    {
+      "epoch": 1.1059390048154094,
+      "grad_norm": 10.81772163666591,
+      "learning_rate": 2.7724571176976734e-06,
+      "loss": 0.7258,
+      "mean_token_accuracy": 0.8077059368292491,
+      "num_tokens": 1772379.0,
+      "step": 115
+    },
+    {
+      "epoch": 1.1540930979133226,
+      "grad_norm": 10.11949536342127,
+      "learning_rate": 2.562993185017431e-06,
+      "loss": 0.7364,
+      "mean_token_accuracy": 0.8070536454518636,
+      "num_tokens": 1849604.0,
+      "step": 120
+    },
+    {
+      "epoch": 1.202247191011236,
+      "grad_norm": 13.125126385789981,
+      "learning_rate": 2.3530850357927563e-06,
+      "loss": 0.6751,
+      "mean_token_accuracy": 0.8201006094614665,
+      "num_tokens": 1928130.0,
+      "step": 125
+    },
+    {
+      "epoch": 1.2504012841091492,
+      "grad_norm": 11.420765028503823,
+      "learning_rate": 2.1442129043167877e-06,
+      "loss": 0.661,
+      "mean_token_accuracy": 0.823780287305514,
+      "num_tokens": 1998942.0,
+      "step": 130
+    },
+    {
+      "epoch": 1.2985553772070626,
+      "grad_norm": 11.889207346196013,
+      "learning_rate": 1.937849719072931e-06,
+      "loss": 0.6308,
+      "mean_token_accuracy": 0.8344957828521729,
+      "num_tokens": 2077600.0,
+      "step": 135
+    },
+    {
+      "epoch": 1.346709470304976,
+      "grad_norm": 12.096248248433344,
+      "learning_rate": 1.7354507159096649e-06,
+      "loss": 0.6068,
+      "mean_token_accuracy": 0.8379041075706481,
+      "num_tokens": 2156924.0,
+      "step": 140
+    },
+    {
+      "epoch": 1.3948635634028892,
+      "grad_norm": 11.293697729091125,
+      "learning_rate": 1.5384431759806085e-06,
+      "loss": 0.5968,
+      "mean_token_accuracy": 0.8397696912288666,
+      "num_tokens": 2231114.0,
+      "step": 145
+    },
+    {
+      "epoch": 1.4430176565008026,
+      "grad_norm": 9.124895851710205,
+      "learning_rate": 1.348216360816041e-06,
+      "loss": 0.5947,
+      "mean_token_accuracy": 0.8452269424994786,
+      "num_tokens": 2309259.0,
+      "step": 150
+    },
+    {
+      "epoch": 1.4430176565008026,
+      "eval_loss": 2.382331132888794,
+      "eval_mean_token_accuracy": 0.5126862906395121,
+      "eval_num_tokens": 2309259.0,
+      "eval_runtime": 21.3723,
+      "eval_samples_per_second": 39.584,
+      "eval_steps_per_second": 6.597,
+      "step": 150
+    },
+    {
+      "epoch": 1.491171749598716,
+      "grad_norm": 11.6588250049219,
+      "learning_rate": 1.1661117155019295e-06,
+      "loss": 0.5642,
+      "mean_token_accuracy": 0.8507290641466777,
+      "num_tokens": 2391120.0,
+      "step": 155
+    },
+    {
+      "epoch": 1.5393258426966292,
+      "grad_norm": 10.660140323644573,
+      "learning_rate": 9.934134090518593e-07,
+      "loss": 0.5677,
+      "mean_token_accuracy": 0.8485025237003962,
+      "num_tokens": 2474474.0,
+      "step": 160
+    },
+    {
+      "epoch": 1.5874799357945424,
+      "grad_norm": 10.626219804281234,
+      "learning_rate": 8.313392786794833e-07,
+      "loss": 0.5783,
+      "mean_token_accuracy": 0.8521494368712107,
+      "num_tokens": 2554920.0,
+      "step": 165
+    },
+    {
+      "epoch": 1.635634028892456,
+      "grad_norm": 10.159951789201457,
+      "learning_rate": 6.810322418308085e-07,
+      "loss": 0.5231,
+      "mean_token_accuracy": 0.8625788191954294,
+      "num_tokens": 2631940.0,
+      "step": 170
+    },
+    {
+      "epoch": 1.6837881219903692,
+      "grad_norm": 11.3836838523216,
+      "learning_rate": 5.435522365371376e-07,
+      "loss": 0.4797,
+      "mean_token_accuracy": 0.8722179641326269,
+      "num_tokens": 2704574.0,
+      "step": 175
+    },
+    {
+      "epoch": 1.7319422150882824,
+      "grad_norm": 14.381826637802636,
+      "learning_rate": 4.198687469238297e-07,
+      "loss": 0.5057,
+      "mean_token_accuracy": 0.8718133926391601,
+      "num_tokens": 2779644.0,
+      "step": 180
+    },
+    {
+      "epoch": 1.7800963081861958,
+      "grad_norm": 10.843940846678331,
+      "learning_rate": 3.1085396658363884e-07,
+      "loss": 0.4763,
+      "mean_token_accuracy": 0.8735970060030619,
+      "num_tokens": 2858883.0,
+      "step": 185
+    },
+    {
+      "epoch": 1.8282504012841092,
+      "grad_norm": 11.83942523855346,
+      "learning_rate": 2.1727664802529218e-07,
+      "loss": 0.4585,
+      "mean_token_accuracy": 0.8757681508858999,
+      "num_tokens": 2935988.0,
+      "step": 190
+    },
+    {
+      "epoch": 1.8764044943820224,
+      "grad_norm": 10.716830524055672,
+      "learning_rate": 1.3979668156987424e-07,
+      "loss": 0.4513,
+      "mean_token_accuracy": 0.8814116775989532,
+      "num_tokens": 3008300.0,
+      "step": 195
+    },
+    {
+      "epoch": 1.9245585874799358,
+      "grad_norm": 11.700054619778108,
+      "learning_rate": 7.896044192366587e-08,
+      "loss": 0.465,
+      "mean_token_accuracy": 0.8805319319168726,
+      "num_tokens": 3082266.0,
+      "step": 200
+    },
+    {
+      "epoch": 1.9245585874799358,
+      "eval_loss": 2.468674898147583,
+      "eval_mean_token_accuracy": 0.5063806645413662,
+      "eval_num_tokens": 3082266.0,
+      "eval_runtime": 21.1843,
+      "eval_samples_per_second": 39.935,
+      "eval_steps_per_second": 6.656,
+      "step": 200
+    },
+    {
+      "epoch": 1.9727126805778492,
+      "grad_norm": 10.325385037101356,
+      "learning_rate": 3.51969352425624e-08,
+      "loss": 0.4718,
+      "mean_token_accuracy": 0.8750891566276551,
+      "num_tokens": 3153878.0,
+      "step": 205
+    },
+    {
+      "epoch": 2.0,
+      "mean_token_accuracy": 0.8762102390036863,
+      "num_tokens": 3195825.0,
+      "step": 208,
+      "total_flos": 9184917397504.0,
+      "train_loss": 1.2657821722901785,
+      "train_runtime": 1593.4425,
+      "train_samples_per_second": 9.381,
+      "train_steps_per_second": 0.131
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 208,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9184917397504.0,
+  "train_batch_size": 3,
+  "trial_name": null,
+  "trial_params": null
+}
--- a/training_args.bin
+++ b/training_args.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4ef4a8d21d10aae807d358b4205e3d7cea07337919542bc34573a124b75a38fc
+size 8017