commit 0f39d4f94dfa3734aa406163d72204a8a631ba2c
Author: ModelHub XC <noreply@modelhub.org.cn>
Date:   Wed May 6 02:55:40 2026 +0800

    初始化项目，由ModelHub XC社区提供模型
    
    Model: smirki/UIGEN-FX-4B-Intermediate
    Source: Original Platform

diff --git a/.gitattributes b/.gitattributes
new file mode 100644
index 0000000..d2fc868
--- /dev/null
+++ b/.gitattributes
@@ -0,0 +1,51 @@
+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*.tfevents* filter=lfs diff=lfs merge=lfs -text
+*.db* filter=lfs diff=lfs merge=lfs -text
+*.ark* filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*data* filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*.meta filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*.index filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.gguf* filter=lfs diff=lfs merge=lfs -text
+*.ggml filter=lfs diff=lfs merge=lfs -text
+*.llamafile* filter=lfs diff=lfs merge=lfs -text
+*.pt2 filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+
+merges.txt filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
+vocab.json filter=lfs diff=lfs merge=lfs -text
\ No newline at end of file
diff --git a/README.md b/README.md
new file mode 100644
index 0000000..e0f95c5
--- /dev/null
+++ b/README.md
@@ -0,0 +1,23 @@
+---
+base_model: Unsloth/Qwen3-4B-Instruct-2507
+tags:
+- text-generation-inference
+- transformers
+- unsloth
+- qwen3
+- trl
+- sft
+license: apache-2.0
+language:
+- en
+---
+
+# Uploaded  model
+
+- **Developed by:** smirki
+- **License:** apache-2.0
+- **Finetuned from model :** Unsloth/Qwen3-4B-Instruct-2507
+
+This qwen3 model was trained 2x faster with [Unsloth](https://github.com/unslothai/unsloth) and Huggingface's TRL library.
+
+[<img src="https://raw.githubusercontent.com/unslothai/unsloth/main/images/unsloth%20made%20with%20love.png" width="200"/>](https://github.com/unslothai/unsloth)
diff --git a/added_tokens.json b/added_tokens.json
new file mode 100644
index 0000000..b54f913
--- /dev/null
+++ b/added_tokens.json
@@ -0,0 +1,28 @@
+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}
diff --git a/chat_template.jinja b/chat_template.jinja
new file mode 100644
index 0000000..465e19f
--- /dev/null
+++ b/chat_template.jinja
@@ -0,0 +1,289 @@
+{% if 'role' in messages[0] %}
+{%- if tools %}
+    {{- '<|im_start|>system
+' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '
+
+' }}
+    {%- endif %}
+    {{- "# Tools
+
+You may call one or more functions to assist with the user query.
+
+You are provided with function signatures within <tools></tools> XML tags:
+<tools>" }}
+    {%- for tool in tools %}
+        {{- "
+" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "
+</tools>
+
+For each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:
+<tool_call>
+{\"name\": <function-name>, \"arguments\": <args-json-object>}
+</tool_call><|im_end|>
+" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system
+' + messages[0].content + '<|im_end|>
+' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for forward_message in messages %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- set message = messages[index] %}
+    {%- set current_content = message.content if message.content is not none else '' %}
+    {%- set tool_start = '<tool_response>' %}
+    {%- set tool_start_length = tool_start|length %}
+    {%- set start_of_message = current_content[:tool_start_length] %}
+    {%- set tool_end = '</tool_response>' %}
+    {%- set tool_end_length = tool_end|length %}
+    {%- set start_pos = (current_content|length) - tool_end_length %}
+    {%- if start_pos < 0 %}
+        {%- set start_pos = 0 %}
+    {%- endif %}
+    {%- set end_of_message = current_content[start_pos:] %}
+    {%- if ns.multi_step_tool and message.role == "user" and not(start_of_message == tool_start and end_of_message == tool_end) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '
+' + message.content + '<|im_end|>' + '
+' }}
+    {%- elif message.role == "assistant" %}
+        {%- set content = message.content %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is defined and message.reasoning_content is not none %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in message.content %}
+                {%- set content = (message.content.split('</think>')|last).lstrip('
+') %}
+                {%- set reasoning_content = (message.content.split('</think>')|first).rstrip('
+') %}
+                {%- set reasoning_content = (reasoning_content.split('<think>')|last).lstrip('
+') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '
+<think>
+' + reasoning_content.strip('
+') + '
+</think>
+
+' + content.lstrip('
+') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '
+' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '
+' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '
+' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>
+{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}
+</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>
+' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '
+<tool_response>
+' }}
+        {{- message.content }}
+        {{- '
+</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>
+' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant
+' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>
+
+</think>
+
+' }}
+    {%- endif %}
+{%- endif %}
+{% else %}
+{%- if tools %}
+    {{- '<|im_start|>system
+' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '
+
+' }}
+    {%- endif %}
+    {{- "# Tools
+
+You may call one or more functions to assist with the user query.
+
+You are provided with function signatures within <tools></tools> XML tags:
+<tools>" }}
+    {%- for tool in tools %}
+        {{- "
+" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "
+</tools>
+
+For each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:
+<tool_call>
+{\"name\": <function-name>, \"arguments\": <args-json-object>}
+</tool_call><|im_end|>
+" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system
+' + messages[0].content + '<|im_end|>
+' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for forward_message in messages %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- set message = messages[index] %}
+    {%- set current_content = message.content if message.content is not none else '' %}
+    {%- set tool_start = '<tool_response>' %}
+    {%- set tool_start_length = tool_start|length %}
+    {%- set start_of_message = current_content[:tool_start_length] %}
+    {%- set tool_end = '</tool_response>' %}
+    {%- set tool_end_length = tool_end|length %}
+    {%- set start_pos = (current_content|length) - tool_end_length %}
+    {%- if start_pos < 0 %}
+        {%- set start_pos = 0 %}
+    {%- endif %}
+    {%- set end_of_message = current_content[start_pos:] %}
+    {%- if ns.multi_step_tool and message.role == "user" and not(start_of_message == tool_start and end_of_message == tool_end) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '
+' + message.content + '<|im_end|>' + '
+' }}
+    {%- elif message.role == "assistant" %}
+        {%- set content = message.content %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is defined and message.reasoning_content is not none %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in message.content %}
+                {%- set content = (message.content.split('</think>')|last).lstrip('
+') %}
+                {%- set reasoning_content = (message.content.split('</think>')|first).rstrip('
+') %}
+                {%- set reasoning_content = (reasoning_content.split('<think>')|last).lstrip('
+') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '
+<think>
+' + reasoning_content.strip('
+') + '
+</think>
+
+' + content.lstrip('
+') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '
+' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '
+' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '
+' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>
+{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}
+</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>
+' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '
+<tool_response>
+' }}
+        {{- message.content }}
+        {{- '
+</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>
+' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant
+' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>
+
+</think>
+
+' }}
+    {%- endif %}
+{%- endif %}
+{% endif %}
\ No newline at end of file
diff --git a/config.json b/config.json
new file mode 100644
index 0000000..18c0d87
--- /dev/null
+++ b/config.json
@@ -0,0 +1,70 @@
+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "eos_token_id": 151645,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 2560,
+  "initializer_range": 0.02,
+  "intermediate_size": 9728,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 262144,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 5000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.55.4",
+  "unsloth_fixed": true,
+  "unsloth_version": "2025.8.10",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
diff --git a/configuration.json b/configuration.json
new file mode 100644
index 0000000..bbeeda1
--- /dev/null
+++ b/configuration.json
@@ -0,0 +1 @@
+{"framework": "pytorch", "task": "text-generation", "allow_remote": true}
\ No newline at end of file
diff --git a/generation_config.json b/generation_config.json
new file mode 100644
index 0000000..e8c0b71
--- /dev/null
+++ b/generation_config.json
@@ -0,0 +1,14 @@
+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "max_length": 262144,
+  "pad_token_id": 151654,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.55.4"
+}
diff --git a/merges.txt b/merges.txt
new file mode 100644
index 0000000..80c1a19
--- /dev/null
+++ b/merges.txt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8831e4f1a044471340f7c0a83d7bd71306a5b867e95fd870f74d0c5308a904d5
+size 1671853
diff --git a/model-00001-of-00002.safetensors b/model-00001-of-00002.safetensors
new file mode 100644
index 0000000..f580fa5
--- /dev/null
+++ b/model-00001-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:20288b037fbd662363ca99169fcbaee5e5423dfc4e03740b2da74b6011bf57c9
+size 4967215360
diff --git a/model-00002-of-00002.safetensors b/model-00002-of-00002.safetensors
new file mode 100644
index 0000000..fb6c749
--- /dev/null
+++ b/model-00002-of-00002.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7224f43d61b5485bfd2bfe4bcb2cae5b0995c3ea007b8b2296a30b0851e2accf
+size 3077766632
diff --git a/model.safetensors.index.json b/model.safetensors.index.json
new file mode 100644
index 0000000..b65d806
--- /dev/null
+++ b/model.safetensors.index.json
@@ -0,0 +1,406 @@
+{
+  "metadata": {
+    "total_parameters": 4022468096,
+    "total_size": 8044936192
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}
diff --git a/optimizer.pt b/optimizer.pt
new file mode 100644
index 0000000..dddcb92
--- /dev/null
+++ b/optimizer.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fd1a582ee6213adc5acdb97544e0af330fbff79d2237484c73c4fa0e0a402f13
+size 10493788917
diff --git a/rng_state.pth b/rng_state.pth
new file mode 100644
index 0000000..ecd5163
--- /dev/null
+++ b/rng_state.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:89645f9f6a2a8823b334e0748e4f5ea683a27b3d02632f0a241397db55d82fad
+size 14645
diff --git a/scheduler.pt b/scheduler.pt
new file mode 100644
index 0000000..03bb251
--- /dev/null
+++ b/scheduler.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:96fbc3d8dd719da20f5f7085173be583f34a0113e2ceff55f0b9b3cfe37c14ee
+size 1465
diff --git a/special_tokens_map.json b/special_tokens_map.json
new file mode 100644
index 0000000..9b8043f
--- /dev/null
+++ b/special_tokens_map.json
@@ -0,0 +1,31 @@
+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|vision_pad|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}
diff --git a/tokenizer.json b/tokenizer.json
new file mode 100644
index 0000000..cd71f61
--- /dev/null
+++ b/tokenizer.json
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654
diff --git a/tokenizer_config.json b/tokenizer_config.json
new file mode 100644
index 0000000..da9f80f
--- /dev/null
+++ b/tokenizer_config.json
@@ -0,0 +1,240 @@
+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 262144,
+  "pad_token": "<|vision_pad|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}
diff --git a/trainer_state.json b/trainer_state.json
new file mode 100644
index 0000000..23f0f44
--- /dev/null
+++ b/trainer_state.json
@@ -0,0 +1,2834 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.808177991581479,
+  "eval_steps": 500,
+  "global_step": 4000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.012026458208057728,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.6000000000000003e-06,
+      "loss": 0.6162,
+      "step": 10
+    },
+    {
+      "epoch": 0.024052916416115455,
+      "grad_norm": 1.6171875,
+      "learning_rate": 7.600000000000001e-06,
+      "loss": 0.5185,
+      "step": 20
+    },
+    {
+      "epoch": 0.03607937462417318,
+      "grad_norm": 0.9140625,
+      "learning_rate": 1.16e-05,
+      "loss": 0.4609,
+      "step": 30
+    },
+    {
+      "epoch": 0.04810583283223091,
+      "grad_norm": 0.84375,
+      "learning_rate": 1.5600000000000003e-05,
+      "loss": 0.4184,
+      "step": 40
+    },
+    {
+      "epoch": 0.06013229104028864,
+      "grad_norm": 0.7890625,
+      "learning_rate": 1.9600000000000002e-05,
+      "loss": 0.4258,
+      "step": 50
+    },
+    {
+      "epoch": 0.07215874924834637,
+      "grad_norm": 0.72265625,
+      "learning_rate": 1.9999763370213405e-05,
+      "loss": 0.4325,
+      "step": 60
+    },
+    {
+      "epoch": 0.0841852074564041,
+      "grad_norm": 0.796875,
+      "learning_rate": 1.9998945405081654e-05,
+      "loss": 0.429,
+      "step": 70
+    },
+    {
+      "epoch": 0.09621166566446182,
+      "grad_norm": 0.7421875,
+      "learning_rate": 1.9997543231029267e-05,
+      "loss": 0.405,
+      "step": 80
+    },
+    {
+      "epoch": 0.10823812387251955,
+      "grad_norm": 0.92578125,
+      "learning_rate": 1.9995556929981147e-05,
+      "loss": 0.4061,
+      "step": 90
+    },
+    {
+      "epoch": 0.12026458208057728,
+      "grad_norm": 0.85546875,
+      "learning_rate": 1.9992986617991008e-05,
+      "loss": 0.4029,
+      "step": 100
+    },
+    {
+      "epoch": 0.132291040288635,
+      "grad_norm": 1.0234375,
+      "learning_rate": 1.9989832445234612e-05,
+      "loss": 0.3865,
+      "step": 110
+    },
+    {
+      "epoch": 0.14431749849669273,
+      "grad_norm": 0.66015625,
+      "learning_rate": 1.998609459600098e-05,
+      "loss": 0.4057,
+      "step": 120
+    },
+    {
+      "epoch": 0.15634395670475046,
+      "grad_norm": 0.7109375,
+      "learning_rate": 1.9981773288681624e-05,
+      "loss": 0.4188,
+      "step": 130
+    },
+    {
+      "epoch": 0.1683704149128082,
+      "grad_norm": 0.78515625,
+      "learning_rate": 1.99768687757578e-05,
+      "loss": 0.3985,
+      "step": 140
+    },
+    {
+      "epoch": 0.1803968731208659,
+      "grad_norm": 0.7265625,
+      "learning_rate": 1.9971381343785755e-05,
+      "loss": 0.4024,
+      "step": 150
+    },
+    {
+      "epoch": 0.19242333132892364,
+      "grad_norm": 0.73046875,
+      "learning_rate": 1.996531131337997e-05,
+      "loss": 0.3711,
+      "step": 160
+    },
+    {
+      "epoch": 0.20444978953698137,
+      "grad_norm": 0.82421875,
+      "learning_rate": 1.9958659039194434e-05,
+      "loss": 0.3807,
+      "step": 170
+    },
+    {
+      "epoch": 0.2164762477450391,
+      "grad_norm": 0.890625,
+      "learning_rate": 1.9951424909901927e-05,
+      "loss": 0.416,
+      "step": 180
+    },
+    {
+      "epoch": 0.22850270595309682,
+      "grad_norm": 0.76953125,
+      "learning_rate": 1.994360934817132e-05,
+      "loss": 0.3846,
+      "step": 190
+    },
+    {
+      "epoch": 0.24052916416115455,
+      "grad_norm": 0.71875,
+      "learning_rate": 1.9935212810642844e-05,
+      "loss": 0.3587,
+      "step": 200
+    },
+    {
+      "epoch": 0.25255562236921225,
+      "grad_norm": 0.71484375,
+      "learning_rate": 1.9926235787901457e-05,
+      "loss": 0.3799,
+      "step": 210
+    },
+    {
+      "epoch": 0.26458208057727,
+      "grad_norm": 0.78515625,
+      "learning_rate": 1.991667880444815e-05,
+      "loss": 0.4036,
+      "step": 220
+    },
+    {
+      "epoch": 0.2766085387853277,
+      "grad_norm": 0.80859375,
+      "learning_rate": 1.990654241866931e-05,
+      "loss": 0.4102,
+      "step": 230
+    },
+    {
+      "epoch": 0.28863499699338546,
+      "grad_norm": 0.81640625,
+      "learning_rate": 1.9895827222804086e-05,
+      "loss": 0.391,
+      "step": 240
+    },
+    {
+      "epoch": 0.30066145520144316,
+      "grad_norm": 0.76171875,
+      "learning_rate": 1.9884533842909807e-05,
+      "loss": 0.3655,
+      "step": 250
+    },
+    {
+      "epoch": 0.3126879134095009,
+      "grad_norm": 0.79296875,
+      "learning_rate": 1.9872662938825392e-05,
+      "loss": 0.3754,
+      "step": 260
+    },
+    {
+      "epoch": 0.3247143716175586,
+      "grad_norm": 0.99609375,
+      "learning_rate": 1.9860215204132783e-05,
+      "loss": 0.3552,
+      "step": 270
+    },
+    {
+      "epoch": 0.3367408298256164,
+      "grad_norm": 2.984375,
+      "learning_rate": 1.9847191366116453e-05,
+      "loss": 0.3657,
+      "step": 280
+    },
+    {
+      "epoch": 0.34876728803367407,
+      "grad_norm": 0.66796875,
+      "learning_rate": 1.983359218572088e-05,
+      "loss": 0.3919,
+      "step": 290
+    },
+    {
+      "epoch": 0.3607937462417318,
+      "grad_norm": 0.73828125,
+      "learning_rate": 1.9819418457506105e-05,
+      "loss": 0.3825,
+      "step": 300
+    },
+    {
+      "epoch": 0.3728202044497895,
+      "grad_norm": 1.0859375,
+      "learning_rate": 1.9804671009601316e-05,
+      "loss": 0.3928,
+      "step": 310
+    },
+    {
+      "epoch": 0.3848466626578473,
+      "grad_norm": 1.28125,
+      "learning_rate": 1.9789350703656443e-05,
+      "loss": 0.3772,
+      "step": 320
+    },
+    {
+      "epoch": 0.396873120865905,
+      "grad_norm": 0.87890625,
+      "learning_rate": 1.9773458434791822e-05,
+      "loss": 0.3892,
+      "step": 330
+    },
+    {
+      "epoch": 0.40889957907396274,
+      "grad_norm": 0.96875,
+      "learning_rate": 1.9756995131545898e-05,
+      "loss": 0.3875,
+      "step": 340
+    },
+    {
+      "epoch": 0.42092603728202044,
+      "grad_norm": 0.7265625,
+      "learning_rate": 1.973996175582098e-05,
+      "loss": 0.3758,
+      "step": 350
+    },
+    {
+      "epoch": 0.4329524954900782,
+      "grad_norm": 0.77734375,
+      "learning_rate": 1.9722359302827025e-05,
+      "loss": 0.3584,
+      "step": 360
+    },
+    {
+      "epoch": 0.4449789536981359,
+      "grad_norm": 0.67578125,
+      "learning_rate": 1.97041888010235e-05,
+      "loss": 0.3456,
+      "step": 370
+    },
+    {
+      "epoch": 0.45700541190619365,
+      "grad_norm": 0.66796875,
+      "learning_rate": 1.968545131205929e-05,
+      "loss": 0.3502,
+      "step": 380
+    },
+    {
+      "epoch": 0.46903187011425135,
+      "grad_norm": 0.74609375,
+      "learning_rate": 1.966614793071067e-05,
+      "loss": 0.3296,
+      "step": 390
+    },
+    {
+      "epoch": 0.4810583283223091,
+      "grad_norm": 1.21875,
+      "learning_rate": 1.964627978481734e-05,
+      "loss": 0.3501,
+      "step": 400
+    },
+    {
+      "epoch": 0.4930847865303668,
+      "grad_norm": 1.046875,
+      "learning_rate": 1.962584803521653e-05,
+      "loss": 0.3404,
+      "step": 410
+    },
+    {
+      "epoch": 0.5051112447384245,
+      "grad_norm": 0.9765625,
+      "learning_rate": 1.960485387567517e-05,
+      "loss": 0.3427,
+      "step": 420
+    },
+    {
+      "epoch": 0.5171377029464823,
+      "grad_norm": 0.8046875,
+      "learning_rate": 1.9583298532820147e-05,
+      "loss": 0.3723,
+      "step": 430
+    },
+    {
+      "epoch": 0.52916416115454,
+      "grad_norm": 0.796875,
+      "learning_rate": 1.956118326606664e-05,
+      "loss": 0.3835,
+      "step": 440
+    },
+    {
+      "epoch": 0.5411906193625977,
+      "grad_norm": 0.65625,
+      "learning_rate": 1.9538509367544524e-05,
+      "loss": 0.3488,
+      "step": 450
+    },
+    {
+      "epoch": 0.5532170775706554,
+      "grad_norm": 0.91796875,
+      "learning_rate": 1.951527816202289e-05,
+      "loss": 0.3653,
+      "step": 460
+    },
+    {
+      "epoch": 0.5652435357787132,
+      "grad_norm": 0.69921875,
+      "learning_rate": 1.949149100683263e-05,
+      "loss": 0.3542,
+      "step": 470
+    },
+    {
+      "epoch": 0.5772699939867709,
+      "grad_norm": 0.81640625,
+      "learning_rate": 1.946714929178714e-05,
+      "loss": 0.3543,
+      "step": 480
+    },
+    {
+      "epoch": 0.5892964521948286,
+      "grad_norm": 0.91796875,
+      "learning_rate": 1.944225443910111e-05,
+      "loss": 0.3619,
+      "step": 490
+    },
+    {
+      "epoch": 0.6013229104028863,
+      "grad_norm": 0.9609375,
+      "learning_rate": 1.941680790330744e-05,
+      "loss": 0.3641,
+      "step": 500
+    },
+    {
+      "epoch": 0.613349368610944,
+      "grad_norm": 0.765625,
+      "learning_rate": 1.9390811171172244e-05,
+      "loss": 0.3643,
+      "step": 510
+    },
+    {
+      "epoch": 0.6253758268190018,
+      "grad_norm": 0.78515625,
+      "learning_rate": 1.936426576160799e-05,
+      "loss": 0.3449,
+      "step": 520
+    },
+    {
+      "epoch": 0.6374022850270595,
+      "grad_norm": 0.79296875,
+      "learning_rate": 1.9337173225584743e-05,
+      "loss": 0.3096,
+      "step": 530
+    },
+    {
+      "epoch": 0.6494287432351172,
+      "grad_norm": 0.8515625,
+      "learning_rate": 1.9309535146039567e-05,
+      "loss": 0.3355,
+      "step": 540
+    },
+    {
+      "epoch": 0.6614552014431749,
+      "grad_norm": 0.84375,
+      "learning_rate": 1.9281353137784017e-05,
+      "loss": 0.366,
+      "step": 550
+    },
+    {
+      "epoch": 0.6734816596512327,
+      "grad_norm": 0.66015625,
+      "learning_rate": 1.9252628847409805e-05,
+      "loss": 0.3321,
+      "step": 560
+    },
+    {
+      "epoch": 0.6855081178592904,
+      "grad_norm": 0.78125,
+      "learning_rate": 1.9223363953192595e-05,
+      "loss": 0.37,
+      "step": 570
+    },
+    {
+      "epoch": 0.6975345760673481,
+      "grad_norm": 0.79296875,
+      "learning_rate": 1.9193560164993927e-05,
+      "loss": 0.3492,
+      "step": 580
+    },
+    {
+      "epoch": 0.7095610342754058,
+      "grad_norm": 0.89453125,
+      "learning_rate": 1.916321922416134e-05,
+      "loss": 0.3085,
+      "step": 590
+    },
+    {
+      "epoch": 0.7215874924834637,
+      "grad_norm": 0.87109375,
+      "learning_rate": 1.913234290342661e-05,
+      "loss": 0.3165,
+      "step": 600
+    },
+    {
+      "epoch": 0.7336139506915214,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.9100933006802195e-05,
+      "loss": 0.3482,
+      "step": 610
+    },
+    {
+      "epoch": 0.745640408899579,
+      "grad_norm": 0.78125,
+      "learning_rate": 1.9068991369475807e-05,
+      "loss": 0.3407,
+      "step": 620
+    },
+    {
+      "epoch": 0.7576668671076368,
+      "grad_norm": 0.70703125,
+      "learning_rate": 1.903651985770321e-05,
+      "loss": 0.3611,
+      "step": 630
+    },
+    {
+      "epoch": 0.7696933253156946,
+      "grad_norm": 0.88671875,
+      "learning_rate": 1.900352036869917e-05,
+      "loss": 0.3781,
+      "step": 640
+    },
+    {
+      "epoch": 0.7817197835237523,
+      "grad_norm": 0.84765625,
+      "learning_rate": 1.8969994830526603e-05,
+      "loss": 0.3468,
+      "step": 650
+    },
+    {
+      "epoch": 0.79374624173181,
+      "grad_norm": 0.96875,
+      "learning_rate": 1.8935945201983926e-05,
+      "loss": 0.3564,
+      "step": 660
+    },
+    {
+      "epoch": 0.8057726999398677,
+      "grad_norm": 1.1015625,
+      "learning_rate": 1.8901373472490622e-05,
+      "loss": 0.3796,
+      "step": 670
+    },
+    {
+      "epoch": 0.8177991581479255,
+      "grad_norm": 0.68359375,
+      "learning_rate": 1.8866281661970984e-05,
+      "loss": 0.332,
+      "step": 680
+    },
+    {
+      "epoch": 0.8298256163559832,
+      "grad_norm": 0.73828125,
+      "learning_rate": 1.8830671820736115e-05,
+      "loss": 0.3278,
+      "step": 690
+    },
+    {
+      "epoch": 0.8418520745640409,
+      "grad_norm": 0.78125,
+      "learning_rate": 1.8794546029364122e-05,
+      "loss": 0.3482,
+      "step": 700
+    },
+    {
+      "epoch": 0.8538785327720986,
+      "grad_norm": 0.76953125,
+      "learning_rate": 1.8757906398578555e-05,
+      "loss": 0.3811,
+      "step": 710
+    },
+    {
+      "epoch": 0.8659049909801564,
+      "grad_norm": 0.8515625,
+      "learning_rate": 1.8720755069125097e-05,
+      "loss": 0.3303,
+      "step": 720
+    },
+    {
+      "epoch": 0.8779314491882141,
+      "grad_norm": 0.7421875,
+      "learning_rate": 1.8683094211646463e-05,
+      "loss": 0.3525,
+      "step": 730
+    },
+    {
+      "epoch": 0.8899579073962718,
+      "grad_norm": 0.66796875,
+      "learning_rate": 1.864492602655561e-05,
+      "loss": 0.3209,
+      "step": 740
+    },
+    {
+      "epoch": 0.9019843656043295,
+      "grad_norm": 0.78125,
+      "learning_rate": 1.8606252743907127e-05,
+      "loss": 0.3121,
+      "step": 750
+    },
+    {
+      "epoch": 0.9140108238123873,
+      "grad_norm": 0.85546875,
+      "learning_rate": 1.8567076623266987e-05,
+      "loss": 0.3621,
+      "step": 760
+    },
+    {
+      "epoch": 0.926037282020445,
+      "grad_norm": 1.578125,
+      "learning_rate": 1.8527399953580492e-05,
+      "loss": 0.3416,
+      "step": 770
+    },
+    {
+      "epoch": 0.9380637402285027,
+      "grad_norm": 0.92578125,
+      "learning_rate": 1.8487225053038557e-05,
+      "loss": 0.3373,
+      "step": 780
+    },
+    {
+      "epoch": 0.9500901984365604,
+      "grad_norm": 0.71484375,
+      "learning_rate": 1.8446554268942252e-05,
+      "loss": 0.3214,
+      "step": 790
+    },
+    {
+      "epoch": 0.9621166566446182,
+      "grad_norm": 0.71484375,
+      "learning_rate": 1.8405389977565666e-05,
+      "loss": 0.3552,
+      "step": 800
+    },
+    {
+      "epoch": 0.9741431148526759,
+      "grad_norm": 0.84765625,
+      "learning_rate": 1.8363734584017065e-05,
+      "loss": 0.3538,
+      "step": 810
+    },
+    {
+      "epoch": 0.9861695730607336,
+      "grad_norm": 1.0390625,
+      "learning_rate": 1.832159052209837e-05,
+      "loss": 0.353,
+      "step": 820
+    },
+    {
+      "epoch": 0.9981960312687913,
+      "grad_norm": 0.8671875,
+      "learning_rate": 1.827896025416295e-05,
+      "loss": 0.332,
+      "step": 830
+    },
+    {
+      "epoch": 1.009621166566446,
+      "grad_norm": 0.80859375,
+      "learning_rate": 1.8235846270971754e-05,
+      "loss": 0.3417,
+      "step": 840
+    },
+    {
+      "epoch": 1.0216476247745039,
+      "grad_norm": 0.92578125,
+      "learning_rate": 1.8192251091547807e-05,
+      "loss": 0.3196,
+      "step": 850
+    },
+    {
+      "epoch": 1.0336740829825617,
+      "grad_norm": 0.7890625,
+      "learning_rate": 1.814817726302899e-05,
+      "loss": 0.3178,
+      "step": 860
+    },
+    {
+      "epoch": 1.0457005411906193,
+      "grad_norm": 0.91796875,
+      "learning_rate": 1.8103627360519257e-05,
+      "loss": 0.3172,
+      "step": 870
+    },
+    {
+      "epoch": 1.057726999398677,
+      "grad_norm": 0.74609375,
+      "learning_rate": 1.805860398693816e-05,
+      "loss": 0.3258,
+      "step": 880
+    },
+    {
+      "epoch": 1.069753457606735,
+      "grad_norm": 0.74609375,
+      "learning_rate": 1.801310977286876e-05,
+      "loss": 0.3157,
+      "step": 890
+    },
+    {
+      "epoch": 1.0817799158147925,
+      "grad_norm": 0.76171875,
+      "learning_rate": 1.7967147376403947e-05,
+      "loss": 0.3331,
+      "step": 900
+    },
+    {
+      "epoch": 1.0938063740228503,
+      "grad_norm": 0.83203125,
+      "learning_rate": 1.7920719482991137e-05,
+      "loss": 0.3189,
+      "step": 910
+    },
+    {
+      "epoch": 1.1058328322309081,
+      "grad_norm": 0.78125,
+      "learning_rate": 1.7873828805275346e-05,
+      "loss": 0.3234,
+      "step": 920
+    },
+    {
+      "epoch": 1.1178592904389657,
+      "grad_norm": 0.67578125,
+      "learning_rate": 1.7826478082940727e-05,
+      "loss": 0.3046,
+      "step": 930
+    },
+    {
+      "epoch": 1.1298857486470235,
+      "grad_norm": 0.7265625,
+      "learning_rate": 1.777867008255048e-05,
+      "loss": 0.3151,
+      "step": 940
+    },
+    {
+      "epoch": 1.141912206855081,
+      "grad_norm": 0.8671875,
+      "learning_rate": 1.7730407597385207e-05,
+      "loss": 0.2885,
+      "step": 950
+    },
+    {
+      "epoch": 1.153938665063139,
+      "grad_norm": 0.81640625,
+      "learning_rate": 1.768169344727973e-05,
+      "loss": 0.3145,
+      "step": 960
+    },
+    {
+      "epoch": 1.1659651232711967,
+      "grad_norm": 0.80078125,
+      "learning_rate": 1.7632530478458313e-05,
+      "loss": 0.3297,
+      "step": 970
+    },
+    {
+      "epoch": 1.1779915814792543,
+      "grad_norm": 0.75,
+      "learning_rate": 1.758292156336837e-05,
+      "loss": 0.3108,
+      "step": 980
+    },
+    {
+      "epoch": 1.1900180396873121,
+      "grad_norm": 0.72265625,
+      "learning_rate": 1.7532869600512663e-05,
+      "loss": 0.3091,
+      "step": 990
+    },
+    {
+      "epoch": 1.2020444978953697,
+      "grad_norm": 0.86328125,
+      "learning_rate": 1.7482377514279907e-05,
+      "loss": 0.328,
+      "step": 1000
+    },
+    {
+      "epoch": 1.2140709561034275,
+      "grad_norm": 0.9609375,
+      "learning_rate": 1.7431448254773943e-05,
+      "loss": 0.3206,
+      "step": 1010
+    },
+    {
+      "epoch": 1.2260974143114853,
+      "grad_norm": 0.93359375,
+      "learning_rate": 1.738008479764135e-05,
+      "loss": 0.3399,
+      "step": 1020
+    },
+    {
+      "epoch": 1.238123872519543,
+      "grad_norm": 0.8515625,
+      "learning_rate": 1.7328290143897603e-05,
+      "loss": 0.3099,
+      "step": 1030
+    },
+    {
+      "epoch": 1.2501503307276007,
+      "grad_norm": 0.7734375,
+      "learning_rate": 1.7276067319751717e-05,
+      "loss": 0.3041,
+      "step": 1040
+    },
+    {
+      "epoch": 1.2621767889356583,
+      "grad_norm": 0.74609375,
+      "learning_rate": 1.7223419376429445e-05,
+      "loss": 0.3217,
+      "step": 1050
+    },
+    {
+      "epoch": 1.2742032471437161,
+      "grad_norm": 0.78125,
+      "learning_rate": 1.7170349389995004e-05,
+      "loss": 0.3122,
+      "step": 1060
+    },
+    {
+      "epoch": 1.286229705351774,
+      "grad_norm": 0.8046875,
+      "learning_rate": 1.711686046117134e-05,
+      "loss": 0.3154,
+      "step": 1070
+    },
+    {
+      "epoch": 1.2982561635598318,
+      "grad_norm": 0.87109375,
+      "learning_rate": 1.7062955715158977e-05,
+      "loss": 0.3146,
+      "step": 1080
+    },
+    {
+      "epoch": 1.3102826217678893,
+      "grad_norm": 0.8046875,
+      "learning_rate": 1.7008638301453404e-05,
+      "loss": 0.3434,
+      "step": 1090
+    },
+    {
+      "epoch": 1.3223090799759472,
+      "grad_norm": 0.8515625,
+      "learning_rate": 1.6953911393661073e-05,
+      "loss": 0.3083,
+      "step": 1100
+    },
+    {
+      "epoch": 1.3343355381840047,
+      "grad_norm": 0.90234375,
+      "learning_rate": 1.6898778189313966e-05,
+      "loss": 0.3274,
+      "step": 1110
+    },
+    {
+      "epoch": 1.3463619963920626,
+      "grad_norm": 0.8671875,
+      "learning_rate": 1.684324190968278e-05,
+      "loss": 0.3244,
+      "step": 1120
+    },
+    {
+      "epoch": 1.3583884546001204,
+      "grad_norm": 0.8984375,
+      "learning_rate": 1.6787305799588705e-05,
+      "loss": 0.3357,
+      "step": 1130
+    },
+    {
+      "epoch": 1.370414912808178,
+      "grad_norm": 0.828125,
+      "learning_rate": 1.6730973127213858e-05,
+      "loss": 0.3209,
+      "step": 1140
+    },
+    {
+      "epoch": 1.3824413710162358,
+      "grad_norm": 0.6796875,
+      "learning_rate": 1.6674247183910313e-05,
+      "loss": 0.2987,
+      "step": 1150
+    },
+    {
+      "epoch": 1.3944678292242934,
+      "grad_norm": 0.6171875,
+      "learning_rate": 1.6617131284007805e-05,
+      "loss": 0.3268,
+      "step": 1160
+    },
+    {
+      "epoch": 1.4064942874323512,
+      "grad_norm": 0.734375,
+      "learning_rate": 1.6559628764620094e-05,
+      "loss": 0.3087,
+      "step": 1170
+    },
+    {
+      "epoch": 1.418520745640409,
+      "grad_norm": 0.85546875,
+      "learning_rate": 1.6501742985449965e-05,
+      "loss": 0.3381,
+      "step": 1180
+    },
+    {
+      "epoch": 1.4305472038484666,
+      "grad_norm": 0.94921875,
+      "learning_rate": 1.6443477328592954e-05,
+      "loss": 0.3134,
+      "step": 1190
+    },
+    {
+      "epoch": 1.4425736620565244,
+      "grad_norm": 0.87109375,
+      "learning_rate": 1.6384835198339722e-05,
+      "loss": 0.3038,
+      "step": 1200
+    },
+    {
+      "epoch": 1.454600120264582,
+      "grad_norm": 0.6953125,
+      "learning_rate": 1.6325820020977168e-05,
+      "loss": 0.3153,
+      "step": 1210
+    },
+    {
+      "epoch": 1.4666265784726398,
+      "grad_norm": 0.75390625,
+      "learning_rate": 1.626643524458823e-05,
+      "loss": 0.3144,
+      "step": 1220
+    },
+    {
+      "epoch": 1.4786530366806976,
+      "grad_norm": 0.75390625,
+      "learning_rate": 1.6206684338850433e-05,
+      "loss": 0.3114,
+      "step": 1230
+    },
+    {
+      "epoch": 1.4906794948887554,
+      "grad_norm": 0.828125,
+      "learning_rate": 1.6146570794833156e-05,
+      "loss": 0.3207,
+      "step": 1240
+    },
+    {
+      "epoch": 1.502705953096813,
+      "grad_norm": 0.80078125,
+      "learning_rate": 1.6086098124793665e-05,
+      "loss": 0.309,
+      "step": 1250
+    },
+    {
+      "epoch": 1.5147324113048706,
+      "grad_norm": 1.0,
+      "learning_rate": 1.6025269861971907e-05,
+      "loss": 0.3054,
+      "step": 1260
+    },
+    {
+      "epoch": 1.5267588695129284,
+      "grad_norm": 0.8984375,
+      "learning_rate": 1.596408956038406e-05,
+      "loss": 0.3089,
+      "step": 1270
+    },
+    {
+      "epoch": 1.5387853277209862,
+      "grad_norm": 1.015625,
+      "learning_rate": 1.5902560794614896e-05,
+      "loss": 0.3185,
+      "step": 1280
+    },
+    {
+      "epoch": 1.550811785929044,
+      "grad_norm": 0.87109375,
+      "learning_rate": 1.5840687159608915e-05,
+      "loss": 0.3255,
+      "step": 1290
+    },
+    {
+      "epoch": 1.5628382441371016,
+      "grad_norm": 1.0078125,
+      "learning_rate": 1.5778472270460322e-05,
+      "loss": 0.3099,
+      "step": 1300
+    },
+    {
+      "epoch": 1.5748647023451592,
+      "grad_norm": 0.82421875,
+      "learning_rate": 1.5715919762201783e-05,
+      "loss": 0.3386,
+      "step": 1310
+    },
+    {
+      "epoch": 1.586891160553217,
+      "grad_norm": 0.921875,
+      "learning_rate": 1.5653033289592065e-05,
+      "loss": 0.3068,
+      "step": 1320
+    },
+    {
+      "epoch": 1.5989176187612748,
+      "grad_norm": 0.82421875,
+      "learning_rate": 1.558981652690248e-05,
+      "loss": 0.2844,
+      "step": 1330
+    },
+    {
+      "epoch": 1.6109440769693326,
+      "grad_norm": 1.0,
+      "learning_rate": 1.552627316770222e-05,
+      "loss": 0.3259,
+      "step": 1340
+    },
+    {
+      "epoch": 1.6229705351773902,
+      "grad_norm": 1.1015625,
+      "learning_rate": 1.546240692464255e-05,
+      "loss": 0.3173,
+      "step": 1350
+    },
+    {
+      "epoch": 1.634996993385448,
+      "grad_norm": 1.03125,
+      "learning_rate": 1.539822152923989e-05,
+      "loss": 0.3349,
+      "step": 1360
+    },
+    {
+      "epoch": 1.6470234515935056,
+      "grad_norm": 0.7578125,
+      "learning_rate": 1.5333720731657776e-05,
+      "loss": 0.3076,
+      "step": 1370
+    },
+    {
+      "epoch": 1.6590499098015634,
+      "grad_norm": 0.828125,
+      "learning_rate": 1.5268908300487785e-05,
+      "loss": 0.3062,
+      "step": 1380
+    },
+    {
+      "epoch": 1.6710763680096212,
+      "grad_norm": 0.8984375,
+      "learning_rate": 1.5203788022529315e-05,
+      "loss": 0.3092,
+      "step": 1390
+    },
+    {
+      "epoch": 1.683102826217679,
+      "grad_norm": 0.7890625,
+      "learning_rate": 1.5138363702568347e-05,
+      "loss": 0.2981,
+      "step": 1400
+    },
+    {
+      "epoch": 1.6951292844257366,
+      "grad_norm": 0.7265625,
+      "learning_rate": 1.5072639163155136e-05,
+      "loss": 0.3007,
+      "step": 1410
+    },
+    {
+      "epoch": 1.7071557426337942,
+      "grad_norm": 0.84765625,
+      "learning_rate": 1.5006618244380881e-05,
+      "loss": 0.3241,
+      "step": 1420
+    },
+    {
+      "epoch": 1.719182200841852,
+      "grad_norm": 0.96484375,
+      "learning_rate": 1.4940304803653353e-05,
+      "loss": 0.3244,
+      "step": 1430
+    },
+    {
+      "epoch": 1.7312086590499098,
+      "grad_norm": 0.83203125,
+      "learning_rate": 1.4873702715471519e-05,
+      "loss": 0.2866,
+      "step": 1440
+    },
+    {
+      "epoch": 1.7432351172579676,
+      "grad_norm": 0.9296875,
+      "learning_rate": 1.4806815871199161e-05,
+      "loss": 0.3228,
+      "step": 1450
+    },
+    {
+      "epoch": 1.7552615754660252,
+      "grad_norm": 0.84375,
+      "learning_rate": 1.4739648178837525e-05,
+      "loss": 0.3114,
+      "step": 1460
+    },
+    {
+      "epoch": 1.7672880336740828,
+      "grad_norm": 0.9453125,
+      "learning_rate": 1.467220356279699e-05,
+      "loss": 0.2948,
+      "step": 1470
+    },
+    {
+      "epoch": 1.7793144918821406,
+      "grad_norm": 1.0078125,
+      "learning_rate": 1.4604485963667752e-05,
+      "loss": 0.2876,
+      "step": 1480
+    },
+    {
+      "epoch": 1.7913409500901984,
+      "grad_norm": 0.71875,
+      "learning_rate": 1.453649933798962e-05,
+      "loss": 0.3029,
+      "step": 1490
+    },
+    {
+      "epoch": 1.8033674082982563,
+      "grad_norm": 0.9140625,
+      "learning_rate": 1.4468247658020828e-05,
+      "loss": 0.2988,
+      "step": 1500
+    },
+    {
+      "epoch": 1.8153938665063138,
+      "grad_norm": 1.0078125,
+      "learning_rate": 1.4399734911505951e-05,
+      "loss": 0.3203,
+      "step": 1510
+    },
+    {
+      "epoch": 1.8274203247143717,
+      "grad_norm": 0.79296875,
+      "learning_rate": 1.433096510144291e-05,
+      "loss": 0.311,
+      "step": 1520
+    },
+    {
+      "epoch": 1.8394467829224292,
+      "grad_norm": 0.93359375,
+      "learning_rate": 1.4261942245849097e-05,
+      "loss": 0.3002,
+      "step": 1530
+    },
+    {
+      "epoch": 1.851473241130487,
+      "grad_norm": 0.8359375,
+      "learning_rate": 1.4192670377526601e-05,
+      "loss": 0.3104,
+      "step": 1540
+    },
+    {
+      "epoch": 1.8634996993385449,
+      "grad_norm": 1.5,
+      "learning_rate": 1.4123153543826598e-05,
+      "loss": 0.3138,
+      "step": 1550
+    },
+    {
+      "epoch": 1.8755261575466027,
+      "grad_norm": 0.87109375,
+      "learning_rate": 1.4053395806412869e-05,
+      "loss": 0.3063,
+      "step": 1560
+    },
+    {
+      "epoch": 1.8875526157546603,
+      "grad_norm": 0.6484375,
+      "learning_rate": 1.3983401241024484e-05,
+      "loss": 0.2997,
+      "step": 1570
+    },
+    {
+      "epoch": 1.8995790739627179,
+      "grad_norm": 0.765625,
+      "learning_rate": 1.3913173937237679e-05,
+      "loss": 0.2849,
+      "step": 1580
+    },
+    {
+      "epoch": 1.9116055321707757,
+      "grad_norm": 0.83984375,
+      "learning_rate": 1.3842717998226909e-05,
+      "loss": 0.2895,
+      "step": 1590
+    },
+    {
+      "epoch": 1.9236319903788335,
+      "grad_norm": 1.0703125,
+      "learning_rate": 1.3772037540525108e-05,
+      "loss": 0.3287,
+      "step": 1600
+    },
+    {
+      "epoch": 1.9356584485868913,
+      "grad_norm": 0.9921875,
+      "learning_rate": 1.3701136693783174e-05,
+      "loss": 0.3209,
+      "step": 1610
+    },
+    {
+      "epoch": 1.9476849067949489,
+      "grad_norm": 0.83984375,
+      "learning_rate": 1.3630019600528696e-05,
+      "loss": 0.3362,
+      "step": 1620
+    },
+    {
+      "epoch": 1.9597113650030065,
+      "grad_norm": 0.91796875,
+      "learning_rate": 1.3558690415923901e-05,
+      "loss": 0.3068,
+      "step": 1630
+    },
+    {
+      "epoch": 1.9717378232110643,
+      "grad_norm": 0.79296875,
+      "learning_rate": 1.348715330752289e-05,
+      "loss": 0.2909,
+      "step": 1640
+    },
+    {
+      "epoch": 1.983764281419122,
+      "grad_norm": 0.75390625,
+      "learning_rate": 1.3415412455028149e-05,
+      "loss": 0.2934,
+      "step": 1650
+    },
+    {
+      "epoch": 1.99579073962718,
+      "grad_norm": 0.90234375,
+      "learning_rate": 1.3343472050046313e-05,
+      "loss": 0.3228,
+      "step": 1660
+    },
+    {
+      "epoch": 2.0072158749248348,
+      "grad_norm": 0.77734375,
+      "learning_rate": 1.32713362958433e-05,
+      "loss": 0.3191,
+      "step": 1670
+    },
+    {
+      "epoch": 2.019242333132892,
+      "grad_norm": 0.87109375,
+      "learning_rate": 1.3199009407098686e-05,
+      "loss": 0.3069,
+      "step": 1680
+    },
+    {
+      "epoch": 2.03126879134095,
+      "grad_norm": 0.8203125,
+      "learning_rate": 1.3126495609659497e-05,
+      "loss": 0.3005,
+      "step": 1690
+    },
+    {
+      "epoch": 2.0432952495490078,
+      "grad_norm": 0.80078125,
+      "learning_rate": 1.3053799140293273e-05,
+      "loss": 0.2981,
+      "step": 1700
+    },
+    {
+      "epoch": 2.0553217077570656,
+      "grad_norm": 0.92578125,
+      "learning_rate": 1.2980924246440533e-05,
+      "loss": 0.2818,
+      "step": 1710
+    },
+    {
+      "epoch": 2.0673481659651234,
+      "grad_norm": 0.92578125,
+      "learning_rate": 1.2907875185966623e-05,
+      "loss": 0.3,
+      "step": 1720
+    },
+    {
+      "epoch": 2.079374624173181,
+      "grad_norm": 0.9921875,
+      "learning_rate": 1.283465622691292e-05,
+      "loss": 0.3039,
+      "step": 1730
+    },
+    {
+      "epoch": 2.0914010823812386,
+      "grad_norm": 1.15625,
+      "learning_rate": 1.2761271647247482e-05,
+      "loss": 0.262,
+      "step": 1740
+    },
+    {
+      "epoch": 2.1034275405892964,
+      "grad_norm": 0.9453125,
+      "learning_rate": 1.2687725734615089e-05,
+      "loss": 0.289,
+      "step": 1750
+    },
+    {
+      "epoch": 2.115453998797354,
+      "grad_norm": 0.80859375,
+      "learning_rate": 1.2614022786086735e-05,
+      "loss": 0.2881,
+      "step": 1760
+    },
+    {
+      "epoch": 2.127480457005412,
+      "grad_norm": 0.94140625,
+      "learning_rate": 1.254016710790855e-05,
+      "loss": 0.2775,
+      "step": 1770
+    },
+    {
+      "epoch": 2.13950691521347,
+      "grad_norm": 0.7421875,
+      "learning_rate": 1.2466163015250216e-05,
+      "loss": 0.2843,
+      "step": 1780
+    },
+    {
+      "epoch": 2.151533373421527,
+      "grad_norm": 0.80859375,
+      "learning_rate": 1.2392014831952834e-05,
+      "loss": 0.289,
+      "step": 1790
+    },
+    {
+      "epoch": 2.163559831629585,
+      "grad_norm": 0.8203125,
+      "learning_rate": 1.2317726890276292e-05,
+      "loss": 0.2979,
+      "step": 1800
+    },
+    {
+      "epoch": 2.175586289837643,
+      "grad_norm": 0.96875,
+      "learning_rate": 1.2243303530646153e-05,
+      "loss": 0.2703,
+      "step": 1810
+    },
+    {
+      "epoch": 2.1876127480457006,
+      "grad_norm": 0.91796875,
+      "learning_rate": 1.2168749101400049e-05,
+      "loss": 0.2687,
+      "step": 1820
+    },
+    {
+      "epoch": 2.1996392062537584,
+      "grad_norm": 0.734375,
+      "learning_rate": 1.2094067958533625e-05,
+      "loss": 0.2906,
+      "step": 1830
+    },
+    {
+      "epoch": 2.2116656644618162,
+      "grad_norm": 0.83984375,
+      "learning_rate": 1.201926446544603e-05,
+      "loss": 0.2868,
+      "step": 1840
+    },
+    {
+      "epoch": 2.2236921226698736,
+      "grad_norm": 1.4921875,
+      "learning_rate": 1.1944342992684977e-05,
+      "loss": 0.3086,
+      "step": 1850
+    },
+    {
+      "epoch": 2.2357185808779314,
+      "grad_norm": 0.94921875,
+      "learning_rate": 1.1869307917691381e-05,
+      "loss": 0.305,
+      "step": 1860
+    },
+    {
+      "epoch": 2.247745039085989,
+      "grad_norm": 1.1640625,
+      "learning_rate": 1.1794163624543598e-05,
+      "loss": 0.2888,
+      "step": 1870
+    },
+    {
+      "epoch": 2.259771497294047,
+      "grad_norm": 0.765625,
+      "learning_rate": 1.1718914503701289e-05,
+      "loss": 0.2839,
+      "step": 1880
+    },
+    {
+      "epoch": 2.2717979555021044,
+      "grad_norm": 0.93359375,
+      "learning_rate": 1.1643564951748877e-05,
+      "loss": 0.3057,
+      "step": 1890
+    },
+    {
+      "epoch": 2.283824413710162,
+      "grad_norm": 0.84765625,
+      "learning_rate": 1.156811937113869e-05,
+      "loss": 0.282,
+      "step": 1900
+    },
+    {
+      "epoch": 2.29585087191822,
+      "grad_norm": 0.859375,
+      "learning_rate": 1.1492582169933715e-05,
+      "loss": 0.3051,
+      "step": 1910
+    },
+    {
+      "epoch": 2.307877330126278,
+      "grad_norm": 1.0859375,
+      "learning_rate": 1.1416957761550072e-05,
+      "loss": 0.2816,
+      "step": 1920
+    },
+    {
+      "epoch": 2.3199037883343356,
+      "grad_norm": 0.9296875,
+      "learning_rate": 1.1341250564499132e-05,
+      "loss": 0.2889,
+      "step": 1930
+    },
+    {
+      "epoch": 2.3319302465423934,
+      "grad_norm": 0.72265625,
+      "learning_rate": 1.1265465002129365e-05,
+      "loss": 0.3014,
+      "step": 1940
+    },
+    {
+      "epoch": 2.343956704750451,
+      "grad_norm": 0.6875,
+      "learning_rate": 1.1189605502367901e-05,
+      "loss": 0.2762,
+      "step": 1950
+    },
+    {
+      "epoch": 2.3559831629585086,
+      "grad_norm": 0.98046875,
+      "learning_rate": 1.1113676497461807e-05,
+      "loss": 0.2937,
+      "step": 1960
+    },
+    {
+      "epoch": 2.3680096211665664,
+      "grad_norm": 0.9375,
+      "learning_rate": 1.1037682423719137e-05,
+      "loss": 0.3122,
+      "step": 1970
+    },
+    {
+      "epoch": 2.3800360793746242,
+      "grad_norm": 0.828125,
+      "learning_rate": 1.0961627721249717e-05,
+      "loss": 0.299,
+      "step": 1980
+    },
+    {
+      "epoch": 2.392062537582682,
+      "grad_norm": 0.84765625,
+      "learning_rate": 1.0885516833705743e-05,
+      "loss": 0.2899,
+      "step": 1990
+    },
+    {
+      "epoch": 2.4040889957907394,
+      "grad_norm": 0.796875,
+      "learning_rate": 1.0809354208022125e-05,
+      "loss": 0.3103,
+      "step": 2000
+    },
+    {
+      "epoch": 2.4161154539987972,
+      "grad_norm": 0.9140625,
+      "learning_rate": 1.0733144294156695e-05,
+      "loss": 0.2846,
+      "step": 2010
+    },
+    {
+      "epoch": 2.428141912206855,
+      "grad_norm": 0.90234375,
+      "learning_rate": 1.0656891544830179e-05,
+      "loss": 0.287,
+      "step": 2020
+    },
+    {
+      "epoch": 2.440168370414913,
+      "grad_norm": 0.94921875,
+      "learning_rate": 1.058060041526607e-05,
+      "loss": 0.2998,
+      "step": 2030
+    },
+    {
+      "epoch": 2.4521948286229707,
+      "grad_norm": 0.82421875,
+      "learning_rate": 1.0504275362930286e-05,
+      "loss": 0.2828,
+      "step": 2040
+    },
+    {
+      "epoch": 2.4642212868310285,
+      "grad_norm": 0.84375,
+      "learning_rate": 1.0427920847270769e-05,
+      "loss": 0.2806,
+      "step": 2050
+    },
+    {
+      "epoch": 2.476247745039086,
+      "grad_norm": 0.8984375,
+      "learning_rate": 1.0351541329456907e-05,
+      "loss": 0.3148,
+      "step": 2060
+    },
+    {
+      "epoch": 2.4882742032471437,
+      "grad_norm": 0.796875,
+      "learning_rate": 1.0275141272118894e-05,
+      "loss": 0.28,
+      "step": 2070
+    },
+    {
+      "epoch": 2.5003006614552015,
+      "grad_norm": 0.77734375,
+      "learning_rate": 1.0198725139086985e-05,
+      "loss": 0.2655,
+      "step": 2080
+    },
+    {
+      "epoch": 2.5123271196632593,
+      "grad_norm": 0.76171875,
+      "learning_rate": 1.0122297395130692e-05,
+      "loss": 0.2716,
+      "step": 2090
+    },
+    {
+      "epoch": 2.5243535778713166,
+      "grad_norm": 1.2265625,
+      "learning_rate": 1.004586250569792e-05,
+      "loss": 0.2692,
+      "step": 2100
+    },
+    {
+      "epoch": 2.5363800360793745,
+      "grad_norm": 0.90234375,
+      "learning_rate": 9.969424936654067e-06,
+      "loss": 0.2487,
+      "step": 2110
+    },
+    {
+      "epoch": 2.5484064942874323,
+      "grad_norm": 0.94921875,
+      "learning_rate": 9.89298915402108e-06,
+      "loss": 0.2857,
+      "step": 2120
+    },
+    {
+      "epoch": 2.56043295249549,
+      "grad_norm": 0.78125,
+      "learning_rate": 9.816559623716546e-06,
+      "loss": 0.2729,
+      "step": 2130
+    },
+    {
+      "epoch": 2.572459410703548,
+      "grad_norm": 1.0546875,
+      "learning_rate": 9.740140811292734e-06,
+      "loss": 0.309,
+      "step": 2140
+    },
+    {
+      "epoch": 2.5844858689116057,
+      "grad_norm": 0.79296875,
+      "learning_rate": 9.663737181675704e-06,
+      "loss": 0.2575,
+      "step": 2150
+    },
+    {
+      "epoch": 2.5965123271196635,
+      "grad_norm": 0.734375,
+      "learning_rate": 9.58735319890444e-06,
+      "loss": 0.2889,
+      "step": 2160
+    },
+    {
+      "epoch": 2.608538785327721,
+      "grad_norm": 0.96875,
+      "learning_rate": 9.510993325870004e-06,
+      "loss": 0.2594,
+      "step": 2170
+    },
+    {
+      "epoch": 2.6205652435357787,
+      "grad_norm": 0.76171875,
+      "learning_rate": 9.4346620240548e-06,
+      "loss": 0.2949,
+      "step": 2180
+    },
+    {
+      "epoch": 2.6325917017438365,
+      "grad_norm": 0.77734375,
+      "learning_rate": 9.358363753271905e-06,
+      "loss": 0.2885,
+      "step": 2190
+    },
+    {
+      "epoch": 2.6446181599518943,
+      "grad_norm": 1.1015625,
+      "learning_rate": 9.282102971404485e-06,
+      "loss": 0.3021,
+      "step": 2200
+    },
+    {
+      "epoch": 2.6566446181599517,
+      "grad_norm": 1.015625,
+      "learning_rate": 9.205884134145344e-06,
+      "loss": 0.2882,
+      "step": 2210
+    },
+    {
+      "epoch": 2.6686710763680095,
+      "grad_norm": 0.9453125,
+      "learning_rate": 9.12971169473658e-06,
+      "loss": 0.3009,
+      "step": 2220
+    },
+    {
+      "epoch": 2.6806975345760673,
+      "grad_norm": 0.95703125,
+      "learning_rate": 9.053590103709406e-06,
+      "loss": 0.3009,
+      "step": 2230
+    },
+    {
+      "epoch": 2.692723992784125,
+      "grad_norm": 0.8125,
+      "learning_rate": 8.977523808624116e-06,
+      "loss": 0.261,
+      "step": 2240
+    },
+    {
+      "epoch": 2.704750450992183,
+      "grad_norm": 0.828125,
+      "learning_rate": 8.901517253810215e-06,
+      "loss": 0.2604,
+      "step": 2250
+    },
+    {
+      "epoch": 2.7167769092002407,
+      "grad_norm": 0.828125,
+      "learning_rate": 8.825574880106771e-06,
+      "loss": 0.2923,
+      "step": 2260
+    },
+    {
+      "epoch": 2.728803367408298,
+      "grad_norm": 0.90625,
+      "learning_rate": 8.749701124602932e-06,
+      "loss": 0.2661,
+      "step": 2270
+    },
+    {
+      "epoch": 2.740829825616356,
+      "grad_norm": 1.8125,
+      "learning_rate": 8.673900420378691e-06,
+      "loss": 0.2751,
+      "step": 2280
+    },
+    {
+      "epoch": 2.7528562838244137,
+      "grad_norm": 2.578125,
+      "learning_rate": 8.598177196245867e-06,
+      "loss": 0.2703,
+      "step": 2290
+    },
+    {
+      "epoch": 2.7648827420324715,
+      "grad_norm": 0.9296875,
+      "learning_rate": 8.522535876489349e-06,
+      "loss": 0.2773,
+      "step": 2300
+    },
+    {
+      "epoch": 2.776909200240529,
+      "grad_norm": 0.79296875,
+      "learning_rate": 8.446980880608589e-06,
+      "loss": 0.276,
+      "step": 2310
+    },
+    {
+      "epoch": 2.7889356584485867,
+      "grad_norm": 0.8828125,
+      "learning_rate": 8.371516623059394e-06,
+      "loss": 0.261,
+      "step": 2320
+    },
+    {
+      "epoch": 2.8009621166566445,
+      "grad_norm": 0.82421875,
+      "learning_rate": 8.296147512995993e-06,
+      "loss": 0.2894,
+      "step": 2330
+    },
+    {
+      "epoch": 2.8129885748647023,
+      "grad_norm": 4.09375,
+      "learning_rate": 8.220877954013435e-06,
+      "loss": 0.2721,
+      "step": 2340
+    },
+    {
+      "epoch": 2.82501503307276,
+      "grad_norm": 0.92578125,
+      "learning_rate": 8.145712343890288e-06,
+      "loss": 0.3016,
+      "step": 2350
+    },
+    {
+      "epoch": 2.837041491280818,
+      "grad_norm": 1.0625,
+      "learning_rate": 8.070655074331692e-06,
+      "loss": 0.3162,
+      "step": 2360
+    },
+    {
+      "epoch": 2.8490679494888758,
+      "grad_norm": 0.890625,
+      "learning_rate": 7.995710530712772e-06,
+      "loss": 0.3188,
+      "step": 2370
+    },
+    {
+      "epoch": 2.861094407696933,
+      "grad_norm": 0.81640625,
+      "learning_rate": 7.92088309182241e-06,
+      "loss": 0.2633,
+      "step": 2380
+    },
+    {
+      "epoch": 2.873120865904991,
+      "grad_norm": 0.82421875,
+      "learning_rate": 7.846177129607391e-06,
+      "loss": 0.2797,
+      "step": 2390
+    },
+    {
+      "epoch": 2.8851473241130488,
+      "grad_norm": 0.74609375,
+      "learning_rate": 7.771597008916992e-06,
+      "loss": 0.293,
+      "step": 2400
+    },
+    {
+      "epoch": 2.8971737823211066,
+      "grad_norm": 0.91796875,
+      "learning_rate": 7.697147087247932e-06,
+      "loss": 0.3114,
+      "step": 2410
+    },
+    {
+      "epoch": 2.909200240529164,
+      "grad_norm": 2.21875,
+      "learning_rate": 7.622831714489782e-06,
+      "loss": 0.3038,
+      "step": 2420
+    },
+    {
+      "epoch": 2.9212266987372217,
+      "grad_norm": 0.87890625,
+      "learning_rate": 7.548655232670828e-06,
+      "loss": 0.3096,
+      "step": 2430
+    },
+    {
+      "epoch": 2.9332531569452795,
+      "grad_norm": 1.125,
+      "learning_rate": 7.474621975704353e-06,
+      "loss": 0.2976,
+      "step": 2440
+    },
+    {
+      "epoch": 2.9452796151533374,
+      "grad_norm": 0.8515625,
+      "learning_rate": 7.400736269135448e-06,
+      "loss": 0.2838,
+      "step": 2450
+    },
+    {
+      "epoch": 2.957306073361395,
+      "grad_norm": 0.9453125,
+      "learning_rate": 7.327002429888257e-06,
+      "loss": 0.2764,
+      "step": 2460
+    },
+    {
+      "epoch": 2.969332531569453,
+      "grad_norm": 0.94921875,
+      "learning_rate": 7.253424766013768e-06,
+      "loss": 0.3026,
+      "step": 2470
+    },
+    {
+      "epoch": 2.981358989777511,
+      "grad_norm": 0.87109375,
+      "learning_rate": 7.1800075764381086e-06,
+      "loss": 0.3092,
+      "step": 2480
+    },
+    {
+      "epoch": 2.993385447985568,
+      "grad_norm": 0.9375,
+      "learning_rate": 7.106755150711356e-06,
+      "loss": 0.2882,
+      "step": 2490
+    },
+    {
+      "epoch": 3.004810583283223,
+      "grad_norm": 0.87109375,
+      "learning_rate": 7.033671768756924e-06,
+      "loss": 0.2851,
+      "step": 2500
+    },
+    {
+      "epoch": 3.016837041491281,
+      "grad_norm": 0.81640625,
+      "learning_rate": 6.960761700621504e-06,
+      "loss": 0.2679,
+      "step": 2510
+    },
+    {
+      "epoch": 3.0288634996993387,
+      "grad_norm": 0.73828125,
+      "learning_rate": 6.888029206225562e-06,
+      "loss": 0.2953,
+      "step": 2520
+    },
+    {
+      "epoch": 3.0408899579073965,
+      "grad_norm": 0.9609375,
+      "learning_rate": 6.815478535114458e-06,
+      "loss": 0.2658,
+      "step": 2530
+    },
+    {
+      "epoch": 3.052916416115454,
+      "grad_norm": 1.09375,
+      "learning_rate": 6.743113926210154e-06,
+      "loss": 0.2695,
+      "step": 2540
+    },
+    {
+      "epoch": 3.0649428743235116,
+      "grad_norm": 0.71875,
+      "learning_rate": 6.670939607563544e-06,
+      "loss": 0.2796,
+      "step": 2550
+    },
+    {
+      "epoch": 3.0769693325315695,
+      "grad_norm": 0.87109375,
+      "learning_rate": 6.598959796107423e-06,
+      "loss": 0.2839,
+      "step": 2560
+    },
+    {
+      "epoch": 3.0889957907396273,
+      "grad_norm": 0.8203125,
+      "learning_rate": 6.527178697410101e-06,
+      "loss": 0.2702,
+      "step": 2570
+    },
+    {
+      "epoch": 3.101022248947685,
+      "grad_norm": 0.91015625,
+      "learning_rate": 6.455600505429693e-06,
+      "loss": 0.2815,
+      "step": 2580
+    },
+    {
+      "epoch": 3.1130487071557424,
+      "grad_norm": 0.88671875,
+      "learning_rate": 6.384229402269069e-06,
+      "loss": 0.272,
+      "step": 2590
+    },
+    {
+      "epoch": 3.1250751653638003,
+      "grad_norm": 0.87890625,
+      "learning_rate": 6.3130695579315086e-06,
+      "loss": 0.2801,
+      "step": 2600
+    },
+    {
+      "epoch": 3.137101623571858,
+      "grad_norm": 0.8359375,
+      "learning_rate": 6.242125130077062e-06,
+      "loss": 0.2813,
+      "step": 2610
+    },
+    {
+      "epoch": 3.149128081779916,
+      "grad_norm": 0.8046875,
+      "learning_rate": 6.1714002637796274e-06,
+      "loss": 0.2775,
+      "step": 2620
+    },
+    {
+      "epoch": 3.1611545399879737,
+      "grad_norm": 1.4765625,
+      "learning_rate": 6.100899091284773e-06,
+      "loss": 0.2937,
+      "step": 2630
+    },
+    {
+      "epoch": 3.173180998196031,
+      "grad_norm": 0.84765625,
+      "learning_rate": 6.030625731768292e-06,
+      "loss": 0.2828,
+      "step": 2640
+    },
+    {
+      "epoch": 3.185207456404089,
+      "grad_norm": 0.80859375,
+      "learning_rate": 5.960584291095534e-06,
+      "loss": 0.2655,
+      "step": 2650
+    },
+    {
+      "epoch": 3.1972339146121467,
+      "grad_norm": 0.78125,
+      "learning_rate": 5.890778861581524e-06,
+      "loss": 0.2907,
+      "step": 2660
+    },
+    {
+      "epoch": 3.2092603728202045,
+      "grad_norm": 0.77734375,
+      "learning_rate": 5.821213521751843e-06,
+      "loss": 0.2921,
+      "step": 2670
+    },
+    {
+      "epoch": 3.2212868310282623,
+      "grad_norm": 0.91015625,
+      "learning_rate": 5.751892336104337e-06,
+      "loss": 0.3095,
+      "step": 2680
+    },
+    {
+      "epoch": 3.23331328923632,
+      "grad_norm": 0.98828125,
+      "learning_rate": 5.68281935487165e-06,
+      "loss": 0.2533,
+      "step": 2690
+    },
+    {
+      "epoch": 3.2453397474443775,
+      "grad_norm": 1.1171875,
+      "learning_rate": 5.613998613784565e-06,
+      "loss": 0.2944,
+      "step": 2700
+    },
+    {
+      "epoch": 3.2573662056524353,
+      "grad_norm": 1.484375,
+      "learning_rate": 5.545434133836226e-06,
+      "loss": 0.307,
+      "step": 2710
+    },
+    {
+      "epoch": 3.269392663860493,
+      "grad_norm": 0.94140625,
+      "learning_rate": 5.4771299210471815e-06,
+      "loss": 0.2876,
+      "step": 2720
+    },
+    {
+      "epoch": 3.281419122068551,
+      "grad_norm": 0.8515625,
+      "learning_rate": 5.409089966231353e-06,
+      "loss": 0.2812,
+      "step": 2730
+    },
+    {
+      "epoch": 3.2934455802766087,
+      "grad_norm": 0.82421875,
+      "learning_rate": 5.341318244762831e-06,
+      "loss": 0.2517,
+      "step": 2740
+    },
+    {
+      "epoch": 3.305472038484666,
+      "grad_norm": 0.73046875,
+      "learning_rate": 5.273818716343626e-06,
+      "loss": 0.2396,
+      "step": 2750
+    },
+    {
+      "epoch": 3.317498496692724,
+      "grad_norm": 0.9296875,
+      "learning_rate": 5.20659532477232e-06,
+      "loss": 0.29,
+      "step": 2760
+    },
+    {
+      "epoch": 3.3295249549007817,
+      "grad_norm": 0.9375,
+      "learning_rate": 5.13965199771362e-06,
+      "loss": 0.3046,
+      "step": 2770
+    },
+    {
+      "epoch": 3.3415514131088395,
+      "grad_norm": 0.80859375,
+      "learning_rate": 5.0729926464689e-06,
+      "loss": 0.2467,
+      "step": 2780
+    },
+    {
+      "epoch": 3.3535778713168973,
+      "grad_norm": 1.296875,
+      "learning_rate": 5.006621165747649e-06,
+      "loss": 0.2675,
+      "step": 2790
+    },
+    {
+      "epoch": 3.365604329524955,
+      "grad_norm": 0.921875,
+      "learning_rate": 4.94054143343995e-06,
+      "loss": 0.2609,
+      "step": 2800
+    },
+    {
+      "epoch": 3.3776307877330125,
+      "grad_norm": 0.796875,
+      "learning_rate": 4.87475731038987e-06,
+      "loss": 0.249,
+      "step": 2810
+    },
+    {
+      "epoch": 3.3896572459410703,
+      "grad_norm": 0.94921875,
+      "learning_rate": 4.809272640169895e-06,
+      "loss": 0.2446,
+      "step": 2820
+    },
+    {
+      "epoch": 3.401683704149128,
+      "grad_norm": 2.140625,
+      "learning_rate": 4.744091248856384e-06,
+      "loss": 0.2829,
+      "step": 2830
+    },
+    {
+      "epoch": 3.413710162357186,
+      "grad_norm": 0.9921875,
+      "learning_rate": 4.6792169448059795e-06,
+      "loss": 0.2811,
+      "step": 2840
+    },
+    {
+      "epoch": 3.4257366205652433,
+      "grad_norm": 0.94140625,
+      "learning_rate": 4.614653518433142e-06,
+      "loss": 0.2659,
+      "step": 2850
+    },
+    {
+      "epoch": 3.437763078773301,
+      "grad_norm": 0.7421875,
+      "learning_rate": 4.550404741988644e-06,
+      "loss": 0.2771,
+      "step": 2860
+    },
+    {
+      "epoch": 3.449789536981359,
+      "grad_norm": 0.7890625,
+      "learning_rate": 4.486474369339211e-06,
+      "loss": 0.2765,
+      "step": 2870
+    },
+    {
+      "epoch": 3.4618159951894167,
+      "grad_norm": 0.72265625,
+      "learning_rate": 4.422866135748155e-06,
+      "loss": 0.2769,
+      "step": 2880
+    },
+    {
+      "epoch": 3.4738424533974746,
+      "grad_norm": 0.75,
+      "learning_rate": 4.359583757657158e-06,
+      "loss": 0.2525,
+      "step": 2890
+    },
+    {
+      "epoch": 3.4858689116055324,
+      "grad_norm": 0.90625,
+      "learning_rate": 4.296630932469127e-06,
+      "loss": 0.2806,
+      "step": 2900
+    },
+    {
+      "epoch": 3.4978953698135897,
+      "grad_norm": 1.21875,
+      "learning_rate": 4.2340113383321655e-06,
+      "loss": 0.2706,
+      "step": 2910
+    },
+    {
+      "epoch": 3.5099218280216475,
+      "grad_norm": 1.1796875,
+      "learning_rate": 4.17172863392467e-06,
+      "loss": 0.2772,
+      "step": 2920
+    },
+    {
+      "epoch": 3.5219482862297053,
+      "grad_norm": 0.8046875,
+      "learning_rate": 4.1097864582415524e-06,
+      "loss": 0.3001,
+      "step": 2930
+    },
+    {
+      "epoch": 3.533974744437763,
+      "grad_norm": 0.84765625,
+      "learning_rate": 4.04818843038164e-06,
+      "loss": 0.2898,
+      "step": 2940
+    },
+    {
+      "epoch": 3.546001202645821,
+      "grad_norm": 0.875,
+      "learning_rate": 3.986938149336222e-06,
+      "loss": 0.2692,
+      "step": 2950
+    },
+    {
+      "epoch": 3.5580276608538783,
+      "grad_norm": 0.86328125,
+      "learning_rate": 3.9260391937787565e-06,
+      "loss": 0.2922,
+      "step": 2960
+    },
+    {
+      "epoch": 3.570054119061936,
+      "grad_norm": 0.84375,
+      "learning_rate": 3.865495121855799e-06,
+      "loss": 0.2824,
+      "step": 2970
+    },
+    {
+      "epoch": 3.582080577269994,
+      "grad_norm": 0.7578125,
+      "learning_rate": 3.805309470979087e-06,
+      "loss": 0.2504,
+      "step": 2980
+    },
+    {
+      "epoch": 3.5941070354780518,
+      "grad_norm": 1.0078125,
+      "learning_rate": 3.7454857576188875e-06,
+      "loss": 0.2892,
+      "step": 2990
+    },
+    {
+      "epoch": 3.6061334936861096,
+      "grad_norm": 0.90625,
+      "learning_rate": 3.6860274770985116e-06,
+      "loss": 0.2858,
+      "step": 3000
+    },
+    {
+      "epoch": 3.6181599518941674,
+      "grad_norm": 0.890625,
+      "learning_rate": 3.6269381033901084e-06,
+      "loss": 0.2898,
+      "step": 3010
+    },
+    {
+      "epoch": 3.6301864101022248,
+      "grad_norm": 1.6328125,
+      "learning_rate": 3.5682210889116974e-06,
+      "loss": 0.3009,
+      "step": 3020
+    },
+    {
+      "epoch": 3.6422128683102826,
+      "grad_norm": 0.921875,
+      "learning_rate": 3.509879864325435e-06,
+      "loss": 0.258,
+      "step": 3030
+    },
+    {
+      "epoch": 3.6542393265183404,
+      "grad_norm": 0.84375,
+      "learning_rate": 3.451917838337192e-06,
+      "loss": 0.2618,
+      "step": 3040
+    },
+    {
+      "epoch": 3.666265784726398,
+      "grad_norm": 0.80078125,
+      "learning_rate": 3.3943383974973685e-06,
+      "loss": 0.2775,
+      "step": 3050
+    },
+    {
+      "epoch": 3.6782922429344556,
+      "grad_norm": 1.125,
+      "learning_rate": 3.3371449060030568e-06,
+      "loss": 0.2701,
+      "step": 3060
+    },
+    {
+      "epoch": 3.6903187011425134,
+      "grad_norm": 0.7265625,
+      "learning_rate": 3.280340705501455e-06,
+      "loss": 0.2815,
+      "step": 3070
+    },
+    {
+      "epoch": 3.702345159350571,
+      "grad_norm": 0.90234375,
+      "learning_rate": 3.2239291148946363e-06,
+      "loss": 0.2832,
+      "step": 3080
+    },
+    {
+      "epoch": 3.714371617558629,
+      "grad_norm": 0.76171875,
+      "learning_rate": 3.167913430145644e-06,
+      "loss": 0.2863,
+      "step": 3090
+    },
+    {
+      "epoch": 3.726398075766687,
+      "grad_norm": 0.796875,
+      "learning_rate": 3.1122969240858935e-06,
+      "loss": 0.2486,
+      "step": 3100
+    },
+    {
+      "epoch": 3.7384245339747446,
+      "grad_norm": 0.9296875,
+      "learning_rate": 3.057082846223982e-06,
+      "loss": 0.2483,
+      "step": 3110
+    },
+    {
+      "epoch": 3.7504509921828024,
+      "grad_norm": 0.796875,
+      "learning_rate": 3.0022744225557987e-06,
+      "loss": 0.2812,
+      "step": 3120
+    },
+    {
+      "epoch": 3.76247745039086,
+      "grad_norm": 0.7734375,
+      "learning_rate": 2.9478748553760637e-06,
+      "loss": 0.249,
+      "step": 3130
+    },
+    {
+      "epoch": 3.7745039085989176,
+      "grad_norm": 0.6796875,
+      "learning_rate": 2.89388732309121e-06,
+      "loss": 0.2609,
+      "step": 3140
+    },
+    {
+      "epoch": 3.7865303668069754,
+      "grad_norm": 0.98828125,
+      "learning_rate": 2.840314980033687e-06,
+      "loss": 0.2657,
+      "step": 3150
+    },
+    {
+      "epoch": 3.7985568250150332,
+      "grad_norm": 0.68359375,
+      "learning_rate": 2.787160956277666e-06,
+      "loss": 0.2657,
+      "step": 3160
+    },
+    {
+      "epoch": 3.8105832832230906,
+      "grad_norm": 0.91015625,
+      "learning_rate": 2.734428357456145e-06,
+      "loss": 0.2867,
+      "step": 3170
+    },
+    {
+      "epoch": 3.8226097414311484,
+      "grad_norm": 0.7265625,
+      "learning_rate": 2.682120264579514e-06,
+      "loss": 0.257,
+      "step": 3180
+    },
+    {
+      "epoch": 3.834636199639206,
+      "grad_norm": 0.890625,
+      "learning_rate": 2.6302397338555243e-06,
+      "loss": 0.2805,
+      "step": 3190
+    },
+    {
+      "epoch": 3.846662657847264,
+      "grad_norm": 1.0,
+      "learning_rate": 2.5787897965107368e-06,
+      "loss": 0.2527,
+      "step": 3200
+    },
+    {
+      "epoch": 3.858689116055322,
+      "grad_norm": 0.76953125,
+      "learning_rate": 2.527773458613404e-06,
+      "loss": 0.2908,
+      "step": 3210
+    },
+    {
+      "epoch": 3.8707155742633796,
+      "grad_norm": 1.1796875,
+      "learning_rate": 2.47719370089784e-06,
+      "loss": 0.255,
+      "step": 3220
+    },
+    {
+      "epoch": 3.882742032471437,
+      "grad_norm": 0.9921875,
+      "learning_rate": 2.4270534785902723e-06,
+      "loss": 0.3079,
+      "step": 3230
+    },
+    {
+      "epoch": 3.894768490679495,
+      "grad_norm": 1.0390625,
+      "learning_rate": 2.377355721236159e-06,
+      "loss": 0.2571,
+      "step": 3240
+    },
+    {
+      "epoch": 3.9067949488875526,
+      "grad_norm": 0.85546875,
+      "learning_rate": 2.3281033325290458e-06,
+      "loss": 0.3038,
+      "step": 3250
+    },
+    {
+      "epoch": 3.9188214070956104,
+      "grad_norm": 0.8359375,
+      "learning_rate": 2.2792991901408914e-06,
+      "loss": 0.2857,
+      "step": 3260
+    },
+    {
+      "epoch": 3.930847865303668,
+      "grad_norm": 0.8515625,
+      "learning_rate": 2.2309461455539474e-06,
+      "loss": 0.2911,
+      "step": 3270
+    },
+    {
+      "epoch": 3.9428743235117256,
+      "grad_norm": 0.921875,
+      "learning_rate": 2.1830470238941514e-06,
+      "loss": 0.2809,
+      "step": 3280
+    },
+    {
+      "epoch": 3.9549007817197834,
+      "grad_norm": 0.8828125,
+      "learning_rate": 2.1356046237660543e-06,
+      "loss": 0.2843,
+      "step": 3290
+    },
+    {
+      "epoch": 3.9669272399278412,
+      "grad_norm": 0.91796875,
+      "learning_rate": 2.0886217170893252e-06,
+      "loss": 0.274,
+      "step": 3300
+    },
+    {
+      "epoch": 3.978953698135899,
+      "grad_norm": 0.90625,
+      "learning_rate": 2.042101048936773e-06,
+      "loss": 0.2725,
+      "step": 3310
+    },
+    {
+      "epoch": 3.990980156343957,
+      "grad_norm": 0.8828125,
+      "learning_rate": 1.996045337373974e-06,
+      "loss": 0.2818,
+      "step": 3320
+    },
+    {
+      "epoch": 4.002405291641612,
+      "grad_norm": 0.80859375,
+      "learning_rate": 1.9504572733004702e-06,
+      "loss": 0.2622,
+      "step": 3330
+    },
+    {
+      "epoch": 4.0144317498496696,
+      "grad_norm": 0.93359375,
+      "learning_rate": 1.9053395202925252e-06,
+      "loss": 0.2648,
+      "step": 3340
+    },
+    {
+      "epoch": 4.026458208057727,
+      "grad_norm": 0.9296875,
+      "learning_rate": 1.860694714447524e-06,
+      "loss": 0.2998,
+      "step": 3350
+    },
+    {
+      "epoch": 4.038484666265784,
+      "grad_norm": 0.8515625,
+      "learning_rate": 1.8165254642299323e-06,
+      "loss": 0.2615,
+      "step": 3360
+    },
+    {
+      "epoch": 4.050511124473842,
+      "grad_norm": 1.0625,
+      "learning_rate": 1.7728343503189126e-06,
+      "loss": 0.2773,
+      "step": 3370
+    },
+    {
+      "epoch": 4.0625375826819,
+      "grad_norm": 0.84375,
+      "learning_rate": 1.7296239254575231e-06,
+      "loss": 0.266,
+      "step": 3380
+    },
+    {
+      "epoch": 4.074564040889958,
+      "grad_norm": 0.82421875,
+      "learning_rate": 1.6868967143035764e-06,
+      "loss": 0.2465,
+      "step": 3390
+    },
+    {
+      "epoch": 4.0865904990980155,
+      "grad_norm": 0.83984375,
+      "learning_rate": 1.6446552132821413e-06,
+      "loss": 0.2516,
+      "step": 3400
+    },
+    {
+      "epoch": 4.098616957306073,
+      "grad_norm": 1.0703125,
+      "learning_rate": 1.602901890439663e-06,
+      "loss": 0.295,
+      "step": 3410
+    },
+    {
+      "epoch": 4.110643415514131,
+      "grad_norm": 0.70703125,
+      "learning_rate": 1.5616391852997835e-06,
+      "loss": 0.2872,
+      "step": 3420
+    },
+    {
+      "epoch": 4.122669873722189,
+      "grad_norm": 0.76171875,
+      "learning_rate": 1.5208695087207914e-06,
+      "loss": 0.2714,
+      "step": 3430
+    },
+    {
+      "epoch": 4.134696331930247,
+      "grad_norm": 0.77734375,
+      "learning_rate": 1.4805952427547732e-06,
+      "loss": 0.2662,
+      "step": 3440
+    },
+    {
+      "epoch": 4.146722790138305,
+      "grad_norm": 0.86328125,
+      "learning_rate": 1.4408187405084318e-06,
+      "loss": 0.2765,
+      "step": 3450
+    },
+    {
+      "epoch": 4.158749248346362,
+      "grad_norm": 0.9921875,
+      "learning_rate": 1.4015423260055983e-06,
+      "loss": 0.2724,
+      "step": 3460
+    },
+    {
+      "epoch": 4.170775706554419,
+      "grad_norm": 0.97265625,
+      "learning_rate": 1.3627682940514586e-06,
+      "loss": 0.2828,
+      "step": 3470
+    },
+    {
+      "epoch": 4.182802164762477,
+      "grad_norm": 0.8046875,
+      "learning_rate": 1.3244989100984573e-06,
+      "loss": 0.2956,
+      "step": 3480
+    },
+    {
+      "epoch": 4.194828622970535,
+      "grad_norm": 0.91796875,
+      "learning_rate": 1.2867364101139522e-06,
+      "loss": 0.2706,
+      "step": 3490
+    },
+    {
+      "epoch": 4.206855081178593,
+      "grad_norm": 1.03125,
+      "learning_rate": 1.2494830004495551e-06,
+      "loss": 0.2728,
+      "step": 3500
+    },
+    {
+      "epoch": 4.218881539386651,
+      "grad_norm": 0.91015625,
+      "learning_rate": 1.21274085771224e-06,
+      "loss": 0.2736,
+      "step": 3510
+    },
+    {
+      "epoch": 4.230907997594708,
+      "grad_norm": 0.9765625,
+      "learning_rate": 1.1765121286371505e-06,
+      "loss": 0.2695,
+      "step": 3520
+    },
+    {
+      "epoch": 4.242934455802766,
+      "grad_norm": 0.8515625,
+      "learning_rate": 1.1407989299621913e-06,
+      "loss": 0.2659,
+      "step": 3530
+    },
+    {
+      "epoch": 4.254960914010824,
+      "grad_norm": 0.984375,
+      "learning_rate": 1.1056033483043405e-06,
+      "loss": 0.2649,
+      "step": 3540
+    },
+    {
+      "epoch": 4.266987372218882,
+      "grad_norm": 0.99609375,
+      "learning_rate": 1.0709274400377355e-06,
+      "loss": 0.2771,
+      "step": 3550
+    },
+    {
+      "epoch": 4.27901383042694,
+      "grad_norm": 1.046875,
+      "learning_rate": 1.036773231173538e-06,
+      "loss": 0.263,
+      "step": 3560
+    },
+    {
+      "epoch": 4.291040288634997,
+      "grad_norm": 0.859375,
+      "learning_rate": 1.0031427172415397e-06,
+      "loss": 0.2676,
+      "step": 3570
+    },
+    {
+      "epoch": 4.303066746843054,
+      "grad_norm": 0.78125,
+      "learning_rate": 9.700378631735918e-07,
+      "loss": 0.2565,
+      "step": 3580
+    },
+    {
+      "epoch": 4.315093205051112,
+      "grad_norm": 0.85546875,
+      "learning_rate": 9.374606031887767e-07,
+      "loss": 0.2778,
+      "step": 3590
+    },
+    {
+      "epoch": 4.32711966325917,
+      "grad_norm": 0.7578125,
+      "learning_rate": 9.054128406804185e-07,
+      "loss": 0.2817,
+      "step": 3600
+    },
+    {
+      "epoch": 4.339146121467228,
+      "grad_norm": 0.96875,
+      "learning_rate": 8.738964481048584e-07,
+      "loss": 0.2666,
+      "step": 3610
+    },
+    {
+      "epoch": 4.351172579675286,
+      "grad_norm": 0.9921875,
+      "learning_rate": 8.429132668720574e-07,
+      "loss": 0.2394,
+      "step": 3620
+    },
+    {
+      "epoch": 4.363199037883343,
+      "grad_norm": 0.875,
+      "learning_rate": 8.124651072380152e-07,
+      "loss": 0.2643,
+      "step": 3630
+    },
+    {
+      "epoch": 4.375225496091401,
+      "grad_norm": 0.88671875,
+      "learning_rate": 7.825537481989864e-07,
+      "loss": 0.2693,
+      "step": 3640
+    },
+    {
+      "epoch": 4.387251954299459,
+      "grad_norm": 0.9296875,
+      "learning_rate": 7.531809373875565e-07,
+      "loss": 0.2834,
+      "step": 3650
+    },
+    {
+      "epoch": 4.399278412507517,
+      "grad_norm": 0.7421875,
+      "learning_rate": 7.243483909705229e-07,
+      "loss": 0.263,
+      "step": 3660
+    },
+    {
+      "epoch": 4.411304870715575,
+      "grad_norm": 0.88671875,
+      "learning_rate": 6.960577935486212e-07,
+      "loss": 0.2734,
+      "step": 3670
+    },
+    {
+      "epoch": 4.4233313289236325,
+      "grad_norm": 1.3046875,
+      "learning_rate": 6.683107980581105e-07,
+      "loss": 0.2961,
+      "step": 3680
+    },
+    {
+      "epoch": 4.435357787131689,
+      "grad_norm": 0.765625,
+      "learning_rate": 6.411090256741848e-07,
+      "loss": 0.2575,
+      "step": 3690
+    },
+    {
+      "epoch": 4.447384245339747,
+      "grad_norm": 1.0,
+      "learning_rate": 6.144540657162645e-07,
+      "loss": 0.2965,
+      "step": 3700
+    },
+    {
+      "epoch": 4.459410703547805,
+      "grad_norm": 1.0390625,
+      "learning_rate": 5.883474755551266e-07,
+      "loss": 0.28,
+      "step": 3710
+    },
+    {
+      "epoch": 4.471437161755863,
+      "grad_norm": 0.78125,
+      "learning_rate": 5.627907805219169e-07,
+      "loss": 0.2565,
+      "step": 3720
+    },
+    {
+      "epoch": 4.483463619963921,
+      "grad_norm": 0.7265625,
+      "learning_rate": 5.377854738190302e-07,
+      "loss": 0.266,
+      "step": 3730
+    },
+    {
+      "epoch": 4.495490078171978,
+      "grad_norm": 1.2890625,
+      "learning_rate": 5.133330164328653e-07,
+      "loss": 0.273,
+      "step": 3740
+    },
+    {
+      "epoch": 4.507516536380036,
+      "grad_norm": 0.765625,
+      "learning_rate": 4.894348370484648e-07,
+      "loss": 0.2763,
+      "step": 3750
+    },
+    {
+      "epoch": 4.519542994588094,
+      "grad_norm": 1.078125,
+      "learning_rate": 4.660923319660382e-07,
+      "loss": 0.2882,
+      "step": 3760
+    },
+    {
+      "epoch": 4.531569452796152,
+      "grad_norm": 0.83203125,
+      "learning_rate": 4.4330686501938835e-07,
+      "loss": 0.2963,
+      "step": 3770
+    },
+    {
+      "epoch": 4.543595911004209,
+      "grad_norm": 0.828125,
+      "learning_rate": 4.2107976749621415e-07,
+      "loss": 0.2585,
+      "step": 3780
+    },
+    {
+      "epoch": 4.5556223692122675,
+      "grad_norm": 1.5078125,
+      "learning_rate": 3.994123380603376e-07,
+      "loss": 0.271,
+      "step": 3790
+    },
+    {
+      "epoch": 4.567648827420324,
+      "grad_norm": 0.8828125,
+      "learning_rate": 3.783058426758246e-07,
+      "loss": 0.281,
+      "step": 3800
+    },
+    {
+      "epoch": 4.579675285628382,
+      "grad_norm": 1.0078125,
+      "learning_rate": 3.5776151453301267e-07,
+      "loss": 0.2838,
+      "step": 3810
+    },
+    {
+      "epoch": 4.59170174383644,
+      "grad_norm": 0.875,
+      "learning_rate": 3.3778055397647e-07,
+      "loss": 0.2859,
+      "step": 3820
+    },
+    {
+      "epoch": 4.603728202044498,
+      "grad_norm": 0.828125,
+      "learning_rate": 3.183641284348504e-07,
+      "loss": 0.2604,
+      "step": 3830
+    },
+    {
+      "epoch": 4.615754660252556,
+      "grad_norm": 0.921875,
+      "learning_rate": 2.995133723526944e-07,
+      "loss": 0.2832,
+      "step": 3840
+    },
+    {
+      "epoch": 4.6277811184606135,
+      "grad_norm": 4.53125,
+      "learning_rate": 2.812293871241401e-07,
+      "loss": 0.2856,
+      "step": 3850
+    },
+    {
+      "epoch": 4.639807576668671,
+      "grad_norm": 0.86328125,
+      "learning_rate": 2.6351324102857345e-07,
+      "loss": 0.2634,
+      "step": 3860
+    },
+    {
+      "epoch": 4.651834034876729,
+      "grad_norm": 0.7734375,
+      "learning_rate": 2.463659691682185e-07,
+      "loss": 0.2626,
+      "step": 3870
+    },
+    {
+      "epoch": 4.663860493084787,
+      "grad_norm": 0.7421875,
+      "learning_rate": 2.297885734076455e-07,
+      "loss": 0.2823,
+      "step": 3880
+    },
+    {
+      "epoch": 4.675886951292844,
+      "grad_norm": 1.046875,
+      "learning_rate": 2.1378202231525092e-07,
+      "loss": 0.2659,
+      "step": 3890
+    },
+    {
+      "epoch": 4.687913409500902,
+      "grad_norm": 0.76953125,
+      "learning_rate": 1.983472511066542e-07,
+      "loss": 0.253,
+      "step": 3900
+    },
+    {
+      "epoch": 4.699939867708959,
+      "grad_norm": 0.92578125,
+      "learning_rate": 1.8348516159006346e-07,
+      "loss": 0.2716,
+      "step": 3910
+    },
+    {
+      "epoch": 4.711966325917017,
+      "grad_norm": 0.95703125,
+      "learning_rate": 1.6919662211358212e-07,
+      "loss": 0.2812,
+      "step": 3920
+    },
+    {
+      "epoch": 4.723992784125075,
+      "grad_norm": 0.8984375,
+      "learning_rate": 1.554824675144706e-07,
+      "loss": 0.2459,
+      "step": 3930
+    },
+    {
+      "epoch": 4.736019242333133,
+      "grad_norm": 0.7890625,
+      "learning_rate": 1.4234349907038204e-07,
+      "loss": 0.2626,
+      "step": 3940
+    },
+    {
+      "epoch": 4.748045700541191,
+      "grad_norm": 0.86328125,
+      "learning_rate": 1.2978048445252745e-07,
+      "loss": 0.2714,
+      "step": 3950
+    },
+    {
+      "epoch": 4.7600721587492485,
+      "grad_norm": 0.79296875,
+      "learning_rate": 1.1779415768083946e-07,
+      "loss": 0.2722,
+      "step": 3960
+    },
+    {
+      "epoch": 4.772098616957306,
+      "grad_norm": 1.03125,
+      "learning_rate": 1.0638521908107657e-07,
+      "loss": 0.2544,
+      "step": 3970
+    },
+    {
+      "epoch": 4.784125075165364,
+      "grad_norm": 0.8515625,
+      "learning_rate": 9.555433524390701e-08,
+      "loss": 0.269,
+      "step": 3980
+    },
+    {
+      "epoch": 4.796151533373422,
+      "grad_norm": 0.76171875,
+      "learning_rate": 8.530213898596317e-08,
+      "loss": 0.2516,
+      "step": 3990
+    },
+    {
+      "epoch": 4.808177991581479,
+      "grad_norm": 0.96875,
+      "learning_rate": 7.562922931286687e-08,
+      "loss": 0.3124,
+      "step": 4000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 4160,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.305687538737086e+18,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}
diff --git a/training_args.bin b/training_args.bin
new file mode 100644
index 0000000..b59388c
--- /dev/null
+++ b/training_args.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fe348d236181d593a53f346e5d1bd6ab9c926047f41ada724f0882071f24c332
+size 6161
diff --git a/vocab.json b/vocab.json
new file mode 100644
index 0000000..6c49fc6
--- /dev/null
+++ b/vocab.json
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ca10d7e9fb3ed18575dd1e277a2579c16d108e32f27439684afa0e10b1440910
+size 2776833