初始化项目，由ModelHub XC社区提供模型

Model: laion/nemotron-terminal-software_engineering__Qwen3-8B Source: Original Platform
2026-05-03 16:17:48 +08:00
commit bd49a42cfa
23 changed files with 155204 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,36 @@
+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,61 @@
+---
+library_name: transformers
+license: other
+base_model: Qwen/Qwen3-8B
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: nemotron-software-engineering__Qwen3-8B
+  results: []
+---
+
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+
+# nemotron-software-engineering__Qwen3-8B
+
+This model is a fine-tuned version of [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B) on the /e/data1/datasets/playground/ot/hf_hub/datasets--laion--nemotron-terminal-software_engineering/snapshots/b1a4431744e73d63681cac4846fdba67b9427dce_thinking_preprocessed dataset.
+
+## Model description
+
+More information needed
+
+## Intended uses & limitations
+
+More information needed
+
+## Training and evaluation data
+
+More information needed
+
+## Training procedure
+
+### Training hyperparameters
+
+The following hyperparameters were used during training:
+- learning_rate: 4e-05
+- train_batch_size: 1
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 32
+- gradient_accumulation_steps: 3
+- total_train_batch_size: 96
+- total_eval_batch_size: 256
+- optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.98) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 7.0
+
+### Training results
+
+
+
+### Framework versions
+
+- Transformers 4.57.6
+- Pytorch 2.9.1+cu130
+- Datasets 4.7.0
+- Tokenizers 0.22.2
--- a/added_tokens.json
+++ b/added_tokens.json
@@ -0,0 +1,28 @@
+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}
--- a/all_results.json
+++ b/all_results.json
@@ -0,0 +1,16 @@
+{
+    "achieved_tflops_per_gpu": 11328.186386849298,
+    "achieved_tflops_per_gpu_theoretical": 303515.593974202,
+    "epoch": 7.0,
+    "loss_nan_ranks": 0,
+    "loss_rank_avg": 0.3691551685333252,
+    "mfu_percent": 800.5785432402331,
+    "mfu_percent_theoretical": 21449.865298530178,
+    "total_flos": 4.616861268529644e+18,
+    "train_loss": 0.0,
+    "train_runtime": 12.7361,
+    "train_samples_per_second": 8551.494,
+    "train_steps_per_second": 89.588,
+    "valid_targets_mean": 11553.9,
+    "valid_targets_min": 4464
+}
--- a/chat_template.jinja
+++ b/chat_template.jinja
@@ -0,0 +1,89 @@
+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}
--- a/config.json
+++ b/config.json
@@ -0,0 +1,68 @@
+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12288,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 40960,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "pad_token_id": 151643,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "transformers_version": "4.57.6",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,12 @@
+{
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.6,
+  "top_k": 20,
+  "top_p": 0.95,
+  "transformers_version": "4.57.6"
+}
--- a/merges.txt
+++ b/merges.txt
--- a/model-00001-of-00004.safetensors
+++ b/model-00001-of-00004.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:14c0ab3841da9834712ae1932bab4b48ce03ea9fb116ebe44a963b3ec5535269
+size 4902257696
--- a/model-00002-of-00004.safetensors
+++ b/model-00002-of-00004.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4026ce667512dacc8452815ff6296888bb76a66597344caf13473194530ce9e1
+size 4915960368
--- a/model-00003-of-00004.safetensors
+++ b/model-00003-of-00004.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e8a3dc0934df7729c6e70c19b95ae942c5c43e661b6cc386e3f5d60c30a392fb
+size 4983068496
--- a/model-00004-of-00004.safetensors
+++ b/model-00004-of-00004.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:683145c8879039c7044e0d6a6fddb90330019d86b3663f5ccf724463f23f0f2f
+size 1580230264
--- a/model.safetensors.index.json
+++ b/model.safetensors.index.json
@@ -0,0 +1,407 @@
+{
+  "metadata": {
+    "total_parameters": 308224,
+    "total_size": 16381470720
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.k_norm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.norm.weight": "model-00004-of-00004.safetensors"
+  }
+}
--- a/run_summary.json
+++ b/run_summary.json
@@ -0,0 +1,12 @@
+{
+  "agent_name": "b1a4431744e73d63681cac4846fdba67b9427dce_thinking_preprocessed",
+  "training_start": null,
+  "training_end": null,
+  "created_by": "DCAgent",
+  "base_model_name": "Qwen/Qwen3-8B",
+  "dataset_name": "/e/data1/datasets/playground/ot/hf_hub/datasets--laion--nemotron-terminal-software_engineering/snapshots/b1a4431744e73d63681cac4846fdba67b9427dce_thinking_preprocessed",
+  "training_type": "SFT",
+  "training_parameters": "https://huggingface.co/laion/nemotron-terminal-software_engineering__Qwen3-8B/blob/main/config.json",
+  "wandb_link": null,
+  "traces_location_s3": null
+}
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,31 @@
+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}
--- a/tokenizer.json
+++ b/tokenizer.json
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,240 @@
+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 32768,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}
--- a/train_results.json
+++ b/train_results.json
@@ -0,0 +1,12 @@
+{
+    "achieved_tflops_per_gpu": 11328.186386849298,
+    "achieved_tflops_per_gpu_theoretical": 303515.593974202,
+    "epoch": 7.0,
+    "mfu_percent": 800.5785432402331,
+    "mfu_percent_theoretical": 21449.865298530178,
+    "total_flos": 4.616861268529644e+18,
+    "train_loss": 0.0,
+    "train_runtime": 12.7361,
+    "train_samples_per_second": 8551.494,
+    "train_steps_per_second": 89.588
+}
--- a/trainer_log.jsonl
+++ b/trainer_log.jsonl
@@ -0,0 +1,234 @@
+{"current_steps": 5, "total_steps": 1141, "loss": 0.8755, "lr": 1.391304347826087e-06, "epoch": 0.030800821355236138, "percentage": 0.44, "elapsed_time": "0:02:21", "remaining_time": "8:56:27"}
+{"current_steps": 10, "total_steps": 1141, "loss": 0.8526, "lr": 3.130434782608696e-06, "epoch": 0.061601642710472276, "percentage": 0.88, "elapsed_time": "0:04:41", "remaining_time": "8:51:02"}
+{"current_steps": 15, "total_steps": 1141, "loss": 0.7895, "lr": 4.869565217391305e-06, "epoch": 0.09240246406570841, "percentage": 1.31, "elapsed_time": "0:07:02", "remaining_time": "8:48:35"}
+{"current_steps": 20, "total_steps": 1141, "loss": 0.7282, "lr": 6.6086956521739135e-06, "epoch": 0.12320328542094455, "percentage": 1.75, "elapsed_time": "0:09:25", "remaining_time": "8:48:16"}
+{"current_steps": 25, "total_steps": 1141, "loss": 0.7136, "lr": 8.347826086956522e-06, "epoch": 0.1540041067761807, "percentage": 2.19, "elapsed_time": "0:11:46", "remaining_time": "8:45:28"}
+{"current_steps": 30, "total_steps": 1141, "loss": 0.6777, "lr": 1.008695652173913e-05, "epoch": 0.18480492813141683, "percentage": 2.63, "elapsed_time": "0:13:59", "remaining_time": "8:38:06"}
+{"current_steps": 35, "total_steps": 1141, "loss": 0.6437, "lr": 1.182608695652174e-05, "epoch": 0.21560574948665298, "percentage": 3.07, "elapsed_time": "0:16:21", "remaining_time": "8:36:59"}
+{"current_steps": 40, "total_steps": 1141, "loss": 0.6324, "lr": 1.3565217391304348e-05, "epoch": 0.2464065708418891, "percentage": 3.51, "elapsed_time": "0:18:37", "remaining_time": "8:32:46"}
+{"current_steps": 45, "total_steps": 1141, "loss": 0.6134, "lr": 1.5304347826086958e-05, "epoch": 0.27720739219712526, "percentage": 3.94, "elapsed_time": "0:20:56", "remaining_time": "8:29:59"}
+{"current_steps": 50, "total_steps": 1141, "loss": 0.5959, "lr": 1.7043478260869566e-05, "epoch": 0.3080082135523614, "percentage": 4.38, "elapsed_time": "0:23:19", "remaining_time": "8:28:48"}
+{"current_steps": 55, "total_steps": 1141, "loss": 0.5784, "lr": 1.8782608695652175e-05, "epoch": 0.33880903490759756, "percentage": 4.82, "elapsed_time": "0:25:40", "remaining_time": "8:27:03"}
+{"current_steps": 60, "total_steps": 1141, "loss": 0.5533, "lr": 2.0521739130434787e-05, "epoch": 0.36960985626283366, "percentage": 5.26, "elapsed_time": "0:28:00", "remaining_time": "8:24:36"}
+{"current_steps": 65, "total_steps": 1141, "loss": 0.5336, "lr": 2.2260869565217392e-05, "epoch": 0.4004106776180698, "percentage": 5.7, "elapsed_time": "0:30:26", "remaining_time": "8:23:49"}
+{"current_steps": 70, "total_steps": 1141, "loss": 0.5327, "lr": 2.4e-05, "epoch": 0.43121149897330596, "percentage": 6.13, "elapsed_time": "0:32:37", "remaining_time": "8:19:05"}
+{"current_steps": 75, "total_steps": 1141, "loss": 0.5241, "lr": 2.573913043478261e-05, "epoch": 0.4620123203285421, "percentage": 6.57, "elapsed_time": "0:34:56", "remaining_time": "8:16:44"}
+{"current_steps": 80, "total_steps": 1141, "loss": 0.5111, "lr": 2.747826086956522e-05, "epoch": 0.4928131416837782, "percentage": 7.01, "elapsed_time": "0:37:17", "remaining_time": "8:14:39"}
+{"current_steps": 85, "total_steps": 1141, "loss": 0.5127, "lr": 2.921739130434783e-05, "epoch": 0.5236139630390144, "percentage": 7.45, "elapsed_time": "0:39:34", "remaining_time": "8:11:43"}
+{"current_steps": 90, "total_steps": 1141, "loss": 0.5028, "lr": 3.0956521739130435e-05, "epoch": 0.5544147843942505, "percentage": 7.89, "elapsed_time": "0:41:54", "remaining_time": "8:09:17"}
+{"current_steps": 95, "total_steps": 1141, "loss": 0.4953, "lr": 3.269565217391305e-05, "epoch": 0.5852156057494866, "percentage": 8.33, "elapsed_time": "0:44:07", "remaining_time": "8:05:52"}
+{"current_steps": 100, "total_steps": 1141, "loss": 0.49, "lr": 3.443478260869566e-05, "epoch": 0.6160164271047228, "percentage": 8.76, "elapsed_time": "0:46:27", "remaining_time": "8:03:37"}
+{"current_steps": 105, "total_steps": 1141, "loss": 0.4811, "lr": 3.617391304347826e-05, "epoch": 0.6468172484599589, "percentage": 9.2, "elapsed_time": "0:48:40", "remaining_time": "8:00:12"}
+{"current_steps": 110, "total_steps": 1141, "loss": 0.4674, "lr": 3.791304347826087e-05, "epoch": 0.6776180698151951, "percentage": 9.64, "elapsed_time": "0:57:07", "remaining_time": "8:55:22"}
+{"current_steps": 115, "total_steps": 1141, "loss": 0.472, "lr": 3.9652173913043484e-05, "epoch": 0.7084188911704312, "percentage": 10.08, "elapsed_time": "0:59:28", "remaining_time": "8:50:32"}
+{"current_steps": 120, "total_steps": 1141, "loss": 0.4739, "lr": 3.9998499902188776e-05, "epoch": 0.7392197125256673, "percentage": 10.52, "elapsed_time": "1:01:48", "remaining_time": "8:45:53"}
+{"current_steps": 125, "total_steps": 1141, "loss": 0.4708, "lr": 3.999240614049903e-05, "epoch": 0.7700205338809035, "percentage": 10.96, "elapsed_time": "1:04:11", "remaining_time": "8:41:45"}
+{"current_steps": 130, "total_steps": 1141, "loss": 0.4676, "lr": 3.998162638602725e-05, "epoch": 0.8008213552361396, "percentage": 11.39, "elapsed_time": "1:06:28", "remaining_time": "8:36:55"}
+{"current_steps": 135, "total_steps": 1141, "loss": 0.4537, "lr": 3.996616316542537e-05, "epoch": 0.8316221765913757, "percentage": 11.83, "elapsed_time": "1:08:41", "remaining_time": "8:31:51"}
+{"current_steps": 140, "total_steps": 1141, "loss": 0.4657, "lr": 3.994602010309655e-05, "epoch": 0.8624229979466119, "percentage": 12.27, "elapsed_time": "1:10:59", "remaining_time": "8:27:35"}
+{"current_steps": 145, "total_steps": 1141, "loss": 0.4571, "lr": 3.992120192034568e-05, "epoch": 0.893223819301848, "percentage": 12.71, "elapsed_time": "1:13:16", "remaining_time": "8:23:17"}
+{"current_steps": 150, "total_steps": 1141, "loss": 0.4493, "lr": 3.989171443427273e-05, "epoch": 0.9240246406570842, "percentage": 13.15, "elapsed_time": "1:15:36", "remaining_time": "8:19:31"}
+{"current_steps": 155, "total_steps": 1141, "loss": 0.4496, "lr": 3.98575645564093e-05, "epoch": 0.9548254620123203, "percentage": 13.58, "elapsed_time": "1:17:51", "remaining_time": "8:15:19"}
+{"current_steps": 160, "total_steps": 1141, "loss": 0.4477, "lr": 3.981876029109865e-05, "epoch": 0.9856262833675564, "percentage": 14.02, "elapsed_time": "1:20:09", "remaining_time": "8:11:26"}
+{"current_steps": 165, "total_steps": 1141, "loss": 0.443, "lr": 3.9775310733619544e-05, "epoch": 1.0123203285420945, "percentage": 14.46, "elapsed_time": "1:22:11", "remaining_time": "8:06:11"}
+{"current_steps": 170, "total_steps": 1141, "loss": 0.4445, "lr": 3.972722606805445e-05, "epoch": 1.0431211498973305, "percentage": 14.9, "elapsed_time": "1:24:31", "remaining_time": "8:02:45"}
+{"current_steps": 175, "total_steps": 1141, "loss": 0.435, "lr": 3.967451756490248e-05, "epoch": 1.0739219712525667, "percentage": 15.34, "elapsed_time": "1:26:52", "remaining_time": "7:59:31"}
+{"current_steps": 180, "total_steps": 1141, "loss": 0.4434, "lr": 3.961719757843773e-05, "epoch": 1.104722792607803, "percentage": 15.78, "elapsed_time": "1:29:03", "remaining_time": "7:55:30"}
+{"current_steps": 185, "total_steps": 1141, "loss": 0.4431, "lr": 3.955527954381359e-05, "epoch": 1.1355236139630391, "percentage": 16.21, "elapsed_time": "1:31:23", "remaining_time": "7:52:17"}
+{"current_steps": 190, "total_steps": 1141, "loss": 0.4411, "lr": 3.948877797391365e-05, "epoch": 1.1663244353182751, "percentage": 16.65, "elapsed_time": "1:33:39", "remaining_time": "7:48:45"}
+{"current_steps": 195, "total_steps": 1141, "loss": 0.4318, "lr": 3.941770845595009e-05, "epoch": 1.1971252566735113, "percentage": 17.09, "elapsed_time": "1:35:57", "remaining_time": "7:45:30"}
+{"current_steps": 200, "total_steps": 1141, "loss": 0.432, "lr": 3.934208764781022e-05, "epoch": 1.2279260780287475, "percentage": 17.53, "elapsed_time": "1:38:20", "remaining_time": "7:42:42"}
+{"current_steps": 205, "total_steps": 1141, "loss": 0.4309, "lr": 3.9261933274152006e-05, "epoch": 1.2587268993839835, "percentage": 17.97, "elapsed_time": "1:40:30", "remaining_time": "7:38:55"}
+{"current_steps": 210, "total_steps": 1141, "loss": 0.4412, "lr": 3.917726412224967e-05, "epoch": 1.2895277207392197, "percentage": 18.4, "elapsed_time": "1:42:50", "remaining_time": "7:35:54"}
+{"current_steps": 215, "total_steps": 1141, "loss": 0.4368, "lr": 3.908810003759015e-05, "epoch": 1.320328542094456, "percentage": 18.84, "elapsed_time": "1:45:09", "remaining_time": "7:32:56"}
+{"current_steps": 220, "total_steps": 1141, "loss": 0.4267, "lr": 3.8994461919221514e-05, "epoch": 1.351129363449692, "percentage": 19.28, "elapsed_time": "1:47:31", "remaining_time": "7:30:08"}
+{"current_steps": 225, "total_steps": 1141, "loss": 0.437, "lr": 3.889637171485449e-05, "epoch": 1.3819301848049281, "percentage": 19.72, "elapsed_time": "1:49:53", "remaining_time": "7:27:24"}
+{"current_steps": 230, "total_steps": 1141, "loss": 0.4281, "lr": 3.879385241571817e-05, "epoch": 1.4127310061601643, "percentage": 20.16, "elapsed_time": "1:52:17", "remaining_time": "7:24:46"}
+{"current_steps": 235, "total_steps": 1141, "loss": 0.4288, "lr": 3.868692805117113e-05, "epoch": 1.4435318275154003, "percentage": 20.6, "elapsed_time": "1:54:39", "remaining_time": "7:22:01"}
+{"current_steps": 240, "total_steps": 1141, "loss": 0.4329, "lr": 3.8575623683069195e-05, "epoch": 1.4743326488706365, "percentage": 21.03, "elapsed_time": "1:57:02", "remaining_time": "7:19:24"}
+{"current_steps": 245, "total_steps": 1141, "loss": 0.4236, "lr": 3.845996539989126e-05, "epoch": 1.5051334702258727, "percentage": 21.47, "elapsed_time": "1:59:17", "remaining_time": "7:16:14"}
+{"current_steps": 250, "total_steps": 1141, "loss": 0.4201, "lr": 3.833998031062442e-05, "epoch": 1.5359342915811087, "percentage": 21.91, "elapsed_time": "2:01:35", "remaining_time": "7:13:19"}
+{"current_steps": 255, "total_steps": 1141, "loss": 0.4277, "lr": 3.821569653840995e-05, "epoch": 1.566735112936345, "percentage": 22.35, "elapsed_time": "2:03:49", "remaining_time": "7:10:14"}
+{"current_steps": 260, "total_steps": 1141, "loss": 0.4288, "lr": 3.808714321395155e-05, "epoch": 1.5975359342915811, "percentage": 22.79, "elapsed_time": "2:06:06", "remaining_time": "7:07:18"}
+{"current_steps": 265, "total_steps": 1141, "loss": 0.4234, "lr": 3.795435046868745e-05, "epoch": 1.6283367556468171, "percentage": 23.23, "elapsed_time": "2:08:12", "remaining_time": "7:03:49"}
+{"current_steps": 270, "total_steps": 1141, "loss": 0.4159, "lr": 3.78173494277279e-05, "epoch": 1.6591375770020536, "percentage": 23.66, "elapsed_time": "2:10:29", "remaining_time": "7:00:55"}
+{"current_steps": 275, "total_steps": 1141, "loss": 0.4214, "lr": 3.767617220255989e-05, "epoch": 1.6899383983572895, "percentage": 24.1, "elapsed_time": "2:12:46", "remaining_time": "6:58:06"}
+{"current_steps": 280, "total_steps": 1141, "loss": 0.4285, "lr": 3.753085188352047e-05, "epoch": 1.7207392197125255, "percentage": 24.54, "elapsed_time": "2:15:02", "remaining_time": "6:55:14"}
+{"current_steps": 285, "total_steps": 1141, "loss": 0.4143, "lr": 3.738142253204086e-05, "epoch": 1.751540041067762, "percentage": 24.98, "elapsed_time": "2:17:16", "remaining_time": "6:52:17"}
+{"current_steps": 290, "total_steps": 1141, "loss": 0.4243, "lr": 3.722791917266273e-05, "epoch": 1.782340862422998, "percentage": 25.42, "elapsed_time": "2:19:25", "remaining_time": "6:49:08"}
+{"current_steps": 295, "total_steps": 1141, "loss": 0.426, "lr": 3.707037778482892e-05, "epoch": 1.813141683778234, "percentage": 25.85, "elapsed_time": "2:21:41", "remaining_time": "6:46:21"}
+{"current_steps": 300, "total_steps": 1141, "loss": 0.4163, "lr": 3.690883529445028e-05, "epoch": 1.8439425051334704, "percentage": 26.29, "elapsed_time": "2:23:54", "remaining_time": "6:43:26"}
+{"current_steps": 305, "total_steps": 1141, "loss": 0.4142, "lr": 3.6743329565250575e-05, "epoch": 1.8747433264887063, "percentage": 26.73, "elapsed_time": "2:26:16", "remaining_time": "6:40:56"}
+{"current_steps": 310, "total_steps": 1141, "loss": 0.4178, "lr": 3.657389938989173e-05, "epoch": 1.9055441478439425, "percentage": 27.17, "elapsed_time": "2:28:35", "remaining_time": "6:38:20"}
+{"current_steps": 315, "total_steps": 1141, "loss": 0.42, "lr": 3.6400584480881246e-05, "epoch": 1.9363449691991788, "percentage": 27.61, "elapsed_time": "2:30:50", "remaining_time": "6:35:31"}
+{"current_steps": 320, "total_steps": 1141, "loss": 0.425, "lr": 3.622342546126405e-05, "epoch": 1.9671457905544147, "percentage": 28.05, "elapsed_time": "2:33:05", "remaining_time": "6:32:45"}
+{"current_steps": 325, "total_steps": 1141, "loss": 0.419, "lr": 3.604246385510088e-05, "epoch": 1.997946611909651, "percentage": 28.48, "elapsed_time": "2:35:15", "remaining_time": "6:29:48"}
+{"current_steps": 330, "total_steps": 1141, "loss": 0.4142, "lr": 3.585774207773557e-05, "epoch": 2.024640657084189, "percentage": 28.92, "elapsed_time": "2:37:09", "remaining_time": "6:26:14"}
+{"current_steps": 335, "total_steps": 1141, "loss": 0.408, "lr": 3.5669303425853325e-05, "epoch": 2.055441478439425, "percentage": 29.36, "elapsed_time": "2:39:22", "remaining_time": "6:23:26"}
+{"current_steps": 340, "total_steps": 1141, "loss": 0.4112, "lr": 3.547719206733252e-05, "epoch": 2.086242299794661, "percentage": 29.8, "elapsed_time": "2:41:31", "remaining_time": "6:20:32"}
+{"current_steps": 345, "total_steps": 1141, "loss": 0.4123, "lr": 3.528145303089221e-05, "epoch": 2.1170431211498975, "percentage": 30.24, "elapsed_time": "2:43:50", "remaining_time": "6:18:02"}
+{"current_steps": 350, "total_steps": 1141, "loss": 0.4069, "lr": 3.508213219553793e-05, "epoch": 2.1478439425051334, "percentage": 30.67, "elapsed_time": "2:46:02", "remaining_time": "6:15:15"}
+{"current_steps": 355, "total_steps": 1141, "loss": 0.4098, "lr": 3.4879276279808163e-05, "epoch": 2.1786447638603694, "percentage": 31.11, "elapsed_time": "2:48:18", "remaining_time": "6:12:39"}
+{"current_steps": 360, "total_steps": 1141, "loss": 0.4081, "lr": 3.4672932830824056e-05, "epoch": 2.209445585215606, "percentage": 31.55, "elapsed_time": "2:50:37", "remaining_time": "6:10:09"}
+{"current_steps": 365, "total_steps": 1141, "loss": 0.4129, "lr": 3.446315021314494e-05, "epoch": 2.240246406570842, "percentage": 31.99, "elapsed_time": "2:52:56", "remaining_time": "6:07:41"}
+{"current_steps": 370, "total_steps": 1141, "loss": 0.4013, "lr": 3.424997759743217e-05, "epoch": 2.2710472279260783, "percentage": 32.43, "elapsed_time": "2:55:11", "remaining_time": "6:05:03"}
+{"current_steps": 375, "total_steps": 1141, "loss": 0.4083, "lr": 3.403346494892411e-05, "epoch": 2.3018480492813143, "percentage": 32.87, "elapsed_time": "2:57:25", "remaining_time": "6:02:25"}
+{"current_steps": 380, "total_steps": 1141, "loss": 0.4112, "lr": 3.381366301572489e-05, "epoch": 2.3326488706365502, "percentage": 33.3, "elapsed_time": "2:59:43", "remaining_time": "5:59:55"}
+{"current_steps": 385, "total_steps": 1141, "loss": 0.4074, "lr": 3.359062331690956e-05, "epoch": 2.3634496919917867, "percentage": 33.74, "elapsed_time": "3:02:03", "remaining_time": "5:57:30"}
+{"current_steps": 390, "total_steps": 1141, "loss": 0.41, "lr": 3.336439813044861e-05, "epoch": 2.3942505133470227, "percentage": 34.18, "elapsed_time": "3:04:16", "remaining_time": "5:54:51"}
+{"current_steps": 395, "total_steps": 1141, "loss": 0.4112, "lr": 3.313504048095469e-05, "epoch": 2.4250513347022586, "percentage": 34.62, "elapsed_time": "3:06:34", "remaining_time": "5:52:22"}
+{"current_steps": 400, "total_steps": 1141, "loss": 0.4055, "lr": 3.2902604127254134e-05, "epoch": 2.455852156057495, "percentage": 35.06, "elapsed_time": "3:08:50", "remaining_time": "5:49:49"}
+{"current_steps": 405, "total_steps": 1141, "loss": 0.4055, "lr": 3.266714354978657e-05, "epoch": 2.486652977412731, "percentage": 35.5, "elapsed_time": "3:11:10", "remaining_time": "5:47:24"}
+{"current_steps": 410, "total_steps": 1141, "loss": 0.4012, "lr": 3.24287139378353e-05, "epoch": 2.517453798767967, "percentage": 35.93, "elapsed_time": "3:13:23", "remaining_time": "5:44:48"}
+{"current_steps": 415, "total_steps": 1141, "loss": 0.4036, "lr": 3.2187371176591574e-05, "epoch": 2.5482546201232035, "percentage": 36.37, "elapsed_time": "3:15:39", "remaining_time": "5:42:17"}
+{"current_steps": 420, "total_steps": 1141, "loss": 0.4032, "lr": 3.194317183405573e-05, "epoch": 2.5790554414784395, "percentage": 36.81, "elapsed_time": "3:17:51", "remaining_time": "5:39:39"}
+{"current_steps": 425, "total_steps": 1141, "loss": 0.4062, "lr": 3.169617314777828e-05, "epoch": 2.6098562628336754, "percentage": 37.25, "elapsed_time": "3:20:09", "remaining_time": "5:37:12"}
+{"current_steps": 430, "total_steps": 1141, "loss": 0.41, "lr": 3.14464330114441e-05, "epoch": 2.640657084188912, "percentage": 37.69, "elapsed_time": "3:22:31", "remaining_time": "5:34:52"}
+{"current_steps": 435, "total_steps": 1141, "loss": 0.4118, "lr": 3.119400996130281e-05, "epoch": 2.671457905544148, "percentage": 38.12, "elapsed_time": "3:24:47", "remaining_time": "5:32:22"}
+{"current_steps": 440, "total_steps": 1141, "loss": 0.398, "lr": 3.093896316244855e-05, "epoch": 2.702258726899384, "percentage": 38.56, "elapsed_time": "3:27:04", "remaining_time": "5:29:55"}
+{"current_steps": 445, "total_steps": 1141, "loss": 0.4098, "lr": 3.0681352394952276e-05, "epoch": 2.7330595482546203, "percentage": 39.0, "elapsed_time": "3:29:13", "remaining_time": "5:27:14"}
+{"current_steps": 450, "total_steps": 1141, "loss": 0.4014, "lr": 3.0421238039850132e-05, "epoch": 2.7638603696098563, "percentage": 39.44, "elapsed_time": "3:31:24", "remaining_time": "5:24:37"}
+{"current_steps": 455, "total_steps": 1141, "loss": 0.3973, "lr": 3.0158681064990688e-05, "epoch": 2.7946611909650922, "percentage": 39.88, "elapsed_time": "3:33:47", "remaining_time": "5:22:20"}
+{"current_steps": 460, "total_steps": 1141, "loss": 0.4045, "lr": 2.9893743010744853e-05, "epoch": 2.8254620123203287, "percentage": 40.32, "elapsed_time": "3:36:04", "remaining_time": "5:19:52"}
+{"current_steps": 465, "total_steps": 1141, "loss": 0.3936, "lr": 2.962648597558147e-05, "epoch": 2.8562628336755647, "percentage": 40.75, "elapsed_time": "3:38:23", "remaining_time": "5:17:28"}
+{"current_steps": 470, "total_steps": 1141, "loss": 0.405, "lr": 2.935697260151216e-05, "epoch": 2.8870636550308006, "percentage": 41.19, "elapsed_time": "3:40:38", "remaining_time": "5:14:59"}
+{"current_steps": 475, "total_steps": 1141, "loss": 0.4064, "lr": 2.9085266059408734e-05, "epoch": 2.917864476386037, "percentage": 41.63, "elapsed_time": "3:42:46", "remaining_time": "5:12:21"}
+{"current_steps": 480, "total_steps": 1141, "loss": 0.4016, "lr": 2.8811430034196667e-05, "epoch": 2.948665297741273, "percentage": 42.07, "elapsed_time": "3:45:03", "remaining_time": "5:09:55"}
+{"current_steps": 485, "total_steps": 1141, "loss": 0.4004, "lr": 2.8535528709928076e-05, "epoch": 2.979466119096509, "percentage": 42.51, "elapsed_time": "3:47:24", "remaining_time": "5:07:35"}
+{"current_steps": 490, "total_steps": 1141, "loss": 0.4081, "lr": 2.8257626754737703e-05, "epoch": 3.0061601642710474, "percentage": 42.94, "elapsed_time": "3:49:28", "remaining_time": "5:04:52"}
+{"current_steps": 495, "total_steps": 1141, "loss": 0.3923, "lr": 2.7977789305685424e-05, "epoch": 3.0369609856262834, "percentage": 43.38, "elapsed_time": "3:51:46", "remaining_time": "5:02:28"}
+{"current_steps": 500, "total_steps": 1141, "loss": 0.3982, "lr": 2.7696081953488917e-05, "epoch": 3.0677618069815193, "percentage": 43.82, "elapsed_time": "3:54:06", "remaining_time": "5:00:08"}
+{"current_steps": 505, "total_steps": 1141, "loss": 0.393, "lr": 2.7412570727149864e-05, "epoch": 3.0985626283367558, "percentage": 44.26, "elapsed_time": "3:56:17", "remaining_time": "4:57:34"}
+{"current_steps": 510, "total_steps": 1141, "loss": 0.3902, "lr": 2.712732207847757e-05, "epoch": 3.1293634496919918, "percentage": 44.7, "elapsed_time": "3:58:31", "remaining_time": "4:55:06"}
+{"current_steps": 515, "total_steps": 1141, "loss": 0.4033, "lr": 2.684040286651338e-05, "epoch": 3.1601642710472277, "percentage": 45.14, "elapsed_time": "4:00:41", "remaining_time": "4:52:33"}
+{"current_steps": 520, "total_steps": 1141, "loss": 0.4001, "lr": 2.655188034185969e-05, "epoch": 3.190965092402464, "percentage": 45.57, "elapsed_time": "4:03:01", "remaining_time": "4:50:13"}
+{"current_steps": 525, "total_steps": 1141, "loss": 0.399, "lr": 2.626182213091717e-05, "epoch": 3.2217659137577, "percentage": 46.01, "elapsed_time": "4:05:15", "remaining_time": "4:47:45"}
+{"current_steps": 530, "total_steps": 1141, "loss": 0.3957, "lr": 2.5970296220033894e-05, "epoch": 3.2525667351129366, "percentage": 46.45, "elapsed_time": "4:07:31", "remaining_time": "4:45:20"}
+{"current_steps": 535, "total_steps": 1141, "loss": 0.3978, "lr": 2.5677370939570142e-05, "epoch": 3.2833675564681726, "percentage": 46.89, "elapsed_time": "4:09:44", "remaining_time": "4:42:53"}
+{"current_steps": 540, "total_steps": 1141, "loss": 0.4032, "lr": 2.538311494788249e-05, "epoch": 3.3141683778234086, "percentage": 47.33, "elapsed_time": "4:11:55", "remaining_time": "4:40:23"}
+{"current_steps": 545, "total_steps": 1141, "loss": 0.3902, "lr": 2.508759721523113e-05, "epoch": 3.344969199178645, "percentage": 47.77, "elapsed_time": "4:14:15", "remaining_time": "4:38:02"}
+{"current_steps": 550, "total_steps": 1141, "loss": 0.4028, "lr": 2.479088700761398e-05, "epoch": 3.375770020533881, "percentage": 48.2, "elapsed_time": "4:16:29", "remaining_time": "4:35:37"}
+{"current_steps": 555, "total_steps": 1141, "loss": 0.3902, "lr": 2.4493053870531534e-05, "epoch": 3.406570841889117, "percentage": 48.64, "elapsed_time": "4:18:43", "remaining_time": "4:33:11"}
+{"current_steps": 560, "total_steps": 1141, "loss": 0.3902, "lr": 2.4194167612686208e-05, "epoch": 3.4373716632443534, "percentage": 49.08, "elapsed_time": "4:20:55", "remaining_time": "4:30:42"}
+{"current_steps": 565, "total_steps": 1141, "loss": 0.3902, "lr": 2.389429828961994e-05, "epoch": 3.4681724845995894, "percentage": 49.52, "elapsed_time": "4:23:12", "remaining_time": "4:28:19"}
+{"current_steps": 570, "total_steps": 1141, "loss": 0.3971, "lr": 2.3593516187293978e-05, "epoch": 3.4989733059548254, "percentage": 49.96, "elapsed_time": "4:25:28", "remaining_time": "4:25:56"}
+{"current_steps": 575, "total_steps": 1141, "loss": 0.3921, "lr": 2.329189180561468e-05, "epoch": 3.529774127310062, "percentage": 50.39, "elapsed_time": "4:27:44", "remaining_time": "4:23:33"}
+{"current_steps": 580, "total_steps": 1141, "loss": 0.3841, "lr": 2.298949584190909e-05, "epoch": 3.560574948665298, "percentage": 50.83, "elapsed_time": "4:29:59", "remaining_time": "4:21:08"}
+{"current_steps": 585, "total_steps": 1141, "loss": 0.3966, "lr": 2.2686399174354313e-05, "epoch": 3.5913757700205338, "percentage": 51.27, "elapsed_time": "4:32:19", "remaining_time": "4:18:49"}
+{"current_steps": 590, "total_steps": 1141, "loss": 0.3935, "lr": 2.2382672845364474e-05, "epoch": 3.62217659137577, "percentage": 51.71, "elapsed_time": "4:34:38", "remaining_time": "4:16:28"}
+{"current_steps": 595, "total_steps": 1141, "loss": 0.3984, "lr": 2.2078388044939193e-05, "epoch": 3.652977412731006, "percentage": 52.15, "elapsed_time": "4:36:54", "remaining_time": "4:14:06"}
+{"current_steps": 600, "total_steps": 1141, "loss": 0.393, "lr": 2.1773616093977433e-05, "epoch": 3.683778234086242, "percentage": 52.59, "elapsed_time": "4:39:10", "remaining_time": "4:11:43"}
+{"current_steps": 605, "total_steps": 1141, "loss": 0.3896, "lr": 2.146842842756071e-05, "epoch": 3.7145790554414786, "percentage": 53.02, "elapsed_time": "4:41:36", "remaining_time": "4:09:29"}
+{"current_steps": 610, "total_steps": 1141, "loss": 0.396, "lr": 2.1162896578209517e-05, "epoch": 3.7453798767967146, "percentage": 53.46, "elapsed_time": "4:43:56", "remaining_time": "4:07:10"}
+{"current_steps": 615, "total_steps": 1141, "loss": 0.3922, "lr": 2.0857092159116927e-05, "epoch": 3.7761806981519506, "percentage": 53.9, "elapsed_time": "4:46:08", "remaining_time": "4:04:43"}
+{"current_steps": 620, "total_steps": 1141, "loss": 0.3964, "lr": 2.0551086847363245e-05, "epoch": 3.806981519507187, "percentage": 54.34, "elapsed_time": "4:48:23", "remaining_time": "4:02:20"}
+{"current_steps": 625, "total_steps": 1141, "loss": 0.3852, "lr": 2.024495236711574e-05, "epoch": 3.837782340862423, "percentage": 54.78, "elapsed_time": "4:50:38", "remaining_time": "3:59:57"}
+{"current_steps": 630, "total_steps": 1141, "loss": 0.394, "lr": 1.993876047281731e-05, "epoch": 3.868583162217659, "percentage": 55.21, "elapsed_time": "4:52:48", "remaining_time": "3:57:29"}
+{"current_steps": 635, "total_steps": 1141, "loss": 0.3937, "lr": 1.963258293236805e-05, "epoch": 3.8993839835728954, "percentage": 55.65, "elapsed_time": "4:55:06", "remaining_time": "3:55:09"}
+{"current_steps": 640, "total_steps": 1141, "loss": 0.3922, "lr": 1.9326491510303694e-05, "epoch": 3.9301848049281314, "percentage": 56.09, "elapsed_time": "4:57:20", "remaining_time": "3:52:46"}
+{"current_steps": 645, "total_steps": 1141, "loss": 0.3889, "lr": 1.902055795097477e-05, "epoch": 3.9609856262833674, "percentage": 56.53, "elapsed_time": "4:59:33", "remaining_time": "3:50:21"}
+{"current_steps": 650, "total_steps": 1141, "loss": 0.3918, "lr": 1.87148539617306e-05, "epoch": 3.991786447638604, "percentage": 56.97, "elapsed_time": "5:01:46", "remaining_time": "3:47:57"}
+{"current_steps": 655, "total_steps": 1141, "loss": 0.3893, "lr": 1.840945119611188e-05, "epoch": 4.018480492813142, "percentage": 57.41, "elapsed_time": "5:03:44", "remaining_time": "3:45:22"}
+{"current_steps": 660, "total_steps": 1141, "loss": 0.3881, "lr": 1.8104421237055933e-05, "epoch": 4.049281314168378, "percentage": 57.84, "elapsed_time": "5:06:01", "remaining_time": "3:43:01"}
+{"current_steps": 665, "total_steps": 1141, "loss": 0.3865, "lr": 1.7799835580118416e-05, "epoch": 4.080082135523614, "percentage": 58.28, "elapsed_time": "5:08:14", "remaining_time": "3:40:38"}
+{"current_steps": 670, "total_steps": 1141, "loss": 0.3851, "lr": 1.7495765616715656e-05, "epoch": 4.11088295687885, "percentage": 58.72, "elapsed_time": "5:10:31", "remaining_time": "3:38:17"}
+{"current_steps": 675, "total_steps": 1141, "loss": 0.3865, "lr": 1.719228261739126e-05, "epoch": 4.1416837782340865, "percentage": 59.16, "elapsed_time": "5:12:46", "remaining_time": "3:35:56"}
+{"current_steps": 680, "total_steps": 1141, "loss": 0.3911, "lr": 1.6889457715111144e-05, "epoch": 4.172484599589322, "percentage": 59.6, "elapsed_time": "5:15:02", "remaining_time": "3:33:35"}
+{"current_steps": 685, "total_steps": 1141, "loss": 0.385, "lr": 1.6587361888590718e-05, "epoch": 4.2032854209445585, "percentage": 60.04, "elapsed_time": "5:17:18", "remaining_time": "3:31:14"}
+{"current_steps": 690, "total_steps": 1141, "loss": 0.3831, "lr": 1.6286065945658368e-05, "epoch": 4.234086242299795, "percentage": 60.47, "elapsed_time": "5:19:32", "remaining_time": "3:28:51"}
+{"current_steps": 695, "total_steps": 1141, "loss": 0.3861, "lr": 1.598564050665882e-05, "epoch": 4.2648870636550305, "percentage": 60.91, "elapsed_time": "5:21:48", "remaining_time": "3:26:30"}
+{"current_steps": 700, "total_steps": 1141, "loss": 0.3782, "lr": 1.5686155987900604e-05, "epoch": 4.295687885010267, "percentage": 61.35, "elapsed_time": "5:23:56", "remaining_time": "3:24:04"}
+{"current_steps": 705, "total_steps": 1141, "loss": 0.3915, "lr": 1.53876825851512e-05, "epoch": 4.326488706365503, "percentage": 61.79, "elapsed_time": "5:26:08", "remaining_time": "3:21:41"}
+{"current_steps": 710, "total_steps": 1141, "loss": 0.3925, "lr": 1.5090290257184019e-05, "epoch": 4.357289527720739, "percentage": 62.23, "elapsed_time": "5:28:24", "remaining_time": "3:19:21"}
+{"current_steps": 715, "total_steps": 1141, "loss": 0.3849, "lr": 1.4794048709380816e-05, "epoch": 4.388090349075975, "percentage": 62.66, "elapsed_time": "5:30:42", "remaining_time": "3:17:02"}
+{"current_steps": 720, "total_steps": 1141, "loss": 0.3827, "lr": 1.4499027377393571e-05, "epoch": 4.418891170431212, "percentage": 63.1, "elapsed_time": "5:33:01", "remaining_time": "3:14:43"}
+{"current_steps": 725, "total_steps": 1141, "loss": 0.3845, "lr": 1.420529541086951e-05, "epoch": 4.449691991786447, "percentage": 63.54, "elapsed_time": "5:35:12", "remaining_time": "3:12:20"}
+{"current_steps": 730, "total_steps": 1141, "loss": 0.3941, "lr": 1.3912921657243282e-05, "epoch": 4.480492813141684, "percentage": 63.98, "elapsed_time": "5:37:26", "remaining_time": "3:09:59"}
+{"current_steps": 735, "total_steps": 1141, "loss": 0.3877, "lr": 1.3621974645599854e-05, "epoch": 4.51129363449692, "percentage": 64.42, "elapsed_time": "5:39:39", "remaining_time": "3:07:37"}
+{"current_steps": 740, "total_steps": 1141, "loss": 0.3902, "lr": 1.3332522570612097e-05, "epoch": 4.5420944558521565, "percentage": 64.86, "elapsed_time": "5:41:57", "remaining_time": "3:05:18"}
+{"current_steps": 745, "total_steps": 1141, "loss": 0.385, "lr": 1.3044633276556695e-05, "epoch": 4.572895277207392, "percentage": 65.29, "elapsed_time": "5:44:13", "remaining_time": "3:02:58"}
+{"current_steps": 750, "total_steps": 1141, "loss": 0.3904, "lr": 1.2758374241412276e-05, "epoch": 4.6036960985626285, "percentage": 65.73, "elapsed_time": "5:46:29", "remaining_time": "3:00:38"}
+{"current_steps": 755, "total_steps": 1141, "loss": 0.3866, "lr": 1.2473812561043293e-05, "epoch": 4.634496919917865, "percentage": 66.17, "elapsed_time": "5:48:42", "remaining_time": "2:58:16"}
+{"current_steps": 760, "total_steps": 1141, "loss": 0.3801, "lr": 1.2191014933473526e-05, "epoch": 4.6652977412731005, "percentage": 66.61, "elapsed_time": "5:50:54", "remaining_time": "2:55:55"}
+{"current_steps": 765, "total_steps": 1141, "loss": 0.3846, "lr": 1.1910047643252822e-05, "epoch": 4.696098562628337, "percentage": 67.05, "elapsed_time": "5:53:08", "remaining_time": "2:53:34"}
+{"current_steps": 770, "total_steps": 1141, "loss": 0.379, "lr": 1.1630976545920777e-05, "epoch": 4.726899383983573, "percentage": 67.48, "elapsed_time": "5:55:28", "remaining_time": "2:51:16"}
+{"current_steps": 775, "total_steps": 1141, "loss": 0.3832, "lr": 1.1353867052570915e-05, "epoch": 4.757700205338809, "percentage": 67.92, "elapsed_time": "5:57:45", "remaining_time": "2:48:57"}
+{"current_steps": 780, "total_steps": 1141, "loss": 0.3851, "lr": 1.1078784114519072e-05, "epoch": 4.788501026694045, "percentage": 68.36, "elapsed_time": "5:59:54", "remaining_time": "2:46:34"}
+{"current_steps": 785, "total_steps": 1141, "loss": 0.3824, "lr": 1.0805792208079553e-05, "epoch": 4.819301848049282, "percentage": 68.8, "elapsed_time": "6:02:11", "remaining_time": "2:44:15"}
+{"current_steps": 790, "total_steps": 1141, "loss": 0.3869, "lr": 1.0534955319452638e-05, "epoch": 4.850102669404517, "percentage": 69.24, "elapsed_time": "6:04:29", "remaining_time": "2:41:56"}
+{"current_steps": 795, "total_steps": 1141, "loss": 0.3919, "lr": 1.0266336929726899e-05, "epoch": 4.880903490759754, "percentage": 69.68, "elapsed_time": "6:06:46", "remaining_time": "2:39:37"}
+{"current_steps": 800, "total_steps": 1141, "loss": 0.3847, "lr": 1.0000000000000006e-05, "epoch": 4.91170431211499, "percentage": 70.11, "elapsed_time": "6:09:02", "remaining_time": "2:37:18"}
+{"current_steps": 805, "total_steps": 1141, "loss": 0.3879, "lr": 9.736006956621302e-06, "epoch": 4.942505133470226, "percentage": 70.55, "elapsed_time": "6:11:23", "remaining_time": "2:35:00"}
+{"current_steps": 810, "total_steps": 1141, "loss": 0.3907, "lr": 9.474419676559846e-06, "epoch": 4.973305954825462, "percentage": 70.99, "elapsed_time": "6:13:39", "remaining_time": "2:32:41"}
+{"current_steps": 815, "total_steps": 1141, "loss": 0.3903, "lr": 9.215299472901078e-06, "epoch": 5.0, "percentage": 71.43, "elapsed_time": "6:15:39", "remaining_time": "2:30:15"}
+{"current_steps": 820, "total_steps": 1141, "loss": 0.3811, "lr": 8.958707080475806e-06, "epoch": 5.030800821355236, "percentage": 71.87, "elapsed_time": "6:17:50", "remaining_time": "2:27:54"}
+{"current_steps": 825, "total_steps": 1141, "loss": 0.3875, "lr": 8.704702641624581e-06, "epoch": 5.061601642710472, "percentage": 72.3, "elapsed_time": "6:20:07", "remaining_time": "2:25:36"}
+{"current_steps": 830, "total_steps": 1141, "loss": 0.3863, "lr": 8.453345692101076e-06, "epoch": 5.092402464065708, "percentage": 72.74, "elapsed_time": "6:22:18", "remaining_time": "2:23:15"}
+{"current_steps": 835, "total_steps": 1141, "loss": 0.3818, "lr": 8.204695147117527e-06, "epoch": 5.123203285420945, "percentage": 73.18, "elapsed_time": "6:24:35", "remaining_time": "2:20:56"}
+{"current_steps": 840, "total_steps": 1141, "loss": 0.3794, "lr": 7.958809287535741e-06, "epoch": 5.15400410677618, "percentage": 73.62, "elapsed_time": "6:26:46", "remaining_time": "2:18:35"}
+{"current_steps": 845, "total_steps": 1141, "loss": 0.389, "lr": 7.715745746206644e-06, "epoch": 5.184804928131417, "percentage": 74.06, "elapsed_time": "6:29:05", "remaining_time": "2:16:17"}
+{"current_steps": 850, "total_steps": 1141, "loss": 0.3856, "lr": 7.475561494461882e-06, "epoch": 5.215605749486653, "percentage": 74.5, "elapsed_time": "6:31:19", "remaining_time": "2:13:58"}
+{"current_steps": 855, "total_steps": 1141, "loss": 0.3866, "lr": 7.238312828760312e-06, "epoch": 5.246406570841889, "percentage": 74.93, "elapsed_time": "6:33:38", "remaining_time": "2:11:40"}
+{"current_steps": 860, "total_steps": 1141, "loss": 0.3776, "lr": 7.0040553574928115e-06, "epoch": 5.277207392197125, "percentage": 75.37, "elapsed_time": "6:35:56", "remaining_time": "2:09:22"}
+{"current_steps": 865, "total_steps": 1141, "loss": 0.3775, "lr": 6.772843987948259e-06, "epoch": 5.308008213552362, "percentage": 75.81, "elapsed_time": "6:38:10", "remaining_time": "2:07:02"}
+{"current_steps": 870, "total_steps": 1141, "loss": 0.3749, "lr": 6.544732913443925e-06, "epoch": 5.338809034907597, "percentage": 76.25, "elapsed_time": "6:40:27", "remaining_time": "2:04:44"}
+{"current_steps": 875, "total_steps": 1141, "loss": 0.3778, "lr": 6.319775600623139e-06, "epoch": 5.369609856262834, "percentage": 76.69, "elapsed_time": "6:42:48", "remaining_time": "2:02:27"}
+{"current_steps": 880, "total_steps": 1141, "loss": 0.3838, "lr": 6.098024776923359e-06, "epoch": 5.40041067761807, "percentage": 77.13, "elapsed_time": "6:45:07", "remaining_time": "2:00:09"}
+{"current_steps": 885, "total_steps": 1141, "loss": 0.3823, "lr": 5.87953241821741e-06, "epoch": 5.431211498973306, "percentage": 77.56, "elapsed_time": "6:47:22", "remaining_time": "1:57:50"}
+{"current_steps": 890, "total_steps": 1141, "loss": 0.3811, "lr": 5.664349736630979e-06, "epoch": 5.462012320328542, "percentage": 78.0, "elapsed_time": "6:49:38", "remaining_time": "1:55:31"}
+{"current_steps": 895, "total_steps": 1141, "loss": 0.3847, "lr": 5.452527168539026e-06, "epoch": 5.492813141683778, "percentage": 78.44, "elapsed_time": "6:51:59", "remaining_time": "1:53:14"}
+{"current_steps": 900, "total_steps": 1141, "loss": 0.3765, "lr": 5.244114362744126e-06, "epoch": 5.523613963039015, "percentage": 78.88, "elapsed_time": "6:54:11", "remaining_time": "1:50:54"}
+{"current_steps": 905, "total_steps": 1141, "loss": 0.3862, "lr": 5.039160168839292e-06, "epoch": 5.55441478439425, "percentage": 79.32, "elapsed_time": "6:56:39", "remaining_time": "1:48:39"}
+{"current_steps": 910, "total_steps": 1141, "loss": 0.3811, "lr": 4.837712625758251e-06, "epoch": 5.585215605749487, "percentage": 79.75, "elapsed_time": "6:58:48", "remaining_time": "1:46:18"}
+{"current_steps": 915, "total_steps": 1141, "loss": 0.3714, "lr": 4.639818950515598e-06, "epoch": 5.616016427104723, "percentage": 80.19, "elapsed_time": "7:00:58", "remaining_time": "1:43:58"}
+{"current_steps": 920, "total_steps": 1141, "loss": 0.3888, "lr": 4.445525527139725e-06, "epoch": 5.646817248459959, "percentage": 80.63, "elapsed_time": "7:03:14", "remaining_time": "1:41:40"}
+{"current_steps": 925, "total_steps": 1141, "loss": 0.3833, "lr": 4.2548778958008795e-06, "epoch": 5.677618069815195, "percentage": 81.07, "elapsed_time": "7:05:30", "remaining_time": "1:39:21"}
+{"current_steps": 930, "total_steps": 1141, "loss": 0.3788, "lr": 4.067920742137115e-06, "epoch": 5.708418891170432, "percentage": 81.51, "elapsed_time": "7:07:48", "remaining_time": "1:37:03"}
+{"current_steps": 935, "total_steps": 1141, "loss": 0.3763, "lr": 3.884697886780437e-06, "epoch": 5.739219712525667, "percentage": 81.95, "elapsed_time": "7:10:07", "remaining_time": "1:34:45"}
+{"current_steps": 940, "total_steps": 1141, "loss": 0.3862, "lr": 3.705252275085791e-06, "epoch": 5.770020533880904, "percentage": 82.38, "elapsed_time": "7:12:27", "remaining_time": "1:32:28"}
+{"current_steps": 945, "total_steps": 1141, "loss": 0.38, "lr": 3.5296259670651177e-06, "epoch": 5.80082135523614, "percentage": 82.82, "elapsed_time": "7:14:37", "remaining_time": "1:30:08"}
+{"current_steps": 950, "total_steps": 1141, "loss": 0.3814, "lr": 3.357860127529e-06, "epoch": 5.831622176591376, "percentage": 83.26, "elapsed_time": "7:16:50", "remaining_time": "1:27:49"}
+{"current_steps": 955, "total_steps": 1141, "loss": 0.3842, "lr": 3.1899950164380677e-06, "epoch": 5.862422997946612, "percentage": 83.7, "elapsed_time": "7:19:08", "remaining_time": "1:25:31"}
+{"current_steps": 960, "total_steps": 1141, "loss": 0.3878, "lr": 3.0260699794665527e-06, "epoch": 5.8932238193018485, "percentage": 84.14, "elapsed_time": "7:21:23", "remaining_time": "1:23:13"}
+{"current_steps": 965, "total_steps": 1141, "loss": 0.3832, "lr": 2.866123438780073e-06, "epoch": 5.924024640657084, "percentage": 84.57, "elapsed_time": "7:23:34", "remaining_time": "1:20:54"}
+{"current_steps": 970, "total_steps": 1141, "loss": 0.3781, "lr": 2.710192884029954e-06, "epoch": 5.95482546201232, "percentage": 85.01, "elapsed_time": "7:25:52", "remaining_time": "1:18:36"}
+{"current_steps": 975, "total_steps": 1141, "loss": 0.381, "lr": 2.558314863566043e-06, "epoch": 5.985626283367557, "percentage": 85.45, "elapsed_time": "7:28:09", "remaining_time": "1:16:18"}
+{"current_steps": 980, "total_steps": 1141, "loss": 0.3789, "lr": 2.410524975870221e-06, "epoch": 6.012320328542095, "percentage": 85.89, "elapsed_time": "7:30:06", "remaining_time": "1:13:56"}
+{"current_steps": 985, "total_steps": 1141, "loss": 0.3828, "lr": 2.266857861212499e-06, "epoch": 6.04312114989733, "percentage": 86.33, "elapsed_time": "7:32:28", "remaining_time": "1:11:39"}
+{"current_steps": 990, "total_steps": 1141, "loss": 0.3788, "lr": 2.127347193531757e-06, "epoch": 6.073921971252567, "percentage": 86.77, "elapsed_time": "7:34:41", "remaining_time": "1:09:21"}
+{"current_steps": 995, "total_steps": 1141, "loss": 0.3787, "lr": 1.9920256725429275e-06, "epoch": 6.104722792607803, "percentage": 87.2, "elapsed_time": "7:37:00", "remaining_time": "1:07:03"}
+{"current_steps": 1000, "total_steps": 1141, "loss": 0.3755, "lr": 1.8609250160725877e-06, "epoch": 6.135523613963039, "percentage": 87.64, "elapsed_time": "7:39:08", "remaining_time": "1:04:44"}
+{"current_steps": 1005, "total_steps": 1141, "loss": 0.3761, "lr": 1.7340759526246254e-06, "epoch": 6.166324435318275, "percentage": 88.08, "elapsed_time": "7:41:16", "remaining_time": "1:02:25"}
+{"current_steps": 1010, "total_steps": 1141, "loss": 0.3827, "lr": 1.6115082141778459e-06, "epoch": 6.1971252566735116, "percentage": 88.52, "elapsed_time": "7:43:29", "remaining_time": "1:00:06"}
+{"current_steps": 1015, "total_steps": 1141, "loss": 0.3743, "lr": 1.4932505292171407e-06, "epoch": 6.227926078028747, "percentage": 88.96, "elapsed_time": "7:45:45", "remaining_time": "0:57:49"}
+{"current_steps": 1020, "total_steps": 1141, "loss": 0.383, "lr": 1.3793306159998498e-06, "epoch": 6.2587268993839835, "percentage": 89.4, "elapsed_time": "7:48:01", "remaining_time": "0:55:31"}
+{"current_steps": 1025, "total_steps": 1141, "loss": 0.379, "lr": 1.2697751760589072e-06, "epoch": 6.28952772073922, "percentage": 89.83, "elapsed_time": "7:50:20", "remaining_time": "0:53:13"}
+{"current_steps": 1030, "total_steps": 1141, "loss": 0.3827, "lr": 1.1646098879443124e-06, "epoch": 6.3203285420944555, "percentage": 90.27, "elapsed_time": "7:52:32", "remaining_time": "0:50:55"}
+{"current_steps": 1035, "total_steps": 1141, "loss": 0.3849, "lr": 1.0638594012043834e-06, "epoch": 6.351129363449692, "percentage": 90.71, "elapsed_time": "7:54:53", "remaining_time": "0:48:38"}
+{"current_steps": 1040, "total_steps": 1141, "loss": 0.3803, "lr": 9.67547330608165e-07, "epoch": 6.381930184804928, "percentage": 91.15, "elapsed_time": "7:57:01", "remaining_time": "0:46:19"}
+{"current_steps": 1045, "total_steps": 1141, "loss": 0.3821, "lr": 8.756962506103983e-07, "epoch": 6.412731006160164, "percentage": 91.59, "elapsed_time": "7:59:15", "remaining_time": "0:44:01"}
+{"current_steps": 1050, "total_steps": 1141, "loss": 0.3762, "lr": 7.883276900603288e-07, "epoch": 6.4435318275154, "percentage": 92.02, "elapsed_time": "8:01:34", "remaining_time": "0:41:44"}
+{"current_steps": 1055, "total_steps": 1141, "loss": 0.3811, "lr": 7.054621271555917e-07, "epoch": 6.474332648870637, "percentage": 92.46, "elapsed_time": "8:03:47", "remaining_time": "0:39:26"}
+{"current_steps": 1060, "total_steps": 1141, "loss": 0.384, "lr": 6.271189846423543e-07, "epoch": 6.505133470225873, "percentage": 92.9, "elapsed_time": "8:06:02", "remaining_time": "0:37:08"}
+{"current_steps": 1065, "total_steps": 1141, "loss": 0.3782, "lr": 5.533166252628319e-07, "epoch": 6.535934291581109, "percentage": 93.34, "elapsed_time": "8:08:15", "remaining_time": "0:34:50"}
+{"current_steps": 1070, "total_steps": 1141, "loss": 0.3811, "lr": 4.840723474512876e-07, "epoch": 6.566735112936345, "percentage": 93.78, "elapsed_time": "8:10:31", "remaining_time": "0:32:32"}
+{"current_steps": 1075, "total_steps": 1141, "loss": 0.3772, "lr": 4.1940238127946785e-07, "epoch": 6.597535934291582, "percentage": 94.22, "elapsed_time": "8:12:50", "remaining_time": "0:30:15"}
+{"current_steps": 1080, "total_steps": 1141, "loss": 0.3869, "lr": 3.593218846524571e-07, "epoch": 6.628336755646817, "percentage": 94.65, "elapsed_time": "8:15:05", "remaining_time": "0:27:57"}
+{"current_steps": 1085, "total_steps": 1141, "loss": 0.384, "lr": 3.038449397558396e-07, "epoch": 6.6591375770020536, "percentage": 95.09, "elapsed_time": "8:17:23", "remaining_time": "0:25:40"}
+{"current_steps": 1090, "total_steps": 1141, "loss": 0.3799, "lr": 2.52984549754991e-07, "epoch": 6.68993839835729, "percentage": 95.53, "elapsed_time": "8:19:35", "remaining_time": "0:23:22"}
+{"current_steps": 1095, "total_steps": 1141, "loss": 0.3756, "lr": 2.0675263574729376e-07, "epoch": 6.7207392197125255, "percentage": 95.97, "elapsed_time": "8:21:53", "remaining_time": "0:21:05"}
+{"current_steps": 1100, "total_steps": 1141, "loss": 0.3819, "lr": 1.6516003396795489e-07, "epoch": 6.751540041067762, "percentage": 96.41, "elapsed_time": "8:24:08", "remaining_time": "0:18:47"}
+{"current_steps": 1105, "total_steps": 1141, "loss": 0.3817, "lr": 1.2821649325012396e-07, "epoch": 6.782340862422998, "percentage": 96.84, "elapsed_time": "8:26:24", "remaining_time": "0:16:29"}
+{"current_steps": 1110, "total_steps": 1141, "loss": 0.3827, "lr": 9.593067273987456e-08, "epoch": 6.813141683778234, "percentage": 97.28, "elapsed_time": "8:28:44", "remaining_time": "0:14:12"}
+{"current_steps": 1115, "total_steps": 1141, "loss": 0.3769, "lr": 6.831013986660307e-08, "epoch": 6.84394250513347, "percentage": 97.72, "elapsed_time": "8:30:56", "remaining_time": "0:11:54"}
+{"current_steps": 1120, "total_steps": 1141, "loss": 0.3858, "lr": 4.5361368569301064e-08, "epoch": 6.874743326488707, "percentage": 98.16, "elapsed_time": "8:33:12", "remaining_time": "0:09:37"}
+{"current_steps": 1125, "total_steps": 1141, "loss": 0.3768, "lr": 2.7089737779142365e-08, "epoch": 6.905544147843942, "percentage": 98.6, "elapsed_time": "8:35:25", "remaining_time": "0:07:19"}
+{"current_steps": 1130, "total_steps": 1141, "loss": 0.3827, "lr": 1.349953015872707e-08, "epoch": 6.936344969199179, "percentage": 99.04, "elapsed_time": "8:37:44", "remaining_time": "0:05:02"}
+{"current_steps": 1135, "total_steps": 1141, "loss": 0.375, "lr": 4.593931098262338e-09, "epoch": 6.967145790554415, "percentage": 99.47, "elapsed_time": "8:39:52", "remaining_time": "0:02:44"}
+{"current_steps": 1140, "total_steps": 1141, "loss": 0.3802, "lr": 3.7502796895516615e-10, "epoch": 6.997946611909651, "percentage": 99.91, "elapsed_time": "8:42:07", "remaining_time": "0:00:27"}
+{"current_steps": 1141, "total_steps": 1141, "epoch": 7.0, "percentage": 100.0, "elapsed_time": "8:42:25", "remaining_time": "0:00:00"}
+{"current_steps": 1141, "total_steps": 1141, "epoch": 7.0, "percentage": 100.0, "elapsed_time": "0:00:00", "remaining_time": "0:00:00"}
+{"current_steps": 1141, "total_steps": 1141, "epoch": 7.0, "percentage": 100.0, "elapsed_time": "0:00:00", "remaining_time": "0:00:00"}
+{"current_steps": 1141, "total_steps": 1141, "epoch": 7.0, "percentage": 100.0, "elapsed_time": "0:00:00", "remaining_time": "0:00:00"}
+{"current_steps": 1141, "total_steps": 1141, "epoch": 7.0, "percentage": 100.0, "elapsed_time": "0:00:00", "remaining_time": "0:00:00"}
+{"current_steps": 1141, "total_steps": 1141, "epoch": 7.0, "percentage": 100.0, "elapsed_time": "0:00:00", "remaining_time": "0:00:00"}
--- a/trainer_state.json
+++ b/trainer_state.json
--- a/training_args.bin
+++ b/training_args.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5f3ee5e86155bcb7e0358e2287aaf24ffb6b4ab1381b1d61304c6cf3abeaa9c8
+size 8721
--- a/training_loss.png
+++ b/training_loss.png
--- a/vocab.json
+++ b/vocab.json