初始化项目，由ModelHub XC社区提供模型

Model: laion/nemotron-terminal-data_science__Qwen3-8B Source: Original Platform
2026-04-23 16:51:09 +08:00
commit 8bace1e8d1
23 changed files with 155538 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,36 @@
+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,61 @@
+---
+library_name: transformers
+license: other
+base_model: Qwen/Qwen3-8B
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: nemotron-data-science__Qwen3-8B
+  results: []
+---
+
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+
+# nemotron-data-science__Qwen3-8B
+
+This model is a fine-tuned version of [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B) on the /e/data1/datasets/playground/ot/hf_hub/datasets--laion--nemotron-terminal-data_science/snapshots/a640630fa901059c1da260b099511ab4a6a4c85c_thinking_preprocessed dataset.
+
+## Model description
+
+More information needed
+
+## Intended uses & limitations
+
+More information needed
+
+## Training and evaluation data
+
+More information needed
+
+## Training procedure
+
+### Training hyperparameters
+
+The following hyperparameters were used during training:
+- learning_rate: 4e-05
+- train_batch_size: 1
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 32
+- gradient_accumulation_steps: 3
+- total_train_batch_size: 96
+- total_eval_batch_size: 256
+- optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.98) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 7.0
+
+### Training results
+
+
+
+### Framework versions
+
+- Transformers 4.57.6
+- Pytorch 2.9.1+cu130
+- Datasets 4.7.0
+- Tokenizers 0.22.2
--- a/added_tokens.json
+++ b/added_tokens.json
@@ -0,0 +1,28 @@
+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}
--- a/all_results.json
+++ b/all_results.json
@@ -0,0 +1,16 @@
+{
+    "achieved_tflops_per_gpu": 133540.30800745945,
+    "achieved_tflops_per_gpu_theoretical": 3517471.584923777,
+    "epoch": 7.0,
+    "loss_nan_ranks": 0,
+    "loss_rank_avg": 0.0995836853981018,
+    "mfu_percent": 9437.477597700316,
+    "mfu_percent_theoretical": 248584.56430556727,
+    "total_flos": 5.272385024627311e+18,
+    "train_loss": 0.0,
+    "train_runtime": 1.2338,
+    "train_samples_per_second": 99654.386,
+    "train_steps_per_second": 1038.244,
+    "valid_targets_mean": 9513.1,
+    "valid_targets_min": 3270
+}
--- a/chat_template.jinja
+++ b/chat_template.jinja
@@ -0,0 +1,89 @@
+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}
--- a/config.json
+++ b/config.json
@@ -0,0 +1,68 @@
+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12288,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 40960,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "pad_token_id": 151643,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "transformers_version": "4.57.6",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,12 @@
+{
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.6,
+  "top_k": 20,
+  "top_p": 0.95,
+  "transformers_version": "4.57.6"
+}
--- a/merges.txt
+++ b/merges.txt
--- a/model-00001-of-00004.safetensors
+++ b/model-00001-of-00004.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:25f4fac91e9764b6097cdfec4c88fbbfdf7e4d6a8830f3d4e64e7ec75a3a147c
+size 4902257696
--- a/model-00002-of-00004.safetensors
+++ b/model-00002-of-00004.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e41f911d6192529408972d2963eef59d595e3e2187723fdc728f901c4c421b4e
+size 4915960368
--- a/model-00003-of-00004.safetensors
+++ b/model-00003-of-00004.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f8e9f8268499d966614e437bdd5cfd9b6d35a769ff53bdadbb747689734cae92
+size 4983068496
--- a/model-00004-of-00004.safetensors
+++ b/model-00004-of-00004.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d7f5c518335b9065e908ee23a678442284a484393c23eb131d1ee68041065096
+size 1580230264
--- a/model.safetensors.index.json
+++ b/model.safetensors.index.json
@@ -0,0 +1,407 @@
+{
+  "metadata": {
+    "total_parameters": 308224,
+    "total_size": 16381470720
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.k_norm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.norm.weight": "model-00004-of-00004.safetensors"
+  }
+}
--- a/run_summary.json
+++ b/run_summary.json
@@ -0,0 +1,12 @@
+{
+  "agent_name": "a640630fa901059c1da260b099511ab4a6a4c85c_thinking_preprocessed",
+  "training_start": null,
+  "training_end": null,
+  "created_by": "DCAgent",
+  "base_model_name": "Qwen/Qwen3-8B",
+  "dataset_name": "/e/data1/datasets/playground/ot/hf_hub/datasets--laion--nemotron-terminal-data_science/snapshots/a640630fa901059c1da260b099511ab4a6a4c85c_thinking_preprocessed",
+  "training_type": "SFT",
+  "training_parameters": "https://huggingface.co/laion/nemotron-terminal-data_science__Qwen3-8B/blob/main/config.json",
+  "wandb_link": null,
+  "traces_location_s3": null
+}
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,31 @@
+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}
--- a/tokenizer.json
+++ b/tokenizer.json
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,240 @@
+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 32768,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}
--- a/train_results.json
+++ b/train_results.json
@@ -0,0 +1,12 @@
+{
+    "achieved_tflops_per_gpu": 133540.30800745945,
+    "achieved_tflops_per_gpu_theoretical": 3517471.584923777,
+    "epoch": 7.0,
+    "mfu_percent": 9437.477597700316,
+    "mfu_percent_theoretical": 248584.56430556727,
+    "total_flos": 5.272385024627311e+18,
+    "train_loss": 0.0,
+    "train_runtime": 1.2338,
+    "train_samples_per_second": 99654.386,
+    "train_steps_per_second": 1038.244
+}
--- a/trainer_log.jsonl
+++ b/trainer_log.jsonl
@@ -0,0 +1,260 @@
+{"current_steps": 5, "total_steps": 1281, "loss": 0.781, "lr": 1.2403100775193799e-06, "epoch": 0.0273224043715847, "percentage": 0.39, "elapsed_time": "0:02:20", "remaining_time": "9:59:13"}
+{"current_steps": 10, "total_steps": 1281, "loss": 0.7665, "lr": 2.790697674418605e-06, "epoch": 0.0546448087431694, "percentage": 0.78, "elapsed_time": "0:04:37", "remaining_time": "9:47:18"}
+{"current_steps": 15, "total_steps": 1281, "loss": 0.7206, "lr": 4.34108527131783e-06, "epoch": 0.08196721311475409, "percentage": 1.17, "elapsed_time": "0:06:41", "remaining_time": "9:24:47"}
+{"current_steps": 20, "total_steps": 1281, "loss": 0.6551, "lr": 5.891472868217055e-06, "epoch": 0.1092896174863388, "percentage": 1.56, "elapsed_time": "0:08:56", "remaining_time": "9:23:19"}
+{"current_steps": 25, "total_steps": 1281, "loss": 0.6161, "lr": 7.44186046511628e-06, "epoch": 0.1366120218579235, "percentage": 1.95, "elapsed_time": "0:11:04", "remaining_time": "9:16:05"}
+{"current_steps": 30, "total_steps": 1281, "loss": 0.5942, "lr": 8.992248062015505e-06, "epoch": 0.16393442622950818, "percentage": 2.34, "elapsed_time": "0:13:15", "remaining_time": "9:12:32"}
+{"current_steps": 35, "total_steps": 1281, "loss": 0.5691, "lr": 1.0542635658914731e-05, "epoch": 0.1912568306010929, "percentage": 2.73, "elapsed_time": "0:15:24", "remaining_time": "9:08:35"}
+{"current_steps": 40, "total_steps": 1281, "loss": 0.5515, "lr": 1.2093023255813954e-05, "epoch": 0.2185792349726776, "percentage": 3.12, "elapsed_time": "0:17:41", "remaining_time": "9:08:45"}
+{"current_steps": 45, "total_steps": 1281, "loss": 0.5309, "lr": 1.3643410852713179e-05, "epoch": 0.2459016393442623, "percentage": 3.51, "elapsed_time": "0:19:51", "remaining_time": "9:05:31"}
+{"current_steps": 50, "total_steps": 1281, "loss": 0.5012, "lr": 1.5193798449612405e-05, "epoch": 0.273224043715847, "percentage": 3.9, "elapsed_time": "0:22:02", "remaining_time": "9:02:38"}
+{"current_steps": 55, "total_steps": 1281, "loss": 0.5, "lr": 1.674418604651163e-05, "epoch": 0.3005464480874317, "percentage": 4.29, "elapsed_time": "0:24:17", "remaining_time": "9:01:30"}
+{"current_steps": 60, "total_steps": 1281, "loss": 0.473, "lr": 1.8294573643410854e-05, "epoch": 0.32786885245901637, "percentage": 4.68, "elapsed_time": "0:26:32", "remaining_time": "9:00:00"}
+{"current_steps": 65, "total_steps": 1281, "loss": 0.4613, "lr": 1.9844961240310078e-05, "epoch": 0.3551912568306011, "percentage": 5.07, "elapsed_time": "0:28:50", "remaining_time": "8:59:28"}
+{"current_steps": 70, "total_steps": 1281, "loss": 0.4435, "lr": 2.1395348837209303e-05, "epoch": 0.3825136612021858, "percentage": 5.46, "elapsed_time": "0:31:03", "remaining_time": "8:57:26"}
+{"current_steps": 75, "total_steps": 1281, "loss": 0.447, "lr": 2.294573643410853e-05, "epoch": 0.4098360655737705, "percentage": 5.85, "elapsed_time": "0:33:11", "remaining_time": "8:53:47"}
+{"current_steps": 80, "total_steps": 1281, "loss": 0.4181, "lr": 2.449612403100775e-05, "epoch": 0.4371584699453552, "percentage": 6.25, "elapsed_time": "0:35:31", "remaining_time": "8:53:23"}
+{"current_steps": 85, "total_steps": 1281, "loss": 0.4213, "lr": 2.604651162790698e-05, "epoch": 0.4644808743169399, "percentage": 6.64, "elapsed_time": "0:37:42", "remaining_time": "8:50:28"}
+{"current_steps": 90, "total_steps": 1281, "loss": 0.4103, "lr": 2.7596899224806204e-05, "epoch": 0.4918032786885246, "percentage": 7.03, "elapsed_time": "0:39:56", "remaining_time": "8:48:27"}
+{"current_steps": 95, "total_steps": 1281, "loss": 0.3985, "lr": 2.914728682170543e-05, "epoch": 0.5191256830601093, "percentage": 7.42, "elapsed_time": "0:42:09", "remaining_time": "8:46:21"}
+{"current_steps": 100, "total_steps": 1281, "loss": 0.3942, "lr": 3.0697674418604656e-05, "epoch": 0.546448087431694, "percentage": 7.81, "elapsed_time": "0:44:23", "remaining_time": "8:44:18"}
+{"current_steps": 105, "total_steps": 1281, "loss": 0.3951, "lr": 3.224806201550388e-05, "epoch": 0.5737704918032787, "percentage": 8.2, "elapsed_time": "0:46:38", "remaining_time": "8:42:20"}
+{"current_steps": 110, "total_steps": 1281, "loss": 0.3886, "lr": 3.37984496124031e-05, "epoch": 0.6010928961748634, "percentage": 8.59, "elapsed_time": "0:48:49", "remaining_time": "8:39:42"}
+{"current_steps": 115, "total_steps": 1281, "loss": 0.3856, "lr": 3.5348837209302326e-05, "epoch": 0.6284153005464481, "percentage": 8.98, "elapsed_time": "0:51:02", "remaining_time": "8:37:31"}
+{"current_steps": 120, "total_steps": 1281, "loss": 0.3767, "lr": 3.6899224806201554e-05, "epoch": 0.6557377049180327, "percentage": 9.37, "elapsed_time": "0:59:17", "remaining_time": "9:33:35"}
+{"current_steps": 125, "total_steps": 1281, "loss": 0.3824, "lr": 3.844961240310078e-05, "epoch": 0.6830601092896175, "percentage": 9.76, "elapsed_time": "1:01:24", "remaining_time": "9:27:50"}
+{"current_steps": 130, "total_steps": 1281, "loss": 0.3683, "lr": 4e-05, "epoch": 0.7103825136612022, "percentage": 10.15, "elapsed_time": "1:03:34", "remaining_time": "9:22:56"}
+{"current_steps": 135, "total_steps": 1281, "loss": 0.3741, "lr": 3.9998140791624865e-05, "epoch": 0.7377049180327869, "percentage": 10.54, "elapsed_time": "1:05:49", "remaining_time": "9:18:43"}
+{"current_steps": 140, "total_steps": 1281, "loss": 0.3706, "lr": 3.999256351216504e-05, "epoch": 0.7650273224043715, "percentage": 10.93, "elapsed_time": "1:08:03", "remaining_time": "9:14:41"}
+{"current_steps": 145, "total_steps": 1281, "loss": 0.3671, "lr": 3.9983269198552975e-05, "epoch": 0.7923497267759563, "percentage": 11.32, "elapsed_time": "1:10:15", "remaining_time": "9:10:23"}
+{"current_steps": 150, "total_steps": 1281, "loss": 0.3662, "lr": 3.9970259578795265e-05, "epoch": 0.819672131147541, "percentage": 11.71, "elapsed_time": "1:12:31", "remaining_time": "9:06:48"}
+{"current_steps": 155, "total_steps": 1281, "loss": 0.3593, "lr": 3.99535370716513e-05, "epoch": 0.8469945355191257, "percentage": 12.1, "elapsed_time": "1:14:47", "remaining_time": "9:03:17"}
+{"current_steps": 160, "total_steps": 1281, "loss": 0.364, "lr": 3.993310478618361e-05, "epoch": 0.8743169398907104, "percentage": 12.49, "elapsed_time": "1:16:52", "remaining_time": "8:58:36"}
+{"current_steps": 165, "total_steps": 1281, "loss": 0.3672, "lr": 3.990896652117983e-05, "epoch": 0.9016393442622951, "percentage": 12.88, "elapsed_time": "1:19:01", "remaining_time": "8:54:31"}
+{"current_steps": 170, "total_steps": 1281, "loss": 0.3617, "lr": 3.988112676444639e-05, "epoch": 0.9289617486338798, "percentage": 13.27, "elapsed_time": "1:21:13", "remaining_time": "8:50:47"}
+{"current_steps": 175, "total_steps": 1281, "loss": 0.3591, "lr": 3.9849590691974206e-05, "epoch": 0.9562841530054644, "percentage": 13.66, "elapsed_time": "1:23:24", "remaining_time": "8:47:10"}
+{"current_steps": 180, "total_steps": 1281, "loss": 0.3534, "lr": 3.981436416697625e-05, "epoch": 0.9836065573770492, "percentage": 14.05, "elapsed_time": "1:25:33", "remaining_time": "8:43:21"}
+{"current_steps": 185, "total_steps": 1281, "loss": 0.3574, "lr": 3.977545373879759e-05, "epoch": 1.010928961748634, "percentage": 14.44, "elapsed_time": "1:27:42", "remaining_time": "8:39:36"}
+{"current_steps": 190, "total_steps": 1281, "loss": 0.3478, "lr": 3.9732866641697586e-05, "epoch": 1.0382513661202186, "percentage": 14.83, "elapsed_time": "1:29:53", "remaining_time": "8:36:08"}
+{"current_steps": 195, "total_steps": 1281, "loss": 0.3517, "lr": 3.968661079350501e-05, "epoch": 1.0655737704918034, "percentage": 15.22, "elapsed_time": "1:32:01", "remaining_time": "8:32:30"}
+{"current_steps": 200, "total_steps": 1281, "loss": 0.3487, "lr": 3.963669479414591e-05, "epoch": 1.092896174863388, "percentage": 15.61, "elapsed_time": "1:34:17", "remaining_time": "8:29:39"}
+{"current_steps": 205, "total_steps": 1281, "loss": 0.3446, "lr": 3.958312792404468e-05, "epoch": 1.1202185792349726, "percentage": 16.0, "elapsed_time": "1:36:28", "remaining_time": "8:26:21"}
+{"current_steps": 210, "total_steps": 1281, "loss": 0.3477, "lr": 3.952592014239867e-05, "epoch": 1.1475409836065573, "percentage": 16.39, "elapsed_time": "1:38:40", "remaining_time": "8:23:12"}
+{"current_steps": 215, "total_steps": 1281, "loss": 0.3508, "lr": 3.946508208532656e-05, "epoch": 1.174863387978142, "percentage": 16.78, "elapsed_time": "1:40:52", "remaining_time": "8:20:07"}
+{"current_steps": 220, "total_steps": 1281, "loss": 0.3504, "lr": 3.940062506389089e-05, "epoch": 1.2021857923497268, "percentage": 17.17, "elapsed_time": "1:43:08", "remaining_time": "8:17:26"}
+{"current_steps": 225, "total_steps": 1281, "loss": 0.3513, "lr": 3.9332561061995036e-05, "epoch": 1.2295081967213115, "percentage": 17.56, "elapsed_time": "1:45:21", "remaining_time": "8:14:30"}
+{"current_steps": 230, "total_steps": 1281, "loss": 0.3414, "lr": 3.926090273415526e-05, "epoch": 1.2568306010928962, "percentage": 17.95, "elapsed_time": "1:47:38", "remaining_time": "8:11:53"}
+{"current_steps": 235, "total_steps": 1281, "loss": 0.3433, "lr": 3.918566340314788e-05, "epoch": 1.2841530054644807, "percentage": 18.35, "elapsed_time": "1:49:53", "remaining_time": "8:09:09"}
+{"current_steps": 240, "total_steps": 1281, "loss": 0.3472, "lr": 3.910685705753233e-05, "epoch": 1.3114754098360657, "percentage": 18.74, "elapsed_time": "1:51:55", "remaining_time": "8:05:27"}
+{"current_steps": 245, "total_steps": 1281, "loss": 0.3477, "lr": 3.9024498349050385e-05, "epoch": 1.3387978142076502, "percentage": 19.13, "elapsed_time": "1:54:06", "remaining_time": "8:02:31"}
+{"current_steps": 250, "total_steps": 1281, "loss": 0.3324, "lr": 3.893860258990212e-05, "epoch": 1.366120218579235, "percentage": 19.52, "elapsed_time": "1:56:16", "remaining_time": "7:59:32"}
+{"current_steps": 255, "total_steps": 1281, "loss": 0.3367, "lr": 3.8849185749898996e-05, "epoch": 1.3934426229508197, "percentage": 19.91, "elapsed_time": "1:58:32", "remaining_time": "7:56:55"}
+{"current_steps": 260, "total_steps": 1281, "loss": 0.3382, "lr": 3.87562644534948e-05, "epoch": 1.4207650273224044, "percentage": 20.3, "elapsed_time": "2:00:44", "remaining_time": "7:54:10"}
+{"current_steps": 265, "total_steps": 1281, "loss": 0.3427, "lr": 3.865985597669478e-05, "epoch": 1.4480874316939891, "percentage": 20.69, "elapsed_time": "2:02:57", "remaining_time": "7:51:24"}
+{"current_steps": 270, "total_steps": 1281, "loss": 0.3433, "lr": 3.855997824384369e-05, "epoch": 1.4754098360655736, "percentage": 21.08, "elapsed_time": "2:05:07", "remaining_time": "7:48:30"}
+{"current_steps": 275, "total_steps": 1281, "loss": 0.3363, "lr": 3.845664982429328e-05, "epoch": 1.5027322404371586, "percentage": 21.47, "elapsed_time": "2:07:20", "remaining_time": "7:45:48"}
+{"current_steps": 280, "total_steps": 1281, "loss": 0.3319, "lr": 3.834988992894983e-05, "epoch": 1.530054644808743, "percentage": 21.86, "elapsed_time": "2:09:32", "remaining_time": "7:43:08"}
+{"current_steps": 285, "total_steps": 1281, "loss": 0.3387, "lr": 3.823971840670251e-05, "epoch": 1.5573770491803278, "percentage": 22.25, "elapsed_time": "2:11:39", "remaining_time": "7:40:07"}
+{"current_steps": 290, "total_steps": 1281, "loss": 0.3377, "lr": 3.812615574073301e-05, "epoch": 1.5846994535519126, "percentage": 22.64, "elapsed_time": "2:13:52", "remaining_time": "7:37:28"}
+{"current_steps": 295, "total_steps": 1281, "loss": 0.3313, "lr": 3.800922304470728e-05, "epoch": 1.6120218579234973, "percentage": 23.03, "elapsed_time": "2:16:02", "remaining_time": "7:34:43"}
+{"current_steps": 300, "total_steps": 1281, "loss": 0.3359, "lr": 3.7888942058850105e-05, "epoch": 1.639344262295082, "percentage": 23.42, "elapsed_time": "2:18:05", "remaining_time": "7:31:34"}
+{"current_steps": 305, "total_steps": 1281, "loss": 0.3301, "lr": 3.7765335145903124e-05, "epoch": 1.6666666666666665, "percentage": 23.81, "elapsed_time": "2:20:20", "remaining_time": "7:29:04"}
+{"current_steps": 310, "total_steps": 1281, "loss": 0.3322, "lr": 3.76384252869671e-05, "epoch": 1.6939890710382515, "percentage": 24.2, "elapsed_time": "2:22:31", "remaining_time": "7:26:26"}
+{"current_steps": 315, "total_steps": 1281, "loss": 0.3285, "lr": 3.750823607722931e-05, "epoch": 1.721311475409836, "percentage": 24.59, "elapsed_time": "2:24:40", "remaining_time": "7:23:38"}
+{"current_steps": 320, "total_steps": 1281, "loss": 0.3357, "lr": 3.737479172157665e-05, "epoch": 1.748633879781421, "percentage": 24.98, "elapsed_time": "2:26:53", "remaining_time": "7:21:09"}
+{"current_steps": 325, "total_steps": 1281, "loss": 0.3308, "lr": 3.723811703009549e-05, "epoch": 1.7759562841530054, "percentage": 25.37, "elapsed_time": "2:29:05", "remaining_time": "7:18:32"}
+{"current_steps": 330, "total_steps": 1281, "loss": 0.331, "lr": 3.709823741345894e-05, "epoch": 1.8032786885245902, "percentage": 25.76, "elapsed_time": "2:31:13", "remaining_time": "7:15:48"}
+{"current_steps": 335, "total_steps": 1281, "loss": 0.3274, "lr": 3.695517887820247e-05, "epoch": 1.830601092896175, "percentage": 26.15, "elapsed_time": "2:33:26", "remaining_time": "7:13:17"}
+{"current_steps": 340, "total_steps": 1281, "loss": 0.33, "lr": 3.680896802188876e-05, "epoch": 1.8579234972677594, "percentage": 26.54, "elapsed_time": "2:35:34", "remaining_time": "7:10:35"}
+{"current_steps": 345, "total_steps": 1281, "loss": 0.3296, "lr": 3.66596320281627e-05, "epoch": 1.8852459016393444, "percentage": 26.93, "elapsed_time": "2:37:46", "remaining_time": "7:08:01"}
+{"current_steps": 350, "total_steps": 1281, "loss": 0.3338, "lr": 3.6507198661697276e-05, "epoch": 1.9125683060109289, "percentage": 27.32, "elapsed_time": "2:39:56", "remaining_time": "7:05:26"}
+{"current_steps": 355, "total_steps": 1281, "loss": 0.3307, "lr": 3.635169626303168e-05, "epoch": 1.9398907103825138, "percentage": 27.71, "elapsed_time": "2:42:02", "remaining_time": "7:02:39"}
+{"current_steps": 360, "total_steps": 1281, "loss": 0.3345, "lr": 3.619315374330208e-05, "epoch": 1.9672131147540983, "percentage": 28.1, "elapsed_time": "2:43:59", "remaining_time": "6:59:33"}
+{"current_steps": 365, "total_steps": 1281, "loss": 0.3334, "lr": 3.603160057886655e-05, "epoch": 1.994535519125683, "percentage": 28.49, "elapsed_time": "2:46:08", "remaining_time": "6:56:56"}
+{"current_steps": 370, "total_steps": 1281, "loss": 0.3253, "lr": 3.586706680582471e-05, "epoch": 2.021857923497268, "percentage": 28.88, "elapsed_time": "2:48:18", "remaining_time": "6:54:24"}
+{"current_steps": 375, "total_steps": 1281, "loss": 0.321, "lr": 3.569958301443344e-05, "epoch": 2.0491803278688523, "percentage": 29.27, "elapsed_time": "2:50:29", "remaining_time": "6:51:53"}
+{"current_steps": 380, "total_steps": 1281, "loss": 0.3195, "lr": 3.552918034341952e-05, "epoch": 2.0765027322404372, "percentage": 29.66, "elapsed_time": "2:52:40", "remaining_time": "6:49:25"}
+{"current_steps": 385, "total_steps": 1281, "loss": 0.3288, "lr": 3.5355890474190244e-05, "epoch": 2.1038251366120218, "percentage": 30.05, "elapsed_time": "2:54:51", "remaining_time": "6:46:55"}
+{"current_steps": 390, "total_steps": 1281, "loss": 0.3231, "lr": 3.517974562494324e-05, "epoch": 2.1311475409836067, "percentage": 30.44, "elapsed_time": "2:57:02", "remaining_time": "6:44:27"}
+{"current_steps": 395, "total_steps": 1281, "loss": 0.3254, "lr": 3.5000778544676404e-05, "epoch": 2.158469945355191, "percentage": 30.84, "elapsed_time": "2:59:15", "remaining_time": "6:42:04"}
+{"current_steps": 400, "total_steps": 1281, "loss": 0.3217, "lr": 3.4819022507099184e-05, "epoch": 2.185792349726776, "percentage": 31.23, "elapsed_time": "3:01:18", "remaining_time": "6:39:20"}
+{"current_steps": 405, "total_steps": 1281, "loss": 0.324, "lr": 3.463451130444631e-05, "epoch": 2.2131147540983607, "percentage": 31.62, "elapsed_time": "3:03:32", "remaining_time": "6:36:59"}
+{"current_steps": 410, "total_steps": 1281, "loss": 0.328, "lr": 3.444727924119511e-05, "epoch": 2.240437158469945, "percentage": 32.01, "elapsed_time": "3:05:39", "remaining_time": "6:34:23"}
+{"current_steps": 415, "total_steps": 1281, "loss": 0.3169, "lr": 3.42573611276876e-05, "epoch": 2.26775956284153, "percentage": 32.4, "elapsed_time": "3:07:48", "remaining_time": "6:31:55"}
+{"current_steps": 420, "total_steps": 1281, "loss": 0.3226, "lr": 3.4064792273658494e-05, "epoch": 2.2950819672131146, "percentage": 32.79, "elapsed_time": "3:09:57", "remaining_time": "6:29:24"}
+{"current_steps": 425, "total_steps": 1281, "loss": 0.3197, "lr": 3.386960848167041e-05, "epoch": 2.3224043715846996, "percentage": 33.18, "elapsed_time": "3:12:10", "remaining_time": "6:27:04"}
+{"current_steps": 430, "total_steps": 1281, "loss": 0.3222, "lr": 3.367184604045743e-05, "epoch": 2.349726775956284, "percentage": 33.57, "elapsed_time": "3:14:22", "remaining_time": "6:24:40"}
+{"current_steps": 435, "total_steps": 1281, "loss": 0.3248, "lr": 3.347154171817825e-05, "epoch": 2.3770491803278686, "percentage": 33.96, "elapsed_time": "3:16:32", "remaining_time": "6:22:13"}
+{"current_steps": 440, "total_steps": 1281, "loss": 0.318, "lr": 3.3268732755580226e-05, "epoch": 2.4043715846994536, "percentage": 34.35, "elapsed_time": "3:18:41", "remaining_time": "6:19:47"}
+{"current_steps": 445, "total_steps": 1281, "loss": 0.3132, "lr": 3.306345685907553e-05, "epoch": 2.431693989071038, "percentage": 34.74, "elapsed_time": "3:20:52", "remaining_time": "6:17:22"}
+{"current_steps": 450, "total_steps": 1281, "loss": 0.3212, "lr": 3.285575219373079e-05, "epoch": 2.459016393442623, "percentage": 35.13, "elapsed_time": "3:23:02", "remaining_time": "6:14:57"}
+{"current_steps": 455, "total_steps": 1281, "loss": 0.3169, "lr": 3.264565737617132e-05, "epoch": 2.4863387978142075, "percentage": 35.52, "elapsed_time": "3:25:15", "remaining_time": "6:12:38"}
+{"current_steps": 460, "total_steps": 1281, "loss": 0.3269, "lr": 3.243321146740155e-05, "epoch": 2.5136612021857925, "percentage": 35.91, "elapsed_time": "3:27:23", "remaining_time": "6:10:09"}
+{"current_steps": 465, "total_steps": 1281, "loss": 0.3254, "lr": 3.2218453965542785e-05, "epoch": 2.540983606557377, "percentage": 36.3, "elapsed_time": "3:29:28", "remaining_time": "6:07:35"}
+{"current_steps": 470, "total_steps": 1281, "loss": 0.3179, "lr": 3.2001424798489625e-05, "epoch": 2.5683060109289615, "percentage": 36.69, "elapsed_time": "3:31:38", "remaining_time": "6:05:12"}
+{"current_steps": 475, "total_steps": 1281, "loss": 0.3152, "lr": 3.1782164316486566e-05, "epoch": 2.5956284153005464, "percentage": 37.08, "elapsed_time": "3:33:42", "remaining_time": "6:02:38"}
+{"current_steps": 480, "total_steps": 1281, "loss": 0.3165, "lr": 3.156071328462607e-05, "epoch": 2.6229508196721314, "percentage": 37.47, "elapsed_time": "3:35:52", "remaining_time": "6:00:14"}
+{"current_steps": 485, "total_steps": 1281, "loss": 0.3167, "lr": 3.1337112875269436e-05, "epoch": 2.650273224043716, "percentage": 37.86, "elapsed_time": "3:38:02", "remaining_time": "5:57:51"}
+{"current_steps": 490, "total_steps": 1281, "loss": 0.32, "lr": 3.111140466039205e-05, "epoch": 2.6775956284153004, "percentage": 38.25, "elapsed_time": "3:40:16", "remaining_time": "5:55:35"}
+{"current_steps": 495, "total_steps": 1281, "loss": 0.3131, "lr": 3.088363060385424e-05, "epoch": 2.7049180327868854, "percentage": 38.64, "elapsed_time": "3:42:19", "remaining_time": "5:53:01"}
+{"current_steps": 500, "total_steps": 1281, "loss": 0.3155, "lr": 3.065383305359938e-05, "epoch": 2.73224043715847, "percentage": 39.03, "elapsed_time": "3:44:19", "remaining_time": "5:50:24"}
+{"current_steps": 505, "total_steps": 1281, "loss": 0.3214, "lr": 3.0422054733780474e-05, "epoch": 2.7595628415300544, "percentage": 39.42, "elapsed_time": "3:46:26", "remaining_time": "5:47:57"}
+{"current_steps": 510, "total_steps": 1281, "loss": 0.3203, "lr": 3.018833873681684e-05, "epoch": 2.7868852459016393, "percentage": 39.81, "elapsed_time": "3:48:38", "remaining_time": "5:45:39"}
+{"current_steps": 515, "total_steps": 1281, "loss": 0.3125, "lr": 2.9952728515382383e-05, "epoch": 2.8142076502732243, "percentage": 40.2, "elapsed_time": "3:50:48", "remaining_time": "5:43:17"}
+{"current_steps": 520, "total_steps": 1281, "loss": 0.3167, "lr": 2.9715267874326805e-05, "epoch": 2.841530054644809, "percentage": 40.59, "elapsed_time": "3:53:00", "remaining_time": "5:41:00"}
+{"current_steps": 525, "total_steps": 1281, "loss": 0.3169, "lr": 2.947600096253136e-05, "epoch": 2.8688524590163933, "percentage": 40.98, "elapsed_time": "3:55:10", "remaining_time": "5:38:38"}
+{"current_steps": 530, "total_steps": 1281, "loss": 0.3138, "lr": 2.9234972264700687e-05, "epoch": 2.8961748633879782, "percentage": 41.37, "elapsed_time": "3:57:19", "remaining_time": "5:36:16"}
+{"current_steps": 535, "total_steps": 1281, "loss": 0.3133, "lr": 2.8992226593092135e-05, "epoch": 2.9234972677595628, "percentage": 41.76, "elapsed_time": "3:59:28", "remaining_time": "5:33:55"}
+{"current_steps": 540, "total_steps": 1281, "loss": 0.3165, "lr": 2.874780907918429e-05, "epoch": 2.9508196721311473, "percentage": 42.15, "elapsed_time": "4:01:41", "remaining_time": "5:31:39"}
+{"current_steps": 545, "total_steps": 1281, "loss": 0.3196, "lr": 2.8501765165286025e-05, "epoch": 2.978142076502732, "percentage": 42.54, "elapsed_time": "4:03:49", "remaining_time": "5:29:16"}
+{"current_steps": 550, "total_steps": 1281, "loss": 0.3094, "lr": 2.8254140596087897e-05, "epoch": 3.0054644808743167, "percentage": 42.94, "elapsed_time": "4:05:58", "remaining_time": "5:26:55"}
+{"current_steps": 555, "total_steps": 1281, "loss": 0.3079, "lr": 2.8004981410157187e-05, "epoch": 3.0327868852459017, "percentage": 43.33, "elapsed_time": "4:08:07", "remaining_time": "5:24:34"}
+{"current_steps": 560, "total_steps": 1281, "loss": 0.3004, "lr": 2.775433393137841e-05, "epoch": 3.060109289617486, "percentage": 43.72, "elapsed_time": "4:10:16", "remaining_time": "5:22:13"}
+{"current_steps": 565, "total_steps": 1281, "loss": 0.3089, "lr": 2.750224476034076e-05, "epoch": 3.087431693989071, "percentage": 44.11, "elapsed_time": "4:12:25", "remaining_time": "5:19:53"}
+{"current_steps": 570, "total_steps": 1281, "loss": 0.3132, "lr": 2.7248760765674033e-05, "epoch": 3.1147540983606556, "percentage": 44.5, "elapsed_time": "4:14:36", "remaining_time": "5:17:35"}
+{"current_steps": 575, "total_steps": 1281, "loss": 0.3057, "lr": 2.699392907533482e-05, "epoch": 3.1420765027322406, "percentage": 44.89, "elapsed_time": "4:16:37", "remaining_time": "5:15:04"}
+{"current_steps": 580, "total_steps": 1281, "loss": 0.3131, "lr": 2.6737797067844403e-05, "epoch": 3.169398907103825, "percentage": 45.28, "elapsed_time": "4:18:46", "remaining_time": "5:12:45"}
+{"current_steps": 585, "total_steps": 1281, "loss": 0.3096, "lr": 2.6480412363480138e-05, "epoch": 3.19672131147541, "percentage": 45.67, "elapsed_time": "4:20:57", "remaining_time": "5:10:28"}
+{"current_steps": 590, "total_steps": 1281, "loss": 0.3069, "lr": 2.6221822815421817e-05, "epoch": 3.2240437158469946, "percentage": 46.06, "elapsed_time": "4:23:08", "remaining_time": "5:08:11"}
+{"current_steps": 595, "total_steps": 1281, "loss": 0.3108, "lr": 2.5962076500854804e-05, "epoch": 3.251366120218579, "percentage": 46.45, "elapsed_time": "4:25:17", "remaining_time": "5:05:52"}
+{"current_steps": 600, "total_steps": 1281, "loss": 0.3088, "lr": 2.570122171203142e-05, "epoch": 3.278688524590164, "percentage": 46.84, "elapsed_time": "4:27:30", "remaining_time": "5:03:37"}
+{"current_steps": 605, "total_steps": 1281, "loss": 0.3072, "lr": 2.5439306947292485e-05, "epoch": 3.3060109289617485, "percentage": 47.23, "elapsed_time": "4:29:46", "remaining_time": "5:01:26"}
+{"current_steps": 610, "total_steps": 1281, "loss": 0.3192, "lr": 2.5176380902050418e-05, "epoch": 3.3333333333333335, "percentage": 47.62, "elapsed_time": "4:31:53", "remaining_time": "4:59:04"}
+{"current_steps": 615, "total_steps": 1281, "loss": 0.3062, "lr": 2.4912492459735752e-05, "epoch": 3.360655737704918, "percentage": 48.01, "elapsed_time": "4:34:06", "remaining_time": "4:56:50"}
+{"current_steps": 620, "total_steps": 1281, "loss": 0.3092, "lr": 2.4647690682708695e-05, "epoch": 3.387978142076503, "percentage": 48.4, "elapsed_time": "4:36:14", "remaining_time": "4:54:30"}
+{"current_steps": 625, "total_steps": 1281, "loss": 0.3114, "lr": 2.4382024803137396e-05, "epoch": 3.4153005464480874, "percentage": 48.79, "elapsed_time": "4:38:22", "remaining_time": "4:52:11"}
+{"current_steps": 630, "total_steps": 1281, "loss": 0.3066, "lr": 2.41155442138447e-05, "epoch": 3.442622950819672, "percentage": 49.18, "elapsed_time": "4:40:32", "remaining_time": "4:49:53"}
+{"current_steps": 635, "total_steps": 1281, "loss": 0.3131, "lr": 2.384829845912494e-05, "epoch": 3.469945355191257, "percentage": 49.57, "elapsed_time": "4:42:40", "remaining_time": "4:47:34"}
+{"current_steps": 640, "total_steps": 1281, "loss": 0.3071, "lr": 2.3580337225532663e-05, "epoch": 3.4972677595628414, "percentage": 49.96, "elapsed_time": "4:44:49", "remaining_time": "4:45:16"}
+{"current_steps": 645, "total_steps": 1281, "loss": 0.3139, "lr": 2.331171033264482e-05, "epoch": 3.5245901639344264, "percentage": 50.35, "elapsed_time": "4:46:58", "remaining_time": "4:42:58"}
+{"current_steps": 650, "total_steps": 1281, "loss": 0.3081, "lr": 2.3042467723798335e-05, "epoch": 3.551912568306011, "percentage": 50.74, "elapsed_time": "4:49:09", "remaining_time": "4:40:42"}
+{"current_steps": 655, "total_steps": 1281, "loss": 0.3129, "lr": 2.2772659456804537e-05, "epoch": 3.579234972677596, "percentage": 51.13, "elapsed_time": "4:51:24", "remaining_time": "4:38:30"}
+{"current_steps": 660, "total_steps": 1281, "loss": 0.3107, "lr": 2.2502335694642388e-05, "epoch": 3.6065573770491803, "percentage": 51.52, "elapsed_time": "4:53:30", "remaining_time": "4:36:10"}
+{"current_steps": 665, "total_steps": 1281, "loss": 0.3085, "lr": 2.223154669613215e-05, "epoch": 3.633879781420765, "percentage": 51.91, "elapsed_time": "4:55:41", "remaining_time": "4:33:54"}
+{"current_steps": 670, "total_steps": 1281, "loss": 0.3104, "lr": 2.196034280659122e-05, "epoch": 3.66120218579235, "percentage": 52.3, "elapsed_time": "4:57:54", "remaining_time": "4:31:40"}
+{"current_steps": 675, "total_steps": 1281, "loss": 0.3109, "lr": 2.1688774448473863e-05, "epoch": 3.6885245901639343, "percentage": 52.69, "elapsed_time": "5:00:03", "remaining_time": "4:29:23"}
+{"current_steps": 680, "total_steps": 1281, "loss": 0.3029, "lr": 2.1416892111996685e-05, "epoch": 3.7158469945355193, "percentage": 53.08, "elapsed_time": "5:02:13", "remaining_time": "4:27:07"}
+{"current_steps": 685, "total_steps": 1281, "loss": 0.3104, "lr": 2.114474634575138e-05, "epoch": 3.7431693989071038, "percentage": 53.47, "elapsed_time": "5:04:13", "remaining_time": "4:24:42"}
+{"current_steps": 690, "total_steps": 1281, "loss": 0.3151, "lr": 2.0872387747306725e-05, "epoch": 3.7704918032786887, "percentage": 53.86, "elapsed_time": "5:06:24", "remaining_time": "4:22:26"}
+{"current_steps": 695, "total_steps": 1281, "loss": 0.3037, "lr": 2.0599866953801456e-05, "epoch": 3.797814207650273, "percentage": 54.25, "elapsed_time": "5:08:35", "remaining_time": "4:20:11"}
+{"current_steps": 700, "total_steps": 1281, "loss": 0.3125, "lr": 2.0327234632529738e-05, "epoch": 3.8251366120218577, "percentage": 54.64, "elapsed_time": "5:10:46", "remaining_time": "4:17:56"}
+{"current_steps": 705, "total_steps": 1281, "loss": 0.3088, "lr": 2.005454147152108e-05, "epoch": 3.8524590163934427, "percentage": 55.04, "elapsed_time": "5:12:49", "remaining_time": "4:15:34"}
+{"current_steps": 710, "total_steps": 1281, "loss": 0.3014, "lr": 1.9781838170116357e-05, "epoch": 3.879781420765027, "percentage": 55.43, "elapsed_time": "5:14:59", "remaining_time": "4:13:19"}
+{"current_steps": 715, "total_steps": 1281, "loss": 0.31, "lr": 1.950917542954176e-05, "epoch": 3.907103825136612, "percentage": 55.82, "elapsed_time": "5:17:08", "remaining_time": "4:11:02"}
+{"current_steps": 720, "total_steps": 1281, "loss": 0.3022, "lr": 1.923660394348237e-05, "epoch": 3.9344262295081966, "percentage": 56.21, "elapsed_time": "5:19:19", "remaining_time": "4:08:48"}
+{"current_steps": 725, "total_steps": 1281, "loss": 0.312, "lr": 1.8964174388657167e-05, "epoch": 3.9617486338797816, "percentage": 56.6, "elapsed_time": "5:21:34", "remaining_time": "4:06:36"}
+{"current_steps": 730, "total_steps": 1281, "loss": 0.306, "lr": 1.869193741539714e-05, "epoch": 3.989071038251366, "percentage": 56.99, "elapsed_time": "5:23:43", "remaining_time": "4:04:20"}
+{"current_steps": 735, "total_steps": 1281, "loss": 0.3005, "lr": 1.8419943638228362e-05, "epoch": 4.016393442622951, "percentage": 57.38, "elapsed_time": "5:25:51", "remaining_time": "4:02:03"}
+{"current_steps": 740, "total_steps": 1281, "loss": 0.3077, "lr": 1.8148243626461693e-05, "epoch": 4.043715846994536, "percentage": 57.77, "elapsed_time": "5:27:57", "remaining_time": "3:59:45"}
+{"current_steps": 745, "total_steps": 1281, "loss": 0.3051, "lr": 1.7876887894790856e-05, "epoch": 4.0710382513661205, "percentage": 58.16, "elapsed_time": "5:30:06", "remaining_time": "3:57:29"}
+{"current_steps": 750, "total_steps": 1281, "loss": 0.3073, "lr": 1.7605926893900755e-05, "epoch": 4.098360655737705, "percentage": 58.55, "elapsed_time": "5:32:13", "remaining_time": "3:55:13"}
+{"current_steps": 755, "total_steps": 1281, "loss": 0.3029, "lr": 1.7335411001087604e-05, "epoch": 4.1256830601092895, "percentage": 58.94, "elapsed_time": "5:34:23", "remaining_time": "3:52:57"}
+{"current_steps": 760, "total_steps": 1281, "loss": 0.3062, "lr": 1.7065390510892767e-05, "epoch": 4.1530054644808745, "percentage": 59.33, "elapsed_time": "5:36:27", "remaining_time": "3:50:39"}
+{"current_steps": 765, "total_steps": 1281, "loss": 0.3033, "lr": 1.6795915625751916e-05, "epoch": 4.180327868852459, "percentage": 59.72, "elapsed_time": "5:38:36", "remaining_time": "3:48:23"}
+{"current_steps": 770, "total_steps": 1281, "loss": 0.2986, "lr": 1.6527036446661396e-05, "epoch": 4.2076502732240435, "percentage": 60.11, "elapsed_time": "5:40:40", "remaining_time": "3:46:05"}
+{"current_steps": 775, "total_steps": 1281, "loss": 0.3002, "lr": 1.625880296386336e-05, "epoch": 4.2349726775956285, "percentage": 60.5, "elapsed_time": "5:42:49", "remaining_time": "3:43:50"}
+{"current_steps": 780, "total_steps": 1281, "loss": 0.3031, "lr": 1.599126504755159e-05, "epoch": 4.262295081967213, "percentage": 60.89, "elapsed_time": "5:44:56", "remaining_time": "3:41:33"}
+{"current_steps": 785, "total_steps": 1281, "loss": 0.2994, "lr": 1.5724472438599554e-05, "epoch": 4.2896174863387975, "percentage": 61.28, "elapsed_time": "5:47:06", "remaining_time": "3:39:19"}
+{"current_steps": 790, "total_steps": 1281, "loss": 0.3035, "lr": 1.545847473931254e-05, "epoch": 4.316939890710382, "percentage": 61.67, "elapsed_time": "5:49:10", "remaining_time": "3:37:01"}
+{"current_steps": 795, "total_steps": 1281, "loss": 0.3026, "lr": 1.5193321404205583e-05, "epoch": 4.344262295081967, "percentage": 62.06, "elapsed_time": "5:51:25", "remaining_time": "3:34:49"}
+{"current_steps": 800, "total_steps": 1281, "loss": 0.3026, "lr": 1.4929061730808813e-05, "epoch": 4.371584699453552, "percentage": 62.45, "elapsed_time": "5:53:34", "remaining_time": "3:32:35"}
+{"current_steps": 805, "total_steps": 1281, "loss": 0.2991, "lr": 1.4665744850502035e-05, "epoch": 4.398907103825136, "percentage": 62.84, "elapsed_time": "5:55:46", "remaining_time": "3:30:22"}
+{"current_steps": 810, "total_steps": 1281, "loss": 0.3026, "lr": 1.4403419719380161e-05, "epoch": 4.426229508196721, "percentage": 63.23, "elapsed_time": "5:57:53", "remaining_time": "3:28:06"}
+{"current_steps": 815, "total_steps": 1281, "loss": 0.3018, "lr": 1.4142135109151273e-05, "epoch": 4.453551912568306, "percentage": 63.62, "elapsed_time": "6:00:03", "remaining_time": "3:25:52"}
+{"current_steps": 820, "total_steps": 1281, "loss": 0.3029, "lr": 1.388193959806893e-05, "epoch": 4.48087431693989, "percentage": 64.01, "elapsed_time": "6:02:09", "remaining_time": "3:23:36"}
+{"current_steps": 825, "total_steps": 1281, "loss": 0.3017, "lr": 1.3622881561900476e-05, "epoch": 4.508196721311475, "percentage": 64.4, "elapsed_time": "6:04:24", "remaining_time": "3:21:25"}
+{"current_steps": 830, "total_steps": 1281, "loss": 0.3091, "lr": 1.3365009164932964e-05, "epoch": 4.53551912568306, "percentage": 64.79, "elapsed_time": "6:06:27", "remaining_time": "3:19:07"}
+{"current_steps": 835, "total_steps": 1281, "loss": 0.2992, "lr": 1.3108370351018393e-05, "epoch": 4.562841530054644, "percentage": 65.18, "elapsed_time": "6:08:37", "remaining_time": "3:16:53"}
+{"current_steps": 840, "total_steps": 1281, "loss": 0.303, "lr": 1.285301283466e-05, "epoch": 4.590163934426229, "percentage": 65.57, "elapsed_time": "6:10:45", "remaining_time": "3:14:38"}
+{"current_steps": 845, "total_steps": 1281, "loss": 0.3033, "lr": 1.2598984092141083e-05, "epoch": 4.617486338797814, "percentage": 65.96, "elapsed_time": "6:12:57", "remaining_time": "3:12:26"}
+{"current_steps": 850, "total_steps": 1281, "loss": 0.2985, "lr": 1.2346331352698206e-05, "epoch": 4.644808743169399, "percentage": 66.35, "elapsed_time": "6:15:13", "remaining_time": "3:10:15"}
+{"current_steps": 855, "total_steps": 1281, "loss": 0.3015, "lr": 1.2095101589740291e-05, "epoch": 4.672131147540983, "percentage": 66.74, "elapsed_time": "6:17:22", "remaining_time": "3:08:01"}
+{"current_steps": 860, "total_steps": 1281, "loss": 0.3034, "lr": 1.1845341512115267e-05, "epoch": 4.699453551912568, "percentage": 67.14, "elapsed_time": "6:19:29", "remaining_time": "3:05:46"}
+{"current_steps": 865, "total_steps": 1281, "loss": 0.3059, "lr": 1.1597097555425954e-05, "epoch": 4.726775956284153, "percentage": 67.53, "elapsed_time": "6:21:31", "remaining_time": "3:03:28"}
+{"current_steps": 870, "total_steps": 1281, "loss": 0.298, "lr": 1.1350415873396673e-05, "epoch": 4.754098360655737, "percentage": 67.92, "elapsed_time": "6:23:41", "remaining_time": "3:01:15"}
+{"current_steps": 875, "total_steps": 1281, "loss": 0.2986, "lr": 1.1105342329292368e-05, "epoch": 4.781420765027322, "percentage": 68.31, "elapsed_time": "6:25:47", "remaining_time": "2:59:00"}
+{"current_steps": 880, "total_steps": 1281, "loss": 0.3036, "lr": 1.0861922487391588e-05, "epoch": 4.808743169398907, "percentage": 68.7, "elapsed_time": "6:27:58", "remaining_time": "2:56:47"}
+{"current_steps": 885, "total_steps": 1281, "loss": 0.2988, "lr": 1.0620201604515225e-05, "epoch": 4.836065573770492, "percentage": 69.09, "elapsed_time": "6:30:09", "remaining_time": "2:54:34"}
+{"current_steps": 890, "total_steps": 1281, "loss": 0.3092, "lr": 1.0380224621612252e-05, "epoch": 4.863387978142076, "percentage": 69.48, "elapsed_time": "6:32:19", "remaining_time": "2:52:21"}
+{"current_steps": 895, "total_steps": 1281, "loss": 0.2958, "lr": 1.0142036155404322e-05, "epoch": 4.890710382513661, "percentage": 69.87, "elapsed_time": "6:34:20", "remaining_time": "2:50:04"}
+{"current_steps": 900, "total_steps": 1281, "loss": 0.3014, "lr": 9.905680490090557e-06, "epoch": 4.918032786885246, "percentage": 70.26, "elapsed_time": "6:36:28", "remaining_time": "2:47:50"}
+{"current_steps": 905, "total_steps": 1281, "loss": 0.3004, "lr": 9.671201569114213e-06, "epoch": 4.945355191256831, "percentage": 70.65, "elapsed_time": "6:38:47", "remaining_time": "2:45:40"}
+{"current_steps": 910, "total_steps": 1281, "loss": 0.3017, "lr": 9.438642986992641e-06, "epoch": 4.972677595628415, "percentage": 71.04, "elapsed_time": "6:40:55", "remaining_time": "2:43:27"}
+{"current_steps": 915, "total_steps": 1281, "loss": 0.3005, "lr": 9.20804798121221e-06, "epoch": 5.0, "percentage": 71.43, "elapsed_time": "6:43:05", "remaining_time": "2:41:14"}
+{"current_steps": 920, "total_steps": 1281, "loss": 0.3005, "lr": 8.979459424189525e-06, "epoch": 5.027322404371585, "percentage": 71.82, "elapsed_time": "6:45:15", "remaining_time": "2:39:01"}
+{"current_steps": 925, "total_steps": 1281, "loss": 0.3, "lr": 8.752919815300541e-06, "epoch": 5.054644808743169, "percentage": 72.21, "elapsed_time": "6:47:19", "remaining_time": "2:36:45"}
+{"current_steps": 930, "total_steps": 1281, "loss": 0.3006, "lr": 8.528471272979083e-06, "epoch": 5.081967213114754, "percentage": 72.6, "elapsed_time": "6:49:25", "remaining_time": "2:34:31"}
+{"current_steps": 935, "total_steps": 1281, "loss": 0.3012, "lr": 8.30615552688611e-06, "epoch": 5.109289617486339, "percentage": 72.99, "elapsed_time": "6:51:29", "remaining_time": "2:32:16"}
+{"current_steps": 940, "total_steps": 1281, "loss": 0.2989, "lr": 8.086013910151334e-06, "epoch": 5.136612021857924, "percentage": 73.38, "elapsed_time": "6:53:31", "remaining_time": "2:30:00"}
+{"current_steps": 945, "total_steps": 1281, "loss": 0.2981, "lr": 7.868087351688508e-06, "epoch": 5.163934426229508, "percentage": 73.77, "elapsed_time": "6:55:40", "remaining_time": "2:27:47"}
+{"current_steps": 950, "total_steps": 1281, "loss": 0.3008, "lr": 7.652416368585904e-06, "epoch": 5.191256830601093, "percentage": 74.16, "elapsed_time": "6:57:49", "remaining_time": "2:25:34"}
+{"current_steps": 955, "total_steps": 1281, "loss": 0.3038, "lr": 7.4390410585733176e-06, "epoch": 5.218579234972678, "percentage": 74.55, "elapsed_time": "7:00:00", "remaining_time": "2:23:22"}
+{"current_steps": 960, "total_steps": 1281, "loss": 0.2949, "lr": 7.228001092567094e-06, "epoch": 5.245901639344262, "percentage": 74.94, "elapsed_time": "7:02:08", "remaining_time": "2:21:09"}
+{"current_steps": 965, "total_steps": 1281, "loss": 0.2972, "lr": 7.01933570729447e-06, "epoch": 5.273224043715847, "percentage": 75.33, "elapsed_time": "7:04:19", "remaining_time": "2:18:57"}
+{"current_steps": 970, "total_steps": 1281, "loss": 0.3004, "lr": 6.8130836979986236e-06, "epoch": 5.300546448087432, "percentage": 75.72, "elapsed_time": "7:06:32", "remaining_time": "2:16:45"}
+{"current_steps": 975, "total_steps": 1281, "loss": 0.3033, "lr": 6.609283411225873e-06, "epoch": 5.327868852459017, "percentage": 76.11, "elapsed_time": "7:08:39", "remaining_time": "2:14:32"}
+{"current_steps": 980, "total_steps": 1281, "loss": 0.2984, "lr": 6.407972737696211e-06, "epoch": 5.355191256830601, "percentage": 76.5, "elapsed_time": "7:10:47", "remaining_time": "2:12:18"}
+{"current_steps": 985, "total_steps": 1281, "loss": 0.3033, "lr": 6.209189105258661e-06, "epoch": 5.382513661202186, "percentage": 76.89, "elapsed_time": "7:12:56", "remaining_time": "2:10:06"}
+{"current_steps": 990, "total_steps": 1281, "loss": 0.2998, "lr": 6.012969471932657e-06, "epoch": 5.409836065573771, "percentage": 77.28, "elapsed_time": "7:15:03", "remaining_time": "2:07:52"}
+{"current_steps": 995, "total_steps": 1281, "loss": 0.2918, "lr": 5.819350319036765e-06, "epoch": 5.437158469945355, "percentage": 77.67, "elapsed_time": "7:17:14", "remaining_time": "2:05:40"}
+{"current_steps": 1000, "total_steps": 1281, "loss": 0.2944, "lr": 5.628367644406039e-06, "epoch": 5.46448087431694, "percentage": 78.06, "elapsed_time": "7:19:24", "remaining_time": "2:03:28"}
+{"current_steps": 1005, "total_steps": 1281, "loss": 0.2939, "lr": 5.440056955699304e-06, "epoch": 5.491803278688525, "percentage": 78.45, "elapsed_time": "7:21:31", "remaining_time": "2:01:15"}
+{"current_steps": 1010, "total_steps": 1281, "loss": 0.2983, "lr": 5.254453263797521e-06, "epoch": 5.51912568306011, "percentage": 78.84, "elapsed_time": "7:23:41", "remaining_time": "1:59:02"}
+{"current_steps": 1015, "total_steps": 1281, "loss": 0.3021, "lr": 5.0715910762945245e-06, "epoch": 5.546448087431694, "percentage": 79.23, "elapsed_time": "7:25:56", "remaining_time": "1:56:52"}
+{"current_steps": 1020, "total_steps": 1281, "loss": 0.2891, "lr": 4.8915043910813745e-06, "epoch": 5.573770491803279, "percentage": 79.63, "elapsed_time": "7:28:07", "remaining_time": "1:54:39"}
+{"current_steps": 1025, "total_steps": 1281, "loss": 0.2968, "lr": 4.7142266900254006e-06, "epoch": 5.601092896174864, "percentage": 80.02, "elapsed_time": "7:30:16", "remaining_time": "1:52:27"}
+{"current_steps": 1030, "total_steps": 1281, "loss": 0.2994, "lr": 4.53979093274526e-06, "epoch": 5.628415300546449, "percentage": 80.41, "elapsed_time": "7:32:26", "remaining_time": "1:50:15"}
+{"current_steps": 1035, "total_steps": 1281, "loss": 0.3026, "lr": 4.3682295504830474e-06, "epoch": 5.655737704918033, "percentage": 80.8, "elapsed_time": "7:34:37", "remaining_time": "1:48:03"}
+{"current_steps": 1040, "total_steps": 1281, "loss": 0.2976, "lr": 4.199574440074623e-06, "epoch": 5.683060109289618, "percentage": 81.19, "elapsed_time": "7:36:49", "remaining_time": "1:45:51"}
+{"current_steps": 1045, "total_steps": 1281, "loss": 0.2997, "lr": 4.033856958019371e-06, "epoch": 5.7103825136612025, "percentage": 81.58, "elapsed_time": "7:38:59", "remaining_time": "1:43:39"}
+{"current_steps": 1050, "total_steps": 1281, "loss": 0.303, "lr": 3.8711079146503474e-06, "epoch": 5.737704918032787, "percentage": 81.97, "elapsed_time": "7:41:06", "remaining_time": "1:41:26"}
+{"current_steps": 1055, "total_steps": 1281, "loss": 0.2935, "lr": 3.7113575684060045e-06, "epoch": 5.7650273224043715, "percentage": 82.36, "elapsed_time": "7:43:17", "remaining_time": "1:39:14"}
+{"current_steps": 1060, "total_steps": 1281, "loss": 0.298, "lr": 3.554635620204503e-06, "epoch": 5.7923497267759565, "percentage": 82.75, "elapsed_time": "7:45:28", "remaining_time": "1:37:02"}
+{"current_steps": 1065, "total_steps": 1281, "loss": 0.2952, "lr": 3.400971207921706e-06, "epoch": 5.8196721311475414, "percentage": 83.14, "elapsed_time": "7:47:33", "remaining_time": "1:34:49"}
+{"current_steps": 1070, "total_steps": 1281, "loss": 0.2973, "lr": 3.2503929009738443e-06, "epoch": 5.8469945355191255, "percentage": 83.53, "elapsed_time": "7:49:43", "remaining_time": "1:32:37"}
+{"current_steps": 1075, "total_steps": 1281, "loss": 0.3014, "lr": 3.102928695005858e-06, "epoch": 5.8743169398907105, "percentage": 83.92, "elapsed_time": "7:51:50", "remaining_time": "1:30:25"}
+{"current_steps": 1080, "total_steps": 1281, "loss": 0.3016, "lr": 2.9586060066864286e-06, "epoch": 5.901639344262295, "percentage": 84.31, "elapsed_time": "7:54:03", "remaining_time": "1:28:13"}
+{"current_steps": 1085, "total_steps": 1281, "loss": 0.2953, "lr": 2.8174516686106334e-06, "epoch": 5.9289617486338795, "percentage": 84.7, "elapsed_time": "7:56:12", "remaining_time": "1:26:01"}
+{"current_steps": 1090, "total_steps": 1281, "loss": 0.2939, "lr": 2.679491924311226e-06, "epoch": 5.956284153005464, "percentage": 85.09, "elapsed_time": "7:58:19", "remaining_time": "1:23:48"}
+{"current_steps": 1095, "total_steps": 1281, "loss": 0.2952, "lr": 2.5447524233794154e-06, "epoch": 5.983606557377049, "percentage": 85.48, "elapsed_time": "8:00:28", "remaining_time": "1:21:36"}
+{"current_steps": 1100, "total_steps": 1281, "loss": 0.2993, "lr": 2.4132582166960594e-06, "epoch": 6.0109289617486334, "percentage": 85.87, "elapsed_time": "8:02:42", "remaining_time": "1:19:25"}
+{"current_steps": 1105, "total_steps": 1281, "loss": 0.2953, "lr": 2.2850337517741926e-06, "epoch": 6.038251366120218, "percentage": 86.26, "elapsed_time": "8:04:52", "remaining_time": "1:17:13"}
+{"current_steps": 1110, "total_steps": 1281, "loss": 0.2982, "lr": 2.1601028682137184e-06, "epoch": 6.065573770491803, "percentage": 86.65, "elapsed_time": "8:07:00", "remaining_time": "1:15:01"}
+{"current_steps": 1115, "total_steps": 1281, "loss": 0.2962, "lr": 2.038488793269142e-06, "epoch": 6.092896174863388, "percentage": 87.04, "elapsed_time": "8:09:07", "remaining_time": "1:12:49"}
+{"current_steps": 1120, "total_steps": 1281, "loss": 0.2987, "lr": 1.9202141375311335e-06, "epoch": 6.120218579234972, "percentage": 87.43, "elapsed_time": "8:11:05", "remaining_time": "1:10:35"}
+{"current_steps": 1125, "total_steps": 1281, "loss": 0.2971, "lr": 1.8053008907227454e-06, "epoch": 6.147540983606557, "percentage": 87.82, "elapsed_time": "8:13:18", "remaining_time": "1:08:24"}
+{"current_steps": 1130, "total_steps": 1281, "loss": 0.3047, "lr": 1.6937704176110582e-06, "epoch": 6.174863387978142, "percentage": 88.21, "elapsed_time": "8:15:21", "remaining_time": "1:06:11"}
+{"current_steps": 1135, "total_steps": 1281, "loss": 0.2888, "lr": 1.5856434540350462e-06, "epoch": 6.202185792349727, "percentage": 88.6, "elapsed_time": "8:17:34", "remaining_time": "1:04:00"}
+{"current_steps": 1140, "total_steps": 1281, "loss": 0.2958, "lr": 1.4809401030503345e-06, "epoch": 6.229508196721311, "percentage": 88.99, "elapsed_time": "8:19:42", "remaining_time": "1:01:48"}
+{"current_steps": 1145, "total_steps": 1281, "loss": 0.2961, "lr": 1.3796798311916337e-06, "epoch": 6.256830601092896, "percentage": 89.38, "elapsed_time": "8:21:43", "remaining_time": "0:59:35"}
+{"current_steps": 1150, "total_steps": 1281, "loss": 0.2962, "lr": 1.2818814648534895e-06, "epoch": 6.284153005464481, "percentage": 89.77, "elapsed_time": "8:23:51", "remaining_time": "0:57:23"}
+{"current_steps": 1155, "total_steps": 1281, "loss": 0.2974, "lr": 1.187563186790075e-06, "epoch": 6.311475409836065, "percentage": 90.16, "elapsed_time": "8:25:58", "remaining_time": "0:55:11"}
+{"current_steps": 1160, "total_steps": 1281, "loss": 0.2923, "lr": 1.0967425327346447e-06, "epoch": 6.33879781420765, "percentage": 90.55, "elapsed_time": "8:28:08", "remaining_time": "0:53:00"}
+{"current_steps": 1165, "total_steps": 1281, "loss": 0.2925, "lr": 1.0094363881392665e-06, "epoch": 6.366120218579235, "percentage": 90.94, "elapsed_time": "8:30:15", "remaining_time": "0:50:48"}
+{"current_steps": 1170, "total_steps": 1281, "loss": 0.2969, "lr": 9.256609850354636e-07, "epoch": 6.39344262295082, "percentage": 91.33, "elapsed_time": "8:32:24", "remaining_time": "0:48:36"}
+{"current_steps": 1175, "total_steps": 1281, "loss": 0.2994, "lr": 8.45431899016338e-07, "epoch": 6.420765027322404, "percentage": 91.73, "elapsed_time": "8:34:29", "remaining_time": "0:46:24"}
+{"current_steps": 1180, "total_steps": 1281, "loss": 0.2936, "lr": 7.687640463407597e-07, "epoch": 6.448087431693989, "percentage": 92.12, "elapsed_time": "8:36:38", "remaining_time": "0:44:13"}
+{"current_steps": 1185, "total_steps": 1281, "loss": 0.2957, "lr": 6.956716811601106e-07, "epoch": 6.475409836065574, "percentage": 92.51, "elapsed_time": "8:38:46", "remaining_time": "0:42:01"}
+{"current_steps": 1190, "total_steps": 1281, "loss": 0.2948, "lr": 6.261683928681383e-07, "epoch": 6.502732240437158, "percentage": 92.9, "elapsed_time": "8:41:02", "remaining_time": "0:39:50"}
+{"current_steps": 1195, "total_steps": 1281, "loss": 0.2963, "lr": 5.602671035744123e-07, "epoch": 6.530054644808743, "percentage": 93.29, "elapsed_time": "8:43:14", "remaining_time": "0:37:39"}
+{"current_steps": 1200, "total_steps": 1281, "loss": 0.2996, "lr": 4.979800657018308e-07, "epoch": 6.557377049180328, "percentage": 93.68, "elapsed_time": "8:45:25", "remaining_time": "0:35:27"}
+{"current_steps": 1205, "total_steps": 1281, "loss": 0.29, "lr": 4.393188597086395e-07, "epoch": 6.584699453551913, "percentage": 94.07, "elapsed_time": "8:47:41", "remaining_time": "0:33:16"}
+{"current_steps": 1210, "total_steps": 1281, "loss": 0.2949, "lr": 3.842943919353914e-07, "epoch": 6.612021857923497, "percentage": 94.46, "elapsed_time": "8:49:51", "remaining_time": "0:31:05"}
+{"current_steps": 1215, "total_steps": 1281, "loss": 0.3004, "lr": 3.3291689257721526e-07, "epoch": 6.639344262295082, "percentage": 94.85, "elapsed_time": "8:52:03", "remaining_time": "0:28:54"}
+{"current_steps": 1220, "total_steps": 1281, "loss": 0.2948, "lr": 2.8519591378181944e-07, "epoch": 6.666666666666667, "percentage": 95.24, "elapsed_time": "8:54:15", "remaining_time": "0:26:42"}
+{"current_steps": 1225, "total_steps": 1281, "loss": 0.3015, "lr": 2.4114032787355246e-07, "epoch": 6.693989071038251, "percentage": 95.63, "elapsed_time": "8:56:16", "remaining_time": "0:24:30"}
+{"current_steps": 1230, "total_steps": 1281, "loss": 0.298, "lr": 2.0075832570384257e-07, "epoch": 6.721311475409836, "percentage": 96.02, "elapsed_time": "8:58:29", "remaining_time": "0:22:19"}
+{"current_steps": 1235, "total_steps": 1281, "loss": 0.2962, "lr": 1.6405741512835137e-07, "epoch": 6.748633879781421, "percentage": 96.41, "elapsed_time": "9:00:42", "remaining_time": "0:20:08"}
+{"current_steps": 1240, "total_steps": 1281, "loss": 0.2995, "lr": 1.310444196111127e-07, "epoch": 6.775956284153006, "percentage": 96.8, "elapsed_time": "9:02:53", "remaining_time": "0:17:57"}
+{"current_steps": 1245, "total_steps": 1281, "loss": 0.2992, "lr": 1.0172547695590062e-07, "epoch": 6.80327868852459, "percentage": 97.19, "elapsed_time": "9:05:09", "remaining_time": "0:15:45"}
+{"current_steps": 1250, "total_steps": 1281, "loss": 0.2947, "lr": 7.61060381650891e-08, "epoch": 6.830601092896175, "percentage": 97.58, "elapsed_time": "9:07:17", "remaining_time": "0:13:34"}
+{"current_steps": 1255, "total_steps": 1281, "loss": 0.2945, "lr": 5.4190866426195866e-08, "epoch": 6.85792349726776, "percentage": 97.97, "elapsed_time": "9:09:22", "remaining_time": "0:11:22"}
+{"current_steps": 1260, "total_steps": 1281, "loss": 0.2939, "lr": 3.59840362263042e-08, "epoch": 6.885245901639344, "percentage": 98.36, "elapsed_time": "9:11:27", "remaining_time": "0:09:11"}
+{"current_steps": 1265, "total_steps": 1281, "loss": 0.2965, "lr": 2.148893259453111e-08, "epoch": 6.912568306010929, "percentage": 98.75, "elapsed_time": "9:13:38", "remaining_time": "0:07:00"}
+{"current_steps": 1270, "total_steps": 1281, "loss": 0.2973, "lr": 1.070825047268631e-08, "epoch": 6.939890710382514, "percentage": 99.14, "elapsed_time": "9:15:46", "remaining_time": "0:04:48"}
+{"current_steps": 1275, "total_steps": 1281, "loss": 0.3026, "lr": 3.6439942142196815e-09, "epoch": 6.967213114754099, "percentage": 99.53, "elapsed_time": "9:17:56", "remaining_time": "0:02:37"}
+{"current_steps": 1280, "total_steps": 1281, "loss": 0.303, "lr": 2.974772115682534e-10, "epoch": 6.994535519125683, "percentage": 99.92, "elapsed_time": "9:20:04", "remaining_time": "0:00:26"}
+{"current_steps": 1281, "total_steps": 1281, "epoch": 7.0, "percentage": 100.0, "elapsed_time": "9:20:40", "remaining_time": "0:00:00"}
+{"current_steps": 1281, "total_steps": 1281, "epoch": 7.0, "percentage": 100.0, "elapsed_time": "0:00:00", "remaining_time": "0:00:00"}
+{"current_steps": 1281, "total_steps": 1281, "epoch": 7.0, "percentage": 100.0, "elapsed_time": "0:00:00", "remaining_time": "0:00:00"}
+{"current_steps": 1281, "total_steps": 1281, "epoch": 7.0, "percentage": 100.0, "elapsed_time": "0:00:00", "remaining_time": "0:00:00"}
--- a/trainer_state.json
+++ b/trainer_state.json
--- a/training_args.bin
+++ b/training_args.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2fb6eba10d1b500a357040d503372348bd2bbdab74e823c88ed5480dba2b8490
+size 8657
--- a/training_loss.png
+++ b/training_loss.png
--- a/vocab.json
+++ b/vocab.json