初始化项目，由ModelHub XC社区提供模型

Model: penfever/nl2bash-1k-traces-restore-hp Source: Original Platform
2026-04-26 09:29:14 +08:00
commit b15456fe9d
23 changed files with 153370 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,36 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,60 @@
 ---
 library_name: transformers
 license: apache-2.0
 base_model: Qwen/Qwen3-8B
 tags:
 - llama-factory
 - full
 - generated_from_trainer
 model-index:
 - name: nl2bash-1k-traces-restore-hp
  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
 # nl2bash-1k-traces-restore-hp
 This model is a fine-tuned version of [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B) on the DCAgent/nl2bash-1k-traces dataset.
 ## Model description
 More information needed
 ## Intended uses & limitations
 More information needed
 ## Training and evaluation data
 More information needed
 ## Training procedure
 ### Training hyperparameters
 The following hyperparameters were used during training:
 - learning_rate: 4e-05
 - train_batch_size: 1
 - eval_batch_size: 8
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 16
 - total_train_batch_size: 16
 - total_eval_batch_size: 128
 - optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
 - num_epochs: 6.0
 ### Training results
 ### Framework versions
 - Transformers 4.56.0
 - Pytorch 2.7.0+cu128
 - Datasets 3.6.0
 - Tokenizers 0.22.1
--- a/added_tokens.json
+++ b/added_tokens.json
@@ -0,0 +1,28 @@
 {
  "</think>": 151668,
  "</tool_call>": 151658,
  "</tool_response>": 151666,
  "<think>": 151667,
  "<tool_call>": 151657,
  "<tool_response>": 151665,
  "<|box_end|>": 151649,
  "<|box_start|>": 151648,
  "<|endoftext|>": 151643,
  "<|file_sep|>": 151664,
  "<|fim_middle|>": 151660,
  "<|fim_pad|>": 151662,
  "<|fim_prefix|>": 151659,
  "<|fim_suffix|>": 151661,
  "<|im_end|>": 151645,
  "<|im_start|>": 151644,
  "<|image_pad|>": 151655,
  "<|object_ref_end|>": 151647,
  "<|object_ref_start|>": 151646,
  "<|quad_end|>": 151651,
  "<|quad_start|>": 151650,
  "<|repo_name|>": 151663,
  "<|video_pad|>": 151656,
  "<|vision_end|>": 151653,
  "<|vision_pad|>": 151654,
  "<|vision_start|>": 151652
 }
--- a/all_results.json
+++ b/all_results.json
@@ -0,0 +1,16 @@
 {
    "achieved_tflops_per_gpu": 0.0017957366895235691,
    "achieved_tflops_per_gpu_theoretical": 935.0616593391945,
    "epoch": 6.0,
    "loss_nan_ranks": 0,
    "loss_rank_avg": 0.15850412845611572,
    "mfu_percent": 0.00012690718653876813,
    "mfu_percent_theoretical": 66.08209606637418,
    "total_flos": 39306874650624.0,
    "train_loss": 0.23945725027215545,
    "train_runtime": 1368.0623,
    "train_samples_per_second": 4.386,
    "train_steps_per_second": 0.276,
    "valid_targets_mean": 1612.7,
    "valid_targets_min": 692
 }
--- a/chat_template.jinja
+++ b/chat_template.jinja
@@ -0,0 +1,89 @@
 {%- if tools %}
    {{- '<|im_start|>system\n' }}
    {%- if messages[0].role == 'system' %}
        {{- messages[0].content + '\n\n' }}
    {%- endif %}
    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
    {%- for tool in tools %}
        {{- "\n" }}
        {{- tool | tojson }}
    {%- endfor %}
    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
 {%- else %}
    {%- if messages[0].role == 'system' %}
        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
    {%- endif %}
 {%- endif %}
 {%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
 {%- for message in messages[::-1] %}
    {%- set index = (messages|length - 1) - loop.index0 %}
    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
        {%- set ns.multi_step_tool = false %}
        {%- set ns.last_query_index = index %}
    {%- endif %}
 {%- endfor %}
 {%- for message in messages %}
    {%- if message.content is string %}
        {%- set content = message.content %}
    {%- else %}
        {%- set content = '' %}
    {%- endif %}
    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
    {%- elif message.role == "assistant" %}
        {%- set reasoning_content = '' %}
        {%- if message.reasoning_content is string %}
            {%- set reasoning_content = message.reasoning_content %}
        {%- else %}
            {%- if '</think>' in content %}
                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
            {%- endif %}
        {%- endif %}
        {%- if loop.index0 > ns.last_query_index %}
            {%- if loop.last or (not loop.last and reasoning_content) %}
                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
            {%- else %}
                {{- '<|im_start|>' + message.role + '\n' + content }}
            {%- endif %}
        {%- else %}
            {{- '<|im_start|>' + message.role + '\n' + content }}
        {%- endif %}
        {%- if message.tool_calls %}
            {%- for tool_call in message.tool_calls %}
                {%- if (loop.first and content) or (not loop.first) %}
                    {{- '\n' }}
                {%- endif %}
                {%- if tool_call.function %}
                    {%- set tool_call = tool_call.function %}
                {%- endif %}
                {{- '<tool_call>\n{"name": "' }}
                {{- tool_call.name }}
                {{- '", "arguments": ' }}
                {%- if tool_call.arguments is string %}
                    {{- tool_call.arguments }}
                {%- else %}
                    {{- tool_call.arguments | tojson }}
                {%- endif %}
                {{- '}\n</tool_call>' }}
            {%- endfor %}
        {%- endif %}
        {{- '<|im_end|>\n' }}
    {%- elif message.role == "tool" %}
        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
            {{- '<|im_start|>user' }}
        {%- endif %}
        {{- '\n<tool_response>\n' }}
        {{- content }}
        {{- '\n</tool_response>' }}
        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
            {{- '<|im_end|>\n' }}
        {%- endif %}
    {%- endif %}
 {%- endfor %}
 {%- if add_generation_prompt %}
    {{- '<|im_start|>assistant\n' }}
    {%- if enable_thinking is defined and enable_thinking is false %}
        {{- '<think>\n\n</think>\n\n' }}
    {%- endif %}
 {%- endif %}
--- a/config.json
+++ b/config.json
@@ -0,0 +1,68 @@
 {
  "architectures": [
    "Qwen3ForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "dtype": "bfloat16",
  "eos_token_id": 151645,
  "head_dim": 128,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 12288,
  "layer_types": [
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention",
    "full_attention"
  ],
  "max_position_embeddings": 40960,
  "max_window_layers": 36,
  "model_type": "qwen3",
  "num_attention_heads": 32,
  "num_hidden_layers": 36,
  "num_key_value_heads": 8,
  "pad_token_id": 151643,
  "rms_norm_eps": 1e-06,
  "rope_scaling": null,
  "rope_theta": 1000000,
  "sliding_window": null,
  "tie_word_embeddings": false,
  "transformers_version": "4.56.0",
  "use_cache": false,
  "use_sliding_window": false,
  "vocab_size": 151936
 }
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,12 @@
 {
  "do_sample": true,
  "eos_token_id": [
    151645,
    151643
  ],
  "pad_token_id": 151643,
  "temperature": 0.6,
  "top_k": 20,
  "top_p": 0.95,
  "transformers_version": "4.56.0"
 }
--- a/merges.txt
+++ b/merges.txt
--- a/model-00001-of-00004.safetensors
+++ b/model-00001-of-00004.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:485851d0b33f9fbaadb7fbfe23c0ba72e12e98dbcfff3789339e78724b31313d
 size 4902257696
--- a/model-00002-of-00004.safetensors
+++ b/model-00002-of-00004.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:98cde647e2595e169347da384d579bec462fce27cebf52832ff22e0f2b81637a
 size 4915960368
--- a/model-00003-of-00004.safetensors
+++ b/model-00003-of-00004.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:a444df0be87a5e7ca891c9e04c5560dbe2e459466d522eb467c870a8a8a8f301
 size 4983068496
--- a/model-00004-of-00004.safetensors
+++ b/model-00004-of-00004.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:c4fbe68f2d91a90efcdffd07f4309d5e0672315368bffe16e9fb7c974ba48310
 size 1580230264
--- a/model.safetensors.index.json
+++ b/model.safetensors.index.json
@@ -0,0 +1,407 @@
 {
  "metadata": {
    "total_parameters": 308224,
    "total_size": 16381470720
  },
  "weight_map": {
    "lm_head.weight": "model-00004-of-00004.safetensors",
    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.20.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.21.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.21.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.21.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.22.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.22.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.32.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.32.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.32.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.32.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.32.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.32.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.32.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.32.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.32.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.32.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.32.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.33.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.33.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.33.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.33.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.33.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.33.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.33.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.33.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.33.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.33.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.33.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.34.input_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.34.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.34.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.34.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.34.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
    "model.layers.34.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.34.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.34.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.34.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
    "model.layers.34.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.34.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.35.input_layernorm.weight": "model-00004-of-00004.safetensors",
    "model.layers.35.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
    "model.layers.35.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
    "model.layers.35.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
    "model.layers.35.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
    "model.layers.35.self_attn.k_norm.weight": "model-00004-of-00004.safetensors",
    "model.layers.35.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.35.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
    "model.layers.35.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
    "model.layers.35.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.35.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
    "model.layers.9.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.9.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
    "model.norm.weight": "model-00004-of-00004.safetensors"
  }
 }
--- a/run_summary.json
+++ b/run_summary.json
@@ -0,0 +1,12 @@
 {
  "agent_name": null,
  "training_start": null,
  "training_end": null,
  "created_by": "DCAgent",
  "base_model_name": "Qwen/Qwen3-8B",
  "dataset_name": "DCAgent/nl2bash-1k-traces",
  "training_type": "SFT",
  "training_parameters": "https://huggingface.co/penfever/nl2bash-1k-traces-restore-hp/blob/main/config.json",
  "wandb_link": "https://wandb.ai/dogml/dc-agent/runs/nl2bash-1k-traces_hub-model-id_nl2bash-1k-traces-restore-hp_Qwen3-8B",
  "traces_location_s3": null
 }
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,31 @@
 {
  "additional_special_tokens": [
    "<|im_start|>",
    "<|im_end|>",
    "<|object_ref_start|>",
    "<|object_ref_end|>",
    "<|box_start|>",
    "<|box_end|>",
    "<|quad_start|>",
    "<|quad_end|>",
    "<|vision_start|>",
    "<|vision_end|>",
    "<|vision_pad|>",
    "<|image_pad|>",
    "<|video_pad|>"
  ],
  "eos_token": {
    "content": "<|im_end|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "pad_token": {
    "content": "<|endoftext|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  }
 }
--- a/tokenizer.json
+++ b/tokenizer.json
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
 size 11422654
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,240 @@
 {
  "add_bos_token": false,
  "add_prefix_space": false,
  "added_tokens_decoder": {
    "151643": {
      "content": "<|endoftext|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151644": {
      "content": "<|im_start|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151645": {
      "content": "<|im_end|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151646": {
      "content": "<|object_ref_start|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151647": {
      "content": "<|object_ref_end|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151648": {
      "content": "<|box_start|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151649": {
      "content": "<|box_end|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151650": {
      "content": "<|quad_start|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151651": {
      "content": "<|quad_end|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151652": {
      "content": "<|vision_start|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151653": {
      "content": "<|vision_end|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151654": {
      "content": "<|vision_pad|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151655": {
      "content": "<|image_pad|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151656": {
      "content": "<|video_pad|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151657": {
      "content": "<tool_call>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151658": {
      "content": "</tool_call>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151659": {
      "content": "<|fim_prefix|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151660": {
      "content": "<|fim_middle|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151661": {
      "content": "<|fim_suffix|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151662": {
      "content": "<|fim_pad|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151663": {
      "content": "<|repo_name|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151664": {
      "content": "<|file_sep|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151665": {
      "content": "<tool_response>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151666": {
      "content": "</tool_response>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151667": {
      "content": "<think>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151668": {
      "content": "</think>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    }
  },
  "additional_special_tokens": [
    "<|im_start|>",
    "<|im_end|>",
    "<|object_ref_start|>",
    "<|object_ref_end|>",
    "<|box_start|>",
    "<|box_end|>",
    "<|quad_start|>",
    "<|quad_end|>",
    "<|vision_start|>",
    "<|vision_end|>",
    "<|vision_pad|>",
    "<|image_pad|>",
    "<|video_pad|>"
  ],
  "bos_token": null,
  "clean_up_tokenization_spaces": false,
  "eos_token": "<|im_end|>",
  "errors": "replace",
  "extra_special_tokens": {},
  "model_max_length": 32768,
  "pad_token": "<|endoftext|>",
  "padding_side": "right",
  "split_special_tokens": false,
  "tokenizer_class": "Qwen2Tokenizer",
  "unk_token": null
 }
--- a/train_results.json
+++ b/train_results.json
@@ -0,0 +1,16 @@
 {
    "achieved_tflops_per_gpu": 0.0017957366895235691,
    "achieved_tflops_per_gpu_theoretical": 935.0616593391945,
    "epoch": 6.0,
    "loss_nan_ranks": 0,
    "loss_rank_avg": 0.15850412845611572,
    "mfu_percent": 0.00012690718653876813,
    "mfu_percent_theoretical": 66.08209606637418,
    "total_flos": 39306874650624.0,
    "train_loss": 0.23945725027215545,
    "train_runtime": 1368.0623,
    "train_samples_per_second": 4.386,
    "train_steps_per_second": 0.276,
    "valid_targets_mean": 1612.7,
    "valid_targets_min": 692
 }
--- a/trainer_log.jsonl
+++ b/trainer_log.jsonl
@@ -0,0 +1,76 @@
 {"current_steps": 5, "total_steps": 378, "loss": 1.0034, "lr": 4.210526315789474e-06, "epoch": 0.07936507936507936, "percentage": 1.32, "elapsed_time": "0:00:25", "remaining_time": "0:31:53"}
 {"current_steps": 10, "total_steps": 378, "loss": 0.8848, "lr": 9.473684210526315e-06, "epoch": 0.15873015873015872, "percentage": 2.65, "elapsed_time": "0:00:41", "remaining_time": "0:25:16"}
 {"current_steps": 15, "total_steps": 378, "loss": 0.6728, "lr": 1.4736842105263159e-05, "epoch": 0.23809523809523808, "percentage": 3.97, "elapsed_time": "0:00:56", "remaining_time": "0:22:45"}
 {"current_steps": 20, "total_steps": 378, "loss": 0.5289, "lr": 2e-05, "epoch": 0.31746031746031744, "percentage": 5.29, "elapsed_time": "0:01:11", "remaining_time": "0:21:20"}
 {"current_steps": 25, "total_steps": 378, "loss": 0.4561, "lr": 2.526315789473684e-05, "epoch": 0.3968253968253968, "percentage": 6.61, "elapsed_time": "0:01:26", "remaining_time": "0:20:17"}
 {"current_steps": 30, "total_steps": 378, "loss": 0.3862, "lr": 3.052631578947369e-05, "epoch": 0.47619047619047616, "percentage": 7.94, "elapsed_time": "0:01:41", "remaining_time": "0:19:32"}
 {"current_steps": 35, "total_steps": 378, "loss": 0.352, "lr": 3.578947368421053e-05, "epoch": 0.5555555555555556, "percentage": 9.26, "elapsed_time": "0:01:56", "remaining_time": "0:18:58"}
 {"current_steps": 40, "total_steps": 378, "loss": 0.3518, "lr": 3.999914623406736e-05, "epoch": 0.6349206349206349, "percentage": 10.58, "elapsed_time": "0:02:11", "remaining_time": "0:18:33"}
 {"current_steps": 45, "total_steps": 378, "loss": 0.3189, "lr": 3.9969272079348685e-05, "epoch": 0.7142857142857143, "percentage": 11.9, "elapsed_time": "0:02:26", "remaining_time": "0:18:00"}
 {"current_steps": 50, "total_steps": 378, "loss": 0.3063, "lr": 3.989678249165612e-05, "epoch": 0.7936507936507936, "percentage": 13.23, "elapsed_time": "0:02:40", "remaining_time": "0:17:32"}
 {"current_steps": 55, "total_steps": 378, "loss": 0.2988, "lr": 3.9781832167422926e-05, "epoch": 0.873015873015873, "percentage": 14.55, "elapsed_time": "0:02:56", "remaining_time": "0:17:14"}
 {"current_steps": 60, "total_steps": 378, "loss": 0.2983, "lr": 3.962466641643398e-05, "epoch": 0.9523809523809523, "percentage": 15.87, "elapsed_time": "0:03:10", "remaining_time": "0:16:51"}
 {"current_steps": 65, "total_steps": 378, "loss": 0.2824, "lr": 3.942562063832228e-05, "epoch": 1.0317460317460316, "percentage": 17.2, "elapsed_time": "0:03:25", "remaining_time": "0:16:31"}
 {"current_steps": 70, "total_steps": 378, "loss": 0.2641, "lr": 3.9185119606809305e-05, "epoch": 1.1111111111111112, "percentage": 18.52, "elapsed_time": "0:03:41", "remaining_time": "0:16:12"}
 {"current_steps": 75, "total_steps": 378, "loss": 0.2622, "lr": 3.89036765632164e-05, "epoch": 1.1904761904761905, "percentage": 19.84, "elapsed_time": "0:03:56", "remaining_time": "0:15:54"}
 {"current_steps": 80, "total_steps": 378, "loss": 0.2588, "lr": 3.8581892121181984e-05, "epoch": 1.2698412698412698, "percentage": 21.16, "elapsed_time": "0:04:11", "remaining_time": "0:15:35"}
 {"current_steps": 85, "total_steps": 378, "loss": 0.2604, "lr": 3.822045298492177e-05, "epoch": 1.3492063492063493, "percentage": 22.49, "elapsed_time": "0:04:25", "remaining_time": "0:15:15"}
 {"current_steps": 90, "total_steps": 378, "loss": 0.2495, "lr": 3.782013048376736e-05, "epoch": 1.4285714285714286, "percentage": 23.81, "elapsed_time": "0:04:40", "remaining_time": "0:14:58"}
 {"current_steps": 95, "total_steps": 378, "loss": 0.2597, "lr": 3.738177892611057e-05, "epoch": 1.507936507936508, "percentage": 25.13, "elapsed_time": "0:04:56", "remaining_time": "0:14:42"}
 {"current_steps": 100, "total_steps": 378, "loss": 0.2569, "lr": 3.690633377626628e-05, "epoch": 1.5873015873015874, "percentage": 26.46, "elapsed_time": "0:05:11", "remaining_time": "0:14:26"}
 {"current_steps": 105, "total_steps": 378, "loss": 0.2439, "lr": 3.639480965814443e-05, "epoch": 1.6666666666666665, "percentage": 27.78, "elapsed_time": "0:06:48", "remaining_time": "0:17:41"}
 {"current_steps": 110, "total_steps": 378, "loss": 0.2439, "lr": 3.584829818999148e-05, "epoch": 1.746031746031746, "percentage": 29.1, "elapsed_time": "0:07:02", "remaining_time": "0:17:09"}
 {"current_steps": 115, "total_steps": 378, "loss": 0.2445, "lr": 3.526796565482206e-05, "epoch": 1.8253968253968254, "percentage": 30.42, "elapsed_time": "0:07:17", "remaining_time": "0:16:40"}
 {"current_steps": 120, "total_steps": 378, "loss": 0.2426, "lr": 3.4655050511512236e-05, "epoch": 1.9047619047619047, "percentage": 31.75, "elapsed_time": "0:07:32", "remaining_time": "0:16:12"}
 {"current_steps": 125, "total_steps": 378, "loss": 0.248, "lr": 3.401086075186582e-05, "epoch": 1.9841269841269842, "percentage": 33.07, "elapsed_time": "0:07:46", "remaining_time": "0:15:44"}
 {"current_steps": 130, "total_steps": 378, "loss": 0.2222, "lr": 3.333677110929403e-05, "epoch": 2.0634920634920633, "percentage": 34.39, "elapsed_time": "0:08:01", "remaining_time": "0:15:18"}
 {"current_steps": 135, "total_steps": 378, "loss": 0.2136, "lr": 3.263422012506502e-05, "epoch": 2.142857142857143, "percentage": 35.71, "elapsed_time": "0:08:16", "remaining_time": "0:14:53"}
 {"current_steps": 140, "total_steps": 378, "loss": 0.211, "lr": 3.190470707838438e-05, "epoch": 2.2222222222222223, "percentage": 37.04, "elapsed_time": "0:08:31", "remaining_time": "0:14:29"}
 {"current_steps": 145, "total_steps": 378, "loss": 0.215, "lr": 3.114978878685771e-05, "epoch": 2.3015873015873014, "percentage": 38.36, "elapsed_time": "0:08:46", "remaining_time": "0:14:05"}
 {"current_steps": 150, "total_steps": 378, "loss": 0.2155, "lr": 3.0371076284163442e-05, "epoch": 2.380952380952381, "percentage": 39.68, "elapsed_time": "0:09:00", "remaining_time": "0:13:41"}
 {"current_steps": 155, "total_steps": 378, "loss": 0.2038, "lr": 2.9570231382025732e-05, "epoch": 2.4603174603174605, "percentage": 41.01, "elapsed_time": "0:09:14", "remaining_time": "0:13:17"}
 {"current_steps": 160, "total_steps": 378, "loss": 0.218, "lr": 2.8748963123824532e-05, "epoch": 2.5396825396825395, "percentage": 42.33, "elapsed_time": "0:09:29", "remaining_time": "0:12:56"}
 {"current_steps": 165, "total_steps": 378, "loss": 0.2133, "lr": 2.790902413741085e-05, "epoch": 2.619047619047619, "percentage": 43.65, "elapsed_time": "0:09:43", "remaining_time": "0:12:33"}
 {"current_steps": 170, "total_steps": 378, "loss": 0.2056, "lr": 2.7052206894910653e-05, "epoch": 2.6984126984126986, "percentage": 44.97, "elapsed_time": "0:09:57", "remaining_time": "0:12:11"}
 {"current_steps": 175, "total_steps": 378, "loss": 0.2032, "lr": 2.618033988749895e-05, "epoch": 2.7777777777777777, "percentage": 46.3, "elapsed_time": "0:10:11", "remaining_time": "0:11:49"}
 {"current_steps": 180, "total_steps": 378, "loss": 0.2162, "lr": 2.5295283723307517e-05, "epoch": 2.857142857142857, "percentage": 47.62, "elapsed_time": "0:10:26", "remaining_time": "0:11:28"}
 {"current_steps": 185, "total_steps": 378, "loss": 0.2041, "lr": 2.4398927156793376e-05, "epoch": 2.9365079365079367, "percentage": 48.94, "elapsed_time": "0:10:41", "remaining_time": "0:11:08"}
 {"current_steps": 190, "total_steps": 378, "loss": 0.2014, "lr": 2.3493183058041578e-05, "epoch": 3.015873015873016, "percentage": 50.26, "elapsed_time": "0:10:55", "remaining_time": "0:10:48"}
 {"current_steps": 195, "total_steps": 378, "loss": 0.1842, "lr": 2.257998433060407e-05, "epoch": 3.0952380952380953, "percentage": 51.59, "elapsed_time": "0:11:08", "remaining_time": "0:10:27"}
 {"current_steps": 200, "total_steps": 378, "loss": 0.185, "lr": 2.166127978658608e-05, "epoch": 3.1746031746031744, "percentage": 52.91, "elapsed_time": "0:11:23", "remaining_time": "0:10:08"}
 {"current_steps": 205, "total_steps": 378, "loss": 0.186, "lr": 2.0739029987782903e-05, "epoch": 3.253968253968254, "percentage": 54.23, "elapsed_time": "0:12:48", "remaining_time": "0:10:48"}
 {"current_steps": 210, "total_steps": 378, "loss": 0.1815, "lr": 1.9815203061742188e-05, "epoch": 3.3333333333333335, "percentage": 55.56, "elapsed_time": "0:13:03", "remaining_time": "0:10:26"}
 {"current_steps": 215, "total_steps": 378, "loss": 0.1815, "lr": 1.8891770501680602e-05, "epoch": 3.4126984126984126, "percentage": 56.88, "elapsed_time": "0:13:18", "remaining_time": "0:10:05"}
 {"current_steps": 220, "total_steps": 378, "loss": 0.1768, "lr": 1.7970702959217944e-05, "epoch": 3.492063492063492, "percentage": 58.2, "elapsed_time": "0:13:32", "remaining_time": "0:09:43"}
 {"current_steps": 225, "total_steps": 378, "loss": 0.1801, "lr": 1.705396603890725e-05, "epoch": 3.571428571428571, "percentage": 59.52, "elapsed_time": "0:13:47", "remaining_time": "0:09:22"}
 {"current_steps": 230, "total_steps": 378, "loss": 0.1845, "lr": 1.6143516103535666e-05, "epoch": 3.6507936507936507, "percentage": 60.85, "elapsed_time": "0:14:02", "remaining_time": "0:09:02"}
 {"current_steps": 235, "total_steps": 378, "loss": 0.1806, "lr": 1.524129609914763e-05, "epoch": 3.7301587301587302, "percentage": 62.17, "elapsed_time": "0:14:15", "remaining_time": "0:08:40"}
 {"current_steps": 240, "total_steps": 378, "loss": 0.1815, "lr": 1.43492314087001e-05, "epoch": 3.8095238095238093, "percentage": 63.49, "elapsed_time": "0:14:30", "remaining_time": "0:08:20"}
 {"current_steps": 245, "total_steps": 378, "loss": 0.1893, "lr": 1.3469225743198337e-05, "epoch": 3.888888888888889, "percentage": 64.81, "elapsed_time": "0:14:43", "remaining_time": "0:07:59"}
 {"current_steps": 250, "total_steps": 378, "loss": 0.1806, "lr": 1.260315707908062e-05, "epoch": 3.9682539682539684, "percentage": 66.14, "elapsed_time": "0:14:59", "remaining_time": "0:07:40"}
 {"current_steps": 255, "total_steps": 378, "loss": 0.1684, "lr": 1.1752873650521934e-05, "epoch": 4.0476190476190474, "percentage": 67.46, "elapsed_time": "0:15:13", "remaining_time": "0:07:20"}
 {"current_steps": 260, "total_steps": 378, "loss": 0.1671, "lr": 1.0920190005209066e-05, "epoch": 4.1269841269841265, "percentage": 68.78, "elapsed_time": "0:15:27", "remaining_time": "0:07:00"}
 {"current_steps": 265, "total_steps": 378, "loss": 0.1615, "lr": 1.0106883132004428e-05, "epoch": 4.2063492063492065, "percentage": 70.11, "elapsed_time": "0:15:41", "remaining_time": "0:06:41"}
 {"current_steps": 270, "total_steps": 378, "loss": 0.1555, "lr": 9.314688668762232e-06, "epoch": 4.285714285714286, "percentage": 71.43, "elapsed_time": "0:15:55", "remaining_time": "0:06:22"}
 {"current_steps": 275, "total_steps": 378, "loss": 0.1524, "lr": 8.545297198389896e-06, "epoch": 4.365079365079365, "percentage": 72.75, "elapsed_time": "0:16:10", "remaining_time": "0:06:03"}
 {"current_steps": 280, "total_steps": 378, "loss": 0.1741, "lr": 7.800350641058867e-06, "epoch": 4.444444444444445, "percentage": 74.07, "elapsed_time": "0:16:26", "remaining_time": "0:05:45"}
 {"current_steps": 285, "total_steps": 378, "loss": 0.163, "lr": 7.081438750264258e-06, "epoch": 4.523809523809524, "percentage": 75.4, "elapsed_time": "0:16:40", "remaining_time": "0:05:26"}
 {"current_steps": 290, "total_steps": 378, "loss": 0.1564, "lr": 6.3900957202107695e-06, "epoch": 4.603174603174603, "percentage": 76.72, "elapsed_time": "0:16:54", "remaining_time": "0:05:07"}
 {"current_steps": 295, "total_steps": 378, "loss": 0.1698, "lr": 5.727796911764955e-06, "epoch": 4.682539682539683, "percentage": 78.04, "elapsed_time": "0:17:09", "remaining_time": "0:04:49"}
 {"current_steps": 300, "total_steps": 378, "loss": 0.1625, "lr": 5.095955703960746e-06, "epoch": 4.761904761904762, "percentage": 79.37, "elapsed_time": "0:17:23", "remaining_time": "0:04:31"}
 {"current_steps": 305, "total_steps": 378, "loss": 0.1551, "lr": 4.495920477777403e-06, "epoch": 4.841269841269841, "percentage": 80.69, "elapsed_time": "0:18:11", "remaining_time": "0:04:21"}
 {"current_steps": 310, "total_steps": 378, "loss": 0.1592, "lr": 3.9289717386265255e-06, "epoch": 4.920634920634921, "percentage": 82.01, "elapsed_time": "0:18:25", "remaining_time": "0:04:02"}
 {"current_steps": 315, "total_steps": 378, "loss": 0.157, "lr": 3.3963193836889907e-06, "epoch": 5.0, "percentage": 83.33, "elapsed_time": "0:18:39", "remaining_time": "0:03:43"}
 {"current_steps": 320, "total_steps": 378, "loss": 0.151, "lr": 2.89910011993338e-06, "epoch": 5.079365079365079, "percentage": 84.66, "elapsed_time": "0:18:54", "remaining_time": "0:03:25"}
 {"current_steps": 325, "total_steps": 378, "loss": 0.1526, "lr": 2.4383750383260417e-06, "epoch": 5.158730158730159, "percentage": 85.98, "elapsed_time": "0:19:08", "remaining_time": "0:03:07"}
 {"current_steps": 330, "total_steps": 378, "loss": 0.1492, "lr": 2.015127349409489e-06, "epoch": 5.238095238095238, "percentage": 87.3, "elapsed_time": "0:19:22", "remaining_time": "0:02:49"}
 {"current_steps": 335, "total_steps": 378, "loss": 0.1475, "lr": 1.6302602850815397e-06, "epoch": 5.317460317460317, "percentage": 88.62, "elapsed_time": "0:19:36", "remaining_time": "0:02:30"}
 {"current_steps": 340, "total_steps": 378, "loss": 0.1564, "lr": 1.2845951710529513e-06, "epoch": 5.396825396825397, "percentage": 89.95, "elapsed_time": "0:19:50", "remaining_time": "0:02:13"}
 {"current_steps": 345, "total_steps": 378, "loss": 0.1449, "lr": 9.788696740969295e-07, "epoch": 5.476190476190476, "percentage": 91.27, "elapsed_time": "0:20:05", "remaining_time": "0:01:55"}
 {"current_steps": 350, "total_steps": 378, "loss": 0.1472, "lr": 7.137362278311033e-07, "epoch": 5.555555555555555, "percentage": 92.59, "elapsed_time": "0:20:18", "remaining_time": "0:01:37"}
 {"current_steps": 355, "total_steps": 378, "loss": 0.1492, "lr": 4.89760640391268e-07, "epoch": 5.634920634920634, "percentage": 93.92, "elapsed_time": "0:20:32", "remaining_time": "0:01:19"}
 {"current_steps": 360, "total_steps": 378, "loss": 0.1573, "lr": 3.074208869683282e-07, "epoch": 5.714285714285714, "percentage": 95.24, "elapsed_time": "0:20:46", "remaining_time": "0:01:02"}
 {"current_steps": 365, "total_steps": 378, "loss": 0.1529, "lr": 1.6710608978514509e-07, "epoch": 5.7936507936507935, "percentage": 96.56, "elapsed_time": "0:20:59", "remaining_time": "0:00:44"}
 {"current_steps": 370, "total_steps": 378, "loss": 0.1514, "lr": 6.91156876901089e-08, "epoch": 5.8730158730158735, "percentage": 97.88, "elapsed_time": "0:21:14", "remaining_time": "0:00:27"}
 {"current_steps": 375, "total_steps": 378, "loss": 0.1454, "lr": 1.365879713954188e-08, "epoch": 5.9523809523809526, "percentage": 99.21, "elapsed_time": "0:21:27", "remaining_time": "0:00:10"}
 {"current_steps": 378, "total_steps": 378, "epoch": 6.0, "percentage": 100.0, "elapsed_time": "0:22:45", "remaining_time": "0:00:00"}
--- a/trainer_state.json
+++ b/trainer_state.json
@@ -0,0 +1,872 @@
 {
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 6.0,
  "eval_steps": 500,
  "global_step": 378,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.07936507936507936,
      "grad_norm": 18.09902303910361,
      "learning_rate": 4.210526315789474e-06,
      "loss": 1.0034,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.996525764465332,
      "step": 5,
      "valid_targets_mean": 1317.2,
      "valid_targets_min": 650
    },
    {
      "epoch": 0.15873015873015872,
      "grad_norm": 8.16991336123599,
      "learning_rate": 9.473684210526315e-06,
      "loss": 0.8848,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.7810754776000977,
      "step": 10,
      "valid_targets_mean": 1280.9,
      "valid_targets_min": 714
    },
    {
      "epoch": 0.23809523809523808,
      "grad_norm": 3.1633278706676378,
      "learning_rate": 1.4736842105263159e-05,
      "loss": 0.6728,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.6020610332489014,
      "step": 15,
      "valid_targets_mean": 1262.5,
      "valid_targets_min": 651
    },
    {
      "epoch": 0.31746031746031744,
      "grad_norm": 2.144961671140719,
      "learning_rate": 2e-05,
      "loss": 0.5289,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.5145202875137329,
      "step": 20,
      "valid_targets_mean": 1289.9,
      "valid_targets_min": 794
    },
    {
      "epoch": 0.3968253968253968,
      "grad_norm": 1.5113256761550613,
      "learning_rate": 2.526315789473684e-05,
      "loss": 0.4561,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.43933457136154175,
      "step": 25,
      "valid_targets_mean": 1349.3,
      "valid_targets_min": 683
    },
    {
      "epoch": 0.47619047619047616,
      "grad_norm": 1.4341124853993426,
      "learning_rate": 3.052631578947369e-05,
      "loss": 0.3862,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.36623549461364746,
      "step": 30,
      "valid_targets_mean": 1292.4,
      "valid_targets_min": 730
    },
    {
      "epoch": 0.5555555555555556,
      "grad_norm": 1.1254468593395395,
      "learning_rate": 3.578947368421053e-05,
      "loss": 0.352,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.32470637559890747,
      "step": 35,
      "valid_targets_mean": 1341.6,
      "valid_targets_min": 702
    },
    {
      "epoch": 0.6349206349206349,
      "grad_norm": 1.1077925223265233,
      "learning_rate": 3.999914623406736e-05,
      "loss": 0.3518,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.3396565914154053,
      "step": 40,
      "valid_targets_mean": 1224.6,
      "valid_targets_min": 475
    },
    {
      "epoch": 0.7142857142857143,
      "grad_norm": 1.0453242597684407,
      "learning_rate": 3.9969272079348685e-05,
      "loss": 0.3189,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.3043442964553833,
      "step": 45,
      "valid_targets_mean": 1244.7,
      "valid_targets_min": 717
    },
    {
      "epoch": 0.7936507936507936,
      "grad_norm": 0.9888625604591795,
      "learning_rate": 3.989678249165612e-05,
      "loss": 0.3063,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.29527759552001953,
      "step": 50,
      "valid_targets_mean": 1431.3,
      "valid_targets_min": 761
    },
    {
      "epoch": 0.873015873015873,
      "grad_norm": 0.9865480113822774,
      "learning_rate": 3.9781832167422926e-05,
      "loss": 0.2988,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.3123767673969269,
      "step": 55,
      "valid_targets_mean": 1331.8,
      "valid_targets_min": 706
    },
    {
      "epoch": 0.9523809523809523,
      "grad_norm": 0.9489794948782682,
      "learning_rate": 3.962466641643398e-05,
      "loss": 0.2983,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.31309300661087036,
      "step": 60,
      "valid_targets_mean": 1493.4,
      "valid_targets_min": 832
    },
    {
      "epoch": 1.0317460317460316,
      "grad_norm": 1.1071899523713842,
      "learning_rate": 3.942562063832228e-05,
      "loss": 0.2824,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.2574073374271393,
      "step": 65,
      "valid_targets_mean": 1164.1,
      "valid_targets_min": 650
    },
    {
      "epoch": 1.1111111111111112,
      "grad_norm": 1.1419435529606288,
      "learning_rate": 3.9185119606809305e-05,
      "loss": 0.2641,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.24323183298110962,
      "step": 70,
      "valid_targets_mean": 1309.0,
      "valid_targets_min": 774
    },
    {
      "epoch": 1.1904761904761905,
      "grad_norm": 0.8396527150729525,
      "learning_rate": 3.89036765632164e-05,
      "loss": 0.2622,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.24688035249710083,
      "step": 75,
      "valid_targets_mean": 1233.3,
      "valid_targets_min": 648
    },
    {
      "epoch": 1.2698412698412698,
      "grad_norm": 1.031066680643171,
      "learning_rate": 3.8581892121181984e-05,
      "loss": 0.2588,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.2587030231952667,
      "step": 80,
      "valid_targets_mean": 1194.1,
      "valid_targets_min": 683
    },
    {
      "epoch": 1.3492063492063493,
      "grad_norm": 1.0087562996042767,
      "learning_rate": 3.822045298492177e-05,
      "loss": 0.2604,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.26486936211586,
      "step": 85,
      "valid_targets_mean": 1248.9,
      "valid_targets_min": 620
    },
    {
      "epoch": 1.4285714285714286,
      "grad_norm": 0.8956917783711329,
      "learning_rate": 3.782013048376736e-05,
      "loss": 0.2495,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.26159846782684326,
      "step": 90,
      "valid_targets_mean": 1584.2,
      "valid_targets_min": 801
    },
    {
      "epoch": 1.507936507936508,
      "grad_norm": 1.0889510509050193,
      "learning_rate": 3.738177892611057e-05,
      "loss": 0.2597,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.263064444065094,
      "step": 95,
      "valid_targets_mean": 1269.8,
      "valid_targets_min": 622
    },
    {
      "epoch": 1.5873015873015874,
      "grad_norm": 0.9208538453912383,
      "learning_rate": 3.690633377626628e-05,
      "loss": 0.2569,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.2552173435688019,
      "step": 100,
      "valid_targets_mean": 1260.8,
      "valid_targets_min": 644
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 1.0431803629591703,
      "learning_rate": 3.639480965814443e-05,
      "loss": 0.2439,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.2334054708480835,
      "step": 105,
      "valid_targets_mean": 1119.9,
      "valid_targets_min": 494
    },
    {
      "epoch": 1.746031746031746,
      "grad_norm": 1.052527932597642,
      "learning_rate": 3.584829818999148e-05,
      "loss": 0.2439,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.26042911410331726,
      "step": 110,
      "valid_targets_mean": 1358.5,
      "valid_targets_min": 746
    },
    {
      "epoch": 1.8253968253968254,
      "grad_norm": 1.2050528658411404,
      "learning_rate": 3.526796565482206e-05,
      "loss": 0.2445,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.24487106502056122,
      "step": 115,
      "valid_targets_mean": 1421.6,
      "valid_targets_min": 729
    },
    {
      "epoch": 1.9047619047619047,
      "grad_norm": 0.9072467275412588,
      "learning_rate": 3.4655050511512236e-05,
      "loss": 0.2426,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.25254106521606445,
      "step": 120,
      "valid_targets_mean": 1449.0,
      "valid_targets_min": 837
    },
    {
      "epoch": 1.9841269841269842,
      "grad_norm": 1.0303768935216235,
      "learning_rate": 3.401086075186582e-05,
      "loss": 0.248,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.24224883317947388,
      "step": 125,
      "valid_targets_mean": 1346.0,
      "valid_targets_min": 640
    },
    {
      "epoch": 2.0634920634920633,
      "grad_norm": 1.0599334863834182,
      "learning_rate": 3.333677110929403e-05,
      "loss": 0.2222,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.22304898500442505,
      "step": 130,
      "valid_targets_mean": 1223.6,
      "valid_targets_min": 686
    },
    {
      "epoch": 2.142857142857143,
      "grad_norm": 0.9942911032267476,
      "learning_rate": 3.263422012506502e-05,
      "loss": 0.2136,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.23300984501838684,
      "step": 135,
      "valid_targets_mean": 1373.8,
      "valid_targets_min": 714
    },
    {
      "epoch": 2.2222222222222223,
      "grad_norm": 0.9867493029938139,
      "learning_rate": 3.190470707838438e-05,
      "loss": 0.211,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.1962147355079651,
      "step": 140,
      "valid_targets_mean": 1268.1,
      "valid_targets_min": 618
    },
    {
      "epoch": 2.3015873015873014,
      "grad_norm": 0.9683968495450838,
      "learning_rate": 3.114978878685771e-05,
      "loss": 0.215,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.22331558167934418,
      "step": 145,
      "valid_targets_mean": 1451.9,
      "valid_targets_min": 718
    },
    {
      "epoch": 2.380952380952381,
      "grad_norm": 3.9084274034442066,
      "learning_rate": 3.0371076284163442e-05,
      "loss": 0.2155,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.22763928771018982,
      "step": 150,
      "valid_targets_mean": 1204.6,
      "valid_targets_min": 574
    },
    {
      "epoch": 2.4603174603174605,
      "grad_norm": 1.0158116125994063,
      "learning_rate": 2.9570231382025732e-05,
      "loss": 0.2038,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.18950828909873962,
      "step": 155,
      "valid_targets_mean": 1317.1,
      "valid_targets_min": 904
    },
    {
      "epoch": 2.5396825396825395,
      "grad_norm": 0.896681347419589,
      "learning_rate": 2.8748963123824532e-05,
      "loss": 0.218,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.22112029790878296,
      "step": 160,
      "valid_targets_mean": 1424.4,
      "valid_targets_min": 661
    },
    {
      "epoch": 2.619047619047619,
      "grad_norm": 1.0606529423953202,
      "learning_rate": 2.790902413741085e-05,
      "loss": 0.2133,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.2376096546649933,
      "step": 165,
      "valid_targets_mean": 1399.1,
      "valid_targets_min": 740
    },
    {
      "epoch": 2.6984126984126986,
      "grad_norm": 0.9396280814023571,
      "learning_rate": 2.7052206894910653e-05,
      "loss": 0.2056,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.2136600762605667,
      "step": 170,
      "valid_targets_mean": 1357.7,
      "valid_targets_min": 555
    },
    {
      "epoch": 2.7777777777777777,
      "grad_norm": 1.083930671175511,
      "learning_rate": 2.618033988749895e-05,
      "loss": 0.2032,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.19602251052856445,
      "step": 175,
      "valid_targets_mean": 1215.0,
      "valid_targets_min": 615
    },
    {
      "epoch": 2.857142857142857,
      "grad_norm": 0.979793298540035,
      "learning_rate": 2.5295283723307517e-05,
      "loss": 0.2162,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.2314784824848175,
      "step": 180,
      "valid_targets_mean": 1266.5,
      "valid_targets_min": 718
    },
    {
      "epoch": 2.9365079365079367,
      "grad_norm": 1.013880387387088,
      "learning_rate": 2.4398927156793376e-05,
      "loss": 0.2041,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.20053911209106445,
      "step": 185,
      "valid_targets_mean": 1415.3,
      "valid_targets_min": 823
    },
    {
      "epoch": 3.015873015873016,
      "grad_norm": 0.9506724254980058,
      "learning_rate": 2.3493183058041578e-05,
      "loss": 0.2014,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.18665489554405212,
      "step": 190,
      "valid_targets_mean": 1395.1,
      "valid_targets_min": 620
    },
    {
      "epoch": 3.0952380952380953,
      "grad_norm": 1.2045650788528535,
      "learning_rate": 2.257998433060407e-05,
      "loss": 0.1842,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.1960422694683075,
      "step": 195,
      "valid_targets_mean": 1277.2,
      "valid_targets_min": 748
    },
    {
      "epoch": 3.1746031746031744,
      "grad_norm": 0.9904415244786193,
      "learning_rate": 2.166127978658608e-05,
      "loss": 0.185,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.18444815278053284,
      "step": 200,
      "valid_targets_mean": 1417.6,
      "valid_targets_min": 805
    },
    {
      "epoch": 3.253968253968254,
      "grad_norm": 0.9573080350285159,
      "learning_rate": 2.0739029987782903e-05,
      "loss": 0.186,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.18823915719985962,
      "step": 205,
      "valid_targets_mean": 1211.6,
      "valid_targets_min": 574
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.8982800713768102,
      "learning_rate": 1.9815203061742188e-05,
      "loss": 0.1815,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.1576843112707138,
      "step": 210,
      "valid_targets_mean": 1294.8,
      "valid_targets_min": 813
    },
    {
      "epoch": 3.4126984126984126,
      "grad_norm": 0.9855158183383274,
      "learning_rate": 1.8891770501680602e-05,
      "loss": 0.1815,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.18304908275604248,
      "step": 215,
      "valid_targets_mean": 1243.9,
      "valid_targets_min": 774
    },
    {
      "epoch": 3.492063492063492,
      "grad_norm": 1.0040666267759992,
      "learning_rate": 1.7970702959217944e-05,
      "loss": 0.1768,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.1883706897497177,
      "step": 220,
      "valid_targets_mean": 1353.8,
      "valid_targets_min": 640
    },
    {
      "epoch": 3.571428571428571,
      "grad_norm": 1.4558785666136118,
      "learning_rate": 1.705396603890725e-05,
      "loss": 0.1801,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.20024870336055756,
      "step": 225,
      "valid_targets_mean": 1336.3,
      "valid_targets_min": 618
    },
    {
      "epoch": 3.6507936507936507,
      "grad_norm": 1.0249713499978004,
      "learning_rate": 1.6143516103535666e-05,
      "loss": 0.1845,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.17252278327941895,
      "step": 230,
      "valid_targets_mean": 1262.4,
      "valid_targets_min": 680
    },
    {
      "epoch": 3.7301587301587302,
      "grad_norm": 0.9876581877640742,
      "learning_rate": 1.524129609914763e-05,
      "loss": 0.1806,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.18393632769584656,
      "step": 235,
      "valid_targets_mean": 1363.2,
      "valid_targets_min": 538
    },
    {
      "epoch": 3.8095238095238093,
      "grad_norm": 0.951472253586105,
      "learning_rate": 1.43492314087001e-05,
      "loss": 0.1815,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.19082951545715332,
      "step": 240,
      "valid_targets_mean": 1442.2,
      "valid_targets_min": 935
    },
    {
      "epoch": 3.888888888888889,
      "grad_norm": 1.1055947291031696,
      "learning_rate": 1.3469225743198337e-05,
      "loss": 0.1893,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.18884754180908203,
      "step": 245,
      "valid_targets_mean": 1243.9,
      "valid_targets_min": 721
    },
    {
      "epoch": 3.9682539682539684,
      "grad_norm": 0.9454028728577349,
      "learning_rate": 1.260315707908062e-05,
      "loss": 0.1806,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.19582678377628326,
      "step": 250,
      "valid_targets_mean": 1453.9,
      "valid_targets_min": 729
    },
    {
      "epoch": 4.0476190476190474,
      "grad_norm": 0.9615770906418738,
      "learning_rate": 1.1752873650521934e-05,
      "loss": 0.1684,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.1702508181333542,
      "step": 255,
      "valid_targets_mean": 1367.9,
      "valid_targets_min": 833
    },
    {
      "epoch": 4.1269841269841265,
      "grad_norm": 1.0494388437222053,
      "learning_rate": 1.0920190005209066e-05,
      "loss": 0.1671,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.1574375033378601,
      "step": 260,
      "valid_targets_mean": 1268.7,
      "valid_targets_min": 748
    },
    {
      "epoch": 4.2063492063492065,
      "grad_norm": 1.058177748509928,
      "learning_rate": 1.0106883132004428e-05,
      "loss": 0.1615,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.15336745977401733,
      "step": 265,
      "valid_targets_mean": 1281.3,
      "valid_targets_min": 679
    },
    {
      "epoch": 4.285714285714286,
      "grad_norm": 1.1128115262277665,
      "learning_rate": 9.314688668762232e-06,
      "loss": 0.1555,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.15343694388866425,
      "step": 270,
      "valid_targets_mean": 1171.1,
      "valid_targets_min": 683
    },
    {
      "epoch": 4.365079365079365,
      "grad_norm": 0.9068931883638662,
      "learning_rate": 8.545297198389896e-06,
      "loss": 0.1524,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.1522439420223236,
      "step": 275,
      "valid_targets_mean": 1484.4,
      "valid_targets_min": 692
    },
    {
      "epoch": 4.444444444444445,
      "grad_norm": 0.987267277849222,
      "learning_rate": 7.800350641058867e-06,
      "loss": 0.1741,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.17415179312229156,
      "step": 280,
      "valid_targets_mean": 1327.5,
      "valid_targets_min": 834
    },
    {
      "epoch": 4.523809523809524,
      "grad_norm": 0.9406767373189786,
      "learning_rate": 7.081438750264258e-06,
      "loss": 0.163,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.1646547019481659,
      "step": 285,
      "valid_targets_mean": 1483.0,
      "valid_targets_min": 718
    },
    {
      "epoch": 4.603174603174603,
      "grad_norm": 1.1253357217876951,
      "learning_rate": 6.3900957202107695e-06,
      "loss": 0.1564,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.1593586802482605,
      "step": 290,
      "valid_targets_mean": 1123.4,
      "valid_targets_min": 702
    },
    {
      "epoch": 4.682539682539683,
      "grad_norm": 1.0811536769207744,
      "learning_rate": 5.727796911764955e-06,
      "loss": 0.1698,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.17252852022647858,
      "step": 295,
      "valid_targets_mean": 1290.1,
      "valid_targets_min": 622
    },
    {
      "epoch": 4.761904761904762,
      "grad_norm": 1.0374368953244144,
      "learning_rate": 5.095955703960746e-06,
      "loss": 0.1625,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.17260053753852844,
      "step": 300,
      "valid_targets_mean": 1328.1,
      "valid_targets_min": 643
    },
    {
      "epoch": 4.841269841269841,
      "grad_norm": 1.034565590736608,
      "learning_rate": 4.495920477777403e-06,
      "loss": 0.1551,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.14985054731369019,
      "step": 305,
      "valid_targets_mean": 1234.3,
      "valid_targets_min": 615
    },
    {
      "epoch": 4.920634920634921,
      "grad_norm": 1.0765022207707986,
      "learning_rate": 3.9289717386265255e-06,
      "loss": 0.1592,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.1612224131822586,
      "step": 310,
      "valid_targets_mean": 1193.8,
      "valid_targets_min": 740
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.9478245585431166,
      "learning_rate": 3.3963193836889907e-06,
      "loss": 0.157,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.1592485010623932,
      "step": 315,
      "valid_targets_mean": 1360.1,
      "valid_targets_min": 706
    },
    {
      "epoch": 5.079365079365079,
      "grad_norm": 1.0328174266538293,
      "learning_rate": 2.89910011993338e-06,
      "loss": 0.151,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.14890140295028687,
      "step": 320,
      "valid_targets_mean": 1574.1,
      "valid_targets_min": 718
    },
    {
      "epoch": 5.158730158730159,
      "grad_norm": 0.9579410192765627,
      "learning_rate": 2.4383750383260417e-06,
      "loss": 0.1526,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.14151515066623688,
      "step": 325,
      "valid_targets_mean": 1227.1,
      "valid_targets_min": 680
    },
    {
      "epoch": 5.238095238095238,
      "grad_norm": 1.0498590988698493,
      "learning_rate": 2.015127349409489e-06,
      "loss": 0.1492,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.15444359183311462,
      "step": 330,
      "valid_targets_mean": 1198.4,
      "valid_targets_min": 620
    },
    {
      "epoch": 5.317460317460317,
      "grad_norm": 1.090019046173157,
      "learning_rate": 1.6302602850815397e-06,
      "loss": 0.1475,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.15183570981025696,
      "step": 335,
      "valid_targets_mean": 1241.6,
      "valid_targets_min": 692
    },
    {
      "epoch": 5.396825396825397,
      "grad_norm": 1.0209735271764744,
      "learning_rate": 1.2845951710529513e-06,
      "loss": 0.1564,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.16618052124977112,
      "step": 340,
      "valid_targets_mean": 1384.1,
      "valid_targets_min": 826
    },
    {
      "epoch": 5.476190476190476,
      "grad_norm": 1.167276848177137,
      "learning_rate": 9.788696740969295e-07,
      "loss": 0.1449,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.15419039130210876,
      "step": 345,
      "valid_targets_mean": 1056.2,
      "valid_targets_min": 622
    },
    {
      "epoch": 5.555555555555555,
      "grad_norm": 1.0131829348691888,
      "learning_rate": 7.137362278311033e-07,
      "loss": 0.1472,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.13364669680595398,
      "step": 350,
      "valid_targets_mean": 1154.5,
      "valid_targets_min": 644
    },
    {
      "epoch": 5.634920634920634,
      "grad_norm": 1.1216486988072,
      "learning_rate": 4.89760640391268e-07,
      "loss": 0.1492,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.1446513682603836,
      "step": 355,
      "valid_targets_mean": 1223.9,
      "valid_targets_min": 615
    },
    {
      "epoch": 5.714285714285714,
      "grad_norm": 1.0546772616513356,
      "learning_rate": 3.074208869683282e-07,
      "loss": 0.1573,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.14680185914039612,
      "step": 360,
      "valid_targets_mean": 1361.4,
      "valid_targets_min": 882
    },
    {
      "epoch": 5.7936507936507935,
      "grad_norm": 1.1759274152221304,
      "learning_rate": 1.6710608978514509e-07,
      "loss": 0.1529,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.16227003931999207,
      "step": 365,
      "valid_targets_mean": 1172.2,
      "valid_targets_min": 636
    },
    {
      "epoch": 5.8730158730158735,
      "grad_norm": 1.064627033500516,
      "learning_rate": 6.91156876901089e-08,
      "loss": 0.1514,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.18192672729492188,
      "step": 370,
      "valid_targets_mean": 1303.9,
      "valid_targets_min": 618
    },
    {
      "epoch": 5.9523809523809526,
      "grad_norm": 1.1282545011521061,
      "learning_rate": 1.365879713954188e-08,
      "loss": 0.1454,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.1329009234905243,
      "step": 375,
      "valid_targets_mean": 1124.7,
      "valid_targets_min": 702
    },
    {
      "epoch": 6.0,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.15850412845611572,
      "step": 378,
      "total_flos": 39306874650624.0,
      "train_loss": 0.23945725027215545,
      "train_runtime": 1368.0623,
      "train_samples_per_second": 4.386,
      "train_steps_per_second": 0.276,
      "valid_targets_mean": 1612.7,
      "valid_targets_min": 692
    }
  ],
  "logging_steps": 5,
  "max_steps": 378,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 6,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 39306874650624.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
 }
--- a/training_args.bin
+++ b/training_args.bin
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:cc07f2fe778278f3948a59e1c0c2ae4f27db3750646fb87d344809cdf499faa9
 size 8657
--- a/training_loss.png
+++ b/training_loss.png
--- a/vocab.json
+++ b/vocab.json