初始化项目，由ModelHub XC社区提供模型

Model: lllqaq/Qwen2.5-Coder-7B-fim-v2-filtered-0316 Source: Original Platform
2026-05-25 03:01:17 +08:00
commit 617c942ebd
22 changed files with 153747 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,36 @@
+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,61 @@
+---
+library_name: transformers
+license: other
+base_model: Qwen/Qwen2.5-Coder-7B-Instruct
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: Qwen2.5-Coder-7B-fim-v2-filtered-0316
+  results: []
+---
+
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+
+# Qwen2.5-Coder-7B-fim-v2-filtered-0316
+
+This model is a fine-tuned version of [Qwen/Qwen2.5-Coder-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-Coder-7B-Instruct) on the fim_midtrain_v2_filtered dataset.
+
+## Model description
+
+More information needed
+
+## Intended uses & limitations
+
+More information needed
+
+## Training and evaluation data
+
+More information needed
+
+## Training procedure
+
+### Training hyperparameters
+
+The following hyperparameters were used during training:
+- learning_rate: 1e-05
+- train_batch_size: 1
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 16
+- total_train_batch_size: 128
+- total_eval_batch_size: 64
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1.0
+
+### Training results
+
+
+
+### Framework versions
+
+- Transformers 4.57.1
+- Pytorch 2.6.0+cu124
+- Datasets 4.0.0
+- Tokenizers 0.22.2
--- a/added_tokens.json
+++ b/added_tokens.json
@@ -0,0 +1,24 @@
+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}
--- a/all_results.json
+++ b/all_results.json
@@ -0,0 +1,8 @@
+{
+    "epoch": 1.0,
+    "total_flos": 4.5944668897526415e+18,
+    "train_loss": 0.5047884532486893,
+    "train_runtime": 92781.3825,
+    "train_samples_per_second": 2.499,
+    "train_steps_per_second": 0.02
+}
--- a/chat_template.jinja
+++ b/chat_template.jinja
@@ -0,0 +1,54 @@
+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- messages[0]['content'] }}
+    {%- else %}
+        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}
+    {%- endif %}
+    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
+    {%- else %}
+        {{- '<|im_start|>system\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role }}
+        {%- if message.content %}
+            {{- '\n' + message.content }}
+        {%- endif %}
+        {%- for tool_call in message.tool_calls %}
+            {%- if tool_call.function is defined %}
+                {%- set tool_call = tool_call.function %}
+            {%- endif %}
+            {{- '\n<tool_call>\n{"name": "' }}
+            {{- tool_call.name }}
+            {{- '", "arguments": ' }}
+            {{- tool_call.arguments | tojson }}
+            {{- '}\n</tool_call>' }}
+        {%- endfor %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- message.content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}
--- a/config.json
+++ b/config.json
@@ -0,0 +1,58 @@
+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "pad_token_id": 151643,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "transformers_version": "4.57.1",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,13 @@
+{
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.1,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.57.1"
+}
--- a/merges.txt
+++ b/merges.txt
--- a/model-00001-of-00004.safetensors
+++ b/model-00001-of-00004.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:af2d6f0a1d05588aefbff96f059dd1165808a9bd24a26ec332ae6b2c0504e4b3
+size 4877660776
--- a/model-00002-of-00004.safetensors
+++ b/model-00002-of-00004.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e3abb6b9306d9ee13618a87bb57f81c03739d98d280c10ac2b39eed8adfd882a
+size 4932751008
--- a/model-00003-of-00004.safetensors
+++ b/model-00003-of-00004.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:55b3d80e372d73f52ec9c32d052f511a171810cfd4bc3d616007b7b3ff8b9486
+size 4330865200
--- a/model-00004-of-00004.safetensors
+++ b/model-00004-of-00004.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:86203a501a48da73f7cfae327c502ef509ba0a8543489e6611884012347bff84
+size 1089994880
--- a/model.safetensors.index.json
+++ b/model.safetensors.index.json
@@ -0,0 +1,347 @@
+{
+  "metadata": {
+    "total_parameters": 333312,
+    "total_size": 15231233024
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.norm.weight": "model-00003-of-00004.safetensors"
+  }
+}
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,31 @@
+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}
--- a/tokenizer.json
+++ b/tokenizer.json
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9c5ae00e602b8860cbd784ba82a8aa14e8feecec692e7076590d014d7b7fdafa
+size 11421896
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,208 @@
+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 32768,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}
--- a/train_results.json
+++ b/train_results.json
@@ -0,0 +1,8 @@
+{
+    "epoch": 1.0,
+    "total_flos": 4.5944668897526415e+18,
+    "train_loss": 0.5047884532486893,
+    "train_runtime": 92781.3825,
+    "train_samples_per_second": 2.499,
+    "train_steps_per_second": 0.02
+}
--- a/trainer_log.jsonl
+++ b/trainer_log.jsonl
@@ -0,0 +1,182 @@
+{"current_steps": 10, "total_steps": 1812, "loss": 0.8242, "lr": 4.945054945054946e-07, "epoch": 0.0055206680008281, "percentage": 0.55, "elapsed_time": "0:09:32", "remaining_time": "1 day, 4:39:05"}
+{"current_steps": 20, "total_steps": 1812, "loss": 0.8091, "lr": 1.0439560439560442e-06, "epoch": 0.0110413360016562, "percentage": 1.1, "elapsed_time": "0:18:18", "remaining_time": "1 day, 3:21:07"}
+{"current_steps": 30, "total_steps": 1812, "loss": 0.7388, "lr": 1.5934065934065933e-06, "epoch": 0.0165620040024843, "percentage": 1.66, "elapsed_time": "0:26:41", "remaining_time": "1 day, 2:25:38"}
+{"current_steps": 40, "total_steps": 1812, "loss": 0.679, "lr": 2.1428571428571427e-06, "epoch": 0.0220826720033124, "percentage": 2.21, "elapsed_time": "0:35:41", "remaining_time": "1 day, 2:21:04"}
+{"current_steps": 50, "total_steps": 1812, "loss": 0.6528, "lr": 2.6923076923076923e-06, "epoch": 0.0276033400041405, "percentage": 2.76, "elapsed_time": "0:43:11", "remaining_time": "1 day, 1:22:13"}
+{"current_steps": 60, "total_steps": 1812, "loss": 0.6198, "lr": 3.2417582417582424e-06, "epoch": 0.0331240080049686, "percentage": 3.31, "elapsed_time": "0:52:25", "remaining_time": "1 day, 1:30:38"}
+{"current_steps": 70, "total_steps": 1812, "loss": 0.615, "lr": 3.7912087912087915e-06, "epoch": 0.0386446760057967, "percentage": 3.86, "elapsed_time": "1:00:58", "remaining_time": "1 day, 1:17:22"}
+{"current_steps": 80, "total_steps": 1812, "loss": 0.5839, "lr": 4.340659340659341e-06, "epoch": 0.0441653440066248, "percentage": 4.42, "elapsed_time": "1:09:14", "remaining_time": "1 day, 0:58:58"}
+{"current_steps": 90, "total_steps": 1812, "loss": 0.5818, "lr": 4.890109890109891e-06, "epoch": 0.0496860120074529, "percentage": 4.97, "elapsed_time": "1:18:10", "remaining_time": "1 day, 0:55:50"}
+{"current_steps": 100, "total_steps": 1812, "loss": 0.5811, "lr": 5.43956043956044e-06, "epoch": 0.055206680008281, "percentage": 5.52, "elapsed_time": "1:25:42", "remaining_time": "1 day, 0:27:24"}
+{"current_steps": 110, "total_steps": 1812, "loss": 0.5661, "lr": 5.989010989010989e-06, "epoch": 0.0607273480091091, "percentage": 6.07, "elapsed_time": "1:35:14", "remaining_time": "1 day, 0:33:37"}
+{"current_steps": 120, "total_steps": 1812, "loss": 0.5648, "lr": 6.538461538461539e-06, "epoch": 0.0662480160099372, "percentage": 6.62, "elapsed_time": "1:43:42", "remaining_time": "1 day, 0:22:13"}
+{"current_steps": 130, "total_steps": 1812, "loss": 0.568, "lr": 7.087912087912089e-06, "epoch": 0.0717686840107653, "percentage": 7.17, "elapsed_time": "1:51:58", "remaining_time": "1 day, 0:08:51"}
+{"current_steps": 140, "total_steps": 1812, "loss": 0.5625, "lr": 7.637362637362638e-06, "epoch": 0.0772893520115934, "percentage": 7.73, "elapsed_time": "2:00:57", "remaining_time": "1 day, 0:04:36"}
+{"current_steps": 150, "total_steps": 1812, "loss": 0.5519, "lr": 8.186813186813188e-06, "epoch": 0.0828100200124215, "percentage": 8.28, "elapsed_time": "2:08:34", "remaining_time": "23:44:32"}
+{"current_steps": 160, "total_steps": 1812, "loss": 0.5435, "lr": 8.736263736263737e-06, "epoch": 0.0883306880132496, "percentage": 8.83, "elapsed_time": "2:17:56", "remaining_time": "23:44:11"}
+{"current_steps": 170, "total_steps": 1812, "loss": 0.55, "lr": 9.285714285714288e-06, "epoch": 0.09385135601407771, "percentage": 9.38, "elapsed_time": "2:26:18", "remaining_time": "23:33:14"}
+{"current_steps": 180, "total_steps": 1812, "loss": 0.5518, "lr": 9.835164835164835e-06, "epoch": 0.0993720240149058, "percentage": 9.93, "elapsed_time": "2:34:26", "remaining_time": "23:20:17"}
+{"current_steps": 190, "total_steps": 1812, "loss": 0.5433, "lr": 9.999544955323775e-06, "epoch": 0.10489269201573391, "percentage": 10.49, "elapsed_time": "2:43:22", "remaining_time": "23:14:39"}
+{"current_steps": 200, "total_steps": 1812, "loss": 0.5481, "lr": 9.997316364460749e-06, "epoch": 0.110413360016562, "percentage": 11.04, "elapsed_time": "2:51:04", "remaining_time": "22:58:53"}
+{"current_steps": 210, "total_steps": 1812, "loss": 0.5358, "lr": 9.993231474572122e-06, "epoch": 0.1159340280173901, "percentage": 11.59, "elapsed_time": "3:00:24", "remaining_time": "22:56:16"}
+{"current_steps": 220, "total_steps": 1812, "loss": 0.5483, "lr": 9.98729180302773e-06, "epoch": 0.1214546960182182, "percentage": 12.14, "elapsed_time": "3:08:52", "remaining_time": "22:46:49"}
+{"current_steps": 230, "total_steps": 1812, "loss": 0.5398, "lr": 9.97949955617308e-06, "epoch": 0.1269753640190463, "percentage": 12.69, "elapsed_time": "3:16:55", "remaining_time": "22:34:31"}
+{"current_steps": 240, "total_steps": 1812, "loss": 0.5314, "lr": 9.969857628509778e-06, "epoch": 0.1324960320198744, "percentage": 13.25, "elapsed_time": "3:26:06", "remaining_time": "22:30:02"}
+{"current_steps": 250, "total_steps": 1812, "loss": 0.5333, "lr": 9.958369601620341e-06, "epoch": 0.13801670002070252, "percentage": 13.8, "elapsed_time": "3:34:01", "remaining_time": "22:17:12"}
+{"current_steps": 260, "total_steps": 1812, "loss": 0.5214, "lr": 9.945039742837788e-06, "epoch": 0.1435373680215306, "percentage": 14.35, "elapsed_time": "3:43:16", "remaining_time": "22:12:47"}
+{"current_steps": 270, "total_steps": 1812, "loss": 0.5326, "lr": 9.929873003660493e-06, "epoch": 0.1490580360223587, "percentage": 14.9, "elapsed_time": "3:51:50", "remaining_time": "22:04:02"}
+{"current_steps": 280, "total_steps": 1812, "loss": 0.5258, "lr": 9.912875017912917e-06, "epoch": 0.1545787040231868, "percentage": 15.45, "elapsed_time": "3:59:49", "remaining_time": "21:52:11"}
+{"current_steps": 290, "total_steps": 1812, "loss": 0.5335, "lr": 9.89405209965286e-06, "epoch": 0.16009937202401492, "percentage": 16.0, "elapsed_time": "4:08:40", "remaining_time": "21:45:08"}
+{"current_steps": 300, "total_steps": 1812, "loss": 0.5258, "lr": 9.873411240826056e-06, "epoch": 0.165620040024843, "percentage": 16.56, "elapsed_time": "4:16:15", "remaining_time": "21:31:31"}
+{"current_steps": 310, "total_steps": 1812, "loss": 0.521, "lr": 9.850960108668942e-06, "epoch": 0.1711407080256711, "percentage": 17.11, "elapsed_time": "4:25:23", "remaining_time": "21:25:53"}
+{"current_steps": 320, "total_steps": 1812, "loss": 0.5311, "lr": 9.8267070428606e-06, "epoch": 0.1766613760264992, "percentage": 17.66, "elapsed_time": "4:33:55", "remaining_time": "21:17:08"}
+{"current_steps": 330, "total_steps": 1812, "loss": 0.5281, "lr": 9.800661052424903e-06, "epoch": 0.1821820440273273, "percentage": 18.21, "elapsed_time": "4:42:07", "remaining_time": "21:07:01"}
+{"current_steps": 340, "total_steps": 1812, "loss": 0.5241, "lr": 9.77283181238403e-06, "epoch": 0.18770271202815542, "percentage": 18.76, "elapsed_time": "4:50:58", "remaining_time": "20:59:45"}
+{"current_steps": 350, "total_steps": 1812, "loss": 0.526, "lr": 9.743229660164594e-06, "epoch": 0.1932233800289835, "percentage": 19.32, "elapsed_time": "4:58:27", "remaining_time": "20:46:43"}
+{"current_steps": 360, "total_steps": 1812, "loss": 0.5103, "lr": 9.711865591757704e-06, "epoch": 0.1987440480298116, "percentage": 19.87, "elapsed_time": "5:07:38", "remaining_time": "20:40:48"}
+{"current_steps": 370, "total_steps": 1812, "loss": 0.5191, "lr": 9.67875125763441e-06, "epoch": 0.2042647160306397, "percentage": 20.42, "elapsed_time": "5:16:13", "remaining_time": "20:32:25"}
+{"current_steps": 380, "total_steps": 1812, "loss": 0.5241, "lr": 9.643898958418023e-06, "epoch": 0.20978538403146782, "percentage": 20.97, "elapsed_time": "5:24:25", "remaining_time": "20:22:35"}
+{"current_steps": 390, "total_steps": 1812, "loss": 0.5128, "lr": 9.607321640314935e-06, "epoch": 0.2153060520322959, "percentage": 21.52, "elapsed_time": "5:33:28", "remaining_time": "20:15:54"}
+{"current_steps": 400, "total_steps": 1812, "loss": 0.5227, "lr": 9.569032890305642e-06, "epoch": 0.220826720033124, "percentage": 22.08, "elapsed_time": "5:41:02", "remaining_time": "20:03:53"}
+{"current_steps": 410, "total_steps": 1812, "loss": 0.513, "lr": 9.52904693109772e-06, "epoch": 0.2263473880339521, "percentage": 22.63, "elapsed_time": "5:50:11", "remaining_time": "19:57:28"}
+{"current_steps": 420, "total_steps": 1812, "loss": 0.5134, "lr": 9.487378615842683e-06, "epoch": 0.2318680560347802, "percentage": 23.18, "elapsed_time": "5:58:45", "remaining_time": "19:49:01"}
+{"current_steps": 430, "total_steps": 1812, "loss": 0.5083, "lr": 9.444043422618635e-06, "epoch": 0.23738872403560832, "percentage": 23.73, "elapsed_time": "6:06:59", "remaining_time": "19:39:29"}
+{"current_steps": 440, "total_steps": 1812, "loss": 0.5125, "lr": 9.399057448680801e-06, "epoch": 0.2429093920364364, "percentage": 24.28, "elapsed_time": "6:15:49", "remaining_time": "19:31:52"}
+{"current_steps": 450, "total_steps": 1812, "loss": 0.5149, "lr": 9.352437404482053e-06, "epoch": 0.2484300600372645, "percentage": 24.83, "elapsed_time": "6:23:30", "remaining_time": "19:20:46"}
+{"current_steps": 460, "total_steps": 1812, "loss": 0.5146, "lr": 9.304200607465655e-06, "epoch": 0.2539507280380926, "percentage": 25.39, "elapsed_time": "6:32:41", "remaining_time": "19:14:11"}
+{"current_steps": 470, "total_steps": 1812, "loss": 0.5056, "lr": 9.254364975632541e-06, "epoch": 0.2594713960389207, "percentage": 25.94, "elapsed_time": "6:41:12", "remaining_time": "19:05:34"}
+{"current_steps": 480, "total_steps": 1812, "loss": 0.5047, "lr": 9.202949020885519e-06, "epoch": 0.2649920640397488, "percentage": 26.49, "elapsed_time": "6:49:29", "remaining_time": "18:56:19"}
+{"current_steps": 490, "total_steps": 1812, "loss": 0.5135, "lr": 9.149971842152836e-06, "epoch": 0.2705127320405769, "percentage": 27.04, "elapsed_time": "6:58:28", "remaining_time": "18:49:02"}
+{"current_steps": 500, "total_steps": 1812, "loss": 0.5117, "lr": 9.095453118293724e-06, "epoch": 0.27603340004140503, "percentage": 27.59, "elapsed_time": "7:06:09", "remaining_time": "18:38:14"}
+{"current_steps": 510, "total_steps": 1812, "loss": 0.4981, "lr": 9.039413100788495e-06, "epoch": 0.2815540680422331, "percentage": 28.15, "elapsed_time": "7:15:16", "remaining_time": "18:31:14"}
+{"current_steps": 520, "total_steps": 1812, "loss": 0.5075, "lr": 8.98187260621595e-06, "epoch": 0.2870747360430612, "percentage": 28.7, "elapsed_time": "7:23:44", "remaining_time": "18:22:31"}
+{"current_steps": 530, "total_steps": 1812, "loss": 0.5137, "lr": 8.922853008520867e-06, "epoch": 0.2925954040438893, "percentage": 29.25, "elapsed_time": "7:31:45", "remaining_time": "18:12:44"}
+{"current_steps": 540, "total_steps": 1812, "loss": 0.5093, "lr": 8.862376231074452e-06, "epoch": 0.2981160720447174, "percentage": 29.8, "elapsed_time": "7:40:37", "remaining_time": "18:05:00"}
+{"current_steps": 550, "total_steps": 1812, "loss": 0.5053, "lr": 8.800464738530701e-06, "epoch": 0.30363674004554553, "percentage": 30.35, "elapsed_time": "7:48:11", "remaining_time": "17:54:17"}
+{"current_steps": 560, "total_steps": 1812, "loss": 0.4961, "lr": 8.737141528481705e-06, "epoch": 0.3091574080463736, "percentage": 30.91, "elapsed_time": "7:57:27", "remaining_time": "17:47:27"}
+{"current_steps": 570, "total_steps": 1812, "loss": 0.5078, "lr": 8.67243012291497e-06, "epoch": 0.3146780760472017, "percentage": 31.46, "elapsed_time": "8:05:58", "remaining_time": "17:38:55"}
+{"current_steps": 580, "total_steps": 1812, "loss": 0.5076, "lr": 8.606354559475975e-06, "epoch": 0.32019874404802984, "percentage": 32.01, "elapsed_time": "8:14:10", "remaining_time": "17:29:41"}
+{"current_steps": 590, "total_steps": 1812, "loss": 0.511, "lr": 8.538939382539155e-06, "epoch": 0.3257194120488579, "percentage": 32.56, "elapsed_time": "8:23:15", "remaining_time": "17:22:21"}
+{"current_steps": 600, "total_steps": 1812, "loss": 0.5071, "lr": 8.470209634090676e-06, "epoch": 0.331240080049686, "percentage": 33.11, "elapsed_time": "8:30:49", "remaining_time": "17:11:51"}
+{"current_steps": 610, "total_steps": 1812, "loss": 0.5003, "lr": 8.400190844426355e-06, "epoch": 0.3367607480505141, "percentage": 33.66, "elapsed_time": "8:40:09", "remaining_time": "17:04:58"}
+{"current_steps": 620, "total_steps": 1812, "loss": 0.5077, "lr": 8.328909022668196e-06, "epoch": 0.3422814160513422, "percentage": 34.22, "elapsed_time": "8:48:53", "remaining_time": "16:56:49"}
+{"current_steps": 630, "total_steps": 1812, "loss": 0.5047, "lr": 8.256390647103072e-06, "epoch": 0.34780208405217033, "percentage": 34.77, "elapsed_time": "8:57:08", "remaining_time": "16:47:47"}
+{"current_steps": 640, "total_steps": 1812, "loss": 0.4994, "lr": 8.182662655347108e-06, "epoch": 0.3533227520529984, "percentage": 35.32, "elapsed_time": "9:06:17", "remaining_time": "16:40:22"}
+{"current_steps": 650, "total_steps": 1812, "loss": 0.5017, "lr": 8.107752434339469e-06, "epoch": 0.3588434200538265, "percentage": 35.87, "elapsed_time": "9:13:50", "remaining_time": "16:30:05"}
+{"current_steps": 660, "total_steps": 1812, "loss": 0.4958, "lr": 8.031687810169224e-06, "epoch": 0.3643640880546546, "percentage": 36.42, "elapsed_time": "9:23:10", "remaining_time": "16:23:00"}
+{"current_steps": 670, "total_steps": 1812, "loss": 0.5078, "lr": 7.95449703773909e-06, "epoch": 0.3698847560554827, "percentage": 36.98, "elapsed_time": "9:31:42", "remaining_time": "16:14:28"}
+{"current_steps": 680, "total_steps": 1812, "loss": 0.5049, "lr": 7.876208790269894e-06, "epoch": 0.37540542405631083, "percentage": 37.53, "elapsed_time": "9:39:48", "remaining_time": "16:05:12"}
+{"current_steps": 690, "total_steps": 1812, "loss": 0.4977, "lr": 7.796852148649636e-06, "epoch": 0.3809260920571389, "percentage": 38.08, "elapsed_time": "9:48:50", "remaining_time": "15:57:30"}
+{"current_steps": 700, "total_steps": 1812, "loss": 0.5006, "lr": 7.716456590631125e-06, "epoch": 0.386446760057967, "percentage": 38.63, "elapsed_time": "9:56:25", "remaining_time": "15:47:27"}
+{"current_steps": 710, "total_steps": 1812, "loss": 0.4923, "lr": 7.635051979882205e-06, "epoch": 0.3919674280587951, "percentage": 39.18, "elapsed_time": "10:05:49", "remaining_time": "15:40:19"}
+{"current_steps": 720, "total_steps": 1812, "loss": 0.5006, "lr": 7.552668554892614e-06, "epoch": 0.3974880960596232, "percentage": 39.74, "elapsed_time": "10:14:12", "remaining_time": "15:31:32"}
+{"current_steps": 730, "total_steps": 1812, "loss": 0.4963, "lr": 7.469336917741627e-06, "epoch": 0.40300876406045133, "percentage": 40.29, "elapsed_time": "10:22:16", "remaining_time": "15:22:19"}
+{"current_steps": 740, "total_steps": 1812, "loss": 0.4965, "lr": 7.385088022730624e-06, "epoch": 0.4085294320612794, "percentage": 40.84, "elapsed_time": "10:31:13", "remaining_time": "15:14:25"}
+{"current_steps": 750, "total_steps": 1812, "loss": 0.4951, "lr": 7.299953164884839e-06, "epoch": 0.4140501000621075, "percentage": 41.39, "elapsed_time": "10:38:49", "remaining_time": "15:04:35"}
+{"current_steps": 760, "total_steps": 1812, "loss": 0.4892, "lr": 7.213963968328526e-06, "epoch": 0.41957076806293564, "percentage": 41.94, "elapsed_time": "10:48:06", "remaining_time": "14:57:06"}
+{"current_steps": 770, "total_steps": 1812, "loss": 0.5004, "lr": 7.1271523745379e-06, "epoch": 0.4250914360637637, "percentage": 42.49, "elapsed_time": "10:56:26", "remaining_time": "14:48:19"}
+{"current_steps": 780, "total_steps": 1812, "loss": 0.4931, "lr": 7.039550630476171e-06, "epoch": 0.4306121040645918, "percentage": 43.05, "elapsed_time": "11:04:40", "remaining_time": "14:39:25"}
+{"current_steps": 790, "total_steps": 1812, "loss": 0.4921, "lr": 6.951191276615123e-06, "epoch": 0.4361327720654199, "percentage": 43.6, "elapsed_time": "11:13:49", "remaining_time": "14:31:42"}
+{"current_steps": 800, "total_steps": 1812, "loss": 0.5004, "lr": 6.8621071348476485e-06, "epoch": 0.441653440066248, "percentage": 44.15, "elapsed_time": "11:21:29", "remaining_time": "14:22:04"}
+{"current_steps": 810, "total_steps": 1812, "loss": 0.4891, "lr": 6.772331296295763e-06, "epoch": 0.44717410806707614, "percentage": 44.7, "elapsed_time": "11:30:40", "remaining_time": "14:14:23"}
+{"current_steps": 820, "total_steps": 1812, "loss": 0.4911, "lr": 6.681897109018599e-06, "epoch": 0.4526947760679042, "percentage": 45.25, "elapsed_time": "11:39:13", "remaining_time": "14:05:53"}
+{"current_steps": 830, "total_steps": 1812, "loss": 0.495, "lr": 6.590838165624966e-06, "epoch": 0.4582154440687323, "percentage": 45.81, "elapsed_time": "11:47:23", "remaining_time": "13:56:56"}
+{"current_steps": 840, "total_steps": 1812, "loss": 0.4917, "lr": 6.4991882907950624e-06, "epoch": 0.4637361120695604, "percentage": 46.36, "elapsed_time": "11:56:28", "remaining_time": "13:49:04"}
+{"current_steps": 850, "total_steps": 1812, "loss": 0.4906, "lr": 6.4069815287159975e-06, "epoch": 0.4692567800703885, "percentage": 46.91, "elapsed_time": "12:04:10", "remaining_time": "13:39:35"}
+{"current_steps": 860, "total_steps": 1812, "loss": 0.4896, "lr": 6.314252130435758e-06, "epoch": 0.47477744807121663, "percentage": 47.46, "elapsed_time": "12:13:24", "remaining_time": "13:31:51"}
+{"current_steps": 870, "total_steps": 1812, "loss": 0.4866, "lr": 6.2210345411403416e-06, "epoch": 0.4802981160720447, "percentage": 48.01, "elapsed_time": "12:21:56", "remaining_time": "13:23:21"}
+{"current_steps": 880, "total_steps": 1812, "loss": 0.4917, "lr": 6.127363387358782e-06, "epoch": 0.4858187840728728, "percentage": 48.57, "elapsed_time": "12:30:09", "remaining_time": "13:14:29"}
+{"current_steps": 890, "total_steps": 1812, "loss": 0.4986, "lr": 6.033273464100801e-06, "epoch": 0.49133945207370094, "percentage": 49.12, "elapsed_time": "12:39:10", "remaining_time": "13:06:28"}
+{"current_steps": 900, "total_steps": 1812, "loss": 0.4911, "lr": 5.938799721931889e-06, "epoch": 0.496860120074529, "percentage": 49.67, "elapsed_time": "12:46:50", "remaining_time": "12:57:04"}
+{"current_steps": 910, "total_steps": 1812, "loss": 0.4876, "lr": 5.84397725399059e-06, "epoch": 0.5023807880753571, "percentage": 50.22, "elapsed_time": "12:56:12", "remaining_time": "12:49:22"}
+{"current_steps": 920, "total_steps": 1812, "loss": 0.4869, "lr": 5.748841282952837e-06, "epoch": 0.5079014560761852, "percentage": 50.77, "elapsed_time": "13:04:46", "remaining_time": "12:40:53"}
+{"current_steps": 930, "total_steps": 1812, "loss": 0.4914, "lr": 5.653427147948167e-06, "epoch": 0.5134221240770133, "percentage": 51.32, "elapsed_time": "13:13:01", "remaining_time": "12:32:06"}
+{"current_steps": 940, "total_steps": 1812, "loss": 0.4852, "lr": 5.557770291432678e-06, "epoch": 0.5189427920778414, "percentage": 51.88, "elapsed_time": "13:22:04", "remaining_time": "12:24:02"}
+{"current_steps": 950, "total_steps": 1812, "loss": 0.4905, "lr": 5.461906246023592e-06, "epoch": 0.5244634600786695, "percentage": 52.43, "elapsed_time": "13:29:35", "remaining_time": "12:14:35"}
+{"current_steps": 960, "total_steps": 1812, "loss": 0.4764, "lr": 5.365870621300354e-06, "epoch": 0.5299841280794976, "percentage": 52.98, "elapsed_time": "13:39:01", "remaining_time": "12:06:53"}
+{"current_steps": 970, "total_steps": 1812, "loss": 0.4853, "lr": 5.2696990905771196e-06, "epoch": 0.5355047960803258, "percentage": 53.53, "elapsed_time": "13:47:25", "remaining_time": "11:58:14"}
+{"current_steps": 980, "total_steps": 1812, "loss": 0.4927, "lr": 5.173427377651572e-06, "epoch": 0.5410254640811538, "percentage": 54.08, "elapsed_time": "13:55:24", "remaining_time": "11:49:15"}
+{"current_steps": 990, "total_steps": 1812, "loss": 0.4814, "lr": 5.077091243534996e-06, "epoch": 0.5465461320819819, "percentage": 54.64, "elapsed_time": "14:04:25", "remaining_time": "11:41:07"}
+{"current_steps": 1000, "total_steps": 1812, "loss": 0.4863, "lr": 4.9807264731685174e-06, "epoch": 0.5520668000828101, "percentage": 55.19, "elapsed_time": "14:11:53", "remaining_time": "11:31:44"}
+{"current_steps": 1010, "total_steps": 1812, "loss": 0.4784, "lr": 4.884368862130459e-06, "epoch": 0.5575874680836381, "percentage": 55.74, "elapsed_time": "14:21:25", "remaining_time": "11:24:01"}
+{"current_steps": 1020, "total_steps": 1812, "loss": 0.4944, "lr": 4.7880542033397466e-06, "epoch": 0.5631081360844662, "percentage": 56.29, "elapsed_time": "14:29:41", "remaining_time": "11:15:17"}
+{"current_steps": 1030, "total_steps": 1812, "loss": 0.4855, "lr": 4.691818273760302e-06, "epoch": 0.5686288040852944, "percentage": 56.84, "elapsed_time": "14:37:52", "remaining_time": "11:06:30"}
+{"current_steps": 1040, "total_steps": 1812, "loss": 0.4826, "lr": 4.595696821111354e-06, "epoch": 0.5741494720861224, "percentage": 57.4, "elapsed_time": "14:46:52", "remaining_time": "10:58:20"}
+{"current_steps": 1050, "total_steps": 1812, "loss": 0.4847, "lr": 4.499725550588626e-06, "epoch": 0.5796701400869505, "percentage": 57.95, "elapsed_time": "14:54:17", "remaining_time": "10:49:00"}
+{"current_steps": 1060, "total_steps": 1812, "loss": 0.4781, "lr": 4.4039401116013195e-06, "epoch": 0.5851908080877786, "percentage": 58.5, "elapsed_time": "15:03:43", "remaining_time": "10:41:08"}
+{"current_steps": 1070, "total_steps": 1812, "loss": 0.4892, "lr": 4.3083760845297956e-06, "epoch": 0.5907114760886067, "percentage": 59.05, "elapsed_time": "15:12:22", "remaining_time": "10:32:41"}
+{"current_steps": 1080, "total_steps": 1812, "loss": 0.481, "lr": 4.213068967508932e-06, "epoch": 0.5962321440894348, "percentage": 59.6, "elapsed_time": "15:20:34", "remaining_time": "10:23:56"}
+{"current_steps": 1090, "total_steps": 1812, "loss": 0.4803, "lr": 4.118054163242015e-06, "epoch": 0.6017528120902629, "percentage": 60.15, "elapsed_time": "15:29:37", "remaining_time": "10:15:46"}
+{"current_steps": 1100, "total_steps": 1812, "loss": 0.4883, "lr": 4.023366965850071e-06, "epoch": 0.6072734800910911, "percentage": 60.71, "elapsed_time": "15:37:23", "remaining_time": "10:06:44"}
+{"current_steps": 1110, "total_steps": 1812, "loss": 0.4782, "lr": 3.929042547761544e-06, "epoch": 0.6127941480919191, "percentage": 61.26, "elapsed_time": "15:46:50", "remaining_time": "9:58:48"}
+{"current_steps": 1120, "total_steps": 1812, "loss": 0.4843, "lr": 3.835115946647182e-06, "epoch": 0.6183148160927472, "percentage": 61.81, "elapsed_time": "15:55:42", "remaining_time": "9:50:29"}
+{"current_steps": 1130, "total_steps": 1812, "loss": 0.4843, "lr": 3.741622052404964e-06, "epoch": 0.6238354840935754, "percentage": 62.36, "elapsed_time": "16:03:51", "remaining_time": "9:41:43"}
+{"current_steps": 1140, "total_steps": 1812, "loss": 0.4744, "lr": 3.6485955941999286e-06, "epoch": 0.6293561520944034, "percentage": 62.91, "elapsed_time": "16:12:51", "remaining_time": "9:33:28"}
+{"current_steps": 1150, "total_steps": 1812, "loss": 0.4814, "lr": 3.5560711275637137e-06, "epoch": 0.6348768200952315, "percentage": 63.47, "elapsed_time": "16:20:19", "remaining_time": "9:24:19"}
+{"current_steps": 1160, "total_steps": 1812, "loss": 0.4782, "lr": 3.4640830215585786e-06, "epoch": 0.6403974880960597, "percentage": 64.02, "elapsed_time": "16:29:45", "remaining_time": "9:16:18"}
+{"current_steps": 1170, "total_steps": 1812, "loss": 0.4781, "lr": 3.372665446010701e-06, "epoch": 0.6459181560968877, "percentage": 64.57, "elapsed_time": "16:38:13", "remaining_time": "9:07:44"}
+{"current_steps": 1180, "total_steps": 1812, "loss": 0.4773, "lr": 3.2818523588174876e-06, "epoch": 0.6514388240977158, "percentage": 65.12, "elapsed_time": "16:46:18", "remaining_time": "8:58:58"}
+{"current_steps": 1190, "total_steps": 1812, "loss": 0.4773, "lr": 3.191677493333603e-06, "epoch": 0.6569594920985439, "percentage": 65.67, "elapsed_time": "16:55:17", "remaining_time": "8:50:40"}
+{"current_steps": 1200, "total_steps": 1812, "loss": 0.4842, "lr": 3.1021743458403907e-06, "epoch": 0.662480160099372, "percentage": 66.23, "elapsed_time": "17:02:56", "remaining_time": "8:41:42"}
+{"current_steps": 1210, "total_steps": 1812, "loss": 0.4759, "lr": 3.0133761631033887e-06, "epoch": 0.6680008281002001, "percentage": 66.78, "elapsed_time": "17:12:17", "remaining_time": "8:33:34"}
+{"current_steps": 1220, "total_steps": 1812, "loss": 0.4858, "lr": 2.9253159300225067e-06, "epoch": 0.6735214961010282, "percentage": 67.33, "elapsed_time": "17:20:51", "remaining_time": "8:25:04"}
+{"current_steps": 1230, "total_steps": 1812, "loss": 0.482, "lr": 2.8380263573794775e-06, "epoch": 0.6790421641018564, "percentage": 67.88, "elapsed_time": "17:28:55", "remaining_time": "8:16:19"}
+{"current_steps": 1240, "total_steps": 1812, "loss": 0.4752, "lr": 2.7515398696871452e-06, "epoch": 0.6845628321026844, "percentage": 68.43, "elapsed_time": "17:37:59", "remaining_time": "8:08:02"}
+{"current_steps": 1250, "total_steps": 1812, "loss": 0.4803, "lr": 2.66588859314508e-06, "epoch": 0.6900835001035125, "percentage": 68.98, "elapsed_time": "17:45:34", "remaining_time": "7:59:04"}
+{"current_steps": 1260, "total_steps": 1812, "loss": 0.4747, "lr": 2.5811043437060023e-06, "epoch": 0.6956041681043407, "percentage": 69.54, "elapsed_time": "17:55:01", "remaining_time": "7:50:57"}
+{"current_steps": 1270, "total_steps": 1812, "loss": 0.4791, "lr": 2.497218615257458e-06, "epoch": 0.7011248361051687, "percentage": 70.09, "elapsed_time": "18:03:26", "remaining_time": "7:42:22"}
+{"current_steps": 1280, "total_steps": 1812, "loss": 0.4754, "lr": 2.4142625679231267e-06, "epoch": 0.7066455041059968, "percentage": 70.64, "elapsed_time": "18:11:50", "remaining_time": "7:33:47"}
+{"current_steps": 1290, "total_steps": 1812, "loss": 0.4751, "lr": 2.332267016488109e-06, "epoch": 0.712166172106825, "percentage": 71.19, "elapsed_time": "18:20:52", "remaining_time": "7:25:28"}
+{"current_steps": 1300, "total_steps": 1812, "loss": 0.4893, "lr": 2.251262418952482e-06, "epoch": 0.717686840107653, "percentage": 71.74, "elapsed_time": "18:28:24", "remaining_time": "7:16:32"}
+{"current_steps": 1310, "total_steps": 1812, "loss": 0.4754, "lr": 2.171278865217409e-06, "epoch": 0.7232075081084811, "percentage": 72.3, "elapsed_time": "18:38:00", "remaining_time": "7:08:25"}
+{"current_steps": 1320, "total_steps": 1812, "loss": 0.4784, "lr": 2.0923460659079587e-06, "epoch": 0.7287281761093092, "percentage": 72.85, "elapsed_time": "18:46:36", "remaining_time": "6:59:54"}
+{"current_steps": 1330, "total_steps": 1812, "loss": 0.4775, "lr": 2.0144933413368254e-06, "epoch": 0.7342488441101374, "percentage": 73.4, "elapsed_time": "18:54:58", "remaining_time": "6:51:19"}
+{"current_steps": 1340, "total_steps": 1812, "loss": 0.4688, "lr": 1.9377496106130357e-06, "epoch": 0.7397695121109654, "percentage": 73.95, "elapsed_time": "19:03:59", "remaining_time": "6:42:57"}
+{"current_steps": 1350, "total_steps": 1812, "loss": 0.4833, "lr": 1.8621433808996641e-06, "epoch": 0.7452901801117935, "percentage": 74.5, "elapsed_time": "19:11:27", "remaining_time": "6:34:03"}
+{"current_steps": 1360, "total_steps": 1812, "loss": 0.4804, "lr": 1.7877027368246048e-06, "epoch": 0.7508108481126217, "percentage": 75.06, "elapsed_time": "19:20:43", "remaining_time": "6:25:46"}
+{"current_steps": 1370, "total_steps": 1812, "loss": 0.4837, "lr": 1.7144553300482659e-06, "epoch": 0.7563315161134497, "percentage": 75.61, "elapsed_time": "19:29:13", "remaining_time": "6:17:13"}
+{"current_steps": 1380, "total_steps": 1812, "loss": 0.4769, "lr": 1.6424283689921089e-06, "epoch": 0.7618521841142778, "percentage": 76.16, "elapsed_time": "19:37:27", "remaining_time": "6:08:35"}
+{"current_steps": 1390, "total_steps": 1812, "loss": 0.4764, "lr": 1.5716486087318323e-06, "epoch": 0.767372852115106, "percentage": 76.71, "elapsed_time": "19:46:27", "remaining_time": "6:00:12"}
+{"current_steps": 1400, "total_steps": 1812, "loss": 0.4758, "lr": 1.5021423410589564e-06, "epoch": 0.772893520115934, "percentage": 77.26, "elapsed_time": "19:54:03", "remaining_time": "5:51:23"}
+{"current_steps": 1410, "total_steps": 1812, "loss": 0.4739, "lr": 1.4339353847144894e-06, "epoch": 0.7784141881167621, "percentage": 77.81, "elapsed_time": "20:03:19", "remaining_time": "5:43:04"}
+{"current_steps": 1420, "total_steps": 1812, "loss": 0.4743, "lr": 1.3670530757983226e-06, "epoch": 0.7839348561175902, "percentage": 78.37, "elapsed_time": "20:11:56", "remaining_time": "5:34:33"}
+{"current_steps": 1430, "total_steps": 1812, "loss": 0.4794, "lr": 1.301520258357903e-06, "epoch": 0.7894555241184184, "percentage": 78.92, "elapsed_time": "20:19:57", "remaining_time": "5:25:53"}
+{"current_steps": 1440, "total_steps": 1812, "loss": 0.477, "lr": 1.2373612751596859e-06, "epoch": 0.7949761921192464, "percentage": 79.47, "elapsed_time": "20:28:50", "remaining_time": "5:17:27"}
+{"current_steps": 1450, "total_steps": 1812, "loss": 0.48, "lr": 1.1745999586467903e-06, "epoch": 0.8004968601200745, "percentage": 80.02, "elapsed_time": "20:36:18", "remaining_time": "5:08:38"}
+{"current_steps": 1460, "total_steps": 1812, "loss": 0.4698, "lr": 1.1132596220862136e-06, "epoch": 0.8060175281209027, "percentage": 80.57, "elapsed_time": "20:45:41", "remaining_time": "5:00:19"}
+{"current_steps": 1470, "total_steps": 1812, "loss": 0.4769, "lr": 1.0533630509089144e-06, "epoch": 0.8115381961217307, "percentage": 81.13, "elapsed_time": "20:54:15", "remaining_time": "4:51:48"}
+{"current_steps": 1480, "total_steps": 1812, "loss": 0.4723, "lr": 9.949324942459455e-07, "epoch": 0.8170588641225588, "percentage": 81.68, "elapsed_time": "21:02:23", "remaining_time": "4:43:11"}
+{"current_steps": 1490, "total_steps": 1812, "loss": 0.4756, "lr": 9.379896566638153e-07, "epoch": 0.822579532123387, "percentage": 82.23, "elapsed_time": "21:11:25", "remaining_time": "4:34:45"}
+{"current_steps": 1500, "total_steps": 1812, "loss": 0.4733, "lr": 8.825556901021282e-07, "epoch": 0.828100200124215, "percentage": 82.78, "elapsed_time": "21:19:02", "remaining_time": "4:26:02"}
+{"current_steps": 1510, "total_steps": 1812, "loss": 0.472, "lr": 8.28651186016498e-07, "epoch": 0.8336208681250431, "percentage": 83.33, "elapsed_time": "21:28:10", "remaining_time": "4:17:38"}
+{"current_steps": 1520, "total_steps": 1812, "loss": 0.4712, "lr": 7.762961677296677e-07, "epoch": 0.8391415361258713, "percentage": 83.89, "elapsed_time": "21:36:50", "remaining_time": "4:09:07"}
+{"current_steps": 1530, "total_steps": 1812, "loss": 0.4771, "lr": 7.255100829936606e-07, "epoch": 0.8446622041266993, "percentage": 84.44, "elapsed_time": "21:45:00", "remaining_time": "4:00:31"}
+{"current_steps": 1540, "total_steps": 1812, "loss": 0.4709, "lr": 6.763117967657307e-07, "epoch": 0.8501828721275274, "percentage": 84.99, "elapsed_time": "21:54:05", "remaining_time": "3:52:06"}
+{"current_steps": 1550, "total_steps": 1812, "loss": 0.4789, "lr": 6.287195842008054e-07, "epoch": 0.8557035401283555, "percentage": 85.54, "elapsed_time": "22:01:46", "remaining_time": "3:43:25"}
+{"current_steps": 1560, "total_steps": 1812, "loss": 0.469, "lr": 5.82751123863014e-07, "epoch": 0.8612242081291837, "percentage": 86.09, "elapsed_time": "22:11:01", "remaining_time": "3:35:00"}
+{"current_steps": 1570, "total_steps": 1812, "loss": 0.4787, "lr": 5.384234911588154e-07, "epoch": 0.8667448761300117, "percentage": 86.64, "elapsed_time": "22:19:38", "remaining_time": "3:26:29"}
+{"current_steps": 1580, "total_steps": 1812, "loss": 0.4709, "lr": 4.957531519941855e-07, "epoch": 0.8722655441308398, "percentage": 87.2, "elapsed_time": "22:27:55", "remaining_time": "3:17:55"}
+{"current_steps": 1590, "total_steps": 1812, "loss": 0.4726, "lr": 4.5475595665820995e-07, "epoch": 0.877786212131668, "percentage": 87.75, "elapsed_time": "22:36:55", "remaining_time": "3:09:27"}
+{"current_steps": 1600, "total_steps": 1812, "loss": 0.4753, "lr": 4.154471339353378e-07, "epoch": 0.883306880132496, "percentage": 88.3, "elapsed_time": "22:44:36", "remaining_time": "3:00:48"}
+{"current_steps": 1610, "total_steps": 1812, "loss": 0.4746, "lr": 3.7784128544852084e-07, "epoch": 0.8888275481333241, "percentage": 88.85, "elapsed_time": "22:53:54", "remaining_time": "2:52:22"}
+{"current_steps": 1620, "total_steps": 1812, "loss": 0.4756, "lr": 3.4195238023530254e-07, "epoch": 0.8943482161341523, "percentage": 89.4, "elapsed_time": "23:02:23", "remaining_time": "2:43:50"}
+{"current_steps": 1630, "total_steps": 1812, "loss": 0.4749, "lr": 3.077937495588862e-07, "epoch": 0.8998688841349803, "percentage": 89.96, "elapsed_time": "23:10:38", "remaining_time": "2:35:16"}
+{"current_steps": 1640, "total_steps": 1812, "loss": 0.4749, "lr": 2.7537808195612306e-07, "epoch": 0.9053895521358084, "percentage": 90.51, "elapsed_time": "23:19:41", "remaining_time": "2:26:47"}
+{"current_steps": 1650, "total_steps": 1812, "loss": 0.475, "lr": 2.447174185242324e-07, "epoch": 0.9109102201366366, "percentage": 91.06, "elapsed_time": "23:27:16", "remaining_time": "2:18:10"}
+{"current_steps": 1660, "total_steps": 1812, "loss": 0.4687, "lr": 2.1582314844802997e-07, "epoch": 0.9164308881374646, "percentage": 91.61, "elapsed_time": "23:36:30", "remaining_time": "2:09:42"}
+{"current_steps": 1670, "total_steps": 1812, "loss": 0.4698, "lr": 1.8870600476930678e-07, "epoch": 0.9219515561382927, "percentage": 92.16, "elapsed_time": "23:45:03", "remaining_time": "2:01:10"}
+{"current_steps": 1680, "total_steps": 1812, "loss": 0.4757, "lr": 1.6337606039994625e-07, "epoch": 0.9274722241391208, "percentage": 92.72, "elapsed_time": "23:53:26", "remaining_time": "1:52:37"}
+{"current_steps": 1690, "total_steps": 1812, "loss": 0.4809, "lr": 1.3984272438024526e-07, "epoch": 0.932992892139949, "percentage": 93.27, "elapsed_time": "1 day, 0:02:34", "remaining_time": "1:44:08"}
+{"current_steps": 1700, "total_steps": 1812, "loss": 0.4765, "lr": 1.1811473838384214e-07, "epoch": 0.938513560140777, "percentage": 93.82, "elapsed_time": "1 day, 0:10:09", "remaining_time": "1:35:32"}
+{"current_steps": 1710, "total_steps": 1812, "loss": 0.4645, "lr": 9.8200173470539e-08, "epoch": 0.9440342281416051, "percentage": 94.37, "elapsed_time": "1 day, 0:19:42", "remaining_time": "1:27:04"}
+{"current_steps": 1720, "total_steps": 1812, "loss": 0.4769, "lr": 8.010642708823623e-08, "epoch": 0.9495548961424333, "percentage": 94.92, "elapsed_time": "1 day, 0:28:05", "remaining_time": "1:18:31"}
+{"current_steps": 1730, "total_steps": 1812, "loss": 0.4784, "lr": 6.38402203250793e-08, "epoch": 0.9550755641432613, "percentage": 95.47, "elapsed_time": "1 day, 0:36:14", "remaining_time": "1:09:58"}
+{"current_steps": 1740, "total_steps": 1812, "loss": 0.4812, "lr": 4.940759541285145e-08, "epoch": 0.9605962321440894, "percentage": 96.03, "elapsed_time": "1 day, 0:45:10", "remaining_time": "1:01:27"}
+{"current_steps": 1750, "total_steps": 1812, "loss": 0.4716, "lr": 3.6813913482528495e-08, "epoch": 0.9661169001449176, "percentage": 96.58, "elapsed_time": "1 day, 0:52:45", "remaining_time": "0:52:53"}
+{"current_steps": 1760, "total_steps": 1812, "loss": 0.4738, "lr": 2.606385257284072e-08, "epoch": 0.9716375681457456, "percentage": 97.13, "elapsed_time": "1 day, 1:02:12", "remaining_time": "0:44:23"}
+{"current_steps": 1770, "total_steps": 1812, "loss": 0.4696, "lr": 1.7161405892568983e-08, "epoch": 0.9771582361465737, "percentage": 97.68, "elapsed_time": "1 day, 1:10:52", "remaining_time": "0:35:51"}
+{"current_steps": 1780, "total_steps": 1812, "loss": 0.4753, "lr": 1.0109880337234036e-08, "epoch": 0.9826789041474019, "percentage": 98.23, "elapsed_time": "1 day, 1:18:59", "remaining_time": "0:27:18"}
+{"current_steps": 1790, "total_steps": 1812, "loss": 0.476, "lr": 4.9118952607168926e-09, "epoch": 0.98819957214823, "percentage": 98.79, "elapsed_time": "1 day, 1:27:52", "remaining_time": "0:18:46"}
+{"current_steps": 1800, "total_steps": 1812, "loss": 0.4785, "lr": 1.5693815022788105e-09, "epoch": 0.993720240149058, "percentage": 99.34, "elapsed_time": "1 day, 1:35:28", "remaining_time": "0:10:14"}
+{"current_steps": 1810, "total_steps": 1812, "loss": 0.4757, "lr": 8.358066933000786e-11, "epoch": 0.9992409081498861, "percentage": 99.89, "elapsed_time": "1 day, 1:44:37", "remaining_time": "0:01:42"}
+{"current_steps": 1812, "total_steps": 1812, "epoch": 1.0, "percentage": 100.0, "elapsed_time": "1 day, 1:46:21", "remaining_time": "0:00:00"}
--- a/trainer_state.json
+++ b/trainer_state.json
--- a/training_args.bin
+++ b/training_args.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:41ba90b90386492c5f0efe42cee225e20880547163b08abde3f7df4df6486869
+size 7928
--- a/training_loss.png
+++ b/training_loss.png
--- a/vocab.json
+++ b/vocab.json