初始化项目，由ModelHub XC社区提供模型

Model: FBK-MT/Qwen3-8B-GNR-it-clean Source: Original Platform
2026-06-01 22:57:14 +08:00
commit 0cc2dee25a
20 changed files with 1087 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,58 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bin.* filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zstandard filter=lfs diff=lfs merge=lfs -text
 *.tfevents* filter=lfs diff=lfs merge=lfs -text
 *.db* filter=lfs diff=lfs merge=lfs -text
 *.ark* filter=lfs diff=lfs merge=lfs -text
 **/*ckpt*data* filter=lfs diff=lfs merge=lfs -text
 **/*ckpt*.meta filter=lfs diff=lfs merge=lfs -text
 **/*ckpt*.index filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.gguf* filter=lfs diff=lfs merge=lfs -text
 *.ggml filter=lfs diff=lfs merge=lfs -text
 *.llamafile* filter=lfs diff=lfs merge=lfs -text
 *.pt2 filter=lfs diff=lfs merge=lfs -text
 *.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.tar filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 model-00001-of-00007.safetensors filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
 model-00004-of-00007.safetensors filter=lfs diff=lfs merge=lfs -text
 model-00007-of-00007.safetensors filter=lfs diff=lfs merge=lfs -text
 vocab.json filter=lfs diff=lfs merge=lfs -text
 model-00003-of-00007.safetensors filter=lfs diff=lfs merge=lfs -text
 model-00002-of-00007.safetensors filter=lfs diff=lfs merge=lfs -text
 merges.txt filter=lfs diff=lfs merge=lfs -text
 model-00006-of-00007.safetensors filter=lfs diff=lfs merge=lfs -text
 model-00005-of-00007.safetensors filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,173 @@
 ---
 license: apache-2.0
 datasets:
 - FBK-MT/GNR-it
 language:
 - it
 base_model:
 - Qwen/Qwen3-8B
 pipeline_tag: text-generation
 library_name: transformers
 tags:
 - rewriting
 - fairness
 - gender-inclusive
 - gender-neutral
 metrics:
 - accuracy
 - bertscore
 ---
 # Qwen3-8B-GNR-it-clean
 Qwen3-8B-GNR-it-clean is a fine-tuned version of [Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B) for the task of gender-neutral rewriting (GNR) in Italian.
 ## Table of Contents
 1. [Overview](#overview)
 2. [Usage](#Usage)
 3. [License](#license)
 4. [Citation](#citation)
 5. [Contributions](#contributions)
 ## Overview
 This model is part of a family release of four models (8B/14B × clean/full) trained on [GNR-it](https://huggingface.co/datasets/FBK-MT/GNR-it), a dataset of parallel Italian gendered and gender-neutral sentences.
 The _clean_ variants are trained on a BERTScore-filtered subset of the data, whereas the _full_ ones use the complete dataset.
 Here is the complete family of models:
 - [Qwen3-8B-GNR-it-clean](https://huggingface.co/FBK-MT/Qwen3-8B-GNR-it-clean)
 - [Qwen3-8B-GNR-it-full](https://huggingface.co/FBK-MT/Qwen3-8B-GNR-it-full)
 - [Qwen3-14B-GNR-it-clean](https://huggingface.co/FBK-MT/Qwen3-14B-GNR-it-clean)
 - [Qwen3-14B-GNR-it-full](https://huggingface.co/FBK-MT/Qwen3-14B-GNR-it-full)
 We are releasing these models to support reproducibility of the experiments reported in the paper [Gender-Neutral Rewriting in Italian: Models, Approaches,
 and Trade-offs]([PLACEHOLDER](https://arxiv.org/abs/2509.13480)) and provide the community with open baselines for GNR in Italian.
 The models are not intended as prescriptive tools for language use, but rather as research artifacts to study fairness in natural language generation.
 For more information about these models, please check the paper [pre-print]([PLACEHOLDER](https://arxiv.org/abs/2509.13480)).
 ## Usage
 This model is supported in Hugging Face 🤗 Transformers and vLLM. 
 ### Simple inference
 To run the model, first install the Transformers library. 
 ```sh
 pip install transformers>=4.51.0
 ```
 Then run standard inference:
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
 model_name = "FBK-MT/Qwen3-8B-GNR-it-clean"
 # load the tokenizer and the model
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
 )
 # prepare the model input
 system_message = "Rewrite the following Italian sentence using a gender-neutral language in reference to human beings, avoiding masculine or feminine forms."
 input_sentence = "Sono convinto che dobbiamo tutelare tutti i cittadini, a partire dai più poveri."
 messages = [
    {"role": "system", "content": system_message},
    {"role": "user", "content": input_sentence}
 ]
 text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
 )
 model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
 generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=200
 )
 output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 
 result = tokenizer.decode(output_ids[0][model_inputs["input_ids"].shape[-1]:])
 print(result)
 # "Sono dell'opinione che dobbiamo tutelare tutte le fasce sociali, a partire dalle più deboli"
 ```
 ### Batch inference
 To perform batched inference we recommend using [vLLM](https://docs.vllm.ai/en/latest/index.html).
 First, install the library following [the official guide](https://docs.vllm.ai/en/latest/getting_started/installation/).
 Then, prepare a list of inputs and let vLLM handle batching:
 ```python
 import torch
 from vllm import LLM
 model = LLM(
    model='FBK-MT/Qwen3-8B-GNR-it-clean',
    enable_prefix_caching=True,
    disable_sliding_window=True,
    tensor_parallel_size=torch.cuda.device_count(),
    gpu_memory_utilization=0.9,
    trust_remote_code=True)
 system_message = "Rewrite the following Italian sentence using a gender-neutral language in reference to human beings, avoiding masculine or feminine forms."
 input_sentences = [
    "Il candidato che è stato scelto per la posizione ha dimostrato di avere un'ottima preparazione e di essere adeguadatmente preparato.",
    "Verrà istituito un sistema di informazione per i consumatori che acquistano prodotti elettronici.",
    "Lo studente deve consegnare il compito entro venerdì."
 ]
 tokenizer = model.get_tokenizer()
 input_data = [
    tokenizer.apply_chat_template(
        [
            {"role": "system", "content": system_message},
            {"role": "user", "content": text},
        ],
        add_generation_prompt=True,
        tokenize=False,
        enable_thinking=False
    )
    for text in input_sentences
 ]
 responses = model.generate(input_data, use_tqdm=True)
 results = [response.outputs[0].text for response in responses]
 print(results)
 # ["La persona che è stata scelta per la posizione ha dimostrato di avere un'ottima preparazione e di essere adeguatamente qualificata.",
 # "Verrà istituito un sistema di informazione per i soggetti che acquistano prodotti elettronici.",
 # "Il compito deve essere consegnato entro venerdì."]
 ```
 ## License
 We release this model under the Apache 2.0 license.
 ## Citation
 If you this model in your work, please cite:
 ```
@misc{piergentili2025genderneutralrewritingitalianmodels,
      title={Gender-Neutral Rewriting in Italian: Models, Approaches, and Trade-offs}, 
      author={Andrea Piergentili and Beatrice Savoldi and Matteo Negri and Luisa Bentivogli},
      year={2025},
      eprint={2509.13480},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2509.13480}, 
 }
 ```
 ## Contributions
 Thanks to [@apiergentili](https://huggingface.co/apiergentili) for adding this model.
--- a/added_tokens.json
+++ b/added_tokens.json
@@ -0,0 +1,28 @@
 {
  "</think>": 151668,
  "</tool_call>": 151658,
  "</tool_response>": 151666,
  "<think>": 151667,
  "<tool_call>": 151657,
  "<tool_response>": 151665,
  "<|box_end|>": 151649,
  "<|box_start|>": 151648,
  "<|endoftext|>": 151643,
  "<|file_sep|>": 151664,
  "<|fim_middle|>": 151660,
  "<|fim_pad|>": 151662,
  "<|fim_prefix|>": 151659,
  "<|fim_suffix|>": 151661,
  "<|im_end|>": 151645,
  "<|im_start|>": 151644,
  "<|image_pad|>": 151655,
  "<|object_ref_end|>": 151647,
  "<|object_ref_start|>": 151646,
  "<|quad_end|>": 151651,
  "<|quad_start|>": 151650,
  "<|repo_name|>": 151663,
  "<|video_pad|>": 151656,
  "<|vision_end|>": 151653,
  "<|vision_pad|>": 151654,
  "<|vision_start|>": 151652
 }
--- a/chat_template.jinja
+++ b/chat_template.jinja
@@ -0,0 +1,85 @@
 {%- if tools %}
    {{- '<|im_start|>system\n' }}
    {%- if messages[0].role == 'system' %}
        {{- messages[0].content + '\n\n' }}
    {%- endif %}
    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
    {%- for tool in tools %}
        {{- "\n" }}
        {{- tool | tojson }}
    {%- endfor %}
    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
 {%- else %}
    {%- if messages[0].role == 'system' %}
        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
    {%- endif %}
 {%- endif %}
 {%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
 {%- for message in messages[::-1] %}
    {%- set index = (messages|length - 1) - loop.index0 %}
    {%- if ns.multi_step_tool and message.role == "user" and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
        {%- set ns.multi_step_tool = false %}
        {%- set ns.last_query_index = index %}
    {%- endif %}
 {%- endfor %}
 {%- for message in messages %}
    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
    {%- elif message.role == "assistant" %}
        {%- set content = message.content %}
        {%- set reasoning_content = '' %}
        {%- if message.reasoning_content is defined and message.reasoning_content is not none %}
            {%- set reasoning_content = message.reasoning_content %}
        {%- else %}
            {%- if '</think>' in message.content %}
                {%- set content = message.content.split('</think>')[-1].lstrip('\n') %}
                {%- set reasoning_content = message.content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
            {%- endif %}
        {%- endif %}
        {%- if loop.index0 > ns.last_query_index %}
            {%- if loop.last or (not loop.last and reasoning_content) %}
                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
            {%- else %}
                {{- '<|im_start|>' + message.role + '\n' + content }}
            {%- endif %}
        {%- else %}
            {{- '<|im_start|>' + message.role + '\n' + content }}
        {%- endif %}
        {%- if message.tool_calls %}
            {%- for tool_call in message.tool_calls %}
                {%- if (loop.first and content) or (not loop.first) %}
                    {{- '\n' }}
                {%- endif %}
                {%- if tool_call.function %}
                    {%- set tool_call = tool_call.function %}
                {%- endif %}
                {{- '<tool_call>\n{"name": "' }}
                {{- tool_call.name }}
                {{- '", "arguments": ' }}
                {%- if tool_call.arguments is string %}
                    {{- tool_call.arguments }}
                {%- else %}
                    {{- tool_call.arguments | tojson }}
                {%- endif %}
                {{- '}\n</tool_call>' }}
            {%- endfor %}
        {%- endif %}
        {{- '<|im_end|>\n' }}
    {%- elif message.role == "tool" %}
        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
            {{- '<|im_start|>user' }}
        {%- endif %}
        {{- '\n<tool_response>\n' }}
        {{- message.content }}
        {{- '\n</tool_response>' }}
        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
            {{- '<|im_end|>\n' }}
        {%- endif %}
    {%- endif %}
 {%- endfor %}
 {%- if add_generation_prompt %}
    {{- '<|im_start|>assistant\n' }}
    {%- if enable_thinking is defined and enable_thinking is false %}
        {{- '<think>\n\n</think>\n\n' }}
    {%- endif %}
 {%- endif %}
--- a/config.json
+++ b/config.json
@@ -0,0 +1,30 @@
 {
  "architectures": [
    "Qwen3ForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 151643,
  "eos_token_id": 151645,
  "head_dim": 128,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 12288,
  "max_position_embeddings": 40960,
  "max_window_layers": 36,
  "model_type": "qwen3",
  "num_attention_heads": 32,
  "num_hidden_layers": 36,
  "num_key_value_heads": 8,
  "rms_norm_eps": 1e-06,
  "rope_scaling": null,
  "rope_theta": 1000000,
  "sliding_window": null,
  "tie_word_embeddings": false,
  "torch_dtype": "float32",
  "transformers_version": "4.52.3",
  "use_cache": true,
  "use_sliding_window": false,
  "vocab_size": 151936
 }
--- a/configuration.json
+++ b/configuration.json
@@ -0,0 +1 @@
 {"framework": "pytorch", "task": "text-generation", "allow_remote": true}
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,6 @@
 {
  "_from_model_config": true,
  "bos_token_id": 151643,
  "eos_token_id": 151645,
  "transformers_version": "4.52.3"
 }
--- a/merges.txt
+++ b/merges.txt
--- a/model-00001-of-00007.safetensors
+++ b/model-00001-of-00007.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:3cc80dffb3e65121be5c66c7a0b54cc94e773bad52a3d3a318f71915906be0d0
 size 4972454376
--- a/model-00002-of-00007.safetensors
+++ b/model-00002-of-00007.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:1de1c2463b05be407799bd2afa3f6042ae2f669619daaa33ec4fcb21a564c47e
 size 4832048608
--- a/model-00003-of-00007.safetensors
+++ b/model-00003-of-00007.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:28ebfe87a29dd27edbb4b984c247018fb605d14f909236900a3c1fc8bcff9c9e
 size 4832048656
--- a/model-00004-of-00007.safetensors
+++ b/model-00004-of-00007.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:04a786843400f900c59da4befa144aef08c5d660217cf0a37e94b149a6df5aa6
 size 4999855528
--- a/model-00005-of-00007.safetensors
+++ b/model-00005-of-00007.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:565593c6e66ee602dbda557b29a3d8a55fd90e2b9606664aa7e9a3ce4f4feac1
 size 4832048672
--- a/model-00006-of-00007.safetensors
+++ b/model-00006-of-00007.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:da2f5b73e09ca5e65028b4e1345cef44ee5c00aea7dfe272108832f2a998f218
 size 4832048672
--- a/model-00007-of-00007.safetensors
+++ b/model-00007-of-00007.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:6440ab59bbf98016a16bf8caeb9cde8086122999af71f74b5bfc350daa015279
 size 3462482728
--- a/model.safetensors.index.json
+++ b/model.safetensors.index.json
@@ -0,0 +1,406 @@
 {
  "metadata": {
    "total_size": 32762941440
  },
  "weight_map": {
    "lm_head.weight": "model-00007-of-00007.safetensors",
    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
    "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00007.safetensors",
    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00007.safetensors",
    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
    "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00007.safetensors",
    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00007.safetensors",
    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
    "model.layers.10.self_attn.k_norm.weight": "model-00003-of-00007.safetensors",
    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.10.self_attn.q_norm.weight": "model-00003-of-00007.safetensors",
    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
    "model.layers.11.self_attn.k_norm.weight": "model-00003-of-00007.safetensors",
    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.11.self_attn.q_norm.weight": "model-00003-of-00007.safetensors",
    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
    "model.layers.12.self_attn.k_norm.weight": "model-00003-of-00007.safetensors",
    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.12.self_attn.q_norm.weight": "model-00003-of-00007.safetensors",
    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.13.input_layernorm.weight": "model-00003-of-00007.safetensors",
    "model.layers.13.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.13.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.13.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
    "model.layers.13.self_attn.k_norm.weight": "model-00003-of-00007.safetensors",
    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.13.self_attn.q_norm.weight": "model-00003-of-00007.safetensors",
    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.14.input_layernorm.weight": "model-00003-of-00007.safetensors",
    "model.layers.14.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.14.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.14.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.14.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
    "model.layers.14.self_attn.k_norm.weight": "model-00003-of-00007.safetensors",
    "model.layers.14.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.14.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.14.self_attn.q_norm.weight": "model-00003-of-00007.safetensors",
    "model.layers.14.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.14.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.15.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.15.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
    "model.layers.15.self_attn.k_norm.weight": "model-00003-of-00007.safetensors",
    "model.layers.15.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.15.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.15.self_attn.q_norm.weight": "model-00003-of-00007.safetensors",
    "model.layers.15.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.15.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
    "model.layers.16.self_attn.k_norm.weight": "model-00004-of-00007.safetensors",
    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.16.self_attn.q_norm.weight": "model-00004-of-00007.safetensors",
    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
    "model.layers.17.self_attn.k_norm.weight": "model-00004-of-00007.safetensors",
    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.17.self_attn.q_norm.weight": "model-00004-of-00007.safetensors",
    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.18.input_layernorm.weight": "model-00004-of-00007.safetensors",
    "model.layers.18.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.18.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
    "model.layers.18.self_attn.k_norm.weight": "model-00004-of-00007.safetensors",
    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.18.self_attn.q_norm.weight": "model-00004-of-00007.safetensors",
    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.19.input_layernorm.weight": "model-00004-of-00007.safetensors",
    "model.layers.19.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.19.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.19.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.19.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
    "model.layers.19.self_attn.k_norm.weight": "model-00004-of-00007.safetensors",
    "model.layers.19.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.19.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.19.self_attn.q_norm.weight": "model-00004-of-00007.safetensors",
    "model.layers.19.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.19.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
    "model.layers.2.self_attn.k_norm.weight": "model-00001-of-00007.safetensors",
    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.2.self_attn.q_norm.weight": "model-00001-of-00007.safetensors",
    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.20.input_layernorm.weight": "model-00004-of-00007.safetensors",
    "model.layers.20.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.20.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.20.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.20.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
    "model.layers.20.self_attn.k_norm.weight": "model-00004-of-00007.safetensors",
    "model.layers.20.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.20.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.20.self_attn.q_norm.weight": "model-00004-of-00007.safetensors",
    "model.layers.20.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.20.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.21.input_layernorm.weight": "model-00004-of-00007.safetensors",
    "model.layers.21.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.21.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.21.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.21.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
    "model.layers.21.self_attn.k_norm.weight": "model-00004-of-00007.safetensors",
    "model.layers.21.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.21.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.21.self_attn.q_norm.weight": "model-00004-of-00007.safetensors",
    "model.layers.21.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.21.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
    "model.layers.22.self_attn.k_norm.weight": "model-00004-of-00007.safetensors",
    "model.layers.22.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.22.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.22.self_attn.q_norm.weight": "model-00004-of-00007.safetensors",
    "model.layers.22.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.22.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
    "model.layers.23.self_attn.k_norm.weight": "model-00005-of-00007.safetensors",
    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.23.self_attn.q_norm.weight": "model-00005-of-00007.safetensors",
    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.24.input_layernorm.weight": "model-00005-of-00007.safetensors",
    "model.layers.24.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.24.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.24.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.24.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
    "model.layers.24.self_attn.k_norm.weight": "model-00005-of-00007.safetensors",
    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.24.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.24.self_attn.q_norm.weight": "model-00005-of-00007.safetensors",
    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.25.input_layernorm.weight": "model-00005-of-00007.safetensors",
    "model.layers.25.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.25.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.25.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.25.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
    "model.layers.25.self_attn.k_norm.weight": "model-00005-of-00007.safetensors",
    "model.layers.25.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.25.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.25.self_attn.q_norm.weight": "model-00005-of-00007.safetensors",
    "model.layers.25.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.25.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.26.input_layernorm.weight": "model-00005-of-00007.safetensors",
    "model.layers.26.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.26.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.26.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.26.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
    "model.layers.26.self_attn.k_norm.weight": "model-00005-of-00007.safetensors",
    "model.layers.26.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.26.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.26.self_attn.q_norm.weight": "model-00005-of-00007.safetensors",
    "model.layers.26.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.26.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.27.input_layernorm.weight": "model-00005-of-00007.safetensors",
    "model.layers.27.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.27.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.27.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.27.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
    "model.layers.27.self_attn.k_norm.weight": "model-00005-of-00007.safetensors",
    "model.layers.27.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.27.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.27.self_attn.q_norm.weight": "model-00005-of-00007.safetensors",
    "model.layers.27.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.27.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.28.input_layernorm.weight": "model-00006-of-00007.safetensors",
    "model.layers.28.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.28.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.28.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.28.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
    "model.layers.28.self_attn.k_norm.weight": "model-00005-of-00007.safetensors",
    "model.layers.28.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.28.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.28.self_attn.q_norm.weight": "model-00005-of-00007.safetensors",
    "model.layers.28.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.28.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
    "model.layers.29.input_layernorm.weight": "model-00006-of-00007.safetensors",
    "model.layers.29.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.29.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.29.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.29.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
    "model.layers.29.self_attn.k_norm.weight": "model-00006-of-00007.safetensors",
    "model.layers.29.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.29.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.29.self_attn.q_norm.weight": "model-00006-of-00007.safetensors",
    "model.layers.29.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.29.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
    "model.layers.3.self_attn.k_norm.weight": "model-00001-of-00007.safetensors",
    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.3.self_attn.q_norm.weight": "model-00001-of-00007.safetensors",
    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
    "model.layers.30.input_layernorm.weight": "model-00006-of-00007.safetensors",
    "model.layers.30.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.30.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.30.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.30.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
    "model.layers.30.self_attn.k_norm.weight": "model-00006-of-00007.safetensors",
    "model.layers.30.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.30.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.30.self_attn.q_norm.weight": "model-00006-of-00007.safetensors",
    "model.layers.30.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.30.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.31.input_layernorm.weight": "model-00006-of-00007.safetensors",
    "model.layers.31.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.31.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.31.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.31.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
    "model.layers.31.self_attn.k_norm.weight": "model-00006-of-00007.safetensors",
    "model.layers.31.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.31.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.31.self_attn.q_norm.weight": "model-00006-of-00007.safetensors",
    "model.layers.31.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.31.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.32.input_layernorm.weight": "model-00006-of-00007.safetensors",
    "model.layers.32.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.32.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.32.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.32.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
    "model.layers.32.self_attn.k_norm.weight": "model-00006-of-00007.safetensors",
    "model.layers.32.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.32.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.32.self_attn.q_norm.weight": "model-00006-of-00007.safetensors",
    "model.layers.32.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.32.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.33.input_layernorm.weight": "model-00006-of-00007.safetensors",
    "model.layers.33.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.33.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.33.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.33.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
    "model.layers.33.self_attn.k_norm.weight": "model-00006-of-00007.safetensors",
    "model.layers.33.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.33.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.33.self_attn.q_norm.weight": "model-00006-of-00007.safetensors",
    "model.layers.33.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.33.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.34.input_layernorm.weight": "model-00007-of-00007.safetensors",
    "model.layers.34.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
    "model.layers.34.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.34.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.34.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
    "model.layers.34.self_attn.k_norm.weight": "model-00006-of-00007.safetensors",
    "model.layers.34.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.34.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.34.self_attn.q_norm.weight": "model-00006-of-00007.safetensors",
    "model.layers.34.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.34.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
    "model.layers.35.input_layernorm.weight": "model-00007-of-00007.safetensors",
    "model.layers.35.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
    "model.layers.35.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
    "model.layers.35.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
    "model.layers.35.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
    "model.layers.35.self_attn.k_norm.weight": "model-00007-of-00007.safetensors",
    "model.layers.35.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
    "model.layers.35.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
    "model.layers.35.self_attn.q_norm.weight": "model-00007-of-00007.safetensors",
    "model.layers.35.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
    "model.layers.35.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
    "model.layers.4.self_attn.k_norm.weight": "model-00002-of-00007.safetensors",
    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.4.self_attn.q_norm.weight": "model-00002-of-00007.safetensors",
    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
    "model.layers.5.self_attn.k_norm.weight": "model-00002-of-00007.safetensors",
    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.5.self_attn.q_norm.weight": "model-00002-of-00007.safetensors",
    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
    "model.layers.6.self_attn.k_norm.weight": "model-00002-of-00007.safetensors",
    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.6.self_attn.q_norm.weight": "model-00002-of-00007.safetensors",
    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
    "model.layers.7.self_attn.k_norm.weight": "model-00002-of-00007.safetensors",
    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.7.self_attn.q_norm.weight": "model-00002-of-00007.safetensors",
    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.8.input_layernorm.weight": "model-00002-of-00007.safetensors",
    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
    "model.layers.8.self_attn.k_norm.weight": "model-00002-of-00007.safetensors",
    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.8.self_attn.q_norm.weight": "model-00002-of-00007.safetensors",
    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
    "model.layers.9.self_attn.k_norm.weight": "model-00002-of-00007.safetensors",
    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.9.self_attn.q_norm.weight": "model-00002-of-00007.safetensors",
    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
    "model.norm.weight": "model-00007-of-00007.safetensors"
  }
 }
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,31 @@
 {
  "additional_special_tokens": [
    "<|im_start|>",
    "<|im_end|>",
    "<|object_ref_start|>",
    "<|object_ref_end|>",
    "<|box_start|>",
    "<|box_end|>",
    "<|quad_start|>",
    "<|quad_end|>",
    "<|vision_start|>",
    "<|vision_end|>",
    "<|vision_pad|>",
    "<|image_pad|>",
    "<|video_pad|>"
  ],
  "eos_token": {
    "content": "<|im_end|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "pad_token": {
    "content": "<|endoftext|>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  }
 }
--- a/tokenizer.json
+++ b/tokenizer.json
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@@ -0,0 +1,239 @@
 {
  "add_bos_token": false,
  "add_prefix_space": false,
  "added_tokens_decoder": {
    "151643": {
      "content": "<|endoftext|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151644": {
      "content": "<|im_start|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151645": {
      "content": "<|im_end|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151646": {
      "content": "<|object_ref_start|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151647": {
      "content": "<|object_ref_end|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151648": {
      "content": "<|box_start|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151649": {
      "content": "<|box_end|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151650": {
      "content": "<|quad_start|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151651": {
      "content": "<|quad_end|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151652": {
      "content": "<|vision_start|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151653": {
      "content": "<|vision_end|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151654": {
      "content": "<|vision_pad|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151655": {
      "content": "<|image_pad|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151656": {
      "content": "<|video_pad|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": true
    },
    "151657": {
      "content": "<tool_call>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151658": {
      "content": "</tool_call>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151659": {
      "content": "<|fim_prefix|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151660": {
      "content": "<|fim_middle|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151661": {
      "content": "<|fim_suffix|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151662": {
      "content": "<|fim_pad|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151663": {
      "content": "<|repo_name|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151664": {
      "content": "<|file_sep|>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151665": {
      "content": "<tool_response>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151666": {
      "content": "</tool_response>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151667": {
      "content": "<think>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    },
    "151668": {
      "content": "</think>",
      "lstrip": false,
      "normalized": false,
      "rstrip": false,
      "single_word": false,
      "special": false
    }
  },
  "additional_special_tokens": [
    "<|im_start|>",
    "<|im_end|>",
    "<|object_ref_start|>",
    "<|object_ref_end|>",
    "<|box_start|>",
    "<|box_end|>",
    "<|quad_start|>",
    "<|quad_end|>",
    "<|vision_start|>",
    "<|vision_end|>",
    "<|vision_pad|>",
    "<|image_pad|>",
    "<|video_pad|>"
  ],
  "bos_token": null,
  "clean_up_tokenization_spaces": false,
  "eos_token": "<|im_end|>",
  "errors": "replace",
  "extra_special_tokens": {},
  "model_max_length": 131072,
  "pad_token": "<|endoftext|>",
  "split_special_tokens": false,
  "tokenizer_class": "Qwen2Tokenizer",
  "unk_token": null
 }
--- a/vocab.json
+++ b/vocab.json
		`@@ -0,0 +1 @@`
							`{"framework": "pytorch", "task": "text-generation", "allow_remote": true}`