初始化项目，由ModelHub XC社区提供模型

Model: ScottzillaSystems/Cydonia-24B-v4.1 Source: Original Platform
2026-05-16 11:17:56 +08:00
commit 03109768a0
19 changed files with 10637 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,36 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,62 @@
 ---
 base_model:
 - mistralai/Mistral-Small-3.1-24B-Instruct-2503
 library_name: transformers
 pipeline_tag: text-generation
 tags:
 - conversational
 - safetensors
 - mistral
 ---
 # Join our Discord! https://discord.gg/BeaverAI
 ## Nearly 7000 members strong 💪 A hub for users and makers alike!
 ---
 ## Drummer is open for work / employment (I'm a Software Engineer). Contact me through any of these channels: https://linktr.ee/thelocaldrummer
 ### Thank you to everyone who subscribed through [Patreon](https://www.patreon.com/TheDrummer). Your suppprt helps me chug along in this brave new world.
 ---
 [Drummer](https://huggingface.co/TheDrummer) proudly presents...
 # Cydonia 24B v4.1 💿
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/65f2fd1c25b848bd061b5c2e/ZEJ7oAYvzVJfOiUg_q0_B.png)
 ## Usage
 - Mistral v7 Tekken
 ## Description
 > Cydonia Evolved again.
 > I have to praise this model for good focus. I said earlier that it still remembers it at 12K. I think my personal evaluation of it has already beaten the rest.
 > Damn okay this model is actually pretty good. I don't have enough vram to test it on longer chats to 16k, but on 6k chats it's looking good and without deepseek's slop.
 > Wow, for a 24B this thing has some writing chops. Like it nails mood and nuance and shit with the prose, descriptive but not purple prose. you may have cracked the Cydonias for good with this one. The more I play with it, the more it feels like a level up from the prior ones. Haven't got into long context yet though. My cards tend to favor the opposite or at best neutral. Its rolling with the card, and nailing it, its a bit fallen and its doing good prose to match. Yeah this one's a banger.
 > Very good. For 24B, the best I've come across. Like even swipes, it stays creative and writes just as well as the swipes before it but doesn't recycle anything from them. It doesn't go overboard on the creativity like Gemma can do, it'll write what you tell it or if RP pick up on things pretty accurately. The prose isn't purple either, it's good.
 > I dunno how you have broken the spell R1 Cydonia had on me or what made me try this on a whim but you have gold on your hands with this tune.  Again.
 > it really doesn't feel like a mistral tune which is honestly the best compliment I can give it. I'm not getting the usual mistral tuneisms from it.
 > It's probably the best Cydonia.
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/65f2fd1c25b848bd061b5c2e/h3dmZkhXsfHgNag0sZ3Q3.png)
 ## Links
 - Original: https://huggingface.co/TheDrummer/Cydonia-24B-v4.1
 - GGUF: https://huggingface.co/TheDrummer/Cydonia-24B-v4.1-GGUF
 - iMatrix (recommended): https://huggingface.co/bartowski/TheDrummer_Cydonia-24B-v4.1-GGUF
 - EXL3: https://huggingface.co/ArtusDev/TheDrummer_Cydonia-24B-v4.1-EXL3
 ## Chat UI
 Try it now: [Cydonia 24B Chat](https://huggingface.co/spaces/ScottzillaSystems/Cydonia-24B-Chat)
 ## Special Thanks
 Hoping to make SleepDeprived proud with this one. RIP.
 `config-v4j`
--- a/chat_template.jinja
+++ b/chat_template.jinja
@@ -0,0 +1,51 @@
 {%- set today = strftime_now("%Y-%m-%d") %}
 {%- set default_system_message = "You are Mistral Small 3, a Large Language Model (LLM) created by Mistral AI, a French startup headquartered in Paris.\nYour knowledge base was last updated on 2023-10-01. The current date is " + today + ".\n\nWhen you're not sure about some information, you say that you don't have the information and don't make up anything.\nIf the user's question is not clear, ambiguous, or does not provide enough context for you to accurately answer the question, you do not try to answer it right away and you rather ask the user to clarify their request (e.g. \"What are some good restaurants around me?\" => \"Where are you?\" or \"When is the next flight to Tokyo\" => \"Where do you travel from?\")" %}
 {{- bos_token }}
 {%- if messages[0]['role'] == 'system' %}
    {%- if messages[0]['content'] is string %}
        {%- set system_message = messages[0]['content'] %}
    {%- else %}
        {%- set system_message = messages[0]['content'][0]['text'] %}
    {%- endif %}
    {%- set loop_messages = messages[1:] %}
 {%- else %}
    {%- set system_message = default_system_message %}
    {%- set loop_messages = messages %}
 {%- endif %}
 {{- '[SYSTEM_PROMPT]' + system_message + '[/SYSTEM_PROMPT]' }}
 {%- for message in loop_messages %}
    {%- if message['role'] == 'user' %}
        {%- if message['content'] is string %}
            {{- '[INST]' + message['content'] + '[/INST]' }}
        {%- else %}
            {{- '[INST]' }}
            {%- for block in message['content'] %}
                {%- if block['type'] == 'text' %}
                    {{- block['text'] }}
                {%- elif block['type'] in ['image', 'image_url'] %}
                    {{- '[IMG]' }}
                {%- else %}
                    {{- raise_exception('Only text and image blocks are supported in message content!') }}
                {%- endif %}
            {%- endfor %}
            {{- '[/INST]' }}
        {%- endif %}
    {%- elif message['role'] == 'system' %}
        {%- if message['content'] is string %}
            {{- '[SYSTEM_PROMPT]' + message['content'] + '[/SYSTEM_PROMPT]' }}
        {%- else %}
            {{- '[SYSTEM_PROMPT]' + message['content'][0]['text'] + '[/SYSTEM_PROMPT]' }}
        {%- endif %}
    {%- elif message['role'] == 'assistant' %}
        {%- if message['content'] is string %}
            {{- message['content'] + eos_token }}
        {%- else %}
            {{- message['content'][0]['text'] + eos_token }}
        {%- endif %}
    {%- else %}
        {{- raise_exception('Only user, system and assistant roles are supported!') }}
    {%- endif %}
 {%- endfor %}
--- a/config.json
+++ b/config.json
@@ -0,0 +1,26 @@
 {
  "architectures": [
    "MistralForCausalLM"
  ],
  "attention_dropout": 0.0,
  "bos_token_id": 1,
  "eos_token_id": 2,
  "head_dim": 128,
  "hidden_act": "silu",
  "hidden_size": 5120,
  "initializer_range": 0.02,
  "intermediate_size": 32768,
  "max_position_embeddings": 131072,
  "model_type": "mistral",
  "num_attention_heads": 32,
  "num_hidden_layers": 40,
  "num_key_value_heads": 8,
  "rms_norm_eps": 1e-05,
  "rope_theta": 1000000000.0,
  "sliding_window": null,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.55.2",
  "use_cache": true,
  "vocab_size": 131072
 }
--- a/generation_config.json
+++ b/generation_config.json
@@ -0,0 +1,7 @@
 {
  "_from_model_config": true,
  "bos_token_id": 1,
  "do_sample": true,
  "eos_token_id": 2,
  "transformers_version": "4.55.2"
 }
--- a/model-00001-of-00010.safetensors
+++ b/model-00001-of-00010.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:1b9d38d10e720b5473ca9991ac74a248aff8f28689b53e7abc0305bff6651cda
 size 4781571736
--- a/model-00002-of-00010.safetensors
+++ b/model-00002-of-00010.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:74dd15a7e6523cb83d48de96151286c5fa06ee356c1d711bb37ec5c59c9f5586
 size 4781592784
--- a/model-00003-of-00010.safetensors
+++ b/model-00003-of-00010.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:230d1cd12814f49a88d9942063490016c0480a5dd1a86c53f610394c9f168479
 size 4781592800
--- a/model-00004-of-00010.safetensors
+++ b/model-00004-of-00010.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:61e960df88ccd10f83bfcdfd891e49e9c48fc4347a06f3b289587009f0599e3b
 size 4886471600
--- a/model-00005-of-00010.safetensors
+++ b/model-00005-of-00010.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:5c77fbb7ab1a792abac2813133fc0534ebf322c3223e1bc9493c26d3675422a8
 size 4781592824
--- a/model-00006-of-00010.safetensors
+++ b/model-00006-of-00010.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:91a784f8b4e77739b1abf5e9c382997b6875e82c948e4d3624168535f77d77a5
 size 4781592816
--- a/model-00007-of-00010.safetensors
+++ b/model-00007-of-00010.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:03045f93ad95b8be51757d3fb1a8575694bc0bb8026ebacd9dee7d0cc76d1b92
 size 4886471600
--- a/model-00008-of-00010.safetensors
+++ b/model-00008-of-00010.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:5331557d685319bd53667f588dac7b443fc3bcbff1639768b9569c202390573a
 size 4781592824
--- a/model-00009-of-00010.safetensors
+++ b/model-00009-of-00010.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:b9fe8458190be17b263b1a48a9543f51e360ae389c0f5896e1f0b810f4867521
 size 4781592816
--- a/model-00010-of-00010.safetensors
+++ b/model-00010-of-00010.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:35fc9b6d45a101fd4c7984ff8c44298fb7768395a1293e1750ccf526bcf84d1f
 size 3900777072
--- a/model.safetensors.index.json
+++ b/model.safetensors.index.json
@@ -0,0 +1,371 @@
 {
  "metadata": {
    "total_parameters": 23572403200,
    "total_size": 47144806400
  },
  "weight_map": {
    "lm_head.weight": "model-00010-of-00010.safetensors",
    "model.embed_tokens.weight": "model-00001-of-00010.safetensors",
    "model.layers.0.input_layernorm.weight": "model-00001-of-00010.safetensors",
    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00010.safetensors",
    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.1.input_layernorm.weight": "model-00001-of-00010.safetensors",
    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00010.safetensors",
    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.10.input_layernorm.weight": "model-00003-of-00010.safetensors",
    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00010.safetensors",
    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.11.input_layernorm.weight": "model-00004-of-00010.safetensors",
    "model.layers.11.mlp.down_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.11.post_attention_layernorm.weight": "model-00004-of-00010.safetensors",
    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.12.input_layernorm.weight": "model-00004-of-00010.safetensors",
    "model.layers.12.mlp.down_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.12.mlp.gate_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.12.mlp.up_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.12.post_attention_layernorm.weight": "model-00004-of-00010.safetensors",
    "model.layers.12.self_attn.k_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.12.self_attn.o_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.12.self_attn.q_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.12.self_attn.v_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.13.input_layernorm.weight": "model-00004-of-00010.safetensors",
    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.13.mlp.gate_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00010.safetensors",
    "model.layers.13.self_attn.k_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.13.self_attn.o_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.13.self_attn.q_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.13.self_attn.v_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.14.input_layernorm.weight": "model-00004-of-00010.safetensors",
    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00010.safetensors",
    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.15.input_layernorm.weight": "model-00004-of-00010.safetensors",
    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00010.safetensors",
    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.16.input_layernorm.weight": "model-00005-of-00010.safetensors",
    "model.layers.16.mlp.down_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.16.mlp.gate_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.16.mlp.up_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.16.post_attention_layernorm.weight": "model-00005-of-00010.safetensors",
    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00010.safetensors",
    "model.layers.17.input_layernorm.weight": "model-00005-of-00010.safetensors",
    "model.layers.17.mlp.down_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.17.mlp.gate_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.17.mlp.up_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.17.post_attention_layernorm.weight": "model-00005-of-00010.safetensors",
    "model.layers.17.self_attn.k_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.17.self_attn.o_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.17.self_attn.q_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.17.self_attn.v_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.18.input_layernorm.weight": "model-00005-of-00010.safetensors",
    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.18.mlp.gate_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.18.mlp.up_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00010.safetensors",
    "model.layers.18.self_attn.k_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.18.self_attn.o_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.18.self_attn.q_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.18.self_attn.v_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.19.input_layernorm.weight": "model-00005-of-00010.safetensors",
    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00010.safetensors",
    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.2.input_layernorm.weight": "model-00001-of-00010.safetensors",
    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00010.safetensors",
    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.20.input_layernorm.weight": "model-00006-of-00010.safetensors",
    "model.layers.20.mlp.down_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.20.mlp.up_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.20.post_attention_layernorm.weight": "model-00006-of-00010.safetensors",
    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00010.safetensors",
    "model.layers.21.input_layernorm.weight": "model-00006-of-00010.safetensors",
    "model.layers.21.mlp.down_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.21.mlp.gate_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.21.mlp.up_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.21.post_attention_layernorm.weight": "model-00006-of-00010.safetensors",
    "model.layers.21.self_attn.k_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.21.self_attn.o_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.21.self_attn.q_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.21.self_attn.v_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.22.input_layernorm.weight": "model-00006-of-00010.safetensors",
    "model.layers.22.mlp.down_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.22.mlp.gate_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.22.mlp.up_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.22.post_attention_layernorm.weight": "model-00006-of-00010.safetensors",
    "model.layers.22.self_attn.k_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.22.self_attn.o_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.22.self_attn.q_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.22.self_attn.v_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.23.input_layernorm.weight": "model-00006-of-00010.safetensors",
    "model.layers.23.mlp.down_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.23.mlp.gate_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.23.mlp.up_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.23.post_attention_layernorm.weight": "model-00006-of-00010.safetensors",
    "model.layers.23.self_attn.k_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.23.self_attn.o_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.23.self_attn.q_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.23.self_attn.v_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.24.input_layernorm.weight": "model-00007-of-00010.safetensors",
    "model.layers.24.mlp.down_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.24.post_attention_layernorm.weight": "model-00007-of-00010.safetensors",
    "model.layers.24.self_attn.k_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.24.self_attn.q_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.24.self_attn.v_proj.weight": "model-00006-of-00010.safetensors",
    "model.layers.25.input_layernorm.weight": "model-00007-of-00010.safetensors",
    "model.layers.25.mlp.down_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.25.mlp.gate_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.25.mlp.up_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.25.post_attention_layernorm.weight": "model-00007-of-00010.safetensors",
    "model.layers.25.self_attn.k_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.25.self_attn.o_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.25.self_attn.q_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.25.self_attn.v_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.26.input_layernorm.weight": "model-00007-of-00010.safetensors",
    "model.layers.26.mlp.down_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.26.mlp.gate_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.26.mlp.up_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.26.post_attention_layernorm.weight": "model-00007-of-00010.safetensors",
    "model.layers.26.self_attn.k_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.26.self_attn.o_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.26.self_attn.q_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.26.self_attn.v_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.27.input_layernorm.weight": "model-00007-of-00010.safetensors",
    "model.layers.27.mlp.down_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.27.mlp.gate_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.27.mlp.up_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.27.post_attention_layernorm.weight": "model-00007-of-00010.safetensors",
    "model.layers.27.self_attn.k_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.27.self_attn.o_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.27.self_attn.q_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.27.self_attn.v_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.28.input_layernorm.weight": "model-00007-of-00010.safetensors",
    "model.layers.28.mlp.down_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.28.mlp.gate_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.28.mlp.up_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.28.post_attention_layernorm.weight": "model-00007-of-00010.safetensors",
    "model.layers.28.self_attn.k_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.28.self_attn.o_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.28.self_attn.q_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.28.self_attn.v_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.29.input_layernorm.weight": "model-00008-of-00010.safetensors",
    "model.layers.29.mlp.down_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.29.mlp.gate_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.29.mlp.up_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.29.post_attention_layernorm.weight": "model-00008-of-00010.safetensors",
    "model.layers.29.self_attn.k_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.29.self_attn.o_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.29.self_attn.q_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.29.self_attn.v_proj.weight": "model-00007-of-00010.safetensors",
    "model.layers.3.input_layernorm.weight": "model-00002-of-00010.safetensors",
    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00010.safetensors",
    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
    "model.layers.30.input_layernorm.weight": "model-00008-of-00010.safetensors",
    "model.layers.30.mlp.down_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.30.mlp.gate_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.30.mlp.up_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.30.post_attention_layernorm.weight": "model-00008-of-00010.safetensors",
    "model.layers.30.self_attn.k_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.30.self_attn.o_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.30.self_attn.q_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.30.self_attn.v_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.31.input_layernorm.weight": "model-00008-of-00010.safetensors",
    "model.layers.31.mlp.down_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.31.mlp.gate_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.31.mlp.up_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.31.post_attention_layernorm.weight": "model-00008-of-00010.safetensors",
    "model.layers.31.self_attn.k_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.31.self_attn.o_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.31.self_attn.q_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.31.self_attn.v_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.32.input_layernorm.weight": "model-00008-of-00010.safetensors",
    "model.layers.32.mlp.down_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.32.mlp.gate_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.32.mlp.up_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.32.post_attention_layernorm.weight": "model-00008-of-00010.safetensors",
    "model.layers.32.self_attn.k_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.32.self_attn.o_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.32.self_attn.q_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.32.self_attn.v_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.33.input_layernorm.weight": "model-00009-of-00010.safetensors",
    "model.layers.33.mlp.down_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.33.mlp.gate_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.33.mlp.up_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.33.post_attention_layernorm.weight": "model-00009-of-00010.safetensors",
    "model.layers.33.self_attn.k_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.33.self_attn.o_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.33.self_attn.q_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.33.self_attn.v_proj.weight": "model-00008-of-00010.safetensors",
    "model.layers.34.input_layernorm.weight": "model-00009-of-00010.safetensors",
    "model.layers.34.mlp.down_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.34.mlp.gate_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.34.mlp.up_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.34.post_attention_layernorm.weight": "model-00009-of-00010.safetensors",
    "model.layers.34.self_attn.k_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.34.self_attn.o_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.34.self_attn.q_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.34.self_attn.v_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.35.input_layernorm.weight": "model-00009-of-00010.safetensors",
    "model.layers.35.mlp.down_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.35.mlp.gate_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.35.mlp.up_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.35.post_attention_layernorm.weight": "model-00009-of-00010.safetensors",
    "model.layers.35.self_attn.k_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.35.self_attn.o_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.35.self_attn.q_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.35.self_attn.v_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.36.input_layernorm.weight": "model-00009-of-00010.safetensors",
    "model.layers.36.mlp.down_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.36.mlp.gate_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.36.mlp.up_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.36.post_attention_layernorm.weight": "model-00009-of-00010.safetensors",
    "model.layers.36.self_attn.k_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.36.self_attn.o_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.36.self_attn.q_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.36.self_attn.v_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.37.input_layernorm.weight": "model-00010-of-00010.safetensors",
    "model.layers.37.mlp.down_proj.weight": "model-00010-of-00010.safetensors",
    "model.layers.37.mlp.gate_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.37.mlp.up_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.37.post_attention_layernorm.weight": "model-00010-of-00010.safetensors",
    "model.layers.37.self_attn.k_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.37.self_attn.o_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.37.self_attn.q_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.37.self_attn.v_proj.weight": "model-00009-of-00010.safetensors",
    "model.layers.38.input_layernorm.weight": "model-00010-of-00010.safetensors",
    "model.layers.38.mlp.down_proj.weight": "model-00010-of-00010.safetensors",
    "model.layers.38.mlp.gate_proj.weight": "model-00010-of-00010.safetensors",
    "model.layers.38.mlp.up_proj.weight": "model-00010-of-00010.safetensors",
    "model.layers.38.post_attention_layernorm.weight": "model-00010-of-00010.safetensors",
    "model.layers.38.self_attn.k_proj.weight": "model-00010-of-00010.safetensors",
    "model.layers.38.self_attn.o_proj.weight": "model-00010-of-00010.safetensors",
    "model.layers.38.self_attn.q_proj.weight": "model-00010-of-00010.safetensors",
    "model.layers.38.self_attn.v_proj.weight": "model-00010-of-00010.safetensors",
    "model.layers.39.input_layernorm.weight": "model-00010-of-00010.safetensors",
    "model.layers.39.mlp.down_proj.weight": "model-00010-of-00010.safetensors",
    "model.layers.39.mlp.gate_proj.weight": "model-00010-of-00010.safetensors",
    "model.layers.39.mlp.up_proj.weight": "model-00010-of-00010.safetensors",
    "model.layers.39.post_attention_layernorm.weight": "model-00010-of-00010.safetensors",
    "model.layers.39.self_attn.k_proj.weight": "model-00010-of-00010.safetensors",
    "model.layers.39.self_attn.o_proj.weight": "model-00010-of-00010.safetensors",
    "model.layers.39.self_attn.q_proj.weight": "model-00010-of-00010.safetensors",
    "model.layers.39.self_attn.v_proj.weight": "model-00010-of-00010.safetensors",
    "model.layers.4.input_layernorm.weight": "model-00002-of-00010.safetensors",
    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00010.safetensors",
    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.5.input_layernorm.weight": "model-00002-of-00010.safetensors",
    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00010.safetensors",
    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.6.input_layernorm.weight": "model-00002-of-00010.safetensors",
    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00010.safetensors",
    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.7.input_layernorm.weight": "model-00003-of-00010.safetensors",
    "model.layers.7.mlp.down_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.7.mlp.up_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.7.post_attention_layernorm.weight": "model-00003-of-00010.safetensors",
    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00010.safetensors",
    "model.layers.8.input_layernorm.weight": "model-00003-of-00010.safetensors",
    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00010.safetensors",
    "model.layers.8.self_attn.k_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.8.self_attn.o_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.8.self_attn.q_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.8.self_attn.v_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.9.input_layernorm.weight": "model-00003-of-00010.safetensors",
    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00010.safetensors",
    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00010.safetensors",
    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00010.safetensors",
    "model.norm.weight": "model-00010-of-00010.safetensors"
  }
 }
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
--- a/tokenizer.json
+++ b/tokenizer.json
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:b76085f9923309d873994d444989f7eb6ec074b06f25b58f1e8d7b7741070949
 size 17078037
--- a/tokenizer_config.json
+++ b/tokenizer_config.json