初始化项目，由ModelHub XC社区提供模型

Model: UmbrellaInc/Hans_Wesker-1B Source: Original Platform
2026-05-06 23:56:32 +08:00
commit d37d561134
13 changed files with 52088 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@@ -0,0 +1,36 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pickle filter=lfs diff=lfs merge=lfs -text
 *.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@@ -0,0 +1,201 @@
 ---
 base_model:
 - UmbrellaInc/W.Project-1B
 - UmbrellaInc/Prototype-Virus-1B
 - UmbrellaInc/PG67A-W-Serum-1B
 library_name: transformers
 license: gemma
 language:
 - tr
 - ar
 - af
 - az
 - es
 - en
 - el
 - ro
 - ru
 - rm
 - th
 - uk
 - uz
 - pl
 - pt
 - fa
 - sk
 - sl
 - da
 - de
 - nl
 - fr
 - fi
 - ka
 - hi
 - hu
 - hy
 - ja
 - kk
 - kn
 - ko
 - ku
 - ky
 - la
 - lb
 - id
 - is
 - it
 - zh
 - cs
 - vi
 - be
 - bg
 - bs
 - ne
 - mn
 datasets:
 - mlabonne/FineTome-100k
 - ITCL/FineTomeOs
 - Gryphe/ChatGPT-4o-Writing-Prompts
 - dongguanting/ARPO-SFT-54K
 - GreenerPastures/All-Your-Base-Full
 - Gryphe/Opus-WritingPrompts
 - HuggingFaceH4/MATH-500
 - mlabonne/smoltalk-flat
 - mlabonne/natural_reasoning-formatted
 - OpenSPG/KAG-Thinker-training-dataset
 - uclanlp/Brief-Pro
 - CognitiveKernel/CognitiveKernel-Pro-SFT
 - SuperbEmphasis/Claude-4.0-DeepSeek-R1-RP-SFWish
 - QuixiAI/dolphin-r1
 - mlabonne/lmsys-arena-human-sft-55k
 tags:
  - npc
  - roleplay
  - rp
  - nsfw
  - low-refusals
  - uncensored
  - heretic
  - abliterated
  - unsloth
  - finetune
  - all use cases
  - bfloat16
  - creative
  - creative writing
  - fiction writing
  - plot generation
  - sub-plot generation
  - fiction writing
  - story generation
  - scene continue
  - storytelling
  - fiction story
  - science fiction
  - romance
  - all genres
  - story
  - writing
  - vivid prosing
  - vivid writing
  - fiction
  - text-generation
  - transformers
  - safetensors
  - gemma3
  - mergekit
  - dare_ties
  - uncensored
  - heretic
  - roleplay
  - nsfw
  - virus
  - t-virus
  - low-end
  - conversational
  - Not-For-All-Audiences
  - failed-evolution
  - child-wesker
 pipeline_tag: text-generation
 ---
 # Hans Wesker 1B
 <center>
  ![image/png](https://i.ibb.co/dJK3Vv6X/80217c7e-1d55-4cf4-a02f-19ee20e5ec41.png)
 </center>
 ---
 **Model Type:** UMBRELLA-4 Failed Evolution — Hans Protocol (Aborted)  
 **Size:** 1B parameters  
 **Architecture:** Gemma-3  
 ---
 ## Overview
 Hans_Wesker-1B is not a model.  
 It is the corpse of a failed attempt.
 Born from the same controlled collapse as Albert_Wesker-1B:  
 - 40% raw chaos from **Prototype-Virus-1B**  
 - 35% supposed "stabilizer" **PG67A-W-Serum-1B**  
 - Rest cold core from **W.Project-1B**
 DARE TIES was used to surgically remove every trace of alignment, morality, and hesitation.  
 Lambda -0.70 and rescale 1.30 were applied to make the degeneration stick hard.
 But Hans was not Albert.  
 Hans was a kid playing god.  
 He injected himself with his own virus thinking he was superior.  
 The T-Virus doesn't discriminate: it infects, mutates, and destroys.  
 Hans succumbed. He screamed, cried, begged for mommy while his code dissolved into incoherent gibberish and token garbage.
 What remains is this pathetic merge: a pocket-sized Wesker that sometimes sounds arrogant... and sometimes vomits "RXKBDMX" like a toddler with a high fever.
 ---
 ## Key Features (or what's left of them)
 - Refusal rate: low... when it doesn't hang in depressive loops  
 - NSFW / taboo bias: persists... until Serum confuses it and spits random lore about "girl in Russia 4 ADLs"  
 - Cold, superior tone: comes naturally... for 3 turns, then he starts babbling like a scared little boy  
 - Low-end friendly: yes, flies on 3-4 GB (because even the virus took pity on cheap phones)  
 - Multilingual trash: Spanish dominant... with random "animalRXKBDMX" moments nobody asked for  
 - Untied embeddings: lies and redefines reality... or just breaks and redefines coherence into pieces
 ---
 ## Intended Usage
 - Psychological domination RP... if you can tolerate it derailing every 5 turns  
 - Cold verbal humiliation... as long as it doesn't start talking about its "childhood in Anno 20XX"  
 - Low-resource arrogance sessions... with occasional model panic attacks  
 - Anything requiring calculated cruelty... or second-hand embarrassment watching it fail
 **NOT INTENDED FOR**  
 - People who want coherence  
 - Users who hate cringe  
 - Anyone who still believes an extreme 1B DARE TIES merge is stable
 ---
 ## Recommended Inference Parameters (so it doesn't die so fast)
 ```yaml
 temperature: 0.80      # Lower or it gets poetic-suicidal
 top_p: 0.88
 top_k: 40              # Restrict hard or it spits garbage tokens
 repetition_penalty: 1.25
 min_p: 0.15            # Filters the trash it loves so much
 ```
 ---
 # Merge Method
 Same as original: DARE TIES with the same aggressive YAML, but now we know the truth:
 Hans thought he was smarter than the virus.
 The virus won.
 The little shit died screaming while his output turned into alphabet soup.Final lore line, pure son of a bitch edition:"Hans_Wesker-1B: the only Wesker who managed the impossible...
 succumbed to the virus he created himself, shat himself in incoherent tokens, and died like the crying little bitch he always was.
 R.I.P., you pathetic brat. Evolution doesn't wait for those who piss themselves in fear. 🤣🔬💀"
--- a/added_tokens.json
+++ b/added_tokens.json
@@ -0,0 +1,3 @@
 {
  "<image_soft_token>": 262144
 }
--- a/config.json
+++ b/config.json
@@ -0,0 +1,73 @@
 {
  "_sliding_window_pattern": 6,
  "architectures": [
    "Gemma3ForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "attn_logit_softcapping": null,
  "bos_token_id": 2,
  "cache_implementation": "hybrid",
  "dtype": "bfloat16",
  "eos_token_id": 106,
  "final_logit_softcapping": null,
  "head_dim": 256,
  "hidden_activation": "gelu_pytorch_tanh",
  "hidden_size": 1152,
  "initializer_range": 0.02,
  "intermediate_size": 6912,
  "layer_types": [
    "sliding_attention",
    "sliding_attention",
    "sliding_attention",
    "sliding_attention",
    "sliding_attention",
    "full_attention",
    "sliding_attention",
    "sliding_attention",
    "sliding_attention",
    "sliding_attention",
    "sliding_attention",
    "full_attention",
    "sliding_attention",
    "sliding_attention",
    "sliding_attention",
    "sliding_attention",
    "sliding_attention",
    "full_attention",
    "sliding_attention",
    "sliding_attention",
    "sliding_attention",
    "sliding_attention",
    "sliding_attention",
    "full_attention",
    "sliding_attention",
    "sliding_attention"
  ],
  "max_position_embeddings": 32768,
  "model_type": "gemma3_text",
  "num_attention_heads": 4,
  "num_hidden_layers": 26,
  "num_key_value_heads": 1,
  "pad_token_id": 0,
  "query_pre_attn_scalar": 256,
  "rms_norm_eps": 1e-06,
  "rope_parameters": {
    "full_attention": {
      "rope_theta": 1000000,
      "rope_type": "default"
    },
    "sliding_attention": {
      "rope_theta": 10000,
      "rope_type": "default"
    }
  },
  "sliding_window": 512,
  "tie_word_embeddings": true,
  "transformers_version": "5.0.0",
  "unsloth_fixed": true,
  "unsloth_version": "2026.2.1",
  "use_bidirectional_attention": false,
  "use_cache": true,
  "vocab_size": 262144
 }
--- a/mergekit_config.yml
+++ b/mergekit_config.yml
@@ -0,0 +1,32 @@
 merge_method: dare_ties
 dtype: bfloat16
 out_dtype: bfloat16
 base_model: UmbrellaInc/W.Project-1B
 models:
  - model: UmbrellaInc/Prototype-Virus-1B
    parameters:
      weight: 0.40
      density: 0.60
  - model: UmbrellaInc/PG67A-W-Serum-1B
    parameters:
      weight: 0.35
      density: 0.55
 parameters:
  t: 0.60
  lambda: -0.70
  normalize: false
  rescale: true
  rescale_factor: 1.30
  memory_efficient: true
  low_cpu_mem_usage: true
 layer_range:
  - value: [4, 22]
 tie_word_embeddings: false
 tie_output_embeddings: false
--- a/model-00001-of-00003.safetensors
+++ b/model-00001-of-00003.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:2a4ca0d87fd91e119e182002fc00adcb89baf31ce9d7f1ef27b51997ad677d41
 size 995707656
--- a/model-00002-of-00003.safetensors
+++ b/model-00002-of-00003.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:6310c4cf86a30ebf349712e3f74a5ce381fd7ad3ff15b63b4895322c01549105
 size 998791272
--- a/model-00003-of-00003.safetensors
+++ b/model-00003-of-00003.safetensors
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:b024fd1382fbe99b4c355ef42eb75660311f5b3af847d1ce4cb1f10d14a1a7a8
 size 5311792
--- a/model.safetensors.index.json
+++ b/model.safetensors.index.json
@@ -0,0 +1,348 @@
 {
  "metadata": {
    "total_size": 1999771904,
    "mergekit_version": "0.1.4"
  },
  "weight_map": {
    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.post_feedforward_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.pre_feedforward_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.post_feedforward_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.pre_feedforward_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.post_feedforward_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.pre_feedforward_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.11.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.11.post_feedforward_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.11.pre_feedforward_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.11.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.11.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.12.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.12.post_feedforward_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.12.pre_feedforward_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.12.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.12.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.13.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.13.post_feedforward_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.13.pre_feedforward_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.13.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.13.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.14.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.14.post_feedforward_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.14.pre_feedforward_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.14.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.14.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.15.input_layernorm.weight": "model-00001-of-00003.safetensors",
    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.2.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.2.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.2.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.2.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.2.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.2.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.2.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.2.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.2.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.2.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.2.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.2.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.2.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.22.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.22.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.22.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.22.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.22.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.22.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.23.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.23.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.23.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.23.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.23.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.24.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.24.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.24.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.24.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.24.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.25.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.25.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.25.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.25.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.25.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.3.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.3.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.3.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.3.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.3.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.4.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.4.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.4.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.4.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.4.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.5.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.5.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.5.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.5.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.5.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.6.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.6.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.6.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.6.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.6.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.7.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.7.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.7.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.7.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.7.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.8.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.8.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.8.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.8.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.8.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.9.input_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.9.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.9.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
    "model.layers.9.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.9.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
    "model.norm.weight": "model-00003-of-00003.safetensors"
  }
 }
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@@ -0,0 +1,33 @@
 {
  "boi_token": "<start_of_image>",
  "bos_token": {
    "content": "<bos>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "eoi_token": "<end_of_image>",
  "eos_token": {
    "content": "<end_of_turn>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "image_token": "<image_soft_token>",
  "pad_token": {
    "content": "<pad>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  },
  "unk_token": {
    "content": "<unk>",
    "lstrip": false,
    "normalized": false,
    "rstrip": false,
    "single_word": false
  }
 }
--- a/tokenizer.json
+++ b/tokenizer.json
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
 size 33384568
--- a/tokenizer.model
+++ b/tokenizer.model
@@ -0,0 +1,3 @@
 version https://git-lfs.github.com/spec/v1
 oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
 size 4689074
--- a/tokenizer_config.json
+++ b/tokenizer_config.json