初始化项目,由ModelHub XC社区提供模型

Model: kawaimasa/Wanabi-Novelist-12B
Source: Original Platform
This commit is contained in:
ModelHub XC
2026-04-22 05:07:56 +08:00
commit 59d93ad7bb
15 changed files with 8725 additions and 0 deletions

36
.gitattributes vendored Normal file
View File

@@ -0,0 +1,36 @@
*.7z filter=lfs diff=lfs merge=lfs -text
*.arrow filter=lfs diff=lfs merge=lfs -text
*.bin filter=lfs diff=lfs merge=lfs -text
*.bz2 filter=lfs diff=lfs merge=lfs -text
*.ckpt filter=lfs diff=lfs merge=lfs -text
*.ftz filter=lfs diff=lfs merge=lfs -text
*.gz filter=lfs diff=lfs merge=lfs -text
*.h5 filter=lfs diff=lfs merge=lfs -text
*.joblib filter=lfs diff=lfs merge=lfs -text
*.lfs.* filter=lfs diff=lfs merge=lfs -text
*.mlmodel filter=lfs diff=lfs merge=lfs -text
*.model filter=lfs diff=lfs merge=lfs -text
*.msgpack filter=lfs diff=lfs merge=lfs -text
*.npy filter=lfs diff=lfs merge=lfs -text
*.npz filter=lfs diff=lfs merge=lfs -text
*.onnx filter=lfs diff=lfs merge=lfs -text
*.ot filter=lfs diff=lfs merge=lfs -text
*.parquet filter=lfs diff=lfs merge=lfs -text
*.pb filter=lfs diff=lfs merge=lfs -text
*.pickle filter=lfs diff=lfs merge=lfs -text
*.pkl filter=lfs diff=lfs merge=lfs -text
*.pt filter=lfs diff=lfs merge=lfs -text
*.pth filter=lfs diff=lfs merge=lfs -text
*.rar filter=lfs diff=lfs merge=lfs -text
*.safetensors filter=lfs diff=lfs merge=lfs -text
saved_model/**/* filter=lfs diff=lfs merge=lfs -text
*.tar.* filter=lfs diff=lfs merge=lfs -text
*.tar filter=lfs diff=lfs merge=lfs -text
*.tflite filter=lfs diff=lfs merge=lfs -text
*.tgz filter=lfs diff=lfs merge=lfs -text
*.wasm filter=lfs diff=lfs merge=lfs -text
*.xz filter=lfs diff=lfs merge=lfs -text
*.zip filter=lfs diff=lfs merge=lfs -text
*.zst filter=lfs diff=lfs merge=lfs -text
*tfevents* filter=lfs diff=lfs merge=lfs -text
tokenizer.json filter=lfs diff=lfs merge=lfs -text

8
Modelfile Normal file
View File

@@ -0,0 +1,8 @@
# ollama modelfile auto-generated by llamafactory
FROM .
TEMPLATE """<s>{{ if .System }}[SYSTEM_PROMPT]{{ .System }}[/SYSTEM_PROMPT]{{ end }}{{ range .Messages }}{{ if eq .Role "user" }}[INST]{{ .Content }}[/INST]{{ else if eq .Role "assistant" }}{{ .Content }}</s>{{ end }}{{ end }}"""
PARAMETER stop "</s>"
PARAMETER num_ctx 4096

218
README.md Normal file
View File

@@ -0,0 +1,218 @@
---
license: apache-2.0
language: ja
tags:
- japanese
- text-generation
- novel-writing
- mistral
base_model: mistralai/Mistral-Nemo-Base-2407
pipeline_tag: text-generation
---
**Wanabi-Novelist-12B** は、小説執筆支援に特化してファインチューニングされた、日本語大規模言語モデルです。
このモデルは、専用デスクトップアプリケーション **[Project Wannabe](https://github.com/kawaii-justice/Project-Wannabe)** と連携して使用することを前提に設計されています。アプリケーションが提供するGUIを通じて、ユーザーはアイデア出しから本文生成、続きの執筆まで、一貫した執筆体験を得ることができます。
ベースモデルには[`Mistral-Nemo-Base-2407`](https://huggingface.co/mistralai/Mistral-Nemo-Base-2407)を採用しました。
**本モデルは[Project Wannabe](https://github.com/kawaii-justice/Project-Wannabe)で使用することを想定した小説執筆特化モデルです。一般的なInstructモデルのような汎用的な指示応答性能はありません。**
実際に使用する際は以下のリンクからGGUFをダウンロードしてkoboldcpp経由で使用してください。
[![GGUF](https://img.shields.io/badge/GGUF-Download-green)](https://huggingface.co/kawaimasa/Wanabi-Novelist-12B-GGUF)
## ✨ 主な機能
`Wanabi-Novelist-12B`は、[Project Wannabe](https://github.com/kawaii-justice/Project-Wannabe)を通じて以下の3つの主要なタスクを実行します。各項目の具体的な説明は [Project Wannabe](https://github.com/kawaii-justice/Project-Wannabe)の[チュートリアル](https://github.com/kawaii-justice/Project-Wannabe/blob/main/docs/Quick_Start_Guide.md)をご確認ください。
1. **本文生成 (GEN)**
* タイトル、あらすじ、プロットといったメタ情報に基づいて、小説の冒頭や新たなシーンを生成します。メタ情報なしで、完全に自由に生成することも可能です。
2. **続き生成 (CONT)**
* 執筆済みの本文を読み込み、文脈に沿った自然な続きを生成します。オーサーズノート(短期的な展開指示)を用いることで、より細かく展開を誘導できます。
3. **アイデア生成 (IDEA)**
* キーワードやジャンルなど、断片的な情報から、小説の骨子となるアイデアタイトル、あらすじ、プロット、設定などを生成します。v2以前とは異なり、簡潔な内容やと途切れた文章からアイデアを生成できるようになりました。
これらのタスク実行時に、**レーティング (`general`/`r18`)** や **セリフ量の割合** を指定することで、生成される内容をさらに細かくコントロールできます。
## Wanabi-Novelist-24Bとの違い
本モデルは [Wanabi-Novelist-24B](https://huggingface.co/kawaimasa/Wanabi-Novelist-24B) と同一のデータセットで学習されていますが、以下の点が異なります。
* **ベースモデル:** 24B版が`Mistral-Small-3.1-24B-Base-2503`を使用しているのに対し、12B版は[`Mistral-Nemo-Base-2407`](https://huggingface.co/mistralai/Mistral-Nemo-Base-2407)12Bパラメータを使用しています。
* **モデルサイズ:** パラメータ数が約半分のため、VRAM消費が少なく、より手軽に利用できます。
* **学習設定:** LoRA rank 16 / alpha 3224B版はrank 128 / alpha 256で学習しており、量子化なしフルBF16で学習を行っています。
* **性能:** ベースモデルのサイズが小さいため、24B版と比較して生成品質は劣る可能性がありますが、より軽量に動作します。
## 主な特長とwanabi-v2からの進化点
Wanabi-Novelist-12Bは、24B版と同じデータセット改善とアーキテクチャ上の改善を取り入れています。
### 1. データセットの全面的刷新
学習データの質と多様性を向上させるため、データセットをゼロから再構築しました。
* **多様な文体の学習:** Web小説のデータセットを**約2万4千件**まで拡張したのに加えて、新たに**青空文庫約7千件**のデータを追加しました。これにより、現代的な文体から格調高い表現まで、より幅広い文体への対応を目指しました。
* **データ品質の改善:** 本文データをすべて再取得することで今まで本文に含まれていたイズ作者名や作品IDの混入などを除去。さらに、小説の体裁に不可欠な**空行や字下げが適切に維持されるように**データ処理を改善しました。
* **ジャンルの偏り是正:** Web小説データにありがちな女性向けジャンルへの偏りを緩和し、よりバランスの取れたデータ構成になるよう調整しました。
* **高品質な合成メタデータ:** 300B以上のオープンウェイトモデルとSOTAレベルのLLM 8種類以上と20種類以上のプロンプトをランダムに組み合わせながら各小説に6種類のメタデータ計18万件を生成しよりユーザーの多様な入力を模倣することを目指しました。
### 2. 基礎性能
* **ベースモデル:** [`Mistral-Nemo-Base-2407`](https://huggingface.co/mistralai/Mistral-Nemo-Base-2407) を採用しています。12Bパラメータながら、Mistralアーキテクチャによる高い言語理解能力を持っています。
注意理論上のコンテキストは128Kまで対応していますが、学習時のコンテキストは最大32Kです。ロングコンテキストでは性能が低下する可能性があります。
### 3. 機能の改善と有効化
ユーザーがより直感的に生成内容をコントロールできるよう、機能不全に陥っていた機能をモデルがサポートするように改善しました。
* **アイデアタスクの修正:** v2以前ではタイトル、あらすじ、プロット、設定などのアイデアの項目の欠落部分を生成することのみに特化しておりアイデアを膨らませることができず、実用的なアイデア生成が困難でしたが、上記の豊富なメタデータを利用して簡潔/不完全なアイデアを入力すると詳細なアイデアを生成するようにしました。。これにより、生成したいアイデアを簡単に記すだけで、それを膨らませた多様なアイデア案を作ってくれるようになりました。
* **「セリフ量」指定機能の改善:** 従来は曖昧だったセリフ量の指定を、「**次に生成される文章**」のセリフ量を明示的に指定する形式に改善しました。これにより、シーンに応じた会話量の調整がより容易になりました。(以前は小説全体のセリフ量を計算していため、不安定でした。)
* **この先の展開についての指示・メモ:** 次の展開をわかりやすい名称で指示できるようになりました。v2以前のオーサーズートと同一機能ですが、名称をわかりやすくしました。
このモデルの能力を最大限に引き出すには、専用アプリケーション **[Project Wannabe](https://github.com/kawaii-justice/Project-Wannabe)** の使用が不可欠です。
Project Wannabeは、本モデルが学習した特殊な指示形式構造化プロンプトを、ユーザーが意識することなくGUIから簡単に生成できるように設計されています。正しく形式を理解すればモデル単体での使用も可能ですが、煩雑なためProject Wannabeとの連携を強く推奨します。
## 💻 学習の詳細
### ベースモデル
* [mistralai/Mistral-Nemo-Base-2407](https://huggingface.co/mistralai/Mistral-Nemo-Base-2407)
### 学習フレームワーク
* [LLaMA-Factory](https://github.com/hiyouga/LLaMA-Factory)
### 学習設定
<details><summary>学習設定 (LLaMA-Factory)</summary>
```yaml
# モデルとデータセット
model_name_or_path: mistralai/Mistral-Nemo-Base-2407
dataset: wanabi_novelist_dataset_32K_len, wanabi_novelist_dataset_24K_len, wanabi_novelist_dataset_16K_len
eval_dataset: wanabi_novelist_dataset_for_eval_16K_len
template: mistral_small
# 学習方法と出力先
stage: sft
do_train: true
finetuning_type: lora # LoRA を使用
output_dir: saves//Wanabi_Novelist_12B_v1
# LoRA 設定
lora_target: all
lora_rank: 16
lora_alpha: 32
lora_dropout: 0.05
use_rslora: False
seed: 260322
# シーケンス長とバッチサイズ
cutoff_len: 32768
per_device_train_batch_size: 1 # バッチサイズは 1
gradient_accumulation_steps: 64 # 勾配累積ステップ
preprocessing_num_workers: 16
# 最適化と混合精度
flash_attn: fa2 # FlashAttention-2 を有効化
use_unsloth_gc: true # Activation Offloading を有効化
bf16: true
# 学習パラメータ
learning_rate: 3e-5
num_train_epochs: 1
lr_scheduler_type: cosine_with_min_lr
lr_scheduler_kwargs: {"min_lr_rate":0.1}
warmup_ratio: 0.02
logging_steps: 5
save_steps: 100
save_total_limit: 80
optim: paged_adamw_8bit
weight_decay: 0.01
max_grad_norm: 1.0
# その他の最適化
enable_liger_kernel: true
# eval
eval_steps: 100
eval_strategy: steps
per_device_eval_batch_size: 1
eval_accumulation_steps: 1
report_to: tensorboard
```
</details>
## 📝 プロンプト形式 (mistral_small テンプレート)
本モデルは LLaMA-Factory の `mistral_small` チャットテンプレート形式で学習していますが、[Project Wannabe](https://github.com/kawaii-justice/Project-Wannabe)で使われる特定のフォーマットのみしかサポートされていません。一般的なチャットや指示応答には使えません。具体的なフォーマットは[ドキュメント](https://github.com/kawaii-justice/Project-Wannabe/blob/main/docs/prompt_logic.md) をご覧ください。またこれらの内容は[Project Wannabe](https://github.com/kawaii-justice/Project-Wannabe)を使用する際は気にする必要はありません。
**基本構造:**
`<s>[INST]{Instruction}\n{Input}[/INST]{Output}</s>`
---
<details><summary>形式例をみる</summary>
**1. 本文生成 (GEN):**
* **例 (メタデータ・セリフ量あり):**
```
<s>[INST]以下の情報に基づいて小説本文を生成してください。 レーティング: general
# タイトル:
星降る夜の魔法使い
# キーワード:
ファンタジー
魔法学園
# セリフ量: 多い[/INST]{生成される本文}</s>
```
* **例 (メタデータなし):**
```
<s>[INST]自由に小説を生成してください。 レーティング: general[/INST]{生成される本文}</s>
```
**2. 続き生成 (CONT):**
* **例 (参考情報・オーサーズノートあり):**
```
<s>[INST]参考情報と本文を踏まえ、最後の文章の自然な続きとなるように小説を生成してください。 レーティング: general
【参考情報】
```
# ジャンル:
学園コメディ
# セリフ量: 普通
```
【本文】
```
廊下を歩いていると、角から飛び出してきたクラスメイトとぶつかってしまった。彼女の手には大量のプリントがある。
っ…まずい
「わわっ、ごめんなさ――」
```
【この先の展開についての指示・メモ】
```
ぶつかった衝撃でプリントが宙を舞う。
主人公は慌てて拾うのを手伝う。
相手の女の子は少しドジな人気者。
```
彼女は顔を赤らめて言った。
「ごめんなさい」
そう言いながら…[/INST]{生成される続きの本文}</s>
```
*(注: 【参考情報】と【本文】の順序は変更可能です)*
**3. アイデア生成 (IDEA):**
* **例 (一部メタデータあり):**
```
<s>[INST]以下の情報に基づいて、完全な小説のアイデア(タイトル、キーワード、ジャンル、あらすじ、設定、プロット)を生成してください。 レーティング: general
# ジャンル:
SF
サイバーパンク[/INST]# タイトル:
電脳都市の孤独な探偵
# キーワード:
サイバーパンク
探偵
アンドロイド
# ... (以下、生成されるアイデア一式)
</s>
```
</details><br>
## ⚠️ 制限事項と注意点
* **汎用性の制限:** 本モデルは[Project Wannabe](https://github.com/kawaii-justice/Project-Wannabe)で使用することを想定した小説執筆特化モデルです。一般的なInstructモデルのような指示応答性能はありません。
* **偏り:** 学習データの特性上、生成内容が特定のジャンル、表現、展開に偏る可能性があります。
* **不適切な内容:** 学習データには多様なテキストが含まれるため、未成年者の閲覧に適さない、または不快感を与える可能性のある文章が生成されることがあります。レーティング機能で制御を試みていますが、完全ではありません。
* **品質の限界:** 生成される文章の多様性、一貫性、文脈への追従性には限界があります。特に長い文章の生成では破綻する可能性があります。オーサーズノート機能などでの誘導をお試しください。
* **利用上の注意:** 本モデルは研究および実験的な目的で提供されています。利用者は、適用される法律および規制を遵守する責任を負います。違法な目的や他者の権利を侵害する目的での使用は固く禁じます。
* **自己責任:** 本モデルの使用によって生じたいかなる結果についても、開発者は一切の責任を負いません。全て自己責任においてご利用ください。

1
chat_template.jinja Normal file
View File

@@ -0,0 +1 @@
{{ '<s>' }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% endif %}{% if system_message is defined %}{{ '[SYSTEM_PROMPT]' + system_message + '[/SYSTEM_PROMPT]' }}{% endif %}{% for message in loop_messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '[INST]' + content + '[/INST]' }}{% elif message['role'] == 'assistant' %}{{ content + '</s>' }}{% endif %}{% endfor %}

26
config.json Normal file
View File

@@ -0,0 +1,26 @@
{
"architectures": [
"MistralForCausalLM"
],
"attention_dropout": 0.0,
"bos_token_id": 1,
"dtype": "bfloat16",
"eos_token_id": 2,
"head_dim": 128,
"hidden_act": "silu",
"hidden_size": 5120,
"initializer_range": 0.02,
"intermediate_size": 14336,
"max_position_embeddings": 131072,
"model_type": "mistral",
"num_attention_heads": 32,
"num_hidden_layers": 40,
"num_key_value_heads": 8,
"rms_norm_eps": 1e-05,
"rope_theta": 1000000.0,
"sliding_window": null,
"tie_word_embeddings": false,
"transformers_version": "4.57.0",
"use_cache": true,
"vocab_size": 131072
}

6
generation_config.json Normal file
View File

@@ -0,0 +1,6 @@
{
"_from_model_config": true,
"bos_token_id": 1,
"eos_token_id": 2,
"transformers_version": "4.57.0"
}

View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:612ac1b07787eb5d0be54175bf6b28ef0bfa8a3960e5a99343385d7e7f1f2799
size 4865522496

View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:f190793110a30d0cbb048ec6b4cf82f7b053bbae07e6271a893799e01f8003e5
size 4907529424

View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:01f814a8ad21304cf6ec80c859e2c2e4342a88839e54b4f7b79f2f31c8d7ac8f
size 4907529456

View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:a105ba3f8a33d431299c5b739641a51045b775d582880e7bf1d5ff0681e71b85
size 4907529456

View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:a67f9637ab9dfb6133eae37d5876d5b6445462247156dd7f4a7bc3696093d6d9
size 4907496272

View File

@@ -0,0 +1,371 @@
{
"metadata": {
"total_parameters": 12247782400,
"total_size": 24495564800
},
"weight_map": {
"lm_head.weight": "model-00005-of-00005.safetensors",
"model.embed_tokens.weight": "model-00001-of-00005.safetensors",
"model.layers.0.input_layernorm.weight": "model-00001-of-00005.safetensors",
"model.layers.0.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.0.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.0.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.0.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
"model.layers.0.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.0.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.0.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.0.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.1.input_layernorm.weight": "model-00001-of-00005.safetensors",
"model.layers.1.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.1.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.1.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.1.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
"model.layers.1.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.1.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.1.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.1.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.10.input_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.10.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.10.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.10.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.10.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.10.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.10.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.10.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.10.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.11.input_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.11.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.11.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.11.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.11.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.11.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.11.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.11.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.11.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.12.input_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.12.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.12.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.12.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.12.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.12.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.12.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.12.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.12.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.13.input_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.13.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.13.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.13.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.13.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.13.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.13.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.13.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.13.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.14.input_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.14.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.14.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.14.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.14.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.14.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.14.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.14.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.14.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.15.input_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.15.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.15.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.15.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.15.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.15.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.15.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.15.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.15.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.16.input_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.16.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.16.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.16.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.16.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.16.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.16.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.16.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.16.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.17.input_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.17.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.17.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.17.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.17.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.17.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.17.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.17.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.17.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.18.input_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.18.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.18.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.18.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.18.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.18.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.18.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.18.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.18.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.19.input_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.19.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.19.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.19.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.19.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.19.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.19.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.19.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.19.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.2.input_layernorm.weight": "model-00001-of-00005.safetensors",
"model.layers.2.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.2.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.2.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.2.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
"model.layers.2.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.2.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.2.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.2.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.20.input_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.20.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.20.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.20.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.20.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.20.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.20.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.20.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.20.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.21.input_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.21.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.21.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.21.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.21.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.21.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.21.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.21.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.21.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.22.input_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.22.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.22.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.22.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.22.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.22.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.22.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.22.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.22.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.23.input_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.23.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.23.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.23.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.23.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
"model.layers.23.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.23.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.23.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.23.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.24.input_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.24.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.24.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.24.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.24.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.24.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.24.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.24.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.24.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
"model.layers.25.input_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.25.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.25.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.25.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.25.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.25.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.25.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.25.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.25.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.26.input_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.26.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.26.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.26.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.26.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.26.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.26.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.26.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.26.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.27.input_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.27.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.27.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.27.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.27.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.27.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.27.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.27.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.27.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.28.input_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.28.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.28.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.28.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.28.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.28.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.28.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.28.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.28.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.29.input_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.29.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.29.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.29.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.29.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.29.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.29.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.29.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.29.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.3.input_layernorm.weight": "model-00001-of-00005.safetensors",
"model.layers.3.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.3.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.3.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.3.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
"model.layers.3.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.3.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.3.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.3.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.30.input_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.30.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.30.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.30.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.30.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.30.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.30.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.30.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.30.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.31.input_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.31.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.31.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.31.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.31.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.31.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.31.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.31.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.31.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.32.input_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.32.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.32.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.32.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.32.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
"model.layers.32.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.32.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.32.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.32.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.33.input_layernorm.weight": "model-00005-of-00005.safetensors",
"model.layers.33.mlp.down_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.33.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.33.mlp.up_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.33.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
"model.layers.33.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.33.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.33.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.33.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
"model.layers.34.input_layernorm.weight": "model-00005-of-00005.safetensors",
"model.layers.34.mlp.down_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.34.mlp.gate_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.34.mlp.up_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.34.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
"model.layers.34.self_attn.k_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.34.self_attn.o_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.34.self_attn.q_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.34.self_attn.v_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.35.input_layernorm.weight": "model-00005-of-00005.safetensors",
"model.layers.35.mlp.down_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.35.mlp.gate_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.35.mlp.up_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.35.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
"model.layers.35.self_attn.k_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.35.self_attn.o_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.35.self_attn.q_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.35.self_attn.v_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.36.input_layernorm.weight": "model-00005-of-00005.safetensors",
"model.layers.36.mlp.down_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.36.mlp.gate_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.36.mlp.up_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.36.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
"model.layers.36.self_attn.k_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.36.self_attn.o_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.36.self_attn.q_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.36.self_attn.v_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.37.input_layernorm.weight": "model-00005-of-00005.safetensors",
"model.layers.37.mlp.down_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.37.mlp.gate_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.37.mlp.up_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.37.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
"model.layers.37.self_attn.k_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.37.self_attn.o_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.37.self_attn.q_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.37.self_attn.v_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.38.input_layernorm.weight": "model-00005-of-00005.safetensors",
"model.layers.38.mlp.down_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.38.mlp.gate_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.38.mlp.up_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.38.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
"model.layers.38.self_attn.k_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.38.self_attn.o_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.38.self_attn.q_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.38.self_attn.v_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.39.input_layernorm.weight": "model-00005-of-00005.safetensors",
"model.layers.39.mlp.down_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.39.mlp.gate_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.39.mlp.up_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.39.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
"model.layers.39.self_attn.k_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.39.self_attn.o_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.39.self_attn.q_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.39.self_attn.v_proj.weight": "model-00005-of-00005.safetensors",
"model.layers.4.input_layernorm.weight": "model-00001-of-00005.safetensors",
"model.layers.4.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.4.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.4.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.4.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
"model.layers.4.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.4.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.4.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.4.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.5.input_layernorm.weight": "model-00001-of-00005.safetensors",
"model.layers.5.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.5.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.5.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.5.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
"model.layers.5.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.5.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.5.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.5.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.6.input_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.6.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.6.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.6.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.6.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.6.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.6.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.6.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.6.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
"model.layers.7.input_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.7.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.7.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.7.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.7.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.7.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.7.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.7.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.7.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.8.input_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.8.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.8.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.8.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.8.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.8.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.8.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.8.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.8.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.9.input_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.9.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.9.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.9.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.9.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
"model.layers.9.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.9.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.9.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
"model.layers.9.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
"model.norm.weight": "model-00005-of-00005.safetensors"
}
}

24
special_tokens_map.json Normal file
View File

@@ -0,0 +1,24 @@
{
"bos_token": {
"content": "<s>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
},
"eos_token": {
"content": "</s>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
},
"pad_token": "</s>",
"unk_token": {
"content": "<unk>",
"lstrip": false,
"normalized": false,
"rstrip": false,
"single_word": false
}
}

3
tokenizer.json Normal file
View File

@@ -0,0 +1,3 @@
version https://git-lfs.github.com/spec/v1
oid sha256:b0240ce510f08e6c2041724e9043e33be9d251d1e4a4d94eb68cd47b954b61d2
size 17078292

8017
tokenizer_config.json Normal file

File diff suppressed because it is too large Load Diff