Files
ModelHub XC 7b21608a97 初始化项目,由ModelHub XC社区提供模型
Model: Aratako/Oumuamua-7b-instruct-v2-RP
Source: Original Platform
2026-05-15 02:53:00 +08:00

75 lines
3.2 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
license: apache-2.0
language:
- ja
datasets:
- Aratako/Rosebleu-1on1-Dialogues
- Aratako/LimaRP-augmented-ja-karakuri
- Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja
- grimulkan/LimaRP-augmented
- SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed
- OmniAICreator/Japanese-Roleplay
- OmniAICreator/Japanese-Roleplay-Dialogues
---
# Oumuamua-7b-instruct-v2-RP
[nitky/Oumuamua-7b-instruct-v2](https://huggingface.co/nitky/Oumuamua-7b-instruct-v2)をロールプレイ用にLoRAでファインチューニングしたモデルです。
## プロンプトフォーマット
以下のようなchat templateを利用してください。Alpacaの改変版
```
{ロールプレイの指示、世界観・あらすじの説明、キャラの設定など}
### 入力:
こんにちは。
### 応答:
こんにちは!</s>
### 入力:
今日はいい天気ですね。
### 応答:
```
また、マルチターンの対話を行う場合、各ターンのアシスタントの応答の末尾にeos tokenを必ずつけてください。
## 学習の設定
RunpodでGPUサーバを借り、A6000x4で学習を行いました。学習データをクオリティの高いものと低いものに2分し、2段階に分けて学習しています。
### 1回目の学習
まず、比較的クオリティの低いデータセットで1回学習を行いました。
利用データセットは以下の通りです。
- [OmniAICreator/Japanese-Roleplay](https://huggingface.co/datasets/OmniAICreator/Japanese-Roleplay)
- [OmniAICreator/Japanese-Roleplay-Dialogues](https://huggingface.co/datasets/OmniAICreator/Japanese-Roleplay)
学習パラメータは以下の通りです。
- lora_r: 128
- lisa_alpha: 256
- lora_dropout: 0.05
- lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "lm_head"]
- learning_rate: 2e-5
- num_train_epochs: 1 epoch
- batch_size: 32
- max_seq_length: 4096
### 2回目の学習
次に、クオリティの高いデータセットで学習を行いました。この2回目の学習は、completion onlyな学習ではなく、instruction部分もloss計算に入れる手法を取り入れています。また、事前学習で使われるようなinstruction形式ではないデータセットも全体の20%程度混ぜています。
利用データセットは以下の通りです。
- [Aratako/Rosebleu-1on1-Dialogues-RP](https://huggingface.co/datasets/Aratako/Rosebleu-1on1-Dialogues-RP)
- [Aratako/LimaRP-augmented-ja-karakuri](https://huggingface.co/datasets/Aratako/LimaRP-augmented-ja-karakuri)
- [Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja](https://huggingface.co/datasets/Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja)
- [grimulkan/LimaRP-augmented](https://huggingface.co/datasets/grimulkan/LimaRP-augmented)
- [SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed](https://huggingface.co/datasets/SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed)
- 事前学習用データinstruction形式になっていないもの
学習パラメータは以下の通りです。
- lora_r: 128
- lisa_alpha: 256
- lora_dropout: 0.05
- lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "lm_head"]
- learning_rate: 2e-5
- num_train_epochs: 3 epochs
- batch_size: 32
- max_seq_length: 4096