language, license, library_name, base_model, tags, pipeline_tag
language
license
library_name
base_model
tags
pipeline_tag
transformers
DataPilot/ArrowCanaria-Llama-8B-SFT-v0.1
llama3
rlhf
grpo
dapo
japanese
aituber
roleplay
chat
text-generation
ArrowCanaria-Llama-8B-RL-v0.1
モデル概要
ArrowCanaria-Llama-8B-RL-v0.1 は、ArrowCanaria-Llama-8B-SFT-v0.1 に対して RLHF( Reinforcement Learning from Human Feedback) を適用し、応答品質をさらに向上させたAItuber向け日本語特化モデルです。
SFTモデルは高品質なデータで学習されていますが、モデルの応答が「データに含まれる平均的な応答」に収束してしまう傾向があります。本モデルでは、外部報酬モデル( Reward Model) によるフィードバックを用いた強化学習を適用することで、共感・傾聴の品質 や知識応答の正確性・分かりやすさ を、SFTの水準からさらに引き上げています。
強化学習アルゴリズムには GRPO( Group Relative Policy Optimization) を採用し、DAPO損失関数による安定した最適化を実現しています。相談応答と知識応答の2フェーズで段階的にRLHFを行うことで、SFTで獲得した雑談・RP・キャラクター対話能力を保持しつつ、応答の質を選択的に向上させています。
想定ユースケース
AItuber / AI VTuber : 配信中のリスナーとの雑談・コメント対応
チャットボット : 自然な日本語での日常会話・悩み相談
ロールプレイ : キャラクターを演じた対話・創作支援
汎用アシスタント : 知識応答・推論・ツール呼び出しを含む幅広いタスク
主な特徴
🗣️ 自然な日本語応答 — 定型文や翻訳調を排した、人間らしい対話。RLHFによりさらに自然さが向上
💬 高い雑談・相談性能 — 共感・傾聴・具体的助言の品質が報酬モデルによるフィードバックで最適化済み
🎭 RP・キャラクター対話 — SFTで獲得した一貫した人格・感情表現を保持
🧠 推論力・知識応答 — 正確で分かりやすい知識応答をRLHFで強化
🔧 Tool Use / RAG — Function Calling・検索拡張生成に対応
✍️ クリエイティブ表現 — 文学的な比喩・暗喩・情景描写など、豊かな日本語表現力
モデル仕様
項目
詳細
モデル名
DataPilot/ArrowCanaria-Llama-8B-RL-v0.1
SFTモデル
DataPilot/ArrowCanaria-Llama-8B-SFT-v0.1
ベースモデル
tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.5
アーキテクチャ
Llama 3.1 (Transformer decoder-only)
パラメータ数
8B
RLHFアルゴリズム
GRPO + DAPO損失
RLHFデータ量
3,600件( 相談 1,600件 + 知識QA 2,000件)
コンテキスト長
4,096 tokens
精度
BF16
ライセンス
Llama 3.1 Community License + Gemma Terms of use License
推論方法
🤗 Transformers
⚡ vLLM
データ概要
SFTデータ( ArrowCanaria-Llama-8B-SFT-v0.1 で使用)
SFTモデルは、独自の合成データ生成フレームワーク SDG_LOOM を活用して作成された 175,000件超 の高品質合成データセットで学習されています。
言語
件数
比率
日本語
124,000件
70.9%
英語
51,000件
29.1%
合計
175,000件超
100%
SFTデータの内訳: 知識応答・雑談/相談・Tool Use・RAG・推論・RP・AItuber RP・クリエイティブ表現
RLHFデータ
RLHFでは、以下の2つのデータセットを用いて強化学習を実施しました。
フェーズ
データセット
件数
目的
Phase 1
内製EQデータセット
1,600件
相談応答の共感・傾聴品質の最適化
Phase 2
DataPilot/Zero_SFT_Ja_v3.5
2,000件
知識応答の正確性・分かりやすさの最適化
合計
3,600件
RLHFでは学習データの回答( assistant部分) は使用せず、ユーザーの質問( prompt) のみを用いてモデルに応答を生成させ、外部報酬モデルのスコアに基づいて方策を最適化しています。
学習概要
モデル作成パイプライン
本モデルは以下の4段階で構築されています:
RLHF 学習設計
アルゴリズム: GRPO + DAPO
本モデルでは GRPO( Group Relative Policy Optimization) を採用しています。GRPOは各プロンプトに対して複数の応答候補を生成し、それらの報酬スコアの相対的な優劣( アドバンテージ) に基づいて方策を更新するアルゴリズムです。PPOと異なりCritic( 価値関数) を必要としないため、メモリ効率が高く安定した学習が可能です。
損失関数には DAPO( Direct Advantage Policy Optimization) を使用しています。DAPOはGRPOの改良版で、KLペナルティを用いずクリッピングのみで方策の更新幅を制御するため、ハイパーパラメータのチューニングが簡易で学習が安定します。
2フェーズ構成
フェーズ
データ件数
目的
学習率
Phase 1: 相談 RLHF
1,600件
共感・傾聴・具体的助言の品質を RM フィードバックで最適化
5e-6
Phase 2: 知識QA RLHF
2,000件
知識応答の正確性・分かりやすさを最適化。Phase 1 の品質を保持
3e-6
学習率の設計思想
Phase 1 (5e-6) : 相談応答はモデルのEQ中核能力であり、積極的に最適化
Phase 2 (3e-6) : Phase 1 で獲得した相談品質を保護しつつ、知識応答を控えめに改善。RLHFの2段階目は過学習リスクが高いため慎重に設定
報酬設計
報酬コンポーネント
設定
説明
外部報酬モデル( RM)
weight: 1.0
HTTPサーバーとして稼働する外部RMが応答品質をスコアリング
報酬シェーピング
tanh (scale: 3.0)
生のRMスコアをtanhで非線形変換し、外れ値の影響を抑制
過剰長ペナルティ
weight: 0.12
冗長な応答にソフトペナルティを付与し、簡潔さを促進
生成パラメータ( GRPO候補生成)
パラメータ
値
num_generations
8( 各プロンプトに対して8候補を生成して比較)
temperature
0.75
top_p
0.95
top_k
40
max_seq_length
2,048 tokens
min_completion_length
256 tokens
主な学習パラメータ
パラメータ
Phase 1
Phase 2
学習率
5e-6
3e-6
Warmup ratio
0.05
0.08
Weight decay
0.01
0.01
実効バッチサイズ
4( batch=1 × accum=4)
4( batch=1 × accum=4)
Max steps
400
500
LoRA rank (r)
32
32
損失関数
DAPO
DAPO
Beta( KLペナルティ)
0.0
0.0
Epsilon( クリッピング)
0.2
0.2
学習フレームワーク
Unsloth + TRL GRPOTrainer + vLLM
同左
Phase 2 の工夫
Warmup ratio を 0.08 に増加 ( Phase 1 は 0.05) : 既にRLHF済みのモデルへの追加学習のため、急激なパラメータ変動を抑制
学習率を Phase 1 の 60%( 3e-6) に低減 : Phase 1 で獲得した相談品質を最大限保護しつつ、知識応答品質を向上
--force_system_prompt の適用 :データセット固有のシステムプロンプトを統一し、一貫した応答スタイルを維持
引用
本モデルを利用した場合は、以下の情報を引用・参照していただけると幸いです:
謝辞