dpo-qwen-cot-merged/README.md

---
base_model: Qwen/Qwen3-4B-Instruct-2507
datasets:
- official-dpo-subset
language:
- en
license: apache-2.0
library_name: transformers
pipeline_tag: text-generation
tags:
- dpo
- unsloth
- qwen
- alignment
---

# qwen3-4b-dpo-qwen-cot-merged

## 🚩 コンペティション遵守事項 (Compliance)
本モデルは、LLM講座の最終課題メインコンペティションの規定を遵守して作成されました。

- **ベースモデル**: 規定通り `Qwen/Qwen3-4B-Instruct-2507` を使用しています。
- **学習手法**: DPO (Direct Preference Optimization) を採用し、パラメータの更新を行いました。
- **学習データ**: **運営より配布された公式DPOデータセット**を元に、特定のタスクに絞ったフィルタリング（抽出）を行って使用しています。
- **データ作成に関する宣言**: **LLMを用いた新規データの生成やAIによる改変は一切行っておりません**。すべて配布データ内からの選択です (ルール6.6遵守)。

## 🛠️ Training Objective
このモデルは、構造化データの出力精度向上と推論プロセス（Chain-of-Thought）の強化を目的としています。配布データの中から高品質なペアを選択し、Unslothライブラリを用いてDPO学習を行いました。

## ⚙️ Training Configuration
- **Method**: DPO
- **Epochs**: 1
- **Learning rate**: 1e-07
- **Beta**: 0.1
- **Max sequence length**: 512

## 🚀 Usage (推論方法)
本モデルの評価には、運営から配布された**「2026最終課題メインコンペ_標準コード2（提出JSON生成）」**を必ず使用してください。
※コード内のモデルIDを `ottys/dpo-qwen-cot-merged` に書き換えるだけで実行可能です。

## 📜 Sources & License
* **Base Model License**: Apache 2.0 (Qwen Series License)
* **Training Data**: 運営配布データ（公式サブセット）のみ使用。
* **Note**: Hugging FaceのREADME（Model Card）の記載要件を遵守しています。