Files
dpo-qwen-cot-merged/README.md
ModelHub XC dda57a9a94 初始化项目,由ModelHub XC社区提供模型
Model: ottys/dpo-qwen-cot-merged
Source: Original Platform
2026-05-17 03:41:00 +08:00

44 lines
2.0 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
base_model: Qwen/Qwen3-4B-Instruct-2507
datasets:
- official-dpo-subset
language:
- en
license: apache-2.0
library_name: transformers
pipeline_tag: text-generation
tags:
- dpo
- unsloth
- qwen
- alignment
---
# qwen3-4b-dpo-qwen-cot-merged
## 🚩 コンペティション遵守事項 (Compliance)
本モデルは、LLM講座の最終課題メインコンペティションの規定を遵守して作成されました。
- **ベースモデル**: 規定通り `Qwen/Qwen3-4B-Instruct-2507` を使用しています。
- **学習手法**: DPO (Direct Preference Optimization) を採用し、パラメータの更新を行いました。
- **学習データ**: **運営より配布された公式DPOデータセット**を元に、特定のタスクに絞ったフィルタリング(抽出)を行って使用しています。
- **データ作成に関する宣言**: **LLMを用いた新規データの生成やAIによる改変は一切行っておりません**。すべて配布データ内からの選択です (ルール6.6遵守)。
## 🛠️ Training Objective
このモデルは、構造化データの出力精度向上と推論プロセスChain-of-Thoughtの強化を目的としています。配布データの中から高品質なペアを選択し、Unslothライブラリを用いてDPO学習を行いました。
## ⚙️ Training Configuration
- **Method**: DPO
- **Epochs**: 1
- **Learning rate**: 1e-07
- **Beta**: 0.1
- **Max sequence length**: 512
## 🚀 Usage (推論方法)
本モデルの評価には、運営から配布された**「2026最終課題メインコンペ_標準コード2提出JSON生成」**を必ず使用してください。
※コード内のモデルIDを `ottys/dpo-qwen-cot-merged` に書き換えるだけで実行可能です。
## 📜 Sources & License
* **Base Model License**: Apache 2.0 (Qwen Series License)
* **Training Data**: 運営配布データ(公式サブセット)のみ使用。
* **Note**: Hugging FaceのREADMEModel Cardの記載要件を遵守しています。