Files
dpo-qwen-cot-merged/README.md
ModelHub XC dda57a9a94 初始化项目,由ModelHub XC社区提供模型
Model: ottys/dpo-qwen-cot-merged
Source: Original Platform
2026-05-17 03:41:00 +08:00

2.0 KiB
Raw Permalink Blame History

base_model, datasets, language, license, library_name, pipeline_tag, tags
base_model datasets language license library_name pipeline_tag tags
Qwen/Qwen3-4B-Instruct-2507
official-dpo-subset
en
apache-2.0 transformers text-generation
dpo
unsloth
qwen
alignment

qwen3-4b-dpo-qwen-cot-merged

🚩 コンペティション遵守事項 (Compliance)

本モデルは、LLM講座の最終課題メインコンペティションの規定を遵守して作成されました。

  • ベースモデル: 規定通り Qwen/Qwen3-4B-Instruct-2507 を使用しています。
  • 学習手法: DPO (Direct Preference Optimization) を採用し、パラメータの更新を行いました。
  • 学習データ: 運営より配布された公式DPOデータセットを元に、特定のタスクに絞ったフィルタリング(抽出)を行って使用しています。
  • データ作成に関する宣言: LLMを用いた新規データの生成やAIによる改変は一切行っておりません。すべて配布データ内からの選択です (ルール6.6遵守)。

🛠️ Training Objective

このモデルは、構造化データの出力精度向上と推論プロセスChain-of-Thoughtの強化を目的としています。配布データの中から高品質なペアを選択し、Unslothライブラリを用いてDPO学習を行いました。

⚙️ Training Configuration

  • Method: DPO
  • Epochs: 1
  • Learning rate: 1e-07
  • Beta: 0.1
  • Max sequence length: 512

🚀 Usage (推論方法)

本モデルの評価には、運営から配布された**「2026最終課題メインコンペ_標準コード2提出JSON生成」**を必ず使用してください。 ※コード内のモデルIDを ottys/dpo-qwen-cot-merged に書き換えるだけで実行可能です。

📜 Sources & License

  • Base Model License: Apache 2.0 (Qwen Series License)
  • Training Data: 運営配布データ(公式サブセット)のみ使用。
  • Note: Hugging FaceのREADMEModel Cardの記載要件を遵守しています。