Go to file

ModelHub XC 4c9402cf83 初始化项目，由ModelHub XC社区提供模型

Model: tomofusa/exp033-dpo-wd005-merged
Source: Original Platform

2026-05-02 18:02:41 +08:00

.gitattributes

初始化项目，由ModelHub XC社区提供模型

2026-05-02 18:02:41 +08:00

added_tokens.json

初始化项目，由ModelHub XC社区提供模型

2026-05-02 18:02:41 +08:00

chat_template.jinja

初始化项目，由ModelHub XC社区提供模型

2026-05-02 18:02:41 +08:00

config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-02 18:02:41 +08:00

merges.txt

初始化项目，由ModelHub XC社区提供模型

2026-05-02 18:02:41 +08:00

model-00001-of-00002.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-05-02 18:02:41 +08:00

model-00002-of-00002.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-05-02 18:02:41 +08:00

model.safetensors.index.json

初始化项目，由ModelHub XC社区提供模型

2026-05-02 18:02:41 +08:00

README.md

初始化项目，由ModelHub XC社区提供模型

2026-05-02 18:02:41 +08:00

special_tokens_map.json

初始化项目，由ModelHub XC社区提供模型

2026-05-02 18:02:41 +08:00

tokenizer_config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-02 18:02:41 +08:00

tokenizer.json

初始化项目，由ModelHub XC社区提供模型

2026-05-02 18:02:41 +08:00

vocab.json

初始化项目，由ModelHub XC社区提供模型

2026-05-02 18:02:41 +08:00

README.md

base_model, datasets, language, license, library_name, pipeline_tag, tags

base_model

datasets

language

license

library_name

pipeline_tag

exp033-dpo-wd005-merged

SFT + DPO merged model. Full 16-bit weights, no adapter loading required.

Training Pipeline

SFT: tomofusa/exp015-blend-h-lora
DPO: u-10bei/dpo-dataset-qwen-cot (1 epoch, lr=5e-07, beta=0.1)

DPO Configuration

Learning rate: 5e-07
Beta: 0.1
Loss type: ipo
LoRA: r=64, alpha=128
Max length: 1024