OpenHermes-2.5-Mistral-7B-mt-bench-DPO

sonthenguyen/OpenHermes-2.5-Mistral-7B-mt-bench-DPO

Go to file

ModelHub XC c136481422 初始化项目，由ModelHub XC社区提供模型

Model: sonthenguyen/OpenHermes-2.5-Mistral-7B-mt-bench-DPO
Source: Original Platform

2026-05-06 04:47:01 +08:00

.gitattributes

初始化项目，由ModelHub XC社区提供模型

2026-05-06 04:47:01 +08:00

added_tokens.json

初始化项目，由ModelHub XC社区提供模型

2026-05-06 04:47:01 +08:00

config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-06 04:47:01 +08:00

generation_config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-06 04:47:01 +08:00

model-00001-of-00003.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-05-06 04:47:01 +08:00

model-00002-of-00003.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-05-06 04:47:01 +08:00

model-00003-of-00003.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-05-06 04:47:01 +08:00

model.safetensors.index.json

初始化项目，由ModelHub XC社区提供模型

2026-05-06 04:47:01 +08:00

README.md

初始化项目，由ModelHub XC社区提供模型

2026-05-06 04:47:01 +08:00

special_tokens_map.json

初始化项目，由ModelHub XC社区提供模型

2026-05-06 04:47:01 +08:00

tokenizer_config.json

初始化项目，由ModelHub XC社区提供模型

2026-05-06 04:47:01 +08:00

tokenizer.json

初始化项目，由ModelHub XC社区提供模型

2026-05-06 04:47:01 +08:00

tokenizer.model

初始化项目，由ModelHub XC社区提供模型

2026-05-06 04:47:01 +08:00

README.md

license

license
apache-2.0

Training hyperparameters LoRA: r=16 lora_alpha=16 lora_dropout=0.05 bias="none" task_type="CAUSAL_LM" target_modules=['k_proj', 'gate_proj', 'v_proj', 'up_proj', 'q_proj', 'o_proj', 'down_proj']

Training arguments: auto_find_batch_size=True gradient_checkpointing=True learning_rate=5e-7 lr_scheduler_type="cosine" max_steps=3922 optim="paged_adamw_32bit" warmup_steps=100

DPOTrainer: beta=0.1 max_prompt_length=1024 max_length=1536