llama-3-8b-base-margin-dpo-…/train_results.json

{
    "epoch": 1.0,
    "total_flos": 0.0,
    "train_loss": 0.5730435011495403,
    "train_runtime": 3273.0613,
    "train_samples": 43598,
    "train_samples_per_second": 13.32,
    "train_steps_per_second": 0.208
}
初始化项目，由ModelHub XC社区提供模型 Model: W-61/llama-3-8b-base-margin-dpo-hh-helpful-4xh200-batch-64-20260417-212312 Source: Original Platform 2026-05-29 00:58:20 +08:00			`{`
			`"epoch": 1.0,`
			`"total_flos": 0.0,`
			`"train_loss": 0.5730435011495403,`
			`"train_runtime": 3273.0613,`
			`"train_samples": 43598,`
			`"train_samples_per_second": 13.32,`
			`"train_steps_per_second": 0.208`
			`}`