llama-3-8b-base-margin-dpo-…/train_results.json

{
    "epoch": 1.0,
    "total_flos": 0.0,
    "train_loss": 0.572698849610295,
    "train_runtime": 1998.3785,
    "train_samples": 43598,
    "train_samples_per_second": 21.817,
    "train_steps_per_second": 0.341
}
初始化项目，由ModelHub XC社区提供模型 Model: jackf857/llama-3-8b-base-margin-dpo-hh-helpful-batch-64 Source: Original Platform 2026-05-10 12:37:20 +08:00			`{`
			`"epoch": 1.0,`
			`"total_flos": 0.0,`
			`"train_loss": 0.572698849610295,`
			`"train_runtime": 1998.3785,`
			`"train_samples": 43598,`
			`"train_samples_per_second": 21.817,`
			`"train_steps_per_second": 0.341`
			`}`