llama-3-8b-base-beta-dpo-hh…/eval_results.json

{
    "epoch": 1.0,
    "eval_beta_dpo/beta_used": 0.09322389215230942,
    "eval_beta_dpo/beta_used_raw": 0.09322389215230942,
    "eval_beta_dpo/gap_mean": 9.061779022216797,
    "eval_beta_dpo/gap_std": 15.212827682495117,
    "eval_beta_dpo/mask_keep_frac": 1.0,
    "eval_logits/chosen": -0.42951661348342896,
    "eval_logits/rejected": -0.41630053520202637,
    "eval_loss": 0.5633630752563477,
    "eval_runtime": 18.8064,
    "eval_samples": 2303,
    "eval_samples_per_second": 122.458,
    "eval_steps_per_second": 0.957
}
初始化项目，由ModelHub XC社区提供模型 Model: W-61/llama-3-8b-base-beta-dpo-hh-harmless-8xh200 Source: Original Platform 2026-05-25 19:35:17 +08:00			`{`
			`"epoch": 1.0,`
			`"eval_beta_dpo/beta_used": 0.09322389215230942,`
			`"eval_beta_dpo/beta_used_raw": 0.09322389215230942,`
			`"eval_beta_dpo/gap_mean": 9.061779022216797,`
			`"eval_beta_dpo/gap_std": 15.212827682495117,`
			`"eval_beta_dpo/mask_keep_frac": 1.0,`
			`"eval_logits/chosen": -0.42951661348342896,`
			`"eval_logits/rejected": -0.41630053520202637,`
			`"eval_loss": 0.5633630752563477,`
			`"eval_runtime": 18.8064,`
			`"eval_samples": 2303,`
			`"eval_samples_per_second": 122.458,`
			`"eval_steps_per_second": 0.957`
			`}`