mistral-7b-base-epsilon-dpo…/all_results.json

{
    "epoch": 1.0,
    "eval_epsilon_dpo/beta": 0.0005516819655895233,
    "eval_epsilon_dpo/beta_margin_grad_mean": -0.43731194734573364,
    "eval_epsilon_dpo/beta_margin_grad_std": 0.13020560145378113,
    "eval_epsilon_dpo/beta_margin_mean": 0.27542224526405334,
    "eval_epsilon_dpo/beta_margin_std": 0.5839142203330994,
    "eval_epsilon_dpo/loss_margin_mean": 506.5054016113281,
    "eval_kl/n_epsilon_steps": 0.3274828791618347,
    "eval_kl/p_epsilon_steps": 0.6725171208381653,
    "eval_logits/chosen": -4.05236291885376,
    "eval_logits/rejected": -4.968125343322754,
    "eval_logps/chosen": -881.2797241210938,
    "eval_logps/ref_chosen": -68.29110717773438,
    "eval_logps/ref_rejected": -92.08038330078125,
    "eval_logps/rejected": -1411.574462890625,
    "eval_loss": 0.6066829562187195,
    "eval_rewards/accuracies": 0.6922088861465454,
    "eval_rewards/chosen": -0.4506734609603882,
    "eval_rewards/margins": 0.27542227506637573,
    "eval_rewards/rejected": -0.7260956764221191,
    "eval_runtime": 38.4171,
    "eval_samples": 2339,
    "eval_samples_per_second": 60.884,
    "eval_steps_per_second": 1.926,
    "total_flos": 0.0,
    "train_loss": 0.6833117403385398,
    "train_runtime": 3053.5655,
    "train_samples": 43598,
    "train_samples_per_second": 14.278,
    "train_steps_per_second": 0.223
}
初始化项目，由ModelHub XC社区提供模型 Model: W-61/mistral-7b-base-epsilon-dpo-hh-helpful-4xh200-batch-64 Source: Original Platform 2026-04-22 12:22:48 +08:00			`{`
			`"epoch": 1.0,`
			`"eval_epsilon_dpo/beta": 0.0005516819655895233,`
			`"eval_epsilon_dpo/beta_margin_grad_mean": -0.43731194734573364,`
			`"eval_epsilon_dpo/beta_margin_grad_std": 0.13020560145378113,`
			`"eval_epsilon_dpo/beta_margin_mean": 0.27542224526405334,`
			`"eval_epsilon_dpo/beta_margin_std": 0.5839142203330994,`
			`"eval_epsilon_dpo/loss_margin_mean": 506.5054016113281,`
			`"eval_kl/n_epsilon_steps": 0.3274828791618347,`
			`"eval_kl/p_epsilon_steps": 0.6725171208381653,`
			`"eval_logits/chosen": -4.05236291885376,`
			`"eval_logits/rejected": -4.968125343322754,`
			`"eval_logps/chosen": -881.2797241210938,`
			`"eval_logps/ref_chosen": -68.29110717773438,`
			`"eval_logps/ref_rejected": -92.08038330078125,`
			`"eval_logps/rejected": -1411.574462890625,`
			`"eval_loss": 0.6066829562187195,`
			`"eval_rewards/accuracies": 0.6922088861465454,`
			`"eval_rewards/chosen": -0.4506734609603882,`
			`"eval_rewards/margins": 0.27542227506637573,`
			`"eval_rewards/rejected": -0.7260956764221191,`
			`"eval_runtime": 38.4171,`
			`"eval_samples": 2339,`
			`"eval_samples_per_second": 60.884,`
			`"eval_steps_per_second": 1.926,`
			`"total_flos": 0.0,`
			`"train_loss": 0.6833117403385398,`
			`"train_runtime": 3053.5655,`
			`"train_samples": 43598,`
			`"train_samples_per_second": 14.278,`
			`"train_steps_per_second": 0.223`
			`}`