open_reward_agent_sft_lf/train_results.json

{
    "epoch": 1.0,
    "total_flos": 2.640143661303595e+18,
    "train_loss": 0.9932206619076612,
    "train_runtime": 1797.9362,
    "train_samples_per_second": 7.286,
    "train_steps_per_second": 0.114
}
初始化项目，由ModelHub XC社区提供模型 Model: varshak1/open_reward_agent_sft_lf Source: Original Platform 2026-06-16 07:50:16 +08:00			`{`
			`"epoch": 1.0,`
			`"total_flos": 2.640143661303595e+18,`
			`"train_loss": 0.9932206619076612,`
			`"train_runtime": 1797.9362,`
			`"train_samples_per_second": 7.286,`
			`"train_steps_per_second": 0.114`
			`}`