Qwen2.5-7B-Open-R1-GRPO-mat…/train_results.json

{
    "total_flos": 0.0,
    "train_loss": 0.02949339959234225,
    "train_runtime": 14062.8623,
    "train_samples": 7500,
    "train_samples_per_second": 0.533,
    "train_steps_per_second": 0.005
}
初始化项目，由ModelHub XC社区提供模型 Model: Lansechen/Qwen2.5-7B-Open-R1-GRPO-math-lighteval-1epochstop-withformat Source: Original Platform 2026-06-07 22:56:24 +08:00			`{`
			`"total_flos": 0.0,`
			`"train_loss": 0.02949339959234225,`
			`"train_runtime": 14062.8623,`
			`"train_samples": 7500,`
			`"train_samples_per_second": 0.533,`
			`"train_steps_per_second": 0.005`
			`}`