Qwen3-1.7B-MATH-GDPO/train_results.json

{
    "total_flos": 0.0,
    "train_loss": -0.09854654141236097,
    "train_runtime": 3102.2738,
    "train_samples": 1348,
    "train_samples_per_second": 0.869,
    "train_steps_per_second": 0.054
}
初始化项目，由ModelHub XC社区提供模型 Model: wzx111/Qwen3-1.7B-MATH-GDPO Source: Original Platform 2026-05-25 06:13:17 +08:00			`{`
			`"total_flos": 0.0,`
			`"train_loss": -0.09854654141236097,`
			`"train_runtime": 3102.2738,`
			`"train_samples": 1348,`
			`"train_samples_per_second": 0.869,`
			`"train_steps_per_second": 0.054`
			`}`