openthoughts-4-code-qwen3-3…/train_results.json

{
    "achieved_tflops_per_gpu": 0.009154196042913305,
    "achieved_tflops_per_gpu_theoretical": 253.1246706838733,
    "epoch": 8.0,
    "loss_nan_ranks": 0,
    "loss_rank_avg": 0.4003600478172302,
    "mfu_percent": 0.002934037193241444,
    "mfu_percent_theoretical": 81.12970214226708,
    "total_flos": 4.678153526260531e+16,
    "train_loss": 0.13369933033527026,
    "train_runtime": 19962.4709,
    "train_samples_per_second": 384.408,
    "train_steps_per_second": 0.376,
    "valid_targets_mean": 28802.2,
    "valid_targets_min": 22042
}
初始化项目，由ModelHub XC社区提供模型 Model: laion/openthoughts-4-code-qwen3-32b-annotated-7k_qwen3-1.7B_10k Source: Original Platform 2026-06-03 17:10:12 +08:00			`{`
			`"achieved_tflops_per_gpu": 0.009154196042913305,`
			`"achieved_tflops_per_gpu_theoretical": 253.1246706838733,`
			`"epoch": 8.0,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.4003600478172302,`
			`"mfu_percent": 0.002934037193241444,`
			`"mfu_percent_theoretical": 81.12970214226708,`
			`"total_flos": 4.678153526260531e+16,`
			`"train_loss": 0.13369933033527026,`
			`"train_runtime": 19962.4709,`
			`"train_samples_per_second": 384.408,`
			`"train_steps_per_second": 0.376,`
			`"valid_targets_mean": 28802.2,`
			`"valid_targets_min": 22042`
			`}`