Qwen2.5-3B-Instruct-DAPO-G-…/trainer_state.json

{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.24992915840181354,
  "eval_steps": 500,
  "global_step": 1764,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1173.0,
      "completions/max_terminated_length": 1173.0,
      "completions/mean_length": 727.625,
      "completions/mean_terminated_length": 727.625,
      "completions/min_length": 326.0,
      "completions/min_terminated_length": 326.0,
      "entropy": 0.9097839072346687,
      "epoch": 0.00014168319637291018,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.30859375,
      "learning_rate": 1e-06,
      "loss": 0.0298,
      "num_tokens": 55240.0,
      "reward": 0.09375,
      "reward_std": 0.426084041595459,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 1,
      "step_time": 39.903919632546604
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00025282209026045166,
      "clip_ratio/low_min": 0.00025282209026045166,
      "clip_ratio/region_mean": 0.00025282209026045166,
      "entropy": 0.8934563100337982,
      "epoch": 0.00028336639274582036,
      "grad_norm": 0.330078125,
      "learning_rate": 9.99858316803627e-07,
      "loss": -0.0316,
      "step": 2,
      "step_time": 2.6395946154370904
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3051.0,
      "completions/max_terminated_length": 3051.0,
      "completions/mean_length": 934.453125,
      "completions/mean_terminated_length": 934.453125,
      "completions/min_length": 415.0,
      "completions/min_terminated_length": 415.0,
      "entropy": 0.6299095675349236,
      "epoch": 0.0004250495891187305,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.306640625,
      "learning_rate": 9.99716633607254e-07,
      "loss": -0.0925,
      "num_tokens": 123301.0,
      "reward": 0.15625,
      "reward_std": 0.5409793853759766,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 3,
      "step_time": 110.80545604228973
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00016054220395744778,
      "clip_ratio/low_min": 0.00016054220395744778,
      "clip_ratio/region_mean": 0.00016054220395744778,
      "entropy": 0.48659759387373924,
      "epoch": 0.0005667327854916407,
      "grad_norm": 0.1767578125,
      "learning_rate": 9.995749504108812e-07,
      "loss": 0.0712,
      "step": 4,
      "step_time": 5.525086622685194
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1670.0,
      "completions/max_terminated_length": 1670.0,
      "completions/mean_length": 824.859375,
      "completions/mean_terminated_length": 824.859375,
      "completions/min_length": 341.0,
      "completions/min_terminated_length": 341.0,
      "entropy": 0.7185017392039299,
      "epoch": 0.0007084159818645508,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1826171875,
      "learning_rate": 9.994332672145083e-07,
      "loss": 0.0267,
      "num_tokens": 186668.0,
      "reward": 0.140625,
      "reward_std": 0.4917473793029785,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.015625,
      "rewards/format_reward_func/std": 0.08768405020236969,
      "step": 5,
      "step_time": 57.18901772983372
    },
    {
      "clip_ratio/high_max": 3.77073920390103e-05,
      "clip_ratio/high_mean": 3.77073920390103e-05,
      "clip_ratio/low_mean": 7.573836046503857e-05,
      "clip_ratio/low_min": 7.573836046503857e-05,
      "clip_ratio/region_mean": 0.00011344575250404887,
      "entropy": 0.8512687608599663,
      "epoch": 0.000850099178237461,
      "grad_norm": 0.1728515625,
      "learning_rate": 9.992915840181355e-07,
      "loss": -0.0199,
      "step": 6,
      "step_time": 3.4050608966499567
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1039.0,
      "completions/max_terminated_length": 1039.0,
      "completions/mean_length": 573.453125,
      "completions/mean_terminated_length": 573.453125,
      "completions/min_length": 316.0,
      "completions/min_terminated_length": 316.0,
      "entropy": 0.8231831789016724,
      "epoch": 0.0009917823746103712,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.353515625,
      "learning_rate": 9.991499008217626e-07,
      "loss": -0.0644,
      "num_tokens": 236217.0,
      "reward": 0.09375,
      "reward_std": 0.36596253514289856,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.03125,
      "rewards/format_reward_func/std": 0.12198751419782639,
      "step": 7,
      "step_time": 35.67018039524555
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0001841790544858668,
      "clip_ratio/low_min": 0.0001841790544858668,
      "clip_ratio/region_mean": 0.0001841790544858668,
      "entropy": 0.7447740025818348,
      "epoch": 0.0011334655709832814,
      "grad_norm": 0.1240234375,
      "learning_rate": 9.990082176253896e-07,
      "loss": 0.0294,
      "step": 8,
      "step_time": 2.601626361720264
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1159.0,
      "completions/max_terminated_length": 1159.0,
      "completions/mean_length": 637.609375,
      "completions/mean_terminated_length": 637.609375,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "entropy": 1.1303421333432198,
      "epoch": 0.0012751487673561916,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.09423828125,
      "learning_rate": 9.988665344290167e-07,
      "loss": 0.0194,
      "num_tokens": 287184.0,
      "reward": 0.03125,
      "reward_std": 0.25,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 9,
      "step_time": 39.50122734438628
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00037647907083737664,
      "clip_ratio/low_min": 0.00037647907083737664,
      "clip_ratio/region_mean": 0.00037647907083737664,
      "entropy": 1.0445300564169884,
      "epoch": 0.0014168319637291016,
      "grad_norm": 0.34765625,
      "learning_rate": 9.987248512326436e-07,
      "loss": -0.0093,
      "step": 10,
      "step_time": 2.7354033356532454
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1529.0,
      "completions/max_terminated_length": 1529.0,
      "completions/mean_length": 778.0625,
      "completions/mean_terminated_length": 778.0625,
      "completions/min_length": 410.0,
      "completions/min_terminated_length": 410.0,
      "entropy": 0.7313781231641769,
      "epoch": 0.0015585151601020118,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.48046875,
      "learning_rate": 9.985831680362708e-07,
      "loss": -0.0221,
      "num_tokens": 345828.0,
      "reward": 0.125,
      "reward_std": 0.48795002698898315,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 11,
      "step_time": 51.53096348233521
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0005142872942087706,
      "clip_ratio/low_min": 0.0005142872942087706,
      "clip_ratio/region_mean": 0.0005142872942087706,
      "entropy": 0.821155235171318,
      "epoch": 0.001700198356474922,
      "grad_norm": 0.23046875,
      "learning_rate": 9.98441484839898e-07,
      "loss": 0.0408,
      "step": 12,
      "step_time": 3.193646057508886
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1835.0,
      "completions/max_terminated_length": 1835.0,
      "completions/mean_length": 862.359375,
      "completions/mean_terminated_length": 862.359375,
      "completions/min_length": 12.0,
      "completions/min_terminated_length": 12.0,
      "entropy": 0.84247712418437,
      "epoch": 0.0018418815528478323,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.248046875,
      "learning_rate": 9.98299801643525e-07,
      "loss": -0.0448,
      "num_tokens": 410651.0,
      "reward": 0.03125,
      "reward_std": 0.25,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 13,
      "step_time": 63.28521298523992
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0001445726775273215,
      "clip_ratio/low_min": 0.0001445726775273215,
      "clip_ratio/region_mean": 0.0001445726775273215,
      "entropy": 0.8670243546366692,
      "epoch": 0.0019835647492207425,
      "grad_norm": 0.0673828125,
      "learning_rate": 9.981581184471522e-07,
      "loss": 0.0428,
      "step": 14,
      "step_time": 3.6920390389859676
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1178.0,
      "completions/max_terminated_length": 1178.0,
      "completions/mean_length": 612.09375,
      "completions/mean_terminated_length": 612.09375,
      "completions/min_length": 369.0,
      "completions/min_terminated_length": 369.0,
      "entropy": 1.0769122913479805,
      "epoch": 0.0021252479455936527,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.28125,
      "learning_rate": 9.980164352507792e-07,
      "loss": -0.0055,
      "num_tokens": 460609.0,
      "reward": 0.0625,
      "reward_std": 0.35073620080947876,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 15,
      "step_time": 40.10477598849684
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0002140285687346477,
      "clip_ratio/low_min": 0.0002140285687346477,
      "clip_ratio/region_mean": 0.0002140285687346477,
      "entropy": 1.4212042838335037,
      "epoch": 0.002266931141966563,
      "grad_norm": 0.2275390625,
      "learning_rate": 9.978747520544063e-07,
      "loss": 0.0008,
      "step": 16,
      "step_time": 2.6631145803257823
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1741.0,
      "completions/max_terminated_length": 1741.0,
      "completions/mean_length": 880.28125,
      "completions/mean_terminated_length": 880.28125,
      "completions/min_length": 513.0,
      "completions/min_terminated_length": 513.0,
      "entropy": 0.8848809823393822,
      "epoch": 0.002408614338339473,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 9.977330688580335e-07,
      "loss": 0.0,
      "num_tokens": 527155.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 17,
      "step_time": 60.09031219780445
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.9170279614627361,
      "epoch": 0.0025502975347123833,
      "grad_norm": 0.0,
      "learning_rate": 9.975913856616604e-07,
      "loss": 0.0,
      "step": 18,
      "step_time": 3.5456124506890774
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1467.0,
      "completions/max_terminated_length": 1467.0,
      "completions/mean_length": 757.25,
      "completions/mean_terminated_length": 757.25,
      "completions/min_length": 468.0,
      "completions/min_terminated_length": 468.0,
      "entropy": 0.9003182873129845,
      "epoch": 0.0026919807310852935,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.42578125,
      "learning_rate": 9.974497024652875e-07,
      "loss": -0.0542,
      "num_tokens": 584883.0,
      "reward": 0.0078125,
      "reward_std": 0.0625,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0078125,
      "rewards/format_reward_func/std": 0.0625,
      "step": 19,
      "step_time": 50.036882262676954
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 7.670705235796049e-05,
      "clip_ratio/low_min": 7.670705235796049e-05,
      "clip_ratio/region_mean": 7.670705235796049e-05,
      "entropy": 0.8604298233985901,
      "epoch": 0.0028336639274582033,
      "grad_norm": 0.0908203125,
      "learning_rate": 9.973080192689147e-07,
      "loss": 0.0484,
      "step": 20,
      "step_time": 3.1044619074091315
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1393.0,
      "completions/max_terminated_length": 1393.0,
      "completions/mean_length": 788.3125,
      "completions/mean_terminated_length": 788.3125,
      "completions/min_length": 347.0,
      "completions/min_terminated_length": 347.0,
      "entropy": 0.6268534287810326,
      "epoch": 0.0029753471238311135,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 9.971663360725418e-07,
      "loss": 0.0,
      "num_tokens": 645991.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 21,
      "step_time": 47.87678796611726
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.5661845728754997,
      "epoch": 0.0031170303202040237,
      "grad_norm": 0.0,
      "learning_rate": 9.97024652876169e-07,
      "loss": 0.0,
      "step": 22,
      "step_time": 3.32616631872952
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1685.0,
      "completions/max_terminated_length": 1685.0,
      "completions/mean_length": 811.328125,
      "completions/mean_terminated_length": 811.328125,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "entropy": 0.4060816876590252,
      "epoch": 0.003258713516576934,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.42578125,
      "learning_rate": 9.96882969679796e-07,
      "loss": -0.0191,
      "num_tokens": 708908.0,
      "reward": 0.0703125,
      "reward_std": 0.35486623644828796,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.0078125,
      "rewards/format_reward_func/std": 0.0625,
      "step": 23,
      "step_time": 58.05468462686986
    },
    {
      "clip_ratio/high_max": 4.13359775848221e-05,
      "clip_ratio/high_mean": 4.13359775848221e-05,
      "clip_ratio/low_mean": 0.0001879214760265313,
      "clip_ratio/low_min": 0.0001879214760265313,
      "clip_ratio/region_mean": 0.0002292574536113534,
      "entropy": 0.5494024530053139,
      "epoch": 0.003400396712949844,
      "grad_norm": 0.1953125,
      "learning_rate": 9.96741286483423e-07,
      "loss": 0.0093,
      "step": 24,
      "step_time": 3.4909942327067256
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1469.0,
      "completions/max_terminated_length": 1469.0,
      "completions/mean_length": 712.203125,
      "completions/mean_terminated_length": 712.203125,
      "completions/min_length": 333.0,
      "completions/min_terminated_length": 333.0,
      "entropy": 0.6895132511854172,
      "epoch": 0.0035420799093227543,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.376953125,
      "learning_rate": 9.9659960328705e-07,
      "loss": 0.0441,
      "num_tokens": 768777.0,
      "reward": 0.15625,
      "reward_std": 0.5409793853759766,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 25,
      "step_time": 51.2689182786271
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0007887000792834442,
      "clip_ratio/low_min": 0.0007887000792834442,
      "clip_ratio/region_mean": 0.0007887000792834442,
      "entropy": 0.8153725080192089,
      "epoch": 0.0036837631056956645,
      "grad_norm": 0.578125,
      "learning_rate": 9.964579200906771e-07,
      "loss": -0.0248,
      "step": 26,
      "step_time": 3.571013200096786
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1415.0,
      "completions/max_terminated_length": 1415.0,
      "completions/mean_length": 789.078125,
      "completions/mean_terminated_length": 789.078125,
      "completions/min_length": 397.0,
      "completions/min_terminated_length": 397.0,
      "entropy": 0.8387806117534637,
      "epoch": 0.0038254463020685747,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.31640625,
      "learning_rate": 9.963162368943043e-07,
      "loss": 0.0281,
      "num_tokens": 830526.0,
      "reward": 0.046875,
      "reward_std": 0.2630521357059479,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.015625,
      "rewards/format_reward_func/std": 0.08768405020236969,
      "step": 27,
      "step_time": 48.74520027264953
    },
    {
      "clip_ratio/high_max": 9.041590965352952e-05,
      "clip_ratio/high_mean": 9.041590965352952e-05,
      "clip_ratio/low_mean": 0.00015659447308280505,
      "clip_ratio/low_min": 0.00015659447308280505,
      "clip_ratio/region_mean": 0.0002470103827363346,
      "entropy": 0.8648083508014679,
      "epoch": 0.003967129498441485,
      "grad_norm": 0.3984375,
      "learning_rate": 9.961745536979314e-07,
      "loss": 0.0081,
      "step": 28,
      "step_time": 3.125643434934318
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1553.0,
      "completions/max_terminated_length": 1553.0,
      "completions/mean_length": 683.765625,
      "completions/mean_terminated_length": 683.765625,
      "completions/min_length": 30.0,
      "completions/min_terminated_length": 30.0,
      "entropy": 0.7250500172376633,
      "epoch": 0.004108812694814395,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.419921875,
      "learning_rate": 9.960328705015586e-07,
      "loss": -0.0199,
      "num_tokens": 886719.0,
      "reward": 0.03125,
      "reward_std": 0.25,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 29,
      "step_time": 53.51948012504727
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00024083779862849042,
      "clip_ratio/low_min": 0.00024083779862849042,
      "clip_ratio/region_mean": 0.00024083779862849042,
      "entropy": 0.8068605661392212,
      "epoch": 0.004250495891187305,
      "grad_norm": 0.10009765625,
      "learning_rate": 9.958911873051855e-07,
      "loss": 0.0291,
      "step": 30,
      "step_time": 3.505406938493252
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1333.0,
      "completions/max_terminated_length": 1333.0,
      "completions/mean_length": 709.09375,
      "completions/mean_terminated_length": 709.09375,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "entropy": 0.5721234567463398,
      "epoch": 0.0043921790875602156,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.287109375,
      "learning_rate": 9.957495041088127e-07,
      "loss": -0.0643,
      "num_tokens": 943397.0,
      "reward": 0.125,
      "reward_std": 0.48795002698898315,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 31,
      "step_time": 45.82975743431598
    },
    {
      "clip_ratio/high_max": 0.00011220826127100736,
      "clip_ratio/high_mean": 0.00011220826127100736,
      "clip_ratio/low_mean": 0.0003672888451546896,
      "clip_ratio/low_min": 0.0003672888451546896,
      "clip_ratio/region_mean": 0.000479497106425697,
      "entropy": 0.6373141929507256,
      "epoch": 0.004533862283933126,
      "grad_norm": 0.28125,
      "learning_rate": 9.956078209124398e-07,
      "loss": 0.0555,
      "step": 32,
      "step_time": 2.952606812119484
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1342.0,
      "completions/max_terminated_length": 1342.0,
      "completions/mean_length": 714.421875,
      "completions/mean_terminated_length": 714.421875,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "entropy": 0.6034977659583092,
      "epoch": 0.004675545480306036,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.48828125,
      "learning_rate": 9.954661377160667e-07,
      "loss": -0.0753,
      "num_tokens": 999840.0,
      "reward": 0.078125,
      "reward_std": 0.3587760329246521,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.015625,
      "rewards/format_reward_func/std": 0.08768405020236969,
      "step": 33,
      "step_time": 46.426579906605184
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 7.578179793199524e-05,
      "clip_ratio/low_min": 7.578179793199524e-05,
      "clip_ratio/region_mean": 7.578179793199524e-05,
      "entropy": 0.7243249081075191,
      "epoch": 0.004817228676678946,
      "grad_norm": 0.12451171875,
      "learning_rate": 9.953244545196939e-07,
      "loss": 0.0725,
      "step": 34,
      "step_time": 3.0847972789779305
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1395.0,
      "completions/max_terminated_length": 1395.0,
      "completions/mean_length": 910.53125,
      "completions/mean_terminated_length": 910.53125,
      "completions/min_length": 482.0,
      "completions/min_terminated_length": 482.0,
      "entropy": 0.818111814558506,
      "epoch": 0.004958911873051856,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.21484375,
      "learning_rate": 9.95182771323321e-07,
      "loss": 0.1202,
      "num_tokens": 1070194.0,
      "reward": 0.125,
      "reward_std": 0.48795002698898315,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 35,
      "step_time": 48.453329576179385
    },
    {
      "clip_ratio/high_max": 0.0002792914710880723,
      "clip_ratio/high_mean": 0.0002792914710880723,
      "clip_ratio/low_mean": 0.00017095658768084832,
      "clip_ratio/low_min": 0.00017095658768084832,
      "clip_ratio/region_mean": 0.0004502480587689206,
      "entropy": 0.6224816255271435,
      "epoch": 0.005100595069424767,
      "grad_norm": 0.458984375,
      "learning_rate": 9.950410881269482e-07,
      "loss": -0.1181,
      "step": 36,
      "step_time": 3.1154572619125247
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1459.0,
      "completions/max_terminated_length": 1459.0,
      "completions/mean_length": 829.984375,
      "completions/mean_terminated_length": 829.984375,
      "completions/min_length": 442.0,
      "completions/min_terminated_length": 442.0,
      "entropy": 0.6356125995516777,
      "epoch": 0.005242278265797677,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.1806640625,
      "learning_rate": 9.948994049305751e-07,
      "loss": 0.0064,
      "num_tokens": 1133361.0,
      "reward": 0.09375,
      "reward_std": 0.426084041595459,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 37,
      "step_time": 50.27416880149394
    },
    {
      "clip_ratio/high_max": 0.00020838899217778817,
      "clip_ratio/high_mean": 0.00020838899217778817,
      "clip_ratio/low_mean": 0.00029897764397901483,
      "clip_ratio/low_min": 0.00029897764397901483,
      "clip_ratio/region_mean": 0.0005073666288808454,
      "entropy": 0.627774640917778,
      "epoch": 0.005383961462170587,
      "grad_norm": 0.3828125,
      "learning_rate": 9.947577217342023e-07,
      "loss": -0.0311,
      "step": 38,
      "step_time": 3.205245988443494
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1918.0,
      "completions/max_terminated_length": 1918.0,
      "completions/mean_length": 804.234375,
      "completions/mean_terminated_length": 804.234375,
      "completions/min_length": 384.0,
      "completions/min_terminated_length": 384.0,
      "entropy": 0.9697391763329506,
      "epoch": 0.005525644658543496,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.296875,
      "learning_rate": 9.946160385378294e-07,
      "loss": 0.0549,
      "num_tokens": 1193536.0,
      "reward": 0.0703125,
      "reward_std": 0.35486623644828796,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.0078125,
      "rewards/format_reward_func/std": 0.0625,
      "step": 39,
      "step_time": 64.9688583612442
    },
    {
      "clip_ratio/high_max": 3.469331204541959e-05,
      "clip_ratio/high_mean": 3.469331204541959e-05,
      "clip_ratio/low_mean": 0.00012096379941795021,
      "clip_ratio/low_min": 0.00012096379941795021,
      "clip_ratio/region_mean": 0.0001556571114633698,
      "entropy": 1.0014498122036457,
      "epoch": 0.0056673278549164065,
      "grad_norm": 0.5234375,
      "learning_rate": 9.944743553414564e-07,
      "loss": -0.0494,
      "step": 40,
      "step_time": 3.711869672872126
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1433.0,
      "completions/max_terminated_length": 1433.0,
      "completions/mean_length": 879.5625,
      "completions/mean_terminated_length": 879.5625,
      "completions/min_length": 298.0,
      "completions/min_terminated_length": 298.0,
      "entropy": 0.6020868308842182,
      "epoch": 0.005809011051289317,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.08056640625,
      "learning_rate": 9.943326721450835e-07,
      "loss": 0.0243,
      "num_tokens": 1258148.0,
      "reward": 0.0625,
      "reward_std": 0.35073620080947876,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 41,
      "step_time": 48.12994495220482
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00019358338249730878,
      "clip_ratio/low_min": 0.00019358338249730878,
      "clip_ratio/region_mean": 0.00019358338249730878,
      "entropy": 0.6538902148604393,
      "epoch": 0.005950694247662227,
      "grad_norm": 0.34765625,
      "learning_rate": 9.941909889487106e-07,
      "loss": -0.0158,
      "step": 42,
      "step_time": 3.0380962071940303
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1525.0,
      "completions/max_terminated_length": 1525.0,
      "completions/mean_length": 764.78125,
      "completions/mean_terminated_length": 764.78125,
      "completions/min_length": 291.0,
      "completions/min_terminated_length": 291.0,
      "entropy": 0.7892787083983421,
      "epoch": 0.006092377444035137,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.34375,
      "learning_rate": 9.940493057523378e-07,
      "loss": -0.02,
      "num_tokens": 1318262.0,
      "reward": 0.03125,
      "reward_std": 0.25,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 43,
      "step_time": 51.82375003769994
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 3.84615377697628e-05,
      "clip_ratio/low_min": 3.84615377697628e-05,
      "clip_ratio/region_mean": 3.84615377697628e-05,
      "entropy": 0.7085370868444443,
      "epoch": 0.006234060640408047,
      "grad_norm": 0.07763671875,
      "learning_rate": 9.939076225559647e-07,
      "loss": 0.0345,
      "step": 44,
      "step_time": 3.2490888154134154
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1196.0,
      "completions/max_terminated_length": 1196.0,
      "completions/mean_length": 753.578125,
      "completions/mean_terminated_length": 753.578125,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "entropy": 0.9536159038543701,
      "epoch": 0.006375743836780958,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.455078125,
      "learning_rate": 9.937659393595919e-07,
      "loss": 0.0256,
      "num_tokens": 1376955.0,
      "reward": 0.15625,
      "reward_std": 0.5409793853759766,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 45,
      "step_time": 40.85942783951759
    },
    {
      "clip_ratio/high_max": 0.00014797524636378512,
      "clip_ratio/high_mean": 0.00014797524636378512,
      "clip_ratio/low_mean": 0.0003608541810535826,
      "clip_ratio/low_min": 0.0003608541810535826,
      "clip_ratio/region_mean": 0.0005088294346933253,
      "entropy": 0.9303827360272408,
      "epoch": 0.006517427033153868,
      "grad_norm": 0.58203125,
      "learning_rate": 9.93624256163219e-07,
      "loss": -0.0445,
      "step": 46,
      "step_time": 2.753241232596338
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1286.0,
      "completions/max_terminated_length": 1286.0,
      "completions/mean_length": 826.125,
      "completions/mean_terminated_length": 826.125,
      "completions/min_length": 439.0,
      "completions/min_terminated_length": 439.0,
      "entropy": 0.6399553939700127,
      "epoch": 0.006659110229526778,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.279296875,
      "learning_rate": 9.934825729668462e-07,
      "loss": -0.0414,
      "num_tokens": 1439347.0,
      "reward": 0.3125,
      "reward_std": 0.7319250702857971,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 47,
      "step_time": 44.34781440347433
    },
    {
      "clip_ratio/high_max": 7.564296538475901e-05,
      "clip_ratio/high_mean": 7.564296538475901e-05,
      "clip_ratio/low_mean": 0.00035779187965090387,
      "clip_ratio/low_min": 0.00035779187965090387,
      "clip_ratio/region_mean": 0.0004334348450356629,
      "entropy": 0.5326582863926888,
      "epoch": 0.006800793425899688,
      "grad_norm": 0.283203125,
      "learning_rate": 9.93340889770473e-07,
      "loss": 0.0535,
      "step": 48,
      "step_time": 2.850975528359413
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1726.0,
      "completions/max_terminated_length": 1726.0,
      "completions/mean_length": 926.015625,
      "completions/mean_terminated_length": 926.015625,
      "completions/min_length": 445.0,
      "completions/min_terminated_length": 445.0,
      "entropy": 0.5764326602220535,
      "epoch": 0.006942476622272598,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.236328125,
      "learning_rate": 9.931992065741002e-07,
      "loss": -0.0223,
      "num_tokens": 1509732.0,
      "reward": 0.03125,
      "reward_std": 0.25,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 49,
      "step_time": 58.741603947244585
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 3.702606773003936e-05,
      "clip_ratio/low_min": 3.702606773003936e-05,
      "clip_ratio/region_mean": 3.702606773003936e-05,
      "entropy": 0.7425612471997738,
      "epoch": 0.007084159818645509,
      "grad_norm": 0.0400390625,
      "learning_rate": 9.930575233777274e-07,
      "loss": 0.0237,
      "step": 50,
      "step_time": 3.5680607864633203
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1737.0,
      "completions/max_terminated_length": 1737.0,
      "completions/mean_length": 847.625,
      "completions/mean_terminated_length": 847.625,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "entropy": 0.8237312138080597,
      "epoch": 0.007225843015018419,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.359375,
      "learning_rate": 9.929158401813543e-07,
      "loss": -0.0197,
      "num_tokens": 1575228.0,
      "reward": 0.03125,
      "reward_std": 0.25,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 51,
      "step_time": 58.84486279543489
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00020377737018861808,
      "clip_ratio/low_min": 0.00020377737018861808,
      "clip_ratio/region_mean": 0.00020377737018861808,
      "entropy": 0.8504522107541561,
      "epoch": 0.007367526211391329,
      "grad_norm": 0.09228515625,
      "learning_rate": 9.927741569849815e-07,
      "loss": 0.0333,
      "step": 52,
      "step_time": 3.558636248111725
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1519.0,
      "completions/max_terminated_length": 1519.0,
      "completions/mean_length": 826.015625,
      "completions/mean_terminated_length": 826.015625,
      "completions/min_length": 85.0,
      "completions/min_terminated_length": 85.0,
      "entropy": 0.8496702685952187,
      "epoch": 0.007509209407764239,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 9.926324737886086e-07,
      "loss": 0.0,
      "num_tokens": 1639133.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 53,
      "step_time": 51.72985011152923
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.6266211867332458,
      "epoch": 0.0076508926041371494,
      "grad_norm": 0.0,
      "learning_rate": 9.924907905922358e-07,
      "loss": 0.0,
      "step": 54,
      "step_time": 3.2643506918102503
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2481.0,
      "completions/max_terminated_length": 2481.0,
      "completions/mean_length": 751.59375,
      "completions/mean_terminated_length": 751.59375,
      "completions/min_length": 338.0,
      "completions/min_terminated_length": 338.0,
      "entropy": 0.8480700701475143,
      "epoch": 0.00779257580051006,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.4453125,
      "learning_rate": 9.92349107395863e-07,
      "loss": 0.0113,
      "num_tokens": 1698851.0,
      "reward": 0.078125,
      "reward_std": 0.3587760329246521,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.015625,
      "rewards/format_reward_func/std": 0.08768405020236969,
      "step": 55,
      "step_time": 87.44647446740419
    },
    {
      "clip_ratio/high_max": 0.0001033038497553207,
      "clip_ratio/high_mean": 0.0001033038497553207,
      "clip_ratio/low_mean": 0.0003921488423657138,
      "clip_ratio/low_min": 0.0003921488423657138,
      "clip_ratio/region_mean": 0.0004954526921210345,
      "entropy": 0.9393360689282417,
      "epoch": 0.00793425899688297,
      "grad_norm": 0.396484375,
      "learning_rate": 9.922074241994899e-07,
      "loss": 0.0187,
      "step": 56,
      "step_time": 4.905996618792415
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1476.0,
      "completions/max_terminated_length": 1476.0,
      "completions/mean_length": 815.875,
      "completions/mean_terminated_length": 815.875,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "entropy": 0.7212881855666637,
      "epoch": 0.00807594219325588,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.2734375,
      "learning_rate": 9.92065741003117e-07,
      "loss": 0.0253,
      "num_tokens": 1761835.0,
      "reward": 0.28125,
      "reward_std": 0.7007648944854736,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 57,
      "step_time": 49.97361693717539
    },
    {
      "clip_ratio/high_max": 0.00025908512907335535,
      "clip_ratio/high_mean": 0.00025908512907335535,
      "clip_ratio/low_mean": 0.0002946459026134107,
      "clip_ratio/low_min": 0.0002946459026134107,
      "clip_ratio/region_mean": 0.0005537310353247449,
      "entropy": 0.6053717732429504,
      "epoch": 0.00821762538962879,
      "grad_norm": 0.494140625,
      "learning_rate": 9.919240578067441e-07,
      "loss": -0.0342,
      "step": 58,
      "step_time": 3.160073979757726
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1901.0,
      "completions/max_terminated_length": 1901.0,
      "completions/mean_length": 764.40625,
      "completions/mean_terminated_length": 764.40625,
      "completions/min_length": 272.0,
      "completions/min_terminated_length": 272.0,
      "entropy": 0.5374753996729851,
      "epoch": 0.0083593085860017,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.244140625,
      "learning_rate": 9.91782374610371e-07,
      "loss": 0.0444,
      "num_tokens": 1821493.0,
      "reward": 0.1015625,
      "reward_std": 0.42891231179237366,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0078125,
      "rewards/format_reward_func/std": 0.0625,
      "step": 59,
      "step_time": 64.97111975867301
    },
    {
      "clip_ratio/high_max": 0.00014120390915195458,
      "clip_ratio/high_mean": 0.00014120390915195458,
      "clip_ratio/low_mean": 0.00017991859567700885,
      "clip_ratio/low_min": 0.00017991859567700885,
      "clip_ratio/region_mean": 0.00032112250482896343,
      "entropy": 0.5179909691214561,
      "epoch": 0.00850099178237461,
      "grad_norm": 0.375,
      "learning_rate": 9.916406914139982e-07,
      "loss": -0.0421,
      "step": 60,
      "step_time": 4.0156554216519
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1418.0,
      "completions/max_terminated_length": 1418.0,
      "completions/mean_length": 831.578125,
      "completions/mean_terminated_length": 831.578125,
      "completions/min_length": 376.0,
      "completions/min_terminated_length": 376.0,
      "entropy": 0.9493984133005142,
      "epoch": 0.00864267497874752,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.052734375,
      "learning_rate": 9.914990082176254e-07,
      "loss": 0.017,
      "num_tokens": 1885242.0,
      "reward": 0.03125,
      "reward_std": 0.25,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 61,
      "step_time": 48.17721863090992
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00019790914666373283,
      "clip_ratio/low_min": 0.00019790914666373283,
      "clip_ratio/region_mean": 0.00019790914666373283,
      "entropy": 0.7518093325197697,
      "epoch": 0.008784358175120431,
      "grad_norm": 0.24609375,
      "learning_rate": 9.913573250212525e-07,
      "loss": 0.0124,
      "step": 62,
      "step_time": 3.0819637812674046
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1465.0,
      "completions/max_terminated_length": 1465.0,
      "completions/mean_length": 708.1875,
      "completions/mean_terminated_length": 708.1875,
      "completions/min_length": 320.0,
      "completions/min_terminated_length": 320.0,
      "entropy": 0.6817840747535229,
      "epoch": 0.00892604137149334,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.169921875,
      "learning_rate": 9.912156418248795e-07,
      "loss": 0.0329,
      "num_tokens": 1939926.0,
      "reward": 0.125,
      "reward_std": 0.48795002698898315,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 63,
      "step_time": 50.14894981589168
    },
    {
      "clip_ratio/high_max": 3.965735959354788e-05,
      "clip_ratio/high_mean": 3.965735959354788e-05,
      "clip_ratio/low_mean": 8.493081259075552e-05,
      "clip_ratio/low_min": 8.493081259075552e-05,
      "clip_ratio/region_mean": 0.0001245881721843034,
      "entropy": 0.9123491868376732,
      "epoch": 0.009067724567866252,
      "grad_norm": 0.25390625,
      "learning_rate": 9.910739586285066e-07,
      "loss": -0.0778,
      "step": 64,
      "step_time": 3.279470277018845
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1366.0,
      "completions/max_terminated_length": 1366.0,
      "completions/mean_length": 732.765625,
      "completions/mean_terminated_length": 732.765625,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "entropy": 0.868381567299366,
      "epoch": 0.00920940776423916,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.09912109375,
      "learning_rate": 9.909322754321338e-07,
      "loss": 0.0636,
      "num_tokens": 1997079.0,
      "reward": 0.0390625,
      "reward_std": 0.2567298710346222,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0078125,
      "rewards/format_reward_func/std": 0.0625,
      "step": 65,
      "step_time": 46.79400787781924
    },
    {
      "clip_ratio/high_max": 9.451795631321147e-05,
      "clip_ratio/high_mean": 9.451795631321147e-05,
      "clip_ratio/low_mean": 4.858142347075045e-05,
      "clip_ratio/low_min": 4.858142347075045e-05,
      "clip_ratio/region_mean": 0.00014309937978396192,
      "entropy": 0.8070668950676918,
      "epoch": 0.009351090960612072,
      "grad_norm": 0.51953125,
      "learning_rate": 9.907905922357607e-07,
      "loss": -0.0313,
      "step": 66,
      "step_time": 2.9377729427069426
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1474.0,
      "completions/max_terminated_length": 1474.0,
      "completions/mean_length": 854.84375,
      "completions/mean_terminated_length": 854.84375,
      "completions/min_length": 383.0,
      "completions/min_terminated_length": 383.0,
      "entropy": 0.8725886717438698,
      "epoch": 0.009492774156984981,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 9.906489090393878e-07,
      "loss": 0.0,
      "num_tokens": 2063485.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 67,
      "step_time": 50.585694558918476
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 1.0692217946052551,
      "epoch": 0.009634457353357892,
      "grad_norm": 0.0,
      "learning_rate": 9.90507225843015e-07,
      "loss": 0.0,
      "step": 68,
      "step_time": 3.4614539137110114
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1595.0,
      "completions/max_terminated_length": 1595.0,
      "completions/mean_length": 778.84375,
      "completions/mean_terminated_length": 778.84375,
      "completions/min_length": 301.0,
      "completions/min_terminated_length": 301.0,
      "entropy": 0.8959929123520851,
      "epoch": 0.009776140549730802,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.333984375,
      "learning_rate": 9.903655426466421e-07,
      "loss": -0.0426,
      "num_tokens": 2124739.0,
      "reward": 0.03125,
      "reward_std": 0.25,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 69,
      "step_time": 54.77906307391822
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00030118141148705035,
      "clip_ratio/low_min": 0.00030118141148705035,
      "clip_ratio/region_mean": 0.00030118141148705035,
      "entropy": 1.100719854235649,
      "epoch": 0.009917823746103713,
      "grad_norm": 0.0791015625,
      "learning_rate": 9.902238594502693e-07,
      "loss": 0.0373,
      "step": 70,
      "step_time": 3.3423923552036285
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1479.0,
      "completions/max_terminated_length": 1479.0,
      "completions/mean_length": 834.109375,
      "completions/mean_terminated_length": 834.109375,
      "completions/min_length": 502.0,
      "completions/min_terminated_length": 502.0,
      "entropy": 0.4374666288495064,
      "epoch": 0.010059506942476622,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.1865234375,
      "learning_rate": 9.900821762538962e-07,
      "loss": 0.015,
      "num_tokens": 2186138.0,
      "reward": 0.1015625,
      "reward_std": 0.42891231179237366,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0078125,
      "rewards/format_reward_func/std": 0.0625,
      "step": 71,
      "step_time": 50.60619966313243
    },
    {
      "clip_ratio/high_max": 3.643252784968354e-05,
      "clip_ratio/high_mean": 3.643252784968354e-05,
      "clip_ratio/low_mean": 0.0001797555851226207,
      "clip_ratio/low_min": 0.0001797555851226207,
      "clip_ratio/region_mean": 0.00021618811661028303,
      "entropy": 0.5315881073474884,
      "epoch": 0.010201190138849533,
      "grad_norm": 0.298828125,
      "learning_rate": 9.899404930575234e-07,
      "loss": -0.0313,
      "step": 72,
      "step_time": 3.1111213518306613
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1366.0,
      "completions/max_terminated_length": 1366.0,
      "completions/mean_length": 761.71875,
      "completions/mean_terminated_length": 761.71875,
      "completions/min_length": 398.0,
      "completions/min_terminated_length": 398.0,
      "entropy": 0.8769622929394245,
      "epoch": 0.010342873335222443,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2294921875,
      "learning_rate": 9.897988098611503e-07,
      "loss": 0.0363,
      "num_tokens": 2245064.0,
      "reward": 0.09375,
      "reward_std": 0.426084041595459,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 73,
      "step_time": 46.85092769842595
    },
    {
      "clip_ratio/high_max": 0.00017578895494807512,
      "clip_ratio/high_mean": 0.00017578895494807512,
      "clip_ratio/low_mean": 0.0001972757418116089,
      "clip_ratio/low_min": 0.0001972757418116089,
      "clip_ratio/region_mean": 0.0003730647040356416,
      "entropy": 0.9260382801294327,
      "epoch": 0.010484556531595354,
      "grad_norm": 0.310546875,
      "learning_rate": 9.896571266647774e-07,
      "loss": -0.0244,
      "step": 74,
      "step_time": 2.941821333952248
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2595.0,
      "completions/max_terminated_length": 2595.0,
      "completions/mean_length": 683.125,
      "completions/mean_terminated_length": 683.125,
      "completions/min_length": 330.0,
      "completions/min_terminated_length": 330.0,
      "entropy": 1.076296016573906,
      "epoch": 0.010626239727968263,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1513671875,
      "learning_rate": 9.895154434684046e-07,
      "loss": 0.0452,
      "num_tokens": 2297696.0,
      "reward": 0.09375,
      "reward_std": 0.426084041595459,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 75,
      "step_time": 92.36924948915839
    },
    {
      "clip_ratio/high_max": 0.00029296842694748193,
      "clip_ratio/high_mean": 0.00029296842694748193,
      "clip_ratio/low_mean": 5.0792361435014755e-05,
      "clip_ratio/low_min": 5.0792361435014755e-05,
      "clip_ratio/region_mean": 0.0003437607883824967,
      "entropy": 0.9349071457982063,
      "epoch": 0.010767922924341174,
      "grad_norm": 0.416015625,
      "learning_rate": 9.893737602720317e-07,
      "loss": -0.0432,
      "step": 76,
      "step_time": 4.75162270385772
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1615.0,
      "completions/max_terminated_length": 1615.0,
      "completions/mean_length": 844.953125,
      "completions/mean_terminated_length": 844.953125,
      "completions/min_length": 402.0,
      "completions/min_terminated_length": 402.0,
      "entropy": 0.4518128037452698,
      "epoch": 0.010909606120714083,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.28515625,
      "learning_rate": 9.892320770756589e-07,
      "loss": 0.0091,
      "num_tokens": 2362397.0,
      "reward": 0.28125,
      "reward_std": 0.7007648944854736,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 77,
      "step_time": 56.15190115571022
    },
    {
      "clip_ratio/high_max": 0.00027098474674858153,
      "clip_ratio/high_mean": 0.00027098474674858153,
      "clip_ratio/low_mean": 0.00010519245915929787,
      "clip_ratio/low_min": 0.00010519245915929787,
      "clip_ratio/region_mean": 0.0003761772059078794,
      "entropy": 0.5974634699523449,
      "epoch": 0.011051289317086993,
      "grad_norm": 0.302734375,
      "learning_rate": 9.890903938792858e-07,
      "loss": -0.0083,
      "step": 78,
      "step_time": 3.500698843970895
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1217.0,
      "completions/max_terminated_length": 1217.0,
      "completions/mean_length": 619.828125,
      "completions/mean_terminated_length": 619.828125,
      "completions/min_length": 309.0,
      "completions/min_terminated_length": 309.0,
      "entropy": 1.0105286166071892,
      "epoch": 0.011192972513459904,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.44921875,
      "learning_rate": 9.88948710682913e-07,
      "loss": -0.0058,
      "num_tokens": 2411714.0,
      "reward": 0.0390625,
      "reward_std": 0.2567298710346222,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0078125,
      "rewards/format_reward_func/std": 0.0625,
      "step": 79,
      "step_time": 41.73487954214215
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0002998463751282543,
      "clip_ratio/low_min": 0.0002998463751282543,
      "clip_ratio/region_mean": 0.0002998463751282543,
      "entropy": 0.9678530171513557,
      "epoch": 0.011334655709832813,
      "grad_norm": 0.2421875,
      "learning_rate": 9.8880702748654e-07,
      "loss": 0.0283,
      "step": 80,
      "step_time": 2.738745739683509
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2194.0,
      "completions/max_terminated_length": 2194.0,
      "completions/mean_length": 808.0625,
      "completions/mean_terminated_length": 808.0625,
      "completions/min_length": 390.0,
      "completions/min_terminated_length": 390.0,
      "entropy": 0.7084903344511986,
      "epoch": 0.011476338906205724,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 9.88665344290167e-07,
      "loss": 0.0,
      "num_tokens": 2478598.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 81,
      "step_time": 77.90330918133259
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.6574970185756683,
      "epoch": 0.011618022102578634,
      "grad_norm": 0.0,
      "learning_rate": 9.885236610937942e-07,
      "loss": 0.0,
      "step": 82,
      "step_time": 4.385869580321014
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2052.0,
      "completions/max_terminated_length": 2052.0,
      "completions/mean_length": 826.03125,
      "completions/mean_terminated_length": 826.03125,
      "completions/min_length": 408.0,
      "completions/min_terminated_length": 408.0,
      "entropy": 0.8018381893634796,
      "epoch": 0.011759705298951545,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.26953125,
      "learning_rate": 9.883819778974213e-07,
      "loss": 0.0042,
      "num_tokens": 2542296.0,
      "reward": 0.09375,
      "reward_std": 0.426084041595459,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 83,
      "step_time": 71.5009106779471
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00023499439339502715,
      "clip_ratio/low_min": 0.00023499439339502715,
      "clip_ratio/region_mean": 0.00023499439339502715,
      "entropy": 0.9188530668616295,
      "epoch": 0.011901388495324454,
      "grad_norm": 0.44140625,
      "learning_rate": 9.882402947010485e-07,
      "loss": -0.0045,
      "step": 84,
      "step_time": 4.1053746324032545
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1648.0,
      "completions/max_terminated_length": 1648.0,
      "completions/mean_length": 817.3125,
      "completions/mean_terminated_length": 817.3125,
      "completions/min_length": 406.0,
      "completions/min_terminated_length": 406.0,
      "entropy": 1.3284498900175095,
      "epoch": 0.012043071691697365,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 9.880986115046756e-07,
      "loss": 0.0,
      "num_tokens": 2608284.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 85,
      "step_time": 57.030595569871366
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.9787842407822609,
      "epoch": 0.012184754888070274,
      "grad_norm": 0.0,
      "learning_rate": 9.879569283083026e-07,
      "loss": 0.0,
      "step": 86,
      "step_time": 3.7191086849197745
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3444.0,
      "completions/max_terminated_length": 3444.0,
      "completions/mean_length": 620.25,
      "completions/mean_terminated_length": 620.25,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "entropy": 0.587896965444088,
      "epoch": 0.012326438084443185,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.455078125,
      "learning_rate": 9.878152451119297e-07,
      "loss": 0.0611,
      "num_tokens": 2671916.0,
      "reward": 0.4296875,
      "reward_std": 0.806064248085022,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.0234375,
      "rewards/format_reward_func/std": 0.10652101784944534,
      "step": 87,
      "step_time": 143.09566585347056
    },
    {
      "clip_ratio/high_max": 0.0002222882649220992,
      "clip_ratio/high_mean": 0.0002222882649220992,
      "clip_ratio/low_mean": 0.00026227787384414114,
      "clip_ratio/low_min": 0.00026227787384414114,
      "clip_ratio/region_mean": 0.00048456613876624033,
      "entropy": 0.7342090904712677,
      "epoch": 0.012468121280816095,
      "grad_norm": 0.60546875,
      "learning_rate": 9.876735619155566e-07,
      "loss": 0.0338,
      "step": 88,
      "step_time": 6.86576088424772
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1666.0,
      "completions/max_terminated_length": 1666.0,
      "completions/mean_length": 796.796875,
      "completions/mean_terminated_length": 796.796875,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "entropy": 0.7029551304876804,
      "epoch": 0.012609804477189006,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.21875,
      "learning_rate": 9.875318787191838e-07,
      "loss": 0.0421,
      "num_tokens": 2734639.0,
      "reward": 0.09375,
      "reward_std": 0.426084041595459,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 89,
      "step_time": 57.20769506879151
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00013781051529804245,
      "clip_ratio/low_min": 0.00013781051529804245,
      "clip_ratio/region_mean": 0.00013781051529804245,
      "entropy": 0.847624022513628,
      "epoch": 0.012751487673561915,
      "grad_norm": 0.2265625,
      "learning_rate": 9.87390195522811e-07,
      "loss": -0.0194,
      "step": 90,
      "step_time": 3.684994743205607
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1325.0,
      "completions/max_terminated_length": 1325.0,
      "completions/mean_length": 712.8125,
      "completions/mean_terminated_length": 712.8125,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "entropy": 0.6135685071349144,
      "epoch": 0.012893170869934826,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.41796875,
      "learning_rate": 9.87248512326438e-07,
      "loss": -0.0227,
      "num_tokens": 2790659.0,
      "reward": 0.171875,
      "reward_std": 0.5434950590133667,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.015625,
      "rewards/format_reward_func/std": 0.08768405020236969,
      "step": 91,
      "step_time": 45.40605076495558
    },
    {
      "clip_ratio/high_max": 0.00010850694525288418,
      "clip_ratio/high_mean": 0.00010850694525288418,
      "clip_ratio/low_mean": 0.00041033556408365257,
      "clip_ratio/low_min": 0.00041033556408365257,
      "clip_ratio/region_mean": 0.0005188425129745156,
      "entropy": 0.7460729256272316,
      "epoch": 0.013034854066307736,
      "grad_norm": 0.25390625,
      "learning_rate": 9.871068291300652e-07,
      "loss": 0.0324,
      "step": 92,
      "step_time": 2.9125374667346478
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1601.0,
      "completions/max_terminated_length": 1601.0,
      "completions/mean_length": 765.765625,
      "completions/mean_terminated_length": 765.765625,
      "completions/min_length": 310.0,
      "completions/min_terminated_length": 310.0,
      "entropy": 0.8996152728796005,
      "epoch": 0.013176537262680647,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.306640625,
      "learning_rate": 9.869651459336922e-07,
      "loss": 0.0081,
      "num_tokens": 2850804.0,
      "reward": 0.0390625,
      "reward_std": 0.2567298710346222,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0078125,
      "rewards/format_reward_func/std": 0.0625,
      "step": 93,
      "step_time": 55.168041955679655
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00026439042630954646,
      "clip_ratio/low_min": 0.00026439042630954646,
      "clip_ratio/region_mean": 0.00026439042630954646,
      "entropy": 1.0150229558348656,
      "epoch": 0.013318220459053556,
      "grad_norm": 0.416015625,
      "learning_rate": 9.868234627373193e-07,
      "loss": -0.0051,
      "step": 94,
      "step_time": 3.5746223237365484
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1080.0,
      "completions/max_terminated_length": 1080.0,
      "completions/mean_length": 579.9375,
      "completions/mean_terminated_length": 579.9375,
      "completions/min_length": 289.0,
      "completions/min_terminated_length": 289.0,
      "entropy": 0.8694754913449287,
      "epoch": 0.013459903655426467,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.38671875,
      "learning_rate": 9.866817795409465e-07,
      "loss": -0.0252,
      "num_tokens": 2897888.0,
      "reward": 0.03125,
      "reward_std": 0.25,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 95,
      "step_time": 36.41566750314087
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 5.3533189202426e-05,
      "clip_ratio/low_min": 5.3533189202426e-05,
      "clip_ratio/region_mean": 5.3533189202426e-05,
      "entropy": 1.1049876362085342,
      "epoch": 0.013601586851799376,
      "grad_norm": 0.07421875,
      "learning_rate": 9.865400963445734e-07,
      "loss": 0.0128,
      "step": 96,
      "step_time": 2.5084453178569674
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1273.0,
      "completions/max_terminated_length": 1273.0,
      "completions/mean_length": 819.375,
      "completions/mean_terminated_length": 819.375,
      "completions/min_length": 314.0,
      "completions/min_terminated_length": 314.0,
      "entropy": 0.8118760883808136,
      "epoch": 0.013743270048172287,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.34765625,
      "learning_rate": 9.863984131482005e-07,
      "loss": 0.0049,
      "num_tokens": 2960584.0,
      "reward": 0.046875,
      "reward_std": 0.2630521357059479,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.015625,
      "rewards/format_reward_func/std": 0.08768405020236969,
      "step": 97,
      "step_time": 43.11955237854272
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00016532498193555512,
      "clip_ratio/low_min": 0.00016532498193555512,
      "clip_ratio/region_mean": 0.00016532498193555512,
      "entropy": 0.8607666492462158,
      "epoch": 0.013884953244545197,
      "grad_norm": 0.333984375,
      "learning_rate": 9.862567299518277e-07,
      "loss": 0.0287,
      "step": 98,
      "step_time": 2.8344114683568478
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1419.0,
      "completions/mean_length": 848.265625,
      "completions/mean_terminated_length": 796.71435546875,
      "completions/min_length": 327.0,
      "completions/min_terminated_length": 327.0,
      "entropy": 0.6571187153458595,
      "epoch": 0.014026636440918108,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.341796875,
      "learning_rate": 9.861150467554548e-07,
      "loss": 0.0262,
      "num_tokens": 3025705.0,
      "reward": 0.0234375,
      "reward_std": 0.10652101039886475,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0234375,
      "rewards/format_reward_func/std": 0.10652101784944534,
      "step": 99,
      "step_time": 167.68154988624156
    },
    {
      "clip_ratio/high_max": 4.090314178029075e-05,
      "clip_ratio/high_mean": 4.090314178029075e-05,
      "clip_ratio/low_mean": 0.00011367080878699198,
      "clip_ratio/low_min": 0.00011367080878699198,
      "clip_ratio/region_mean": 0.00015457395056728274,
      "entropy": 0.7103490680456161,
      "epoch": 0.014168319637291017,
      "grad_norm": 0.236328125,
      "learning_rate": 9.85973363559082e-07,
      "loss": -0.0016,
      "step": 100,
      "step_time": 7.204843700863421
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1154.0,
      "completions/max_terminated_length": 1154.0,
      "completions/mean_length": 726.65625,
      "completions/mean_terminated_length": 726.65625,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "entropy": 0.9078501537442207,
      "epoch": 0.014310002833663928,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.37109375,
      "learning_rate": 9.85831680362709e-07,
      "loss": -0.0011,
      "num_tokens": 3081539.0,
      "reward": 0.0390625,
      "reward_std": 0.2567298710346222,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0078125,
      "rewards/format_reward_func/std": 0.0625,
      "step": 101,
      "step_time": 39.17060799151659
    },
    {
      "clip_ratio/high_max": 8.389262075070292e-05,
      "clip_ratio/high_mean": 8.389262075070292e-05,
      "clip_ratio/low_mean": 0.00031979842970031314,
      "clip_ratio/low_min": 0.00031979842970031314,
      "clip_ratio/region_mean": 0.00040369104317505844,
      "entropy": 0.8840364888310432,
      "epoch": 0.014451686030036838,
      "grad_norm": 0.43359375,
      "learning_rate": 9.85689997166336e-07,
      "loss": 0.0062,
      "step": 102,
      "step_time": 2.5940647264942527
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1477.0,
      "completions/max_terminated_length": 1477.0,
      "completions/mean_length": 762.109375,
      "completions/mean_terminated_length": 762.109375,
      "completions/min_length": 410.0,
      "completions/min_terminated_length": 410.0,
      "entropy": 0.8964028917253017,
      "epoch": 0.014593369226409747,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.37890625,
      "learning_rate": 9.85548313969963e-07,
      "loss": 0.0061,
      "num_tokens": 3139530.0,
      "reward": 0.328125,
      "reward_std": 0.7518165707588196,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.015625,
      "rewards/format_reward_func/std": 0.08768405020236969,
      "step": 103,
      "step_time": 50.82524512615055
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0002334430901100859,
      "clip_ratio/low_min": 0.0002334430901100859,
      "clip_ratio/region_mean": 0.0002334430901100859,
      "entropy": 0.7360541634261608,
      "epoch": 0.014735052422782658,
      "grad_norm": 0.384765625,
      "learning_rate": 9.854066307735901e-07,
      "loss": -0.0119,
      "step": 104,
      "step_time": 3.169277148321271
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2752.0,
      "completions/max_terminated_length": 2752.0,
      "completions/mean_length": 857.453125,
      "completions/mean_terminated_length": 857.453125,
      "completions/min_length": 388.0,
      "completions/min_terminated_length": 388.0,
      "entropy": 1.0019941702485085,
      "epoch": 0.014876735619155567,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.271484375,
      "learning_rate": 9.852649475772173e-07,
      "loss": 0.0683,
      "num_tokens": 3205127.0,
      "reward": 0.046875,
      "reward_std": 0.14689241349697113,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.046875,
      "rewards/format_reward_func/std": 0.14689241349697113,
      "step": 105,
      "step_time": 99.32687335740775
    },
    {
      "clip_ratio/high_max": 6.836794636910781e-05,
      "clip_ratio/high_mean": 6.836794636910781e-05,
      "clip_ratio/low_mean": 0.00011923078636755235,
      "clip_ratio/low_min": 0.00011923078636755235,
      "clip_ratio/region_mean": 0.00018759873273666017,
      "entropy": 0.8654899969696999,
      "epoch": 0.015018418815528478,
      "grad_norm": 0.25390625,
      "learning_rate": 9.851232643808444e-07,
      "loss": -0.0313,
      "step": 106,
      "step_time": 5.124901684001088
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1570.0,
      "completions/max_terminated_length": 1570.0,
      "completions/mean_length": 651.8125,
      "completions/mean_terminated_length": 651.8125,
      "completions/min_length": 309.0,
      "completions/min_terminated_length": 309.0,
      "entropy": 1.0689200386404991,
      "epoch": 0.015160102011901388,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.6015625,
      "learning_rate": 9.849815811844716e-07,
      "loss": -0.0396,
      "num_tokens": 3257275.0,
      "reward": 0.1015625,
      "reward_std": 0.42891231179237366,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0078125,
      "rewards/format_reward_func/std": 0.0625,
      "step": 107,
      "step_time": 53.73411473631859
    },
    {
      "clip_ratio/high_max": 3.678634311654605e-05,
      "clip_ratio/high_mean": 3.678634311654605e-05,
      "clip_ratio/low_mean": 0.00037245215571601875,
      "clip_ratio/low_min": 0.00037245215571601875,
      "clip_ratio/region_mean": 0.0004092384988325648,
      "entropy": 1.0399149879813194,
      "epoch": 0.015301785208274299,
      "grad_norm": 0.2431640625,
      "learning_rate": 9.848398979880985e-07,
      "loss": -0.0004,
      "step": 108,
      "step_time": 3.2902213875204325
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2257.0,
      "completions/max_terminated_length": 2257.0,
      "completions/mean_length": 849.421875,
      "completions/mean_terminated_length": 849.421875,
      "completions/min_length": 410.0,
      "completions/min_terminated_length": 410.0,
      "entropy": 0.860572524368763,
      "epoch": 0.015443468404647208,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 9.846982147917257e-07,
      "loss": 0.0,
      "num_tokens": 3322710.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 109,
      "step_time": 79.76224717032164
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.7406763285398483,
      "epoch": 0.01558515160102012,
      "grad_norm": 0.0,
      "learning_rate": 9.845565315953528e-07,
      "loss": 0.0,
      "step": 110,
      "step_time": 4.427883681841195
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1749.0,
      "completions/max_terminated_length": 1749.0,
      "completions/mean_length": 618.03125,
      "completions/mean_terminated_length": 618.03125,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "entropy": 0.683237086981535,
      "epoch": 0.01572683479739303,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2578125,
      "learning_rate": 9.844148483989798e-07,
      "loss": -0.001,
      "num_tokens": 3370984.0,
      "reward": 0.0625,
      "reward_std": 0.35073620080947876,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 111,
      "step_time": 59.98771739285439
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00014205835032043979,
      "clip_ratio/low_min": 0.00014205835032043979,
      "clip_ratio/region_mean": 0.00014205835032043979,
      "entropy": 0.6521077752113342,
      "epoch": 0.01586851799376594,
      "grad_norm": 0.279296875,
      "learning_rate": 9.84273165202607e-07,
      "loss": 0.0046,
      "step": 112,
      "step_time": 3.716109444387257
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1636.0,
      "completions/max_terminated_length": 1636.0,
      "completions/mean_length": 824.3125,
      "completions/mean_terminated_length": 824.3125,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "entropy": 0.9830880090594292,
      "epoch": 0.01601020119013885,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.3203125,
      "learning_rate": 9.84131482006234e-07,
      "loss": -0.0289,
      "num_tokens": 3436604.0,
      "reward": 0.03125,
      "reward_std": 0.25,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 113,
      "step_time": 56.677182481624186
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00010243434007861651,
      "clip_ratio/low_min": 0.00010243434007861651,
      "clip_ratio/region_mean": 0.00010243434007861651,
      "entropy": 0.6683650389313698,
      "epoch": 0.01615188438651176,
      "grad_norm": 0.07470703125,
      "learning_rate": 9.839897988098612e-07,
      "loss": 0.019,
      "step": 114,
      "step_time": 3.5037437211722136
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1830.0,
      "completions/max_terminated_length": 1830.0,
      "completions/mean_length": 951.40625,
      "completions/mean_terminated_length": 951.40625,
      "completions/min_length": 512.0,
      "completions/min_terminated_length": 512.0,
      "entropy": 0.7723320312798023,
      "epoch": 0.01629356758288467,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.35546875,
      "learning_rate": 9.838481156134883e-07,
      "loss": -0.0186,
      "num_tokens": 3510758.0,
      "reward": 0.09375,
      "reward_std": 0.426084041595459,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 115,
      "step_time": 63.45531076565385
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0002460920441080816,
      "clip_ratio/low_min": 0.0002460920441080816,
      "clip_ratio/region_mean": 0.0002460920441080816,
      "entropy": 0.8169742599129677,
      "epoch": 0.01643525077925758,
      "grad_norm": 0.318359375,
      "learning_rate": 9.837064324171153e-07,
      "loss": 0.0249,
      "step": 116,
      "step_time": 3.972987755201757
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1070.0,
      "completions/max_terminated_length": 1070.0,
      "completions/mean_length": 649.203125,
      "completions/mean_terminated_length": 649.203125,
      "completions/min_length": 259.0,
      "completions/min_terminated_length": 259.0,
      "entropy": 0.9387729316949844,
      "epoch": 0.01657693397563049,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.462890625,
      "learning_rate": 9.835647492207424e-07,
      "loss": -0.0125,
      "num_tokens": 3562339.0,
      "reward": 0.0234375,
      "reward_std": 0.10652101039886475,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0234375,
      "rewards/format_reward_func/std": 0.10652101784944534,
      "step": 117,
      "step_time": 36.808102739043534
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 1.0726701244711876,
      "epoch": 0.0167186171720034,
      "grad_norm": 0.294921875,
      "learning_rate": 9.834230660243694e-07,
      "loss": 0.042,
      "step": 118,
      "step_time": 2.508785725571215
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1356.0,
      "completions/max_terminated_length": 1356.0,
      "completions/mean_length": 916.59375,
      "completions/mean_terminated_length": 916.59375,
      "completions/min_length": 440.0,
      "completions/min_terminated_length": 440.0,
      "entropy": 0.751507107168436,
      "epoch": 0.01686030036837631,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.373046875,
      "learning_rate": 9.832813828279965e-07,
      "loss": 0.019,
      "num_tokens": 3633945.0,
      "reward": 0.3203125,
      "reward_std": 0.731204628944397,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.0078125,
      "rewards/format_reward_func/std": 0.0625,
      "step": 119,
      "step_time": 47.400589196011424
    },
    {
      "clip_ratio/high_max": 0.00017773961008060724,
      "clip_ratio/high_mean": 0.00017773961008060724,
      "clip_ratio/low_mean": 0.0003004782265634276,
      "clip_ratio/low_min": 0.0003004782265634276,
      "clip_ratio/region_mean": 0.00047821783664403483,
      "entropy": 0.6822011023759842,
      "epoch": 0.01700198356474922,
      "grad_norm": 0.353515625,
      "learning_rate": 9.831396996316236e-07,
      "loss": 0.0207,
      "step": 120,
      "step_time": 3.462222019210458
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1439.0,
      "completions/max_terminated_length": 1439.0,
      "completions/mean_length": 753.921875,
      "completions/mean_terminated_length": 753.921875,
      "completions/min_length": 336.0,
      "completions/min_terminated_length": 336.0,
      "entropy": 0.814373105764389,
      "epoch": 0.017143666761122132,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.46484375,
      "learning_rate": 9.829980164352508e-07,
      "loss": -0.0401,
      "num_tokens": 3691748.0,
      "reward": 0.0390625,
      "reward_std": 0.2567298710346222,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0078125,
      "rewards/format_reward_func/std": 0.0625,
      "step": 121,
      "step_time": 49.12297942955047
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00013776752894045785,
      "clip_ratio/low_min": 0.00013776752894045785,
      "clip_ratio/region_mean": 0.00013776752894045785,
      "entropy": 0.8211947679519653,
      "epoch": 0.01728534995749504,
      "grad_norm": 0.0986328125,
      "learning_rate": 9.82856333238878e-07,
      "loss": 0.0334,
      "step": 122,
      "step_time": 3.0608254931867123
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1939.0,
      "completions/max_terminated_length": 1939.0,
      "completions/mean_length": 768.21875,
      "completions/mean_terminated_length": 768.21875,
      "completions/min_length": 422.0,
      "completions/min_terminated_length": 422.0,
      "entropy": 0.837968036532402,
      "epoch": 0.01742703315386795,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.53125,
      "learning_rate": 9.827146500425049e-07,
      "loss": -0.0142,
      "num_tokens": 3750754.0,
      "reward": 0.078125,
      "reward_std": 0.3587760329246521,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.015625,
      "rewards/format_reward_func/std": 0.08768405020236969,
      "step": 123,
      "step_time": 67.16146178916097
    },
    {
      "clip_ratio/high_max": 9.462528396397829e-05,
      "clip_ratio/high_mean": 9.462528396397829e-05,
      "clip_ratio/low_mean": 0.0005929852377448697,
      "clip_ratio/low_min": 0.0005929852377448697,
      "clip_ratio/region_mean": 0.0006876105180708691,
      "entropy": 0.9552619531750679,
      "epoch": 0.017568716350240862,
      "grad_norm": 0.53125,
      "learning_rate": 9.82572966846132e-07,
      "loss": 0.0005,
      "step": 124,
      "step_time": 4.096374709159136
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1579.0,
      "completions/max_terminated_length": 1579.0,
      "completions/mean_length": 914.296875,
      "completions/mean_terminated_length": 914.296875,
      "completions/min_length": 474.0,
      "completions/min_terminated_length": 474.0,
      "entropy": 0.8375454768538475,
      "epoch": 0.017710399546613773,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1630859375,
      "learning_rate": 9.824312836497592e-07,
      "loss": 0.0174,
      "num_tokens": 3821333.0,
      "reward": 0.03125,
      "reward_std": 0.12198750674724579,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.03125,
      "rewards/format_reward_func/std": 0.12198751419782639,
      "step": 125,
      "step_time": 53.49514356814325
    },
    {
      "clip_ratio/high_max": 0.0001745720364851877,
      "clip_ratio/high_mean": 0.0001745720364851877,
      "clip_ratio/low_mean": 3.264559927629307e-05,
      "clip_ratio/low_min": 3.264559927629307e-05,
      "clip_ratio/region_mean": 0.00020721763576148078,
      "entropy": 0.7012003362178802,
      "epoch": 0.01785208274298668,
      "grad_norm": 0.259765625,
      "learning_rate": 9.822896004533861e-07,
      "loss": -0.0071,
      "step": 126,
      "step_time": 3.3581313034519553
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1037.0,
      "completions/max_terminated_length": 1037.0,
      "completions/mean_length": 619.296875,
      "completions/mean_terminated_length": 619.296875,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "entropy": 1.0210353136062622,
      "epoch": 0.017993765939359592,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.48046875,
      "learning_rate": 9.821479172570133e-07,
      "loss": 0.0154,
      "num_tokens": 3874152.0,
      "reward": 0.15625,
      "reward_std": 0.49501484632492065,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.03125,
      "rewards/format_reward_func/std": 0.12198751419782639,
      "step": 127,
      "step_time": 35.447675756178796
    },
    {
      "clip_ratio/high_max": 0.00017994885274674743,
      "clip_ratio/high_mean": 0.00017994885274674743,
      "clip_ratio/low_mean": 0.0002906260997406207,
      "clip_ratio/low_min": 0.0002906260997406207,
      "clip_ratio/region_mean": 0.00047057495248736814,
      "entropy": 0.9804961755871773,
      "epoch": 0.018135449135732503,
      "grad_norm": 0.546875,
      "learning_rate": 9.820062340606404e-07,
      "loss": 0.0118,
      "step": 128,
      "step_time": 2.618916160427034
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2221.0,
      "completions/max_terminated_length": 2221.0,
      "completions/mean_length": 808.34375,
      "completions/mean_terminated_length": 808.34375,
      "completions/min_length": 335.0,
      "completions/min_terminated_length": 335.0,
      "entropy": 0.605855192989111,
      "epoch": 0.01827713233210541,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.56640625,
      "learning_rate": 9.818645508642675e-07,
      "loss": -0.0536,
      "num_tokens": 3933006.0,
      "reward": 0.2578125,
      "reward_std": 0.629891574382782,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.0390625,
      "rewards/format_reward_func/std": 0.13524486124515533,
      "step": 129,
      "step_time": 76.36848824471235
    },
    {
      "clip_ratio/high_max": 0.00022913575594429858,
      "clip_ratio/high_mean": 0.00022913575594429858,
      "clip_ratio/low_mean": 0.000698938933055615,
      "clip_ratio/low_min": 0.000698938933055615,
      "clip_ratio/region_mean": 0.0009280746889999136,
      "entropy": 0.7481323331594467,
      "epoch": 0.01841881552847832,
      "grad_norm": 0.43359375,
      "learning_rate": 9.817228676678945e-07,
      "loss": 0.038,
      "step": 130,
      "step_time": 4.195847732946277
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1073.0,
      "completions/max_terminated_length": 1073.0,
      "completions/mean_length": 801.328125,
      "completions/mean_terminated_length": 801.328125,
      "completions/min_length": 378.0,
      "completions/min_terminated_length": 378.0,
      "entropy": 0.8564235344529152,
      "epoch": 0.018560498724851233,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.337890625,
      "learning_rate": 9.815811844715216e-07,
      "loss": 0.0712,
      "num_tokens": 3994515.0,
      "reward": 0.109375,
      "reward_std": 0.4315783977508545,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.015625,
      "rewards/format_reward_func/std": 0.08768405020236969,
      "step": 131,
      "step_time": 36.23511563800275
    },
    {
      "clip_ratio/high_max": 0.00012159898324171081,
      "clip_ratio/high_mean": 0.00012159898324171081,
      "clip_ratio/low_mean": 0.00014472650218522176,
      "clip_ratio/low_min": 0.00014472650218522176,
      "clip_ratio/region_mean": 0.0002663254854269326,
      "entropy": 0.723331592977047,
      "epoch": 0.018702181921224144,
      "grad_norm": 0.3984375,
      "learning_rate": 9.814395012751488e-07,
      "loss": -0.0515,
      "step": 132,
      "step_time": 2.555130840279162
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1308.0,
      "completions/max_terminated_length": 1308.0,
      "completions/mean_length": 798.40625,
      "completions/mean_terminated_length": 798.40625,
      "completions/min_length": 379.0,
      "completions/min_terminated_length": 379.0,
      "entropy": 0.8065672814846039,
      "epoch": 0.01884386511759705,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.10302734375,
      "learning_rate": 9.812978180787757e-07,
      "loss": 0.018,
      "num_tokens": 4057101.0,
      "reward": 0.0390625,
      "reward_std": 0.2567298710346222,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0078125,
      "rewards/format_reward_func/std": 0.0625,
      "step": 133,
      "step_time": 44.46041304897517
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00019409877131693065,
      "clip_ratio/low_min": 0.00019409877131693065,
      "clip_ratio/region_mean": 0.00019409877131693065,
      "entropy": 0.7060548067092896,
      "epoch": 0.018985548313969963,
      "grad_norm": 0.31640625,
      "learning_rate": 9.811561348824029e-07,
      "loss": -0.0214,
      "step": 134,
      "step_time": 2.8897192822769284
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3630.0,
      "completions/max_terminated_length": 3630.0,
      "completions/mean_length": 771.625,
      "completions/mean_terminated_length": 771.625,
      "completions/min_length": 315.0,
      "completions/min_terminated_length": 315.0,
      "entropy": 0.5667613483965397,
      "epoch": 0.019127231510342874,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.41015625,
      "learning_rate": 9.8101445168603e-07,
      "loss": 0.0437,
      "num_tokens": 4115333.0,
      "reward": 0.234375,
      "reward_std": 0.6297439336776733,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.015625,
      "rewards/format_reward_func/std": 0.08768405020236969,
      "step": 135,
      "step_time": 141.08297007810324
    },
    {
      "clip_ratio/high_max": 0.0005420390225481242,
      "clip_ratio/high_mean": 0.0005420390225481242,
      "clip_ratio/low_mean": 0.00031037737062433735,
      "clip_ratio/low_min": 0.00031037737062433735,
      "clip_ratio/region_mean": 0.0008524163968104403,
      "entropy": 0.48885415121912956,
      "epoch": 0.019268914706715785,
      "grad_norm": 0.51953125,
      "learning_rate": 9.808727684896572e-07,
      "loss": -0.039,
      "step": 136,
      "step_time": 6.390867173671722
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1416.0,
      "completions/max_terminated_length": 1416.0,
      "completions/mean_length": 805.75,
      "completions/mean_terminated_length": 805.75,
      "completions/min_length": 525.0,
      "completions/min_terminated_length": 525.0,
      "entropy": 0.9411937743425369,
      "epoch": 0.019410597903088692,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.47265625,
      "learning_rate": 9.80731085293284e-07,
      "loss": -0.0329,
      "num_tokens": 4180437.0,
      "reward": 0.0546875,
      "reward_std": 0.26899558305740356,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0234375,
      "rewards/format_reward_func/std": 0.10652101784944534,
      "step": 137,
      "step_time": 49.75664807204157
    },
    {
      "clip_ratio/high_max": 4.0180006180889904e-05,
      "clip_ratio/high_mean": 4.0180006180889904e-05,
      "clip_ratio/low_mean": 0.0001693448102741968,
      "clip_ratio/low_min": 0.0001693448102741968,
      "clip_ratio/region_mean": 0.0002095248164550867,
      "entropy": 1.016076698899269,
      "epoch": 0.019552281099461603,
      "grad_norm": 0.33984375,
      "learning_rate": 9.805894020969112e-07,
      "loss": 0.024,
      "step": 138,
      "step_time": 3.217973326332867
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1370.0,
      "completions/max_terminated_length": 1370.0,
      "completions/mean_length": 737.890625,
      "completions/mean_terminated_length": 737.890625,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "entropy": 0.7917274385690689,
      "epoch": 0.019693964295834514,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.478515625,
      "learning_rate": 9.804477189005384e-07,
      "loss": 0.0443,
      "num_tokens": 4237278.0,
      "reward": 0.3125,
      "reward_std": 0.6871842741966248,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.0625,
      "rewards/format_reward_func/std": 0.1666666716337204,
      "step": 139,
      "step_time": 47.75207521673292
    },
    {
      "clip_ratio/high_max": 0.0001309729486820288,
      "clip_ratio/high_mean": 0.0001309729486820288,
      "clip_ratio/low_mean": 0.00033150019953609444,
      "clip_ratio/low_min": 0.00033150019953609444,
      "clip_ratio/region_mean": 0.00046247315549408086,
      "entropy": 0.601720966398716,
      "epoch": 0.019835647492207426,
      "grad_norm": 0.462890625,
      "learning_rate": 9.803060357041655e-07,
      "loss": -0.0267,
      "step": 140,
      "step_time": 3.006555961444974
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1431.0,
      "completions/max_terminated_length": 1431.0,
      "completions/mean_length": 696.5625,
      "completions/mean_terminated_length": 696.5625,
      "completions/min_length": 255.0,
      "completions/min_terminated_length": 255.0,
      "entropy": 0.7516827322542667,
      "epoch": 0.019977330688580333,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 9.801643525077925e-07,
      "loss": 0.0,
      "num_tokens": 4292818.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 141,
      "step_time": 51.927918057888746
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.791120745241642,
      "epoch": 0.020119013884953244,
      "grad_norm": 0.0,
      "learning_rate": 9.800226693114196e-07,
      "loss": 0.0,
      "step": 142,
      "step_time": 3.5502531556412578
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1412.0,
      "completions/max_terminated_length": 1412.0,
      "completions/mean_length": 760.34375,
      "completions/mean_terminated_length": 760.34375,
      "completions/min_length": 385.0,
      "completions/min_terminated_length": 385.0,
      "entropy": 1.2858665063977242,
      "epoch": 0.020260697081326155,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.294921875,
      "learning_rate": 9.798809861150468e-07,
      "loss": 0.0033,
      "num_tokens": 4352248.0,
      "reward": 0.078125,
      "reward_std": 0.18298126757144928,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 143,
      "step_time": 50.38708478026092
    },
    {
      "clip_ratio/high_max": 0.0001327429708908312,
      "clip_ratio/high_mean": 0.0001327429708908312,
      "clip_ratio/low_mean": 8.567793702241033e-05,
      "clip_ratio/low_min": 8.567793702241033e-05,
      "clip_ratio/region_mean": 0.00021842090791324154,
      "entropy": 0.8286194130778313,
      "epoch": 0.020402380277699066,
      "grad_norm": 0.275390625,
      "learning_rate": 9.797393029186737e-07,
      "loss": 0.0173,
      "step": 144,
      "step_time": 3.0922825392335653
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1532.0,
      "completions/max_terminated_length": 1532.0,
      "completions/mean_length": 691.8125,
      "completions/mean_terminated_length": 691.8125,
      "completions/min_length": 304.0,
      "completions/min_terminated_length": 304.0,
      "entropy": 0.713655386120081,
      "epoch": 0.020544063474071974,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5390625,
      "learning_rate": 9.795976197223008e-07,
      "loss": -0.0508,
      "num_tokens": 4404988.0,
      "reward": 0.1640625,
      "reward_std": 0.496453195810318,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.0390625,
      "rewards/format_reward_func/std": 0.13524486124515533,
      "step": 145,
      "step_time": 53.33729635272175
    },
    {
      "clip_ratio/high_max": 8.138579505612142e-05,
      "clip_ratio/high_mean": 8.138579505612142e-05,
      "clip_ratio/low_mean": 0.0007313349560718052,
      "clip_ratio/low_min": 0.0007313349560718052,
      "clip_ratio/region_mean": 0.0008127207511279266,
      "entropy": 0.7080713212490082,
      "epoch": 0.020685746670444885,
      "grad_norm": 0.353515625,
      "learning_rate": 9.79455936525928e-07,
      "loss": 0.1058,
      "step": 146,
      "step_time": 3.53318596072495
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1379.0,
      "completions/max_terminated_length": 1379.0,
      "completions/mean_length": 825.015625,
      "completions/mean_terminated_length": 825.015625,
      "completions/min_length": 375.0,
      "completions/min_terminated_length": 375.0,
      "entropy": 0.6191095616668463,
      "epoch": 0.020827429866817796,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.3359375,
      "learning_rate": 9.793142533295551e-07,
      "loss": -0.0805,
      "num_tokens": 4472125.0,
      "reward": 0.3359375,
      "reward_std": 0.7717980146408081,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.0234375,
      "rewards/format_reward_func/std": 0.10652101784944534,
      "step": 147,
      "step_time": 48.58263124618679
    },
    {
      "clip_ratio/high_max": 3.8831934944028035e-05,
      "clip_ratio/high_mean": 3.8831934944028035e-05,
      "clip_ratio/low_mean": 0.00019457452435744926,
      "clip_ratio/low_min": 0.00019457452435744926,
      "clip_ratio/region_mean": 0.0002334064593014773,
      "entropy": 0.5848611742258072,
      "epoch": 0.020969113063190707,
      "grad_norm": 0.236328125,
      "learning_rate": 9.79172570133182e-07,
      "loss": 0.068,
      "step": 148,
      "step_time": 3.1853066934272647
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1623.0,
      "completions/max_terminated_length": 1623.0,
      "completions/mean_length": 727.703125,
      "completions/mean_terminated_length": 727.703125,
      "completions/min_length": 334.0,
      "completions/min_terminated_length": 334.0,
      "entropy": 0.7825827598571777,
      "epoch": 0.021110796259563615,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.5,
      "learning_rate": 9.790308869368092e-07,
      "loss": -0.0422,
      "num_tokens": 4528506.0,
      "reward": 0.0703125,
      "reward_std": 0.35486623644828796,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.0078125,
      "rewards/format_reward_func/std": 0.0625,
      "step": 149,
      "step_time": 56.45866753254086
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0006476797243522014,
      "clip_ratio/low_min": 0.0006476797243522014,
      "clip_ratio/region_mean": 0.0006476797243522014,
      "entropy": 0.7920806929469109,
      "epoch": 0.021252479455936526,
      "grad_norm": 0.251953125,
      "learning_rate": 9.788892037404364e-07,
      "loss": 0.0375,
      "step": 150,
      "step_time": 3.582185580395162
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1317.0,
      "completions/max_terminated_length": 1317.0,
      "completions/mean_length": 846.28125,
      "completions/mean_terminated_length": 846.28125,
      "completions/min_length": 437.0,
      "completions/min_terminated_length": 437.0,
      "entropy": 0.82352564483881,
      "epoch": 0.021394162652309437,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.33203125,
      "learning_rate": 9.787475205440633e-07,
      "loss": -0.0058,
      "num_tokens": 4591932.0,
      "reward": 0.3125,
      "reward_std": 0.7319250702857971,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 151,
      "step_time": 45.72380493674427
    },
    {
      "clip_ratio/high_max": 0.00018638530309544876,
      "clip_ratio/high_mean": 0.00018638530309544876,
      "clip_ratio/low_mean": 0.00010795132038765587,
      "clip_ratio/low_min": 0.00010795132038765587,
      "clip_ratio/region_mean": 0.00029433662348310463,
      "entropy": 0.6796299442648888,
      "epoch": 0.021535845848682348,
      "grad_norm": 0.3515625,
      "learning_rate": 9.786058373476904e-07,
      "loss": 0.0121,
      "step": 152,
      "step_time": 2.896409785374999
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1085.0,
      "completions/max_terminated_length": 1085.0,
      "completions/mean_length": 678.1875,
      "completions/mean_terminated_length": 678.1875,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "entropy": 1.1144271716475487,
      "epoch": 0.021677529045055256,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.703125,
      "learning_rate": 9.784641541513176e-07,
      "loss": -0.0812,
      "num_tokens": 4645800.0,
      "reward": 0.125,
      "reward_std": 0.4364357888698578,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.03125,
      "rewards/format_reward_func/std": 0.12198751419782639,
      "step": 153,
      "step_time": 37.73532538115978
    },
    {
      "clip_ratio/high_max": 0.0001973393009393476,
      "clip_ratio/high_mean": 0.0001973393009393476,
      "clip_ratio/low_mean": 0.0008924169160309248,
      "clip_ratio/low_min": 0.0008924169160309248,
      "clip_ratio/region_mean": 0.0010897562206082512,
      "entropy": 1.1349171996116638,
      "epoch": 0.021819212241428167,
      "grad_norm": 0.380859375,
      "learning_rate": 9.783224709549447e-07,
      "loss": 0.1166,
      "step": 154,
      "step_time": 2.774570604786277
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1756.0,
      "completions/max_terminated_length": 1756.0,
      "completions/mean_length": 806.40625,
      "completions/mean_terminated_length": 806.40625,
      "completions/min_length": 17.0,
      "completions/min_terminated_length": 17.0,
      "entropy": 0.8365683741867542,
      "epoch": 0.021960895437801078,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.52734375,
      "learning_rate": 9.781807877585719e-07,
      "loss": -0.0357,
      "num_tokens": 4708818.0,
      "reward": 0.0546875,
      "reward_std": 0.26899558305740356,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0234375,
      "rewards/format_reward_func/std": 0.10652101784944534,
      "step": 155,
      "step_time": 61.63072761986405
    },
    {
      "clip_ratio/high_max": 0.00021123785700183362,
      "clip_ratio/high_mean": 0.00021123785700183362,
      "clip_ratio/low_mean": 0.0005070028419140726,
      "clip_ratio/low_min": 0.0005070028419140726,
      "clip_ratio/region_mean": 0.0007182406916399486,
      "entropy": 0.9249596893787384,
      "epoch": 0.022102578634173985,
      "grad_norm": 0.2158203125,
      "learning_rate": 9.780391045621988e-07,
      "loss": 0.039,
      "step": 156,
      "step_time": 3.5894130505621433
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1267.0,
      "completions/max_terminated_length": 1267.0,
      "completions/mean_length": 744.609375,
      "completions/mean_terminated_length": 744.609375,
      "completions/min_length": 284.0,
      "completions/min_terminated_length": 284.0,
      "entropy": 1.088825024664402,
      "epoch": 0.022244261830546896,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.4453125,
      "learning_rate": 9.77897421365826e-07,
      "loss": 0.0038,
      "num_tokens": 4774153.0,
      "reward": 0.109375,
      "reward_std": 0.4315783977508545,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.015625,
      "rewards/format_reward_func/std": 0.08768405020236969,
      "step": 157,
      "step_time": 45.02879102341831
    },
    {
      "clip_ratio/high_max": 7.986775017343462e-05,
      "clip_ratio/high_mean": 7.986775017343462e-05,
      "clip_ratio/low_mean": 0.00016462067651445977,
      "clip_ratio/low_min": 0.00016462067651445977,
      "clip_ratio/region_mean": 0.0002444884266878944,
      "entropy": 0.9783085882663727,
      "epoch": 0.022385945026919808,
      "grad_norm": 0.44921875,
      "learning_rate": 9.77755738169453e-07,
      "loss": 0.0222,
      "step": 158,
      "step_time": 3.1822205493226647
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1315.0,
      "completions/max_terminated_length": 1315.0,
      "completions/mean_length": 655.390625,
      "completions/mean_terminated_length": 655.390625,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "entropy": 0.8126502335071564,
      "epoch": 0.02252762822329272,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.5,
      "learning_rate": 9.7761405497308e-07,
      "loss": -0.0656,
      "num_tokens": 4827810.0,
      "reward": 0.0703125,
      "reward_std": 0.35486623644828796,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.0078125,
      "rewards/format_reward_func/std": 0.0625,
      "step": 159,
      "step_time": 46.33056750614196
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00010581589231151156,
      "clip_ratio/low_min": 0.00010581589231151156,
      "clip_ratio/region_mean": 0.00010581589231151156,
      "entropy": 0.9799913093447685,
      "epoch": 0.022669311419665626,
      "grad_norm": 0.1318359375,
      "learning_rate": 9.774723717767072e-07,
      "loss": 0.0574,
      "step": 160,
      "step_time": 3.056360011920333
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1012.0,
      "completions/max_terminated_length": 1012.0,
      "completions/mean_length": 619.4375,
      "completions/mean_terminated_length": 619.4375,
      "completions/min_length": 271.0,
      "completions/min_terminated_length": 271.0,
      "entropy": 1.093652531504631,
      "epoch": 0.022810994616038537,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.4453125,
      "learning_rate": 9.773306885803343e-07,
      "loss": 0.0024,
      "num_tokens": 4877438.0,
      "reward": 0.125,
      "reward_std": 0.5039526224136353,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.03125,
      "rewards/format_reward_func/std": 0.12198751419782639,
      "step": 161,
      "step_time": 34.93512288387865
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 5.034232890466228e-05,
      "clip_ratio/low_min": 5.034232890466228e-05,
      "clip_ratio/region_mean": 5.034232890466228e-05,
      "entropy": 1.1631433740258217,
      "epoch": 0.02295267781241145,
      "grad_norm": 0.263671875,
      "learning_rate": 9.771890053839615e-07,
      "loss": 0.0143,
      "step": 162,
      "step_time": 2.356808874756098
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1104.0,
      "completions/max_terminated_length": 1104.0,
      "completions/mean_length": 760.1875,
      "completions/mean_terminated_length": 760.1875,
      "completions/min_length": 427.0,
      "completions/min_terminated_length": 427.0,
      "entropy": 0.7502666935324669,
      "epoch": 0.02309436100878436,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.458984375,
      "learning_rate": 9.770473221875886e-07,
      "loss": 0.0182,
      "num_tokens": 4937034.0,
      "reward": 0.15625,
      "reward_std": 0.49501484632492065,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.03125,
      "rewards/format_reward_func/std": 0.12198751419782639,
      "step": 163,
      "step_time": 38.722895487211645
    },
    {
      "clip_ratio/high_max": 8.814127795631066e-05,
      "clip_ratio/high_mean": 8.814127795631066e-05,
      "clip_ratio/low_mean": 0.0005080653827462811,
      "clip_ratio/low_min": 0.0005080653827462811,
      "clip_ratio/region_mean": 0.000596206657064613,
      "entropy": 0.8765872120857239,
      "epoch": 0.023236044205157267,
      "grad_norm": 0.390625,
      "learning_rate": 9.769056389912156e-07,
      "loss": -0.0042,
      "step": 164,
      "step_time": 2.580922138877213
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1669.0,
      "completions/max_terminated_length": 1669.0,
      "completions/mean_length": 869.34375,
      "completions/mean_terminated_length": 869.34375,
      "completions/min_length": 474.0,
      "completions/min_terminated_length": 474.0,
      "entropy": 0.9005665220320225,
      "epoch": 0.023377727401530178,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.07421875,
      "learning_rate": 9.767639557948427e-07,
      "loss": 0.0325,
      "num_tokens": 5007248.0,
      "reward": 0.03125,
      "reward_std": 0.25,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 165,
      "step_time": 59.30504456534982
    },
    {
      "clip_ratio/high_max": 4.6607008698629215e-05,
      "clip_ratio/high_mean": 4.6607008698629215e-05,
      "clip_ratio/low_mean": 0.0002336401339562144,
      "clip_ratio/low_min": 0.0002336401339562144,
      "clip_ratio/region_mean": 0.00028024714265484363,
      "entropy": 0.9591588973999023,
      "epoch": 0.02351941059790309,
      "grad_norm": 0.40625,
      "learning_rate": 9.766222725984696e-07,
      "loss": -0.0212,
      "step": 166,
      "step_time": 3.6310967737808824
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1468.0,
      "completions/max_terminated_length": 1468.0,
      "completions/mean_length": 932.421875,
      "completions/mean_terminated_length": 932.421875,
      "completions/min_length": 574.0,
      "completions/min_terminated_length": 574.0,
      "entropy": 0.40141623094677925,
      "epoch": 0.023661093794276,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.38671875,
      "learning_rate": 9.764805894020968e-07,
      "loss": -0.0882,
      "num_tokens": 5075083.0,
      "reward": 0.2734375,
      "reward_std": 0.6896610856056213,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.0234375,
      "rewards/format_reward_func/std": 0.10652101784944534,
      "step": 167,
      "step_time": 51.33631335943937
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0003006573097081855,
      "clip_ratio/low_min": 0.0003006573097081855,
      "clip_ratio/region_mean": 0.0003006573097081855,
      "entropy": 0.5718030370771885,
      "epoch": 0.023802776990648908,
      "grad_norm": 0.15234375,
      "learning_rate": 9.76338906205724e-07,
      "loss": 0.0927,
      "step": 168,
      "step_time": 3.1109716882929206
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1237.0,
      "completions/max_terminated_length": 1237.0,
      "completions/mean_length": 666.296875,
      "completions/mean_terminated_length": 666.296875,
      "completions/min_length": 296.0,
      "completions/min_terminated_length": 296.0,
      "entropy": 0.8166339658200741,
      "epoch": 0.02394446018702182,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.375,
      "learning_rate": 9.76197223009351e-07,
      "loss": 0.0345,
      "num_tokens": 5127342.0,
      "reward": 0.328125,
      "reward_std": 0.7411849498748779,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 169,
      "step_time": 43.11804301291704
    },
    {
      "clip_ratio/high_max": 4.693954178947024e-05,
      "clip_ratio/high_mean": 4.693954178947024e-05,
      "clip_ratio/low_mean": 0.0002095596028084401,
      "clip_ratio/low_min": 0.0002095596028084401,
      "clip_ratio/region_mean": 0.00025649914459791034,
      "entropy": 0.8292286619544029,
      "epoch": 0.02408614338339473,
      "grad_norm": 0.4296875,
      "learning_rate": 9.760555398129782e-07,
      "loss": 0.0068,
      "step": 170,
      "step_time": 2.741860211826861
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1753.0,
      "completions/max_terminated_length": 1753.0,
      "completions/mean_length": 757.09375,
      "completions/mean_terminated_length": 757.09375,
      "completions/min_length": 404.0,
      "completions/min_terminated_length": 404.0,
      "entropy": 0.887640506029129,
      "epoch": 0.02422782657976764,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.443359375,
      "learning_rate": 9.759138566166052e-07,
      "loss": -0.0174,
      "num_tokens": 5186564.0,
      "reward": 0.1875,
      "reward_std": 0.5,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.0625,
      "rewards/format_reward_func/std": 0.1666666716337204,
      "step": 171,
      "step_time": 61.304098354652524
    },
    {
      "clip_ratio/high_max": 0.00016826439605210908,
      "clip_ratio/high_mean": 0.00016826439605210908,
      "clip_ratio/low_mean": 0.00023285014322027564,
      "clip_ratio/low_min": 0.00023285014322027564,
      "clip_ratio/region_mean": 0.0004011145356344059,
      "entropy": 0.7906529493629932,
      "epoch": 0.02436950977614055,
      "grad_norm": 0.53515625,
      "learning_rate": 9.757721734202323e-07,
      "loss": 0.0351,
      "step": 172,
      "step_time": 3.7775592328980565
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1292.0,
      "completions/max_terminated_length": 1292.0,
      "completions/mean_length": 839.078125,
      "completions/mean_terminated_length": 839.078125,
      "completions/min_length": 464.0,
      "completions/min_terminated_length": 464.0,
      "entropy": 1.0183998420834541,
      "epoch": 0.02451119297251346,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.40234375,
      "learning_rate": 9.756304902238595e-07,
      "loss": -0.075,
      "num_tokens": 5251369.0,
      "reward": 0.125,
      "reward_std": 0.4364357888698578,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.03125,
      "rewards/format_reward_func/std": 0.12198751419782639,
      "step": 173,
      "step_time": 44.66456365119666
    },
    {
      "clip_ratio/high_max": 3.4218450309708714e-05,
      "clip_ratio/high_mean": 3.4218450309708714e-05,
      "clip_ratio/low_mean": 0.00035504033803590573,
      "clip_ratio/low_min": 0.00035504033803590573,
      "clip_ratio/region_mean": 0.00038925878834561445,
      "entropy": 0.8660285323858261,
      "epoch": 0.02465287616888637,
      "grad_norm": 0.306640625,
      "learning_rate": 9.754888070274864e-07,
      "loss": 0.0693,
      "step": 174,
      "step_time": 2.9289328707382083
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2134.0,
      "completions/max_terminated_length": 2134.0,
      "completions/mean_length": 785.859375,
      "completions/mean_terminated_length": 785.859375,
      "completions/min_length": 460.0,
      "completions/min_terminated_length": 460.0,
      "entropy": 0.7315041050314903,
      "epoch": 0.024794559365259282,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.431640625,
      "learning_rate": 9.753471238311135e-07,
      "loss": -0.0245,
      "num_tokens": 5310688.0,
      "reward": 0.1796875,
      "reward_std": 0.44869464635849,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 175,
      "step_time": 74.99417246505618
    },
    {
      "clip_ratio/high_max": 0.00014752164133824408,
      "clip_ratio/high_mean": 0.00014752164133824408,
      "clip_ratio/low_mean": 0.0002549237688072026,
      "clip_ratio/low_min": 0.0002549237688072026,
      "clip_ratio/region_mean": 0.00040244541014544666,
      "entropy": 0.7271328046917915,
      "epoch": 0.02493624256163219,
      "grad_norm": 0.345703125,
      "learning_rate": 9.752054406347407e-07,
      "loss": 0.0655,
      "step": 176,
      "step_time": 4.375126246362925
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1391.0,
      "completions/max_terminated_length": 1391.0,
      "completions/mean_length": 800.484375,
      "completions/mean_terminated_length": 800.484375,
      "completions/min_length": 408.0,
      "completions/min_terminated_length": 408.0,
      "entropy": 0.8653533980250359,
      "epoch": 0.0250779257580051,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2578125,
      "learning_rate": 9.750637574383678e-07,
      "loss": 0.0066,
      "num_tokens": 5373471.0,
      "reward": 0.03125,
      "reward_std": 0.12198750674724579,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.03125,
      "rewards/format_reward_func/std": 0.12198751419782639,
      "step": 177,
      "step_time": 49.0164079349488
    },
    {
      "clip_ratio/high_max": 0.00011553467265912332,
      "clip_ratio/high_mean": 0.00011553467265912332,
      "clip_ratio/low_mean": 0.00011040521349059418,
      "clip_ratio/low_min": 0.00011040521349059418,
      "clip_ratio/region_mean": 0.0002259398861497175,
      "entropy": 0.8348737135529518,
      "epoch": 0.02521960895437801,
      "grad_norm": 0.263671875,
      "learning_rate": 9.74922074241995e-07,
      "loss": -0.0009,
      "step": 178,
      "step_time": 3.1000574119389057
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1289.0,
      "completions/max_terminated_length": 1289.0,
      "completions/mean_length": 704.734375,
      "completions/mean_terminated_length": 704.734375,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "entropy": 1.1341689079999924,
      "epoch": 0.02536129215075092,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1259765625,
      "learning_rate": 9.74780391045622e-07,
      "loss": 0.0557,
      "num_tokens": 5429838.0,
      "reward": 0.015625,
      "reward_std": 0.08768405020236969,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.015625,
      "rewards/format_reward_func/std": 0.08768405020236969,
      "step": 179,
      "step_time": 45.1509567303583
    },
    {
      "clip_ratio/high_max": 0.00022291573986876756,
      "clip_ratio/high_mean": 0.00022291573986876756,
      "clip_ratio/low_mean": 6.145526276668534e-05,
      "clip_ratio/low_min": 6.145526276668534e-05,
      "clip_ratio/region_mean": 0.0002843710026354529,
      "entropy": 1.0265962481498718,
      "epoch": 0.02550297534712383,
      "grad_norm": 0.494140625,
      "learning_rate": 9.74638707849249e-07,
      "loss": -0.0568,
      "step": 180,
      "step_time": 3.140420898795128
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1307.0,
      "completions/max_terminated_length": 1307.0,
      "completions/mean_length": 718.5625,
      "completions/mean_terminated_length": 718.5625,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "entropy": 0.8132206834852695,
      "epoch": 0.02564465854349674,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.306640625,
      "learning_rate": 9.74497024652876e-07,
      "loss": 0.0239,
      "num_tokens": 5486226.0,
      "reward": 0.078125,
      "reward_std": 0.18298126757144928,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 181,
      "step_time": 46.03176886588335
    },
    {
      "clip_ratio/high_max": 0.00032475499756401405,
      "clip_ratio/high_mean": 0.00032475499756401405,
      "clip_ratio/low_mean": 0.00012418456390150823,
      "clip_ratio/low_min": 0.00012418456390150823,
      "clip_ratio/region_mean": 0.00044893953963764943,
      "entropy": 0.8827540948987007,
      "epoch": 0.025786341739869652,
      "grad_norm": 0.345703125,
      "learning_rate": 9.743553414565032e-07,
      "loss": -0.0124,
      "step": 182,
      "step_time": 2.896172617562115
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1390.0,
      "completions/max_terminated_length": 1390.0,
      "completions/mean_length": 788.734375,
      "completions/mean_terminated_length": 788.734375,
      "completions/min_length": 8.0,
      "completions/min_terminated_length": 8.0,
      "entropy": 0.8874856978654861,
      "epoch": 0.02592802493624256,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.380859375,
      "learning_rate": 9.742136582601303e-07,
      "loss": 0.0461,
      "num_tokens": 5547697.0,
      "reward": 0.0625,
      "reward_std": 0.2745848298072815,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.03125,
      "rewards/format_reward_func/std": 0.12198751419782639,
      "step": 183,
      "step_time": 49.28771858010441
    },
    {
      "clip_ratio/high_max": 0.0001495203687227331,
      "clip_ratio/high_mean": 0.0001495203687227331,
      "clip_ratio/low_mean": 0.0005287337589834351,
      "clip_ratio/low_min": 0.0005287337589834351,
      "clip_ratio/region_mean": 0.0006782541204302106,
      "entropy": 0.9002668187022209,
      "epoch": 0.02606970813261547,
      "grad_norm": 0.42578125,
      "learning_rate": 9.740719750637574e-07,
      "loss": -0.0531,
      "step": 184,
      "step_time": 3.0930726192891598
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1506.0,
      "completions/max_terminated_length": 1506.0,
      "completions/mean_length": 783.796875,
      "completions/mean_terminated_length": 783.796875,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "entropy": 0.6907748803496361,
      "epoch": 0.026211391328988382,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.48828125,
      "learning_rate": 9.739302918673846e-07,
      "loss": -0.0384,
      "num_tokens": 5609876.0,
      "reward": 0.1640625,
      "reward_std": 0.38888004422187805,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 185,
      "step_time": 54.89418900758028
    },
    {
      "clip_ratio/high_max": 9.832088471739553e-05,
      "clip_ratio/high_mean": 9.832088471739553e-05,
      "clip_ratio/low_mean": 0.0005672865736414678,
      "clip_ratio/low_min": 0.0005672865736414678,
      "clip_ratio/region_mean": 0.0006656074547208846,
      "entropy": 0.7675365805625916,
      "epoch": 0.026353074525361293,
      "grad_norm": 0.4921875,
      "learning_rate": 9.737886086710115e-07,
      "loss": 0.0414,
      "step": 186,
      "step_time": 3.3022201620042324
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1386.0,
      "completions/max_terminated_length": 1386.0,
      "completions/mean_length": 810.546875,
      "completions/mean_terminated_length": 810.546875,
      "completions/min_length": 335.0,
      "completions/min_terminated_length": 335.0,
      "entropy": 0.657419852912426,
      "epoch": 0.0264947577217342,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1806640625,
      "learning_rate": 9.736469254746387e-07,
      "loss": -0.003,
      "num_tokens": 5676375.0,
      "reward": 0.203125,
      "reward_std": 0.6154024600982666,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 187,
      "step_time": 49.214009393937886
    },
    {
      "clip_ratio/high_max": 3.666764314402826e-05,
      "clip_ratio/high_mean": 3.666764314402826e-05,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 3.666764314402826e-05,
      "entropy": 0.5150278955698013,
      "epoch": 0.026636440918107112,
      "grad_norm": 0.2001953125,
      "learning_rate": 9.735052422782658e-07,
      "loss": 0.0108,
      "step": 188,
      "step_time": 3.3028412805870175
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2096.0,
      "completions/max_terminated_length": 2096.0,
      "completions/mean_length": 883.859375,
      "completions/mean_terminated_length": 883.859375,
      "completions/min_length": 490.0,
      "completions/min_terminated_length": 490.0,
      "entropy": 0.5466561913490295,
      "epoch": 0.026778124114480023,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.427734375,
      "learning_rate": 9.733635590818928e-07,
      "loss": -0.0232,
      "num_tokens": 5741438.0,
      "reward": 0.2265625,
      "reward_std": 0.5033986568450928,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 189,
      "step_time": 74.69841435365379
    },
    {
      "clip_ratio/high_max": 0.0003480092127574608,
      "clip_ratio/high_mean": 0.0003480092127574608,
      "clip_ratio/low_mean": 0.0001651566599321086,
      "clip_ratio/low_min": 0.0001651566599321086,
      "clip_ratio/region_mean": 0.0005131658726895694,
      "entropy": 0.6351626589894295,
      "epoch": 0.026919807310852934,
      "grad_norm": 0.26953125,
      "learning_rate": 9.7322187588552e-07,
      "loss": 0.003,
      "step": 190,
      "step_time": 4.115765800699592
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1514.0,
      "completions/max_terminated_length": 1514.0,
      "completions/mean_length": 712.765625,
      "completions/mean_terminated_length": 712.765625,
      "completions/min_length": 317.0,
      "completions/min_terminated_length": 317.0,
      "entropy": 0.6537791043519974,
      "epoch": 0.02706149050722584,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.64453125,
      "learning_rate": 9.73080192689147e-07,
      "loss": -0.1669,
      "num_tokens": 5797199.0,
      "reward": 0.15625,
      "reward_std": 0.4443204402923584,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0625,
      "rewards/format_reward_func/std": 0.1666666716337204,
      "step": 191,
      "step_time": 52.44985192082822
    },
    {
      "clip_ratio/high_max": 7.86163509474136e-05,
      "clip_ratio/high_mean": 7.86163509474136e-05,
      "clip_ratio/low_mean": 0.0008965836386778392,
      "clip_ratio/low_min": 0.0008965836386778392,
      "clip_ratio/region_mean": 0.0009751999823492952,
      "entropy": 0.7881455421447754,
      "epoch": 0.027203173703598753,
      "grad_norm": 0.34375,
      "learning_rate": 9.729385094927742e-07,
      "loss": 0.1153,
      "step": 192,
      "step_time": 3.2537075765430927
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1092.0,
      "completions/max_terminated_length": 1092.0,
      "completions/mean_length": 761.921875,
      "completions/mean_terminated_length": 761.921875,
      "completions/min_length": 425.0,
      "completions/min_terminated_length": 425.0,
      "entropy": 0.9981671944260597,
      "epoch": 0.027344856899971664,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.388671875,
      "learning_rate": 9.727968262964013e-07,
      "loss": 0.0186,
      "num_tokens": 5856746.0,
      "reward": 0.078125,
      "reward_std": 0.2847827076911926,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.046875,
      "rewards/format_reward_func/std": 0.14689241349697113,
      "step": 193,
      "step_time": 38.157774630934
    },
    {
      "clip_ratio/high_max": 8.931662159739062e-05,
      "clip_ratio/high_mean": 8.931662159739062e-05,
      "clip_ratio/low_mean": 0.0002874839410651475,
      "clip_ratio/low_min": 0.0002874839410651475,
      "clip_ratio/region_mean": 0.00037680056266253814,
      "entropy": 0.9338872134685516,
      "epoch": 0.027486540096344575,
      "grad_norm": 0.453125,
      "learning_rate": 9.726551431000283e-07,
      "loss": -0.0249,
      "step": 194,
      "step_time": 2.5887096878141165
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 922.0,
      "completions/max_terminated_length": 922.0,
      "completions/mean_length": 596.96875,
      "completions/mean_terminated_length": 596.96875,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "entropy": 1.0016753450036049,
      "epoch": 0.027628223292717483,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.73828125,
      "learning_rate": 9.725134599036554e-07,
      "loss": -0.0528,
      "num_tokens": 5902904.0,
      "reward": 0.359375,
      "reward_std": 0.704119086265564,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 195,
      "step_time": 31.829556439071894
    },
    {
      "clip_ratio/high_max": 0.00045381715608527884,
      "clip_ratio/high_mean": 0.00045381715608527884,
      "clip_ratio/low_mean": 0.000425532809458673,
      "clip_ratio/low_min": 0.000425532809458673,
      "clip_ratio/region_mean": 0.0008793499691819306,
      "entropy": 0.9877234697341919,
      "epoch": 0.027769906489090394,
      "grad_norm": 0.341796875,
      "learning_rate": 9.723717767072824e-07,
      "loss": 0.0453,
      "step": 196,
      "step_time": 2.1931115547195077
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1082.0,
      "completions/max_terminated_length": 1082.0,
      "completions/mean_length": 753.515625,
      "completions/mean_terminated_length": 753.515625,
      "completions/min_length": 329.0,
      "completions/min_terminated_length": 329.0,
      "entropy": 0.6840866878628731,
      "epoch": 0.027911589685463305,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.3203125,
      "learning_rate": 9.722300935109095e-07,
      "loss": 0.0437,
      "num_tokens": 5961449.0,
      "reward": 0.078125,
      "reward_std": 0.2847827076911926,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.046875,
      "rewards/format_reward_func/std": 0.14689241349697113,
      "step": 197,
      "step_time": 37.54962991736829
    },
    {
      "clip_ratio/high_max": 0.00011454660852905363,
      "clip_ratio/high_mean": 0.00011454660852905363,
      "clip_ratio/low_mean": 3.86877145501785e-05,
      "clip_ratio/low_min": 3.86877145501785e-05,
      "clip_ratio/region_mean": 0.00015323432307923213,
      "entropy": 0.6640054546296597,
      "epoch": 0.028053272881836216,
      "grad_norm": 0.462890625,
      "learning_rate": 9.720884103145367e-07,
      "loss": -0.0256,
      "step": 198,
      "step_time": 2.789111392572522
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1235.0,
      "completions/max_terminated_length": 1235.0,
      "completions/mean_length": 775.890625,
      "completions/mean_terminated_length": 775.890625,
      "completions/min_length": 392.0,
      "completions/min_terminated_length": 392.0,
      "entropy": 0.8059160634875298,
      "epoch": 0.028194956078209123,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.478515625,
      "learning_rate": 9.719467271181638e-07,
      "loss": -0.0153,
      "num_tokens": 6021538.0,
      "reward": 0.1328125,
      "reward_std": 0.3117053508758545,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 199,
      "step_time": 43.31228555366397
    },
    {
      "clip_ratio/high_max": 0.00029582266142824665,
      "clip_ratio/high_mean": 0.00029582266142824665,
      "clip_ratio/low_mean": 0.00012542978947749361,
      "clip_ratio/low_min": 0.00012542978947749361,
      "clip_ratio/region_mean": 0.00042125244362978265,
      "entropy": 0.7487839013338089,
      "epoch": 0.028336639274582034,
      "grad_norm": 0.259765625,
      "learning_rate": 9.71805043921791e-07,
      "loss": 0.0193,
      "step": 200,
      "step_time": 2.789559696801007
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1228.0,
      "completions/max_terminated_length": 1228.0,
      "completions/mean_length": 824.359375,
      "completions/mean_terminated_length": 824.359375,
      "completions/min_length": 426.0,
      "completions/min_terminated_length": 426.0,
      "entropy": 0.7749152146279812,
      "epoch": 0.028478322470954946,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.37890625,
      "learning_rate": 9.716633607254179e-07,
      "loss": 0.0627,
      "num_tokens": 6093081.0,
      "reward": 0.2265625,
      "reward_std": 0.5486613512039185,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.0703125,
      "rewards/format_reward_func/std": 0.1751912236213684,
      "step": 201,
      "step_time": 45.72573537938297
    },
    {
      "clip_ratio/high_max": 0.0002848037074727472,
      "clip_ratio/high_mean": 0.0002848037074727472,
      "clip_ratio/low_mean": 0.0005775219251518138,
      "clip_ratio/low_min": 0.0005775219251518138,
      "clip_ratio/region_mean": 0.0008623256289865822,
      "entropy": 0.7992341592907906,
      "epoch": 0.028620005667327857,
      "grad_norm": 0.458984375,
      "learning_rate": 9.71521677529045e-07,
      "loss": -0.0637,
      "step": 202,
      "step_time": 3.758686674758792
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1989.0,
      "completions/max_terminated_length": 1989.0,
      "completions/mean_length": 741.609375,
      "completions/mean_terminated_length": 741.609375,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "entropy": 0.5767493918538094,
      "epoch": 0.028761688863700764,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.27734375,
      "learning_rate": 9.713799943326722e-07,
      "loss": -0.0297,
      "num_tokens": 6149136.0,
      "reward": 0.0546875,
      "reward_std": 0.15728822350502014,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0546875,
      "rewards/format_reward_func/std": 0.15728822350502014,
      "step": 203,
      "step_time": 70.03844081424177
    },
    {
      "clip_ratio/high_max": 5.058680835645646e-05,
      "clip_ratio/high_mean": 5.058680835645646e-05,
      "clip_ratio/low_mean": 3.535068026394583e-05,
      "clip_ratio/low_min": 3.535068026394583e-05,
      "clip_ratio/region_mean": 8.593748862040229e-05,
      "entropy": 0.6554089821875095,
      "epoch": 0.028903372060073675,
      "grad_norm": 0.2275390625,
      "learning_rate": 9.712383111362991e-07,
      "loss": 0.0526,
      "step": 204,
      "step_time": 3.903997522778809
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2764.0,
      "completions/max_terminated_length": 2764.0,
      "completions/mean_length": 722.09375,
      "completions/mean_terminated_length": 722.09375,
      "completions/min_length": 395.0,
      "completions/min_terminated_length": 395.0,
      "entropy": 0.8074956387281418,
      "epoch": 0.029045055256446586,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2216796875,
      "learning_rate": 9.710966279399263e-07,
      "loss": -0.0038,
      "num_tokens": 6203910.0,
      "reward": 0.0859375,
      "reward_std": 0.19012710452079773,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 205,
      "step_time": 100.43659769184887
    },
    {
      "clip_ratio/high_max": 0.00013515701357391663,
      "clip_ratio/high_mean": 0.00013515701357391663,
      "clip_ratio/low_mean": 4.960317528457381e-05,
      "clip_ratio/low_min": 4.960317528457381e-05,
      "clip_ratio/region_mean": 0.00018476018885849044,
      "entropy": 0.853396050632,
      "epoch": 0.029186738452819494,
      "grad_norm": 0.291015625,
      "learning_rate": 9.709549447435534e-07,
      "loss": 0.0035,
      "step": 206,
      "step_time": 5.285399347543716
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1698.0,
      "completions/mean_length": 945.671875,
      "completions/mean_terminated_length": 895.666748046875,
      "completions/min_length": 306.0,
      "completions/min_terminated_length": 306.0,
      "entropy": 1.0297249257564545,
      "epoch": 0.029328421649192405,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2119140625,
      "learning_rate": 9.708132615471806e-07,
      "loss": 0.0302,
      "num_tokens": 6274561.0,
      "reward": 0.078125,
      "reward_std": 0.18298126757144928,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 207,
      "step_time": 166.94931545387954
    },
    {
      "clip_ratio/high_max": 0.00036770823498954996,
      "clip_ratio/high_mean": 0.00036770823498954996,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00036770823498954996,
      "entropy": 0.8936427384614944,
      "epoch": 0.029470104845565316,
      "grad_norm": 0.2314453125,
      "learning_rate": 9.706715783508077e-07,
      "loss": -0.0268,
      "step": 208,
      "step_time": 7.14924468845129
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1022.0,
      "completions/max_terminated_length": 1022.0,
      "completions/mean_length": 649.21875,
      "completions/mean_terminated_length": 649.21875,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "entropy": 1.0106488466262817,
      "epoch": 0.029611788041938227,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.51953125,
      "learning_rate": 9.705298951544346e-07,
      "loss": -0.004,
      "num_tokens": 6326207.0,
      "reward": 0.1796875,
      "reward_std": 0.49894481897354126,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.0546875,
      "rewards/format_reward_func/std": 0.15728822350502014,
      "step": 209,
      "step_time": 35.92485457099974
    },
    {
      "clip_ratio/high_max": 0.00018408827963867225,
      "clip_ratio/high_mean": 0.00018408827963867225,
      "clip_ratio/low_mean": 0.0001429341900802683,
      "clip_ratio/low_min": 0.0001429341900802683,
      "clip_ratio/region_mean": 0.00032702246971894056,
      "entropy": 0.9702321067452431,
      "epoch": 0.029753471238311135,
      "grad_norm": 0.337890625,
      "learning_rate": 9.703882119580618e-07,
      "loss": 0.0492,
      "step": 210,
      "step_time": 2.4516335520893335
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1470.0,
      "completions/max_terminated_length": 1470.0,
      "completions/mean_length": 758.921875,
      "completions/mean_terminated_length": 758.921875,
      "completions/min_length": 321.0,
      "completions/min_terminated_length": 321.0,
      "entropy": 0.8368242084980011,
      "epoch": 0.029895154434684046,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.46484375,
      "learning_rate": 9.702465287616887e-07,
      "loss": -0.0506,
      "num_tokens": 6384762.0,
      "reward": 0.15625,
      "reward_std": 0.49501484632492065,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.03125,
      "rewards/format_reward_func/std": 0.12198751419782639,
      "step": 211,
      "step_time": 51.45973416324705
    },
    {
      "clip_ratio/high_max": 0.00011490872930153273,
      "clip_ratio/high_mean": 0.00011490872930153273,
      "clip_ratio/low_mean": 0.0005393553328758571,
      "clip_ratio/low_min": 0.0005393553328758571,
      "clip_ratio/region_mean": 0.0006542640694533475,
      "entropy": 0.8433268740773201,
      "epoch": 0.030036837631056957,
      "grad_norm": 0.322265625,
      "learning_rate": 9.701048455653159e-07,
      "loss": 0.0513,
      "step": 212,
      "step_time": 3.131221923045814
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1343.0,
      "completions/max_terminated_length": 1343.0,
      "completions/mean_length": 808.171875,
      "completions/mean_terminated_length": 808.171875,
      "completions/min_length": 325.0,
      "completions/min_terminated_length": 325.0,
      "entropy": 0.6783341206610203,
      "epoch": 0.030178520827429868,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.212890625,
      "learning_rate": 9.69963162368943e-07,
      "loss": -0.005,
      "num_tokens": 6447861.0,
      "reward": 0.25,
      "reward_std": 0.6299408078193665,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 213,
      "step_time": 47.11668230779469
    },
    {
      "clip_ratio/high_max": 6.722236867062747e-05,
      "clip_ratio/high_mean": 6.722236867062747e-05,
      "clip_ratio/low_mean": 0.00018452997755957767,
      "clip_ratio/low_min": 0.00018452997755957767,
      "clip_ratio/region_mean": 0.00025175235350616276,
      "entropy": 0.6194174401462078,
      "epoch": 0.030320204023802776,
      "grad_norm": 0.48828125,
      "learning_rate": 9.698214791725702e-07,
      "loss": -0.0218,
      "step": 214,
      "step_time": 3.06475221645087
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1343.0,
      "completions/max_terminated_length": 1343.0,
      "completions/mean_length": 822.765625,
      "completions/mean_terminated_length": 822.765625,
      "completions/min_length": 334.0,
      "completions/min_terminated_length": 334.0,
      "entropy": 0.8548392280936241,
      "epoch": 0.030461887220175687,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.263671875,
      "learning_rate": 9.696797959761973e-07,
      "loss": 0.0129,
      "num_tokens": 6511222.0,
      "reward": 0.109375,
      "reward_std": 0.301698237657547,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 215,
      "step_time": 47.29512169584632
    },
    {
      "clip_ratio/high_max": 0.00018710472431848757,
      "clip_ratio/high_mean": 0.00018710472431848757,
      "clip_ratio/low_mean": 0.0003137713938485831,
      "clip_ratio/low_min": 0.0003137713938485831,
      "clip_ratio/region_mean": 0.0005008761254430283,
      "entropy": 0.8620852082967758,
      "epoch": 0.030603570416548598,
      "grad_norm": 0.423828125,
      "learning_rate": 9.695381127798242e-07,
      "loss": -0.0321,
      "step": 216,
      "step_time": 2.995577952824533
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1443.0,
      "completions/max_terminated_length": 1443.0,
      "completions/mean_length": 764.296875,
      "completions/mean_terminated_length": 764.296875,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "entropy": 0.7622205466032028,
      "epoch": 0.03074525361292151,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.375,
      "learning_rate": 9.693964295834514e-07,
      "loss": -0.0233,
      "num_tokens": 6573113.0,
      "reward": 0.171875,
      "reward_std": 0.3905505836009979,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 217,
      "step_time": 51.29000047314912
    },
    {
      "clip_ratio/high_max": 0.0002263701826450415,
      "clip_ratio/high_mean": 0.0002263701826450415,
      "clip_ratio/low_mean": 0.00018810292385751382,
      "clip_ratio/low_min": 0.00018810292385751382,
      "clip_ratio/region_mean": 0.00041447311741649173,
      "entropy": 0.9641707763075829,
      "epoch": 0.030886936809294416,
      "grad_norm": 0.466796875,
      "learning_rate": 9.692547463870785e-07,
      "loss": 0.0305,
      "step": 218,
      "step_time": 3.1740356432273984
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1351.0,
      "completions/max_terminated_length": 1351.0,
      "completions/mean_length": 624.0,
      "completions/mean_terminated_length": 624.0,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "entropy": 0.9106130972504616,
      "epoch": 0.031028620005667328,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.453125,
      "learning_rate": 9.691130631907055e-07,
      "loss": 0.0301,
      "num_tokens": 6622665.0,
      "reward": 0.3359375,
      "reward_std": 0.6729152798652649,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 219,
      "step_time": 46.8734971517697
    },
    {
      "clip_ratio/high_max": 9.99200638034381e-05,
      "clip_ratio/high_mean": 9.99200638034381e-05,
      "clip_ratio/low_mean": 0.00021389602261479013,
      "clip_ratio/low_min": 0.00021389602261479013,
      "clip_ratio/region_mean": 0.0003138160864182282,
      "entropy": 1.0280117616057396,
      "epoch": 0.03117030320204024,
      "grad_norm": 0.427734375,
      "learning_rate": 9.689713799943326e-07,
      "loss": -0.0456,
      "step": 220,
      "step_time": 3.181183318607509
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1316.0,
      "completions/max_terminated_length": 1316.0,
      "completions/mean_length": 802.171875,
      "completions/mean_terminated_length": 802.171875,
      "completions/min_length": 281.0,
      "completions/min_terminated_length": 281.0,
      "entropy": 0.5781332924962044,
      "epoch": 0.03131198639841315,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.134765625,
      "learning_rate": 9.688296967979598e-07,
      "loss": 0.0488,
      "num_tokens": 6686916.0,
      "reward": 0.09375,
      "reward_std": 0.40703144669532776,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.03125,
      "rewards/format_reward_func/std": 0.12198751419782639,
      "step": 221,
      "step_time": 45.6975187221542
    },
    {
      "clip_ratio/high_max": 0.0001253096925211139,
      "clip_ratio/high_mean": 0.0001253096925211139,
      "clip_ratio/low_mean": 0.00019484712174744345,
      "clip_ratio/low_min": 0.00019484712174744345,
      "clip_ratio/region_mean": 0.00032015681426855735,
      "entropy": 0.6254494562745094,
      "epoch": 0.03145366959478606,
      "grad_norm": 0.384765625,
      "learning_rate": 9.68688013601587e-07,
      "loss": -0.0479,
      "step": 222,
      "step_time": 2.9608422527089715
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1516.0,
      "completions/max_terminated_length": 1516.0,
      "completions/mean_length": 738.71875,
      "completions/mean_terminated_length": 738.71875,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "entropy": 1.0498996376991272,
      "epoch": 0.03159535279115897,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.283203125,
      "learning_rate": 9.685463304052138e-07,
      "loss": -0.0339,
      "num_tokens": 6744642.0,
      "reward": 0.25,
      "reward_std": 0.6546536684036255,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 223,
      "step_time": 52.6811229204759
    },
    {
      "clip_ratio/high_max": 4.4547399738803506e-05,
      "clip_ratio/high_mean": 4.4547399738803506e-05,
      "clip_ratio/low_mean": 0.00026663204698706977,
      "clip_ratio/low_min": 0.00026663204698706977,
      "clip_ratio/region_mean": 0.0003111794467258733,
      "entropy": 0.9724035486578941,
      "epoch": 0.03173703598753188,
      "grad_norm": 0.2578125,
      "learning_rate": 9.68404647208841e-07,
      "loss": 0.043,
      "step": 224,
      "step_time": 3.5163809498772025
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1737.0,
      "completions/max_terminated_length": 1737.0,
      "completions/mean_length": 769.09375,
      "completions/mean_terminated_length": 769.09375,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "entropy": 0.920122429728508,
      "epoch": 0.03187871918390479,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5859375,
      "learning_rate": 9.682629640124681e-07,
      "loss": -0.0066,
      "num_tokens": 6809048.0,
      "reward": 0.296875,
      "reward_std": 0.6281666159629822,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 225,
      "step_time": 62.0527981352061
    },
    {
      "clip_ratio/high_max": 0.00020779422811756376,
      "clip_ratio/high_mean": 0.00020779422811756376,
      "clip_ratio/low_mean": 0.00028096307869418524,
      "clip_ratio/low_min": 0.00028096307869418524,
      "clip_ratio/region_mean": 0.000488757306811749,
      "entropy": 0.7720186039805412,
      "epoch": 0.0320204023802777,
      "grad_norm": 0.314453125,
      "learning_rate": 9.68121280816095e-07,
      "loss": 0.0149,
      "step": 226,
      "step_time": 3.8336978973820806
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1490.0,
      "completions/max_terminated_length": 1490.0,
      "completions/mean_length": 712.96875,
      "completions/mean_terminated_length": 712.96875,
      "completions/min_length": 370.0,
      "completions/min_terminated_length": 370.0,
      "entropy": 0.5923300124704838,
      "epoch": 0.03216208557665061,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.578125,
      "learning_rate": 9.679795976197222e-07,
      "loss": -0.0723,
      "num_tokens": 6865558.0,
      "reward": 0.2734375,
      "reward_std": 0.5904644727706909,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 227,
      "step_time": 52.153993317857385
    },
    {
      "clip_ratio/high_max": 0.0002682595368241891,
      "clip_ratio/high_mean": 0.0002682595368241891,
      "clip_ratio/low_mean": 0.0007678122710785829,
      "clip_ratio/low_min": 0.0007678122710785829,
      "clip_ratio/region_mean": 0.001036071807902772,
      "entropy": 0.5571937672793865,
      "epoch": 0.03230376877302352,
      "grad_norm": 0.41015625,
      "learning_rate": 9.678379144233494e-07,
      "loss": 0.0645,
      "step": 228,
      "step_time": 3.422250410541892
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1504.0,
      "completions/max_terminated_length": 1504.0,
      "completions/mean_length": 716.109375,
      "completions/mean_terminated_length": 716.109375,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "entropy": 0.7207453735172749,
      "epoch": 0.03244545196939643,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.326171875,
      "learning_rate": 9.676962312269765e-07,
      "loss": 0.0634,
      "num_tokens": 6921533.0,
      "reward": 0.7265625,
      "reward_std": 0.9038264751434326,
      "rewards/accuracy_reward_func/mean": 0.625,
      "rewards/accuracy_reward_func/std": 0.934353232383728,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 229,
      "step_time": 52.16461122967303
    },
    {
      "clip_ratio/high_max": 0.0007321804114326369,
      "clip_ratio/high_mean": 0.0007321804114326369,
      "clip_ratio/low_mean": 9.322906043962575e-05,
      "clip_ratio/low_min": 9.322906043962575e-05,
      "clip_ratio/region_mean": 0.0008254094755102415,
      "entropy": 0.7485867105424404,
      "epoch": 0.03258713516576934,
      "grad_norm": 0.49609375,
      "learning_rate": 9.675545480306034e-07,
      "loss": -0.011,
      "step": 230,
      "step_time": 3.210402843542397
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1313.0,
      "completions/max_terminated_length": 1313.0,
      "completions/mean_length": 669.546875,
      "completions/mean_terminated_length": 669.546875,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "entropy": 0.7498415634036064,
      "epoch": 0.03272881836214225,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.44921875,
      "learning_rate": 9.674128648342306e-07,
      "loss": -0.0002,
      "num_tokens": 6972784.0,
      "reward": 0.5078125,
      "reward_std": 0.8613950610160828,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 231,
      "step_time": 45.28193629719317
    },
    {
      "clip_ratio/high_max": 0.00025862529219011776,
      "clip_ratio/high_mean": 0.00025862529219011776,
      "clip_ratio/low_mean": 0.0009326095096184872,
      "clip_ratio/low_min": 0.0009326095096184872,
      "clip_ratio/region_mean": 0.0011912347908946685,
      "entropy": 0.7945344373583794,
      "epoch": 0.03287050155851516,
      "grad_norm": 0.51953125,
      "learning_rate": 9.672711816378577e-07,
      "loss": -0.0104,
      "step": 232,
      "step_time": 2.851562018506229
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1191.0,
      "completions/max_terminated_length": 1191.0,
      "completions/mean_length": 713.890625,
      "completions/mean_terminated_length": 713.890625,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "entropy": 0.9340665265917778,
      "epoch": 0.03301218475488807,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.244140625,
      "learning_rate": 9.671294984414849e-07,
      "loss": 0.0382,
      "num_tokens": 7029497.0,
      "reward": 0.1484375,
      "reward_std": 0.3850344121456146,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 233,
      "step_time": 41.74119807500392
    },
    {
      "clip_ratio/high_max": 0.00025455604554736055,
      "clip_ratio/high_mean": 0.00025455604554736055,
      "clip_ratio/low_mean": 0.0003094087151112035,
      "clip_ratio/low_min": 0.0003094087151112035,
      "clip_ratio/region_mean": 0.0005639647497446276,
      "entropy": 0.6770561374723911,
      "epoch": 0.03315386795126098,
      "grad_norm": 0.67578125,
      "learning_rate": 9.669878152451118e-07,
      "loss": -0.0076,
      "step": 234,
      "step_time": 2.781756415963173
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1014.0,
      "completions/max_terminated_length": 1014.0,
      "completions/mean_length": 602.21875,
      "completions/mean_terminated_length": 602.21875,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "entropy": 0.9500442370772362,
      "epoch": 0.03329555114763389,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.25390625,
      "learning_rate": 9.66846132048739e-07,
      "loss": 0.0907,
      "num_tokens": 7078423.0,
      "reward": 0.1796875,
      "reward_std": 0.4827762544155121,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 235,
      "step_time": 35.04767714627087
    },
    {
      "clip_ratio/high_max": 0.00020425633556442335,
      "clip_ratio/high_mean": 0.00020425633556442335,
      "clip_ratio/low_mean": 0.0006293092701525893,
      "clip_ratio/low_min": 0.0006293092701525893,
      "clip_ratio/region_mean": 0.0008335656202689279,
      "entropy": 0.8508454412221909,
      "epoch": 0.0334372343440068,
      "grad_norm": 0.7734375,
      "learning_rate": 9.667044488523661e-07,
      "loss": -0.0946,
      "step": 236,
      "step_time": 2.416323053650558
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1287.0,
      "completions/max_terminated_length": 1287.0,
      "completions/mean_length": 795.828125,
      "completions/mean_terminated_length": 795.828125,
      "completions/min_length": 459.0,
      "completions/min_terminated_length": 459.0,
      "entropy": 0.9615257307887077,
      "epoch": 0.03357891754037971,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 9.66562765655993e-07,
      "loss": 0.0,
      "num_tokens": 7142780.0,
      "reward": 0.0,
      "reward_std": 0.0,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0,
      "rewards/format_reward_func/std": 0.0,
      "step": 237,
      "step_time": 45.42372677195817
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 1.2802649661898613,
      "epoch": 0.03372060073675262,
      "grad_norm": 0.0,
      "learning_rate": 9.664210824596202e-07,
      "loss": 0.0,
      "step": 238,
      "step_time": 2.9973045252263546
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1751.0,
      "completions/max_terminated_length": 1751.0,
      "completions/mean_length": 681.40625,
      "completions/mean_terminated_length": 681.40625,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "entropy": 0.7053481489419937,
      "epoch": 0.03386228393312553,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.431640625,
      "learning_rate": 9.662793992632473e-07,
      "loss": 0.0052,
      "num_tokens": 7195014.0,
      "reward": 0.4765625,
      "reward_std": 0.9488074779510498,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 239,
      "step_time": 60.93501534871757
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 4.22582816099748e-05,
      "clip_ratio/low_min": 4.22582816099748e-05,
      "clip_ratio/region_mean": 4.22582816099748e-05,
      "entropy": 0.8958373218774796,
      "epoch": 0.03400396712949844,
      "grad_norm": 0.26171875,
      "learning_rate": 9.661377160668745e-07,
      "loss": 0.0206,
      "step": 240,
      "step_time": 3.4687507916241884
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1926.0,
      "completions/max_terminated_length": 1926.0,
      "completions/mean_length": 958.078125,
      "completions/mean_terminated_length": 958.078125,
      "completions/min_length": 452.0,
      "completions/min_terminated_length": 452.0,
      "entropy": 0.8433688916265965,
      "epoch": 0.03414565032587135,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.458984375,
      "learning_rate": 9.659960328705014e-07,
      "loss": -0.0065,
      "num_tokens": 7269995.0,
      "reward": 0.0859375,
      "reward_std": 0.36247265338897705,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.0234375,
      "rewards/format_reward_func/std": 0.10652101784944534,
      "step": 241,
      "step_time": 68.94637685175985
    },
    {
      "clip_ratio/high_max": 6.185056554386392e-05,
      "clip_ratio/high_mean": 6.185056554386392e-05,
      "clip_ratio/low_mean": 0.0002484675296727801,
      "clip_ratio/low_min": 0.0002484675296727801,
      "clip_ratio/region_mean": 0.000310318095216644,
      "entropy": 0.9854261018335819,
      "epoch": 0.034287333522244265,
      "grad_norm": 0.4296875,
      "learning_rate": 9.658543496741286e-07,
      "loss": 0.0388,
      "step": 242,
      "step_time": 4.055233266204596
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1101.0,
      "completions/max_terminated_length": 1101.0,
      "completions/mean_length": 649.84375,
      "completions/mean_terminated_length": 649.84375,
      "completions/min_length": 291.0,
      "completions/min_terminated_length": 291.0,
      "entropy": 0.968839205801487,
      "epoch": 0.03442901671861717,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.47265625,
      "learning_rate": 9.657126664777557e-07,
      "loss": 0.064,
      "num_tokens": 7320129.0,
      "reward": 0.5,
      "reward_std": 0.8451542854309082,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 243,
      "step_time": 37.28515767585486
    },
    {
      "clip_ratio/high_max": 0.0004934065364068374,
      "clip_ratio/high_mean": 0.0004934065364068374,
      "clip_ratio/low_mean": 0.0006062822212697938,
      "clip_ratio/low_min": 0.0006062822212697938,
      "clip_ratio/region_mean": 0.0010996887722285464,
      "entropy": 0.6403013207018375,
      "epoch": 0.03457069991499008,
      "grad_norm": 0.56640625,
      "learning_rate": 9.655709832813827e-07,
      "loss": -0.0783,
      "step": 244,
      "step_time": 2.4789359346032143
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2063.0,
      "completions/max_terminated_length": 2063.0,
      "completions/mean_length": 693.625,
      "completions/mean_terminated_length": 693.625,
      "completions/min_length": 282.0,
      "completions/min_terminated_length": 282.0,
      "entropy": 0.7292741201817989,
      "epoch": 0.034712383111362995,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.416015625,
      "learning_rate": 9.654293000850098e-07,
      "loss": -0.0535,
      "num_tokens": 7372729.0,
      "reward": 0.2109375,
      "reward_std": 0.4525473415851593,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 245,
      "step_time": 71.24455240089446
    },
    {
      "clip_ratio/high_max": 0.0002818106731865555,
      "clip_ratio/high_mean": 0.0002818106731865555,
      "clip_ratio/low_mean": 0.0006129726643848699,
      "clip_ratio/low_min": 0.0006129726643848699,
      "clip_ratio/region_mean": 0.000894783344847383,
      "entropy": 0.6744465306401253,
      "epoch": 0.0348540663077359,
      "grad_norm": 0.380859375,
      "learning_rate": 9.65287616888637e-07,
      "loss": 0.0496,
      "step": 246,
      "step_time": 4.169315035454929
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1916.0,
      "completions/max_terminated_length": 1916.0,
      "completions/mean_length": 650.3125,
      "completions/mean_terminated_length": 650.3125,
      "completions/min_length": 309.0,
      "completions/min_terminated_length": 309.0,
      "entropy": 0.9907689541578293,
      "epoch": 0.03499574950410881,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.6328125,
      "learning_rate": 9.65145933692264e-07,
      "loss": -0.0456,
      "num_tokens": 7423437.0,
      "reward": 0.1484375,
      "reward_std": 0.47709178924560547,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0546875,
      "rewards/format_reward_func/std": 0.15728822350502014,
      "step": 247,
      "step_time": 65.97737925685942
    },
    {
      "clip_ratio/high_max": 0.00025956902754842304,
      "clip_ratio/high_mean": 0.00025956902754842304,
      "clip_ratio/low_mean": 0.00026599991906550713,
      "clip_ratio/low_min": 0.00026599991906550713,
      "clip_ratio/region_mean": 0.0005255689466139302,
      "entropy": 0.989630363881588,
      "epoch": 0.035137432700481724,
      "grad_norm": 0.359375,
      "learning_rate": 9.650042504958912e-07,
      "loss": 0.0296,
      "step": 248,
      "step_time": 3.8018467081710696
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1552.0,
      "completions/max_terminated_length": 1552.0,
      "completions/mean_length": 827.484375,
      "completions/mean_terminated_length": 827.484375,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "entropy": 0.6994422525167465,
      "epoch": 0.03527911589685463,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.45703125,
      "learning_rate": 9.648625672995182e-07,
      "loss": -0.0653,
      "num_tokens": 7487420.0,
      "reward": 0.3515625,
      "reward_std": 0.7164711356163025,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.0703125,
      "rewards/format_reward_func/std": 0.1751912236213684,
      "step": 249,
      "step_time": 53.58265995979309
    },
    {
      "clip_ratio/high_max": 0.00043654668115777895,
      "clip_ratio/high_mean": 0.00043654668115777895,
      "clip_ratio/low_mean": 8.887308649718761e-05,
      "clip_ratio/low_min": 8.887308649718761e-05,
      "clip_ratio/region_mean": 0.0005254197676549666,
      "entropy": 0.728610385209322,
      "epoch": 0.03542079909322755,
      "grad_norm": 0.3125,
      "learning_rate": 9.647208841031453e-07,
      "loss": 0.044,
      "step": 250,
      "step_time": 3.5202986039221287
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1123.0,
      "completions/max_terminated_length": 1123.0,
      "completions/mean_length": 694.484375,
      "completions/mean_terminated_length": 694.484375,
      "completions/min_length": 380.0,
      "completions/min_terminated_length": 380.0,
      "entropy": 1.2033883035182953,
      "epoch": 0.035562482289600454,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.326171875,
      "learning_rate": 9.645792009067723e-07,
      "loss": -0.0922,
      "num_tokens": 7540827.0,
      "reward": 0.3203125,
      "reward_std": 0.6259417533874512,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 251,
      "step_time": 37.97488162573427
    },
    {
      "clip_ratio/high_max": 0.00027152955590281636,
      "clip_ratio/high_mean": 0.00027152955590281636,
      "clip_ratio/low_mean": 4.960317528457381e-05,
      "clip_ratio/low_min": 4.960317528457381e-05,
      "clip_ratio/region_mean": 0.00032113273118739016,
      "entropy": 1.0172693133354187,
      "epoch": 0.03570416548597336,
      "grad_norm": 0.55078125,
      "learning_rate": 9.644375177103994e-07,
      "loss": 0.0907,
      "step": 252,
      "step_time": 2.537772424519062
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1652.0,
      "completions/max_terminated_length": 1652.0,
      "completions/mean_length": 846.46875,
      "completions/mean_terminated_length": 846.46875,
      "completions/min_length": 322.0,
      "completions/min_terminated_length": 322.0,
      "entropy": 0.4943252466619015,
      "epoch": 0.035845848682346276,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.412109375,
      "learning_rate": 9.642958345140266e-07,
      "loss": -0.0108,
      "num_tokens": 7610041.0,
      "reward": 0.2578125,
      "reward_std": 0.7014281749725342,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.0390625,
      "rewards/format_reward_func/std": 0.13524486124515533,
      "step": 253,
      "step_time": 57.15535808634013
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00047172672930173576,
      "clip_ratio/low_min": 0.00047172672930173576,
      "clip_ratio/region_mean": 0.00047172672930173576,
      "entropy": 0.8010497018694878,
      "epoch": 0.035987531878719184,
      "grad_norm": 0.158203125,
      "learning_rate": 9.641541513176537e-07,
      "loss": 0.0196,
      "step": 254,
      "step_time": 3.775947794318199
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1259.0,
      "completions/max_terminated_length": 1259.0,
      "completions/mean_length": 757.703125,
      "completions/mean_terminated_length": 757.703125,
      "completions/min_length": 364.0,
      "completions/min_terminated_length": 364.0,
      "entropy": 1.0024773254990578,
      "epoch": 0.03612921507509209,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.234375,
      "learning_rate": 9.640124681212808e-07,
      "loss": 0.0282,
      "num_tokens": 7668374.0,
      "reward": 0.0625,
      "reward_std": 0.1666666716337204,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0625,
      "rewards/format_reward_func/std": 0.1666666716337204,
      "step": 255,
      "step_time": 42.36222599167377
    },
    {
      "clip_ratio/high_max": 0.00011556051322259009,
      "clip_ratio/high_mean": 0.00011556051322259009,
      "clip_ratio/low_mean": 7.884705337346531e-05,
      "clip_ratio/low_min": 7.884705337346531e-05,
      "clip_ratio/region_mean": 0.0001944075665960554,
      "entropy": 0.8938212394714355,
      "epoch": 0.036270898271465006,
      "grad_norm": 0.26953125,
      "learning_rate": 9.638707849249078e-07,
      "loss": -0.023,
      "step": 256,
      "step_time": 2.829118055291474
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1627.0,
      "completions/max_terminated_length": 1627.0,
      "completions/mean_length": 816.75,
      "completions/mean_terminated_length": 816.75,
      "completions/min_length": 287.0,
      "completions/min_terminated_length": 287.0,
      "entropy": 0.6490708962082863,
      "epoch": 0.036412581467837914,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.427734375,
      "learning_rate": 9.63729101728535e-07,
      "loss": -0.0112,
      "num_tokens": 7729782.0,
      "reward": 0.2890625,
      "reward_std": 0.6287092566490173,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.0703125,
      "rewards/format_reward_func/std": 0.1751912236213684,
      "step": 257,
      "step_time": 54.730051051825285
    },
    {
      "clip_ratio/high_max": 0.0003842373043880798,
      "clip_ratio/high_mean": 0.0003842373043880798,
      "clip_ratio/low_mean": 0.0002105585990648251,
      "clip_ratio/low_min": 0.0002105585990648251,
      "clip_ratio/region_mean": 0.0005947959216427989,
      "entropy": 0.657197393476963,
      "epoch": 0.03655426466421082,
      "grad_norm": 0.421875,
      "learning_rate": 9.63587418532162e-07,
      "loss": 0.0385,
      "step": 258,
      "step_time": 3.3768442142754793
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1008.0,
      "completions/max_terminated_length": 1008.0,
      "completions/mean_length": 609.59375,
      "completions/mean_terminated_length": 609.59375,
      "completions/min_length": 10.0,
      "completions/min_terminated_length": 10.0,
      "entropy": 1.205168478190899,
      "epoch": 0.036695947860583736,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.6015625,
      "learning_rate": 9.63445735335789e-07,
      "loss": -0.048,
      "num_tokens": 7782780.0,
      "reward": 0.140625,
      "reward_std": 0.4222835898399353,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 259,
      "step_time": 34.131013416685164
    },
    {
      "clip_ratio/high_max": 4.646840170607902e-05,
      "clip_ratio/high_mean": 4.646840170607902e-05,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 4.646840170607902e-05,
      "entropy": 1.194790244102478,
      "epoch": 0.03683763105695664,
      "grad_norm": 0.19140625,
      "learning_rate": 9.633040521394162e-07,
      "loss": 0.0445,
      "step": 260,
      "step_time": 2.479433435946703
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1578.0,
      "completions/max_terminated_length": 1578.0,
      "completions/mean_length": 853.5625,
      "completions/mean_terminated_length": 853.5625,
      "completions/min_length": 433.0,
      "completions/min_terminated_length": 433.0,
      "entropy": 0.7189029864966869,
      "epoch": 0.03697931425332956,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.421875,
      "learning_rate": 9.631623689430433e-07,
      "loss": -0.03,
      "num_tokens": 7850224.0,
      "reward": 0.0859375,
      "reward_std": 0.28942590951919556,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0546875,
      "rewards/format_reward_func/std": 0.15728822350502014,
      "step": 261,
      "step_time": 53.17363387905061
    },
    {
      "clip_ratio/high_max": 0.00012011531362077221,
      "clip_ratio/high_mean": 0.00012011531362077221,
      "clip_ratio/low_mean": 0.00016716642130631953,
      "clip_ratio/low_min": 0.00016716642130631953,
      "clip_ratio/region_mean": 0.00028728173492709175,
      "entropy": 0.6375401057302952,
      "epoch": 0.037120997449702466,
      "grad_norm": 0.26953125,
      "learning_rate": 9.630206857466704e-07,
      "loss": 0.0591,
      "step": 262,
      "step_time": 3.384236761368811
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1534.0,
      "completions/max_terminated_length": 1534.0,
      "completions/mean_length": 887.75,
      "completions/mean_terminated_length": 887.75,
      "completions/min_length": 254.0,
      "completions/min_terminated_length": 254.0,
      "entropy": 0.610191073268652,
      "epoch": 0.03726268064607537,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.26171875,
      "learning_rate": 9.628790025502976e-07,
      "loss": -0.0353,
      "num_tokens": 7919232.0,
      "reward": 0.203125,
      "reward_std": 0.501733124256134,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 263,
      "step_time": 52.14061675500125
    },
    {
      "clip_ratio/high_max": 0.0002180756491725333,
      "clip_ratio/high_mean": 0.0002180756491725333,
      "clip_ratio/low_mean": 0.00027343121655576397,
      "clip_ratio/low_min": 0.00027343121655576397,
      "clip_ratio/region_mean": 0.0004915068657282973,
      "entropy": 0.4973239339888096,
      "epoch": 0.03740436384244829,
      "grad_norm": 0.40234375,
      "learning_rate": 9.627373193539245e-07,
      "loss": 0.0532,
      "step": 264,
      "step_time": 3.3619278175756335
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1554.0,
      "completions/max_terminated_length": 1554.0,
      "completions/mean_length": 835.234375,
      "completions/mean_terminated_length": 835.234375,
      "completions/min_length": 427.0,
      "completions/min_terminated_length": 427.0,
      "entropy": 0.5318294018507004,
      "epoch": 0.037546047038821195,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.62109375,
      "learning_rate": 9.625956361575517e-07,
      "loss": -0.0855,
      "num_tokens": 7982543.0,
      "reward": 0.25,
      "reward_std": 0.6172134280204773,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.0625,
      "rewards/format_reward_func/std": 0.1666666716337204,
      "step": 265,
      "step_time": 51.99500739760697
    },
    {
      "clip_ratio/high_max": 0.0002068276698992122,
      "clip_ratio/high_mean": 0.0002068276698992122,
      "clip_ratio/low_mean": 0.0002547598378441762,
      "clip_ratio/low_min": 0.0002547598378441762,
      "clip_ratio/region_mean": 0.0004615875077433884,
      "entropy": 0.43947071582078934,
      "epoch": 0.0376877302351941,
      "grad_norm": 0.39453125,
      "learning_rate": 9.624539529611786e-07,
      "loss": 0.0676,
      "step": 266,
      "step_time": 3.3535419944673777
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1235.0,
      "completions/max_terminated_length": 1235.0,
      "completions/mean_length": 702.703125,
      "completions/mean_terminated_length": 702.703125,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "entropy": 0.867984376847744,
      "epoch": 0.03782941343156702,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.5703125,
      "learning_rate": 9.623122697648058e-07,
      "loss": 0.0695,
      "num_tokens": 8038636.0,
      "reward": 0.5546875,
      "reward_std": 0.8550373315811157,
      "rewards/accuracy_reward_func/mean": 0.5,
      "rewards/accuracy_reward_func/std": 0.8728715777397156,
      "rewards/format_reward_func/mean": 0.0546875,
      "rewards/format_reward_func/std": 0.15728822350502014,
      "step": 267,
      "step_time": 41.42205525469035
    },
    {
      "clip_ratio/high_max": 0.0004627374328265432,
      "clip_ratio/high_mean": 0.0004627374328265432,
      "clip_ratio/low_mean": 0.0006011232435412239,
      "clip_ratio/low_min": 0.0006011232435412239,
      "clip_ratio/region_mean": 0.0010638606763677672,
      "entropy": 0.9279435649514198,
      "epoch": 0.037971096627939925,
      "grad_norm": 0.65234375,
      "learning_rate": 9.62170586568433e-07,
      "loss": -0.089,
      "step": 268,
      "step_time": 2.830137323588133
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1807.0,
      "completions/max_terminated_length": 1807.0,
      "completions/mean_length": 964.765625,
      "completions/mean_terminated_length": 964.765625,
      "completions/min_length": 404.0,
      "completions/min_terminated_length": 404.0,
      "entropy": 0.5435771942138672,
      "epoch": 0.03811277982431284,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.353515625,
      "learning_rate": 9.6202890337206e-07,
      "loss": -0.0333,
      "num_tokens": 8110765.0,
      "reward": 0.3203125,
      "reward_std": 0.731204628944397,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.0703125,
      "rewards/format_reward_func/std": 0.1751912236213684,
      "step": 269,
      "step_time": 61.49889697693288
    },
    {
      "clip_ratio/high_max": 9.157315798802301e-05,
      "clip_ratio/high_mean": 9.157315798802301e-05,
      "clip_ratio/low_mean": 0.00016857880837051198,
      "clip_ratio/low_min": 0.00016857880837051198,
      "clip_ratio/region_mean": 0.000260151966358535,
      "entropy": 0.5594037547707558,
      "epoch": 0.03825446302068575,
      "grad_norm": 0.2001953125,
      "learning_rate": 9.618872201756872e-07,
      "loss": 0.0682,
      "step": 270,
      "step_time": 3.776868644170463
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2011.0,
      "completions/max_terminated_length": 2011.0,
      "completions/mean_length": 885.5,
      "completions/mean_terminated_length": 885.5,
      "completions/min_length": 465.0,
      "completions/min_terminated_length": 465.0,
      "entropy": 0.644432719796896,
      "epoch": 0.038396146217058655,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2373046875,
      "learning_rate": 9.617455369793143e-07,
      "loss": -0.0573,
      "num_tokens": 8177709.0,
      "reward": 0.078125,
      "reward_std": 0.18298126757144928,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 271,
      "step_time": 67.93264623638242
    },
    {
      "clip_ratio/high_max": 0.00021317421487765387,
      "clip_ratio/high_mean": 0.00021317421487765387,
      "clip_ratio/low_mean": 4.006410381407477e-05,
      "clip_ratio/low_min": 4.006410381407477e-05,
      "clip_ratio/region_mean": 0.00025323831869172864,
      "entropy": 0.7053611874580383,
      "epoch": 0.03853782941343157,
      "grad_norm": 0.259765625,
      "learning_rate": 9.616038537829413e-07,
      "loss": 0.0509,
      "step": 272,
      "step_time": 4.15907137375325
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1231.0,
      "completions/max_terminated_length": 1231.0,
      "completions/mean_length": 695.296875,
      "completions/mean_terminated_length": 695.296875,
      "completions/min_length": 295.0,
      "completions/min_terminated_length": 295.0,
      "entropy": 0.5408344157040119,
      "epoch": 0.03867951260980448,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.416015625,
      "learning_rate": 9.614621705865684e-07,
      "loss": 0.019,
      "num_tokens": 8231840.0,
      "reward": 0.234375,
      "reward_std": 0.5037065148353577,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 273,
      "step_time": 41.128784554079175
    },
    {
      "clip_ratio/high_max": 0.00021944741456536576,
      "clip_ratio/high_mean": 0.00021944741456536576,
      "clip_ratio/low_mean": 0.00027543929900275543,
      "clip_ratio/low_min": 0.00027543929900275543,
      "clip_ratio/region_mean": 0.0004948867062921636,
      "entropy": 0.6867847852408886,
      "epoch": 0.038821195806177385,
      "grad_norm": 0.6484375,
      "learning_rate": 9.613204873901954e-07,
      "loss": -0.0072,
      "step": 274,
      "step_time": 2.747220255434513
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1434.0,
      "completions/max_terminated_length": 1434.0,
      "completions/mean_length": 884.828125,
      "completions/mean_terminated_length": 884.828125,
      "completions/min_length": 72.0,
      "completions/min_terminated_length": 72.0,
      "entropy": 0.6184250004589558,
      "epoch": 0.0389628790025503,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.4140625,
      "learning_rate": 9.611788041938225e-07,
      "loss": -0.0156,
      "num_tokens": 8301989.0,
      "reward": 0.21875,
      "reward_std": 0.502967357635498,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 275,
      "step_time": 48.07678737398237
    },
    {
      "clip_ratio/high_max": 0.00011867776265717112,
      "clip_ratio/high_mean": 0.00011867776265717112,
      "clip_ratio/low_mean": 0.00035827044848701917,
      "clip_ratio/low_min": 0.00035827044848701917,
      "clip_ratio/region_mean": 0.0004769482111441903,
      "entropy": 0.5865093283355236,
      "epoch": 0.03910456219892321,
      "grad_norm": 0.328125,
      "learning_rate": 9.610371209974497e-07,
      "loss": 0.0283,
      "step": 276,
      "step_time": 3.3813568064942956
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1202.0,
      "completions/max_terminated_length": 1202.0,
      "completions/mean_length": 769.828125,
      "completions/mean_terminated_length": 769.828125,
      "completions/min_length": 395.0,
      "completions/min_terminated_length": 395.0,
      "entropy": 0.9812381118535995,
      "epoch": 0.03924624539529612,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.26953125,
      "learning_rate": 9.608954378010768e-07,
      "loss": -0.012,
      "num_tokens": 8362890.0,
      "reward": 0.1015625,
      "reward_std": 0.34709322452545166,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0703125,
      "rewards/format_reward_func/std": 0.1751912236213684,
      "step": 277,
      "step_time": 41.34787184372544
    },
    {
      "clip_ratio/high_max": 0.00015768154480610974,
      "clip_ratio/high_mean": 0.00015768154480610974,
      "clip_ratio/low_mean": 0.000111259454570245,
      "clip_ratio/low_min": 0.000111259454570245,
      "clip_ratio/region_mean": 0.00026894099937635474,
      "entropy": 1.1171831116080284,
      "epoch": 0.03938792859166903,
      "grad_norm": 0.09619140625,
      "learning_rate": 9.60753754604704e-07,
      "loss": 0.0187,
      "step": 278,
      "step_time": 2.75867513474077
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1816.0,
      "completions/max_terminated_length": 1816.0,
      "completions/mean_length": 719.28125,
      "completions/mean_terminated_length": 719.28125,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "entropy": 0.8520184978842735,
      "epoch": 0.039529611788041936,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.7421875,
      "learning_rate": 9.606120714083309e-07,
      "loss": -0.1027,
      "num_tokens": 8417804.0,
      "reward": 0.1875,
      "reward_std": 0.44986769556999207,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 279,
      "step_time": 64.18869688082486
    },
    {
      "clip_ratio/high_max": 0.00015517832798650488,
      "clip_ratio/high_mean": 0.00015517832798650488,
      "clip_ratio/low_mean": 0.0006633504599449225,
      "clip_ratio/low_min": 0.0006633504599449225,
      "clip_ratio/region_mean": 0.0008185287879314274,
      "entropy": 0.8986836224794388,
      "epoch": 0.03967129498441485,
      "grad_norm": 0.357421875,
      "learning_rate": 9.60470388211958e-07,
      "loss": 0.078,
      "step": 280,
      "step_time": 3.761954260058701
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 978.0,
      "completions/max_terminated_length": 978.0,
      "completions/mean_length": 519.4375,
      "completions/mean_terminated_length": 519.4375,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "entropy": 0.7649832926690578,
      "epoch": 0.03981297818078776,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.10595703125,
      "learning_rate": 9.603287050155852e-07,
      "loss": -0.0257,
      "num_tokens": 8462104.0,
      "reward": 0.1171875,
      "reward_std": 0.21347814798355103,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 281,
      "step_time": 32.83808421250433
    },
    {
      "clip_ratio/high_max": 0.0004275673345546238,
      "clip_ratio/high_mean": 0.0004275673345546238,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0004275673345546238,
      "entropy": 0.8263396993279457,
      "epoch": 0.039954661377160666,
      "grad_norm": 0.515625,
      "learning_rate": 9.601870218192121e-07,
      "loss": 0.0179,
      "step": 282,
      "step_time": 2.3180926628410816
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1215.0,
      "completions/max_terminated_length": 1215.0,
      "completions/mean_length": 749.390625,
      "completions/mean_terminated_length": 749.390625,
      "completions/min_length": 425.0,
      "completions/min_terminated_length": 425.0,
      "entropy": 0.631230391561985,
      "epoch": 0.04009634457353358,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.4453125,
      "learning_rate": 9.600453386228393e-07,
      "loss": 0.0176,
      "num_tokens": 8518273.0,
      "reward": 0.46875,
      "reward_std": 0.8539125919342041,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 283,
      "step_time": 40.18945860117674
    },
    {
      "clip_ratio/high_max": 0.00030220774715417065,
      "clip_ratio/high_mean": 0.00030220774715417065,
      "clip_ratio/low_mean": 0.00022376774722943082,
      "clip_ratio/low_min": 0.00022376774722943082,
      "clip_ratio/region_mean": 0.0005259754943836015,
      "entropy": 0.7575941011309624,
      "epoch": 0.04023802776990649,
      "grad_norm": 0.46875,
      "learning_rate": 9.599036554264664e-07,
      "loss": -0.0177,
      "step": 284,
      "step_time": 2.9473222251981497
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1347.0,
      "completions/max_terminated_length": 1347.0,
      "completions/mean_length": 646.078125,
      "completions/mean_terminated_length": 646.078125,
      "completions/min_length": 236.0,
      "completions/min_terminated_length": 236.0,
      "entropy": 0.9406921714544296,
      "epoch": 0.040379710966279396,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.4140625,
      "learning_rate": 9.597619722300936e-07,
      "loss": -0.0061,
      "num_tokens": 8568390.0,
      "reward": 0.3046875,
      "reward_std": 0.6762242913246155,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 285,
      "step_time": 44.685346465557814
    },
    {
      "clip_ratio/high_max": 0.00015953518595779315,
      "clip_ratio/high_mean": 0.00015953518595779315,
      "clip_ratio/low_mean": 0.00023908557704999112,
      "clip_ratio/low_min": 0.00023908557704999112,
      "clip_ratio/region_mean": 0.00039862076300778426,
      "entropy": 0.8586818277835846,
      "epoch": 0.04052139416265231,
      "grad_norm": 0.57421875,
      "learning_rate": 9.596202890337207e-07,
      "loss": -0.0083,
      "step": 286,
      "step_time": 2.9169654166325927
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 999.0,
      "completions/max_terminated_length": 999.0,
      "completions/mean_length": 561.875,
      "completions/mean_terminated_length": 561.875,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "entropy": 0.6572189629077911,
      "epoch": 0.04066307735902522,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.87890625,
      "learning_rate": 9.594786058373476e-07,
      "loss": -0.0735,
      "num_tokens": 8611758.0,
      "reward": 0.2421875,
      "reward_std": 0.503891110420227,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 287,
      "step_time": 33.02512104064226
    },
    {
      "clip_ratio/high_max": 0.00038417838004534133,
      "clip_ratio/high_mean": 0.00038417838004534133,
      "clip_ratio/low_mean": 0.0005786665642517619,
      "clip_ratio/low_min": 0.0005786665642517619,
      "clip_ratio/region_mean": 0.0009628449333831668,
      "entropy": 0.7867256850004196,
      "epoch": 0.04080476055539813,
      "grad_norm": 0.349609375,
      "learning_rate": 9.593369226409748e-07,
      "loss": 0.0346,
      "step": 288,
      "step_time": 2.2932896502316
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1227.0,
      "completions/max_terminated_length": 1227.0,
      "completions/mean_length": 633.609375,
      "completions/mean_terminated_length": 633.609375,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "entropy": 0.763616606593132,
      "epoch": 0.04094644375177104,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.60546875,
      "learning_rate": 9.591952394446017e-07,
      "loss": -0.0485,
      "num_tokens": 8677365.0,
      "reward": 0.4140625,
      "reward_std": 0.7157784700393677,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 289,
      "step_time": 46.702135713770986
    },
    {
      "clip_ratio/high_max": 0.0004384977219160646,
      "clip_ratio/high_mean": 0.0004384977219160646,
      "clip_ratio/low_mean": 8.355615136679262e-05,
      "clip_ratio/low_min": 8.355615136679262e-05,
      "clip_ratio/region_mean": 0.0005220538732828572,
      "entropy": 0.7091578021645546,
      "epoch": 0.04108812694814395,
      "grad_norm": 0.54296875,
      "learning_rate": 9.590535562482289e-07,
      "loss": 0.0377,
      "step": 290,
      "step_time": 3.985054275020957
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1182.0,
      "completions/max_terminated_length": 1182.0,
      "completions/mean_length": 797.203125,
      "completions/mean_terminated_length": 797.203125,
      "completions/min_length": 354.0,
      "completions/min_terminated_length": 354.0,
      "entropy": 0.7822772189974785,
      "epoch": 0.04122981014451686,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.412109375,
      "learning_rate": 9.58911873051856e-07,
      "loss": -0.017,
      "num_tokens": 8739362.0,
      "reward": 0.15625,
      "reward_std": 0.3870421051979065,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 291,
      "step_time": 38.71988167613745
    },
    {
      "clip_ratio/high_max": 0.00015813329991942737,
      "clip_ratio/high_mean": 0.00015813329991942737,
      "clip_ratio/low_mean": 0.00016522846635780297,
      "clip_ratio/low_min": 0.00016522846635780297,
      "clip_ratio/region_mean": 0.00032336176627723034,
      "entropy": 0.6390486136078835,
      "epoch": 0.04137149334088977,
      "grad_norm": 0.283203125,
      "learning_rate": 9.587701898554832e-07,
      "loss": -0.007,
      "step": 292,
      "step_time": 2.7404023930430412
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1295.0,
      "completions/max_terminated_length": 1295.0,
      "completions/mean_length": 696.265625,
      "completions/mean_terminated_length": 696.265625,
      "completions/min_length": 405.0,
      "completions/min_terminated_length": 405.0,
      "entropy": 0.966756209731102,
      "epoch": 0.04151317653726268,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.455078125,
      "learning_rate": 9.586285066591103e-07,
      "loss": 0.0436,
      "num_tokens": 8793667.0,
      "reward": 0.296875,
      "reward_std": 0.5890451669692993,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 293,
      "step_time": 42.807588221505284
    },
    {
      "clip_ratio/high_max": 0.0003585910344554577,
      "clip_ratio/high_mean": 0.0003585910344554577,
      "clip_ratio/low_mean": 0.0003877009803545661,
      "clip_ratio/low_min": 0.0003877009803545661,
      "clip_ratio/region_mean": 0.0007462920038960874,
      "entropy": 0.8779987245798111,
      "epoch": 0.04165485973363559,
      "grad_norm": 0.578125,
      "learning_rate": 9.584868234627372e-07,
      "loss": -0.0549,
      "step": 294,
      "step_time": 2.835623280145228
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 948.0,
      "completions/max_terminated_length": 948.0,
      "completions/mean_length": 577.6875,
      "completions/mean_terminated_length": 577.6875,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "entropy": 1.2148677334189415,
      "epoch": 0.0417965429300085,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.8828125,
      "learning_rate": 9.583451402663644e-07,
      "loss": -0.0748,
      "num_tokens": 8839663.0,
      "reward": 0.1953125,
      "reward_std": 0.45090022683143616,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 295,
      "step_time": 30.754735291935503
    },
    {
      "clip_ratio/high_max": 0.00030806455833953805,
      "clip_ratio/high_mean": 0.00030806455833953805,
      "clip_ratio/low_mean": 0.0001666204261709936,
      "clip_ratio/low_min": 0.0001666204261709936,
      "clip_ratio/region_mean": 0.00047468498451053165,
      "entropy": 0.9929471462965012,
      "epoch": 0.041938226126381414,
      "grad_norm": 0.416015625,
      "learning_rate": 9.582034570699915e-07,
      "loss": 0.0587,
      "step": 296,
      "step_time": 2.241655613295734
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1458.0,
      "completions/max_terminated_length": 1458.0,
      "completions/mean_length": 877.640625,
      "completions/mean_terminated_length": 877.640625,
      "completions/min_length": 434.0,
      "completions/min_terminated_length": 434.0,
      "entropy": 0.6129471994936466,
      "epoch": 0.04207990932275432,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.470703125,
      "learning_rate": 9.580617738736185e-07,
      "loss": -0.0941,
      "num_tokens": 8906632.0,
      "reward": 0.234375,
      "reward_std": 0.6170124411582947,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.046875,
      "rewards/format_reward_func/std": 0.14689241349697113,
      "step": 297,
      "step_time": 47.65605590771884
    },
    {
      "clip_ratio/high_max": 0.00010428253881400451,
      "clip_ratio/high_mean": 0.00010428253881400451,
      "clip_ratio/low_mean": 0.0005312439643603284,
      "clip_ratio/low_min": 0.0005312439643603284,
      "clip_ratio/region_mean": 0.0006355264958983753,
      "entropy": 0.4700494669377804,
      "epoch": 0.04222159251912723,
      "grad_norm": 0.353515625,
      "learning_rate": 9.579200906772456e-07,
      "loss": 0.0877,
      "step": 298,
      "step_time": 3.410362981259823
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1414.0,
      "completions/max_terminated_length": 1414.0,
      "completions/mean_length": 774.421875,
      "completions/mean_terminated_length": 774.421875,
      "completions/min_length": 348.0,
      "completions/min_terminated_length": 348.0,
      "entropy": 0.8657044768333435,
      "epoch": 0.042363275715500144,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.3984375,
      "learning_rate": 9.577784074808728e-07,
      "loss": 0.046,
      "num_tokens": 8965875.0,
      "reward": 0.1171875,
      "reward_std": 0.21347814798355103,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 299,
      "step_time": 46.025969944894314
    },
    {
      "clip_ratio/high_max": 0.0004524535106611438,
      "clip_ratio/high_mean": 0.0004524535106611438,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0004524535106611438,
      "entropy": 0.8484672904014587,
      "epoch": 0.04250495891187305,
      "grad_norm": 0.07421875,
      "learning_rate": 9.576367242845e-07,
      "loss": -0.0389,
      "step": 300,
      "step_time": 3.0182720720767975
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1430.0,
      "completions/max_terminated_length": 1430.0,
      "completions/mean_length": 789.359375,
      "completions/mean_terminated_length": 789.359375,
      "completions/min_length": 364.0,
      "completions/min_terminated_length": 364.0,
      "entropy": 0.6254195794463158,
      "epoch": 0.04264664210824596,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.365234375,
      "learning_rate": 9.57495041088127e-07,
      "loss": -0.0426,
      "num_tokens": 9025338.0,
      "reward": 0.0703125,
      "reward_std": 0.27984103560447693,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0390625,
      "rewards/format_reward_func/std": 0.13524486124515533,
      "step": 301,
      "step_time": 46.70805387105793
    },
    {
      "clip_ratio/high_max": 3.4935717849293724e-05,
      "clip_ratio/high_mean": 3.4935717849293724e-05,
      "clip_ratio/low_mean": 0.0004793276821146719,
      "clip_ratio/low_min": 0.0004793276821146719,
      "clip_ratio/region_mean": 0.0005142633999639656,
      "entropy": 0.7543375007808208,
      "epoch": 0.042788325304618874,
      "grad_norm": 0.357421875,
      "learning_rate": 9.57353357891754e-07,
      "loss": 0.0617,
      "step": 302,
      "step_time": 3.2125489972531796
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1072.0,
      "completions/max_terminated_length": 1072.0,
      "completions/mean_length": 597.609375,
      "completions/mean_terminated_length": 597.609375,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "entropy": 0.8593860268592834,
      "epoch": 0.04293000850099178,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.46875,
      "learning_rate": 9.572116746953811e-07,
      "loss": -0.0621,
      "num_tokens": 9072225.0,
      "reward": 0.7421875,
      "reward_std": 1.0118041038513184,
      "rewards/accuracy_reward_func/mean": 0.625,
      "rewards/accuracy_reward_func/std": 0.934353232383728,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 303,
      "step_time": 34.75165389943868
    },
    {
      "clip_ratio/high_max": 0.00027066695110988803,
      "clip_ratio/high_mean": 0.00027066695110988803,
      "clip_ratio/low_mean": 0.0007681990064156707,
      "clip_ratio/low_min": 0.0007681990064156707,
      "clip_ratio/region_mean": 0.0010388659575255588,
      "entropy": 0.6990540772676468,
      "epoch": 0.043071691697364696,
      "grad_norm": 0.52734375,
      "learning_rate": 9.57069991499008e-07,
      "loss": 0.1096,
      "step": 304,
      "step_time": 2.4585911110043526
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1432.0,
      "completions/max_terminated_length": 1432.0,
      "completions/mean_length": 894.828125,
      "completions/mean_terminated_length": 894.828125,
      "completions/min_length": 510.0,
      "completions/min_terminated_length": 510.0,
      "entropy": 0.6936016380786896,
      "epoch": 0.043213374893737604,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.416015625,
      "learning_rate": 9.569283083026352e-07,
      "loss": 0.0298,
      "num_tokens": 9139414.0,
      "reward": 0.2734375,
      "reward_std": 0.6037560105323792,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 305,
      "step_time": 46.66514802351594
    },
    {
      "clip_ratio/high_max": 3.306003782199696e-05,
      "clip_ratio/high_mean": 3.306003782199696e-05,
      "clip_ratio/low_mean": 0.00025031216864590533,
      "clip_ratio/low_min": 0.00025031216864590533,
      "clip_ratio/region_mean": 0.0002833722064679023,
      "entropy": 0.7329876124858856,
      "epoch": 0.04335505809011051,
      "grad_norm": 0.40234375,
      "learning_rate": 9.567866251062624e-07,
      "loss": -0.0055,
      "step": 306,
      "step_time": 3.2979623191058636
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1240.0,
      "completions/max_terminated_length": 1240.0,
      "completions/mean_length": 677.4375,
      "completions/mean_terminated_length": 677.4375,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "entropy": 1.0621422082185745,
      "epoch": 0.043496741286483426,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.09228515625,
      "learning_rate": 9.566449419098895e-07,
      "loss": 0.0243,
      "num_tokens": 9192674.0,
      "reward": 0.1328125,
      "reward_std": 0.3590351641178131,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 307,
      "step_time": 40.96272075455636
    },
    {
      "clip_ratio/high_max": 6.169793050503358e-05,
      "clip_ratio/high_mean": 6.169793050503358e-05,
      "clip_ratio/low_mean": 0.00028301688143983483,
      "clip_ratio/low_min": 0.00028301688143983483,
      "clip_ratio/region_mean": 0.0003447148119448684,
      "entropy": 1.0502741783857346,
      "epoch": 0.04363842448285633,
      "grad_norm": 0.298828125,
      "learning_rate": 9.565032587135167e-07,
      "loss": -0.0104,
      "step": 308,
      "step_time": 2.7588311368599534
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1893.0,
      "completions/max_terminated_length": 1893.0,
      "completions/mean_length": 829.078125,
      "completions/mean_terminated_length": 829.078125,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "entropy": 0.6999607421457767,
      "epoch": 0.04378010767922924,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.50390625,
      "learning_rate": 9.563615755171436e-07,
      "loss": -0.0317,
      "num_tokens": 9258615.0,
      "reward": 0.2421875,
      "reward_std": 0.5344644784927368,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 309,
      "step_time": 63.39697819855064
    },
    {
      "clip_ratio/high_max": 7.464914961019531e-05,
      "clip_ratio/high_mean": 7.464914961019531e-05,
      "clip_ratio/low_mean": 0.0010644918074831367,
      "clip_ratio/low_min": 0.0010644918074831367,
      "clip_ratio/region_mean": 0.001139140957093332,
      "entropy": 0.8491989448666573,
      "epoch": 0.043921790875602156,
      "grad_norm": 0.515625,
      "learning_rate": 9.562198923207707e-07,
      "loss": 0.0482,
      "step": 310,
      "step_time": 4.039267764426768
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1503.0,
      "completions/max_terminated_length": 1503.0,
      "completions/mean_length": 829.890625,
      "completions/mean_terminated_length": 829.890625,
      "completions/min_length": 313.0,
      "completions/min_terminated_length": 313.0,
      "entropy": 0.6343555077910423,
      "epoch": 0.04406347407197506,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.296875,
      "learning_rate": 9.560782091243979e-07,
      "loss": 0.0223,
      "num_tokens": 9321872.0,
      "reward": 0.109375,
      "reward_std": 0.37234508991241455,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.046875,
      "rewards/format_reward_func/std": 0.14689241349697113,
      "step": 311,
      "step_time": 49.44894368574023
    },
    {
      "clip_ratio/high_max": 0.00013595640120911412,
      "clip_ratio/high_mean": 0.00013595640120911412,
      "clip_ratio/low_mean": 0.00018782896586344577,
      "clip_ratio/low_min": 0.00018782896586344577,
      "clip_ratio/region_mean": 0.0003237853670725599,
      "entropy": 0.6162265166640282,
      "epoch": 0.04420515726834797,
      "grad_norm": 0.390625,
      "learning_rate": 9.559365259280248e-07,
      "loss": -0.0074,
      "step": 312,
      "step_time": 3.247624823823571
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2036.0,
      "completions/max_terminated_length": 2036.0,
      "completions/mean_length": 742.25,
      "completions/mean_terminated_length": 742.25,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "entropy": 0.6220619902014732,
      "epoch": 0.044346840464720885,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.40234375,
      "learning_rate": 9.55794842731652e-07,
      "loss": 0.0389,
      "num_tokens": 9379392.0,
      "reward": 0.25,
      "reward_std": 0.5773502588272095,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 313,
      "step_time": 67.74009668175131
    },
    {
      "clip_ratio/high_max": 0.0001692849473329261,
      "clip_ratio/high_mean": 0.0001692849473329261,
      "clip_ratio/low_mean": 0.00017830068100010976,
      "clip_ratio/low_min": 0.00017830068100010976,
      "clip_ratio/region_mean": 0.00034758562833303586,
      "entropy": 0.7223738990724087,
      "epoch": 0.04448852366109379,
      "grad_norm": 0.26953125,
      "learning_rate": 9.556531595352791e-07,
      "loss": -0.0039,
      "step": 314,
      "step_time": 3.9156275875866413
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1402.0,
      "completions/max_terminated_length": 1402.0,
      "completions/mean_length": 761.59375,
      "completions/mean_terminated_length": 761.59375,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "entropy": 0.7936823293566704,
      "epoch": 0.04463020685746671,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.6015625,
      "learning_rate": 9.555114763389063e-07,
      "loss": -0.1494,
      "num_tokens": 9439446.0,
      "reward": 0.3671875,
      "reward_std": 0.757199227809906,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 315,
      "step_time": 46.12589174788445
    },
    {
      "clip_ratio/high_max": 3.156565799145028e-05,
      "clip_ratio/high_mean": 3.156565799145028e-05,
      "clip_ratio/low_mean": 0.0007669074111618102,
      "clip_ratio/low_min": 0.0007669074111618102,
      "clip_ratio/region_mean": 0.0007984730618773028,
      "entropy": 0.7595435008406639,
      "epoch": 0.044771890053839615,
      "grad_norm": 0.466796875,
      "learning_rate": 9.553697931425332e-07,
      "loss": 0.1145,
      "step": 316,
      "step_time": 3.10472175385803
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1635.0,
      "completions/max_terminated_length": 1635.0,
      "completions/mean_length": 836.8125,
      "completions/mean_terminated_length": 836.8125,
      "completions/min_length": 412.0,
      "completions/min_terminated_length": 412.0,
      "entropy": 0.781851552426815,
      "epoch": 0.04491357325021252,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.296875,
      "learning_rate": 9.552281099461603e-07,
      "loss": 0.0557,
      "num_tokens": 9503386.0,
      "reward": 0.15625,
      "reward_std": 0.4443204402923584,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0625,
      "rewards/format_reward_func/std": 0.1666666716337204,
      "step": 317,
      "step_time": 53.61699087917805
    },
    {
      "clip_ratio/high_max": 0.00017144972662208602,
      "clip_ratio/high_mean": 0.00017144972662208602,
      "clip_ratio/low_mean": 0.00030514364698319696,
      "clip_ratio/low_min": 0.00030514364698319696,
      "clip_ratio/region_mean": 0.000476593373605283,
      "entropy": 0.762634165585041,
      "epoch": 0.04505525644658544,
      "grad_norm": 0.38671875,
      "learning_rate": 9.550864267497875e-07,
      "loss": -0.0866,
      "step": 318,
      "step_time": 3.405105390585959
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1779.0,
      "completions/max_terminated_length": 1779.0,
      "completions/mean_length": 786.171875,
      "completions/mean_terminated_length": 786.171875,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "entropy": 0.7076592408120632,
      "epoch": 0.045196939642958345,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.3828125,
      "learning_rate": 9.549447435534144e-07,
      "loss": 0.0451,
      "num_tokens": 9563797.0,
      "reward": 0.140625,
      "reward_std": 0.38285425305366516,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 319,
      "step_time": 58.633414901793
    },
    {
      "clip_ratio/high_max": 0.0002037881058640778,
      "clip_ratio/high_mean": 0.0002037881058640778,
      "clip_ratio/low_mean": 7.027019455563277e-05,
      "clip_ratio/low_min": 7.027019455563277e-05,
      "clip_ratio/region_mean": 0.0002740583004197106,
      "entropy": 0.7079054936766624,
      "epoch": 0.04533862283933125,
      "grad_norm": 0.41015625,
      "learning_rate": 9.548030603570416e-07,
      "loss": -0.0398,
      "step": 320,
      "step_time": 3.5544829750433564
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1707.0,
      "completions/max_terminated_length": 1707.0,
      "completions/mean_length": 705.4375,
      "completions/mean_terminated_length": 705.4375,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "entropy": 0.7911832705140114,
      "epoch": 0.04548030603570417,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.515625,
      "learning_rate": 9.546613771606687e-07,
      "loss": -0.1091,
      "num_tokens": 9618001.0,
      "reward": 0.1796875,
      "reward_std": 0.44869464635849,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 321,
      "step_time": 55.66464363690466
    },
    {
      "clip_ratio/high_max": 0.0003582644658308709,
      "clip_ratio/high_mean": 0.0003582644658308709,
      "clip_ratio/low_mean": 0.0002904726534325164,
      "clip_ratio/low_min": 0.0002904726534325164,
      "clip_ratio/region_mean": 0.0006487371265393449,
      "entropy": 0.7016495019197464,
      "epoch": 0.045621989232077075,
      "grad_norm": 0.380859375,
      "learning_rate": 9.545196939642959e-07,
      "loss": 0.1082,
      "step": 322,
      "step_time": 3.4369462225586176
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1321.0,
      "completions/max_terminated_length": 1321.0,
      "completions/mean_length": 774.1875,
      "completions/mean_terminated_length": 774.1875,
      "completions/min_length": 386.0,
      "completions/min_terminated_length": 386.0,
      "entropy": 0.7765046954154968,
      "epoch": 0.04576367242844999,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.55078125,
      "learning_rate": 9.543780107679228e-07,
      "loss": 0.001,
      "num_tokens": 9677741.0,
      "reward": 0.15625,
      "reward_std": 0.49501484632492065,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.03125,
      "rewards/format_reward_func/std": 0.12198751419782639,
      "step": 323,
      "step_time": 42.95155965164304
    },
    {
      "clip_ratio/high_max": 0.00033913215156644583,
      "clip_ratio/high_mean": 0.00033913215156644583,
      "clip_ratio/low_mean": 0.0005913144850637764,
      "clip_ratio/low_min": 0.0005913144850637764,
      "clip_ratio/region_mean": 0.0009304466366302222,
      "entropy": 0.8896149396896362,
      "epoch": 0.0459053556248229,
      "grad_norm": 0.37890625,
      "learning_rate": 9.5423632757155e-07,
      "loss": 0.0125,
      "step": 324,
      "step_time": 3.0800018487498164
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 849.0,
      "completions/max_terminated_length": 849.0,
      "completions/mean_length": 570.8125,
      "completions/mean_terminated_length": 570.8125,
      "completions/min_length": 278.0,
      "completions/min_terminated_length": 278.0,
      "entropy": 0.8832172825932503,
      "epoch": 0.046047038821195804,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.439453125,
      "learning_rate": 9.54094644375177e-07,
      "loss": -0.0342,
      "num_tokens": 9725473.0,
      "reward": 0.1484375,
      "reward_std": 0.3850344121456146,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 325,
      "step_time": 27.759599718265235
    },
    {
      "clip_ratio/high_max": 0.0003380252092028968,
      "clip_ratio/high_mean": 0.0003380252092028968,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0003380252092028968,
      "entropy": 1.001882754266262,
      "epoch": 0.04618872201756872,
      "grad_norm": 0.60546875,
      "learning_rate": 9.539529611788042e-07,
      "loss": 0.0171,
      "step": 326,
      "step_time": 2.1486722668632865
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1020.0,
      "completions/max_terminated_length": 1020.0,
      "completions/mean_length": 738.75,
      "completions/mean_terminated_length": 738.75,
      "completions/min_length": 340.0,
      "completions/min_terminated_length": 340.0,
      "entropy": 0.7503829300403595,
      "epoch": 0.046330405213941626,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5234375,
      "learning_rate": 9.538112779824312e-07,
      "loss": -0.0074,
      "num_tokens": 9790673.0,
      "reward": 0.21875,
      "reward_std": 0.502967357635498,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 327,
      "step_time": 35.22456168476492
    },
    {
      "clip_ratio/high_max": 0.00038329711969709024,
      "clip_ratio/high_mean": 0.00038329711969709024,
      "clip_ratio/low_mean": 0.00041030671854969114,
      "clip_ratio/low_min": 0.00041030671854969114,
      "clip_ratio/region_mean": 0.000793603845522739,
      "entropy": 0.7798479497432709,
      "epoch": 0.046472088410314534,
      "grad_norm": 0.51171875,
      "learning_rate": 9.536695947860583e-07,
      "loss": 0.018,
      "step": 328,
      "step_time": 3.1872603707015514
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1408.0,
      "completions/max_terminated_length": 1408.0,
      "completions/mean_length": 865.078125,
      "completions/mean_terminated_length": 865.078125,
      "completions/min_length": 372.0,
      "completions/min_terminated_length": 372.0,
      "entropy": 0.4328771233558655,
      "epoch": 0.04661377160668745,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.390625,
      "learning_rate": 9.535279115896854e-07,
      "loss": -0.015,
      "num_tokens": 9853894.0,
      "reward": 0.3984375,
      "reward_std": 0.7620965838432312,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 329,
      "step_time": 45.75868426822126
    },
    {
      "clip_ratio/high_max": 6.908859359100461e-05,
      "clip_ratio/high_mean": 6.908859359100461e-05,
      "clip_ratio/low_mean": 0.00029742514379904605,
      "clip_ratio/low_min": 0.00029742514379904605,
      "clip_ratio/region_mean": 0.00036651373739005066,
      "entropy": 0.473347507417202,
      "epoch": 0.046755454803060356,
      "grad_norm": 0.3203125,
      "learning_rate": 9.533862283933125e-07,
      "loss": -0.0071,
      "step": 330,
      "step_time": 2.981507731601596
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1511.0,
      "completions/max_terminated_length": 1511.0,
      "completions/mean_length": 785.921875,
      "completions/mean_terminated_length": 785.921875,
      "completions/min_length": 404.0,
      "completions/min_terminated_length": 404.0,
      "entropy": 0.8956438675522804,
      "epoch": 0.046897137999433264,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2734375,
      "learning_rate": 9.532445451969397e-07,
      "loss": 0.0033,
      "num_tokens": 9914257.0,
      "reward": 0.0859375,
      "reward_std": 0.28942590951919556,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0546875,
      "rewards/format_reward_func/std": 0.15728822350502014,
      "step": 331,
      "step_time": 49.261041949503124
    },
    {
      "clip_ratio/high_max": 0.00026131381673621945,
      "clip_ratio/high_mean": 0.00026131381673621945,
      "clip_ratio/low_mean": 0.00012582620547618717,
      "clip_ratio/low_min": 0.00012582620547618717,
      "clip_ratio/region_mean": 0.0003871400222124066,
      "entropy": 0.8878295011818409,
      "epoch": 0.04703882119580618,
      "grad_norm": 0.478515625,
      "learning_rate": 9.531028620005667e-07,
      "loss": 0.0248,
      "step": 332,
      "step_time": 3.388262744061649
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1159.0,
      "completions/max_terminated_length": 1159.0,
      "completions/mean_length": 779.578125,
      "completions/mean_terminated_length": 779.578125,
      "completions/min_length": 319.0,
      "completions/min_terminated_length": 319.0,
      "entropy": 0.8633840307593346,
      "epoch": 0.047180504392179086,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.419921875,
      "learning_rate": 9.529611788041938e-07,
      "loss": -0.0127,
      "num_tokens": 9975702.0,
      "reward": 0.21875,
      "reward_std": 0.5335936546325684,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 333,
      "step_time": 37.73306020535529
    },
    {
      "clip_ratio/high_max": 4.07033548981417e-05,
      "clip_ratio/high_mean": 4.07033548981417e-05,
      "clip_ratio/low_mean": 3.408781049074605e-05,
      "clip_ratio/low_min": 3.408781049074605e-05,
      "clip_ratio/region_mean": 7.479116538888775e-05,
      "entropy": 0.967939704656601,
      "epoch": 0.047322187588552,
      "grad_norm": 0.37109375,
      "learning_rate": 9.528194956078208e-07,
      "loss": 0.0131,
      "step": 334,
      "step_time": 2.685012999922037
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1291.0,
      "completions/max_terminated_length": 1291.0,
      "completions/mean_length": 705.859375,
      "completions/mean_terminated_length": 705.859375,
      "completions/min_length": 369.0,
      "completions/min_terminated_length": 369.0,
      "entropy": 1.09752456843853,
      "epoch": 0.04746387078492491,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.400390625,
      "learning_rate": 9.526778124114479e-07,
      "loss": -0.0575,
      "num_tokens": 10030781.0,
      "reward": 0.21875,
      "reward_std": 0.5482656359672546,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.0625,
      "rewards/format_reward_func/std": 0.1666666716337204,
      "step": 335,
      "step_time": 41.97643647156656
    },
    {
      "clip_ratio/high_max": 0.0001421350971213542,
      "clip_ratio/high_mean": 0.0001421350971213542,
      "clip_ratio/low_mean": 0.00028192397439852357,
      "clip_ratio/low_min": 0.00028192397439852357,
      "clip_ratio/region_mean": 0.00042405907151987776,
      "entropy": 1.03213419765234,
      "epoch": 0.047605553981297816,
      "grad_norm": 0.361328125,
      "learning_rate": 9.525361292150751e-07,
      "loss": 0.068,
      "step": 336,
      "step_time": 2.8178331702947617
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1357.0,
      "completions/max_terminated_length": 1357.0,
      "completions/mean_length": 928.328125,
      "completions/mean_terminated_length": 928.328125,
      "completions/min_length": 542.0,
      "completions/min_terminated_length": 542.0,
      "entropy": 0.6382762715220451,
      "epoch": 0.04774723717767073,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.34375,
      "learning_rate": 9.523944460187021e-07,
      "loss": 0.0386,
      "num_tokens": 10102642.0,
      "reward": 0.21875,
      "reward_std": 0.502967357635498,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 337,
      "step_time": 44.48397999536246
    },
    {
      "clip_ratio/high_max": 0.00018807103697326966,
      "clip_ratio/high_mean": 0.00018807103697326966,
      "clip_ratio/low_mean": 3.551136251189746e-05,
      "clip_ratio/low_min": 3.551136251189746e-05,
      "clip_ratio/region_mean": 0.00022358239948516712,
      "entropy": 0.6006350815296173,
      "epoch": 0.04788892037404364,
      "grad_norm": 0.341796875,
      "learning_rate": 9.522527628223293e-07,
      "loss": -0.023,
      "step": 338,
      "step_time": 3.026465268805623
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1519.0,
      "completions/max_terminated_length": 1519.0,
      "completions/mean_length": 902.46875,
      "completions/mean_terminated_length": 902.46875,
      "completions/min_length": 479.0,
      "completions/min_terminated_length": 479.0,
      "entropy": 0.7271825820207596,
      "epoch": 0.048030603570416545,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.0,
      "learning_rate": 9.521110796259563e-07,
      "loss": 0.0,
      "num_tokens": 10171392.0,
      "reward": 0.125,
      "reward_std": 0.35634833574295044,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 339,
      "step_time": 49.81398647651076
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 3.514197305776179e-05,
      "clip_ratio/low_min": 3.514197305776179e-05,
      "clip_ratio/region_mean": 3.514197305776179e-05,
      "entropy": 0.7394624575972557,
      "epoch": 0.04817228676678946,
      "grad_norm": 0.3046875,
      "learning_rate": 9.519693964295835e-07,
      "loss": 0.0115,
      "step": 340,
      "step_time": 3.2324469136074185
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1149.0,
      "completions/max_terminated_length": 1149.0,
      "completions/mean_length": 677.328125,
      "completions/mean_terminated_length": 677.328125,
      "completions/min_length": 346.0,
      "completions/min_terminated_length": 346.0,
      "entropy": 1.1610938757658005,
      "epoch": 0.04831396996316237,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.59375,
      "learning_rate": 9.518277132332105e-07,
      "loss": -0.103,
      "num_tokens": 10225973.0,
      "reward": 0.234375,
      "reward_std": 0.5037065148353577,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 341,
      "step_time": 38.479670794680715
    },
    {
      "clip_ratio/high_max": 0.00018526170970289968,
      "clip_ratio/high_mean": 0.00018526170970289968,
      "clip_ratio/low_mean": 0.000718767500075046,
      "clip_ratio/low_min": 0.000718767500075046,
      "clip_ratio/region_mean": 0.0009040292061399668,
      "entropy": 0.9894049763679504,
      "epoch": 0.04845565315953528,
      "grad_norm": 0.5234375,
      "learning_rate": 9.516860300368375e-07,
      "loss": 0.0813,
      "step": 342,
      "step_time": 2.7226899126544595
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1664.0,
      "completions/max_terminated_length": 1664.0,
      "completions/mean_length": 885.625,
      "completions/mean_terminated_length": 885.625,
      "completions/min_length": 423.0,
      "completions/min_terminated_length": 423.0,
      "entropy": 0.5640184134244919,
      "epoch": 0.04859733635590819,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.267578125,
      "learning_rate": 9.515443468404647e-07,
      "loss": -0.0029,
      "num_tokens": 10293213.0,
      "reward": 0.109375,
      "reward_std": 0.2083333283662796,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 343,
      "step_time": 54.39938296098262
    },
    {
      "clip_ratio/high_max": 0.00013892141214455478,
      "clip_ratio/high_mean": 0.00013892141214455478,
      "clip_ratio/low_mean": 4.066363180754706e-05,
      "clip_ratio/low_min": 4.066363180754706e-05,
      "clip_ratio/region_mean": 0.00017958504395210184,
      "entropy": 0.6850440204143524,
      "epoch": 0.0487390195522811,
      "grad_norm": 0.24609375,
      "learning_rate": 9.514026636440917e-07,
      "loss": 0.0197,
      "step": 344,
      "step_time": 3.388258763588965
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1179.0,
      "completions/max_terminated_length": 1179.0,
      "completions/mean_length": 674.203125,
      "completions/mean_terminated_length": 674.203125,
      "completions/min_length": 335.0,
      "completions/min_terminated_length": 335.0,
      "entropy": 0.9726449474692345,
      "epoch": 0.04888070274865401,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.484375,
      "learning_rate": 9.512609804477189e-07,
      "loss": -0.0216,
      "num_tokens": 10347834.0,
      "reward": 0.234375,
      "reward_std": 0.5037065148353577,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 345,
      "step_time": 39.529371451586485
    },
    {
      "clip_ratio/high_max": 0.00033638141030678526,
      "clip_ratio/high_mean": 0.00033638141030678526,
      "clip_ratio/low_mean": 0.0001487921254010871,
      "clip_ratio/low_min": 0.0001487921254010871,
      "clip_ratio/region_mean": 0.0004851735466218088,
      "entropy": 0.8972741216421127,
      "epoch": 0.04902238594502692,
      "grad_norm": 0.412109375,
      "learning_rate": 9.51119297251346e-07,
      "loss": 0.0198,
      "step": 346,
      "step_time": 2.792151321657002
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1331.0,
      "completions/max_terminated_length": 1331.0,
      "completions/mean_length": 876.765625,
      "completions/mean_terminated_length": 876.765625,
      "completions/min_length": 436.0,
      "completions/min_terminated_length": 436.0,
      "entropy": 0.8751296252012253,
      "epoch": 0.04916406914139983,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2734375,
      "learning_rate": 9.509776140549731e-07,
      "loss": 0.0415,
      "num_tokens": 10417979.0,
      "reward": 0.0703125,
      "reward_std": 0.1751912236213684,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0703125,
      "rewards/format_reward_func/std": 0.1751912236213684,
      "step": 347,
      "step_time": 43.8834841856733
    },
    {
      "clip_ratio/high_max": 0.0001978545442398172,
      "clip_ratio/high_mean": 0.0001978545442398172,
      "clip_ratio/low_mean": 8.982035797089338e-05,
      "clip_ratio/low_min": 8.982035797089338e-05,
      "clip_ratio/region_mean": 0.00028767490221071057,
      "entropy": 0.8050799295306206,
      "epoch": 0.04930575233777274,
      "grad_norm": 0.30078125,
      "learning_rate": 9.508359308586001e-07,
      "loss": -0.0525,
      "step": 348,
      "step_time": 3.110689870081842
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1388.0,
      "completions/max_terminated_length": 1388.0,
      "completions/mean_length": 780.46875,
      "completions/mean_terminated_length": 780.46875,
      "completions/min_length": 403.0,
      "completions/min_terminated_length": 403.0,
      "entropy": 0.707251537591219,
      "epoch": 0.04944743553414565,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.486328125,
      "learning_rate": 9.506942476622271e-07,
      "loss": 0.0017,
      "num_tokens": 10480137.0,
      "reward": 0.28125,
      "reward_std": 0.6291528940200806,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.0625,
      "rewards/format_reward_func/std": 0.1666666716337204,
      "step": 349,
      "step_time": 46.59347433317453
    },
    {
      "clip_ratio/high_max": 0.0004561449859465938,
      "clip_ratio/high_mean": 0.0004561449859465938,
      "clip_ratio/low_mean": 0.0004917596888844855,
      "clip_ratio/low_min": 0.0004917596888844855,
      "clip_ratio/region_mean": 0.0009479046966589522,
      "entropy": 0.7285356298089027,
      "epoch": 0.049589118730518564,
      "grad_norm": 0.41015625,
      "learning_rate": 9.505525644658543e-07,
      "loss": -0.0429,
      "step": 350,
      "step_time": 3.1011441415175796
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1463.0,
      "completions/max_terminated_length": 1463.0,
      "completions/mean_length": 744.015625,
      "completions/mean_terminated_length": 744.015625,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "entropy": 0.9180247634649277,
      "epoch": 0.04973080192689147,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.3671875,
      "learning_rate": 9.504108812694814e-07,
      "loss": -0.0205,
      "num_tokens": 10554746.0,
      "reward": 0.0546875,
      "reward_std": 0.15728822350502014,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0546875,
      "rewards/format_reward_func/std": 0.15728822350502014,
      "step": 351,
      "step_time": 54.21825468353927
    },
    {
      "clip_ratio/high_max": 5.430060991784558e-05,
      "clip_ratio/high_mean": 5.430060991784558e-05,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 5.430060991784558e-05,
      "entropy": 1.0331146344542503,
      "epoch": 0.04987248512326438,
      "grad_norm": 0.279296875,
      "learning_rate": 9.502691980731085e-07,
      "loss": 0.031,
      "step": 352,
      "step_time": 4.36083872243762
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1261.0,
      "completions/max_terminated_length": 1261.0,
      "completions/mean_length": 750.8125,
      "completions/mean_terminated_length": 750.8125,
      "completions/min_length": 11.0,
      "completions/min_terminated_length": 11.0,
      "entropy": 0.9009864702820778,
      "epoch": 0.050014168319637294,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.47265625,
      "learning_rate": 9.501275148767356e-07,
      "loss": 0.0111,
      "num_tokens": 10614414.0,
      "reward": 0.1328125,
      "reward_std": 0.3117053508758545,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 353,
      "step_time": 42.05407727416605
    },
    {
      "clip_ratio/high_max": 0.00013903646686230786,
      "clip_ratio/high_mean": 0.00013903646686230786,
      "clip_ratio/low_mean": 0.00013847858645021915,
      "clip_ratio/low_min": 0.00013847858645021915,
      "clip_ratio/region_mean": 0.000277515053312527,
      "entropy": 0.7344703450798988,
      "epoch": 0.0501558515160102,
      "grad_norm": 0.255859375,
      "learning_rate": 9.499858316803627e-07,
      "loss": -0.0156,
      "step": 354,
      "step_time": 3.0897130025550723
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2595.0,
      "completions/max_terminated_length": 2595.0,
      "completions/mean_length": 694.421875,
      "completions/mean_terminated_length": 694.421875,
      "completions/min_length": 249.0,
      "completions/min_terminated_length": 249.0,
      "entropy": 0.7945647239685059,
      "epoch": 0.05029753471238311,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.326171875,
      "learning_rate": 9.498441484839897e-07,
      "loss": 0.0405,
      "num_tokens": 10668713.0,
      "reward": 0.171875,
      "reward_std": 0.3905505836009979,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 355,
      "step_time": 89.98507673293352
    },
    {
      "clip_ratio/high_max": 0.00018377821834292263,
      "clip_ratio/high_mean": 0.00018377821834292263,
      "clip_ratio/low_mean": 0.0002826566305884626,
      "clip_ratio/low_min": 0.0002826566305884626,
      "clip_ratio/region_mean": 0.0004664348489313852,
      "entropy": 0.6204465888440609,
      "epoch": 0.05043921790875602,
      "grad_norm": 0.67578125,
      "learning_rate": 9.497024652876168e-07,
      "loss": -0.0893,
      "step": 356,
      "step_time": 4.796324385330081
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1529.0,
      "completions/max_terminated_length": 1529.0,
      "completions/mean_length": 827.953125,
      "completions/mean_terminated_length": 827.953125,
      "completions/min_length": 317.0,
      "completions/min_terminated_length": 317.0,
      "entropy": 0.7831216678023338,
      "epoch": 0.05058090110512893,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.330078125,
      "learning_rate": 9.495607820912439e-07,
      "loss": 0.0688,
      "num_tokens": 10732902.0,
      "reward": 0.140625,
      "reward_std": 0.38285425305366516,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 357,
      "step_time": 49.89321672450751
    },
    {
      "clip_ratio/high_max": 0.00023220908042276278,
      "clip_ratio/high_mean": 0.00023220908042276278,
      "clip_ratio/low_mean": 0.0002340088103665039,
      "clip_ratio/low_min": 0.0002340088103665039,
      "clip_ratio/region_mean": 0.00046621788351330906,
      "entropy": 0.8669716790318489,
      "epoch": 0.05072258430150184,
      "grad_norm": 0.345703125,
      "learning_rate": 9.49419098894871e-07,
      "loss": -0.0346,
      "step": 358,
      "step_time": 3.4210870200768113
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1195.0,
      "completions/max_terminated_length": 1195.0,
      "completions/mean_length": 811.421875,
      "completions/mean_terminated_length": 811.421875,
      "completions/min_length": 405.0,
      "completions/min_terminated_length": 405.0,
      "entropy": 0.8713041096925735,
      "epoch": 0.05086426749787475,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2490234375,
      "learning_rate": 9.492774156984981e-07,
      "loss": 0.0862,
      "num_tokens": 10796497.0,
      "reward": 0.09375,
      "reward_std": 0.29378482699394226,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0625,
      "rewards/format_reward_func/std": 0.1666666716337204,
      "step": 359,
      "step_time": 39.413240648806095
    },
    {
      "clip_ratio/high_max": 0.00023270804376807064,
      "clip_ratio/high_mean": 0.00023270804376807064,
      "clip_ratio/low_mean": 0.0004655679476854857,
      "clip_ratio/low_min": 0.0004655679476854857,
      "clip_ratio/region_mean": 0.0006982760023674928,
      "entropy": 0.7693384923040867,
      "epoch": 0.05100595069424766,
      "grad_norm": 0.458984375,
      "learning_rate": 9.491357325021252e-07,
      "loss": -0.0855,
      "step": 360,
      "step_time": 2.7514192145317793
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1884.0,
      "completions/max_terminated_length": 1884.0,
      "completions/mean_length": 862.390625,
      "completions/mean_terminated_length": 862.390625,
      "completions/min_length": 391.0,
      "completions/min_terminated_length": 391.0,
      "entropy": 0.6815524511039257,
      "epoch": 0.051147633890620575,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.376953125,
      "learning_rate": 9.489940493057524e-07,
      "loss": -0.0137,
      "num_tokens": 10861738.0,
      "reward": 0.2265625,
      "reward_std": 0.5033986568450928,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 361,
      "step_time": 62.556434942409396
    },
    {
      "clip_ratio/high_max": 0.00013715578825213015,
      "clip_ratio/high_mean": 0.00013715578825213015,
      "clip_ratio/low_mean": 0.0003252522674301872,
      "clip_ratio/low_min": 0.0003252522674301872,
      "clip_ratio/region_mean": 0.00046240805568231735,
      "entropy": 0.6022888384759426,
      "epoch": 0.05128931708699348,
      "grad_norm": 0.4453125,
      "learning_rate": 9.488523661093793e-07,
      "loss": 0.003,
      "step": 362,
      "step_time": 3.965208481065929
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1172.0,
      "completions/max_terminated_length": 1172.0,
      "completions/mean_length": 645.71875,
      "completions/mean_terminated_length": 645.71875,
      "completions/min_length": 326.0,
      "completions/min_terminated_length": 326.0,
      "entropy": 1.1909377425909042,
      "epoch": 0.05143100028336639,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.34765625,
      "learning_rate": 9.487106829130065e-07,
      "loss": 0.0205,
      "num_tokens": 10918056.0,
      "reward": 0.140625,
      "reward_std": 0.38285425305366516,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 363,
      "step_time": 39.51804635301232
    },
    {
      "clip_ratio/high_max": 0.0004015751001134049,
      "clip_ratio/high_mean": 0.0004015751001134049,
      "clip_ratio/low_mean": 0.00014799552445765585,
      "clip_ratio/low_min": 0.00014799552445765585,
      "clip_ratio/region_mean": 0.0005495706245710608,
      "entropy": 1.3400782197713852,
      "epoch": 0.051572683479739305,
      "grad_norm": 0.515625,
      "learning_rate": 9.485689997166335e-07,
      "loss": -0.0154,
      "step": 364,
      "step_time": 2.90487577393651
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1231.0,
      "completions/max_terminated_length": 1231.0,
      "completions/mean_length": 808.15625,
      "completions/mean_terminated_length": 808.15625,
      "completions/min_length": 558.0,
      "completions/min_terminated_length": 558.0,
      "entropy": 0.8234662227332592,
      "epoch": 0.05171436667611221,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.490234375,
      "learning_rate": 9.484273165202606e-07,
      "loss": -0.053,
      "num_tokens": 10980658.0,
      "reward": 0.484375,
      "reward_std": 0.9299630522727966,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 365,
      "step_time": 40.710613856092095
    },
    {
      "clip_ratio/high_max": 0.0001461601241317112,
      "clip_ratio/high_mean": 0.0001461601241317112,
      "clip_ratio/low_mean": 0.00026965370125253685,
      "clip_ratio/low_min": 0.00026965370125253685,
      "clip_ratio/region_mean": 0.00041581382174626924,
      "entropy": 0.750576414167881,
      "epoch": 0.05185604987248512,
      "grad_norm": 0.31640625,
      "learning_rate": 9.482856333238878e-07,
      "loss": 0.072,
      "step": 366,
      "step_time": 2.8084878092631698
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1429.0,
      "completions/max_terminated_length": 1429.0,
      "completions/mean_length": 673.25,
      "completions/mean_terminated_length": 673.25,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "entropy": 0.883502546697855,
      "epoch": 0.051997733068858035,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.67578125,
      "learning_rate": 9.481439501275148e-07,
      "loss": -0.1397,
      "num_tokens": 11033090.0,
      "reward": 0.21875,
      "reward_std": 0.4869324266910553,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 367,
      "step_time": 47.41471961513162
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0009190182900056243,
      "clip_ratio/low_min": 0.0009190182900056243,
      "clip_ratio/region_mean": 0.0009190182900056243,
      "entropy": 0.6652477383613586,
      "epoch": 0.05213941626523094,
      "grad_norm": 0.1865234375,
      "learning_rate": 9.48002266931142e-07,
      "loss": 0.1241,
      "step": 368,
      "step_time": 3.132639419287443
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1154.0,
      "completions/max_terminated_length": 1154.0,
      "completions/mean_length": 730.578125,
      "completions/mean_terminated_length": 730.578125,
      "completions/min_length": 293.0,
      "completions/min_terminated_length": 293.0,
      "entropy": 0.8289912864565849,
      "epoch": 0.05228109946160386,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.353515625,
      "learning_rate": 9.478605837347689e-07,
      "loss": 0.0435,
      "num_tokens": 11090183.0,
      "reward": 0.078125,
      "reward_std": 0.18298126757144928,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 369,
      "step_time": 40.00518140848726
    },
    {
      "clip_ratio/high_max": 5.4585154430242255e-05,
      "clip_ratio/high_mean": 5.4585154430242255e-05,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 5.4585154430242255e-05,
      "entropy": 0.8795185536146164,
      "epoch": 0.052422782657976764,
      "grad_norm": 0.2236328125,
      "learning_rate": 9.477189005383961e-07,
      "loss": -0.0363,
      "step": 370,
      "step_time": 2.6698144301772118
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1779.0,
      "completions/max_terminated_length": 1779.0,
      "completions/mean_length": 768.25,
      "completions/mean_terminated_length": 768.25,
      "completions/min_length": 368.0,
      "completions/min_terminated_length": 368.0,
      "entropy": 0.8600104451179504,
      "epoch": 0.05256446585434967,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.4140625,
      "learning_rate": 9.475772173420232e-07,
      "loss": 0.0178,
      "num_tokens": 11152935.0,
      "reward": 0.1953125,
      "reward_std": 0.45090022683143616,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 371,
      "step_time": 60.55155182443559
    },
    {
      "clip_ratio/high_max": 0.0002870137650461402,
      "clip_ratio/high_mean": 0.0002870137650461402,
      "clip_ratio/low_mean": 8.324830196215771e-05,
      "clip_ratio/low_min": 8.324830196215771e-05,
      "clip_ratio/region_mean": 0.0003702620670082979,
      "entropy": 0.8979925364255905,
      "epoch": 0.05270614905072259,
      "grad_norm": 0.39453125,
      "learning_rate": 9.474355341456502e-07,
      "loss": -0.0109,
      "step": 372,
      "step_time": 3.7666565449908376
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1119.0,
      "completions/max_terminated_length": 1119.0,
      "completions/mean_length": 628.125,
      "completions/mean_terminated_length": 628.125,
      "completions/min_length": 312.0,
      "completions/min_terminated_length": 312.0,
      "entropy": 1.3169009983539581,
      "epoch": 0.052847832247095494,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.4609375,
      "learning_rate": 9.472938509492774e-07,
      "loss": 0.0882,
      "num_tokens": 11204047.0,
      "reward": 0.109375,
      "reward_std": 0.301698237657547,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 373,
      "step_time": 37.09969818312675
    },
    {
      "clip_ratio/high_max": 9.132508421316743e-05,
      "clip_ratio/high_mean": 9.132508421316743e-05,
      "clip_ratio/low_mean": 0.0003015499605680816,
      "clip_ratio/low_min": 0.0003015499605680816,
      "clip_ratio/region_mean": 0.000392875044781249,
      "entropy": 1.3771805837750435,
      "epoch": 0.0529895154434684,
      "grad_norm": 0.65625,
      "learning_rate": 9.471521677529044e-07,
      "loss": -0.0581,
      "step": 374,
      "step_time": 2.6302561899647117
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1189.0,
      "completions/max_terminated_length": 1189.0,
      "completions/mean_length": 687.84375,
      "completions/mean_terminated_length": 687.84375,
      "completions/min_length": 296.0,
      "completions/min_terminated_length": 296.0,
      "entropy": 0.8774748742580414,
      "epoch": 0.053131198639841316,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.609375,
      "learning_rate": 9.470104845565316e-07,
      "loss": 0.0497,
      "num_tokens": 11260133.0,
      "reward": 0.3359375,
      "reward_std": 0.6610158681869507,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 375,
      "step_time": 39.44684713613242
    },
    {
      "clip_ratio/high_max": 0.00020901607422274537,
      "clip_ratio/high_mean": 0.00020901607422274537,
      "clip_ratio/low_mean": 0.00046022492460906506,
      "clip_ratio/low_min": 0.00046022492460906506,
      "clip_ratio/region_mean": 0.0006692409988318104,
      "entropy": 0.9848724752664566,
      "epoch": 0.053272881836214224,
      "grad_norm": 0.6640625,
      "learning_rate": 9.468688013601587e-07,
      "loss": 0.0144,
      "step": 376,
      "step_time": 2.7754221418872476
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1373.0,
      "completions/max_terminated_length": 1373.0,
      "completions/mean_length": 746.296875,
      "completions/mean_terminated_length": 746.296875,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "entropy": 0.9138679206371307,
      "epoch": 0.05341456503258714,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.40625,
      "learning_rate": 9.467271181637857e-07,
      "loss": 0.0939,
      "num_tokens": 11317432.0,
      "reward": 0.171875,
      "reward_std": 0.4473799467086792,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 377,
      "step_time": 44.7243745457381
    },
    {
      "clip_ratio/high_max": 0.0003239318793930579,
      "clip_ratio/high_mean": 0.0003239318793930579,
      "clip_ratio/low_mean": 0.00012655029058805667,
      "clip_ratio/low_min": 0.00012655029058805667,
      "clip_ratio/region_mean": 0.00045048216998111457,
      "entropy": 0.7906385883688927,
      "epoch": 0.053556248228960046,
      "grad_norm": 0.42578125,
      "learning_rate": 9.465854349674128e-07,
      "loss": -0.1098,
      "step": 378,
      "step_time": 2.9570645317435265
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2505.0,
      "completions/max_terminated_length": 2505.0,
      "completions/mean_length": 663.625,
      "completions/mean_terminated_length": 663.625,
      "completions/min_length": 329.0,
      "completions/min_terminated_length": 329.0,
      "entropy": 0.8496817536652088,
      "epoch": 0.053697931425332954,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.56640625,
      "learning_rate": 9.4644375177104e-07,
      "loss": 0.0642,
      "num_tokens": 11370256.0,
      "reward": 0.328125,
      "reward_std": 0.6499007940292358,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 379,
      "step_time": 85.82371311075985
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0010991275958076585,
      "clip_ratio/low_min": 0.0010991275958076585,
      "clip_ratio/region_mean": 0.0010991275958076585,
      "entropy": 0.8394560553133488,
      "epoch": 0.05383961462170587,
      "grad_norm": 0.51953125,
      "learning_rate": 9.46302068574667e-07,
      "loss": -0.0983,
      "step": 380,
      "step_time": 4.8629659824073315
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1208.0,
      "completions/max_terminated_length": 1208.0,
      "completions/mean_length": 642.515625,
      "completions/mean_terminated_length": 642.515625,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "entropy": 0.7674268074333668,
      "epoch": 0.053981297818078776,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.431640625,
      "learning_rate": 9.461603853782941e-07,
      "loss": -0.0479,
      "num_tokens": 11424353.0,
      "reward": 0.2421875,
      "reward_std": 0.5633811354637146,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 381,
      "step_time": 39.68244183156639
    },
    {
      "clip_ratio/high_max": 0.00017115933587774634,
      "clip_ratio/high_mean": 0.00017115933587774634,
      "clip_ratio/low_mean": 0.0005317938775988296,
      "clip_ratio/low_min": 0.0005317938775988296,
      "clip_ratio/region_mean": 0.0007029532134765759,
      "entropy": 0.740328423678875,
      "epoch": 0.05412298101445168,
      "grad_norm": 0.427734375,
      "learning_rate": 9.460187021819212e-07,
      "loss": 0.0202,
      "step": 382,
      "step_time": 2.8760155979543924
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1764.0,
      "completions/max_terminated_length": 1764.0,
      "completions/mean_length": 781.46875,
      "completions/mean_terminated_length": 781.46875,
      "completions/min_length": 388.0,
      "completions/min_terminated_length": 388.0,
      "entropy": 0.6929540820419788,
      "epoch": 0.0542646642108246,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.474609375,
      "learning_rate": 9.458770189855483e-07,
      "loss": 0.0356,
      "num_tokens": 11483087.0,
      "reward": 0.2421875,
      "reward_std": 0.503891110420227,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 383,
      "step_time": 58.80330698657781
    },
    {
      "clip_ratio/high_max": 0.00013033111463300884,
      "clip_ratio/high_mean": 0.00013033111463300884,
      "clip_ratio/low_mean": 0.0004699993623944465,
      "clip_ratio/low_min": 0.0004699993623944465,
      "clip_ratio/region_mean": 0.0006003304770274553,
      "entropy": 0.610691737383604,
      "epoch": 0.054406347407197506,
      "grad_norm": 0.3359375,
      "learning_rate": 9.457353357891754e-07,
      "loss": -0.0195,
      "step": 384,
      "step_time": 3.7146476125344634
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1169.0,
      "completions/max_terminated_length": 1169.0,
      "completions/mean_length": 786.953125,
      "completions/mean_terminated_length": 786.953125,
      "completions/min_length": 372.0,
      "completions/min_terminated_length": 372.0,
      "entropy": 0.8070381581783295,
      "epoch": 0.05454803060357041,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.25390625,
      "learning_rate": 9.455936525928024e-07,
      "loss": 0.0739,
      "num_tokens": 11545980.0,
      "reward": 0.3125,
      "reward_std": 0.7210001945495605,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 385,
      "step_time": 38.73025214020163
    },
    {
      "clip_ratio/high_max": 0.00016289508494082838,
      "clip_ratio/high_mean": 0.00016289508494082838,
      "clip_ratio/low_mean": 0.0002413707916275598,
      "clip_ratio/low_min": 0.0002413707916275598,
      "clip_ratio/region_mean": 0.0004042658692924306,
      "entropy": 1.0332633927464485,
      "epoch": 0.05468971379994333,
      "grad_norm": 0.4921875,
      "learning_rate": 9.454519693964296e-07,
      "loss": -0.098,
      "step": 386,
      "step_time": 2.7627772027626634
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1355.0,
      "completions/max_terminated_length": 1355.0,
      "completions/mean_length": 741.484375,
      "completions/mean_terminated_length": 741.484375,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "entropy": 0.8138997852802277,
      "epoch": 0.054831396996316235,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.30859375,
      "learning_rate": 9.453102862000566e-07,
      "loss": -0.0118,
      "num_tokens": 11603179.0,
      "reward": 0.109375,
      "reward_std": 0.2083333283662796,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 387,
      "step_time": 44.44873723387718
    },
    {
      "clip_ratio/high_max": 0.00025712807473610155,
      "clip_ratio/high_mean": 0.00025712807473610155,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00025712807473610155,
      "entropy": 0.9084520116448402,
      "epoch": 0.05497308019268915,
      "grad_norm": 0.2294921875,
      "learning_rate": 9.451686030036837e-07,
      "loss": -0.0036,
      "step": 388,
      "step_time": 3.0848345747217536
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1166.0,
      "completions/max_terminated_length": 1166.0,
      "completions/mean_length": 788.890625,
      "completions/mean_terminated_length": 788.890625,
      "completions/min_length": 384.0,
      "completions/min_terminated_length": 384.0,
      "entropy": 0.720204122364521,
      "epoch": 0.05511476338906206,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.29296875,
      "learning_rate": 9.450269198073109e-07,
      "loss": 0.0736,
      "num_tokens": 11665348.0,
      "reward": 0.1953125,
      "reward_std": 0.45090022683143616,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 389,
      "step_time": 38.035012033768
    },
    {
      "clip_ratio/high_max": 0.00023582278299727477,
      "clip_ratio/high_mean": 0.00023582278299727477,
      "clip_ratio/low_mean": 0.0003081036120420322,
      "clip_ratio/low_min": 0.0003081036120420322,
      "clip_ratio/region_mean": 0.000543926395039307,
      "entropy": 0.6657035276293755,
      "epoch": 0.055256446585434965,
      "grad_norm": 0.515625,
      "learning_rate": 9.448852366109379e-07,
      "loss": -0.0696,
      "step": 390,
      "step_time": 2.728463673964143
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1515.0,
      "completions/max_terminated_length": 1515.0,
      "completions/mean_length": 856.890625,
      "completions/mean_terminated_length": 856.890625,
      "completions/min_length": 459.0,
      "completions/min_terminated_length": 459.0,
      "entropy": 0.8309777155518532,
      "epoch": 0.05539812978180788,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2080078125,
      "learning_rate": 9.44743553414565e-07,
      "loss": -0.0652,
      "num_tokens": 11730445.0,
      "reward": 0.0859375,
      "reward_std": 0.19012710452079773,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 391,
      "step_time": 49.54638708848506
    },
    {
      "clip_ratio/high_max": 6.81511010043323e-05,
      "clip_ratio/high_mean": 6.81511010043323e-05,
      "clip_ratio/low_mean": 5.63443754799664e-05,
      "clip_ratio/low_min": 5.63443754799664e-05,
      "clip_ratio/region_mean": 0.0001244954764842987,
      "entropy": 0.7934964932501316,
      "epoch": 0.05553981297818079,
      "grad_norm": 0.2431640625,
      "learning_rate": 9.44601870218192e-07,
      "loss": 0.0914,
      "step": 392,
      "step_time": 3.199128723703325
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1425.0,
      "completions/max_terminated_length": 1425.0,
      "completions/mean_length": 872.90625,
      "completions/mean_terminated_length": 872.90625,
      "completions/min_length": 409.0,
      "completions/min_terminated_length": 409.0,
      "entropy": 0.7625234499573708,
      "epoch": 0.055681496174553695,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.27734375,
      "learning_rate": 9.444601870218192e-07,
      "loss": 0.0507,
      "num_tokens": 11795303.0,
      "reward": 0.125,
      "reward_std": 0.37796446681022644,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.0625,
      "rewards/format_reward_func/std": 0.1666666716337204,
      "step": 393,
      "step_time": 46.57839290983975
    },
    {
      "clip_ratio/high_max": 0.00017743443459039554,
      "clip_ratio/high_mean": 0.00017743443459039554,
      "clip_ratio/low_mean": 0.00017926465079654008,
      "clip_ratio/low_min": 0.00017926465079654008,
      "clip_ratio/region_mean": 0.0003566990853869356,
      "entropy": 0.6196262612938881,
      "epoch": 0.05582317937092661,
      "grad_norm": 0.349609375,
      "learning_rate": 9.443185038254463e-07,
      "loss": -0.0274,
      "step": 394,
      "step_time": 3.036018891260028
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1581.0,
      "completions/max_terminated_length": 1581.0,
      "completions/mean_length": 777.5625,
      "completions/mean_terminated_length": 777.5625,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "entropy": 0.754053108394146,
      "epoch": 0.05596486256729952,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1865234375,
      "learning_rate": 9.441768206290734e-07,
      "loss": -0.078,
      "num_tokens": 11862507.0,
      "reward": 0.0859375,
      "reward_std": 0.19012710452079773,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 395,
      "step_time": 54.82756634335965
    },
    {
      "clip_ratio/high_max": 4.165278369328007e-05,
      "clip_ratio/high_mean": 4.165278369328007e-05,
      "clip_ratio/low_mean": 0.00015507905845879577,
      "clip_ratio/low_min": 0.00015507905845879577,
      "clip_ratio/region_mean": 0.00019673184215207584,
      "entropy": 0.7299029305577278,
      "epoch": 0.05610654576367243,
      "grad_norm": 0.3359375,
      "learning_rate": 9.440351374327005e-07,
      "loss": 0.0855,
      "step": 396,
      "step_time": 3.7966802371665835
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1551.0,
      "completions/max_terminated_length": 1551.0,
      "completions/mean_length": 758.203125,
      "completions/mean_terminated_length": 758.203125,
      "completions/min_length": 25.0,
      "completions/min_terminated_length": 25.0,
      "entropy": 0.8990548513829708,
      "epoch": 0.05624822896004534,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.49609375,
      "learning_rate": 9.438934542363275e-07,
      "loss": 0.0752,
      "num_tokens": 11922216.0,
      "reward": 0.3203125,
      "reward_std": 0.6508064866065979,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 397,
      "step_time": 52.079660035669804
    },
    {
      "clip_ratio/high_max": 0.00016114635218400508,
      "clip_ratio/high_mean": 0.00016114635218400508,
      "clip_ratio/low_mean": 0.00023809105186956003,
      "clip_ratio/low_min": 0.00023809105186956003,
      "clip_ratio/region_mean": 0.0003992374004155863,
      "entropy": 0.9351146854460239,
      "epoch": 0.05638991215641825,
      "grad_norm": 0.57421875,
      "learning_rate": 9.437517710399546e-07,
      "loss": -0.0731,
      "step": 398,
      "step_time": 3.3181576281785965
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1704.0,
      "completions/max_terminated_length": 1704.0,
      "completions/mean_length": 794.875,
      "completions/mean_terminated_length": 794.875,
      "completions/min_length": 344.0,
      "completions/min_terminated_length": 344.0,
      "entropy": 0.5416659563779831,
      "epoch": 0.05653159535279116,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.341796875,
      "learning_rate": 9.436100878435817e-07,
      "loss": 0.1128,
      "num_tokens": 11983520.0,
      "reward": 0.1171875,
      "reward_std": 0.3052735924720764,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 399,
      "step_time": 56.63350890669972
    },
    {
      "clip_ratio/high_max": 0.00046431566443061456,
      "clip_ratio/high_mean": 0.00046431566443061456,
      "clip_ratio/low_mean": 0.00012998830061405897,
      "clip_ratio/low_min": 0.00012998830061405897,
      "clip_ratio/region_mean": 0.0005943039650446735,
      "entropy": 0.5592934936285019,
      "epoch": 0.05667327854916407,
      "grad_norm": 0.365234375,
      "learning_rate": 9.434684046472088e-07,
      "loss": -0.0915,
      "step": 400,
      "step_time": 3.4878040635958314
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1125.0,
      "completions/max_terminated_length": 1125.0,
      "completions/mean_length": 664.375,
      "completions/mean_terminated_length": 664.375,
      "completions/min_length": 338.0,
      "completions/min_terminated_length": 338.0,
      "entropy": 0.5803755931556225,
      "epoch": 0.05681496174553698,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.380859375,
      "learning_rate": 9.433267214508359e-07,
      "loss": -0.0752,
      "num_tokens": 12034408.0,
      "reward": 0.25,
      "reward_std": 0.549169659614563,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 401,
      "step_time": 36.95584666635841
    },
    {
      "clip_ratio/high_max": 7.888924301369116e-05,
      "clip_ratio/high_mean": 7.888924301369116e-05,
      "clip_ratio/low_mean": 0.000797425745986402,
      "clip_ratio/low_min": 0.000797425745986402,
      "clip_ratio/region_mean": 0.0008763149890000932,
      "entropy": 0.7511031925678253,
      "epoch": 0.05695664494190989,
      "grad_norm": 0.47265625,
      "learning_rate": 9.43185038254463e-07,
      "loss": 0.1023,
      "step": 402,
      "step_time": 2.5135733047500253
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1599.0,
      "completions/max_terminated_length": 1599.0,
      "completions/mean_length": 769.921875,
      "completions/mean_terminated_length": 769.921875,
      "completions/min_length": 383.0,
      "completions/min_terminated_length": 383.0,
      "entropy": 0.7158467285335064,
      "epoch": 0.0570983281382828,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.58984375,
      "learning_rate": 9.430433550580901e-07,
      "loss": -0.0273,
      "num_tokens": 12094707.0,
      "reward": 0.234375,
      "reward_std": 0.548943817615509,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 403,
      "step_time": 52.88829311262816
    },
    {
      "clip_ratio/high_max": 0.00024328958897967823,
      "clip_ratio/high_mean": 0.00024328958897967823,
      "clip_ratio/low_mean": 0.0004612364136846736,
      "clip_ratio/low_min": 0.0004612364136846736,
      "clip_ratio/region_mean": 0.000704525999026373,
      "entropy": 0.7273659780621529,
      "epoch": 0.05724001133465571,
      "grad_norm": 0.421875,
      "learning_rate": 9.429016718617172e-07,
      "loss": 0.0314,
      "step": 404,
      "step_time": 3.3394511211663485
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1262.0,
      "completions/max_terminated_length": 1262.0,
      "completions/mean_length": 731.203125,
      "completions/mean_terminated_length": 731.203125,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "entropy": 0.7100610323250294,
      "epoch": 0.05738169453102862,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.546875,
      "learning_rate": 9.427599886653442e-07,
      "loss": -0.0394,
      "num_tokens": 12151728.0,
      "reward": 0.2421875,
      "reward_std": 0.629891574382782,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 405,
      "step_time": 41.45340939890593
    },
    {
      "clip_ratio/high_max": 4.301445369492285e-05,
      "clip_ratio/high_mean": 4.301445369492285e-05,
      "clip_ratio/low_mean": 0.0007240264603751712,
      "clip_ratio/low_min": 0.0007240264603751712,
      "clip_ratio/region_mean": 0.0007670409104321152,
      "entropy": 0.6322882287204266,
      "epoch": 0.05752337772740153,
      "grad_norm": 0.33984375,
      "learning_rate": 9.426183054689713e-07,
      "loss": 0.0345,
      "step": 406,
      "step_time": 2.991997458972037
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1361.0,
      "completions/max_terminated_length": 1361.0,
      "completions/mean_length": 752.3125,
      "completions/mean_terminated_length": 752.3125,
      "completions/min_length": 359.0,
      "completions/min_terminated_length": 359.0,
      "entropy": 0.6362429745495319,
      "epoch": 0.05766506092377444,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5546875,
      "learning_rate": 9.424766222725984e-07,
      "loss": -0.0968,
      "num_tokens": 12209764.0,
      "reward": 0.4609375,
      "reward_std": 0.7781984210014343,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 407,
      "step_time": 45.010761100798845
    },
    {
      "clip_ratio/high_max": 0.0002408191103313584,
      "clip_ratio/high_mean": 0.0002408191103313584,
      "clip_ratio/low_mean": 0.0002537666332500521,
      "clip_ratio/low_min": 0.0002537666332500521,
      "clip_ratio/region_mean": 0.0004945857435814105,
      "entropy": 0.6631268002092838,
      "epoch": 0.05780674412014735,
      "grad_norm": 0.404296875,
      "learning_rate": 9.423349390762255e-07,
      "loss": 0.1179,
      "step": 408,
      "step_time": 3.002486042678356
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1250.0,
      "completions/max_terminated_length": 1250.0,
      "completions/mean_length": 767.328125,
      "completions/mean_terminated_length": 767.328125,
      "completions/min_length": 438.0,
      "completions/min_terminated_length": 438.0,
      "entropy": 0.8340891301631927,
      "epoch": 0.05794842731652026,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.640625,
      "learning_rate": 9.421932558798527e-07,
      "loss": -0.1018,
      "num_tokens": 12268377.0,
      "reward": 0.1796875,
      "reward_std": 0.4827762544155121,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 409,
      "step_time": 41.63627057429403
    },
    {
      "clip_ratio/high_max": 0.00011777692998293787,
      "clip_ratio/high_mean": 0.00011777692998293787,
      "clip_ratio/low_mean": 0.0003620073439378757,
      "clip_ratio/low_min": 0.0003620073439378757,
      "clip_ratio/region_mean": 0.0004797842739208136,
      "entropy": 0.7326098829507828,
      "epoch": 0.05809011051289317,
      "grad_norm": 0.2158203125,
      "learning_rate": 9.420515726834797e-07,
      "loss": 0.1109,
      "step": 410,
      "step_time": 3.013555916957557
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1387.0,
      "completions/max_terminated_length": 1387.0,
      "completions/mean_length": 803.8125,
      "completions/mean_terminated_length": 803.8125,
      "completions/min_length": 320.0,
      "completions/min_terminated_length": 320.0,
      "entropy": 0.9201287552714348,
      "epoch": 0.05823179370926608,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1982421875,
      "learning_rate": 9.419098894871069e-07,
      "loss": -0.0033,
      "num_tokens": 12330381.0,
      "reward": 0.3203125,
      "reward_std": 0.7835976481437683,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 411,
      "step_time": 46.31494702305645
    },
    {
      "clip_ratio/high_max": 4.086302578798495e-05,
      "clip_ratio/high_mean": 4.086302578798495e-05,
      "clip_ratio/low_mean": 0.00012397472528391518,
      "clip_ratio/low_min": 0.00012397472528391518,
      "clip_ratio/region_mean": 0.00016483775107190013,
      "entropy": 0.8618631362915039,
      "epoch": 0.05837347690563899,
      "grad_norm": 0.205078125,
      "learning_rate": 9.417682062907338e-07,
      "loss": -0.0172,
      "step": 412,
      "step_time": 3.0866446336731315
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1472.0,
      "completions/max_terminated_length": 1472.0,
      "completions/mean_length": 609.390625,
      "completions/mean_terminated_length": 609.390625,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "entropy": 0.705166157335043,
      "epoch": 0.0585151601020119,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.66015625,
      "learning_rate": 9.416265230943609e-07,
      "loss": -0.0402,
      "num_tokens": 12382262.0,
      "reward": 0.4296875,
      "reward_std": 0.7961573600769043,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 413,
      "step_time": 48.72208120673895
    },
    {
      "clip_ratio/high_max": 0.00014029181329533458,
      "clip_ratio/high_mean": 0.00014029181329533458,
      "clip_ratio/low_mean": 0.0005110045822220854,
      "clip_ratio/low_min": 0.0005110045822220854,
      "clip_ratio/region_mean": 0.00065129639551742,
      "entropy": 0.7757118605077267,
      "epoch": 0.05865684329838481,
      "grad_norm": 0.7109375,
      "learning_rate": 9.414848398979881e-07,
      "loss": 0.1182,
      "step": 414,
      "step_time": 3.290788209065795
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2144.0,
      "completions/max_terminated_length": 2144.0,
      "completions/mean_length": 905.15625,
      "completions/mean_terminated_length": 905.15625,
      "completions/min_length": 2.0,
      "completions/min_terminated_length": 2.0,
      "entropy": 0.6638506501913071,
      "epoch": 0.058798526494757725,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.328125,
      "learning_rate": 9.413431567016151e-07,
      "loss": 0.0197,
      "num_tokens": 12452432.0,
      "reward": 0.2421875,
      "reward_std": 0.5491132140159607,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 415,
      "step_time": 73.15681100357324
    },
    {
      "clip_ratio/high_max": 0.0002206339777330868,
      "clip_ratio/high_mean": 0.0002206339777330868,
      "clip_ratio/low_mean": 0.00044158619857626036,
      "clip_ratio/low_min": 0.00044158619857626036,
      "clip_ratio/region_mean": 0.0006622201763093472,
      "entropy": 0.6058580838143826,
      "epoch": 0.05894020969113063,
      "grad_norm": 0.39453125,
      "learning_rate": 9.412014735052423e-07,
      "loss": -0.0166,
      "step": 416,
      "step_time": 4.2904149405658245
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1158.0,
      "completions/max_terminated_length": 1158.0,
      "completions/mean_length": 587.78125,
      "completions/mean_terminated_length": 587.78125,
      "completions/min_length": 207.0,
      "completions/min_terminated_length": 207.0,
      "entropy": 0.8039254806935787,
      "epoch": 0.05908189288750354,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.671875,
      "learning_rate": 9.410597903088693e-07,
      "loss": -0.0198,
      "num_tokens": 12498706.0,
      "reward": 0.5546875,
      "reward_std": 0.8550373315811157,
      "rewards/accuracy_reward_func/mean": 0.4375,
      "rewards/accuracy_reward_func/std": 0.8333333730697632,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 417,
      "step_time": 37.96564437635243
    },
    {
      "clip_ratio/high_max": 0.00042280978595954366,
      "clip_ratio/high_mean": 0.00042280978595954366,
      "clip_ratio/low_mean": 0.0007018619508016855,
      "clip_ratio/low_min": 0.0007018619508016855,
      "clip_ratio/region_mean": 0.0011246717476751655,
      "entropy": 0.648179430514574,
      "epoch": 0.059223576083876454,
      "grad_norm": 0.6796875,
      "learning_rate": 9.409181071124965e-07,
      "loss": -0.027,
      "step": 418,
      "step_time": 2.5644642105326056
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1287.0,
      "completions/max_terminated_length": 1287.0,
      "completions/mean_length": 832.5,
      "completions/mean_terminated_length": 832.5,
      "completions/min_length": 419.0,
      "completions/min_terminated_length": 419.0,
      "entropy": 0.6833473332226276,
      "epoch": 0.05936525928024936,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.10205078125,
      "learning_rate": 9.407764239161236e-07,
      "loss": 0.0355,
      "num_tokens": 12562434.0,
      "reward": 0.1328125,
      "reward_std": 0.3590351641178131,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 419,
      "step_time": 42.459637416526675
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 3.359312177053653e-05,
      "clip_ratio/low_min": 3.359312177053653e-05,
      "clip_ratio/region_mean": 3.359312177053653e-05,
      "entropy": 0.8463055267930031,
      "epoch": 0.05950694247662227,
      "grad_norm": 0.205078125,
      "learning_rate": 9.406347407197505e-07,
      "loss": -0.025,
      "step": 420,
      "step_time": 2.877527229487896
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1353.0,
      "completions/max_terminated_length": 1353.0,
      "completions/mean_length": 636.65625,
      "completions/mean_terminated_length": 636.65625,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "entropy": 0.7598495483398438,
      "epoch": 0.059648625672995184,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.59765625,
      "learning_rate": 9.404930575233777e-07,
      "loss": -0.0142,
      "num_tokens": 12612236.0,
      "reward": 0.515625,
      "reward_std": 0.8114691376686096,
      "rewards/accuracy_reward_func/mean": 0.4375,
      "rewards/accuracy_reward_func/std": 0.8333333730697632,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 421,
      "step_time": 45.10426812339574
    },
    {
      "clip_ratio/high_max": 0.00041557543954695575,
      "clip_ratio/high_mean": 0.00041557543954695575,
      "clip_ratio/low_mean": 0.0004606227194017265,
      "clip_ratio/low_min": 0.0004606227194017265,
      "clip_ratio/region_mean": 0.0008761981371208094,
      "entropy": 0.7206955850124359,
      "epoch": 0.05979030886936809,
      "grad_norm": 0.55859375,
      "learning_rate": 9.403513743270047e-07,
      "loss": 0.014,
      "step": 422,
      "step_time": 2.9196853330358863
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1159.0,
      "completions/mean_length": 816.859375,
      "completions/mean_terminated_length": 764.8095703125,
      "completions/min_length": 362.0,
      "completions/min_terminated_length": 362.0,
      "entropy": 0.7929710224270821,
      "epoch": 0.059931992065741006,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.59765625,
      "learning_rate": 9.402096911306319e-07,
      "loss": -0.0367,
      "num_tokens": 12674771.0,
      "reward": 0.1015625,
      "reward_std": 0.3692515790462494,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.0390625,
      "rewards/format_reward_func/std": 0.13524486124515533,
      "step": 423,
      "step_time": 164.2708159899339
    },
    {
      "clip_ratio/high_max": 7.638252282049507e-05,
      "clip_ratio/high_mean": 7.638252282049507e-05,
      "clip_ratio/low_mean": 0.000518038657901343,
      "clip_ratio/low_min": 0.000518038657901343,
      "clip_ratio/region_mean": 0.000594421180721838,
      "entropy": 0.7553539797663689,
      "epoch": 0.060073675262113914,
      "grad_norm": 0.30859375,
      "learning_rate": 9.40068007934259e-07,
      "loss": 0.048,
      "step": 424,
      "step_time": 7.135425069369376
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1398.0,
      "completions/max_terminated_length": 1398.0,
      "completions/mean_length": 775.109375,
      "completions/mean_terminated_length": 775.109375,
      "completions/min_length": 328.0,
      "completions/min_terminated_length": 328.0,
      "entropy": 0.7997429370880127,
      "epoch": 0.06021535845848682,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.484375,
      "learning_rate": 9.399263247378861e-07,
      "loss": -0.0022,
      "num_tokens": 12734810.0,
      "reward": 0.1640625,
      "reward_std": 0.38888004422187805,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 425,
      "step_time": 46.346435468643904
    },
    {
      "clip_ratio/high_max": 0.0002789430182019714,
      "clip_ratio/high_mean": 0.0002789430182019714,
      "clip_ratio/low_mean": 0.0002767445403151214,
      "clip_ratio/low_min": 0.0002767445403151214,
      "clip_ratio/region_mean": 0.000555687554879114,
      "entropy": 0.7424007281661034,
      "epoch": 0.060357041654859736,
      "grad_norm": 0.52734375,
      "learning_rate": 9.397846415415132e-07,
      "loss": -0.0149,
      "step": 426,
      "step_time": 3.027911340817809
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1400.0,
      "completions/max_terminated_length": 1400.0,
      "completions/mean_length": 811.765625,
      "completions/mean_terminated_length": 811.765625,
      "completions/min_length": 385.0,
      "completions/min_terminated_length": 385.0,
      "entropy": 0.7497112080454826,
      "epoch": 0.060498724851232644,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.470703125,
      "learning_rate": 9.396429583451401e-07,
      "loss": -0.0479,
      "num_tokens": 12800411.0,
      "reward": 0.4765625,
      "reward_std": 0.8793472051620483,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 427,
      "step_time": 47.16926386207342
    },
    {
      "clip_ratio/high_max": 8.01178248366341e-05,
      "clip_ratio/high_mean": 8.01178248366341e-05,
      "clip_ratio/low_mean": 0.00028189113072585315,
      "clip_ratio/low_min": 0.00028189113072585315,
      "clip_ratio/region_mean": 0.00036200895556248724,
      "entropy": 0.7247271984815598,
      "epoch": 0.06064040804760555,
      "grad_norm": 0.4921875,
      "learning_rate": 9.395012751487673e-07,
      "loss": 0.0453,
      "step": 428,
      "step_time": 3.424895880743861
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1600.0,
      "completions/max_terminated_length": 1600.0,
      "completions/mean_length": 803.578125,
      "completions/mean_terminated_length": 803.578125,
      "completions/min_length": 375.0,
      "completions/min_terminated_length": 375.0,
      "entropy": 0.6064625084400177,
      "epoch": 0.060782091243978466,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1728515625,
      "learning_rate": 9.393595919523944e-07,
      "loss": -0.0049,
      "num_tokens": 12861200.0,
      "reward": 0.40625,
      "reward_std": 0.8677420020103455,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 429,
      "step_time": 53.36714083701372
    },
    {
      "clip_ratio/high_max": 8.434134360868484e-05,
      "clip_ratio/high_mean": 8.434134360868484e-05,
      "clip_ratio/low_mean": 3.968253804487176e-05,
      "clip_ratio/low_min": 3.968253804487176e-05,
      "clip_ratio/region_mean": 0.0001240238816535566,
      "entropy": 0.6881462745368481,
      "epoch": 0.06092377444035137,
      "grad_norm": 0.271484375,
      "learning_rate": 9.392179087560215e-07,
      "loss": 0.0438,
      "step": 430,
      "step_time": 3.3019159380346537
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1307.0,
      "completions/max_terminated_length": 1307.0,
      "completions/mean_length": 804.8125,
      "completions/mean_terminated_length": 804.8125,
      "completions/min_length": 432.0,
      "completions/min_terminated_length": 432.0,
      "entropy": 0.6177928410470486,
      "epoch": 0.06106545763672429,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.51171875,
      "learning_rate": 9.390762255596486e-07,
      "loss": -0.0645,
      "num_tokens": 12921972.0,
      "reward": 0.1640625,
      "reward_std": 0.4459223449230194,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0703125,
      "rewards/format_reward_func/std": 0.1751912236213684,
      "step": 431,
      "step_time": 43.081565987318754
    },
    {
      "clip_ratio/high_max": 0.00021294043108355254,
      "clip_ratio/high_mean": 0.00021294043108355254,
      "clip_ratio/low_mean": 0.000204798903723713,
      "clip_ratio/low_min": 0.000204798903723713,
      "clip_ratio/region_mean": 0.00041773933480726555,
      "entropy": 0.6735813207924366,
      "epoch": 0.061207140833097196,
      "grad_norm": 0.1904296875,
      "learning_rate": 9.389345423632757e-07,
      "loss": 0.0532,
      "step": 432,
      "step_time": 3.0823195315897465
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1068.0,
      "completions/max_terminated_length": 1068.0,
      "completions/mean_length": 638.015625,
      "completions/mean_terminated_length": 638.015625,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "entropy": 1.0229347795248032,
      "epoch": 0.0613488240294701,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2060546875,
      "learning_rate": 9.387928591669028e-07,
      "loss": 0.0383,
      "num_tokens": 12972629.0,
      "reward": 0.28125,
      "reward_std": 0.6893463730812073,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 433,
      "step_time": 35.21897870488465
    },
    {
      "clip_ratio/high_max": 8.457264993921854e-05,
      "clip_ratio/high_mean": 8.457264993921854e-05,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 8.457264993921854e-05,
      "entropy": 0.9457736536860466,
      "epoch": 0.06149050722584302,
      "grad_norm": 0.34375,
      "learning_rate": 9.386511759705299e-07,
      "loss": -0.0361,
      "step": 434,
      "step_time": 2.509107245132327
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1157.0,
      "completions/max_terminated_length": 1157.0,
      "completions/mean_length": 608.375,
      "completions/mean_terminated_length": 608.375,
      "completions/min_length": 295.0,
      "completions/min_terminated_length": 295.0,
      "entropy": 0.9864785969257355,
      "epoch": 0.061632190422215925,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.279296875,
      "learning_rate": 9.385094927741569e-07,
      "loss": 0.0788,
      "num_tokens": 13020093.0,
      "reward": 0.21875,
      "reward_std": 0.4531635046005249,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 435,
      "step_time": 37.782674031332135
    },
    {
      "clip_ratio/high_max": 0.0002466871592332609,
      "clip_ratio/high_mean": 0.0002466871592332609,
      "clip_ratio/low_mean": 0.00015172620624070987,
      "clip_ratio/low_min": 0.00015172620624070987,
      "clip_ratio/region_mean": 0.00039841336547397077,
      "entropy": 0.933598093688488,
      "epoch": 0.06177387361858883,
      "grad_norm": 0.69140625,
      "learning_rate": 9.38367809577784e-07,
      "loss": -0.0821,
      "step": 436,
      "step_time": 2.8804245619103312
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 937.0,
      "completions/max_terminated_length": 937.0,
      "completions/mean_length": 620.6875,
      "completions/mean_terminated_length": 620.6875,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "entropy": 0.7060720771551132,
      "epoch": 0.06191555681496175,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.32421875,
      "learning_rate": 9.382261263814111e-07,
      "loss": -0.028,
      "num_tokens": 13069801.0,
      "reward": 0.5859375,
      "reward_std": 1.0372226238250732,
      "rewards/accuracy_reward_func/mean": 0.46875,
      "rewards/accuracy_reward_func/std": 0.8539125919342041,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 437,
      "step_time": 30.5708218626678
    },
    {
      "clip_ratio/high_max": 0.00014807411207584664,
      "clip_ratio/high_mean": 0.00014807411207584664,
      "clip_ratio/low_mean": 0.00011262289262958802,
      "clip_ratio/low_min": 0.00011262289262958802,
      "clip_ratio/region_mean": 0.00026069700470543467,
      "entropy": 0.6319995000958443,
      "epoch": 0.062057240011334655,
      "grad_norm": 0.3671875,
      "learning_rate": 9.380844431850382e-07,
      "loss": 0.0043,
      "step": 438,
      "step_time": 2.2736287713050842
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1293.0,
      "completions/max_terminated_length": 1293.0,
      "completions/mean_length": 773.53125,
      "completions/mean_terminated_length": 773.53125,
      "completions/min_length": 347.0,
      "completions/min_terminated_length": 347.0,
      "entropy": 0.9053553007543087,
      "epoch": 0.06219892320770756,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2578125,
      "learning_rate": 9.379427599886654e-07,
      "loss": -0.0167,
      "num_tokens": 13129195.0,
      "reward": 0.109375,
      "reward_std": 0.2083333283662796,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 439,
      "step_time": 42.1831443272531
    },
    {
      "clip_ratio/high_max": 0.00028641197059187107,
      "clip_ratio/high_mean": 0.00028641197059187107,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00028641197059187107,
      "entropy": 0.9674035683274269,
      "epoch": 0.06234060640408048,
      "grad_norm": 0.3671875,
      "learning_rate": 9.378010767922924e-07,
      "loss": -0.0088,
      "step": 440,
      "step_time": 2.8518306193873286
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1458.0,
      "completions/max_terminated_length": 1458.0,
      "completions/mean_length": 794.25,
      "completions/mean_terminated_length": 794.25,
      "completions/min_length": 315.0,
      "completions/min_terminated_length": 315.0,
      "entropy": 0.8502907305955887,
      "epoch": 0.062482289600453385,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.443359375,
      "learning_rate": 9.376593935959195e-07,
      "loss": -0.0121,
      "num_tokens": 13191451.0,
      "reward": 0.40625,
      "reward_std": 0.7911965847015381,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 441,
      "step_time": 48.54014606401324
    },
    {
      "clip_ratio/high_max": 0.0002092368813464418,
      "clip_ratio/high_mean": 0.0002092368813464418,
      "clip_ratio/low_mean": 0.00025177620773320086,
      "clip_ratio/low_min": 0.00025177620773320086,
      "clip_ratio/region_mean": 0.00046101308907964267,
      "entropy": 0.7250555641949177,
      "epoch": 0.0626239727968263,
      "grad_norm": 0.50390625,
      "learning_rate": 9.375177103995465e-07,
      "loss": -0.0195,
      "step": 442,
      "step_time": 3.2085672272369266
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1511.0,
      "completions/max_terminated_length": 1511.0,
      "completions/mean_length": 637.65625,
      "completions/mean_terminated_length": 637.65625,
      "completions/min_length": 254.0,
      "completions/min_terminated_length": 254.0,
      "entropy": 0.842124693095684,
      "epoch": 0.06276565599319921,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.37890625,
      "learning_rate": 9.373760272031736e-07,
      "loss": 0.0039,
      "num_tokens": 13244741.0,
      "reward": 0.375,
      "reward_std": 0.7663560509681702,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 443,
      "step_time": 50.94537444226444
    },
    {
      "clip_ratio/high_max": 0.00028118495538365096,
      "clip_ratio/high_mean": 0.00028118495538365096,
      "clip_ratio/low_mean": 0.0005920233561482746,
      "clip_ratio/low_min": 0.0005920233561482746,
      "clip_ratio/region_mean": 0.0008732083188078832,
      "entropy": 0.8848573341965675,
      "epoch": 0.06290733918957211,
      "grad_norm": 0.337890625,
      "learning_rate": 9.372343440068008e-07,
      "loss": 0.0092,
      "step": 444,
      "step_time": 3.358764241449535
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1290.0,
      "completions/max_terminated_length": 1290.0,
      "completions/mean_length": 789.53125,
      "completions/mean_terminated_length": 789.53125,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "entropy": 0.7328075394034386,
      "epoch": 0.06304902238594502,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 9.370926608104278e-07,
      "loss": 0.0,
      "num_tokens": 13305015.0,
      "reward": 0.125,
      "reward_std": 0.2182178944349289,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 445,
      "step_time": 42.46701158210635
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.8481511063873768,
      "epoch": 0.06319070558231794,
      "grad_norm": 0.0,
      "learning_rate": 9.36950977614055e-07,
      "loss": 0.0,
      "step": 446,
      "step_time": 2.796402731910348
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1526.0,
      "completions/max_terminated_length": 1526.0,
      "completions/mean_length": 654.09375,
      "completions/mean_terminated_length": 654.09375,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "entropy": 0.5638933815062046,
      "epoch": 0.06333238877869085,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.453125,
      "learning_rate": 9.36809294417682e-07,
      "loss": -0.0511,
      "num_tokens": 13358013.0,
      "reward": 0.1640625,
      "reward_std": 0.38888004422187805,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 447,
      "step_time": 50.11876513529569
    },
    {
      "clip_ratio/high_max": 5.989458441035822e-05,
      "clip_ratio/high_mean": 5.989458441035822e-05,
      "clip_ratio/low_mean": 0.0005778158229077235,
      "clip_ratio/low_min": 0.0005778158229077235,
      "clip_ratio/region_mean": 0.0006377104073180817,
      "entropy": 0.639745619148016,
      "epoch": 0.06347407197506376,
      "grad_norm": 0.265625,
      "learning_rate": 9.366676112213091e-07,
      "loss": 0.0252,
      "step": 448,
      "step_time": 3.265937796793878
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1325.0,
      "completions/max_terminated_length": 1325.0,
      "completions/mean_length": 652.6875,
      "completions/mean_terminated_length": 652.6875,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "entropy": 0.8157666102051735,
      "epoch": 0.06361575517143667,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.396484375,
      "learning_rate": 9.365259280249362e-07,
      "loss": -0.0364,
      "num_tokens": 13412809.0,
      "reward": 0.421875,
      "reward_std": 0.7777600884437561,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 449,
      "step_time": 44.72743270546198
    },
    {
      "clip_ratio/high_max": 4.297009218134917e-05,
      "clip_ratio/high_mean": 4.297009218134917e-05,
      "clip_ratio/low_mean": 4.015419108327478e-05,
      "clip_ratio/low_min": 4.015419108327478e-05,
      "clip_ratio/region_mean": 8.312428326462395e-05,
      "entropy": 0.850346103310585,
      "epoch": 0.06375743836780957,
      "grad_norm": 0.353515625,
      "learning_rate": 9.363842448285632e-07,
      "loss": 0.0398,
      "step": 450,
      "step_time": 3.2142650010064244
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1528.0,
      "completions/max_terminated_length": 1528.0,
      "completions/mean_length": 837.671875,
      "completions/mean_terminated_length": 837.671875,
      "completions/min_length": 394.0,
      "completions/min_terminated_length": 394.0,
      "entropy": 0.6961662769317627,
      "epoch": 0.06389912156418248,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.373046875,
      "learning_rate": 9.362425616321904e-07,
      "loss": -0.0138,
      "num_tokens": 13476628.0,
      "reward": 0.140625,
      "reward_std": 0.3145764470100403,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 451,
      "step_time": 49.773482353426516
    },
    {
      "clip_ratio/high_max": 0.00017075991490855813,
      "clip_ratio/high_mean": 0.00017075991490855813,
      "clip_ratio/low_mean": 0.0001526349296909757,
      "clip_ratio/low_min": 0.0001526349296909757,
      "clip_ratio/region_mean": 0.0003233948445995338,
      "entropy": 0.8389428108930588,
      "epoch": 0.0640408047605554,
      "grad_norm": 0.26953125,
      "learning_rate": 9.361008784358174e-07,
      "loss": 0.0297,
      "step": 452,
      "step_time": 3.2067825347185135
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1144.0,
      "completions/max_terminated_length": 1144.0,
      "completions/mean_length": 692.953125,
      "completions/mean_terminated_length": 692.953125,
      "completions/min_length": 294.0,
      "completions/min_terminated_length": 294.0,
      "entropy": 1.0509929656982422,
      "epoch": 0.06418248795692831,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.5703125,
      "learning_rate": 9.359591952394446e-07,
      "loss": 0.0412,
      "num_tokens": 13536465.0,
      "reward": 0.109375,
      "reward_std": 0.301698237657547,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 453,
      "step_time": 38.77881547156721
    },
    {
      "clip_ratio/high_max": 8.300674380734563e-05,
      "clip_ratio/high_mean": 8.300674380734563e-05,
      "clip_ratio/low_mean": 0.0003068003061343916,
      "clip_ratio/low_min": 0.0003068003061343916,
      "clip_ratio/region_mean": 0.0003898070499417372,
      "entropy": 1.2465354800224304,
      "epoch": 0.06432417115330122,
      "grad_norm": 0.2470703125,
      "learning_rate": 9.358175120430717e-07,
      "loss": -0.0081,
      "step": 454,
      "step_time": 2.9791737906634808
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1769.0,
      "completions/mean_length": 843.609375,
      "completions/mean_terminated_length": 791.9841918945312,
      "completions/min_length": 374.0,
      "completions/min_terminated_length": 374.0,
      "entropy": 0.6378727704286575,
      "epoch": 0.06446585434967413,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5234375,
      "learning_rate": 9.356758288466987e-07,
      "loss": -0.0211,
      "num_tokens": 13599928.0,
      "reward": 0.234375,
      "reward_std": 0.5037065148353577,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 455,
      "step_time": 162.82115071825683
    },
    {
      "clip_ratio/high_max": 0.0005544388804992195,
      "clip_ratio/high_mean": 0.0005544388804992195,
      "clip_ratio/low_mean": 0.0004077499979757704,
      "clip_ratio/low_min": 0.0004077499979757704,
      "clip_ratio/region_mean": 0.0009621888857509475,
      "entropy": 0.7693994119763374,
      "epoch": 0.06460753754604703,
      "grad_norm": 0.359375,
      "learning_rate": 9.355341456503258e-07,
      "loss": 0.0363,
      "step": 456,
      "step_time": 7.087587708607316
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 986.0,
      "completions/max_terminated_length": 986.0,
      "completions/mean_length": 651.015625,
      "completions/mean_terminated_length": 651.015625,
      "completions/min_length": 271.0,
      "completions/min_terminated_length": 271.0,
      "entropy": 0.9513567090034485,
      "epoch": 0.06474922074241996,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.498046875,
      "learning_rate": 9.353924624539529e-07,
      "loss": 0.005,
      "num_tokens": 13652089.0,
      "reward": 0.4921875,
      "reward_std": 0.789274275302887,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 457,
      "step_time": 32.21846052818
    },
    {
      "clip_ratio/high_max": 0.0005847455577168148,
      "clip_ratio/high_mean": 0.0005847455577168148,
      "clip_ratio/low_mean": 4.172229819232598e-05,
      "clip_ratio/low_min": 4.172229819232598e-05,
      "clip_ratio/region_mean": 0.0006264678559091408,
      "entropy": 1.0447964742779732,
      "epoch": 0.06489090393879286,
      "grad_norm": 0.41796875,
      "learning_rate": 9.3525077925758e-07,
      "loss": -0.0097,
      "step": 458,
      "step_time": 2.581866334192455
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1102.0,
      "completions/max_terminated_length": 1102.0,
      "completions/mean_length": 626.6875,
      "completions/mean_terminated_length": 626.6875,
      "completions/min_length": 63.0,
      "completions/min_terminated_length": 63.0,
      "entropy": 0.8777370154857635,
      "epoch": 0.06503258713516577,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.53125,
      "learning_rate": 9.351090960612071e-07,
      "loss": 0.0191,
      "num_tokens": 13702149.0,
      "reward": 0.4609375,
      "reward_std": 0.8371564149856567,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 459,
      "step_time": 36.56372998189181
    },
    {
      "clip_ratio/high_max": 0.00010201125769526698,
      "clip_ratio/high_mean": 0.00010201125769526698,
      "clip_ratio/low_mean": 0.0007365797937382013,
      "clip_ratio/low_min": 0.0007365797937382013,
      "clip_ratio/region_mean": 0.0008385910514334682,
      "entropy": 0.7988253831863403,
      "epoch": 0.06517427033153868,
      "grad_norm": 0.56640625,
      "learning_rate": 9.349674128648342e-07,
      "loss": 0.0083,
      "step": 460,
      "step_time": 2.555449804291129
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1271.0,
      "completions/max_terminated_length": 1271.0,
      "completions/mean_length": 723.296875,
      "completions/mean_terminated_length": 723.296875,
      "completions/min_length": 345.0,
      "completions/min_terminated_length": 345.0,
      "entropy": 0.5943651646375656,
      "epoch": 0.06531595352791159,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.498046875,
      "learning_rate": 9.348257296684613e-07,
      "loss": -0.0533,
      "num_tokens": 13760504.0,
      "reward": 0.2578125,
      "reward_std": 0.5772965550422668,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 461,
      "step_time": 42.17041715979576
    },
    {
      "clip_ratio/high_max": 0.00020340435730759054,
      "clip_ratio/high_mean": 0.00020340435730759054,
      "clip_ratio/low_mean": 0.0002444508791086264,
      "clip_ratio/low_min": 0.0002444508791086264,
      "clip_ratio/region_mean": 0.00044785523641621694,
      "entropy": 0.6104193031787872,
      "epoch": 0.0654576367242845,
      "grad_norm": 0.443359375,
      "learning_rate": 9.346840464720883e-07,
      "loss": 0.036,
      "step": 462,
      "step_time": 3.069290188141167
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1303.0,
      "completions/max_terminated_length": 1303.0,
      "completions/mean_length": 616.171875,
      "completions/mean_terminated_length": 616.171875,
      "completions/min_length": 287.0,
      "completions/min_terminated_length": 287.0,
      "entropy": 0.7712856382131577,
      "epoch": 0.06559931992065741,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.52734375,
      "learning_rate": 9.345423632757154e-07,
      "loss": -0.0634,
      "num_tokens": 13819843.0,
      "reward": 0.421875,
      "reward_std": 0.7465197443962097,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 463,
      "step_time": 46.04695382993668
    },
    {
      "clip_ratio/high_max": 0.000471841158287134,
      "clip_ratio/high_mean": 0.000471841158287134,
      "clip_ratio/low_mean": 0.0005257988123048563,
      "clip_ratio/low_min": 0.0005257988123048563,
      "clip_ratio/region_mean": 0.000997639974229969,
      "entropy": 0.924994707107544,
      "epoch": 0.06574100311703032,
      "grad_norm": 0.546875,
      "learning_rate": 9.344006800793426e-07,
      "loss": 0.093,
      "step": 464,
      "step_time": 3.6165712140500546
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1518.0,
      "completions/max_terminated_length": 1518.0,
      "completions/mean_length": 810.171875,
      "completions/mean_terminated_length": 810.171875,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "entropy": 0.8303199112415314,
      "epoch": 0.06588268631340323,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.28515625,
      "learning_rate": 9.342589968829696e-07,
      "loss": 0.023,
      "num_tokens": 13884302.0,
      "reward": 0.125,
      "reward_std": 0.37796446681022644,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.0625,
      "rewards/format_reward_func/std": 0.1666666716337204,
      "step": 465,
      "step_time": 51.21313983667642
    },
    {
      "clip_ratio/high_max": 0.00041572697955416515,
      "clip_ratio/high_mean": 0.00041572697955416515,
      "clip_ratio/low_mean": 0.00011910202374565415,
      "clip_ratio/low_min": 0.00011910202374565415,
      "clip_ratio/region_mean": 0.0005348290069377981,
      "entropy": 0.7473896220326424,
      "epoch": 0.06602436950977614,
      "grad_norm": 0.388671875,
      "learning_rate": 9.341173136865968e-07,
      "loss": -0.0412,
      "step": 466,
      "step_time": 3.634934118948877
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1291.0,
      "completions/max_terminated_length": 1291.0,
      "completions/mean_length": 763.59375,
      "completions/mean_terminated_length": 763.59375,
      "completions/min_length": 323.0,
      "completions/min_terminated_length": 323.0,
      "entropy": 0.9018391445279121,
      "epoch": 0.06616605270614904,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.53125,
      "learning_rate": 9.339756304902238e-07,
      "loss": -0.0656,
      "num_tokens": 13947348.0,
      "reward": 0.2734375,
      "reward_std": 0.6167611479759216,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 467,
      "step_time": 44.030913934111595
    },
    {
      "clip_ratio/high_max": 0.0002062073181150481,
      "clip_ratio/high_mean": 0.0002062073181150481,
      "clip_ratio/low_mean": 0.0004026666210847907,
      "clip_ratio/low_min": 0.0004026666210847907,
      "clip_ratio/region_mean": 0.00060887393556186,
      "entropy": 0.8615948334336281,
      "epoch": 0.06630773590252197,
      "grad_norm": 0.4921875,
      "learning_rate": 9.338339472938509e-07,
      "loss": 0.0693,
      "step": 468,
      "step_time": 3.2505803145468235
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1165.0,
      "completions/max_terminated_length": 1165.0,
      "completions/mean_length": 575.21875,
      "completions/mean_terminated_length": 575.21875,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "entropy": 1.0270413756370544,
      "epoch": 0.06644941909889487,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.52734375,
      "learning_rate": 9.336922640974781e-07,
      "loss": 0.1109,
      "num_tokens": 13994562.0,
      "reward": 0.2109375,
      "reward_std": 0.5024123191833496,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 469,
      "step_time": 38.9018814638257
    },
    {
      "clip_ratio/high_max": 0.0007245785927807447,
      "clip_ratio/high_mean": 0.0007245785927807447,
      "clip_ratio/low_mean": 0.00048813738976605237,
      "clip_ratio/low_min": 0.00048813738976605237,
      "clip_ratio/region_mean": 0.001212715982546797,
      "entropy": 1.066605158150196,
      "epoch": 0.06659110229526778,
      "grad_norm": 0.7265625,
      "learning_rate": 9.33550580901105e-07,
      "loss": -0.1044,
      "step": 470,
      "step_time": 2.723268510773778
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1217.0,
      "completions/max_terminated_length": 1217.0,
      "completions/mean_length": 776.609375,
      "completions/mean_terminated_length": 776.609375,
      "completions/min_length": 275.0,
      "completions/min_terminated_length": 275.0,
      "entropy": 0.8427885472774506,
      "epoch": 0.06673278549164069,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.322265625,
      "learning_rate": 9.334088977047322e-07,
      "loss": 0.0224,
      "num_tokens": 14057561.0,
      "reward": 0.2109375,
      "reward_std": 0.4525473415851593,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 471,
      "step_time": 41.06181363854557
    },
    {
      "clip_ratio/high_max": 0.00029941852699266747,
      "clip_ratio/high_mean": 0.00029941852699266747,
      "clip_ratio/low_mean": 0.00035377115636947565,
      "clip_ratio/low_min": 0.00035377115636947565,
      "clip_ratio/region_mean": 0.0006531896833621431,
      "entropy": 0.5795299187302589,
      "epoch": 0.0668744686880136,
      "grad_norm": 0.57421875,
      "learning_rate": 9.332672145083592e-07,
      "loss": -0.0285,
      "step": 472,
      "step_time": 3.0786307509988546
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1199.0,
      "completions/max_terminated_length": 1199.0,
      "completions/mean_length": 653.203125,
      "completions/mean_terminated_length": 653.203125,
      "completions/min_length": 15.0,
      "completions/min_terminated_length": 15.0,
      "entropy": 0.7999462932348251,
      "epoch": 0.06701615188438652,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.6953125,
      "learning_rate": 9.331255313119864e-07,
      "loss": -0.0637,
      "num_tokens": 14107862.0,
      "reward": 0.2109375,
      "reward_std": 0.5024123191833496,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 473,
      "step_time": 39.08551215752959
    },
    {
      "clip_ratio/high_max": 0.00026659350260160863,
      "clip_ratio/high_mean": 0.00026659350260160863,
      "clip_ratio/low_mean": 0.0006302744332060684,
      "clip_ratio/low_min": 0.0006302744332060684,
      "clip_ratio/region_mean": 0.0008968679467216134,
      "entropy": 0.9824737831950188,
      "epoch": 0.06715783508075943,
      "grad_norm": 0.447265625,
      "learning_rate": 9.329838481156135e-07,
      "loss": 0.0693,
      "step": 474,
      "step_time": 2.6488375207409263
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2043.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 768.015625,
      "completions/mean_terminated_length": 768.015625,
      "completions/min_length": 299.0,
      "completions/min_terminated_length": 299.0,
      "entropy": 0.7163424529135227,
      "epoch": 0.06729951827713233,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.435546875,
      "learning_rate": 9.328421649192405e-07,
      "loss": 0.0161,
      "num_tokens": 14165927.0,
      "reward": 0.3984375,
      "reward_std": 0.7081144452095032,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 475,
      "step_time": 68.02656771987677
    },
    {
      "clip_ratio/high_max": 0.00018434939556755126,
      "clip_ratio/high_mean": 0.00018434939556755126,
      "clip_ratio/low_mean": 0.0004246061471349094,
      "clip_ratio/low_min": 0.0004246061471349094,
      "clip_ratio/region_mean": 0.000608955535426503,
      "entropy": 0.6523982845246792,
      "epoch": 0.06744120147350524,
      "grad_norm": 0.423828125,
      "learning_rate": 9.327004817228677e-07,
      "loss": 0.0058,
      "step": 476,
      "step_time": 3.964928228408098
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1552.0,
      "completions/max_terminated_length": 1552.0,
      "completions/mean_length": 818.96875,
      "completions/mean_terminated_length": 818.96875,
      "completions/min_length": 361.0,
      "completions/min_terminated_length": 361.0,
      "entropy": 0.9014770835638046,
      "epoch": 0.06758288466987815,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.361328125,
      "learning_rate": 9.325587985264946e-07,
      "loss": -0.0372,
      "num_tokens": 14230101.0,
      "reward": 0.15625,
      "reward_std": 0.4443204402923584,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0625,
      "rewards/format_reward_func/std": 0.1666666716337204,
      "step": 477,
      "step_time": 51.0490758176893
    },
    {
      "clip_ratio/high_max": 0.00023547084856545553,
      "clip_ratio/high_mean": 0.00023547084856545553,
      "clip_ratio/low_mean": 8.378775237360969e-05,
      "clip_ratio/low_min": 8.378775237360969e-05,
      "clip_ratio/region_mean": 0.0003192586009390652,
      "entropy": 0.9556346461176872,
      "epoch": 0.06772456786625106,
      "grad_norm": 0.376953125,
      "learning_rate": 9.324171153301218e-07,
      "loss": 0.0542,
      "step": 478,
      "step_time": 3.301836862228811
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1649.0,
      "completions/max_terminated_length": 1649.0,
      "completions/mean_length": 838.6875,
      "completions/mean_terminated_length": 838.6875,
      "completions/min_length": 383.0,
      "completions/min_terminated_length": 383.0,
      "entropy": 0.7118698321282864,
      "epoch": 0.06786625106262398,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.41015625,
      "learning_rate": 9.322754321337489e-07,
      "loss": -0.0703,
      "num_tokens": 14293041.0,
      "reward": 0.3359375,
      "reward_std": 0.7185450792312622,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 479,
      "step_time": 54.93729795049876
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00014101342458161525,
      "clip_ratio/low_min": 0.00014101342458161525,
      "clip_ratio/region_mean": 0.00014101342458161525,
      "entropy": 0.6008714511990547,
      "epoch": 0.06800793425899689,
      "grad_norm": 0.212890625,
      "learning_rate": 9.32133748937376e-07,
      "loss": 0.0809,
      "step": 480,
      "step_time": 3.368280083872378
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1654.0,
      "completions/max_terminated_length": 1654.0,
      "completions/mean_length": 893.71875,
      "completions/mean_terminated_length": 893.71875,
      "completions/min_length": 367.0,
      "completions/min_terminated_length": 367.0,
      "entropy": 0.5435431264340878,
      "epoch": 0.0681496174553698,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.31640625,
      "learning_rate": 9.319920657410031e-07,
      "loss": -0.0139,
      "num_tokens": 14359679.0,
      "reward": 0.0390625,
      "reward_std": 0.13524484634399414,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0390625,
      "rewards/format_reward_func/std": 0.13524486124515533,
      "step": 481,
      "step_time": 54.39350892044604
    },
    {
      "clip_ratio/high_max": 6.860592839075252e-05,
      "clip_ratio/high_mean": 6.860592839075252e-05,
      "clip_ratio/low_mean": 6.860592839075252e-05,
      "clip_ratio/low_min": 6.860592839075252e-05,
      "clip_ratio/region_mean": 0.00013721185678150505,
      "entropy": 0.4323313422501087,
      "epoch": 0.0682913006517427,
      "grad_norm": 0.17578125,
      "learning_rate": 9.318503825446301e-07,
      "loss": 0.0237,
      "step": 482,
      "step_time": 3.4594343807548285
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1236.0,
      "completions/max_terminated_length": 1236.0,
      "completions/mean_length": 671.0,
      "completions/mean_terminated_length": 671.0,
      "completions/min_length": 340.0,
      "completions/min_terminated_length": 340.0,
      "entropy": 0.5812954492866993,
      "epoch": 0.06843298384811561,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.361328125,
      "learning_rate": 9.317086993482573e-07,
      "loss": -0.0398,
      "num_tokens": 14416527.0,
      "reward": 0.1875,
      "reward_std": 0.39339789748191833,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 483,
      "step_time": 40.868230713531375
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 8.477705341647379e-05,
      "clip_ratio/low_min": 8.477705341647379e-05,
      "clip_ratio/region_mean": 8.477705341647379e-05,
      "entropy": 0.8896511420607567,
      "epoch": 0.06857466704448853,
      "grad_norm": 0.11181640625,
      "learning_rate": 9.315670161518843e-07,
      "loss": 0.0302,
      "step": 484,
      "step_time": 3.0845791893079877
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1302.0,
      "completions/max_terminated_length": 1302.0,
      "completions/mean_length": 787.5,
      "completions/mean_terminated_length": 787.5,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "entropy": 0.7780619710683823,
      "epoch": 0.06871635024086144,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.240234375,
      "learning_rate": 9.314253329555114e-07,
      "loss": 0.0901,
      "num_tokens": 14479119.0,
      "reward": 0.234375,
      "reward_std": 0.6422230005264282,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.046875,
      "rewards/format_reward_func/std": 0.14689241349697113,
      "step": 485,
      "step_time": 42.90672669745982
    },
    {
      "clip_ratio/high_max": 0.00041936232446460053,
      "clip_ratio/high_mean": 0.00041936232446460053,
      "clip_ratio/low_mean": 0.00022730281489202753,
      "clip_ratio/low_min": 0.00022730281489202753,
      "clip_ratio/region_mean": 0.0006466651466325857,
      "entropy": 0.694273054599762,
      "epoch": 0.06885803343723434,
      "grad_norm": 0.478515625,
      "learning_rate": 9.312836497591385e-07,
      "loss": -0.0798,
      "step": 486,
      "step_time": 2.9810178270563483
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1494.0,
      "completions/max_terminated_length": 1494.0,
      "completions/mean_length": 870.109375,
      "completions/mean_terminated_length": 870.109375,
      "completions/min_length": 431.0,
      "completions/min_terminated_length": 431.0,
      "entropy": 0.66171720251441,
      "epoch": 0.06899971663360725,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2578125,
      "learning_rate": 9.311419665627657e-07,
      "loss": 0.0075,
      "num_tokens": 14544886.0,
      "reward": 0.2578125,
      "reward_std": 0.6171631813049316,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.0703125,
      "rewards/format_reward_func/std": 0.1751912236213684,
      "step": 487,
      "step_time": 49.727340635843575
    },
    {
      "clip_ratio/high_max": 0.00010454634320922196,
      "clip_ratio/high_mean": 0.00010454634320922196,
      "clip_ratio/low_mean": 3.8759688322898e-05,
      "clip_ratio/low_min": 3.8759688322898e-05,
      "clip_ratio/region_mean": 0.00014330603153211996,
      "entropy": 0.6932411976158619,
      "epoch": 0.06914139982998016,
      "grad_norm": 0.408203125,
      "learning_rate": 9.310002833663927e-07,
      "loss": -0.0194,
      "step": 488,
      "step_time": 3.4369462030008435
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 940.0,
      "completions/max_terminated_length": 940.0,
      "completions/mean_length": 520.953125,
      "completions/mean_terminated_length": 520.953125,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "entropy": 0.679877694696188,
      "epoch": 0.06928308302635307,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.58984375,
      "learning_rate": 9.308586001700199e-07,
      "loss": 0.0326,
      "num_tokens": 14589699.0,
      "reward": 0.15625,
      "reward_std": 0.3870421051979065,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 489,
      "step_time": 31.34846506267786
    },
    {
      "clip_ratio/high_max": 0.0002508045836293604,
      "clip_ratio/high_mean": 0.0002508045836293604,
      "clip_ratio/low_mean": 0.0002150035543309059,
      "clip_ratio/low_min": 0.0002150035543309059,
      "clip_ratio/region_mean": 0.0004658081379602663,
      "entropy": 0.7971492633223534,
      "epoch": 0.06942476622272599,
      "grad_norm": 0.466796875,
      "learning_rate": 9.307169169736469e-07,
      "loss": -0.0592,
      "step": 490,
      "step_time": 2.310050904750824
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 937.0,
      "completions/max_terminated_length": 937.0,
      "completions/mean_length": 619.125,
      "completions/mean_terminated_length": 619.125,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "entropy": 1.1405346915125847,
      "epoch": 0.0695664494190989,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.408203125,
      "learning_rate": 9.305752337772739e-07,
      "loss": -0.0065,
      "num_tokens": 14645147.0,
      "reward": 0.234375,
      "reward_std": 0.5037065148353577,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 491,
      "step_time": 31.874808063730597
    },
    {
      "clip_ratio/high_max": 4.578754669637419e-05,
      "clip_ratio/high_mean": 4.578754669637419e-05,
      "clip_ratio/low_mean": 0.00013736264372710139,
      "clip_ratio/low_min": 0.00013736264372710139,
      "clip_ratio/region_mean": 0.00018315018678549677,
      "entropy": 0.8448661342263222,
      "epoch": 0.0697081326154718,
      "grad_norm": 0.51171875,
      "learning_rate": 9.304335505809011e-07,
      "loss": 0.0017,
      "step": 492,
      "step_time": 2.6874635042622685
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1063.0,
      "completions/max_terminated_length": 1063.0,
      "completions/mean_length": 593.703125,
      "completions/mean_terminated_length": 593.703125,
      "completions/min_length": 310.0,
      "completions/min_terminated_length": 310.0,
      "entropy": 1.0391138195991516,
      "epoch": 0.06984981581184471,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.478515625,
      "learning_rate": 9.302918673845281e-07,
      "loss": 0.0613,
      "num_tokens": 14693992.0,
      "reward": 0.2578125,
      "reward_std": 0.5491132140159607,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 493,
      "step_time": 35.15748050622642
    },
    {
      "clip_ratio/high_max": 0.0006085437562433071,
      "clip_ratio/high_mean": 0.0006085437562433071,
      "clip_ratio/low_mean": 0.00010645430302247405,
      "clip_ratio/low_min": 0.00010645430302247405,
      "clip_ratio/region_mean": 0.0007149980592657812,
      "entropy": 1.0249507203698158,
      "epoch": 0.06999149900821762,
      "grad_norm": 0.60546875,
      "learning_rate": 9.301501841881553e-07,
      "loss": -0.051,
      "step": 494,
      "step_time": 2.5099813416600227
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1393.0,
      "completions/max_terminated_length": 1393.0,
      "completions/mean_length": 532.75,
      "completions/mean_terminated_length": 532.75,
      "completions/min_length": 10.0,
      "completions/min_terminated_length": 10.0,
      "entropy": 0.8420858904719353,
      "epoch": 0.07013318220459054,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5859375,
      "learning_rate": 9.300085009917823e-07,
      "loss": -0.0115,
      "num_tokens": 14736664.0,
      "reward": 0.5625,
      "reward_std": 0.8333333134651184,
      "rewards/accuracy_reward_func/mean": 0.4375,
      "rewards/accuracy_reward_func/std": 0.8333333730697632,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 495,
      "step_time": 45.90050884243101
    },
    {
      "clip_ratio/high_max": 0.00016152655734913424,
      "clip_ratio/high_mean": 0.00016152655734913424,
      "clip_ratio/low_mean": 0.0004019687512482051,
      "clip_ratio/low_min": 0.0004019687512482051,
      "clip_ratio/region_mean": 0.0005634953049593605,
      "entropy": 0.7464403361082077,
      "epoch": 0.07027486540096345,
      "grad_norm": 0.53515625,
      "learning_rate": 9.298668177954095e-07,
      "loss": 0.0333,
      "step": 496,
      "step_time": 2.9211858296766877
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1622.0,
      "completions/max_terminated_length": 1622.0,
      "completions/mean_length": 722.328125,
      "completions/mean_terminated_length": 722.328125,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "entropy": 0.9072705134749413,
      "epoch": 0.07041654859733636,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.427734375,
      "learning_rate": 9.297251345990366e-07,
      "loss": -0.0682,
      "num_tokens": 14794829.0,
      "reward": 0.21875,
      "reward_std": 0.5335936546325684,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 497,
      "step_time": 53.82406777795404
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0003154906698910054,
      "clip_ratio/low_min": 0.0003154906698910054,
      "clip_ratio/region_mean": 0.0003154906698910054,
      "entropy": 0.8514531515538692,
      "epoch": 0.07055823179370926,
      "grad_norm": 0.2314453125,
      "learning_rate": 9.295834514026635e-07,
      "loss": 0.0999,
      "step": 498,
      "step_time": 3.5599107993766665
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1809.0,
      "completions/max_terminated_length": 1809.0,
      "completions/mean_length": 892.171875,
      "completions/mean_terminated_length": 892.171875,
      "completions/min_length": 377.0,
      "completions/min_terminated_length": 377.0,
      "entropy": 0.8812898322939873,
      "epoch": 0.07069991499008217,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.388671875,
      "learning_rate": 9.294417682062907e-07,
      "loss": -0.0552,
      "num_tokens": 14864712.0,
      "reward": 0.390625,
      "reward_std": 0.7208281755447388,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 499,
      "step_time": 59.99477671086788
    },
    {
      "clip_ratio/high_max": 0.00035865077006747015,
      "clip_ratio/high_mean": 0.00035865077006747015,
      "clip_ratio/low_mean": 0.00016417795814049896,
      "clip_ratio/low_min": 0.00016417795814049896,
      "clip_ratio/region_mean": 0.0005228287318459479,
      "entropy": 0.814829595386982,
      "epoch": 0.0708415981864551,
      "grad_norm": 0.4765625,
      "learning_rate": 9.293000850099177e-07,
      "loss": 0.0374,
      "step": 500,
      "step_time": 3.7691010357812047
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1572.0,
      "completions/max_terminated_length": 1572.0,
      "completions/mean_length": 865.046875,
      "completions/mean_terminated_length": 865.046875,
      "completions/min_length": 444.0,
      "completions/min_terminated_length": 444.0,
      "entropy": 0.5792115554213524,
      "epoch": 0.070983281382828,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.50390625,
      "learning_rate": 9.291584018135449e-07,
      "loss": 0.0304,
      "num_tokens": 14929627.0,
      "reward": 0.28125,
      "reward_std": 0.5900968313217163,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 501,
      "step_time": 51.71793925669044
    },
    {
      "clip_ratio/high_max": 0.0002582520537544042,
      "clip_ratio/high_mean": 0.0002582520537544042,
      "clip_ratio/low_mean": 0.0007788404091115808,
      "clip_ratio/low_min": 0.0007788404091115808,
      "clip_ratio/region_mean": 0.001037092471960932,
      "entropy": 0.6430368609726429,
      "epoch": 0.07112496457920091,
      "grad_norm": 0.421875,
      "learning_rate": 9.29016718617172e-07,
      "loss": -0.0947,
      "step": 502,
      "step_time": 3.338276053778827
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1405.0,
      "completions/max_terminated_length": 1405.0,
      "completions/mean_length": 733.40625,
      "completions/mean_terminated_length": 733.40625,
      "completions/min_length": 378.0,
      "completions/min_terminated_length": 378.0,
      "entropy": 0.8380118235945702,
      "epoch": 0.07126664777557382,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.515625,
      "learning_rate": 9.288750354207991e-07,
      "loss": 0.0566,
      "num_tokens": 14988373.0,
      "reward": 0.171875,
      "reward_std": 0.3905505836009979,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 503,
      "step_time": 46.45132699981332
    },
    {
      "clip_ratio/high_max": 0.0002827902244462166,
      "clip_ratio/high_mean": 0.0002827902244462166,
      "clip_ratio/low_mean": 0.00030079056159593165,
      "clip_ratio/low_min": 0.00030079056159593165,
      "clip_ratio/region_mean": 0.0005835807933181059,
      "entropy": 0.8636567443609238,
      "epoch": 0.07140833097194672,
      "grad_norm": 0.3125,
      "learning_rate": 9.287333522244262e-07,
      "loss": -0.0477,
      "step": 504,
      "step_time": 3.134072438813746
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1579.0,
      "completions/max_terminated_length": 1579.0,
      "completions/mean_length": 798.703125,
      "completions/mean_terminated_length": 798.703125,
      "completions/min_length": 236.0,
      "completions/min_terminated_length": 236.0,
      "entropy": 0.9635309502482414,
      "epoch": 0.07155001416831963,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.42578125,
      "learning_rate": 9.285916690280531e-07,
      "loss": 0.0982,
      "num_tokens": 15049346.0,
      "reward": 0.296875,
      "reward_std": 0.6281666159629822,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 505,
      "step_time": 51.82400958519429
    },
    {
      "clip_ratio/high_max": 0.00044444241575547494,
      "clip_ratio/high_mean": 0.00044444241575547494,
      "clip_ratio/low_mean": 7.487271795980632e-05,
      "clip_ratio/low_min": 7.487271795980632e-05,
      "clip_ratio/region_mean": 0.0005193151337152813,
      "entropy": 0.8780703283846378,
      "epoch": 0.07169169736469255,
      "grad_norm": 0.390625,
      "learning_rate": 9.284499858316803e-07,
      "loss": -0.0744,
      "step": 506,
      "step_time": 3.492308326996863
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1975.0,
      "completions/max_terminated_length": 1975.0,
      "completions/mean_length": 843.578125,
      "completions/mean_terminated_length": 843.578125,
      "completions/min_length": 411.0,
      "completions/min_terminated_length": 411.0,
      "entropy": 0.8409274071455002,
      "epoch": 0.07183338056106546,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.451171875,
      "learning_rate": 9.283083026353074e-07,
      "loss": -0.0485,
      "num_tokens": 15115783.0,
      "reward": 0.1328125,
      "reward_std": 0.3117053508758545,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 507,
      "step_time": 65.76619033608586
    },
    {
      "clip_ratio/high_max": 0.00012852344298153184,
      "clip_ratio/high_mean": 0.00012852344298153184,
      "clip_ratio/low_mean": 0.0003054956832784228,
      "clip_ratio/low_min": 0.0003054956832784228,
      "clip_ratio/region_mean": 0.00043401912989793345,
      "entropy": 0.662108052521944,
      "epoch": 0.07197506375743837,
      "grad_norm": 0.25,
      "learning_rate": 9.281666194389345e-07,
      "loss": 0.0392,
      "step": 508,
      "step_time": 3.974997282959521
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1283.0,
      "completions/max_terminated_length": 1283.0,
      "completions/mean_length": 611.015625,
      "completions/mean_terminated_length": 611.015625,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "entropy": 0.6858589984476566,
      "epoch": 0.07211674695381128,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.7890625,
      "learning_rate": 9.280249362425616e-07,
      "loss": -0.0254,
      "num_tokens": 15163032.0,
      "reward": 0.203125,
      "reward_std": 0.4517931640148163,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 509,
      "step_time": 41.49009440187365
    },
    {
      "clip_ratio/high_max": 0.00035938419023295864,
      "clip_ratio/high_mean": 0.00035938419023295864,
      "clip_ratio/low_mean": 0.0005055588990217075,
      "clip_ratio/low_min": 0.0005055588990217075,
      "clip_ratio/region_mean": 0.0008649431038065813,
      "entropy": 0.81718510389328,
      "epoch": 0.07225843015018418,
      "grad_norm": 0.375,
      "learning_rate": 9.278832530461887e-07,
      "loss": -0.0118,
      "step": 510,
      "step_time": 2.962144987657666
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1718.0,
      "completions/max_terminated_length": 1718.0,
      "completions/mean_length": 787.5625,
      "completions/mean_terminated_length": 787.5625,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "entropy": 0.8613435328006744,
      "epoch": 0.0724001133465571,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.435546875,
      "learning_rate": 9.277415698498158e-07,
      "loss": 0.0698,
      "num_tokens": 15226380.0,
      "reward": 0.1484375,
      "reward_std": 0.3172261714935303,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 511,
      "step_time": 56.53142237942666
    },
    {
      "clip_ratio/high_max": 0.0004855471197515726,
      "clip_ratio/high_mean": 0.0004855471197515726,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0004855471197515726,
      "entropy": 0.7547659352421761,
      "epoch": 0.07254179654293001,
      "grad_norm": 0.37109375,
      "learning_rate": 9.275998866534429e-07,
      "loss": -0.0462,
      "step": 512,
      "step_time": 3.5491079231724143
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1349.0,
      "completions/max_terminated_length": 1349.0,
      "completions/mean_length": 741.140625,
      "completions/mean_terminated_length": 741.140625,
      "completions/min_length": 5.0,
      "completions/min_terminated_length": 5.0,
      "entropy": 0.7778441160917282,
      "epoch": 0.07268347973930292,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.52734375,
      "learning_rate": 9.274582034570699e-07,
      "loss": 0.0966,
      "num_tokens": 15284549.0,
      "reward": 0.546875,
      "reward_std": 0.8578246235847473,
      "rewards/accuracy_reward_func/mean": 0.4375,
      "rewards/accuracy_reward_func/std": 0.8333333730697632,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 513,
      "step_time": 44.14973829500377
    },
    {
      "clip_ratio/high_max": 0.00018894433742389083,
      "clip_ratio/high_mean": 0.00018894433742389083,
      "clip_ratio/low_mean": 0.00028568572815856896,
      "clip_ratio/low_min": 0.00028568572815856896,
      "clip_ratio/region_mean": 0.0004746300583065022,
      "entropy": 0.6128574348986149,
      "epoch": 0.07282516293567583,
      "grad_norm": 0.490234375,
      "learning_rate": 9.27316520260697e-07,
      "loss": -0.0982,
      "step": 514,
      "step_time": 3.1649464704096317
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1291.0,
      "completions/max_terminated_length": 1291.0,
      "completions/mean_length": 759.953125,
      "completions/mean_terminated_length": 759.953125,
      "completions/min_length": 316.0,
      "completions/min_terminated_length": 316.0,
      "entropy": 0.6149050630629063,
      "epoch": 0.07296684613204873,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.30859375,
      "learning_rate": 9.271748370643241e-07,
      "loss": 0.05,
      "num_tokens": 15341826.0,
      "reward": 0.203125,
      "reward_std": 0.4517931640148163,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 515,
      "step_time": 42.17524171900004
    },
    {
      "clip_ratio/high_max": 0.000716089900379302,
      "clip_ratio/high_mean": 0.000716089900379302,
      "clip_ratio/low_mean": 0.00029699848528252915,
      "clip_ratio/low_min": 0.00029699848528252915,
      "clip_ratio/region_mean": 0.0010130883856618311,
      "entropy": 0.5123257488012314,
      "epoch": 0.07310852932842164,
      "grad_norm": 0.404296875,
      "learning_rate": 9.270331538679512e-07,
      "loss": -0.0855,
      "step": 516,
      "step_time": 2.7749812295660377
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1753.0,
      "completions/max_terminated_length": 1753.0,
      "completions/mean_length": 873.78125,
      "completions/mean_terminated_length": 873.78125,
      "completions/min_length": 349.0,
      "completions/min_terminated_length": 349.0,
      "entropy": 0.6947341039776802,
      "epoch": 0.07325021252479456,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.40625,
      "learning_rate": 9.268914706715784e-07,
      "loss": -0.0605,
      "num_tokens": 15407940.0,
      "reward": 0.203125,
      "reward_std": 0.4517931640148163,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 517,
      "step_time": 58.09001208841801
    },
    {
      "clip_ratio/high_max": 0.0002339220700378064,
      "clip_ratio/high_mean": 0.0002339220700378064,
      "clip_ratio/low_mean": 0.0003205830307706492,
      "clip_ratio/low_min": 0.0003205830307706492,
      "clip_ratio/region_mean": 0.0005545051062654238,
      "entropy": 0.6687031425535679,
      "epoch": 0.07339189572116747,
      "grad_norm": 0.423828125,
      "learning_rate": 9.267497874752054e-07,
      "loss": 0.0388,
      "step": 518,
      "step_time": 3.688237752765417
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1314.0,
      "completions/max_terminated_length": 1314.0,
      "completions/mean_length": 780.484375,
      "completions/mean_terminated_length": 780.484375,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "entropy": 0.5494555756449699,
      "epoch": 0.07353357891754038,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2490234375,
      "learning_rate": 9.266081042788326e-07,
      "loss": 0.0054,
      "num_tokens": 15468435.0,
      "reward": 0.1875,
      "reward_std": 0.4671765863895416,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 519,
      "step_time": 43.43287270423025
    },
    {
      "clip_ratio/high_max": 4.340277882874943e-05,
      "clip_ratio/high_mean": 4.340277882874943e-05,
      "clip_ratio/low_mean": 3.682970054796897e-05,
      "clip_ratio/low_min": 3.682970054796897e-05,
      "clip_ratio/region_mean": 8.02324793767184e-05,
      "entropy": 0.6988971307873726,
      "epoch": 0.07367526211391329,
      "grad_norm": 0.267578125,
      "learning_rate": 9.264664210824595e-07,
      "loss": 0.0132,
      "step": 520,
      "step_time": 2.8865203550085425
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1392.0,
      "completions/max_terminated_length": 1392.0,
      "completions/mean_length": 749.34375,
      "completions/mean_terminated_length": 749.34375,
      "completions/min_length": 360.0,
      "completions/min_terminated_length": 360.0,
      "entropy": 0.9742304757237434,
      "epoch": 0.0738169453102862,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5234375,
      "learning_rate": 9.263247378860866e-07,
      "loss": 0.0379,
      "num_tokens": 15527385.0,
      "reward": 0.4375,
      "reward_std": 0.7426892518997192,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 521,
      "step_time": 46.519324521534145
    },
    {
      "clip_ratio/high_max": 0.0008433991533820517,
      "clip_ratio/high_mean": 0.0008433991533820517,
      "clip_ratio/low_mean": 0.00028284109066589735,
      "clip_ratio/low_min": 0.00028284109066589735,
      "clip_ratio/region_mean": 0.0011262402331340127,
      "entropy": 0.8902518078684807,
      "epoch": 0.07395862850665912,
      "grad_norm": 0.462890625,
      "learning_rate": 9.261830546897138e-07,
      "loss": -0.0008,
      "step": 522,
      "step_time": 3.101771251298487
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1387.0,
      "completions/max_terminated_length": 1387.0,
      "completions/mean_length": 711.828125,
      "completions/mean_terminated_length": 711.828125,
      "completions/min_length": 302.0,
      "completions/min_terminated_length": 302.0,
      "entropy": 0.8813696131110191,
      "epoch": 0.07410031170303202,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.48046875,
      "learning_rate": 9.260413714933408e-07,
      "loss": -0.0409,
      "num_tokens": 15583198.0,
      "reward": 0.2421875,
      "reward_std": 0.5344644784927368,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 523,
      "step_time": 46.35841538012028
    },
    {
      "clip_ratio/high_max": 6.596306047867984e-05,
      "clip_ratio/high_mean": 6.596306047867984e-05,
      "clip_ratio/low_mean": 0.0005512517855095211,
      "clip_ratio/low_min": 0.0005512517855095211,
      "clip_ratio/region_mean": 0.000617214845988201,
      "entropy": 0.88605847209692,
      "epoch": 0.07424199489940493,
      "grad_norm": 0.193359375,
      "learning_rate": 9.25899688296968e-07,
      "loss": 0.0352,
      "step": 524,
      "step_time": 3.0469322623685002
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1270.0,
      "completions/max_terminated_length": 1270.0,
      "completions/mean_length": 727.546875,
      "completions/mean_terminated_length": 727.546875,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "entropy": 0.706268198788166,
      "epoch": 0.07438367809577784,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.427734375,
      "learning_rate": 9.25758005100595e-07,
      "loss": -0.0009,
      "num_tokens": 15641265.0,
      "reward": 0.359375,
      "reward_std": 0.704119086265564,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 525,
      "step_time": 42.7458181893453
    },
    {
      "clip_ratio/high_max": 7.352940883720294e-05,
      "clip_ratio/high_mean": 7.352940883720294e-05,
      "clip_ratio/low_mean": 0.0006420141362468712,
      "clip_ratio/low_min": 0.0006420141362468712,
      "clip_ratio/region_mean": 0.0007155435450840741,
      "entropy": 0.8894348815083504,
      "epoch": 0.07452536129215075,
      "grad_norm": 0.515625,
      "learning_rate": 9.256163219042222e-07,
      "loss": 0.0096,
      "step": 526,
      "step_time": 2.985947072505951
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1779.0,
      "completions/max_terminated_length": 1779.0,
      "completions/mean_length": 871.875,
      "completions/mean_terminated_length": 871.875,
      "completions/min_length": 324.0,
      "completions/min_terminated_length": 324.0,
      "entropy": 0.8207667842507362,
      "epoch": 0.07466704448852367,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.3984375,
      "learning_rate": 9.254746387078492e-07,
      "loss": 0.0757,
      "num_tokens": 15706521.0,
      "reward": 0.3671875,
      "reward_std": 0.6914568543434143,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 527,
      "step_time": 59.75152911245823
    },
    {
      "clip_ratio/high_max": 0.0006443889178626705,
      "clip_ratio/high_mean": 0.0006443889178626705,
      "clip_ratio/low_mean": 0.0005443196787382476,
      "clip_ratio/low_min": 0.0005443196787382476,
      "clip_ratio/region_mean": 0.0011887086147908121,
      "entropy": 0.6665064878761768,
      "epoch": 0.07480872768489658,
      "grad_norm": 0.5859375,
      "learning_rate": 9.253329555114763e-07,
      "loss": -0.071,
      "step": 528,
      "step_time": 3.583346222527325
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1292.0,
      "completions/max_terminated_length": 1292.0,
      "completions/mean_length": 702.90625,
      "completions/mean_terminated_length": 702.90625,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "entropy": 0.6315329037606716,
      "epoch": 0.07495041088126948,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.050048828125,
      "learning_rate": 9.251912723151034e-07,
      "loss": 0.0205,
      "num_tokens": 15761475.0,
      "reward": 0.1484375,
      "reward_std": 0.3638385236263275,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 529,
      "step_time": 42.42298674862832
    },
    {
      "clip_ratio/high_max": 0.00020868112915195525,
      "clip_ratio/high_mean": 0.00020868112915195525,
      "clip_ratio/low_mean": 0.00013666249651578255,
      "clip_ratio/low_min": 0.00013666249651578255,
      "clip_ratio/region_mean": 0.0003453436256677378,
      "entropy": 0.7202802449464798,
      "epoch": 0.07509209407764239,
      "grad_norm": 0.427734375,
      "learning_rate": 9.250495891187304e-07,
      "loss": -0.0198,
      "step": 530,
      "step_time": 2.7988753030076623
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1034.0,
      "completions/max_terminated_length": 1034.0,
      "completions/mean_length": 645.078125,
      "completions/mean_terminated_length": 645.078125,
      "completions/min_length": 281.0,
      "completions/min_terminated_length": 281.0,
      "entropy": 0.8505953848361969,
      "epoch": 0.0752337772740153,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.443359375,
      "learning_rate": 9.249079059223576e-07,
      "loss": 0.0908,
      "num_tokens": 15813768.0,
      "reward": 0.34375,
      "reward_std": 0.6228136420249939,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 531,
      "step_time": 33.75428826920688
    },
    {
      "clip_ratio/high_max": 0.0001962783317139838,
      "clip_ratio/high_mean": 0.0001962783317139838,
      "clip_ratio/low_mean": 0.0004232663632137701,
      "clip_ratio/low_min": 0.0004232663632137701,
      "clip_ratio/region_mean": 0.0006195446985657327,
      "entropy": 0.7673248052597046,
      "epoch": 0.0753754604703882,
      "grad_norm": 0.5546875,
      "learning_rate": 9.247662227259847e-07,
      "loss": -0.0111,
      "step": 532,
      "step_time": 2.688274339772761
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1339.0,
      "completions/max_terminated_length": 1339.0,
      "completions/mean_length": 681.921875,
      "completions/mean_terminated_length": 681.921875,
      "completions/min_length": 274.0,
      "completions/min_terminated_length": 274.0,
      "entropy": 0.6520625911653042,
      "epoch": 0.07551714366676113,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.53515625,
      "learning_rate": 9.246245395296118e-07,
      "loss": -0.0424,
      "num_tokens": 15868259.0,
      "reward": 0.203125,
      "reward_std": 0.4517931640148163,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 533,
      "step_time": 44.657416391186416
    },
    {
      "clip_ratio/high_max": 0.0004077548219356686,
      "clip_ratio/high_mean": 0.0004077548219356686,
      "clip_ratio/low_mean": 0.0011047481020796113,
      "clip_ratio/low_min": 0.0011047481020796113,
      "clip_ratio/region_mean": 0.0015125029094633646,
      "entropy": 0.5810487791895866,
      "epoch": 0.07565882686313403,
      "grad_norm": 0.55078125,
      "learning_rate": 9.244828563332388e-07,
      "loss": 0.0485,
      "step": 534,
      "step_time": 3.074988136999309
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2872.0,
      "completions/max_terminated_length": 2872.0,
      "completions/mean_length": 844.953125,
      "completions/mean_terminated_length": 844.953125,
      "completions/min_length": 396.0,
      "completions/min_terminated_length": 396.0,
      "entropy": 0.5681462250649929,
      "epoch": 0.07580051005950694,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.51953125,
      "learning_rate": 9.243411731368659e-07,
      "loss": 0.0488,
      "num_tokens": 15933712.0,
      "reward": 0.421875,
      "reward_std": 0.71391361951828,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 535,
      "step_time": 102.16836247686297
    },
    {
      "clip_ratio/high_max": 0.00018671659199753776,
      "clip_ratio/high_mean": 0.00018671659199753776,
      "clip_ratio/low_mean": 0.00029710082890233025,
      "clip_ratio/low_min": 0.00029710082890233025,
      "clip_ratio/region_mean": 0.000483817420899868,
      "entropy": 0.9521675556898117,
      "epoch": 0.07594219325587985,
      "grad_norm": 0.314453125,
      "learning_rate": 9.24199489940493e-07,
      "loss": -0.0486,
      "step": 536,
      "step_time": 5.446206074208021
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1386.0,
      "completions/max_terminated_length": 1386.0,
      "completions/mean_length": 642.296875,
      "completions/mean_terminated_length": 642.296875,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "entropy": 0.5643994770944118,
      "epoch": 0.07608387645225276,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.44921875,
      "learning_rate": 9.240578067441202e-07,
      "loss": -0.0599,
      "num_tokens": 15984643.0,
      "reward": 0.7265625,
      "reward_std": 1.0036824941635132,
      "rewards/accuracy_reward_func/mean": 0.625,
      "rewards/accuracy_reward_func/std": 0.934353232383728,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 537,
      "step_time": 45.88928729202598
    },
    {
      "clip_ratio/high_max": 0.0005819908146804664,
      "clip_ratio/high_mean": 0.0005819908146804664,
      "clip_ratio/low_mean": 0.0002338374688406475,
      "clip_ratio/low_min": 0.0002338374688406475,
      "clip_ratio/region_mean": 0.0008158282835211139,
      "entropy": 0.5319652296602726,
      "epoch": 0.07622555964862568,
      "grad_norm": 0.447265625,
      "learning_rate": 9.239161235477472e-07,
      "loss": 0.0583,
      "step": 538,
      "step_time": 2.983450156636536
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1276.0,
      "completions/max_terminated_length": 1276.0,
      "completions/mean_length": 629.4375,
      "completions/mean_terminated_length": 629.4375,
      "completions/min_length": 344.0,
      "completions/min_terminated_length": 344.0,
      "entropy": 0.9076995924115181,
      "epoch": 0.07636724284499859,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.57421875,
      "learning_rate": 9.237744403513743e-07,
      "loss": 0.0989,
      "num_tokens": 16033487.0,
      "reward": 0.359375,
      "reward_std": 0.6574888825416565,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 539,
      "step_time": 41.52438886184245
    },
    {
      "clip_ratio/high_max": 0.0007723769995209295,
      "clip_ratio/high_mean": 0.0007723769995209295,
      "clip_ratio/low_mean": 0.0005461611908685882,
      "clip_ratio/low_min": 0.0005461611908685882,
      "clip_ratio/region_mean": 0.0013185381867515389,
      "entropy": 0.6895400173962116,
      "epoch": 0.0765089260413715,
      "grad_norm": 0.85546875,
      "learning_rate": 9.236327571550014e-07,
      "loss": -0.0787,
      "step": 540,
      "step_time": 2.976260321214795
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1690.0,
      "completions/max_terminated_length": 1690.0,
      "completions/mean_length": 871.75,
      "completions/mean_terminated_length": 871.75,
      "completions/min_length": 400.0,
      "completions/min_terminated_length": 400.0,
      "entropy": 0.47133617475628853,
      "epoch": 0.0766506092377444,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.921875,
      "learning_rate": 9.234910739586284e-07,
      "loss": 0.0017,
      "num_tokens": 16099503.0,
      "reward": 0.4765625,
      "reward_std": 0.8793472051620483,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 541,
      "step_time": 55.65947033651173
    },
    {
      "clip_ratio/high_max": 0.000150895124534145,
      "clip_ratio/high_mean": 0.000150895124534145,
      "clip_ratio/low_mean": 0.0002507747230993118,
      "clip_ratio/low_min": 0.0002507747230993118,
      "clip_ratio/region_mean": 0.000401669843995478,
      "entropy": 0.5795439034700394,
      "epoch": 0.07679229243411731,
      "grad_norm": 0.390625,
      "learning_rate": 9.233493907622556e-07,
      "loss": 0.0419,
      "step": 542,
      "step_time": 3.4851801879704
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1534.0,
      "completions/max_terminated_length": 1534.0,
      "completions/mean_length": 788.453125,
      "completions/mean_terminated_length": 788.453125,
      "completions/min_length": 329.0,
      "completions/min_terminated_length": 329.0,
      "entropy": 0.7471129037439823,
      "epoch": 0.07693397563049022,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.451171875,
      "learning_rate": 9.232077075658826e-07,
      "loss": -0.1,
      "num_tokens": 16159356.0,
      "reward": 0.140625,
      "reward_std": 0.3145764470100403,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 543,
      "step_time": 50.33452339284122
    },
    {
      "clip_ratio/high_max": 0.0002020813299168367,
      "clip_ratio/high_mean": 0.0002020813299168367,
      "clip_ratio/low_mean": 4.729473948827945e-05,
      "clip_ratio/low_min": 4.729473948827945e-05,
      "clip_ratio/region_mean": 0.00024937606940511614,
      "entropy": 0.843046311289072,
      "epoch": 0.07707565882686314,
      "grad_norm": 0.38671875,
      "learning_rate": 9.230660243695098e-07,
      "loss": 0.0941,
      "step": 544,
      "step_time": 3.251671703532338
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1015.0,
      "completions/max_terminated_length": 1015.0,
      "completions/mean_length": 592.046875,
      "completions/mean_terminated_length": 592.046875,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "entropy": 0.863960787653923,
      "epoch": 0.07721734202323605,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.5390625,
      "learning_rate": 9.229243411731368e-07,
      "loss": -0.0009,
      "num_tokens": 16207855.0,
      "reward": 0.25,
      "reward_std": 0.6546536684036255,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 545,
      "step_time": 33.54497459996492
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0003926128374587279,
      "clip_ratio/low_min": 0.0003926128374587279,
      "clip_ratio/region_mean": 0.0003926128374587279,
      "entropy": 0.9680370986461639,
      "epoch": 0.07735902521960895,
      "grad_norm": 0.255859375,
      "learning_rate": 9.227826579767639e-07,
      "loss": 0.0472,
      "step": 546,
      "step_time": 2.432459592819214
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1145.0,
      "completions/max_terminated_length": 1145.0,
      "completions/mean_length": 709.578125,
      "completions/mean_terminated_length": 709.578125,
      "completions/min_length": 352.0,
      "completions/min_terminated_length": 352.0,
      "entropy": 0.8551717922091484,
      "epoch": 0.07750070841598186,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.51953125,
      "learning_rate": 9.226409747803911e-07,
      "loss": 0.0107,
      "num_tokens": 16264084.0,
      "reward": 0.375,
      "reward_std": 0.6900655627250671,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 547,
      "step_time": 38.17561618797481
    },
    {
      "clip_ratio/high_max": 0.0003001907971338369,
      "clip_ratio/high_mean": 0.0003001907971338369,
      "clip_ratio/low_mean": 0.00044753894326277077,
      "clip_ratio/low_min": 0.00044753894326277077,
      "clip_ratio/region_mean": 0.0007477297476725653,
      "entropy": 0.9288173988461494,
      "epoch": 0.07764239161235477,
      "grad_norm": 0.55859375,
      "learning_rate": 9.22499291584018e-07,
      "loss": -0.0214,
      "step": 548,
      "step_time": 2.6495092837139964
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1378.0,
      "completions/max_terminated_length": 1378.0,
      "completions/mean_length": 742.5,
      "completions/mean_terminated_length": 742.5,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "entropy": 1.057184100151062,
      "epoch": 0.07778407480872769,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.396484375,
      "learning_rate": 9.223576083876452e-07,
      "loss": -0.0345,
      "num_tokens": 16325764.0,
      "reward": 0.3671875,
      "reward_std": 0.6914568543434143,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 549,
      "step_time": 47.588283663615584
    },
    {
      "clip_ratio/high_max": 0.0005799353166366927,
      "clip_ratio/high_mean": 0.0005799353166366927,
      "clip_ratio/low_mean": 0.00015574520512018353,
      "clip_ratio/low_min": 0.00015574520512018353,
      "clip_ratio/region_mean": 0.0007356805217568763,
      "entropy": 1.0651891306042671,
      "epoch": 0.0779257580051006,
      "grad_norm": 0.51171875,
      "learning_rate": 9.222159251912722e-07,
      "loss": 0.0609,
      "step": 550,
      "step_time": 3.353217707015574
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1257.0,
      "completions/max_terminated_length": 1257.0,
      "completions/mean_length": 718.9375,
      "completions/mean_terminated_length": 718.9375,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "entropy": 0.8835486322641373,
      "epoch": 0.0780674412014735,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.384765625,
      "learning_rate": 9.220742419948994e-07,
      "loss": -0.0842,
      "num_tokens": 16384096.0,
      "reward": 0.609375,
      "reward_std": 1.0214709043502808,
      "rewards/accuracy_reward_func/mean": 0.5,
      "rewards/accuracy_reward_func/std": 0.8728715777397156,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 551,
      "step_time": 42.249983398243785
    },
    {
      "clip_ratio/high_max": 4.29996543971356e-05,
      "clip_ratio/high_mean": 4.29996543971356e-05,
      "clip_ratio/low_mean": 0.000689486536430195,
      "clip_ratio/low_min": 0.000689486536430195,
      "clip_ratio/region_mean": 0.0007324861908273306,
      "entropy": 0.7005595341324806,
      "epoch": 0.07820912439784641,
      "grad_norm": 0.35546875,
      "learning_rate": 9.219325587985265e-07,
      "loss": 0.0749,
      "step": 552,
      "step_time": 2.8688642010092735
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1420.0,
      "completions/max_terminated_length": 1420.0,
      "completions/mean_length": 753.90625,
      "completions/mean_terminated_length": 753.90625,
      "completions/min_length": 457.0,
      "completions/min_terminated_length": 457.0,
      "entropy": 0.9181027039885521,
      "epoch": 0.07835080759421932,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.361328125,
      "learning_rate": 9.217908756021535e-07,
      "loss": 0.0403,
      "num_tokens": 16445274.0,
      "reward": 0.1484375,
      "reward_std": 0.3172261714935303,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 553,
      "step_time": 47.45762881357223
    },
    {
      "clip_ratio/high_max": 0.0003036476919078268,
      "clip_ratio/high_mean": 0.0003036476919078268,
      "clip_ratio/low_mean": 0.00016796798081486486,
      "clip_ratio/low_min": 0.00016796798081486486,
      "clip_ratio/region_mean": 0.00047161567272269167,
      "entropy": 1.0325806811451912,
      "epoch": 0.07849249079059224,
      "grad_norm": 0.447265625,
      "learning_rate": 9.216491924057807e-07,
      "loss": -0.0517,
      "step": 554,
      "step_time": 3.2900109672918916
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1244.0,
      "completions/max_terminated_length": 1244.0,
      "completions/mean_length": 690.59375,
      "completions/mean_terminated_length": 690.59375,
      "completions/min_length": 219.0,
      "completions/min_terminated_length": 219.0,
      "entropy": 0.6061806082725525,
      "epoch": 0.07863417398696515,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.349609375,
      "learning_rate": 9.215075092094076e-07,
      "loss": 0.0316,
      "num_tokens": 16500144.0,
      "reward": 0.40625,
      "reward_std": 0.75,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 555,
      "step_time": 40.90565386041999
    },
    {
      "clip_ratio/high_max": 0.00015100507152965292,
      "clip_ratio/high_mean": 0.00015100507152965292,
      "clip_ratio/low_mean": 0.00036569054282153957,
      "clip_ratio/low_min": 0.00036569054282153957,
      "clip_ratio/region_mean": 0.0005166956143511925,
      "entropy": 0.5624355003237724,
      "epoch": 0.07877585718333806,
      "grad_norm": 0.373046875,
      "learning_rate": 9.213658260130348e-07,
      "loss": 0.0084,
      "step": 556,
      "step_time": 2.7649958822876215
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1738.0,
      "completions/max_terminated_length": 1738.0,
      "completions/mean_length": 841.40625,
      "completions/mean_terminated_length": 841.40625,
      "completions/min_length": 429.0,
      "completions/min_terminated_length": 429.0,
      "entropy": 0.6094597466289997,
      "epoch": 0.07891754037971097,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.3203125,
      "learning_rate": 9.212241428166619e-07,
      "loss": -0.0011,
      "num_tokens": 16562362.0,
      "reward": 0.28125,
      "reward_std": 0.603396475315094,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 557,
      "step_time": 57.75016153231263
    },
    {
      "clip_ratio/high_max": 8.66551126819104e-05,
      "clip_ratio/high_mean": 8.66551126819104e-05,
      "clip_ratio/low_mean": 0.0001752756434143521,
      "clip_ratio/low_min": 0.0001752756434143521,
      "clip_ratio/region_mean": 0.0002619307560962625,
      "entropy": 0.5309888422489166,
      "epoch": 0.07905922357608387,
      "grad_norm": 0.2373046875,
      "learning_rate": 9.21082459620289e-07,
      "loss": 0.0129,
      "step": 558,
      "step_time": 3.7401350270956755
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1508.0,
      "completions/max_terminated_length": 1508.0,
      "completions/mean_length": 789.09375,
      "completions/mean_terminated_length": 789.09375,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "entropy": 0.6374526508152485,
      "epoch": 0.07920090677245678,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.330078125,
      "learning_rate": 9.209407764239161e-07,
      "loss": 0.0507,
      "num_tokens": 16622000.0,
      "reward": 0.3671875,
      "reward_std": 0.6561200618743896,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 559,
      "step_time": 49.71142589300871
    },
    {
      "clip_ratio/high_max": 0.0004376103497634176,
      "clip_ratio/high_mean": 0.0004376103497634176,
      "clip_ratio/low_mean": 0.00024138080334523693,
      "clip_ratio/low_min": 0.00024138080334523693,
      "clip_ratio/region_mean": 0.0006789911458326969,
      "entropy": 0.774249367415905,
      "epoch": 0.0793425899688297,
      "grad_norm": 0.546875,
      "learning_rate": 9.207990932275432e-07,
      "loss": -0.0203,
      "step": 560,
      "step_time": 3.181482272222638
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1412.0,
      "completions/max_terminated_length": 1412.0,
      "completions/mean_length": 720.953125,
      "completions/mean_terminated_length": 720.953125,
      "completions/min_length": 24.0,
      "completions/min_terminated_length": 24.0,
      "entropy": 0.6173705495893955,
      "epoch": 0.07948427316520261,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2451171875,
      "learning_rate": 9.206574100311703e-07,
      "loss": 0.0433,
      "num_tokens": 16677181.0,
      "reward": 0.3125,
      "reward_std": 0.5875696539878845,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 561,
      "step_time": 45.79840102978051
    },
    {
      "clip_ratio/high_max": 0.00011041531251976267,
      "clip_ratio/high_mean": 0.00011041531251976267,
      "clip_ratio/low_mean": 0.0002455735630064737,
      "clip_ratio/low_min": 0.0002455735630064737,
      "clip_ratio/region_mean": 0.00035598887552623637,
      "entropy": 0.7959883660078049,
      "epoch": 0.07962595636157552,
      "grad_norm": 0.490234375,
      "learning_rate": 9.205157268347973e-07,
      "loss": 0.0033,
      "step": 562,
      "step_time": 3.187628519721329
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1178.0,
      "completions/max_terminated_length": 1178.0,
      "completions/mean_length": 656.640625,
      "completions/mean_terminated_length": 656.640625,
      "completions/min_length": 325.0,
      "completions/min_terminated_length": 325.0,
      "entropy": 1.0148982554674149,
      "epoch": 0.07976763955794842,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.55078125,
      "learning_rate": 9.203740436384244e-07,
      "loss": 0.0224,
      "num_tokens": 16729270.0,
      "reward": 0.40625,
      "reward_std": 0.7175520658493042,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 563,
      "step_time": 39.52420316450298
    },
    {
      "clip_ratio/high_max": 0.0004955864424118772,
      "clip_ratio/high_mean": 0.0004955864424118772,
      "clip_ratio/low_mean": 0.00022829003501101397,
      "clip_ratio/low_min": 0.00022829003501101397,
      "clip_ratio/region_mean": 0.0007238764774228912,
      "entropy": 0.9034084901213646,
      "epoch": 0.07990932275432133,
      "grad_norm": 0.55859375,
      "learning_rate": 9.202323604420515e-07,
      "loss": -0.0137,
      "step": 564,
      "step_time": 2.6686955709010363
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1142.0,
      "completions/max_terminated_length": 1142.0,
      "completions/mean_length": 696.359375,
      "completions/mean_terminated_length": 696.359375,
      "completions/min_length": 323.0,
      "completions/min_terminated_length": 323.0,
      "entropy": 0.7578513473272324,
      "epoch": 0.08005100595069425,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.65234375,
      "learning_rate": 9.200906772456786e-07,
      "loss": -0.0118,
      "num_tokens": 16785389.0,
      "reward": 0.265625,
      "reward_std": 0.548943817615509,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 565,
      "step_time": 37.85550760477781
    },
    {
      "clip_ratio/high_max": 0.00024108174693537876,
      "clip_ratio/high_mean": 0.00024108174693537876,
      "clip_ratio/low_mean": 0.000167026199051179,
      "clip_ratio/low_min": 0.000167026199051179,
      "clip_ratio/region_mean": 0.00040810794234857894,
      "entropy": 0.8502963334321976,
      "epoch": 0.08019268914706716,
      "grad_norm": 0.42578125,
      "learning_rate": 9.199489940493057e-07,
      "loss": 0.0381,
      "step": 566,
      "step_time": 2.6628487445414066
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1404.0,
      "completions/max_terminated_length": 1404.0,
      "completions/mean_length": 793.234375,
      "completions/mean_terminated_length": 793.234375,
      "completions/min_length": 292.0,
      "completions/min_terminated_length": 292.0,
      "entropy": 0.9327889457345009,
      "epoch": 0.08033437234344007,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.061279296875,
      "learning_rate": 9.198073108529329e-07,
      "loss": -0.0147,
      "num_tokens": 16844700.0,
      "reward": 0.1171875,
      "reward_std": 0.21347814798355103,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 567,
      "step_time": 46.602063103578985
    },
    {
      "clip_ratio/high_max": 0.0003437153827690054,
      "clip_ratio/high_mean": 0.0003437153827690054,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0003437153827690054,
      "entropy": 0.9477187767624855,
      "epoch": 0.08047605553981298,
      "grad_norm": 0.39453125,
      "learning_rate": 9.196656276565599e-07,
      "loss": 0.0098,
      "step": 568,
      "step_time": 3.016939364373684
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1806.0,
      "completions/max_terminated_length": 1806.0,
      "completions/mean_length": 837.640625,
      "completions/mean_terminated_length": 837.640625,
      "completions/min_length": 359.0,
      "completions/min_terminated_length": 359.0,
      "entropy": 0.8728585839271545,
      "epoch": 0.08061773873618588,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.34765625,
      "learning_rate": 9.195239444601869e-07,
      "loss": 0.0414,
      "num_tokens": 16909589.0,
      "reward": 0.2265625,
      "reward_std": 0.5033986568450928,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 569,
      "step_time": 60.51511327363551
    },
    {
      "clip_ratio/high_max": 0.0006722454018017743,
      "clip_ratio/high_mean": 0.0006722454018017743,
      "clip_ratio/low_mean": 0.0001930562921188539,
      "clip_ratio/low_min": 0.0001930562921188539,
      "clip_ratio/region_mean": 0.000865301697558607,
      "entropy": 0.6300197094678879,
      "epoch": 0.08075942193255879,
      "grad_norm": 0.341796875,
      "learning_rate": 9.19382261263814e-07,
      "loss": -0.0044,
      "step": 570,
      "step_time": 3.6562889385968447
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1486.0,
      "completions/max_terminated_length": 1486.0,
      "completions/mean_length": 776.15625,
      "completions/mean_terminated_length": 776.15625,
      "completions/min_length": 311.0,
      "completions/min_terminated_length": 311.0,
      "entropy": 0.9138277396559715,
      "epoch": 0.08090110512893171,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5625,
      "learning_rate": 9.192405780674411e-07,
      "loss": -0.0097,
      "num_tokens": 16968623.0,
      "reward": 0.1796875,
      "reward_std": 0.3920558989048004,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 571,
      "step_time": 48.96706438623369
    },
    {
      "clip_ratio/high_max": 0.00015410005289595574,
      "clip_ratio/high_mean": 0.00015410005289595574,
      "clip_ratio/low_mean": 0.0007135511914384551,
      "clip_ratio/low_min": 0.0007135511914384551,
      "clip_ratio/region_mean": 0.0008676512479723897,
      "entropy": 0.793505422770977,
      "epoch": 0.08104278832530462,
      "grad_norm": 0.326171875,
      "learning_rate": 9.190988948710683e-07,
      "loss": -0.0004,
      "step": 572,
      "step_time": 3.2239202028140426
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1406.0,
      "completions/max_terminated_length": 1406.0,
      "completions/mean_length": 676.25,
      "completions/mean_terminated_length": 676.25,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "entropy": 0.9286611005663872,
      "epoch": 0.08118447152167753,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.28125,
      "learning_rate": 9.189572116746953e-07,
      "loss": 0.0009,
      "num_tokens": 17022671.0,
      "reward": 0.15625,
      "reward_std": 0.36596253514289856,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 573,
      "step_time": 46.11736174952239
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 5.966587195871398e-05,
      "clip_ratio/low_min": 5.966587195871398e-05,
      "clip_ratio/region_mean": 5.966587195871398e-05,
      "entropy": 0.8926355168223381,
      "epoch": 0.08132615471805044,
      "grad_norm": 0.032958984375,
      "learning_rate": 9.188155284783225e-07,
      "loss": 0.0065,
      "step": 574,
      "step_time": 3.0229868050664663
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1290.0,
      "completions/mean_length": 683.4375,
      "completions/mean_terminated_length": 629.2698974609375,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "entropy": 0.8225677162408829,
      "epoch": 0.08146783791442334,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.3125,
      "learning_rate": 9.186738452819495e-07,
      "loss": 0.0312,
      "num_tokens": 17076795.0,
      "reward": 0.1171875,
      "reward_std": 0.3052735924720764,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 575,
      "step_time": 164.22459453810006
    },
    {
      "clip_ratio/high_max": 0.00010775862028822303,
      "clip_ratio/high_mean": 0.00010775862028822303,
      "clip_ratio/low_mean": 0.00048181170495809056,
      "clip_ratio/low_min": 0.00048181170495809056,
      "clip_ratio/region_mean": 0.0005895703252463136,
      "entropy": 0.8021567799150944,
      "epoch": 0.08160952111079627,
      "grad_norm": 0.474609375,
      "learning_rate": 9.185321620855767e-07,
      "loss": -0.0728,
      "step": 576,
      "step_time": 7.246673872694373
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1325.0,
      "completions/max_terminated_length": 1325.0,
      "completions/mean_length": 805.328125,
      "completions/mean_terminated_length": 805.328125,
      "completions/min_length": 359.0,
      "completions/min_terminated_length": 359.0,
      "entropy": 0.7300453148782253,
      "epoch": 0.08175120430716917,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.296875,
      "learning_rate": 9.183904788892037e-07,
      "loss": 0.01,
      "num_tokens": 17139136.0,
      "reward": 0.109375,
      "reward_std": 0.2083333283662796,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 577,
      "step_time": 43.78831507265568
    },
    {
      "clip_ratio/high_max": 4.2186973587377e-05,
      "clip_ratio/high_mean": 4.2186973587377e-05,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 4.2186973587377e-05,
      "entropy": 0.7601292356848717,
      "epoch": 0.08189288750354208,
      "grad_norm": 0.30078125,
      "learning_rate": 9.182487956928307e-07,
      "loss": -0.0016,
      "step": 578,
      "step_time": 3.0216220151633024
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1226.0,
      "completions/max_terminated_length": 1226.0,
      "completions/mean_length": 746.203125,
      "completions/mean_terminated_length": 746.203125,
      "completions/min_length": 344.0,
      "completions/min_terminated_length": 344.0,
      "entropy": 0.7719554826617241,
      "epoch": 0.08203457069991499,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.51171875,
      "learning_rate": 9.181071124964579e-07,
      "loss": -0.0492,
      "num_tokens": 17199661.0,
      "reward": 0.2109375,
      "reward_std": 0.4863590598106384,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 579,
      "step_time": 40.72267504315823
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00040278075175592676,
      "clip_ratio/low_min": 0.00040278075175592676,
      "clip_ratio/region_mean": 0.00040278075175592676,
      "entropy": 0.7848533615469933,
      "epoch": 0.0821762538962879,
      "grad_norm": 0.11474609375,
      "learning_rate": 9.179654293000849e-07,
      "loss": 0.0597,
      "step": 580,
      "step_time": 3.00489401537925
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1330.0,
      "completions/max_terminated_length": 1330.0,
      "completions/mean_length": 680.59375,
      "completions/mean_terminated_length": 680.59375,
      "completions/min_length": 314.0,
      "completions/min_terminated_length": 314.0,
      "entropy": 0.5958398096263409,
      "epoch": 0.08231793709266082,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.6328125,
      "learning_rate": 9.178237461037121e-07,
      "loss": -0.0173,
      "num_tokens": 17258003.0,
      "reward": 0.515625,
      "reward_std": 0.7815772891044617,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 581,
      "step_time": 45.210099504329264
    },
    {
      "clip_ratio/high_max": 0.00026526793953962624,
      "clip_ratio/high_mean": 0.00026526793953962624,
      "clip_ratio/low_mean": 0.000273206449492136,
      "clip_ratio/low_min": 0.000273206449492136,
      "clip_ratio/region_mean": 0.0005384743817558046,
      "entropy": 0.4647866412997246,
      "epoch": 0.08245962028903372,
      "grad_norm": 0.390625,
      "learning_rate": 9.176820629073392e-07,
      "loss": 0.0418,
      "step": 582,
      "step_time": 3.188784181140363
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1288.0,
      "completions/max_terminated_length": 1288.0,
      "completions/mean_length": 750.171875,
      "completions/mean_terminated_length": 750.171875,
      "completions/min_length": 380.0,
      "completions/min_terminated_length": 380.0,
      "entropy": 0.9413028135895729,
      "epoch": 0.08260130348540663,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.306640625,
      "learning_rate": 9.175403797109663e-07,
      "loss": -0.0204,
      "num_tokens": 17317902.0,
      "reward": 0.203125,
      "reward_std": 0.5471335649490356,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 583,
      "step_time": 43.074917659163475
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00022552566952072084,
      "clip_ratio/low_min": 0.00022552566952072084,
      "clip_ratio/region_mean": 0.00022552566952072084,
      "entropy": 0.9897113814949989,
      "epoch": 0.08274298668177954,
      "grad_norm": 0.2734375,
      "learning_rate": 9.173986965145933e-07,
      "loss": 0.0319,
      "step": 584,
      "step_time": 3.078647800721228
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1661.0,
      "completions/max_terminated_length": 1661.0,
      "completions/mean_length": 815.734375,
      "completions/mean_terminated_length": 815.734375,
      "completions/min_length": 409.0,
      "completions/min_terminated_length": 409.0,
      "entropy": 0.7531999424099922,
      "epoch": 0.08288466987815245,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.64453125,
      "learning_rate": 9.172570133182203e-07,
      "loss": -0.0604,
      "num_tokens": 17379837.0,
      "reward": 0.4609375,
      "reward_std": 0.7362748384475708,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 585,
      "step_time": 54.86620208155364
    },
    {
      "clip_ratio/high_max": 0.00039416010986315086,
      "clip_ratio/high_mean": 0.00039416010986315086,
      "clip_ratio/low_mean": 0.0005082494863017928,
      "clip_ratio/low_min": 0.0005082494863017928,
      "clip_ratio/region_mean": 0.0009024095961649437,
      "entropy": 0.7868755534291267,
      "epoch": 0.08302635307452536,
      "grad_norm": 0.40234375,
      "learning_rate": 9.171153301218475e-07,
      "loss": 0.0827,
      "step": 586,
      "step_time": 3.404114576987922
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2679.0,
      "completions/max_terminated_length": 2679.0,
      "completions/mean_length": 884.625,
      "completions/mean_terminated_length": 884.625,
      "completions/min_length": 473.0,
      "completions/min_terminated_length": 473.0,
      "entropy": 0.7876553162932396,
      "epoch": 0.08316803627089828,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.369140625,
      "learning_rate": 9.169736469254746e-07,
      "loss": 0.0334,
      "num_tokens": 17447445.0,
      "reward": 0.1171875,
      "reward_std": 0.21347814798355103,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 587,
      "step_time": 94.90133188292384
    },
    {
      "clip_ratio/high_max": 0.00026913249530480243,
      "clip_ratio/high_mean": 0.00026913249530480243,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00026913249530480243,
      "entropy": 0.8394399173557758,
      "epoch": 0.08330971946727118,
      "grad_norm": 0.06640625,
      "learning_rate": 9.168319637291017e-07,
      "loss": -0.0241,
      "step": 588,
      "step_time": 5.000191669911146
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1178.0,
      "completions/max_terminated_length": 1178.0,
      "completions/mean_length": 708.375,
      "completions/mean_terminated_length": 708.375,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "entropy": 0.6976821720600128,
      "epoch": 0.08345140266364409,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.5234375,
      "learning_rate": 9.166902805327288e-07,
      "loss": 0.0113,
      "num_tokens": 17502301.0,
      "reward": 0.2734375,
      "reward_std": 0.5486613512039185,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 589,
      "step_time": 38.88242924399674
    },
    {
      "clip_ratio/high_max": 8.652082760818303e-05,
      "clip_ratio/high_mean": 8.652082760818303e-05,
      "clip_ratio/low_mean": 0.0002739162664511241,
      "clip_ratio/low_min": 0.0002739162664511241,
      "clip_ratio/region_mean": 0.00036043709405930713,
      "entropy": 0.7605140283703804,
      "epoch": 0.083593085860017,
      "grad_norm": 0.23828125,
      "learning_rate": 9.16548597336356e-07,
      "loss": -0.0043,
      "step": 590,
      "step_time": 2.6378795942291617
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1656.0,
      "completions/max_terminated_length": 1656.0,
      "completions/mean_length": 709.828125,
      "completions/mean_terminated_length": 709.828125,
      "completions/min_length": 35.0,
      "completions/min_terminated_length": 35.0,
      "entropy": 1.0721681863069534,
      "epoch": 0.08373476905638991,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.54296875,
      "learning_rate": 9.164069141399829e-07,
      "loss": -0.0199,
      "num_tokens": 17557906.0,
      "reward": 0.125,
      "reward_std": 0.30860671401023865,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 591,
      "step_time": 54.1551799159497
    },
    {
      "clip_ratio/high_max": 3.9544447645312175e-05,
      "clip_ratio/high_mean": 3.9544447645312175e-05,
      "clip_ratio/low_mean": 0.00013017610763199627,
      "clip_ratio/low_min": 0.00013017610763199627,
      "clip_ratio/region_mean": 0.00016972055527730845,
      "entropy": 0.7834681272506714,
      "epoch": 0.08387645225276283,
      "grad_norm": 0.22265625,
      "learning_rate": 9.1626523094361e-07,
      "loss": -0.0143,
      "step": 592,
      "step_time": 3.3711450016126037
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1212.0,
      "completions/max_terminated_length": 1212.0,
      "completions/mean_length": 808.0,
      "completions/mean_terminated_length": 808.0,
      "completions/min_length": 423.0,
      "completions/min_terminated_length": 423.0,
      "entropy": 0.5816194154322147,
      "epoch": 0.08401813544913574,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.384765625,
      "learning_rate": 9.161235477472371e-07,
      "loss": 0.0681,
      "num_tokens": 17620978.0,
      "reward": 0.3984375,
      "reward_std": 0.7516103982925415,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.0546875,
      "rewards/format_reward_func/std": 0.15728822350502014,
      "step": 593,
      "step_time": 39.787422929890454
    },
    {
      "clip_ratio/high_max": 0.00014239691518014297,
      "clip_ratio/high_mean": 0.00014239691518014297,
      "clip_ratio/low_mean": 0.0005147645315446425,
      "clip_ratio/low_min": 0.0005147645315446425,
      "clip_ratio/region_mean": 0.0006571614685526583,
      "entropy": 0.5271049104630947,
      "epoch": 0.08415981864550864,
      "grad_norm": 0.41796875,
      "learning_rate": 9.159818645508642e-07,
      "loss": -0.0264,
      "step": 594,
      "step_time": 2.7846802743151784
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1207.0,
      "completions/max_terminated_length": 1207.0,
      "completions/mean_length": 792.984375,
      "completions/mean_terminated_length": 792.984375,
      "completions/min_length": 279.0,
      "completions/min_terminated_length": 279.0,
      "entropy": 0.648940097540617,
      "epoch": 0.08430150184188155,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.421875,
      "learning_rate": 9.158401813544914e-07,
      "loss": -0.0043,
      "num_tokens": 17681345.0,
      "reward": 0.21875,
      "reward_std": 0.502967357635498,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 595,
      "step_time": 39.23460701201111
    },
    {
      "clip_ratio/high_max": 0.00020840842262259685,
      "clip_ratio/high_mean": 0.00020840842262259685,
      "clip_ratio/low_mean": 0.0005186088237678632,
      "clip_ratio/low_min": 0.0005186088237678632,
      "clip_ratio/region_mean": 0.0007270172536664177,
      "entropy": 0.6334597989916801,
      "epoch": 0.08444318503825446,
      "grad_norm": 0.3984375,
      "learning_rate": 9.156984981581184e-07,
      "loss": 0.0373,
      "step": 596,
      "step_time": 2.672531682997942
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3115.0,
      "completions/max_terminated_length": 3115.0,
      "completions/mean_length": 860.328125,
      "completions/mean_terminated_length": 860.328125,
      "completions/min_length": 275.0,
      "completions/min_terminated_length": 275.0,
      "entropy": 0.6807905621826649,
      "epoch": 0.08458486823462737,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.173828125,
      "learning_rate": 9.155568149617456e-07,
      "loss": 0.0184,
      "num_tokens": 17747590.0,
      "reward": 0.1875,
      "reward_std": 0.5455447435379028,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 597,
      "step_time": 113.71051448863
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0002613699234643718,
      "clip_ratio/low_min": 0.0002613699234643718,
      "clip_ratio/region_mean": 0.0002613699234643718,
      "entropy": 0.6759688444435596,
      "epoch": 0.08472655143100029,
      "grad_norm": 0.2578125,
      "learning_rate": 9.154151317653725e-07,
      "loss": 0.0101,
      "step": 598,
      "step_time": 5.7268576212227345
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1493.0,
      "completions/max_terminated_length": 1493.0,
      "completions/mean_length": 782.125,
      "completions/mean_terminated_length": 782.125,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "entropy": 0.5184334702789783,
      "epoch": 0.0848682346273732,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.64453125,
      "learning_rate": 9.152734485689997e-07,
      "loss": -0.1562,
      "num_tokens": 17806718.0,
      "reward": 0.5078125,
      "reward_std": 0.7842304110527039,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 599,
      "step_time": 48.68489477876574
    },
    {
      "clip_ratio/high_max": 0.000269730830041226,
      "clip_ratio/high_mean": 0.000269730830041226,
      "clip_ratio/low_mean": 0.0006123510465840809,
      "clip_ratio/low_min": 0.0006123510465840809,
      "clip_ratio/region_mean": 0.0008820818657113705,
      "entropy": 0.5391224659979343,
      "epoch": 0.0850099178237461,
      "grad_norm": 0.5,
      "learning_rate": 9.151317653726268e-07,
      "loss": 0.1299,
      "step": 600,
      "step_time": 3.1370347132906318
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1441.0,
      "completions/max_terminated_length": 1441.0,
      "completions/mean_length": 851.421875,
      "completions/mean_terminated_length": 851.421875,
      "completions/min_length": 569.0,
      "completions/min_terminated_length": 569.0,
      "entropy": 0.8200758174061775,
      "epoch": 0.08515160102011901,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.322265625,
      "learning_rate": 9.149900821762538e-07,
      "loss": 0.0934,
      "num_tokens": 17872793.0,
      "reward": 0.3125,
      "reward_std": 0.613990306854248,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 601,
      "step_time": 47.1507231798023
    },
    {
      "clip_ratio/high_max": 6.80370067129843e-05,
      "clip_ratio/high_mean": 6.80370067129843e-05,
      "clip_ratio/low_mean": 0.0003007189770869445,
      "clip_ratio/low_min": 0.0003007189770869445,
      "clip_ratio/region_mean": 0.0003687559874379076,
      "entropy": 1.0332301408052444,
      "epoch": 0.08529328421649192,
      "grad_norm": 0.5703125,
      "learning_rate": 9.14848398979881e-07,
      "loss": -0.0922,
      "step": 602,
      "step_time": 3.306695742532611
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1354.0,
      "completions/max_terminated_length": 1354.0,
      "completions/mean_length": 664.15625,
      "completions/mean_terminated_length": 664.15625,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "entropy": 0.8160468377172947,
      "epoch": 0.08543496741286484,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.53515625,
      "learning_rate": 9.14706715783508e-07,
      "loss": 0.0648,
      "num_tokens": 17924307.0,
      "reward": 0.2109375,
      "reward_std": 0.4525473415851593,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 603,
      "step_time": 44.45874672103673
    },
    {
      "clip_ratio/high_max": 0.0005166322880540974,
      "clip_ratio/high_mean": 0.0005166322880540974,
      "clip_ratio/low_mean": 0.0001313392785959877,
      "clip_ratio/low_min": 0.0001313392785959877,
      "clip_ratio/region_mean": 0.0006479715666500852,
      "entropy": 0.7797368690371513,
      "epoch": 0.08557665060923775,
      "grad_norm": 0.228515625,
      "learning_rate": 9.145650325871352e-07,
      "loss": -0.0079,
      "step": 604,
      "step_time": 2.9158358238637447
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1087.0,
      "completions/max_terminated_length": 1087.0,
      "completions/mean_length": 718.75,
      "completions/mean_terminated_length": 718.75,
      "completions/min_length": 347.0,
      "completions/min_terminated_length": 347.0,
      "entropy": 0.7565731853246689,
      "epoch": 0.08571833380561066,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1611328125,
      "learning_rate": 9.144233493907622e-07,
      "loss": 0.0588,
      "num_tokens": 17981347.0,
      "reward": 0.140625,
      "reward_std": 0.3615305721759796,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 605,
      "step_time": 35.96476137917489
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.7645031213760376,
      "epoch": 0.08586001700198356,
      "grad_norm": 0.43359375,
      "learning_rate": 9.142816661943893e-07,
      "loss": -0.0657,
      "step": 606,
      "step_time": 2.7080728206783533
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1219.0,
      "completions/max_terminated_length": 1219.0,
      "completions/mean_length": 730.453125,
      "completions/mean_terminated_length": 730.453125,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "entropy": 0.9375292435288429,
      "epoch": 0.08600170019835647,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.390625,
      "learning_rate": 9.141399829980164e-07,
      "loss": -0.0469,
      "num_tokens": 18039008.0,
      "reward": 0.1484375,
      "reward_std": 0.3172261714935303,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 607,
      "step_time": 40.547544500790536
    },
    {
      "clip_ratio/high_max": 0.0004887225841230247,
      "clip_ratio/high_mean": 0.0004887225841230247,
      "clip_ratio/low_mean": 0.0006118954042904079,
      "clip_ratio/low_min": 0.0006118954042904079,
      "clip_ratio/region_mean": 0.0011006179774994962,
      "entropy": 0.7412622049450874,
      "epoch": 0.08614338339472939,
      "grad_norm": 0.4609375,
      "learning_rate": 9.139982998016434e-07,
      "loss": 0.03,
      "step": 608,
      "step_time": 2.807591214776039
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1339.0,
      "completions/max_terminated_length": 1339.0,
      "completions/mean_length": 655.984375,
      "completions/mean_terminated_length": 655.984375,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "entropy": 0.6450988166034222,
      "epoch": 0.0862850665911023,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.77734375,
      "learning_rate": 9.138566166052706e-07,
      "loss": -0.165,
      "num_tokens": 18090687.0,
      "reward": 0.3984375,
      "reward_std": 0.7192350625991821,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 609,
      "step_time": 43.6733627859503
    },
    {
      "clip_ratio/high_max": 0.00039921345887705684,
      "clip_ratio/high_mean": 0.00039921345887705684,
      "clip_ratio/low_mean": 0.0006543721028720029,
      "clip_ratio/low_min": 0.0006543721028720029,
      "clip_ratio/region_mean": 0.001053585554473102,
      "entropy": 0.704863652586937,
      "epoch": 0.08642674978747521,
      "grad_norm": 0.73828125,
      "learning_rate": 9.137149334088977e-07,
      "loss": 0.1395,
      "step": 610,
      "step_time": 3.07647876534611
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1433.0,
      "completions/max_terminated_length": 1433.0,
      "completions/mean_length": 768.5,
      "completions/mean_terminated_length": 768.5,
      "completions/min_length": 49.0,
      "completions/min_terminated_length": 49.0,
      "entropy": 0.835141509771347,
      "epoch": 0.08656843298384811,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.478515625,
      "learning_rate": 9.135732502125248e-07,
      "loss": -0.0063,
      "num_tokens": 18151631.0,
      "reward": 0.1328125,
      "reward_std": 0.3117053508758545,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 611,
      "step_time": 46.91155340988189
    },
    {
      "clip_ratio/high_max": 9.114108979701996e-05,
      "clip_ratio/high_mean": 9.114108979701996e-05,
      "clip_ratio/low_mean": 0.00041597567178541794,
      "clip_ratio/low_min": 0.00041597567178541794,
      "clip_ratio/region_mean": 0.0005071167615824379,
      "entropy": 0.9299651980400085,
      "epoch": 0.08671011618022102,
      "grad_norm": 0.376953125,
      "learning_rate": 9.134315670161518e-07,
      "loss": 0.0537,
      "step": 612,
      "step_time": 3.0760634299367666
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1587.0,
      "completions/max_terminated_length": 1587.0,
      "completions/mean_length": 752.921875,
      "completions/mean_terminated_length": 752.921875,
      "completions/min_length": 338.0,
      "completions/min_terminated_length": 338.0,
      "entropy": 0.8065094538033009,
      "epoch": 0.08685179937659393,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.36328125,
      "learning_rate": 9.132898838197789e-07,
      "loss": 0.0602,
      "num_tokens": 18210538.0,
      "reward": 0.1953125,
      "reward_std": 0.45090022683143616,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 613,
      "step_time": 52.70086646731943
    },
    {
      "clip_ratio/high_max": 0.00023657710698898882,
      "clip_ratio/high_mean": 0.00023657710698898882,
      "clip_ratio/low_mean": 7.869228284107521e-05,
      "clip_ratio/low_min": 7.869228284107521e-05,
      "clip_ratio/region_mean": 0.00031526938983006403,
      "entropy": 0.8098597750067711,
      "epoch": 0.08699348257296685,
      "grad_norm": 0.35546875,
      "learning_rate": 9.13148200623406e-07,
      "loss": -0.0192,
      "step": 614,
      "step_time": 3.3328114580363035
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1273.0,
      "completions/max_terminated_length": 1273.0,
      "completions/mean_length": 763.71875,
      "completions/mean_terminated_length": 763.71875,
      "completions/min_length": 329.0,
      "completions/min_terminated_length": 329.0,
      "entropy": 0.7551110610365868,
      "epoch": 0.08713516576933976,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.376953125,
      "learning_rate": 9.130065174270332e-07,
      "loss": 0.0661,
      "num_tokens": 18268824.0,
      "reward": 0.1953125,
      "reward_std": 0.45090022683143616,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 615,
      "step_time": 42.17440964281559
    },
    {
      "clip_ratio/high_max": 0.0003258607612224296,
      "clip_ratio/high_mean": 0.0003258607612224296,
      "clip_ratio/low_mean": 0.00014112438657321036,
      "clip_ratio/low_min": 0.00014112438657321036,
      "clip_ratio/region_mean": 0.00046698515143361874,
      "entropy": 0.7279860079288483,
      "epoch": 0.08727684896571267,
      "grad_norm": 0.5078125,
      "learning_rate": 9.128648342306602e-07,
      "loss": -0.0788,
      "step": 616,
      "step_time": 2.8306245831772685
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1399.0,
      "completions/max_terminated_length": 1399.0,
      "completions/mean_length": 716.640625,
      "completions/mean_terminated_length": 716.640625,
      "completions/min_length": 313.0,
      "completions/min_terminated_length": 313.0,
      "entropy": 1.0170081555843353,
      "epoch": 0.08741853216208557,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.345703125,
      "learning_rate": 9.127231510342873e-07,
      "loss": 0.0592,
      "num_tokens": 18327713.0,
      "reward": 0.1640625,
      "reward_std": 0.38888004422187805,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 617,
      "step_time": 46.21972333546728
    },
    {
      "clip_ratio/high_max": 0.0005862801881448831,
      "clip_ratio/high_mean": 0.0005862801881448831,
      "clip_ratio/low_mean": 0.00043504992208909243,
      "clip_ratio/low_min": 0.00043504992208909243,
      "clip_ratio/region_mean": 0.0010213301247858908,
      "entropy": 0.9548361375927925,
      "epoch": 0.08756021535845848,
      "grad_norm": 0.66015625,
      "learning_rate": 9.125814678379144e-07,
      "loss": -0.0429,
      "step": 618,
      "step_time": 3.0564528135582805
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1312.0,
      "completions/max_terminated_length": 1312.0,
      "completions/mean_length": 765.265625,
      "completions/mean_terminated_length": 765.265625,
      "completions/min_length": 346.0,
      "completions/min_terminated_length": 346.0,
      "entropy": 0.6286550350487232,
      "epoch": 0.0877018985548314,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.390625,
      "learning_rate": 9.124397846415414e-07,
      "loss": 0.0071,
      "num_tokens": 18393154.0,
      "reward": 0.375,
      "reward_std": 0.7237468957901001,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 619,
      "step_time": 44.48667362704873
    },
    {
      "clip_ratio/high_max": 0.00041539521771483123,
      "clip_ratio/high_mean": 0.00041539521771483123,
      "clip_ratio/low_mean": 0.00025640122476033866,
      "clip_ratio/low_min": 0.00025640122476033866,
      "clip_ratio/region_mean": 0.0006717964461131487,
      "entropy": 0.6248417869210243,
      "epoch": 0.08784358175120431,
      "grad_norm": 0.435546875,
      "learning_rate": 9.122981014451686e-07,
      "loss": -0.0084,
      "step": 620,
      "step_time": 3.215443879365921
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1646.0,
      "completions/max_terminated_length": 1646.0,
      "completions/mean_length": 878.078125,
      "completions/mean_terminated_length": 878.078125,
      "completions/min_length": 356.0,
      "completions/min_terminated_length": 356.0,
      "entropy": 0.605668056756258,
      "epoch": 0.08798526494757722,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.310546875,
      "learning_rate": 9.121564182487956e-07,
      "loss": -0.0007,
      "num_tokens": 18459175.0,
      "reward": 0.296875,
      "reward_std": 0.5890451669692993,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 621,
      "step_time": 54.331844666972756
    },
    {
      "clip_ratio/high_max": 0.0001906326288008131,
      "clip_ratio/high_mean": 0.0001906326288008131,
      "clip_ratio/low_mean": 0.0006764558274880983,
      "clip_ratio/low_min": 0.0006764558274880983,
      "clip_ratio/region_mean": 0.0008670884599268902,
      "entropy": 0.7631960064172745,
      "epoch": 0.08812694814395013,
      "grad_norm": 0.50390625,
      "learning_rate": 9.120147350524228e-07,
      "loss": 0.0415,
      "step": 622,
      "step_time": 3.4401574647054076
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1098.0,
      "completions/max_terminated_length": 1098.0,
      "completions/mean_length": 721.15625,
      "completions/mean_terminated_length": 721.15625,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "entropy": 0.5527927689254284,
      "epoch": 0.08826863134032303,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.365234375,
      "learning_rate": 9.118730518560498e-07,
      "loss": -0.0168,
      "num_tokens": 18517873.0,
      "reward": 0.34375,
      "reward_std": 0.6228136420249939,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 623,
      "step_time": 36.58882919233292
    },
    {
      "clip_ratio/high_max": 3.972036938648671e-05,
      "clip_ratio/high_mean": 3.972036938648671e-05,
      "clip_ratio/low_mean": 0.0002736793612712063,
      "clip_ratio/low_min": 0.0002736793612712063,
      "clip_ratio/region_mean": 0.000313399730657693,
      "entropy": 0.650573618710041,
      "epoch": 0.08841031453669594,
      "grad_norm": 0.44921875,
      "learning_rate": 9.117313686596769e-07,
      "loss": -0.006,
      "step": 624,
      "step_time": 2.637368317693472
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2021.0,
      "completions/max_terminated_length": 2021.0,
      "completions/mean_length": 789.265625,
      "completions/mean_terminated_length": 789.265625,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "entropy": 0.7907086126506329,
      "epoch": 0.08855199773306886,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.3203125,
      "learning_rate": 9.115896854633041e-07,
      "loss": 0.0061,
      "num_tokens": 18579746.0,
      "reward": 0.5859375,
      "reward_std": 0.9409328699111938,
      "rewards/accuracy_reward_func/mean": 0.46875,
      "rewards/accuracy_reward_func/std": 0.8539125919342041,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 625,
      "step_time": 67.18657431099564
    },
    {
      "clip_ratio/high_max": 0.0003034630171896424,
      "clip_ratio/high_mean": 0.0003034630171896424,
      "clip_ratio/low_mean": 5.060728653916158e-05,
      "clip_ratio/low_min": 5.060728653916158e-05,
      "clip_ratio/region_mean": 0.000354070303728804,
      "entropy": 0.5684595219790936,
      "epoch": 0.08869368092944177,
      "grad_norm": 0.3359375,
      "learning_rate": 9.114480022669311e-07,
      "loss": -0.0354,
      "step": 626,
      "step_time": 3.9943290995433927
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1218.0,
      "completions/max_terminated_length": 1218.0,
      "completions/mean_length": 630.875,
      "completions/mean_terminated_length": 630.875,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "entropy": 1.0787415578961372,
      "epoch": 0.08883536412581468,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.435546875,
      "learning_rate": 9.113063190705582e-07,
      "loss": 0.0417,
      "num_tokens": 18629146.0,
      "reward": 0.59375,
      "reward_std": 0.8303518295288086,
      "rewards/accuracy_reward_func/mean": 0.46875,
      "rewards/accuracy_reward_func/std": 0.8539125919342041,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 627,
      "step_time": 39.58743919804692
    },
    {
      "clip_ratio/high_max": 0.0005863151054654736,
      "clip_ratio/high_mean": 0.0005863151054654736,
      "clip_ratio/low_mean": 0.00027850328478962183,
      "clip_ratio/low_min": 0.00027850328478962183,
      "clip_ratio/region_mean": 0.0008648183829791378,
      "entropy": 1.1060118451714516,
      "epoch": 0.08897704732218759,
      "grad_norm": 0.8046875,
      "learning_rate": 9.111646358741852e-07,
      "loss": -0.0551,
      "step": 628,
      "step_time": 2.9359549256041646
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1118.0,
      "completions/max_terminated_length": 1118.0,
      "completions/mean_length": 633.703125,
      "completions/mean_terminated_length": 633.703125,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "entropy": 0.7297395542263985,
      "epoch": 0.0891187305185605,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.64453125,
      "learning_rate": 9.110229526778124e-07,
      "loss": 0.0981,
      "num_tokens": 18678087.0,
      "reward": 0.2890625,
      "reward_std": 0.5896238088607788,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 629,
      "step_time": 36.304175755009055
    },
    {
      "clip_ratio/high_max": 0.0004282442205294501,
      "clip_ratio/high_mean": 0.0004282442205294501,
      "clip_ratio/low_mean": 0.0005899063107790425,
      "clip_ratio/low_min": 0.0005899063107790425,
      "clip_ratio/region_mean": 0.0010181505094806198,
      "entropy": 0.7008906975388527,
      "epoch": 0.08926041371493341,
      "grad_norm": 0.6640625,
      "learning_rate": 9.108812694814395e-07,
      "loss": -0.1099,
      "step": 630,
      "step_time": 2.5331470565870404
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1322.0,
      "completions/max_terminated_length": 1322.0,
      "completions/mean_length": 732.671875,
      "completions/mean_terminated_length": 732.671875,
      "completions/min_length": 457.0,
      "completions/min_terminated_length": 457.0,
      "entropy": 1.0537400022149086,
      "epoch": 0.08940209691130632,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.50390625,
      "learning_rate": 9.107395862850666e-07,
      "loss": -0.0423,
      "num_tokens": 18734258.0,
      "reward": 0.375,
      "reward_std": 0.745356023311615,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 631,
      "step_time": 43.294643708504736
    },
    {
      "clip_ratio/high_max": 0.0001182323758257553,
      "clip_ratio/high_mean": 0.0001182323758257553,
      "clip_ratio/low_mean": 0.00031865835990174673,
      "clip_ratio/low_min": 0.00031865835990174673,
      "clip_ratio/region_mean": 0.00043689073572750203,
      "entropy": 0.9119802340865135,
      "epoch": 0.08954378010767923,
      "grad_norm": 0.60546875,
      "learning_rate": 9.105979030886937e-07,
      "loss": 0.0174,
      "step": 632,
      "step_time": 3.110539968125522
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1804.0,
      "completions/max_terminated_length": 1804.0,
      "completions/mean_length": 784.203125,
      "completions/mean_terminated_length": 784.203125,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "entropy": 0.663517951965332,
      "epoch": 0.08968546330405214,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.296875,
      "learning_rate": 9.104562198923207e-07,
      "loss": 0.0115,
      "num_tokens": 18797599.0,
      "reward": 0.1015625,
      "reward_std": 0.20275263488292694,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 633,
      "step_time": 60.511795359663665
    },
    {
      "clip_ratio/high_max": 0.000156544272613246,
      "clip_ratio/high_mean": 0.000156544272613246,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.000156544272613246,
      "entropy": 0.7130186483263969,
      "epoch": 0.08982714650042505,
      "grad_norm": 0.2001953125,
      "learning_rate": 9.103145366959478e-07,
      "loss": 0.0046,
      "step": 634,
      "step_time": 3.7112897858023643
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1719.0,
      "completions/max_terminated_length": 1719.0,
      "completions/mean_length": 715.328125,
      "completions/mean_terminated_length": 715.328125,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "entropy": 0.6743455491960049,
      "epoch": 0.08996882969679795,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.54296875,
      "learning_rate": 9.101728534995749e-07,
      "loss": -0.0157,
      "num_tokens": 18852772.0,
      "reward": 0.28125,
      "reward_std": 0.5900968313217163,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 635,
      "step_time": 57.4576299181208
    },
    {
      "clip_ratio/high_max": 0.00040840348810888827,
      "clip_ratio/high_mean": 0.00040840348810888827,
      "clip_ratio/low_mean": 0.0004476203648664523,
      "clip_ratio/low_min": 0.0004476203648664523,
      "clip_ratio/region_mean": 0.0008560238566133194,
      "entropy": 0.7899670898914337,
      "epoch": 0.09011051289317087,
      "grad_norm": 0.63671875,
      "learning_rate": 9.10031170303202e-07,
      "loss": 0.0385,
      "step": 636,
      "step_time": 3.5407742662355304
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1519.0,
      "completions/max_terminated_length": 1519.0,
      "completions/mean_length": 720.046875,
      "completions/mean_terminated_length": 720.046875,
      "completions/min_length": 456.0,
      "completions/min_terminated_length": 456.0,
      "entropy": 0.8652518764138222,
      "epoch": 0.09025219608954378,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 9.098894871068291e-07,
      "loss": 0.0,
      "num_tokens": 18907783.0,
      "reward": 0.125,
      "reward_std": 0.2182178944349289,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 637,
      "step_time": 50.505993590690196
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.680102065205574,
      "epoch": 0.09039387928591669,
      "grad_norm": 0.0,
      "learning_rate": 9.097478039104562e-07,
      "loss": 0.0,
      "step": 638,
      "step_time": 3.174591226503253
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3202.0,
      "completions/max_terminated_length": 3202.0,
      "completions/mean_length": 692.578125,
      "completions/mean_terminated_length": 692.578125,
      "completions/min_length": 241.0,
      "completions/min_terminated_length": 241.0,
      "entropy": 0.8108062408864498,
      "epoch": 0.0905355624822896,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.66796875,
      "learning_rate": 9.096061207140833e-07,
      "loss": 0.1664,
      "num_tokens": 18961468.0,
      "reward": 0.421875,
      "reward_std": 0.71391361951828,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 639,
      "step_time": 116.91735974047333
    },
    {
      "clip_ratio/high_max": 0.000556110233446816,
      "clip_ratio/high_mean": 0.000556110233446816,
      "clip_ratio/low_mean": 0.0002581070293672383,
      "clip_ratio/low_min": 0.0002581070293672383,
      "clip_ratio/region_mean": 0.0008142172628140543,
      "entropy": 0.8874003812670708,
      "epoch": 0.0906772456786625,
      "grad_norm": 0.5546875,
      "learning_rate": 9.094644375177104e-07,
      "loss": -0.0829,
      "step": 640,
      "step_time": 5.795684093609452
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1552.0,
      "completions/max_terminated_length": 1552.0,
      "completions/mean_length": 845.515625,
      "completions/mean_terminated_length": 845.515625,
      "completions/min_length": 425.0,
      "completions/min_terminated_length": 425.0,
      "entropy": 0.8715397194027901,
      "epoch": 0.09081892887503543,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.515625,
      "learning_rate": 9.093227543213374e-07,
      "loss": -0.0199,
      "num_tokens": 19025853.0,
      "reward": 0.265625,
      "reward_std": 0.6040127277374268,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 641,
      "step_time": 52.1868529105559
    },
    {
      "clip_ratio/high_max": 0.000147634360473603,
      "clip_ratio/high_mean": 0.000147634360473603,
      "clip_ratio/low_mean": 0.0006353271419357043,
      "clip_ratio/low_min": 0.0006353271419357043,
      "clip_ratio/region_mean": 0.0007829615024093073,
      "entropy": 0.6117232590913773,
      "epoch": 0.09096061207140833,
      "grad_norm": 0.3828125,
      "learning_rate": 9.091810711249645e-07,
      "loss": 0.0201,
      "step": 642,
      "step_time": 3.3234577057883143
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1472.0,
      "completions/max_terminated_length": 1472.0,
      "completions/mean_length": 861.953125,
      "completions/mean_terminated_length": 861.953125,
      "completions/min_length": 372.0,
      "completions/min_terminated_length": 372.0,
      "entropy": 0.8836082741618156,
      "epoch": 0.09110229526778124,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.306640625,
      "learning_rate": 9.090393879285916e-07,
      "loss": -0.0002,
      "num_tokens": 19093578.0,
      "reward": 0.3046875,
      "reward_std": 0.6523290872573853,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 643,
      "step_time": 48.508378150872886
    },
    {
      "clip_ratio/high_max": 0.0002450677056913264,
      "clip_ratio/high_mean": 0.0002450677056913264,
      "clip_ratio/low_mean": 0.00025474554786342196,
      "clip_ratio/low_min": 0.00025474554786342196,
      "clip_ratio/region_mean": 0.0004998132499167696,
      "entropy": 0.7657747454941273,
      "epoch": 0.09124397846415415,
      "grad_norm": 0.48046875,
      "learning_rate": 9.088977047322187e-07,
      "loss": -0.0106,
      "step": 644,
      "step_time": 3.239275866188109
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1436.0,
      "completions/mean_length": 687.828125,
      "completions/mean_terminated_length": 633.730224609375,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "entropy": 0.5299981608986855,
      "epoch": 0.09138566166052706,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.283203125,
      "learning_rate": 9.087560215358459e-07,
      "loss": 0.0175,
      "num_tokens": 19146111.0,
      "reward": 0.2734375,
      "reward_std": 0.6294977068901062,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 645,
      "step_time": 162.4523341814056
    },
    {
      "clip_ratio/high_max": 0.00023233289539348334,
      "clip_ratio/high_mean": 0.00023233289539348334,
      "clip_ratio/low_mean": 0.00017417556955479085,
      "clip_ratio/low_min": 0.00017417556955479085,
      "clip_ratio/region_mean": 0.0004065084649482742,
      "entropy": 0.5533748120069504,
      "epoch": 0.09152734485689998,
      "grad_norm": 0.341796875,
      "learning_rate": 9.086143383394729e-07,
      "loss": -0.0293,
      "step": 646,
      "step_time": 7.22044350579381
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1870.0,
      "completions/max_terminated_length": 1870.0,
      "completions/mean_length": 832.703125,
      "completions/mean_terminated_length": 832.703125,
      "completions/min_length": 395.0,
      "completions/min_terminated_length": 395.0,
      "entropy": 0.3863040693104267,
      "epoch": 0.09166902805327289,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.474609375,
      "learning_rate": 9.084726551431001e-07,
      "loss": -0.1257,
      "num_tokens": 19209452.0,
      "reward": 0.7265625,
      "reward_std": 0.9125652313232422,
      "rewards/accuracy_reward_func/mean": 0.65625,
      "rewards/accuracy_reward_func/std": 0.9464847445487976,
      "rewards/format_reward_func/mean": 0.0703125,
      "rewards/format_reward_func/std": 0.1751912236213684,
      "step": 647,
      "step_time": 61.60914017818868
    },
    {
      "clip_ratio/high_max": 0.0005651330575346947,
      "clip_ratio/high_mean": 0.0005651330575346947,
      "clip_ratio/low_mean": 0.0003707388459588401,
      "clip_ratio/low_min": 0.0003707388459588401,
      "clip_ratio/region_mean": 0.0009358719107694924,
      "entropy": 0.4670625887811184,
      "epoch": 0.0918107112496458,
      "grad_norm": 0.53515625,
      "learning_rate": 9.08330971946727e-07,
      "loss": 0.1635,
      "step": 648,
      "step_time": 3.6969255665317178
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1487.0,
      "completions/max_terminated_length": 1487.0,
      "completions/mean_length": 858.703125,
      "completions/mean_terminated_length": 858.703125,
      "completions/min_length": 429.0,
      "completions/min_terminated_length": 429.0,
      "entropy": 0.68338892608881,
      "epoch": 0.0919523944460187,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.38671875,
      "learning_rate": 9.081892887503541e-07,
      "loss": 0.0342,
      "num_tokens": 19274889.0,
      "reward": 0.2421875,
      "reward_std": 0.503891110420227,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 649,
      "step_time": 49.15556338522583
    },
    {
      "clip_ratio/high_max": 0.0005472208686114755,
      "clip_ratio/high_mean": 0.0005472208686114755,
      "clip_ratio/low_mean": 0.00011235037527512759,
      "clip_ratio/low_min": 0.00011235037527512759,
      "clip_ratio/region_mean": 0.000659571243886603,
      "entropy": 0.7158381789922714,
      "epoch": 0.09209407764239161,
      "grad_norm": 0.1962890625,
      "learning_rate": 9.080476055539813e-07,
      "loss": -0.0103,
      "step": 650,
      "step_time": 3.3868770226836205
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1249.0,
      "completions/max_terminated_length": 1249.0,
      "completions/mean_length": 696.9375,
      "completions/mean_terminated_length": 696.9375,
      "completions/min_length": 423.0,
      "completions/min_terminated_length": 423.0,
      "entropy": 0.8822982087731361,
      "epoch": 0.09223576083876452,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.09423828125,
      "learning_rate": 9.079059223576083e-07,
      "loss": 0.0136,
      "num_tokens": 19331253.0,
      "reward": 0.125,
      "reward_std": 0.35634833574295044,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 651,
      "step_time": 41.578895473852754
    },
    {
      "clip_ratio/high_max": 4.8904537834459916e-05,
      "clip_ratio/high_mean": 4.8904537834459916e-05,
      "clip_ratio/low_mean": 9.469696669839323e-05,
      "clip_ratio/low_min": 9.469696669839323e-05,
      "clip_ratio/region_mean": 0.00014360150453285314,
      "entropy": 1.2016515657305717,
      "epoch": 0.09237744403513744,
      "grad_norm": 0.388671875,
      "learning_rate": 9.077642391612355e-07,
      "loss": 0.008,
      "step": 652,
      "step_time": 2.8596268836408854
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1489.0,
      "completions/max_terminated_length": 1489.0,
      "completions/mean_length": 789.265625,
      "completions/mean_terminated_length": 789.265625,
      "completions/min_length": 400.0,
      "completions/min_terminated_length": 400.0,
      "entropy": 0.6009952202439308,
      "epoch": 0.09251912723151035,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.58984375,
      "learning_rate": 9.076225559648625e-07,
      "loss": -0.0675,
      "num_tokens": 19392646.0,
      "reward": 0.28125,
      "reward_std": 0.6291528940200806,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.0625,
      "rewards/format_reward_func/std": 0.1666666716337204,
      "step": 653,
      "step_time": 49.54802323970944
    },
    {
      "clip_ratio/high_max": 0.0002596936756162904,
      "clip_ratio/high_mean": 0.0002596936756162904,
      "clip_ratio/low_mean": 0.0003547908418113366,
      "clip_ratio/low_min": 0.0003547908418113366,
      "clip_ratio/region_mean": 0.000614484517427627,
      "entropy": 0.7849917262792587,
      "epoch": 0.09266081042788325,
      "grad_norm": 0.546875,
      "learning_rate": 9.074808727684897e-07,
      "loss": 0.0884,
      "step": 654,
      "step_time": 3.4155195262283087
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1591.0,
      "completions/max_terminated_length": 1591.0,
      "completions/mean_length": 886.96875,
      "completions/mean_terminated_length": 886.96875,
      "completions/min_length": 493.0,
      "completions/min_terminated_length": 493.0,
      "entropy": 0.7949339598417282,
      "epoch": 0.09280249362425616,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.515625,
      "learning_rate": 9.073391895721167e-07,
      "loss": -0.0084,
      "num_tokens": 19462676.0,
      "reward": 0.2109375,
      "reward_std": 0.4863590598106384,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 655,
      "step_time": 53.264303140342236
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0005073460088169668,
      "clip_ratio/low_min": 0.0005073460088169668,
      "clip_ratio/region_mean": 0.0005073460088169668,
      "entropy": 0.8559376522898674,
      "epoch": 0.09294417682062907,
      "grad_norm": 0.259765625,
      "learning_rate": 9.071975063757437e-07,
      "loss": 0.0255,
      "step": 656,
      "step_time": 3.4329988984391093
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1759.0,
      "completions/max_terminated_length": 1759.0,
      "completions/mean_length": 695.0,
      "completions/mean_terminated_length": 695.0,
      "completions/min_length": 326.0,
      "completions/min_terminated_length": 326.0,
      "entropy": 0.8795551583170891,
      "epoch": 0.09308586001700199,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.11279296875,
      "learning_rate": 9.070558231793709e-07,
      "loss": 0.0129,
      "num_tokens": 19515476.0,
      "reward": 0.1484375,
      "reward_std": 0.3172261714935303,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 657,
      "step_time": 58.90893027558923
    },
    {
      "clip_ratio/high_max": 0.0004795964377990458,
      "clip_ratio/high_mean": 0.0004795964377990458,
      "clip_ratio/low_mean": 0.0001386807271046564,
      "clip_ratio/low_min": 0.0001386807271046564,
      "clip_ratio/region_mean": 0.0006182771649037022,
      "entropy": 0.7493757084012032,
      "epoch": 0.0932275432133749,
      "grad_norm": 0.59375,
      "learning_rate": 9.069141399829979e-07,
      "loss": -0.0448,
      "step": 658,
      "step_time": 3.5282089272513986
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1073.0,
      "completions/max_terminated_length": 1073.0,
      "completions/mean_length": 686.578125,
      "completions/mean_terminated_length": 686.578125,
      "completions/min_length": 250.0,
      "completions/min_terminated_length": 250.0,
      "entropy": 0.6341033056378365,
      "epoch": 0.0933692264097478,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.408203125,
      "learning_rate": 9.067724567866251e-07,
      "loss": 0.0216,
      "num_tokens": 19569033.0,
      "reward": 0.40625,
      "reward_std": 0.728528618812561,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 659,
      "step_time": 36.53349314350635
    },
    {
      "clip_ratio/high_max": 0.00011042402911698446,
      "clip_ratio/high_mean": 0.00011042402911698446,
      "clip_ratio/low_mean": 0.0008169345564965624,
      "clip_ratio/low_min": 0.0008169345564965624,
      "clip_ratio/region_mean": 0.0009273585856135469,
      "entropy": 0.6570460796356201,
      "epoch": 0.09351090960612071,
      "grad_norm": 0.40234375,
      "learning_rate": 9.066307735902522e-07,
      "loss": -0.0012,
      "step": 660,
      "step_time": 2.5066756987944245
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1341.0,
      "completions/max_terminated_length": 1341.0,
      "completions/mean_length": 693.1875,
      "completions/mean_terminated_length": 693.1875,
      "completions/min_length": 11.0,
      "completions/min_terminated_length": 11.0,
      "entropy": 0.8011503890156746,
      "epoch": 0.09365259280249362,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.34765625,
      "learning_rate": 9.064890903938793e-07,
      "loss": 0.0346,
      "num_tokens": 19622965.0,
      "reward": 0.15625,
      "reward_std": 0.3870421051979065,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 661,
      "step_time": 44.28532446362078
    },
    {
      "clip_ratio/high_max": 0.0004019149928353727,
      "clip_ratio/high_mean": 0.0004019149928353727,
      "clip_ratio/low_mean": 0.00035842793658957817,
      "clip_ratio/low_min": 0.00035842793658957817,
      "clip_ratio/region_mean": 0.0007603429330629297,
      "entropy": 0.82233065366745,
      "epoch": 0.09379427599886653,
      "grad_norm": 0.43359375,
      "learning_rate": 9.063474071975063e-07,
      "loss": -0.0523,
      "step": 662,
      "step_time": 2.895264282822609
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1337.0,
      "completions/max_terminated_length": 1337.0,
      "completions/mean_length": 734.59375,
      "completions/mean_terminated_length": 734.59375,
      "completions/min_length": 12.0,
      "completions/min_terminated_length": 12.0,
      "entropy": 0.7553422339260578,
      "epoch": 0.09393595919523945,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.37890625,
      "learning_rate": 9.062057240011333e-07,
      "loss": -0.0612,
      "num_tokens": 19682267.0,
      "reward": 0.140625,
      "reward_std": 0.3615305721759796,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 663,
      "step_time": 45.29651553556323
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 7.918054689071141e-05,
      "clip_ratio/low_min": 7.918054689071141e-05,
      "clip_ratio/region_mean": 7.918054689071141e-05,
      "entropy": 0.9002204425632954,
      "epoch": 0.09407764239161236,
      "grad_norm": 0.1728515625,
      "learning_rate": 9.060640408047605e-07,
      "loss": 0.0451,
      "step": 664,
      "step_time": 3.086839996278286
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1896.0,
      "completions/max_terminated_length": 1896.0,
      "completions/mean_length": 802.953125,
      "completions/mean_terminated_length": 802.953125,
      "completions/min_length": 293.0,
      "completions/min_terminated_length": 293.0,
      "entropy": 0.5571010746061802,
      "epoch": 0.09421932558798526,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.31640625,
      "learning_rate": 9.059223576083876e-07,
      "loss": 0.0709,
      "num_tokens": 19744312.0,
      "reward": 0.71875,
      "reward_std": 1.1050928831100464,
      "rewards/accuracy_reward_func/mean": 0.59375,
      "rewards/accuracy_reward_func/std": 0.9209855198860168,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 665,
      "step_time": 63.87993048969656
    },
    {
      "clip_ratio/high_max": 0.0002687777559913229,
      "clip_ratio/high_mean": 0.0002687777559913229,
      "clip_ratio/low_mean": 0.000329701531882165,
      "clip_ratio/low_min": 0.000329701531882165,
      "clip_ratio/region_mean": 0.0005984792878734879,
      "entropy": 0.5305163562297821,
      "epoch": 0.09436100878435817,
      "grad_norm": 0.3515625,
      "learning_rate": 9.057806744120147e-07,
      "loss": -0.07,
      "step": 666,
      "step_time": 3.8752157874405384
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1240.0,
      "completions/max_terminated_length": 1240.0,
      "completions/mean_length": 726.984375,
      "completions/mean_terminated_length": 726.984375,
      "completions/min_length": 274.0,
      "completions/min_terminated_length": 274.0,
      "entropy": 0.5836331769824028,
      "epoch": 0.09450269198073108,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.462890625,
      "learning_rate": 9.056389912156418e-07,
      "loss": -0.0228,
      "num_tokens": 19800295.0,
      "reward": 0.7265625,
      "reward_std": 1.0500555038452148,
      "rewards/accuracy_reward_func/mean": 0.625,
      "rewards/accuracy_reward_func/std": 0.934353232383728,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 667,
      "step_time": 41.13236790895462
    },
    {
      "clip_ratio/high_max": 0.00030821419568383135,
      "clip_ratio/high_mean": 0.00030821419568383135,
      "clip_ratio/low_mean": 0.0003029526269529015,
      "clip_ratio/low_min": 0.0003029526269529015,
      "clip_ratio/region_mean": 0.0006111668226367328,
      "entropy": 0.5571258142590523,
      "epoch": 0.094644375177104,
      "grad_norm": 0.42578125,
      "learning_rate": 9.054973080192689e-07,
      "loss": 0.0567,
      "step": 668,
      "step_time": 2.982406093738973
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1201.0,
      "completions/max_terminated_length": 1201.0,
      "completions/mean_length": 606.859375,
      "completions/mean_terminated_length": 606.859375,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "entropy": 0.7657229080796242,
      "epoch": 0.09478605837347691,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.72265625,
      "learning_rate": 9.053556248228959e-07,
      "loss": -0.0517,
      "num_tokens": 19851054.0,
      "reward": 0.375,
      "reward_std": 0.6784669756889343,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 669,
      "step_time": 39.98211202491075
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0010834631139005069,
      "clip_ratio/low_min": 0.0010834631139005069,
      "clip_ratio/region_mean": 0.0010834631139005069,
      "entropy": 1.0271039605140686,
      "epoch": 0.09492774156984982,
      "grad_norm": 0.298828125,
      "learning_rate": 9.052139416265231e-07,
      "loss": 0.0535,
      "step": 670,
      "step_time": 2.794039865024388
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1276.0,
      "completions/max_terminated_length": 1276.0,
      "completions/mean_length": 748.3125,
      "completions/mean_terminated_length": 748.3125,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "entropy": 0.6485764384269714,
      "epoch": 0.09506942476622272,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.17578125,
      "learning_rate": 9.050722584301501e-07,
      "loss": -0.0032,
      "num_tokens": 19909474.0,
      "reward": 0.1875,
      "reward_std": 0.39339789748191833,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 671,
      "step_time": 42.468726706691086
    },
    {
      "clip_ratio/high_max": 3.299023592262529e-05,
      "clip_ratio/high_mean": 3.299023592262529e-05,
      "clip_ratio/low_mean": 0.00041676464388729073,
      "clip_ratio/low_min": 0.00041676464388729073,
      "clip_ratio/region_mean": 0.000449754879809916,
      "entropy": 0.6193218193948269,
      "epoch": 0.09521110796259563,
      "grad_norm": 0.220703125,
      "learning_rate": 9.049305752337772e-07,
      "loss": -0.0022,
      "step": 672,
      "step_time": 3.002465697005391
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3805.0,
      "completions/max_terminated_length": 3805.0,
      "completions/mean_length": 804.375,
      "completions/mean_terminated_length": 804.375,
      "completions/min_length": 375.0,
      "completions/min_terminated_length": 375.0,
      "entropy": 0.8970392048358917,
      "epoch": 0.09535279115896855,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2373046875,
      "learning_rate": 9.047888920374043e-07,
      "loss": 0.0389,
      "num_tokens": 19972026.0,
      "reward": 0.1015625,
      "reward_std": 0.20275263488292694,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 673,
      "step_time": 149.04342919494957
    },
    {
      "clip_ratio/high_max": 0.00027540133669390343,
      "clip_ratio/high_mean": 0.00027540133669390343,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00027540133669390343,
      "entropy": 0.7333377711474895,
      "epoch": 0.09549447435534146,
      "grad_norm": 0.212890625,
      "learning_rate": 9.046472088410314e-07,
      "loss": -0.0303,
      "step": 674,
      "step_time": 6.749289088882506
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1380.0,
      "completions/max_terminated_length": 1380.0,
      "completions/mean_length": 808.828125,
      "completions/mean_terminated_length": 808.828125,
      "completions/min_length": 361.0,
      "completions/min_terminated_length": 361.0,
      "entropy": 0.8363649025559425,
      "epoch": 0.09563615755171437,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.345703125,
      "learning_rate": 9.045055256446586e-07,
      "loss": 0.0576,
      "num_tokens": 20035359.0,
      "reward": 0.109375,
      "reward_std": 0.2083333283662796,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 675,
      "step_time": 46.52362744696438
    },
    {
      "clip_ratio/high_max": 8.739062832319178e-05,
      "clip_ratio/high_mean": 8.739062832319178e-05,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 8.739062832319178e-05,
      "entropy": 0.8934873417019844,
      "epoch": 0.09577784074808728,
      "grad_norm": 0.07568359375,
      "learning_rate": 9.043638424482855e-07,
      "loss": -0.0398,
      "step": 676,
      "step_time": 3.2127510206773877
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1144.0,
      "completions/max_terminated_length": 1144.0,
      "completions/mean_length": 679.703125,
      "completions/mean_terminated_length": 679.703125,
      "completions/min_length": 317.0,
      "completions/min_terminated_length": 317.0,
      "entropy": 0.6546435244381428,
      "epoch": 0.09591952394446018,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.50390625,
      "learning_rate": 9.042221592519127e-07,
      "loss": 0.0406,
      "num_tokens": 20091884.0,
      "reward": 0.3359375,
      "reward_std": 0.6239574551582336,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 677,
      "step_time": 38.89677997305989
    },
    {
      "clip_ratio/high_max": 0.0005109783887746744,
      "clip_ratio/high_mean": 0.0005109783887746744,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0005109783887746744,
      "entropy": 0.8978307843208313,
      "epoch": 0.09606120714083309,
      "grad_norm": 0.22265625,
      "learning_rate": 9.040804760555397e-07,
      "loss": -0.038,
      "step": 678,
      "step_time": 2.8768546245992184
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2472.0,
      "completions/max_terminated_length": 2472.0,
      "completions/mean_length": 854.984375,
      "completions/mean_terminated_length": 854.984375,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "entropy": 0.6613553464412689,
      "epoch": 0.09620289033720601,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.423828125,
      "learning_rate": 9.039387928591668e-07,
      "loss": -0.0743,
      "num_tokens": 20161083.0,
      "reward": 0.3359375,
      "reward_std": 0.6239574551582336,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 679,
      "step_time": 88.91507106926292
    },
    {
      "clip_ratio/high_max": 0.0002990427383338101,
      "clip_ratio/high_mean": 0.0002990427383338101,
      "clip_ratio/low_mean": 0.0002096404459734913,
      "clip_ratio/low_min": 0.0002096404459734913,
      "clip_ratio/region_mean": 0.0005086831843073014,
      "entropy": 0.7047216258943081,
      "epoch": 0.09634457353357892,
      "grad_norm": 0.400390625,
      "learning_rate": 9.03797109662794e-07,
      "loss": 0.0273,
      "step": 680,
      "step_time": 4.996219922788441
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1691.0,
      "completions/max_terminated_length": 1691.0,
      "completions/mean_length": 674.890625,
      "completions/mean_terminated_length": 674.890625,
      "completions/min_length": 46.0,
      "completions/min_terminated_length": 46.0,
      "entropy": 0.8168206997215748,
      "epoch": 0.09648625672995183,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.6875,
      "learning_rate": 9.03655426466421e-07,
      "loss": -0.0019,
      "num_tokens": 20212644.0,
      "reward": 0.6875,
      "reward_std": 0.9150418639183044,
      "rewards/accuracy_reward_func/mean": 0.59375,
      "rewards/accuracy_reward_func/std": 0.9209855198860168,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 681,
      "step_time": 56.31739085447043
    },
    {
      "clip_ratio/high_max": 0.0006247708079172298,
      "clip_ratio/high_mean": 0.0006247708079172298,
      "clip_ratio/low_mean": 0.0005533795738301706,
      "clip_ratio/low_min": 0.0005533795738301706,
      "clip_ratio/region_mean": 0.001178150389023358,
      "entropy": 0.7030180357396603,
      "epoch": 0.09662793992632474,
      "grad_norm": 0.39453125,
      "learning_rate": 9.035137432700482e-07,
      "loss": -0.0326,
      "step": 682,
      "step_time": 3.4223401937633753
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1205.0,
      "completions/max_terminated_length": 1205.0,
      "completions/mean_length": 715.796875,
      "completions/mean_terminated_length": 715.796875,
      "completions/min_length": 311.0,
      "completions/min_terminated_length": 311.0,
      "entropy": 0.8068316504359245,
      "epoch": 0.09676962312269764,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2578125,
      "learning_rate": 9.033720600736752e-07,
      "loss": 0.0187,
      "num_tokens": 20267975.0,
      "reward": 0.234375,
      "reward_std": 0.6170124411582947,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 683,
      "step_time": 39.735784923657775
    },
    {
      "clip_ratio/high_max": 0.00014326158634503372,
      "clip_ratio/high_mean": 0.00014326158634503372,
      "clip_ratio/low_mean": 4.5322696678340435e-05,
      "clip_ratio/low_min": 4.5322696678340435e-05,
      "clip_ratio/region_mean": 0.00018858428302337416,
      "entropy": 0.7909039035439491,
      "epoch": 0.09691130631907056,
      "grad_norm": 0.390625,
      "learning_rate": 9.032303768773023e-07,
      "loss": -0.0142,
      "step": 684,
      "step_time": 2.662602601572871
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1322.0,
      "completions/max_terminated_length": 1322.0,
      "completions/mean_length": 691.859375,
      "completions/mean_terminated_length": 691.859375,
      "completions/min_length": 2.0,
      "completions/min_terminated_length": 2.0,
      "entropy": 1.0019592121243477,
      "epoch": 0.09705298951544347,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.384765625,
      "learning_rate": 9.030886936809294e-07,
      "loss": 0.0534,
      "num_tokens": 20323662.0,
      "reward": 0.1171875,
      "reward_std": 0.21347814798355103,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 685,
      "step_time": 44.117970985360444
    },
    {
      "clip_ratio/high_max": 0.00043359181290725246,
      "clip_ratio/high_mean": 0.00043359181290725246,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00043359181290725246,
      "entropy": 0.926820520311594,
      "epoch": 0.09719467271181638,
      "grad_norm": 0.08203125,
      "learning_rate": 9.029470104845564e-07,
      "loss": -0.0481,
      "step": 686,
      "step_time": 2.9558347072452307
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1626.0,
      "completions/mean_length": 855.25,
      "completions/mean_terminated_length": 803.8095703125,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "entropy": 0.745022289454937,
      "epoch": 0.09733635590818929,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.396484375,
      "learning_rate": 9.028053272881836e-07,
      "loss": -0.0094,
      "num_tokens": 20387054.0,
      "reward": 0.2265625,
      "reward_std": 0.5033986568450928,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 687,
      "step_time": 163.99438140541315
    },
    {
      "clip_ratio/high_max": 0.00030068785417824984,
      "clip_ratio/high_mean": 0.00030068785417824984,
      "clip_ratio/low_mean": 0.00015356607764260843,
      "clip_ratio/low_min": 0.00015356607764260843,
      "clip_ratio/region_mean": 0.00045425392818287946,
      "entropy": 0.7337777577340603,
      "epoch": 0.0974780391045622,
      "grad_norm": 0.498046875,
      "learning_rate": 9.026636440918106e-07,
      "loss": -0.0262,
      "step": 688,
      "step_time": 7.143433913588524
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1311.0,
      "completions/max_terminated_length": 1311.0,
      "completions/mean_length": 731.375,
      "completions/mean_terminated_length": 731.375,
      "completions/min_length": 418.0,
      "completions/min_terminated_length": 418.0,
      "entropy": 1.083077110350132,
      "epoch": 0.0976197223009351,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.455078125,
      "learning_rate": 9.025219608954378e-07,
      "loss": -0.036,
      "num_tokens": 20444806.0,
      "reward": 0.2578125,
      "reward_std": 0.5491132140159607,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 689,
      "step_time": 43.383221032097936
    },
    {
      "clip_ratio/high_max": 0.0002821965535986237,
      "clip_ratio/high_mean": 0.0002821965535986237,
      "clip_ratio/low_mean": 0.00033709948911564425,
      "clip_ratio/low_min": 0.00033709948911564425,
      "clip_ratio/region_mean": 0.000619296042714268,
      "entropy": 0.9691092595458031,
      "epoch": 0.09776140549730802,
      "grad_norm": 0.625,
      "learning_rate": 9.023802776990649e-07,
      "loss": 0.0601,
      "step": 690,
      "step_time": 3.073523474857211
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1371.0,
      "completions/max_terminated_length": 1371.0,
      "completions/mean_length": 785.75,
      "completions/mean_terminated_length": 785.75,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "entropy": 0.7765463069081306,
      "epoch": 0.09790308869368093,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.39453125,
      "learning_rate": 9.022385945026919e-07,
      "loss": 0.0734,
      "num_tokens": 20503862.0,
      "reward": 0.5625,
      "reward_std": 0.8705955147743225,
      "rewards/accuracy_reward_func/mean": 0.4375,
      "rewards/accuracy_reward_func/std": 0.8333333730697632,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 691,
      "step_time": 45.15021157916635
    },
    {
      "clip_ratio/high_max": 0.00023967351444298401,
      "clip_ratio/high_mean": 0.00023967351444298401,
      "clip_ratio/low_mean": 0.0001971512392628938,
      "clip_ratio/low_min": 0.0001971512392628938,
      "clip_ratio/region_mean": 0.0004368247537058778,
      "entropy": 0.6478435769677162,
      "epoch": 0.09804477189005384,
      "grad_norm": 0.55859375,
      "learning_rate": 9.02096911306319e-07,
      "loss": -0.0987,
      "step": 692,
      "step_time": 2.9285188522189856
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1265.0,
      "completions/max_terminated_length": 1265.0,
      "completions/mean_length": 754.578125,
      "completions/mean_terminated_length": 754.578125,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "entropy": 1.1438156217336655,
      "epoch": 0.09818645508642675,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2470703125,
      "learning_rate": 9.019552281099461e-07,
      "loss": -0.0197,
      "num_tokens": 20564155.0,
      "reward": 0.0859375,
      "reward_std": 0.19012710452079773,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 693,
      "step_time": 42.10556880850345
    },
    {
      "clip_ratio/high_max": 0.00014545011072186753,
      "clip_ratio/high_mean": 0.00014545011072186753,
      "clip_ratio/low_mean": 0.00012213908121339045,
      "clip_ratio/low_min": 0.00012213908121339045,
      "clip_ratio/region_mean": 0.000267589191935258,
      "entropy": 1.084563210606575,
      "epoch": 0.09832813828279965,
      "grad_norm": 0.275390625,
      "learning_rate": 9.018135449135732e-07,
      "loss": 0.0289,
      "step": 694,
      "step_time": 3.056262989528477
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1847.0,
      "completions/max_terminated_length": 1847.0,
      "completions/mean_length": 813.25,
      "completions/mean_terminated_length": 813.25,
      "completions/min_length": 314.0,
      "completions/min_terminated_length": 314.0,
      "entropy": 0.7132822163403034,
      "epoch": 0.09846982147917258,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.408203125,
      "learning_rate": 9.016718617172003e-07,
      "loss": 0.0248,
      "num_tokens": 20625371.0,
      "reward": 0.25,
      "reward_std": 0.549169659614563,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 695,
      "step_time": 60.6543985735625
    },
    {
      "clip_ratio/high_max": 0.00040798842019285075,
      "clip_ratio/high_mean": 0.00040798842019285075,
      "clip_ratio/low_mean": 0.00039847291191108525,
      "clip_ratio/low_min": 0.00039847291191108525,
      "clip_ratio/region_mean": 0.0008064613357419148,
      "entropy": 0.905206311494112,
      "epoch": 0.09861150467554548,
      "grad_norm": 0.4765625,
      "learning_rate": 9.015301785208274e-07,
      "loss": -0.0192,
      "step": 696,
      "step_time": 3.6753800231963396
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1247.0,
      "completions/max_terminated_length": 1247.0,
      "completions/mean_length": 767.359375,
      "completions/mean_terminated_length": 767.359375,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "entropy": 0.6519600003957748,
      "epoch": 0.09875318787191839,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.35546875,
      "learning_rate": 9.013884953244545e-07,
      "loss": -0.0068,
      "num_tokens": 20684674.0,
      "reward": 0.234375,
      "reward_std": 0.5037065148353577,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 697,
      "step_time": 40.933678154833615
    },
    {
      "clip_ratio/high_max": 8.823894677334465e-05,
      "clip_ratio/high_mean": 8.823894677334465e-05,
      "clip_ratio/low_mean": 0.00032351746267522685,
      "clip_ratio/low_min": 0.00032351746267522685,
      "clip_ratio/region_mean": 0.0004117564021726139,
      "entropy": 0.8623853512108326,
      "epoch": 0.0988948710682913,
      "grad_norm": 0.373046875,
      "learning_rate": 9.012468121280816e-07,
      "loss": 0.038,
      "step": 698,
      "step_time": 2.94033735524863
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1853.0,
      "completions/max_terminated_length": 1853.0,
      "completions/mean_length": 734.09375,
      "completions/mean_terminated_length": 734.09375,
      "completions/min_length": 327.0,
      "completions/min_terminated_length": 327.0,
      "entropy": 0.8100339993834496,
      "epoch": 0.0990365542646642,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.0264892578125,
      "learning_rate": 9.011051289317086e-07,
      "loss": 0.0108,
      "num_tokens": 20747336.0,
      "reward": 0.140625,
      "reward_std": 0.3615305721759796,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 699,
      "step_time": 64.13156679738313
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00019408762818784453,
      "clip_ratio/low_min": 0.00019408762818784453,
      "clip_ratio/region_mean": 0.00019408762818784453,
      "entropy": 0.7559269890189171,
      "epoch": 0.09917823746103713,
      "grad_norm": 0.310546875,
      "learning_rate": 9.009634457353358e-07,
      "loss": 0.0049,
      "step": 700,
      "step_time": 4.028749877586961
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1377.0,
      "completions/max_terminated_length": 1377.0,
      "completions/mean_length": 758.484375,
      "completions/mean_terminated_length": 758.484375,
      "completions/min_length": 404.0,
      "completions/min_terminated_length": 404.0,
      "entropy": 0.9087589457631111,
      "epoch": 0.09931992065741004,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.1279296875,
      "learning_rate": 9.008217625389628e-07,
      "loss": -0.0159,
      "num_tokens": 20807639.0,
      "reward": 0.1484375,
      "reward_std": 0.3172261714935303,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 701,
      "step_time": 45.07608791999519
    },
    {
      "clip_ratio/high_max": 0.0002150877917301841,
      "clip_ratio/high_mean": 0.0002150877917301841,
      "clip_ratio/low_mean": 0.0002501554481568746,
      "clip_ratio/low_min": 0.0002501554481568746,
      "clip_ratio/region_mean": 0.00046524324716301635,
      "entropy": 0.8832103610038757,
      "epoch": 0.09946160385378294,
      "grad_norm": 0.66796875,
      "learning_rate": 9.0068007934259e-07,
      "loss": -0.0074,
      "step": 702,
      "step_time": 2.98703923355788
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1442.0,
      "completions/max_terminated_length": 1442.0,
      "completions/mean_length": 717.203125,
      "completions/mean_terminated_length": 717.203125,
      "completions/min_length": 16.0,
      "completions/min_terminated_length": 16.0,
      "entropy": 0.7176625542342663,
      "epoch": 0.09960328705015585,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.5,
      "learning_rate": 9.005383961462171e-07,
      "loss": 0.0418,
      "num_tokens": 20861988.0,
      "reward": 0.5234375,
      "reward_std": 0.9276599884033203,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 703,
      "step_time": 47.06697685178369
    },
    {
      "clip_ratio/high_max": 0.0002233498053101357,
      "clip_ratio/high_mean": 0.0002233498053101357,
      "clip_ratio/low_mean": 0.0007265539825311862,
      "clip_ratio/low_min": 0.0007265539825311862,
      "clip_ratio/region_mean": 0.0009499037842033431,
      "entropy": 0.6436737626791,
      "epoch": 0.09974497024652876,
      "grad_norm": 0.55859375,
      "learning_rate": 9.003967129498441e-07,
      "loss": -0.0492,
      "step": 704,
      "step_time": 3.0344551727175713
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1617.0,
      "completions/max_terminated_length": 1617.0,
      "completions/mean_length": 683.140625,
      "completions/mean_terminated_length": 683.140625,
      "completions/min_length": 323.0,
      "completions/min_terminated_length": 323.0,
      "entropy": 0.4841782674193382,
      "epoch": 0.09988665344290167,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.3359375,
      "learning_rate": 9.002550297534712e-07,
      "loss": 0.0131,
      "num_tokens": 20914509.0,
      "reward": 0.71875,
      "reward_std": 0.9079673886299133,
      "rewards/accuracy_reward_func/mean": 0.625,
      "rewards/accuracy_reward_func/std": 0.934353232383728,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 705,
      "step_time": 53.38432958442718
    },
    {
      "clip_ratio/high_max": 0.0005308792515279492,
      "clip_ratio/high_mean": 0.0005308792515279492,
      "clip_ratio/low_mean": 0.00047760642155481037,
      "clip_ratio/low_min": 0.00047760642155481037,
      "clip_ratio/region_mean": 0.0010084856730827596,
      "entropy": 0.4600212536752224,
      "epoch": 0.10002833663927459,
      "grad_norm": 0.59765625,
      "learning_rate": 9.001133465570982e-07,
      "loss": -0.0407,
      "step": 706,
      "step_time": 3.313523634336889
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1335.0,
      "completions/max_terminated_length": 1335.0,
      "completions/mean_length": 747.9375,
      "completions/mean_terminated_length": 747.9375,
      "completions/min_length": 407.0,
      "completions/min_terminated_length": 407.0,
      "entropy": 0.6387441456317902,
      "epoch": 0.1001700198356475,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.03759765625,
      "learning_rate": 8.999716633607254e-07,
      "loss": 0.0144,
      "num_tokens": 20973065.0,
      "reward": 0.1484375,
      "reward_std": 0.3638385236263275,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 707,
      "step_time": 43.73905194085091
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00012540676470962353,
      "clip_ratio/low_min": 0.00012540676470962353,
      "clip_ratio/region_mean": 0.00012540676470962353,
      "entropy": 0.5197131037712097,
      "epoch": 0.1003117030320204,
      "grad_norm": 0.30859375,
      "learning_rate": 8.998299801643525e-07,
      "loss": -0.0151,
      "step": 708,
      "step_time": 2.936092403717339
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1557.0,
      "completions/max_terminated_length": 1557.0,
      "completions/mean_length": 842.96875,
      "completions/mean_terminated_length": 842.96875,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "entropy": 0.8033931776881218,
      "epoch": 0.10045338622839331,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5,
      "learning_rate": 8.996882969679796e-07,
      "loss": -0.0154,
      "num_tokens": 21037655.0,
      "reward": 0.2109375,
      "reward_std": 0.5024123191833496,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 709,
      "step_time": 51.408650636672974
    },
    {
      "clip_ratio/high_max": 0.0002972639849758707,
      "clip_ratio/high_mean": 0.0002972639849758707,
      "clip_ratio/low_mean": 0.0001794890449673403,
      "clip_ratio/low_min": 0.0001794890449673403,
      "clip_ratio/region_mean": 0.0004767530263052322,
      "entropy": 0.6330430768430233,
      "epoch": 0.10059506942476622,
      "grad_norm": 0.392578125,
      "learning_rate": 8.995466137716067e-07,
      "loss": 0.0268,
      "step": 710,
      "step_time": 3.3102564364671707
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1119.0,
      "completions/max_terminated_length": 1119.0,
      "completions/mean_length": 700.0625,
      "completions/mean_terminated_length": 700.0625,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "entropy": 1.061536394059658,
      "epoch": 0.10073675262113914,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.41015625,
      "learning_rate": 8.994049305752337e-07,
      "loss": -0.0028,
      "num_tokens": 21090395.0,
      "reward": 0.1875,
      "reward_std": 0.4318656623363495,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 711,
      "step_time": 37.1643022345379
    },
    {
      "clip_ratio/high_max": 4.3237632780801505e-05,
      "clip_ratio/high_mean": 4.3237632780801505e-05,
      "clip_ratio/low_mean": 0.00034219800727441907,
      "clip_ratio/low_min": 0.00034219800727441907,
      "clip_ratio/region_mean": 0.0003854356400552206,
      "entropy": 1.0346302166581154,
      "epoch": 0.10087843581751205,
      "grad_norm": 0.416015625,
      "learning_rate": 8.992632473788608e-07,
      "loss": 0.0116,
      "step": 712,
      "step_time": 2.538097613491118
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1393.0,
      "completions/max_terminated_length": 1393.0,
      "completions/mean_length": 754.609375,
      "completions/mean_terminated_length": 754.609375,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "entropy": 0.5186957344412804,
      "epoch": 0.10102011901388495,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.55859375,
      "learning_rate": 8.991215641824879e-07,
      "loss": -0.0653,
      "num_tokens": 21148418.0,
      "reward": 0.3828125,
      "reward_std": 0.7112597227096558,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 713,
      "step_time": 46.43243417330086
    },
    {
      "clip_ratio/high_max": 4.020585402031429e-05,
      "clip_ratio/high_mean": 4.020585402031429e-05,
      "clip_ratio/low_mean": 0.0006905189839017112,
      "clip_ratio/low_min": 0.0006905189839017112,
      "clip_ratio/region_mean": 0.0007307248342840467,
      "entropy": 0.5072904750704765,
      "epoch": 0.10116180221025786,
      "grad_norm": 0.34765625,
      "learning_rate": 8.98979880986115e-07,
      "loss": 0.1275,
      "step": 714,
      "step_time": 3.0344067523255944
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1390.0,
      "completions/max_terminated_length": 1390.0,
      "completions/mean_length": 806.203125,
      "completions/mean_terminated_length": 806.203125,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "entropy": 0.5742702633142471,
      "epoch": 0.10130348540663077,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.46875,
      "learning_rate": 8.988381977897421e-07,
      "loss": -0.0869,
      "num_tokens": 21213583.0,
      "reward": 0.1875,
      "reward_std": 0.4318656623363495,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 715,
      "step_time": 46.54575756099075
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00027741200392483734,
      "clip_ratio/low_min": 0.00027741200392483734,
      "clip_ratio/region_mean": 0.00027741200392483734,
      "entropy": 0.7016105279326439,
      "epoch": 0.10144516860300368,
      "grad_norm": 0.12255859375,
      "learning_rate": 8.986965145933692e-07,
      "loss": 0.064,
      "step": 716,
      "step_time": 3.3705162229016423
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1491.0,
      "completions/max_terminated_length": 1491.0,
      "completions/mean_length": 762.328125,
      "completions/mean_terminated_length": 762.328125,
      "completions/min_length": 5.0,
      "completions/min_terminated_length": 5.0,
      "entropy": 0.713050439953804,
      "epoch": 0.1015868517993766,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.19140625,
      "learning_rate": 8.985548313969963e-07,
      "loss": 0.0561,
      "num_tokens": 21276756.0,
      "reward": 0.2265625,
      "reward_std": 0.5904644727706909,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 717,
      "step_time": 50.020800788886845
    },
    {
      "clip_ratio/high_max": 8.375209290534258e-05,
      "clip_ratio/high_mean": 8.375209290534258e-05,
      "clip_ratio/low_mean": 0.00012350490942480974,
      "clip_ratio/low_min": 0.00012350490942480974,
      "clip_ratio/region_mean": 0.00020725700233015232,
      "entropy": 0.6250765323638916,
      "epoch": 0.1017285349957495,
      "grad_norm": 0.345703125,
      "learning_rate": 8.984131482006235e-07,
      "loss": -0.0398,
      "step": 718,
      "step_time": 3.44041152857244
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1205.0,
      "completions/max_terminated_length": 1205.0,
      "completions/mean_length": 753.625,
      "completions/mean_terminated_length": 753.625,
      "completions/min_length": 457.0,
      "completions/min_terminated_length": 457.0,
      "entropy": 0.6626128852367401,
      "epoch": 0.10187021819212241,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.55859375,
      "learning_rate": 8.982714650042504e-07,
      "loss": -0.0348,
      "num_tokens": 21336284.0,
      "reward": 0.2890625,
      "reward_std": 0.5896238088607788,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 719,
      "step_time": 39.28978963568807
    },
    {
      "clip_ratio/high_max": 0.0002354422140342649,
      "clip_ratio/high_mean": 0.0002354422140342649,
      "clip_ratio/low_mean": 0.0004471046995604411,
      "clip_ratio/low_min": 0.0004471046995604411,
      "clip_ratio/region_mean": 0.0006825469099567272,
      "entropy": 0.7030162550508976,
      "epoch": 0.10201190138849532,
      "grad_norm": 0.365234375,
      "learning_rate": 8.981297818078775e-07,
      "loss": 0.0291,
      "step": 720,
      "step_time": 2.9326161704957485
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1522.0,
      "completions/max_terminated_length": 1522.0,
      "completions/mean_length": 802.453125,
      "completions/mean_terminated_length": 802.453125,
      "completions/min_length": 296.0,
      "completions/min_terminated_length": 296.0,
      "entropy": 0.7571743726730347,
      "epoch": 0.10215358458486823,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.375,
      "learning_rate": 8.979880986115046e-07,
      "loss": -0.0081,
      "num_tokens": 21397977.0,
      "reward": 0.2890625,
      "reward_std": 0.6412084698677063,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 721,
      "step_time": 50.875343358144164
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0002604910569061758,
      "clip_ratio/low_min": 0.0002604910569061758,
      "clip_ratio/region_mean": 0.0002604910569061758,
      "entropy": 0.7022470012307167,
      "epoch": 0.10229526778124115,
      "grad_norm": 0.314453125,
      "learning_rate": 8.978464154151317e-07,
      "loss": 0.0122,
      "step": 722,
      "step_time": 3.25004767999053
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1548.0,
      "completions/max_terminated_length": 1548.0,
      "completions/mean_length": 737.859375,
      "completions/mean_terminated_length": 737.859375,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "entropy": 0.8696018606424332,
      "epoch": 0.10243695097761406,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.31640625,
      "learning_rate": 8.977047322187589e-07,
      "loss": -0.0315,
      "num_tokens": 21457472.0,
      "reward": 0.15625,
      "reward_std": 0.3196600377559662,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 723,
      "step_time": 51.98667044378817
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 3.729117088369094e-05,
      "clip_ratio/low_min": 3.729117088369094e-05,
      "clip_ratio/region_mean": 3.729117088369094e-05,
      "entropy": 0.7349072173237801,
      "epoch": 0.10257863417398697,
      "grad_norm": 0.111328125,
      "learning_rate": 8.975630490223859e-07,
      "loss": 0.0404,
      "step": 724,
      "step_time": 3.5019579119980335
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1389.0,
      "completions/max_terminated_length": 1389.0,
      "completions/mean_length": 716.015625,
      "completions/mean_terminated_length": 716.015625,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "entropy": 0.8261739984154701,
      "epoch": 0.10272031737035987,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.3125,
      "learning_rate": 8.974213658260131e-07,
      "loss": 0.0633,
      "num_tokens": 21512337.0,
      "reward": 0.4609375,
      "reward_std": 0.757526695728302,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 725,
      "step_time": 45.84826856292784
    },
    {
      "clip_ratio/high_max": 0.00024315688278875314,
      "clip_ratio/high_mean": 0.00024315688278875314,
      "clip_ratio/low_mean": 0.000665698458760744,
      "clip_ratio/low_min": 0.000665698458760744,
      "clip_ratio/region_mean": 0.0009088553488254547,
      "entropy": 0.544934831559658,
      "epoch": 0.10286200056673278,
      "grad_norm": 0.55859375,
      "learning_rate": 8.9727968262964e-07,
      "loss": -0.0962,
      "step": 726,
      "step_time": 2.976303357630968
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1076.0,
      "completions/max_terminated_length": 1076.0,
      "completions/mean_length": 605.5625,
      "completions/mean_terminated_length": 605.5625,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "entropy": 0.8207499906420708,
      "epoch": 0.1030036837631057,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.31640625,
      "learning_rate": 8.971379994332671e-07,
      "loss": 0.0406,
      "num_tokens": 21561621.0,
      "reward": 0.28125,
      "reward_std": 0.5764904618263245,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 727,
      "step_time": 35.78708769194782
    },
    {
      "clip_ratio/high_max": 0.00025312469733762555,
      "clip_ratio/high_mean": 0.00025312469733762555,
      "clip_ratio/low_mean": 0.0005462859044200741,
      "clip_ratio/low_min": 0.0005462859044200741,
      "clip_ratio/region_mean": 0.0007994106163096149,
      "entropy": 0.8810131028294563,
      "epoch": 0.10314536695947861,
      "grad_norm": 0.625,
      "learning_rate": 8.969963162368943e-07,
      "loss": -0.0103,
      "step": 728,
      "step_time": 2.681761981919408
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3011.0,
      "completions/max_terminated_length": 3011.0,
      "completions/mean_length": 707.515625,
      "completions/mean_terminated_length": 707.515625,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "entropy": 0.7566097229719162,
      "epoch": 0.10328705015585152,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.57421875,
      "learning_rate": 8.968546330405213e-07,
      "loss": -0.0378,
      "num_tokens": 21616822.0,
      "reward": 0.1796875,
      "reward_std": 0.44869464635849,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 729,
      "step_time": 108.68392618466169
    },
    {
      "clip_ratio/high_max": 0.0003849823187920265,
      "clip_ratio/high_mean": 0.0003849823187920265,
      "clip_ratio/low_mean": 0.00028296493110246956,
      "clip_ratio/low_min": 0.00028296493110246956,
      "clip_ratio/region_mean": 0.0006679472353425808,
      "entropy": 0.8042577803134918,
      "epoch": 0.10342873335222443,
      "grad_norm": 0.4140625,
      "learning_rate": 8.967129498441485e-07,
      "loss": 0.0034,
      "step": 730,
      "step_time": 5.6677813502028584
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1429.0,
      "completions/max_terminated_length": 1429.0,
      "completions/mean_length": 702.390625,
      "completions/mean_terminated_length": 702.390625,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "entropy": 0.7525754049420357,
      "epoch": 0.10357041654859733,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.44140625,
      "learning_rate": 8.965712666477755e-07,
      "loss": 0.0055,
      "num_tokens": 21671615.0,
      "reward": 0.3203125,
      "reward_std": 0.6259417533874512,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 731,
      "step_time": 46.6808510068804
    },
    {
      "clip_ratio/high_max": 0.00026227504713460803,
      "clip_ratio/high_mean": 0.00026227504713460803,
      "clip_ratio/low_mean": 4.86381322843954e-05,
      "clip_ratio/low_min": 4.86381322843954e-05,
      "clip_ratio/region_mean": 0.0003109131794190034,
      "entropy": 0.927945114672184,
      "epoch": 0.10371209974497024,
      "grad_norm": 0.390625,
      "learning_rate": 8.964295834514027e-07,
      "loss": -0.0113,
      "step": 732,
      "step_time": 3.055878208950162
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1188.0,
      "completions/max_terminated_length": 1188.0,
      "completions/mean_length": 779.484375,
      "completions/mean_terminated_length": 779.484375,
      "completions/min_length": 409.0,
      "completions/min_terminated_length": 409.0,
      "entropy": 0.555947832763195,
      "epoch": 0.10385378294134316,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.421875,
      "learning_rate": 8.962879002550298e-07,
      "loss": 0.0854,
      "num_tokens": 21730846.0,
      "reward": 0.6015625,
      "reward_std": 0.8736881017684937,
      "rewards/accuracy_reward_func/mean": 0.5,
      "rewards/accuracy_reward_func/std": 0.8728715777397156,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 733,
      "step_time": 39.030536249279976
    },
    {
      "clip_ratio/high_max": 3.0171373509801924e-05,
      "clip_ratio/high_mean": 3.0171373509801924e-05,
      "clip_ratio/low_mean": 0.0002818624416249804,
      "clip_ratio/low_min": 0.0002818624416249804,
      "clip_ratio/region_mean": 0.00031203381513478234,
      "entropy": 0.5357561074197292,
      "epoch": 0.10399546613771607,
      "grad_norm": 0.455078125,
      "learning_rate": 8.961462170586567e-07,
      "loss": -0.0521,
      "step": 734,
      "step_time": 2.6832645907998085
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1452.0,
      "completions/max_terminated_length": 1452.0,
      "completions/mean_length": 753.5625,
      "completions/mean_terminated_length": 753.5625,
      "completions/min_length": 473.0,
      "completions/min_terminated_length": 473.0,
      "entropy": 0.8248842656612396,
      "epoch": 0.10413714933408898,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5234375,
      "learning_rate": 8.960045338622839e-07,
      "loss": 0.0064,
      "num_tokens": 21789538.0,
      "reward": 0.3984375,
      "reward_std": 0.6853320598602295,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 735,
      "step_time": 47.39760649390519
    },
    {
      "clip_ratio/high_max": 0.0005858047916262876,
      "clip_ratio/high_mean": 0.0005858047916262876,
      "clip_ratio/low_mean": 0.00043924014244112186,
      "clip_ratio/low_min": 0.00043924014244112186,
      "clip_ratio/region_mean": 0.0010250449304294307,
      "entropy": 0.7254182919859886,
      "epoch": 0.10427883253046188,
      "grad_norm": 0.361328125,
      "learning_rate": 8.958628506659109e-07,
      "loss": -0.0105,
      "step": 736,
      "step_time": 3.0789632461965084
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1439.0,
      "completions/max_terminated_length": 1439.0,
      "completions/mean_length": 839.625,
      "completions/mean_terminated_length": 839.625,
      "completions/min_length": 307.0,
      "completions/min_terminated_length": 307.0,
      "entropy": 0.5954004563391209,
      "epoch": 0.10442051572683479,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.54296875,
      "learning_rate": 8.957211674695381e-07,
      "loss": -0.0806,
      "num_tokens": 21852458.0,
      "reward": 0.4375,
      "reward_std": 0.8042545318603516,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 737,
      "step_time": 47.17948067281395
    },
    {
      "clip_ratio/high_max": 0.0002491729537723586,
      "clip_ratio/high_mean": 0.0002491729537723586,
      "clip_ratio/low_mean": 0.0006396093813236803,
      "clip_ratio/low_min": 0.0006396093813236803,
      "clip_ratio/region_mean": 0.0008887823350960389,
      "entropy": 0.6447283029556274,
      "epoch": 0.10456219892320771,
      "grad_norm": 0.275390625,
      "learning_rate": 8.955794842731652e-07,
      "loss": 0.0658,
      "step": 738,
      "step_time": 3.070068320259452
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1545.0,
      "completions/max_terminated_length": 1545.0,
      "completions/mean_length": 785.5625,
      "completions/mean_terminated_length": 785.5625,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "entropy": 0.8993914946913719,
      "epoch": 0.10470388211958062,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.37890625,
      "learning_rate": 8.954378010767923e-07,
      "loss": 0.0231,
      "num_tokens": 21912558.0,
      "reward": 0.15625,
      "reward_std": 0.3870421051979065,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 739,
      "step_time": 51.0887353355065
    },
    {
      "clip_ratio/high_max": 0.00025166248087771237,
      "clip_ratio/high_mean": 0.00025166248087771237,
      "clip_ratio/low_mean": 0.00025185767299262807,
      "clip_ratio/low_min": 0.00025185767299262807,
      "clip_ratio/region_mean": 0.0005035201538703404,
      "entropy": 1.0085619613528252,
      "epoch": 0.10484556531595353,
      "grad_norm": 0.4453125,
      "learning_rate": 8.952961178804194e-07,
      "loss": -0.0002,
      "step": 740,
      "step_time": 3.2596370205283165
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1568.0,
      "completions/max_terminated_length": 1568.0,
      "completions/mean_length": 757.8125,
      "completions/mean_terminated_length": 757.8125,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "entropy": 0.6070606335997581,
      "epoch": 0.10498724851232644,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.263671875,
      "learning_rate": 8.951544346840463e-07,
      "loss": 0.0539,
      "num_tokens": 21971778.0,
      "reward": 0.2421875,
      "reward_std": 0.5633811354637146,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 741,
      "step_time": 51.97253091074526
    },
    {
      "clip_ratio/high_max": 5.540779966395348e-05,
      "clip_ratio/high_mean": 5.540779966395348e-05,
      "clip_ratio/low_mean": 0.00044990387323196046,
      "clip_ratio/low_min": 0.00044990387323196046,
      "clip_ratio/region_mean": 0.0005053116728959139,
      "entropy": 0.5948304235935211,
      "epoch": 0.10512893170869934,
      "grad_norm": 0.458984375,
      "learning_rate": 8.950127514876735e-07,
      "loss": -0.0354,
      "step": 742,
      "step_time": 3.374217881821096
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1181.0,
      "completions/max_terminated_length": 1181.0,
      "completions/mean_length": 668.25,
      "completions/mean_terminated_length": 668.25,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "entropy": 0.6276120394468307,
      "epoch": 0.10527061490507225,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.474609375,
      "learning_rate": 8.948710682913006e-07,
      "loss": 0.0516,
      "num_tokens": 22026850.0,
      "reward": 0.4296875,
      "reward_std": 0.7119567394256592,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 743,
      "step_time": 39.57033722754568
    },
    {
      "clip_ratio/high_max": 0.0003387610813661013,
      "clip_ratio/high_mean": 0.0003387610813661013,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0003387610813661013,
      "entropy": 0.7634526342153549,
      "epoch": 0.10541229810144517,
      "grad_norm": 0.2236328125,
      "learning_rate": 8.947293850949277e-07,
      "loss": -0.0386,
      "step": 744,
      "step_time": 2.721698369830847
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1151.0,
      "completions/max_terminated_length": 1151.0,
      "completions/mean_length": 774.703125,
      "completions/mean_terminated_length": 774.703125,
      "completions/min_length": 408.0,
      "completions/min_terminated_length": 408.0,
      "entropy": 0.6143156178295612,
      "epoch": 0.10555398129781808,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.10009765625,
      "learning_rate": 8.945877018985548e-07,
      "loss": -0.0306,
      "num_tokens": 22086207.0,
      "reward": 0.140625,
      "reward_std": 0.3145764470100403,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 745,
      "step_time": 37.62696266360581
    },
    {
      "clip_ratio/high_max": 0.00035198430850869045,
      "clip_ratio/high_mean": 0.00035198430850869045,
      "clip_ratio/low_mean": 0.0005084059739601798,
      "clip_ratio/low_min": 0.0005084059739601798,
      "clip_ratio/region_mean": 0.0008603902861068491,
      "entropy": 0.8375367447733879,
      "epoch": 0.10569566449419099,
      "grad_norm": 0.498046875,
      "learning_rate": 8.944460187021819e-07,
      "loss": 0.0269,
      "step": 746,
      "step_time": 2.773282124660909
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1496.0,
      "completions/max_terminated_length": 1496.0,
      "completions/mean_length": 786.609375,
      "completions/mean_terminated_length": 786.609375,
      "completions/min_length": 320.0,
      "completions/min_terminated_length": 320.0,
      "entropy": 0.49026698991656303,
      "epoch": 0.1058373476905639,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.314453125,
      "learning_rate": 8.94304335505809e-07,
      "loss": -0.0234,
      "num_tokens": 22146038.0,
      "reward": 0.4375,
      "reward_std": 0.8042545318603516,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 747,
      "step_time": 53.335643199272454
    },
    {
      "clip_ratio/high_max": 0.00022348532002069987,
      "clip_ratio/high_mean": 0.00022348532002069987,
      "clip_ratio/low_mean": 0.0001391095865983516,
      "clip_ratio/low_min": 0.0001391095865983516,
      "clip_ratio/region_mean": 0.0003625949084380409,
      "entropy": 0.4927355870604515,
      "epoch": 0.1059790308869368,
      "grad_norm": 0.30859375,
      "learning_rate": 8.941626523094361e-07,
      "loss": 0.0204,
      "step": 748,
      "step_time": 3.1468249959871173
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1430.0,
      "completions/max_terminated_length": 1430.0,
      "completions/mean_length": 763.6875,
      "completions/mean_terminated_length": 763.6875,
      "completions/min_length": 10.0,
      "completions/min_terminated_length": 10.0,
      "entropy": 0.5593714155256748,
      "epoch": 0.10612071408330973,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.466796875,
      "learning_rate": 8.940209691130631e-07,
      "loss": -0.0494,
      "num_tokens": 22205346.0,
      "reward": 0.296875,
      "reward_std": 0.5890451669692993,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 749,
      "step_time": 46.73634034674615
    },
    {
      "clip_ratio/high_max": 0.00022891223852639087,
      "clip_ratio/high_mean": 0.00022891223852639087,
      "clip_ratio/low_mean": 4.3798176193377e-05,
      "clip_ratio/low_min": 4.3798176193377e-05,
      "clip_ratio/region_mean": 0.00027271041471976787,
      "entropy": 0.8285430669784546,
      "epoch": 0.10626239727968263,
      "grad_norm": 0.310546875,
      "learning_rate": 8.938792859166902e-07,
      "loss": 0.002,
      "step": 750,
      "step_time": 3.3075527055189013
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1214.0,
      "completions/max_terminated_length": 1214.0,
      "completions/mean_length": 662.5,
      "completions/mean_terminated_length": 662.5,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "entropy": 0.48541200533509254,
      "epoch": 0.10640408047605554,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.447265625,
      "learning_rate": 8.937376027203173e-07,
      "loss": -0.0088,
      "num_tokens": 22257538.0,
      "reward": 0.5625,
      "reward_std": 0.8333333134651184,
      "rewards/accuracy_reward_func/mean": 0.4375,
      "rewards/accuracy_reward_func/std": 0.8333333730697632,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 751,
      "step_time": 39.44774232245982
    },
    {
      "clip_ratio/high_max": 0.0001992796387639828,
      "clip_ratio/high_mean": 0.0001992796387639828,
      "clip_ratio/low_mean": 0.0004928719317831565,
      "clip_ratio/low_min": 0.0004928719317831565,
      "clip_ratio/region_mean": 0.0006921515669091605,
      "entropy": 0.5001681745052338,
      "epoch": 0.10654576367242845,
      "grad_norm": 0.6171875,
      "learning_rate": 8.935959195239444e-07,
      "loss": 0.025,
      "step": 752,
      "step_time": 2.708350498229265
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1382.0,
      "completions/max_terminated_length": 1382.0,
      "completions/mean_length": 797.46875,
      "completions/mean_terminated_length": 797.46875,
      "completions/min_length": 450.0,
      "completions/min_terminated_length": 450.0,
      "entropy": 0.6701172813773155,
      "epoch": 0.10668744686880136,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.1884765625,
      "learning_rate": 8.934542363275716e-07,
      "loss": -0.007,
      "num_tokens": 22319872.0,
      "reward": 0.2109375,
      "reward_std": 0.4525473415851593,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 753,
      "step_time": 46.12178357504308
    },
    {
      "clip_ratio/high_max": 0.000329454975144472,
      "clip_ratio/high_mean": 0.000329454975144472,
      "clip_ratio/low_mean": 7.32757143850904e-05,
      "clip_ratio/low_min": 7.32757143850904e-05,
      "clip_ratio/region_mean": 0.00040273068952956237,
      "entropy": 0.7461488731205463,
      "epoch": 0.10682913006517428,
      "grad_norm": 0.51953125,
      "learning_rate": 8.933125531311986e-07,
      "loss": -0.0108,
      "step": 754,
      "step_time": 3.0852975649759173
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1167.0,
      "completions/max_terminated_length": 1167.0,
      "completions/mean_length": 657.65625,
      "completions/mean_terminated_length": 657.65625,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "entropy": 1.2295919209718704,
      "epoch": 0.10697081326154718,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.59375,
      "learning_rate": 8.931708699348257e-07,
      "loss": 0.0421,
      "num_tokens": 22374058.0,
      "reward": 0.109375,
      "reward_std": 0.301698237657547,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 755,
      "step_time": 38.37911831587553
    },
    {
      "clip_ratio/high_max": 0.00013391476386459544,
      "clip_ratio/high_mean": 0.00013391476386459544,
      "clip_ratio/low_mean": 0.00023281900575966574,
      "clip_ratio/low_min": 0.00023281900575966574,
      "clip_ratio/region_mean": 0.0003667337696242612,
      "entropy": 1.2170255482196808,
      "epoch": 0.10711249645792009,
      "grad_norm": 0.25,
      "learning_rate": 8.930291867384527e-07,
      "loss": -0.0258,
      "step": 756,
      "step_time": 2.7265814766287804
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1701.0,
      "completions/max_terminated_length": 1701.0,
      "completions/mean_length": 870.796875,
      "completions/mean_terminated_length": 870.796875,
      "completions/min_length": 319.0,
      "completions/min_terminated_length": 319.0,
      "entropy": 0.6419469565153122,
      "epoch": 0.107254179654293,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.416015625,
      "learning_rate": 8.928875035420798e-07,
      "loss": -0.0079,
      "num_tokens": 22440221.0,
      "reward": 0.21875,
      "reward_std": 0.502967357635498,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 757,
      "step_time": 56.7285989318043
    },
    {
      "clip_ratio/high_max": 0.00012166211308795027,
      "clip_ratio/high_mean": 0.00012166211308795027,
      "clip_ratio/low_mean": 0.0002476277331879828,
      "clip_ratio/low_min": 0.0002476277331879828,
      "clip_ratio/region_mean": 0.0003692898462759331,
      "entropy": 0.6901018917560577,
      "epoch": 0.10739586285066591,
      "grad_norm": 0.42578125,
      "learning_rate": 8.92745820345707e-07,
      "loss": 0.0426,
      "step": 758,
      "step_time": 3.5884934393689036
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1268.0,
      "completions/max_terminated_length": 1268.0,
      "completions/mean_length": 668.625,
      "completions/mean_terminated_length": 668.625,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "entropy": 0.7970032319426537,
      "epoch": 0.10753754604703882,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.267578125,
      "learning_rate": 8.92604137149334e-07,
      "loss": 0.0691,
      "num_tokens": 22492437.0,
      "reward": 0.296875,
      "reward_std": 0.6154024600982666,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 759,
      "step_time": 42.03032302670181
    },
    {
      "clip_ratio/high_max": 0.0003876389964716509,
      "clip_ratio/high_mean": 0.0003876389964716509,
      "clip_ratio/low_mean": 0.0006790964907850139,
      "clip_ratio/low_min": 0.0006790964907850139,
      "clip_ratio/region_mean": 0.00106673550180858,
      "entropy": 0.8832827433943748,
      "epoch": 0.10767922924341174,
      "grad_norm": 0.66015625,
      "learning_rate": 8.924624539529612e-07,
      "loss": -0.0517,
      "step": 760,
      "step_time": 2.792263478040695
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1102.0,
      "completions/max_terminated_length": 1102.0,
      "completions/mean_length": 653.890625,
      "completions/mean_terminated_length": 653.890625,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "entropy": 0.7358252555131912,
      "epoch": 0.10782091243978464,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5390625,
      "learning_rate": 8.923207707565882e-07,
      "loss": -0.0113,
      "num_tokens": 22544910.0,
      "reward": 0.5625,
      "reward_std": 0.7943251132965088,
      "rewards/accuracy_reward_func/mean": 0.4375,
      "rewards/accuracy_reward_func/std": 0.8333333730697632,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 761,
      "step_time": 35.903590492904186
    },
    {
      "clip_ratio/high_max": 0.0005341583710105624,
      "clip_ratio/high_mean": 0.0005341583710105624,
      "clip_ratio/low_mean": 0.000649240715574706,
      "clip_ratio/low_min": 0.000649240715574706,
      "clip_ratio/region_mean": 0.0011833990829472896,
      "entropy": 0.6616642512381077,
      "epoch": 0.10796259563615755,
      "grad_norm": 0.51171875,
      "learning_rate": 8.921790875602153e-07,
      "loss": 0.0124,
      "step": 762,
      "step_time": 2.562407897785306
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1537.0,
      "completions/max_terminated_length": 1537.0,
      "completions/mean_length": 697.421875,
      "completions/mean_terminated_length": 697.421875,
      "completions/min_length": 313.0,
      "completions/min_terminated_length": 313.0,
      "entropy": 0.6098843328654766,
      "epoch": 0.10810427883253046,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.56640625,
      "learning_rate": 8.920374043638424e-07,
      "loss": -0.0602,
      "num_tokens": 22603753.0,
      "reward": 0.5,
      "reward_std": 0.7766431570053101,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 763,
      "step_time": 51.317345715127885
    },
    {
      "clip_ratio/high_max": 0.0002367020060773939,
      "clip_ratio/high_mean": 0.0002367020060773939,
      "clip_ratio/low_mean": 0.0008790861757006496,
      "clip_ratio/low_min": 0.0008790861757006496,
      "clip_ratio/region_mean": 0.0011157881672261283,
      "entropy": 0.8535977751016617,
      "epoch": 0.10824596202890337,
      "grad_norm": 0.41796875,
      "learning_rate": 8.918957211674695e-07,
      "loss": 0.1023,
      "step": 764,
      "step_time": 3.3196384459733963
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1375.0,
      "completions/max_terminated_length": 1375.0,
      "completions/mean_length": 754.3125,
      "completions/mean_terminated_length": 754.3125,
      "completions/min_length": 302.0,
      "completions/min_terminated_length": 302.0,
      "entropy": 0.57754997164011,
      "epoch": 0.10838764522527629,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.392578125,
      "learning_rate": 8.917540379710966e-07,
      "loss": 0.0199,
      "num_tokens": 22662285.0,
      "reward": 0.296875,
      "reward_std": 0.5890451669692993,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 765,
      "step_time": 45.563598880544305
    },
    {
      "clip_ratio/high_max": 0.00030299873469630256,
      "clip_ratio/high_mean": 0.00030299873469630256,
      "clip_ratio/low_mean": 0.00047895387979224324,
      "clip_ratio/low_min": 0.00047895387979224324,
      "clip_ratio/region_mean": 0.0007819526144885458,
      "entropy": 0.590911652892828,
      "epoch": 0.1085293284216492,
      "grad_norm": 0.462890625,
      "learning_rate": 8.916123547747236e-07,
      "loss": -0.0786,
      "step": 766,
      "step_time": 3.0592254428192973
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1646.0,
      "completions/max_terminated_length": 1646.0,
      "completions/mean_length": 735.890625,
      "completions/mean_terminated_length": 735.890625,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "entropy": 0.8271870464086533,
      "epoch": 0.1086710116180221,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.30078125,
      "learning_rate": 8.914706715783508e-07,
      "loss": -0.0037,
      "num_tokens": 22719286.0,
      "reward": 0.1875,
      "reward_std": 0.39339789748191833,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 767,
      "step_time": 54.67266516853124
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00045893927745055407,
      "clip_ratio/low_min": 0.00045893927745055407,
      "clip_ratio/region_mean": 0.00045893927745055407,
      "entropy": 0.8013066872954369,
      "epoch": 0.10881269481439501,
      "grad_norm": 0.318359375,
      "learning_rate": 8.913289883819779e-07,
      "loss": 0.0018,
      "step": 768,
      "step_time": 3.4007839504629374
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1263.0,
      "completions/max_terminated_length": 1263.0,
      "completions/mean_length": 602.421875,
      "completions/mean_terminated_length": 602.421875,
      "completions/min_length": 57.0,
      "completions/min_terminated_length": 57.0,
      "entropy": 0.6330723091959953,
      "epoch": 0.10895437801076792,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.515625,
      "learning_rate": 8.911873051856049e-07,
      "loss": 0.0422,
      "num_tokens": 22766369.0,
      "reward": 0.2890625,
      "reward_std": 0.5896238088607788,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 769,
      "step_time": 41.51994523406029
    },
    {
      "clip_ratio/high_max": 0.0006419681885745376,
      "clip_ratio/high_mean": 0.0006419681885745376,
      "clip_ratio/low_mean": 0.00015824766887817532,
      "clip_ratio/low_min": 0.00015824766887817532,
      "clip_ratio/region_mean": 0.0008002158610906918,
      "entropy": 0.8277942463755608,
      "epoch": 0.10909606120714083,
      "grad_norm": 0.546875,
      "learning_rate": 8.91045621989232e-07,
      "loss": -0.0378,
      "step": 770,
      "step_time": 2.7297101132571697
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2039.0,
      "completions/max_terminated_length": 2039.0,
      "completions/mean_length": 850.78125,
      "completions/mean_terminated_length": 850.78125,
      "completions/min_length": 340.0,
      "completions/min_terminated_length": 340.0,
      "entropy": 0.5638601370155811,
      "epoch": 0.10923774440351375,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.07373046875,
      "learning_rate": 8.909039387928591e-07,
      "loss": 0.0319,
      "num_tokens": 22831763.0,
      "reward": 0.15625,
      "reward_std": 0.3196600377559662,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 771,
      "step_time": 68.98682473693043
    },
    {
      "clip_ratio/high_max": 4.4531527237268165e-05,
      "clip_ratio/high_mean": 4.4531527237268165e-05,
      "clip_ratio/low_mean": 7.961783558130264e-05,
      "clip_ratio/low_min": 7.961783558130264e-05,
      "clip_ratio/region_mean": 0.0001241493628185708,
      "entropy": 0.666231531649828,
      "epoch": 0.10937942759988666,
      "grad_norm": 0.31640625,
      "learning_rate": 8.907622555964862e-07,
      "loss": -0.0056,
      "step": 772,
      "step_time": 4.255511863157153
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1713.0,
      "completions/max_terminated_length": 1713.0,
      "completions/mean_length": 831.53125,
      "completions/mean_terminated_length": 831.53125,
      "completions/min_length": 425.0,
      "completions/min_terminated_length": 425.0,
      "entropy": 0.4836236461997032,
      "epoch": 0.10952111079625956,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.3515625,
      "learning_rate": 8.906205724001134e-07,
      "loss": -0.0391,
      "num_tokens": 22892949.0,
      "reward": 0.421875,
      "reward_std": 0.8367489576339722,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 773,
      "step_time": 56.51562263537198
    },
    {
      "clip_ratio/high_max": 7.939028000691906e-05,
      "clip_ratio/high_mean": 7.939028000691906e-05,
      "clip_ratio/low_mean": 0.00018349874881096184,
      "clip_ratio/low_min": 0.00018349874881096184,
      "clip_ratio/region_mean": 0.0002628890288178809,
      "entropy": 0.5527233593165874,
      "epoch": 0.10966279399263247,
      "grad_norm": 0.279296875,
      "learning_rate": 8.904788892037404e-07,
      "loss": 0.0457,
      "step": 774,
      "step_time": 3.440298907458782
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1484.0,
      "completions/max_terminated_length": 1484.0,
      "completions/mean_length": 922.859375,
      "completions/mean_terminated_length": 922.859375,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "entropy": 0.4871651157736778,
      "epoch": 0.10980447718900538,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.11279296875,
      "learning_rate": 8.903372060073675e-07,
      "loss": 0.086,
      "num_tokens": 22961964.0,
      "reward": 0.21875,
      "reward_std": 0.4869324266910553,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 775,
      "step_time": 48.64416220411658
    },
    {
      "clip_ratio/high_max": 4.045307287015021e-05,
      "clip_ratio/high_mean": 4.045307287015021e-05,
      "clip_ratio/low_mean": 7.558495053672232e-05,
      "clip_ratio/low_min": 7.558495053672232e-05,
      "clip_ratio/region_mean": 0.00011603802340687253,
      "entropy": 0.5301455743610859,
      "epoch": 0.1099461603853783,
      "grad_norm": 0.3125,
      "learning_rate": 8.901955228109945e-07,
      "loss": -0.0799,
      "step": 776,
      "step_time": 3.3648194102570415
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1433.0,
      "completions/max_terminated_length": 1433.0,
      "completions/mean_length": 776.671875,
      "completions/mean_terminated_length": 776.671875,
      "completions/min_length": 9.0,
      "completions/min_terminated_length": 9.0,
      "entropy": 0.6834736205637455,
      "epoch": 0.11008784358175121,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.1259765625,
      "learning_rate": 8.900538396146216e-07,
      "loss": 0.0631,
      "num_tokens": 23021239.0,
      "reward": 0.1875,
      "reward_std": 0.4318656623363495,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 777,
      "step_time": 47.67353646829724
    },
    {
      "clip_ratio/high_max": 7.23170378478244e-05,
      "clip_ratio/high_mean": 7.23170378478244e-05,
      "clip_ratio/low_mean": 7.574989285785705e-05,
      "clip_ratio/low_min": 7.574989285785705e-05,
      "clip_ratio/region_mean": 0.00014806693070568144,
      "entropy": 0.5952071733772755,
      "epoch": 0.11022952677812412,
      "grad_norm": 0.51953125,
      "learning_rate": 8.899121564182488e-07,
      "loss": -0.0641,
      "step": 778,
      "step_time": 3.122816100716591
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1402.0,
      "completions/max_terminated_length": 1402.0,
      "completions/mean_length": 622.0,
      "completions/mean_terminated_length": 622.0,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "entropy": 0.9732616171240807,
      "epoch": 0.11037120997449702,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.392578125,
      "learning_rate": 8.897704732218758e-07,
      "loss": 0.0479,
      "num_tokens": 23070007.0,
      "reward": 0.359375,
      "reward_std": 0.768779456615448,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 779,
      "step_time": 46.28672745637596
    },
    {
      "clip_ratio/high_max": 0.00018622770221554674,
      "clip_ratio/high_mean": 0.00018622770221554674,
      "clip_ratio/low_mean": 0.00018958211148856208,
      "clip_ratio/low_min": 0.00018958211148856208,
      "clip_ratio/region_mean": 0.0003758098137041088,
      "entropy": 0.7321021929383278,
      "epoch": 0.11051289317086993,
      "grad_norm": 0.400390625,
      "learning_rate": 8.89628790025503e-07,
      "loss": -0.0425,
      "step": 780,
      "step_time": 2.9317927146330476
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1270.0,
      "completions/max_terminated_length": 1270.0,
      "completions/mean_length": 803.921875,
      "completions/mean_terminated_length": 803.921875,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "entropy": 0.6260586939752102,
      "epoch": 0.11065457636724285,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.43359375,
      "learning_rate": 8.8948710682913e-07,
      "loss": 0.018,
      "num_tokens": 23131874.0,
      "reward": 0.359375,
      "reward_std": 0.6574888825416565,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 781,
      "step_time": 42.40039413422346
    },
    {
      "clip_ratio/high_max": 0.0003238889003114309,
      "clip_ratio/high_mean": 0.0003238889003114309,
      "clip_ratio/low_mean": 0.0009198361476592254,
      "clip_ratio/low_min": 0.0009198361476592254,
      "clip_ratio/region_mean": 0.0012437250479706563,
      "entropy": 0.5715764574706554,
      "epoch": 0.11079625956361576,
      "grad_norm": 0.5,
      "learning_rate": 8.893454236327571e-07,
      "loss": 0.0178,
      "step": 782,
      "step_time": 2.9095194777473807
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1344.0,
      "completions/max_terminated_length": 1344.0,
      "completions/mean_length": 692.453125,
      "completions/mean_terminated_length": 692.453125,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "entropy": 0.7883130982518196,
      "epoch": 0.11093794275998867,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.546875,
      "learning_rate": 8.892037404363843e-07,
      "loss": -0.036,
      "num_tokens": 23194383.0,
      "reward": 0.2734375,
      "reward_std": 0.5768668055534363,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 783,
      "step_time": 47.080779233016074
    },
    {
      "clip_ratio/high_max": 8.177952258847654e-05,
      "clip_ratio/high_mean": 8.177952258847654e-05,
      "clip_ratio/low_mean": 0.0006329249990812968,
      "clip_ratio/low_min": 0.0006329249990812968,
      "clip_ratio/region_mean": 0.0007147045216697734,
      "entropy": 1.0559441819787025,
      "epoch": 0.11107962595636157,
      "grad_norm": 0.46875,
      "learning_rate": 8.890620572400112e-07,
      "loss": 0.0233,
      "step": 784,
      "step_time": 3.4670338705182076
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1393.0,
      "completions/mean_length": 679.90625,
      "completions/mean_terminated_length": 625.6825561523438,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "entropy": 1.0920023620128632,
      "epoch": 0.11122130915273448,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.36328125,
      "learning_rate": 8.889203740436384e-07,
      "loss": 0.0274,
      "num_tokens": 23250553.0,
      "reward": 0.1015625,
      "reward_std": 0.20275263488292694,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 785,
      "step_time": 166.8781569711864
    },
    {
      "clip_ratio/high_max": 0.00034017896541627124,
      "clip_ratio/high_mean": 0.00034017896541627124,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00034017896541627124,
      "entropy": 1.0470350161194801,
      "epoch": 0.11136299234910739,
      "grad_norm": 0.251953125,
      "learning_rate": 8.887786908472654e-07,
      "loss": -0.0188,
      "step": 786,
      "step_time": 7.199961751699448
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1101.0,
      "completions/max_terminated_length": 1101.0,
      "completions/mean_length": 678.6875,
      "completions/mean_terminated_length": 678.6875,
      "completions/min_length": 383.0,
      "completions/min_terminated_length": 383.0,
      "entropy": 0.5473014116287231,
      "epoch": 0.11150467554548031,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.44140625,
      "learning_rate": 8.886370076508926e-07,
      "loss": -0.0601,
      "num_tokens": 23305989.0,
      "reward": 0.78125,
      "reward_std": 1.0307763814926147,
      "rewards/accuracy_reward_func/mean": 0.65625,
      "rewards/accuracy_reward_func/std": 0.9464847445487976,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 787,
      "step_time": 36.645803353749216
    },
    {
      "clip_ratio/high_max": 0.00024169390599126928,
      "clip_ratio/high_mean": 0.00024169390599126928,
      "clip_ratio/low_mean": 0.0004651041963370517,
      "clip_ratio/low_min": 0.0004651041963370517,
      "clip_ratio/region_mean": 0.000706798102328321,
      "entropy": 0.6037441305816174,
      "epoch": 0.11164635874185322,
      "grad_norm": 0.396484375,
      "learning_rate": 8.884953244545197e-07,
      "loss": 0.0702,
      "step": 788,
      "step_time": 2.7038972256705165
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2165.0,
      "completions/max_terminated_length": 2165.0,
      "completions/mean_length": 462.625,
      "completions/mean_terminated_length": 462.625,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "entropy": 0.9798215478658676,
      "epoch": 0.11178804193822613,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.51953125,
      "learning_rate": 8.883536412581467e-07,
      "loss": -0.0178,
      "num_tokens": 23349437.0,
      "reward": 0.375,
      "reward_std": 0.7663560509681702,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 789,
      "step_time": 75.34197793062776
    },
    {
      "clip_ratio/high_max": 0.00015473431267309934,
      "clip_ratio/high_mean": 0.00015473431267309934,
      "clip_ratio/low_mean": 0.00011542013089638203,
      "clip_ratio/low_min": 0.00011542013089638203,
      "clip_ratio/region_mean": 0.00027015444356948137,
      "entropy": 0.8361861631274223,
      "epoch": 0.11192972513459903,
      "grad_norm": 0.515625,
      "learning_rate": 8.882119580617739e-07,
      "loss": -0.0323,
      "step": 790,
      "step_time": 4.382363745011389
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1526.0,
      "completions/max_terminated_length": 1526.0,
      "completions/mean_length": 814.8125,
      "completions/mean_terminated_length": 814.8125,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "entropy": 0.7155929431319237,
      "epoch": 0.11207140833097194,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.310546875,
      "learning_rate": 8.880702748654008e-07,
      "loss": 0.0743,
      "num_tokens": 23410257.0,
      "reward": 0.15625,
      "reward_std": 0.3870421051979065,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 791,
      "step_time": 50.493743892759085
    },
    {
      "clip_ratio/high_max": 0.0007976649249030743,
      "clip_ratio/high_mean": 0.0007976649249030743,
      "clip_ratio/low_mean": 0.00024015408780542202,
      "clip_ratio/low_min": 0.00024015408780542202,
      "clip_ratio/region_mean": 0.0010378190017945599,
      "entropy": 0.7370501570403576,
      "epoch": 0.11221309152734486,
      "grad_norm": 0.515625,
      "learning_rate": 8.87928591669028e-07,
      "loss": -0.0416,
      "step": 792,
      "step_time": 3.1911588506773114
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1101.0,
      "completions/max_terminated_length": 1101.0,
      "completions/mean_length": 712.171875,
      "completions/mean_terminated_length": 712.171875,
      "completions/min_length": 358.0,
      "completions/min_terminated_length": 358.0,
      "entropy": 0.763578936457634,
      "epoch": 0.11235477472371777,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.275390625,
      "learning_rate": 8.877869084726551e-07,
      "loss": 0.0223,
      "num_tokens": 23464220.0,
      "reward": 0.2421875,
      "reward_std": 0.5908843874931335,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 793,
      "step_time": 36.198628841899335
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00042487138489377685,
      "clip_ratio/low_min": 0.00042487138489377685,
      "clip_ratio/region_mean": 0.00042487138489377685,
      "entropy": 0.7148983106017113,
      "epoch": 0.11249645792009068,
      "grad_norm": 0.373046875,
      "learning_rate": 8.876452252762822e-07,
      "loss": -0.006,
      "step": 794,
      "step_time": 2.700252096168697
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1020.0,
      "completions/max_terminated_length": 1020.0,
      "completions/mean_length": 629.78125,
      "completions/mean_terminated_length": 629.78125,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "entropy": 0.5465304329991341,
      "epoch": 0.11263814111646359,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.50390625,
      "learning_rate": 8.875035420799093e-07,
      "loss": 0.0154,
      "num_tokens": 23514478.0,
      "reward": 0.453125,
      "reward_std": 0.7385031580924988,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 795,
      "step_time": 33.9419946456328
    },
    {
      "clip_ratio/high_max": 0.00029187135078245774,
      "clip_ratio/high_mean": 0.00029187135078245774,
      "clip_ratio/low_mean": 0.000573982502828585,
      "clip_ratio/low_min": 0.000573982502828585,
      "clip_ratio/region_mean": 0.0008658538572490215,
      "entropy": 0.5632332526147366,
      "epoch": 0.1127798243128365,
      "grad_norm": 0.6953125,
      "learning_rate": 8.873618588835364e-07,
      "loss": -0.0351,
      "step": 796,
      "step_time": 2.4322348637506366
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1308.0,
      "completions/max_terminated_length": 1308.0,
      "completions/mean_length": 749.15625,
      "completions/mean_terminated_length": 749.15625,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "entropy": 0.7096624597907066,
      "epoch": 0.1129215075092094,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.6484375,
      "learning_rate": 8.872201756871635e-07,
      "loss": -0.0168,
      "num_tokens": 23572408.0,
      "reward": 0.3046875,
      "reward_std": 0.6275246739387512,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 797,
      "step_time": 43.253930704668164
    },
    {
      "clip_ratio/high_max": 0.00012768753731506877,
      "clip_ratio/high_mean": 0.00012768753731506877,
      "clip_ratio/low_mean": 0.0010804857520270161,
      "clip_ratio/low_min": 0.0010804857520270161,
      "clip_ratio/region_mean": 0.001208173285704106,
      "entropy": 0.7386528700590134,
      "epoch": 0.11306319070558232,
      "grad_norm": 0.51171875,
      "learning_rate": 8.870784924907905e-07,
      "loss": -0.0213,
      "step": 798,
      "step_time": 3.0832759272307158
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 938.0,
      "completions/max_terminated_length": 938.0,
      "completions/mean_length": 644.359375,
      "completions/mean_terminated_length": 644.359375,
      "completions/min_length": 319.0,
      "completions/min_terminated_length": 319.0,
      "entropy": 1.0524891391396523,
      "epoch": 0.11320487390195523,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.64453125,
      "learning_rate": 8.869368092944176e-07,
      "loss": -0.001,
      "num_tokens": 23623519.0,
      "reward": 0.28125,
      "reward_std": 0.5482656359672546,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 799,
      "step_time": 30.672921860590577
    },
    {
      "clip_ratio/high_max": 0.00023805954697309062,
      "clip_ratio/high_mean": 0.00023805954697309062,
      "clip_ratio/low_mean": 0.00021218894107732922,
      "clip_ratio/low_min": 0.00021218894107732922,
      "clip_ratio/region_mean": 0.00045024848805041984,
      "entropy": 1.1552332490682602,
      "epoch": 0.11334655709832814,
      "grad_norm": 0.3046875,
      "learning_rate": 8.867951260980447e-07,
      "loss": -0.0152,
      "step": 800,
      "step_time": 2.2555150520056486
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1642.0,
      "completions/max_terminated_length": 1642.0,
      "completions/mean_length": 736.6875,
      "completions/mean_terminated_length": 736.6875,
      "completions/min_length": 23.0,
      "completions/min_terminated_length": 23.0,
      "entropy": 0.5149757154285908,
      "epoch": 0.11348824029470105,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.51171875,
      "learning_rate": 8.866534429016718e-07,
      "loss": -0.0106,
      "num_tokens": 23679691.0,
      "reward": 0.5078125,
      "reward_std": 0.8974929451942444,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 801,
      "step_time": 54.22455416340381
    },
    {
      "clip_ratio/high_max": 0.00022400934176403098,
      "clip_ratio/high_mean": 0.00022400934176403098,
      "clip_ratio/low_mean": 0.0007642607451998629,
      "clip_ratio/low_min": 0.0007642607451998629,
      "clip_ratio/region_mean": 0.0009882700906018727,
      "entropy": 0.5205667018890381,
      "epoch": 0.11362992349107395,
      "grad_norm": 0.3671875,
      "learning_rate": 8.865117597052989e-07,
      "loss": 0.0348,
      "step": 802,
      "step_time": 3.336707789450884
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1066.0,
      "completions/max_terminated_length": 1066.0,
      "completions/mean_length": 687.953125,
      "completions/mean_terminated_length": 687.953125,
      "completions/min_length": 386.0,
      "completions/min_terminated_length": 386.0,
      "entropy": 1.0321061238646507,
      "epoch": 0.11377160668744687,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.376953125,
      "learning_rate": 8.863700765089261e-07,
      "loss": 0.0534,
      "num_tokens": 23735320.0,
      "reward": 0.2890625,
      "reward_std": 0.5896238088607788,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 803,
      "step_time": 35.28192689549178
    },
    {
      "clip_ratio/high_max": 0.00047075077236513607,
      "clip_ratio/high_mean": 0.00047075077236513607,
      "clip_ratio/low_mean": 0.0001293029636144638,
      "clip_ratio/low_min": 0.0001293029636144638,
      "clip_ratio/region_mean": 0.0006000537359795999,
      "entropy": 0.9301434382796288,
      "epoch": 0.11391328988381978,
      "grad_norm": 0.5078125,
      "learning_rate": 8.862283933125531e-07,
      "loss": -0.0222,
      "step": 804,
      "step_time": 2.525839526206255
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1599.0,
      "completions/max_terminated_length": 1599.0,
      "completions/mean_length": 746.703125,
      "completions/mean_terminated_length": 746.703125,
      "completions/min_length": 413.0,
      "completions/min_terminated_length": 413.0,
      "entropy": 0.6610995270311832,
      "epoch": 0.11405497308019269,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.3671875,
      "learning_rate": 8.860867101161801e-07,
      "loss": -0.0354,
      "num_tokens": 23792853.0,
      "reward": 0.1875,
      "reward_std": 0.39339789748191833,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 805,
      "step_time": 52.6828692778945
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00017745474542607553,
      "clip_ratio/low_min": 0.00017745474542607553,
      "clip_ratio/region_mean": 0.00017745474542607553,
      "entropy": 0.7064574882388115,
      "epoch": 0.1141966562765656,
      "grad_norm": 0.16796875,
      "learning_rate": 8.859450269198073e-07,
      "loss": 0.062,
      "step": 806,
      "step_time": 3.2848628414794803
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1013.0,
      "completions/max_terminated_length": 1013.0,
      "completions/mean_length": 614.515625,
      "completions/mean_terminated_length": 614.515625,
      "completions/min_length": 14.0,
      "completions/min_terminated_length": 14.0,
      "entropy": 0.9151569828391075,
      "epoch": 0.1143383394729385,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5546875,
      "learning_rate": 8.858033437234343e-07,
      "loss": -0.0219,
      "num_tokens": 23846694.0,
      "reward": 0.5546875,
      "reward_std": 0.826722264289856,
      "rewards/accuracy_reward_func/mean": 0.46875,
      "rewards/accuracy_reward_func/std": 0.8539125919342041,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 807,
      "step_time": 34.94671625923365
    },
    {
      "clip_ratio/high_max": 0.0003748167509911582,
      "clip_ratio/high_mean": 0.0003748167509911582,
      "clip_ratio/low_mean": 0.00024040741845965385,
      "clip_ratio/low_min": 0.00024040741845965385,
      "clip_ratio/region_mean": 0.0006152241621748544,
      "entropy": 0.8270280174911022,
      "epoch": 0.11448002266931143,
      "grad_norm": 0.61328125,
      "learning_rate": 8.856616605270615e-07,
      "loss": 0.0458,
      "step": 808,
      "step_time": 2.6962267458438873
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 4067.0,
      "completions/max_terminated_length": 4067.0,
      "completions/mean_length": 696.765625,
      "completions/mean_terminated_length": 696.765625,
      "completions/min_length": 328.0,
      "completions/min_terminated_length": 328.0,
      "entropy": 1.3065143190324306,
      "epoch": 0.11462170586568433,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.40234375,
      "learning_rate": 8.855199773306885e-07,
      "loss": 0.0416,
      "num_tokens": 23902183.0,
      "reward": 0.140625,
      "reward_std": 0.3145764470100403,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 809,
      "step_time": 163.23222291003913
    },
    {
      "clip_ratio/high_max": 0.000501607995829545,
      "clip_ratio/high_mean": 0.000501607995829545,
      "clip_ratio/low_mean": 0.00021874034428037703,
      "clip_ratio/low_min": 0.00021874034428037703,
      "clip_ratio/region_mean": 0.000720348340109922,
      "entropy": 0.9572034552693367,
      "epoch": 0.11476338906205724,
      "grad_norm": 0.625,
      "learning_rate": 8.853782941343157e-07,
      "loss": -0.0631,
      "step": 810,
      "step_time": 7.083539203740656
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1431.0,
      "completions/max_terminated_length": 1431.0,
      "completions/mean_length": 764.765625,
      "completions/mean_terminated_length": 764.765625,
      "completions/min_length": 354.0,
      "completions/min_terminated_length": 354.0,
      "entropy": 0.8339807242155075,
      "epoch": 0.11490507225843015,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.41796875,
      "learning_rate": 8.852366109379428e-07,
      "loss": 0.0055,
      "num_tokens": 23959432.0,
      "reward": 0.2421875,
      "reward_std": 0.503891110420227,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 811,
      "step_time": 47.54072049167007
    },
    {
      "clip_ratio/high_max": 0.00020280448006815277,
      "clip_ratio/high_mean": 0.00020280448006815277,
      "clip_ratio/low_mean": 3.878374263877049e-05,
      "clip_ratio/low_min": 3.878374263877049e-05,
      "clip_ratio/region_mean": 0.00024158822270692326,
      "entropy": 0.7493150383234024,
      "epoch": 0.11504675545480306,
      "grad_norm": 0.220703125,
      "learning_rate": 8.850949277415697e-07,
      "loss": 0.0217,
      "step": 812,
      "step_time": 3.0240674326196313
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1336.0,
      "completions/max_terminated_length": 1336.0,
      "completions/mean_length": 743.859375,
      "completions/mean_terminated_length": 743.859375,
      "completions/min_length": 397.0,
      "completions/min_terminated_length": 397.0,
      "entropy": 0.6677428968250751,
      "epoch": 0.11518843865117596,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.84765625,
      "learning_rate": 8.849532445451969e-07,
      "loss": -0.0045,
      "num_tokens": 24018159.0,
      "reward": 0.4609375,
      "reward_std": 0.7362748384475708,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 813,
      "step_time": 44.435576061718166
    },
    {
      "clip_ratio/high_max": 0.0004429953114595264,
      "clip_ratio/high_mean": 0.0004429953114595264,
      "clip_ratio/low_mean": 0.00047469878336414695,
      "clip_ratio/low_min": 0.00047469878336414695,
      "clip_ratio/region_mean": 0.0009176940948236734,
      "entropy": 0.8729575946927071,
      "epoch": 0.11533012184754889,
      "grad_norm": 0.49609375,
      "learning_rate": 8.848115613488239e-07,
      "loss": -0.0184,
      "step": 814,
      "step_time": 2.952976551838219
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1403.0,
      "completions/max_terminated_length": 1403.0,
      "completions/mean_length": 758.96875,
      "completions/mean_terminated_length": 758.96875,
      "completions/min_length": 464.0,
      "completions/min_terminated_length": 464.0,
      "entropy": 0.8570355847477913,
      "epoch": 0.1154718050439218,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.376953125,
      "learning_rate": 8.846698781524511e-07,
      "loss": 0.0052,
      "num_tokens": 24075549.0,
      "reward": 0.2265625,
      "reward_std": 0.5033986568450928,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 815,
      "step_time": 46.32114724162966
    },
    {
      "clip_ratio/high_max": 0.00041740845335880294,
      "clip_ratio/high_mean": 0.00041740845335880294,
      "clip_ratio/low_mean": 0.0005899447205592878,
      "clip_ratio/low_min": 0.0005899447205592878,
      "clip_ratio/region_mean": 0.0010073531811940484,
      "entropy": 0.8346307724714279,
      "epoch": 0.1156134882402947,
      "grad_norm": 0.58203125,
      "learning_rate": 8.845281949560782e-07,
      "loss": 0.0036,
      "step": 816,
      "step_time": 3.182281286455691
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1530.0,
      "completions/max_terminated_length": 1530.0,
      "completions/mean_length": 872.5625,
      "completions/mean_terminated_length": 872.5625,
      "completions/min_length": 316.0,
      "completions/min_terminated_length": 316.0,
      "entropy": 0.42454321309924126,
      "epoch": 0.11575517143666761,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.365234375,
      "learning_rate": 8.843865117597053e-07,
      "loss": 0.0068,
      "num_tokens": 24141041.0,
      "reward": 0.4296875,
      "reward_std": 0.8350800275802612,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 817,
      "step_time": 50.002945866435766
    },
    {
      "clip_ratio/high_max": 0.00011000293307006359,
      "clip_ratio/high_mean": 0.00011000293307006359,
      "clip_ratio/low_mean": 0.00039099305831769016,
      "clip_ratio/low_min": 0.00039099305831769016,
      "clip_ratio/region_mean": 0.0005009959913877537,
      "entropy": 0.6417677216231823,
      "epoch": 0.11589685463304052,
      "grad_norm": 0.330078125,
      "learning_rate": 8.842448285633324e-07,
      "loss": 0.0566,
      "step": 818,
      "step_time": 3.283297653310001
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1189.0,
      "completions/max_terminated_length": 1189.0,
      "completions/mean_length": 688.921875,
      "completions/mean_terminated_length": 688.921875,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "entropy": 0.6047572009265423,
      "epoch": 0.11603853782941344,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.494140625,
      "learning_rate": 8.841031453669594e-07,
      "loss": -0.0251,
      "num_tokens": 24193372.0,
      "reward": 0.2578125,
      "reward_std": 0.5772965550422668,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 819,
      "step_time": 39.50967173371464
    },
    {
      "clip_ratio/high_max": 0.00027847256569657475,
      "clip_ratio/high_mean": 0.00027847256569657475,
      "clip_ratio/low_mean": 0.000595770419749897,
      "clip_ratio/low_min": 0.000595770419749897,
      "clip_ratio/region_mean": 0.0008742429927224293,
      "entropy": 0.6229843571782112,
      "epoch": 0.11618022102578635,
      "grad_norm": 0.5390625,
      "learning_rate": 8.839614621705865e-07,
      "loss": 0.0246,
      "step": 820,
      "step_time": 2.8427214603871107
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1274.0,
      "completions/max_terminated_length": 1274.0,
      "completions/mean_length": 757.78125,
      "completions/mean_terminated_length": 757.78125,
      "completions/min_length": 315.0,
      "completions/min_terminated_length": 315.0,
      "entropy": 0.6354074068367481,
      "epoch": 0.11632190422215925,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.3515625,
      "learning_rate": 8.838197789742136e-07,
      "loss": 0.0566,
      "num_tokens": 24251806.0,
      "reward": 0.296875,
      "reward_std": 0.5890451669692993,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 821,
      "step_time": 42.31473272573203
    },
    {
      "clip_ratio/high_max": 0.0002802077324304264,
      "clip_ratio/high_mean": 0.0002802077324304264,
      "clip_ratio/low_mean": 0.0001318121430813335,
      "clip_ratio/low_min": 0.0001318121430813335,
      "clip_ratio/region_mean": 0.0004120198755117599,
      "entropy": 0.5908765010535717,
      "epoch": 0.11646358741853216,
      "grad_norm": 0.60546875,
      "learning_rate": 8.836780957778407e-07,
      "loss": -0.0653,
      "step": 822,
      "step_time": 2.8206328246742487
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1813.0,
      "completions/max_terminated_length": 1813.0,
      "completions/mean_length": 880.53125,
      "completions/mean_terminated_length": 880.53125,
      "completions/min_length": 408.0,
      "completions/min_terminated_length": 408.0,
      "entropy": 0.5991298891603947,
      "epoch": 0.11660527061490507,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1640625,
      "learning_rate": 8.835364125814678e-07,
      "loss": -0.0199,
      "num_tokens": 24321728.0,
      "reward": 0.3984375,
      "reward_std": 0.8506752252578735,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 823,
      "step_time": 61.25124778226018
    },
    {
      "clip_ratio/high_max": 3.2912059396039695e-05,
      "clip_ratio/high_mean": 3.2912059396039695e-05,
      "clip_ratio/low_mean": 3.60126759915147e-05,
      "clip_ratio/low_min": 3.60126759915147e-05,
      "clip_ratio/region_mean": 6.892473538755439e-05,
      "entropy": 0.6866815946996212,
      "epoch": 0.11674695381127798,
      "grad_norm": 0.1962890625,
      "learning_rate": 8.833947293850949e-07,
      "loss": 0.0475,
      "step": 824,
      "step_time": 3.968518058769405
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1214.0,
      "completions/max_terminated_length": 1214.0,
      "completions/mean_length": 726.15625,
      "completions/mean_terminated_length": 726.15625,
      "completions/min_length": 321.0,
      "completions/min_terminated_length": 321.0,
      "entropy": 0.7256844639778137,
      "epoch": 0.1168886370076509,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.53515625,
      "learning_rate": 8.83253046188722e-07,
      "loss": 0.0041,
      "num_tokens": 24377450.0,
      "reward": 0.5859375,
      "reward_std": 0.8430607914924622,
      "rewards/accuracy_reward_func/mean": 0.5,
      "rewards/accuracy_reward_func/std": 0.8728715777397156,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 825,
      "step_time": 39.97604750376195
    },
    {
      "clip_ratio/high_max": 0.0003464395231276285,
      "clip_ratio/high_mean": 0.0003464395231276285,
      "clip_ratio/low_mean": 0.0001683350019447971,
      "clip_ratio/low_min": 0.0001683350019447971,
      "clip_ratio/region_mean": 0.0005147745214344468,
      "entropy": 0.7984143868088722,
      "epoch": 0.1170303202040238,
      "grad_norm": 0.5,
      "learning_rate": 8.831113629923492e-07,
      "loss": 0.008,
      "step": 826,
      "step_time": 2.8246854916214943
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1935.0,
      "completions/max_terminated_length": 1935.0,
      "completions/mean_length": 724.296875,
      "completions/mean_terminated_length": 724.296875,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "entropy": 0.4982489049434662,
      "epoch": 0.11717200340039671,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.5546875,
      "learning_rate": 8.829696797959761e-07,
      "loss": -0.057,
      "num_tokens": 24437357.0,
      "reward": 0.5390625,
      "reward_std": 0.8418832421302795,
      "rewards/accuracy_reward_func/mean": 0.4375,
      "rewards/accuracy_reward_func/std": 0.8333333730697632,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 827,
      "step_time": 65.5718690091744
    },
    {
      "clip_ratio/high_max": 0.000212925071537029,
      "clip_ratio/high_mean": 0.000212925071537029,
      "clip_ratio/low_mean": 0.0011258264785283245,
      "clip_ratio/low_min": 0.0011258264785283245,
      "clip_ratio/region_mean": 0.001338751542789396,
      "entropy": 0.46594756841659546,
      "epoch": 0.11731368659676962,
      "grad_norm": 0.42578125,
      "learning_rate": 8.828279965996032e-07,
      "loss": 0.1296,
      "step": 828,
      "step_time": 4.077101460658014
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1381.0,
      "completions/max_terminated_length": 1381.0,
      "completions/mean_length": 709.078125,
      "completions/mean_terminated_length": 709.078125,
      "completions/min_length": 354.0,
      "completions/min_terminated_length": 354.0,
      "entropy": 0.7675897590816021,
      "epoch": 0.11745536979314253,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.546875,
      "learning_rate": 8.826863134032303e-07,
      "loss": -0.0442,
      "num_tokens": 24493810.0,
      "reward": 0.2109375,
      "reward_std": 0.4863590598106384,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 829,
      "step_time": 45.29804023262113
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00017533420395920984,
      "clip_ratio/low_min": 0.00017533420395920984,
      "clip_ratio/region_mean": 0.00017533420395920984,
      "entropy": 0.8116176277399063,
      "epoch": 0.11759705298951545,
      "grad_norm": 0.142578125,
      "learning_rate": 8.825446302068574e-07,
      "loss": 0.0384,
      "step": 830,
      "step_time": 3.0084504215046763
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1179.0,
      "completions/max_terminated_length": 1179.0,
      "completions/mean_length": 728.484375,
      "completions/mean_terminated_length": 728.484375,
      "completions/min_length": 387.0,
      "completions/min_terminated_length": 387.0,
      "entropy": 0.6797467395663261,
      "epoch": 0.11773873618588836,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.373046875,
      "learning_rate": 8.824029470104846e-07,
      "loss": 0.0318,
      "num_tokens": 24549121.0,
      "reward": 0.1171875,
      "reward_std": 0.21347814798355103,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 831,
      "step_time": 38.43562149628997
    },
    {
      "clip_ratio/high_max": 0.0003602047072490677,
      "clip_ratio/high_mean": 0.0003602047072490677,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0003602047072490677,
      "entropy": 0.6597975306212902,
      "epoch": 0.11788041938226126,
      "grad_norm": 0.055908203125,
      "learning_rate": 8.822612638141116e-07,
      "loss": -0.0289,
      "step": 832,
      "step_time": 2.6421094089746475
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1396.0,
      "completions/max_terminated_length": 1396.0,
      "completions/mean_length": 779.140625,
      "completions/mean_terminated_length": 779.140625,
      "completions/min_length": 302.0,
      "completions/min_terminated_length": 302.0,
      "entropy": 0.5165150165557861,
      "epoch": 0.11802210257863417,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1962890625,
      "learning_rate": 8.821195806177388e-07,
      "loss": -0.0161,
      "num_tokens": 24607786.0,
      "reward": 0.28125,
      "reward_std": 0.6777355074882507,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 833,
      "step_time": 45.59593598265201
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 3.596087481128052e-05,
      "clip_ratio/low_min": 3.596087481128052e-05,
      "clip_ratio/region_mean": 3.596087481128052e-05,
      "entropy": 0.7552242651581764,
      "epoch": 0.11816378577500708,
      "grad_norm": 0.1806640625,
      "learning_rate": 8.819778974213657e-07,
      "loss": 0.0057,
      "step": 834,
      "step_time": 2.9436522368341684
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1399.0,
      "completions/max_terminated_length": 1399.0,
      "completions/mean_length": 851.0,
      "completions/mean_terminated_length": 851.0,
      "completions/min_length": 384.0,
      "completions/min_terminated_length": 384.0,
      "entropy": 0.602625235915184,
      "epoch": 0.11830546897138,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.359375,
      "learning_rate": 8.818362142249929e-07,
      "loss": 0.0189,
      "num_tokens": 24672266.0,
      "reward": 0.2421875,
      "reward_std": 0.25185325741767883,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.2421875,
      "rewards/format_reward_func/std": 0.25185325741767883,
      "step": 835,
      "step_time": 45.48856633435935
    },
    {
      "clip_ratio/high_max": 0.0001903808515635319,
      "clip_ratio/high_mean": 0.0001903808515635319,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0001903808515635319,
      "entropy": 0.6456764899194241,
      "epoch": 0.11844715216775291,
      "grad_norm": 0.052734375,
      "learning_rate": 8.8169453102862e-07,
      "loss": -0.0281,
      "step": 836,
      "step_time": 3.0024601640179753
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1449.0,
      "completions/max_terminated_length": 1449.0,
      "completions/mean_length": 683.3125,
      "completions/mean_terminated_length": 683.3125,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "entropy": 0.7183315083384514,
      "epoch": 0.11858883536412582,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.29296875,
      "learning_rate": 8.81552847832247e-07,
      "loss": -0.0021,
      "num_tokens": 24725518.0,
      "reward": 0.21875,
      "reward_std": 0.4531635046005249,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 837,
      "step_time": 48.392754395492375
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00014274278146331199,
      "clip_ratio/low_min": 0.00014274278146331199,
      "clip_ratio/region_mean": 0.00014274278146331199,
      "entropy": 0.6656811982393265,
      "epoch": 0.11873051856049872,
      "grad_norm": 0.255859375,
      "learning_rate": 8.814111646358742e-07,
      "loss": 0.0074,
      "step": 838,
      "step_time": 3.0780279180034995
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 942.0,
      "completions/max_terminated_length": 942.0,
      "completions/mean_length": 577.734375,
      "completions/mean_terminated_length": 577.734375,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "entropy": 0.7509824521839619,
      "epoch": 0.11887220175687163,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.52734375,
      "learning_rate": 8.812694814395012e-07,
      "loss": -0.0139,
      "num_tokens": 24773229.0,
      "reward": 0.1953125,
      "reward_std": 0.5165298581123352,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 839,
      "step_time": 31.066370353102684
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00022752360746380873,
      "clip_ratio/low_min": 0.00022752360746380873,
      "clip_ratio/region_mean": 0.00022752360746380873,
      "entropy": 0.8869269713759422,
      "epoch": 0.11901388495324454,
      "grad_norm": 0.84765625,
      "learning_rate": 8.811277982431284e-07,
      "loss": 0.02,
      "step": 840,
      "step_time": 2.2570526804775
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1384.0,
      "completions/max_terminated_length": 1384.0,
      "completions/mean_length": 726.421875,
      "completions/mean_terminated_length": 726.421875,
      "completions/min_length": 281.0,
      "completions/min_terminated_length": 281.0,
      "entropy": 0.816083237528801,
      "epoch": 0.11915556814961746,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.5859375,
      "learning_rate": 8.809861150467554e-07,
      "loss": -0.0286,
      "num_tokens": 24829896.0,
      "reward": 0.328125,
      "reward_std": 0.625,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 841,
      "step_time": 45.64210920687765
    },
    {
      "clip_ratio/high_max": 0.0005129000346641988,
      "clip_ratio/high_mean": 0.0005129000346641988,
      "clip_ratio/low_mean": 0.0005206380992603954,
      "clip_ratio/low_min": 0.0005206380992603954,
      "clip_ratio/region_mean": 0.0010335381412005518,
      "entropy": 1.0670340172946453,
      "epoch": 0.11929725134599037,
      "grad_norm": 0.578125,
      "learning_rate": 8.808444318503825e-07,
      "loss": 0.0407,
      "step": 842,
      "step_time": 3.0776624185964465
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1389.0,
      "completions/max_terminated_length": 1389.0,
      "completions/mean_length": 814.984375,
      "completions/mean_terminated_length": 814.984375,
      "completions/min_length": 290.0,
      "completions/min_terminated_length": 290.0,
      "entropy": 0.5479476600885391,
      "epoch": 0.11943893454236328,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.228515625,
      "learning_rate": 8.807027486540096e-07,
      "loss": 0.0548,
      "num_tokens": 24891463.0,
      "reward": 0.140625,
      "reward_std": 0.3145764470100403,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 843,
      "step_time": 45.43802674114704
    },
    {
      "clip_ratio/high_max": 0.0002338166923436802,
      "clip_ratio/high_mean": 0.0002338166923436802,
      "clip_ratio/low_mean": 0.0001453515433240682,
      "clip_ratio/low_min": 0.0001453515433240682,
      "clip_ratio/region_mean": 0.0003791682393057272,
      "entropy": 0.5375793091952801,
      "epoch": 0.11958061773873618,
      "grad_norm": 0.40234375,
      "learning_rate": 8.805610654576366e-07,
      "loss": -0.069,
      "step": 844,
      "step_time": 2.9916189089417458
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2108.0,
      "completions/max_terminated_length": 2108.0,
      "completions/mean_length": 860.1875,
      "completions/mean_terminated_length": 860.1875,
      "completions/min_length": 326.0,
      "completions/min_terminated_length": 326.0,
      "entropy": 0.599807545542717,
      "epoch": 0.11972230093510909,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2470703125,
      "learning_rate": 8.804193822612638e-07,
      "loss": 0.0018,
      "num_tokens": 24956707.0,
      "reward": 0.1015625,
      "reward_std": 0.20275263488292694,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 845,
      "step_time": 70.67784090526402
    },
    {
      "clip_ratio/high_max": 0.00027633966237772256,
      "clip_ratio/high_mean": 0.00027633966237772256,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00027633966237772256,
      "entropy": 0.6782943606376648,
      "epoch": 0.11986398413148201,
      "grad_norm": 0.1904296875,
      "learning_rate": 8.802776990648909e-07,
      "loss": 0.0416,
      "step": 846,
      "step_time": 4.320276642218232
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1388.0,
      "completions/max_terminated_length": 1388.0,
      "completions/mean_length": 877.609375,
      "completions/mean_terminated_length": 877.609375,
      "completions/min_length": 362.0,
      "completions/min_terminated_length": 362.0,
      "entropy": 0.6437869109213352,
      "epoch": 0.12000566732785492,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.427734375,
      "learning_rate": 8.80136015868518e-07,
      "loss": -0.003,
      "num_tokens": 25022490.0,
      "reward": 0.1875,
      "reward_std": 0.44986769556999207,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 847,
      "step_time": 45.5255883783102
    },
    {
      "clip_ratio/high_max": 0.0002169393810618203,
      "clip_ratio/high_mean": 0.0002169393810618203,
      "clip_ratio/low_mean": 0.0005585633807640988,
      "clip_ratio/low_min": 0.0005585633807640988,
      "clip_ratio/region_mean": 0.0007755027727398556,
      "entropy": 0.5884156562387943,
      "epoch": 0.12014735052422783,
      "grad_norm": 0.419921875,
      "learning_rate": 8.79994332672145e-07,
      "loss": 0.0318,
      "step": 848,
      "step_time": 3.0486917486414313
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1572.0,
      "completions/max_terminated_length": 1572.0,
      "completions/mean_length": 873.96875,
      "completions/mean_terminated_length": 873.96875,
      "completions/min_length": 5.0,
      "completions/min_terminated_length": 5.0,
      "entropy": 0.6174659803509712,
      "epoch": 0.12028903372060074,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.314453125,
      "learning_rate": 8.798526494757721e-07,
      "loss": -0.0021,
      "num_tokens": 25088808.0,
      "reward": 0.1484375,
      "reward_std": 0.3850344121456146,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 849,
      "step_time": 51.9435425279662
    },
    {
      "clip_ratio/high_max": 0.0001921990879054647,
      "clip_ratio/high_mean": 0.0001921990879054647,
      "clip_ratio/low_mean": 0.00042793002648977563,
      "clip_ratio/low_min": 0.00042793002648977563,
      "clip_ratio/region_mean": 0.0006201291143952403,
      "entropy": 0.6083855256438255,
      "epoch": 0.12043071691697364,
      "grad_norm": 0.365234375,
      "learning_rate": 8.797109662793992e-07,
      "loss": 0.0015,
      "step": 850,
      "step_time": 3.5139436554163694
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1032.0,
      "completions/max_terminated_length": 1032.0,
      "completions/mean_length": 540.359375,
      "completions/mean_terminated_length": 540.359375,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "entropy": 0.894064761698246,
      "epoch": 0.12057240011334655,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.60546875,
      "learning_rate": 8.795692830830264e-07,
      "loss": 0.0028,
      "num_tokens": 25136191.0,
      "reward": 0.28125,
      "reward_std": 0.6291528940200806,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 851,
      "step_time": 33.91951772943139
    },
    {
      "clip_ratio/high_max": 0.00032450481376145035,
      "clip_ratio/high_mean": 0.00032450481376145035,
      "clip_ratio/low_mean": 0.0009872196096694097,
      "clip_ratio/low_min": 0.0009872196096694097,
      "clip_ratio/region_mean": 0.0013117244379827753,
      "entropy": 0.849272832274437,
      "epoch": 0.12071408330971947,
      "grad_norm": 0.44921875,
      "learning_rate": 8.794275998866534e-07,
      "loss": 0.0243,
      "step": 852,
      "step_time": 2.4974058782681823
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1248.0,
      "completions/max_terminated_length": 1248.0,
      "completions/mean_length": 818.578125,
      "completions/mean_terminated_length": 818.578125,
      "completions/min_length": 12.0,
      "completions/min_terminated_length": 12.0,
      "entropy": 0.48915959522128105,
      "epoch": 0.12085576650609238,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.326171875,
      "learning_rate": 8.792859166902805e-07,
      "loss": 0.0259,
      "num_tokens": 25198660.0,
      "reward": 0.40625,
      "reward_std": 0.6835655570030212,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 853,
      "step_time": 40.96047521010041
    },
    {
      "clip_ratio/high_max": 7.640587136847898e-05,
      "clip_ratio/high_mean": 7.640587136847898e-05,
      "clip_ratio/low_mean": 0.00017564186418894678,
      "clip_ratio/low_min": 0.00017564186418894678,
      "clip_ratio/region_mean": 0.00025204773555742577,
      "entropy": 0.5589943006634712,
      "epoch": 0.12099744970246529,
      "grad_norm": 0.357421875,
      "learning_rate": 8.791442334939076e-07,
      "loss": -0.0117,
      "step": 854,
      "step_time": 3.001945179887116
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1148.0,
      "completions/max_terminated_length": 1148.0,
      "completions/mean_length": 621.25,
      "completions/mean_terminated_length": 621.25,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "entropy": 0.8253603875637054,
      "epoch": 0.1211391328988382,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.6640625,
      "learning_rate": 8.790025502975346e-07,
      "loss": -0.0383,
      "num_tokens": 25249844.0,
      "reward": 0.25,
      "reward_std": 0.5345224738121033,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 855,
      "step_time": 37.85338516160846
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00023802546638762578,
      "clip_ratio/low_min": 0.00023802546638762578,
      "clip_ratio/region_mean": 0.00023802546638762578,
      "entropy": 0.6903892233967781,
      "epoch": 0.1212808160952111,
      "grad_norm": 0.259765625,
      "learning_rate": 8.788608671011618e-07,
      "loss": 0.047,
      "step": 856,
      "step_time": 2.725244485773146
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1218.0,
      "completions/max_terminated_length": 1218.0,
      "completions/mean_length": 755.875,
      "completions/mean_terminated_length": 755.875,
      "completions/min_length": 368.0,
      "completions/min_terminated_length": 368.0,
      "entropy": 0.460528414696455,
      "epoch": 0.12142249929158402,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.4765625,
      "learning_rate": 8.787191839047888e-07,
      "loss": 0.0168,
      "num_tokens": 25308652.0,
      "reward": 0.421875,
      "reward_std": 0.7979077100753784,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 857,
      "step_time": 40.07422543782741
    },
    {
      "clip_ratio/high_max": 0.00040152268047677353,
      "clip_ratio/high_mean": 0.00040152268047677353,
      "clip_ratio/low_mean": 0.000412390105339,
      "clip_ratio/low_min": 0.000412390105339,
      "clip_ratio/region_mean": 0.0008139127858157735,
      "entropy": 0.47442059591412544,
      "epoch": 0.12156418248795693,
      "grad_norm": 0.34375,
      "learning_rate": 8.78577500708416e-07,
      "loss": -0.0058,
      "step": 858,
      "step_time": 2.8298785416409373
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1650.0,
      "completions/max_terminated_length": 1650.0,
      "completions/mean_length": 732.546875,
      "completions/mean_terminated_length": 732.546875,
      "completions/min_length": 288.0,
      "completions/min_terminated_length": 288.0,
      "entropy": 0.6856205016374588,
      "epoch": 0.12170586568432984,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.36328125,
      "learning_rate": 8.78435817512043e-07,
      "loss": 0.0095,
      "num_tokens": 25365919.0,
      "reward": 0.2265625,
      "reward_std": 0.5033986568450928,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 859,
      "step_time": 54.40733193792403
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00023439844153472222,
      "clip_ratio/low_min": 0.00023439844153472222,
      "clip_ratio/region_mean": 0.00023439844153472222,
      "entropy": 0.8095942139625549,
      "epoch": 0.12184754888070275,
      "grad_norm": 0.58984375,
      "learning_rate": 8.782941343156701e-07,
      "loss": 0.0541,
      "step": 860,
      "step_time": 3.4345760634168983
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1214.0,
      "completions/max_terminated_length": 1214.0,
      "completions/mean_length": 733.84375,
      "completions/mean_terminated_length": 733.84375,
      "completions/min_length": 17.0,
      "completions/min_terminated_length": 17.0,
      "entropy": 0.9554888233542442,
      "epoch": 0.12198923207707565,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.498046875,
      "learning_rate": 8.781524511192973e-07,
      "loss": 0.016,
      "num_tokens": 25424917.0,
      "reward": 0.265625,
      "reward_std": 0.548943817615509,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 861,
      "step_time": 40.15165929310024
    },
    {
      "clip_ratio/high_max": 0.0002648227928148117,
      "clip_ratio/high_mean": 0.0002648227928148117,
      "clip_ratio/low_mean": 3.577561437850818e-05,
      "clip_ratio/low_min": 3.577561437850818e-05,
      "clip_ratio/region_mean": 0.00030059840719331987,
      "entropy": 0.7968477308750153,
      "epoch": 0.12213091527344858,
      "grad_norm": 0.294921875,
      "learning_rate": 8.780107679229242e-07,
      "loss": -0.037,
      "step": 862,
      "step_time": 2.7882875092327595
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1236.0,
      "completions/max_terminated_length": 1236.0,
      "completions/mean_length": 769.96875,
      "completions/mean_terminated_length": 769.96875,
      "completions/min_length": 307.0,
      "completions/min_terminated_length": 307.0,
      "entropy": 0.7854932621121407,
      "epoch": 0.12227259846982148,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.310546875,
      "learning_rate": 8.778690847265514e-07,
      "loss": -0.0352,
      "num_tokens": 25491347.0,
      "reward": 0.2890625,
      "reward_std": 0.5896238088607788,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 863,
      "step_time": 42.34419255703688
    },
    {
      "clip_ratio/high_max": 0.00048212166075245477,
      "clip_ratio/high_mean": 0.00048212166075245477,
      "clip_ratio/low_mean": 0.0003869136271532625,
      "clip_ratio/low_min": 0.0003869136271532625,
      "clip_ratio/region_mean": 0.0008690352769917808,
      "entropy": 0.9322529584169388,
      "epoch": 0.12241428166619439,
      "grad_norm": 0.53515625,
      "learning_rate": 8.777274015301784e-07,
      "loss": 0.0375,
      "step": 864,
      "step_time": 3.0788341984152794
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2024.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 893.828125,
      "completions/mean_terminated_length": 893.828125,
      "completions/min_length": 295.0,
      "completions/min_terminated_length": 295.0,
      "entropy": 0.530340164899826,
      "epoch": 0.1225559648625673,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2734375,
      "learning_rate": 8.775857183338056e-07,
      "loss": -0.0151,
      "num_tokens": 25557576.0,
      "reward": 0.3984375,
      "reward_std": 0.7516103982925415,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 865,
      "step_time": 67.46821998804808
    },
    {
      "clip_ratio/high_max": 0.00031205622508423403,
      "clip_ratio/high_mean": 0.00031205622508423403,
      "clip_ratio/low_mean": 8.964247172116302e-05,
      "clip_ratio/low_min": 8.964247172116302e-05,
      "clip_ratio/region_mean": 0.00040169869680539705,
      "entropy": 0.5955826118588448,
      "epoch": 0.1226976480589402,
      "grad_norm": 0.29296875,
      "learning_rate": 8.774440351374327e-07,
      "loss": 0.0051,
      "step": 866,
      "step_time": 3.9791801581159234
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1487.0,
      "completions/max_terminated_length": 1487.0,
      "completions/mean_length": 869.984375,
      "completions/mean_terminated_length": 869.984375,
      "completions/min_length": 307.0,
      "completions/min_terminated_length": 307.0,
      "entropy": 0.6690344624221325,
      "epoch": 0.12283933125531311,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.404296875,
      "learning_rate": 8.773023519410598e-07,
      "loss": 0.0213,
      "num_tokens": 25624455.0,
      "reward": 0.421875,
      "reward_std": 0.71391361951828,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 867,
      "step_time": 49.35767881758511
    },
    {
      "clip_ratio/high_max": 0.0004997322212147992,
      "clip_ratio/high_mean": 0.0004997322212147992,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0004997322212147992,
      "entropy": 0.6982574835419655,
      "epoch": 0.12298101445168604,
      "grad_norm": 0.265625,
      "learning_rate": 8.771606687446869e-07,
      "loss": -0.0762,
      "step": 868,
      "step_time": 3.283597070723772
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2043.0,
      "completions/max_terminated_length": 2043.0,
      "completions/mean_length": 974.46875,
      "completions/mean_terminated_length": 974.46875,
      "completions/min_length": 443.0,
      "completions/min_terminated_length": 443.0,
      "entropy": 0.6527942158281803,
      "epoch": 0.12312269764805894,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.396484375,
      "learning_rate": 8.770189855483138e-07,
      "loss": -0.0099,
      "num_tokens": 25698725.0,
      "reward": 0.125,
      "reward_std": 0.37796446681022644,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.0625,
      "rewards/format_reward_func/std": 0.1666666716337204,
      "step": 869,
      "step_time": 68.62775086797774
    },
    {
      "clip_ratio/high_max": 0.00026926142527372576,
      "clip_ratio/high_mean": 0.00026926142527372576,
      "clip_ratio/low_mean": 0.00018205555534223095,
      "clip_ratio/low_min": 0.00018205555534223095,
      "clip_ratio/region_mean": 0.0004513169806159567,
      "entropy": 0.7559848576784134,
      "epoch": 0.12326438084443185,
      "grad_norm": 0.24609375,
      "learning_rate": 8.76877302351941e-07,
      "loss": 0.0129,
      "step": 870,
      "step_time": 4.12191654369235
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1502.0,
      "completions/max_terminated_length": 1502.0,
      "completions/mean_length": 755.15625,
      "completions/mean_terminated_length": 755.15625,
      "completions/min_length": 275.0,
      "completions/min_terminated_length": 275.0,
      "entropy": 0.6563607081770897,
      "epoch": 0.12340606404080476,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.349609375,
      "learning_rate": 8.767356191555681e-07,
      "loss": 0.0071,
      "num_tokens": 25756655.0,
      "reward": 0.4921875,
      "reward_std": 0.8567759394645691,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 871,
      "step_time": 49.953756214119494
    },
    {
      "clip_ratio/high_max": 0.0003290402346465271,
      "clip_ratio/high_mean": 0.0003290402346465271,
      "clip_ratio/low_mean": 0.0003757482954824809,
      "clip_ratio/low_min": 0.0003757482954824809,
      "clip_ratio/region_mean": 0.0007047885264910292,
      "entropy": 0.7450451031327248,
      "epoch": 0.12354774723717767,
      "grad_norm": 0.419921875,
      "learning_rate": 8.765939359591952e-07,
      "loss": 0.0149,
      "step": 872,
      "step_time": 3.376224980689585
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1494.0,
      "completions/max_terminated_length": 1494.0,
      "completions/mean_length": 615.671875,
      "completions/mean_terminated_length": 615.671875,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "entropy": 0.5969218760728836,
      "epoch": 0.12368943043355059,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.6640625,
      "learning_rate": 8.764522527628223e-07,
      "loss": 0.0739,
      "num_tokens": 25805578.0,
      "reward": 0.578125,
      "reward_std": 0.8175590634346008,
      "rewards/accuracy_reward_func/mean": 0.46875,
      "rewards/accuracy_reward_func/std": 0.8539125919342041,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 873,
      "step_time": 49.041224740445614
    },
    {
      "clip_ratio/high_max": 0.0009412819708813913,
      "clip_ratio/high_mean": 0.0009412819708813913,
      "clip_ratio/low_mean": 0.0002462792253936641,
      "clip_ratio/low_min": 0.0002462792253936641,
      "clip_ratio/region_mean": 0.0011875612181029283,
      "entropy": 0.6275970786809921,
      "epoch": 0.1238311136299235,
      "grad_norm": 0.5234375,
      "learning_rate": 8.763105695664494e-07,
      "loss": -0.0373,
      "step": 874,
      "step_time": 3.1307149343192577
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1365.0,
      "completions/max_terminated_length": 1365.0,
      "completions/mean_length": 750.40625,
      "completions/mean_terminated_length": 750.40625,
      "completions/min_length": 426.0,
      "completions/min_terminated_length": 426.0,
      "entropy": 0.7205048203468323,
      "epoch": 0.1239727968262964,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.326171875,
      "learning_rate": 8.761688863700765e-07,
      "loss": 0.0233,
      "num_tokens": 25864020.0,
      "reward": 0.4296875,
      "reward_std": 0.7552314400672913,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 875,
      "step_time": 44.496944557875395
    },
    {
      "clip_ratio/high_max": 8.868393342709169e-05,
      "clip_ratio/high_mean": 8.868393342709169e-05,
      "clip_ratio/low_mean": 0.00011980830458924174,
      "clip_ratio/low_min": 0.00011980830458924174,
      "clip_ratio/region_mean": 0.00020849223801633343,
      "entropy": 0.7187871187925339,
      "epoch": 0.12411448002266931,
      "grad_norm": 0.333984375,
      "learning_rate": 8.760272031737036e-07,
      "loss": -0.0305,
      "step": 876,
      "step_time": 3.133047502487898
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1316.0,
      "completions/max_terminated_length": 1316.0,
      "completions/mean_length": 687.046875,
      "completions/mean_terminated_length": 687.046875,
      "completions/min_length": 3.0,
      "completions/min_terminated_length": 3.0,
      "entropy": 0.9495529681444168,
      "epoch": 0.12425616321904222,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.07080078125,
      "learning_rate": 8.758855199773306e-07,
      "loss": -0.0295,
      "num_tokens": 25920631.0,
      "reward": 0.1171875,
      "reward_std": 0.21347814798355103,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 877,
      "step_time": 43.72191776148975
    },
    {
      "clip_ratio/high_max": 0.0002934374497272074,
      "clip_ratio/high_mean": 0.0002934374497272074,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0002934374497272074,
      "entropy": 0.9064496904611588,
      "epoch": 0.12439784641541513,
      "grad_norm": 0.404296875,
      "learning_rate": 8.757438367809577e-07,
      "loss": 0.0185,
      "step": 878,
      "step_time": 2.9823727905750275
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1429.0,
      "completions/max_terminated_length": 1429.0,
      "completions/mean_length": 735.171875,
      "completions/mean_terminated_length": 735.171875,
      "completions/min_length": 50.0,
      "completions/min_terminated_length": 50.0,
      "entropy": 0.7929200232028961,
      "epoch": 0.12453952961178805,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 8.756021535845848e-07,
      "loss": 0.0,
      "num_tokens": 25976482.0,
      "reward": 0.125,
      "reward_std": 0.2182178944349289,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 879,
      "step_time": 46.598253107629716
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.7530690059065819,
      "epoch": 0.12468121280816095,
      "grad_norm": 0.0,
      "learning_rate": 8.754604703882119e-07,
      "loss": 0.0,
      "step": 880,
      "step_time": 3.225142271257937
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1282.0,
      "completions/max_terminated_length": 1282.0,
      "completions/mean_length": 759.421875,
      "completions/mean_terminated_length": 759.421875,
      "completions/min_length": 397.0,
      "completions/min_terminated_length": 397.0,
      "entropy": 0.7027705684304237,
      "epoch": 0.12482289600453386,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.0849609375,
      "learning_rate": 8.753187871918391e-07,
      "loss": 0.0173,
      "num_tokens": 26036285.0,
      "reward": 0.15625,
      "reward_std": 0.3196600377559662,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 881,
      "step_time": 41.809711864218116
    },
    {
      "clip_ratio/high_max": 8.369601710001007e-05,
      "clip_ratio/high_mean": 8.369601710001007e-05,
      "clip_ratio/low_mean": 0.00041527918074280024,
      "clip_ratio/low_min": 0.00041527918074280024,
      "clip_ratio/region_mean": 0.0004989751978428103,
      "entropy": 0.9410435110330582,
      "epoch": 0.12496457920090677,
      "grad_norm": 0.470703125,
      "learning_rate": 8.751771039954661e-07,
      "loss": -0.0271,
      "step": 882,
      "step_time": 2.8391539249569178
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1767.0,
      "completions/max_terminated_length": 1767.0,
      "completions/mean_length": 788.75,
      "completions/mean_terminated_length": 788.75,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "entropy": 0.7086173743009567,
      "epoch": 0.12510626239727968,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5078125,
      "learning_rate": 8.750354207990933e-07,
      "loss": 0.0351,
      "num_tokens": 26096845.0,
      "reward": 0.484375,
      "reward_std": 0.7815772891044617,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 883,
      "step_time": 58.04525707755238
    },
    {
      "clip_ratio/high_max": 0.00041263287857873365,
      "clip_ratio/high_mean": 0.00041263287857873365,
      "clip_ratio/low_mean": 0.0002933522955572698,
      "clip_ratio/low_min": 0.0002933522955572698,
      "clip_ratio/region_mean": 0.0007059851704980247,
      "entropy": 0.591647420078516,
      "epoch": 0.1252479455936526,
      "grad_norm": 0.43359375,
      "learning_rate": 8.748937376027202e-07,
      "loss": -0.0641,
      "step": 884,
      "step_time": 3.5316129624843597
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1277.0,
      "completions/max_terminated_length": 1277.0,
      "completions/mean_length": 812.125,
      "completions/mean_terminated_length": 812.125,
      "completions/min_length": 512.0,
      "completions/min_terminated_length": 512.0,
      "entropy": 0.7011100761592388,
      "epoch": 0.1253896287900255,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2236328125,
      "learning_rate": 8.747520544063473e-07,
      "loss": 0.0061,
      "num_tokens": 26158261.0,
      "reward": 0.4921875,
      "reward_std": 0.9778993725776672,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 885,
      "step_time": 42.48853281419724
    },
    {
      "clip_ratio/high_max": 3.437843770370819e-05,
      "clip_ratio/high_mean": 3.437843770370819e-05,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 3.437843770370819e-05,
      "entropy": 0.7478425987064838,
      "epoch": 0.12553131198639841,
      "grad_norm": 0.1396484375,
      "learning_rate": 8.746103712099745e-07,
      "loss": -0.0162,
      "step": 886,
      "step_time": 2.770700610242784
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1655.0,
      "completions/max_terminated_length": 1655.0,
      "completions/mean_length": 676.1875,
      "completions/mean_terminated_length": 676.1875,
      "completions/min_length": 358.0,
      "completions/min_terminated_length": 358.0,
      "entropy": 0.9503338485956192,
      "epoch": 0.12567299518277134,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.46484375,
      "learning_rate": 8.744686880136015e-07,
      "loss": 0.1077,
      "num_tokens": 26217025.0,
      "reward": 0.53125,
      "reward_std": 0.8351171612739563,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 887,
      "step_time": 56.24705075472593
    },
    {
      "clip_ratio/high_max": 0.0004997154828743078,
      "clip_ratio/high_mean": 0.0004997154828743078,
      "clip_ratio/low_mean": 0.0006498280927189626,
      "clip_ratio/low_min": 0.0006498280927189626,
      "clip_ratio/region_mean": 0.0011495435755932704,
      "entropy": 1.0042838081717491,
      "epoch": 0.12581467837914423,
      "grad_norm": 0.5859375,
      "learning_rate": 8.743270048172287e-07,
      "loss": -0.0881,
      "step": 888,
      "step_time": 3.7088622888550162
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1540.0,
      "completions/max_terminated_length": 1540.0,
      "completions/mean_length": 778.25,
      "completions/mean_terminated_length": 778.25,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "entropy": 0.7205746844410896,
      "epoch": 0.12595636157551715,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5234375,
      "learning_rate": 8.741853216208557e-07,
      "loss": 0.0279,
      "num_tokens": 26275905.0,
      "reward": 0.3203125,
      "reward_std": 0.6259417533874512,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 889,
      "step_time": 51.0460042944178
    },
    {
      "clip_ratio/high_max": 0.00012047707423334941,
      "clip_ratio/high_mean": 0.00012047707423334941,
      "clip_ratio/low_mean": 0.0009327164516435005,
      "clip_ratio/low_min": 0.0009327164516435005,
      "clip_ratio/region_mean": 0.0010531935186008923,
      "entropy": 0.7533018253743649,
      "epoch": 0.12609804477189004,
      "grad_norm": 0.431640625,
      "learning_rate": 8.740436384244829e-07,
      "loss": -0.0026,
      "step": 890,
      "step_time": 3.1993844686076045
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 901.0,
      "completions/max_terminated_length": 901.0,
      "completions/mean_length": 528.65625,
      "completions/mean_terminated_length": 528.65625,
      "completions/min_length": 272.0,
      "completions/min_terminated_length": 272.0,
      "entropy": 0.9240241646766663,
      "epoch": 0.12623972796826297,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.8515625,
      "learning_rate": 8.739019552281099e-07,
      "loss": -0.1032,
      "num_tokens": 26319723.0,
      "reward": 0.25,
      "reward_std": 0.5039526224136353,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 891,
      "step_time": 29.683094883337617
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0007020885896054097,
      "clip_ratio/low_min": 0.0007020885896054097,
      "clip_ratio/region_mean": 0.0007020885896054097,
      "entropy": 1.0140883326530457,
      "epoch": 0.1263814111646359,
      "grad_norm": 0.25390625,
      "learning_rate": 8.737602720317369e-07,
      "loss": 0.0941,
      "step": 892,
      "step_time": 2.1969872238114476
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1140.0,
      "completions/max_terminated_length": 1140.0,
      "completions/mean_length": 617.28125,
      "completions/mean_terminated_length": 617.28125,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "entropy": 0.6990172825753689,
      "epoch": 0.12652309436100878,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 8.736185888353641e-07,
      "loss": 0.0,
      "num_tokens": 26369165.0,
      "reward": 0.125,
      "reward_std": 0.2182178944349289,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 893,
      "step_time": 37.82675061374903
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.6643943004310131,
      "epoch": 0.1266647775573817,
      "grad_norm": 0.0,
      "learning_rate": 8.734769056389911e-07,
      "loss": 0.0,
      "step": 894,
      "step_time": 2.5573009559884667
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1431.0,
      "completions/max_terminated_length": 1431.0,
      "completions/mean_length": 714.4375,
      "completions/mean_terminated_length": 714.4375,
      "completions/min_length": 417.0,
      "completions/min_terminated_length": 417.0,
      "entropy": 0.5105449371039867,
      "epoch": 0.1268064607537546,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.58984375,
      "learning_rate": 8.733352224426183e-07,
      "loss": 0.0869,
      "num_tokens": 26424441.0,
      "reward": 0.828125,
      "reward_std": 0.9395149946212769,
      "rewards/accuracy_reward_func/mean": 0.71875,
      "rewards/accuracy_reward_func/std": 0.9672207236289978,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 895,
      "step_time": 46.95750207826495
    },
    {
      "clip_ratio/high_max": 0.0002589184841781389,
      "clip_ratio/high_mean": 0.0002589184841781389,
      "clip_ratio/low_mean": 0.0004433868598425761,
      "clip_ratio/low_min": 0.0004433868598425761,
      "clip_ratio/region_mean": 0.000702305344020715,
      "entropy": 0.4169032983481884,
      "epoch": 0.12694814395012752,
      "grad_norm": 0.50390625,
      "learning_rate": 8.731935392462454e-07,
      "loss": -0.0477,
      "step": 896,
      "step_time": 3.0866442006081343
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1246.0,
      "completions/max_terminated_length": 1246.0,
      "completions/mean_length": 772.515625,
      "completions/mean_terminated_length": 772.515625,
      "completions/min_length": 354.0,
      "completions/min_terminated_length": 354.0,
      "entropy": 0.7586051188409328,
      "epoch": 0.1270898271465004,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.5390625,
      "learning_rate": 8.730518560498725e-07,
      "loss": 0.1176,
      "num_tokens": 26486794.0,
      "reward": 0.4609375,
      "reward_std": 0.7362748384475708,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 897,
      "step_time": 41.59035506751388
    },
    {
      "clip_ratio/high_max": 0.000570873908145586,
      "clip_ratio/high_mean": 0.000570873908145586,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.000570873908145586,
      "entropy": 0.7292193099856377,
      "epoch": 0.12723151034287333,
      "grad_norm": 0.185546875,
      "learning_rate": 8.729101728534995e-07,
      "loss": -0.0966,
      "step": 898,
      "step_time": 2.9610538110136986
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1193.0,
      "completions/max_terminated_length": 1193.0,
      "completions/mean_length": 587.625,
      "completions/mean_terminated_length": 587.625,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "entropy": 0.9987756386399269,
      "epoch": 0.12737319353924625,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.59375,
      "learning_rate": 8.727684896571265e-07,
      "loss": -0.0221,
      "num_tokens": 26544082.0,
      "reward": 0.3359375,
      "reward_std": 0.7185450792312622,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 899,
      "step_time": 41.99350173957646
    },
    {
      "clip_ratio/high_max": 0.0003150048214592971,
      "clip_ratio/high_mean": 0.0003150048214592971,
      "clip_ratio/low_mean": 0.000514165836648317,
      "clip_ratio/low_min": 0.000514165836648317,
      "clip_ratio/region_mean": 0.0008291706581076141,
      "entropy": 0.9144980311393738,
      "epoch": 0.12751487673561915,
      "grad_norm": 0.55078125,
      "learning_rate": 8.726268064607537e-07,
      "loss": -0.0149,
      "step": 900,
      "step_time": 3.380798703059554
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2752.0,
      "completions/max_terminated_length": 2752.0,
      "completions/mean_length": 779.375,
      "completions/mean_terminated_length": 779.375,
      "completions/min_length": 331.0,
      "completions/min_terminated_length": 331.0,
      "entropy": 0.5175110585987568,
      "epoch": 0.12765655993199207,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.302734375,
      "learning_rate": 8.724851232643808e-07,
      "loss": 0.0615,
      "num_tokens": 26603466.0,
      "reward": 0.3828125,
      "reward_std": 0.7332369089126587,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 901,
      "step_time": 97.47817226499319
    },
    {
      "clip_ratio/high_max": 0.00015339202218456194,
      "clip_ratio/high_mean": 0.00015339202218456194,
      "clip_ratio/low_mean": 0.00032995081346598454,
      "clip_ratio/low_min": 0.00032995081346598454,
      "clip_ratio/region_mean": 0.0004833428392885253,
      "entropy": 0.5134369172155857,
      "epoch": 0.12779824312836496,
      "grad_norm": 0.455078125,
      "learning_rate": 8.723434400680079e-07,
      "loss": -0.0538,
      "step": 902,
      "step_time": 5.350836924277246
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1512.0,
      "completions/max_terminated_length": 1512.0,
      "completions/mean_length": 745.59375,
      "completions/mean_terminated_length": 745.59375,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "entropy": 0.5723607875406742,
      "epoch": 0.12793992632473788,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.2890625,
      "learning_rate": 8.72201756871635e-07,
      "loss": 0.0499,
      "num_tokens": 26660848.0,
      "reward": 0.2578125,
      "reward_std": 0.6041666865348816,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 903,
      "step_time": 49.373393141664565
    },
    {
      "clip_ratio/high_max": 0.0002671826041478198,
      "clip_ratio/high_mean": 0.0002671826041478198,
      "clip_ratio/low_mean": 0.0005362841038731858,
      "clip_ratio/low_min": 0.0005362841038731858,
      "clip_ratio/region_mean": 0.0008034666971070692,
      "entropy": 0.5255938321352005,
      "epoch": 0.1280816095211108,
      "grad_norm": 0.5390625,
      "learning_rate": 8.720600736752621e-07,
      "loss": -0.0487,
      "step": 904,
      "step_time": 3.195622422732413
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1379.0,
      "completions/max_terminated_length": 1379.0,
      "completions/mean_length": 796.40625,
      "completions/mean_terminated_length": 796.40625,
      "completions/min_length": 347.0,
      "completions/min_terminated_length": 347.0,
      "entropy": 0.6693317592144012,
      "epoch": 0.1282232927174837,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.6484375,
      "learning_rate": 8.719183904788891e-07,
      "loss": 0.0363,
      "num_tokens": 26721114.0,
      "reward": 0.3671875,
      "reward_std": 0.6561200618743896,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 905,
      "step_time": 45.82923386245966
    },
    {
      "clip_ratio/high_max": 0.0006555198451678734,
      "clip_ratio/high_mean": 0.0006555198451678734,
      "clip_ratio/low_mean": 0.000510423840751173,
      "clip_ratio/low_min": 0.000510423840751173,
      "clip_ratio/region_mean": 0.0011659436713671312,
      "entropy": 0.6485893875360489,
      "epoch": 0.12836497591385662,
      "grad_norm": 0.400390625,
      "learning_rate": 8.717767072825163e-07,
      "loss": -0.0557,
      "step": 906,
      "step_time": 3.2876290502026677
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 995.0,
      "completions/max_terminated_length": 995.0,
      "completions/mean_length": 675.234375,
      "completions/mean_terminated_length": 675.234375,
      "completions/min_length": 319.0,
      "completions/min_terminated_length": 319.0,
      "entropy": 0.8416538238525391,
      "epoch": 0.12850665911022952,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.28125,
      "learning_rate": 8.716350240861433e-07,
      "loss": 0.0235,
      "num_tokens": 26775289.0,
      "reward": 0.34375,
      "reward_std": 0.6228136420249939,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 907,
      "step_time": 32.82013980764896
    },
    {
      "clip_ratio/high_max": 0.00030996611167211086,
      "clip_ratio/high_mean": 0.00030996611167211086,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00030996611167211086,
      "entropy": 1.0320920199155807,
      "epoch": 0.12864834230660244,
      "grad_norm": 0.353515625,
      "learning_rate": 8.714933408897704e-07,
      "loss": -0.0101,
      "step": 908,
      "step_time": 2.3408486545085907
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1071.0,
      "completions/max_terminated_length": 1071.0,
      "completions/mean_length": 590.6875,
      "completions/mean_terminated_length": 590.6875,
      "completions/min_length": 292.0,
      "completions/min_terminated_length": 292.0,
      "entropy": 0.8048246204853058,
      "epoch": 0.12879002550297536,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.59765625,
      "learning_rate": 8.713516576933975e-07,
      "loss": 0.0333,
      "num_tokens": 26822517.0,
      "reward": 0.3046875,
      "reward_std": 0.5883605480194092,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 909,
      "step_time": 35.15829430613667
    },
    {
      "clip_ratio/high_max": 0.0008328920812346041,
      "clip_ratio/high_mean": 0.0008328920812346041,
      "clip_ratio/low_mean": 0.00018868116967496462,
      "clip_ratio/low_min": 0.00018868116967496462,
      "clip_ratio/region_mean": 0.0010215732509095687,
      "entropy": 0.8081967830657959,
      "epoch": 0.12893170869934825,
      "grad_norm": 0.2578125,
      "learning_rate": 8.712099744970246e-07,
      "loss": -0.0312,
      "step": 910,
      "step_time": 2.4479169314727187
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1319.0,
      "completions/mean_length": 800.65625,
      "completions/mean_terminated_length": 748.3492431640625,
      "completions/min_length": 311.0,
      "completions/min_terminated_length": 311.0,
      "entropy": 0.7479148171842098,
      "epoch": 0.12907339189572117,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.416015625,
      "learning_rate": 8.710682913006518e-07,
      "loss": 0.0139,
      "num_tokens": 26883023.0,
      "reward": 0.46875,
      "reward_std": 0.8539125919342041,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 911,
      "step_time": 162.69144508615136
    },
    {
      "clip_ratio/high_max": 0.0002717395400395617,
      "clip_ratio/high_mean": 0.0002717395400395617,
      "clip_ratio/low_mean": 0.00032266703419736587,
      "clip_ratio/low_min": 0.00032266703419736587,
      "clip_ratio/region_mean": 0.0005944065669609699,
      "entropy": 0.7777342945337296,
      "epoch": 0.12921507509209407,
      "grad_norm": 0.470703125,
      "learning_rate": 8.709266081042787e-07,
      "loss": -0.0392,
      "step": 912,
      "step_time": 7.040781712159514
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1191.0,
      "completions/max_terminated_length": 1191.0,
      "completions/mean_length": 734.203125,
      "completions/mean_terminated_length": 734.203125,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "entropy": 0.6373303271830082,
      "epoch": 0.129356758288467,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5078125,
      "learning_rate": 8.707849249079059e-07,
      "loss": 0.0232,
      "num_tokens": 26939580.0,
      "reward": 0.3984375,
      "reward_std": 0.7927232980728149,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 913,
      "step_time": 39.396883769892156
    },
    {
      "clip_ratio/high_max": 8.210998203139752e-05,
      "clip_ratio/high_mean": 8.210998203139752e-05,
      "clip_ratio/low_mean": 0.000754964097723132,
      "clip_ratio/low_min": 0.000754964097723132,
      "clip_ratio/region_mean": 0.0008370740870304871,
      "entropy": 0.6623463742434978,
      "epoch": 0.1294984414848399,
      "grad_norm": 0.478515625,
      "learning_rate": 8.70643241711533e-07,
      "loss": 0.0291,
      "step": 914,
      "step_time": 2.742400181479752
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1738.0,
      "completions/max_terminated_length": 1738.0,
      "completions/mean_length": 822.6875,
      "completions/mean_terminated_length": 822.6875,
      "completions/min_length": 337.0,
      "completions/min_terminated_length": 337.0,
      "entropy": 0.4363412410020828,
      "epoch": 0.1296401246812128,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.5234375,
      "learning_rate": 8.7050155851516e-07,
      "loss": -0.0535,
      "num_tokens": 27002520.0,
      "reward": 0.609375,
      "reward_std": 0.8331844806671143,
      "rewards/accuracy_reward_func/mean": 0.5,
      "rewards/accuracy_reward_func/std": 0.8728715777397156,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 915,
      "step_time": 57.58786193281412
    },
    {
      "clip_ratio/high_max": 0.0005471158710861346,
      "clip_ratio/high_mean": 0.0005471158710861346,
      "clip_ratio/low_mean": 0.0003213450363546144,
      "clip_ratio/low_min": 0.0003213450363546144,
      "clip_ratio/region_mean": 0.0008684609092597384,
      "entropy": 0.5402369312942028,
      "epoch": 0.12978180787758573,
      "grad_norm": 0.369140625,
      "learning_rate": 8.703598753187872e-07,
      "loss": 0.0129,
      "step": 916,
      "step_time": 3.5515742180868983
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1473.0,
      "completions/max_terminated_length": 1473.0,
      "completions/mean_length": 606.703125,
      "completions/mean_terminated_length": 606.703125,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "entropy": 1.0337637960910797,
      "epoch": 0.12992349107395862,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.63671875,
      "learning_rate": 8.702181921224142e-07,
      "loss": -0.0003,
      "num_tokens": 27052357.0,
      "reward": 0.1875,
      "reward_std": 0.44986769556999207,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 917,
      "step_time": 48.77726192306727
    },
    {
      "clip_ratio/high_max": 0.0002939021178463008,
      "clip_ratio/high_mean": 0.0002939021178463008,
      "clip_ratio/low_mean": 0.00019853637786582112,
      "clip_ratio/low_min": 0.00019853637786582112,
      "clip_ratio/region_mean": 0.000492438495712122,
      "entropy": 1.0722311586141586,
      "epoch": 0.13006517427033154,
      "grad_norm": 0.609375,
      "learning_rate": 8.700765089260414e-07,
      "loss": 0.0328,
      "step": 918,
      "step_time": 3.2073637722060084
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1598.0,
      "completions/max_terminated_length": 1598.0,
      "completions/mean_length": 697.015625,
      "completions/mean_terminated_length": 697.015625,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "entropy": 0.6368689611554146,
      "epoch": 0.13020685746670446,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.53515625,
      "learning_rate": 8.699348257296685e-07,
      "loss": -0.1191,
      "num_tokens": 27106502.0,
      "reward": 0.1796875,
      "reward_std": 0.3920558989048004,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 919,
      "step_time": 52.86495511420071
    },
    {
      "clip_ratio/high_max": 0.00014397110862773843,
      "clip_ratio/high_mean": 0.00014397110862773843,
      "clip_ratio/low_mean": 0.0005660001843352802,
      "clip_ratio/low_min": 0.0005660001843352802,
      "clip_ratio/region_mean": 0.0007099713002389763,
      "entropy": 0.5760049782693386,
      "epoch": 0.13034854066307736,
      "grad_norm": 0.390625,
      "learning_rate": 8.697931425332955e-07,
      "loss": 0.098,
      "step": 920,
      "step_time": 3.2659633019939065
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1293.0,
      "completions/max_terminated_length": 1293.0,
      "completions/mean_length": 803.203125,
      "completions/mean_terminated_length": 803.203125,
      "completions/min_length": 4.0,
      "completions/min_terminated_length": 4.0,
      "entropy": 0.6544810980558395,
      "epoch": 0.13049022385945028,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.38671875,
      "learning_rate": 8.696514593369226e-07,
      "loss": 0.0294,
      "num_tokens": 27166739.0,
      "reward": 0.3515625,
      "reward_std": 0.6587607860565186,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 921,
      "step_time": 42.5671800673008
    },
    {
      "clip_ratio/high_max": 0.0004932398478558753,
      "clip_ratio/high_mean": 0.0004932398478558753,
      "clip_ratio/low_mean": 0.00019316343241371214,
      "clip_ratio/low_min": 0.00019316343241371214,
      "clip_ratio/region_mean": 0.0006864032802695874,
      "entropy": 0.553432609885931,
      "epoch": 0.13063190705582317,
      "grad_norm": 0.486328125,
      "learning_rate": 8.695097761405496e-07,
      "loss": -0.0439,
      "step": 922,
      "step_time": 2.8341851318255067
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1577.0,
      "completions/max_terminated_length": 1577.0,
      "completions/mean_length": 719.3125,
      "completions/mean_terminated_length": 719.3125,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "entropy": 0.7572553642094135,
      "epoch": 0.1307735902521961,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2265625,
      "learning_rate": 8.693680929441768e-07,
      "loss": -0.0002,
      "num_tokens": 27221943.0,
      "reward": 0.203125,
      "reward_std": 0.4517931640148163,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 923,
      "step_time": 52.09775476809591
    },
    {
      "clip_ratio/high_max": 0.00042358625250926707,
      "clip_ratio/high_mean": 0.00042358625250926707,
      "clip_ratio/low_mean": 0.0002688858821784379,
      "clip_ratio/low_min": 0.0002688858821784379,
      "clip_ratio/region_mean": 0.000692472134687705,
      "entropy": 0.767638236284256,
      "epoch": 0.130915273448569,
      "grad_norm": 0.5,
      "learning_rate": 8.692264097478039e-07,
      "loss": 0.0445,
      "step": 924,
      "step_time": 3.5095450785011053
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1491.0,
      "completions/max_terminated_length": 1491.0,
      "completions/mean_length": 821.234375,
      "completions/mean_terminated_length": 821.234375,
      "completions/min_length": 421.0,
      "completions/min_terminated_length": 421.0,
      "entropy": 0.5002930443733931,
      "epoch": 0.1310569566449419,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.271484375,
      "learning_rate": 8.69084726551431e-07,
      "loss": -0.0367,
      "num_tokens": 27285718.0,
      "reward": 0.28125,
      "reward_std": 0.603396475315094,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 925,
      "step_time": 48.840615440160036
    },
    {
      "clip_ratio/high_max": 8.44969108584337e-05,
      "clip_ratio/high_mean": 8.44969108584337e-05,
      "clip_ratio/low_mean": 0.00043032447865698487,
      "clip_ratio/low_min": 0.00043032447865698487,
      "clip_ratio/region_mean": 0.0005148213931533974,
      "entropy": 0.43434974178671837,
      "epoch": 0.13119863984131483,
      "grad_norm": 0.2412109375,
      "learning_rate": 8.689430433550581e-07,
      "loss": 0.021,
      "step": 926,
      "step_time": 3.194144924171269
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1211.0,
      "completions/max_terminated_length": 1211.0,
      "completions/mean_length": 746.5,
      "completions/mean_terminated_length": 746.5,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "entropy": 0.7907382547855377,
      "epoch": 0.13134032303768772,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.6875,
      "learning_rate": 8.688013601586851e-07,
      "loss": 0.023,
      "num_tokens": 27344070.0,
      "reward": 0.3671875,
      "reward_std": 0.6561200618743896,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 927,
      "step_time": 39.908805806189775
    },
    {
      "clip_ratio/high_max": 0.00045016560034127906,
      "clip_ratio/high_mean": 0.00045016560034127906,
      "clip_ratio/low_mean": 0.00024420472618658096,
      "clip_ratio/low_min": 0.00024420472618658096,
      "clip_ratio/region_mean": 0.00069437032652786,
      "entropy": 0.7451964430510998,
      "epoch": 0.13148200623406064,
      "grad_norm": 0.494140625,
      "learning_rate": 8.686596769623122e-07,
      "loss": -0.0443,
      "step": 928,
      "step_time": 2.984644695185125
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1592.0,
      "completions/max_terminated_length": 1592.0,
      "completions/mean_length": 700.234375,
      "completions/mean_terminated_length": 700.234375,
      "completions/min_length": 11.0,
      "completions/min_terminated_length": 11.0,
      "entropy": 0.7075967118144035,
      "epoch": 0.13162368943043354,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.06396484375,
      "learning_rate": 8.685179937659394e-07,
      "loss": 0.0389,
      "num_tokens": 27398453.0,
      "reward": 0.1484375,
      "reward_std": 0.3172261714935303,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 929,
      "step_time": 52.5381029965356
    },
    {
      "clip_ratio/high_max": 5.191029777051881e-05,
      "clip_ratio/high_mean": 5.191029777051881e-05,
      "clip_ratio/low_mean": 0.0001421659362677019,
      "clip_ratio/low_min": 0.0001421659362677019,
      "clip_ratio/region_mean": 0.00019407623403822072,
      "entropy": 0.7055872697383165,
      "epoch": 0.13176537262680646,
      "grad_norm": 0.3828125,
      "learning_rate": 8.683763105695664e-07,
      "loss": -0.0134,
      "step": 930,
      "step_time": 3.3274416476488113
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1285.0,
      "completions/max_terminated_length": 1285.0,
      "completions/mean_length": 718.34375,
      "completions/mean_terminated_length": 718.34375,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "entropy": 0.7678848020732403,
      "epoch": 0.13190705582317938,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.328125,
      "learning_rate": 8.682346273731935e-07,
      "loss": 0.0342,
      "num_tokens": 27455259.0,
      "reward": 0.2109375,
      "reward_std": 0.4525473415851593,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 931,
      "step_time": 42.11028097290546
    },
    {
      "clip_ratio/high_max": 0.0005518950565601699,
      "clip_ratio/high_mean": 0.0005518950565601699,
      "clip_ratio/low_mean": 0.00024134485647664405,
      "clip_ratio/low_min": 0.00024134485647664405,
      "clip_ratio/region_mean": 0.0007932399203127716,
      "entropy": 0.7779492512345314,
      "epoch": 0.13204873901955227,
      "grad_norm": 0.6484375,
      "learning_rate": 8.680929441768206e-07,
      "loss": -0.0644,
      "step": 932,
      "step_time": 2.868120988830924
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1258.0,
      "completions/max_terminated_length": 1258.0,
      "completions/mean_length": 694.171875,
      "completions/mean_terminated_length": 694.171875,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "entropy": 0.9937704876065254,
      "epoch": 0.1321904222159252,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.435546875,
      "learning_rate": 8.679512609804477e-07,
      "loss": -0.0362,
      "num_tokens": 27513046.0,
      "reward": 0.1328125,
      "reward_std": 0.3117053508758545,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 933,
      "step_time": 42.08493069000542
    },
    {
      "clip_ratio/high_max": 0.00032090567401610315,
      "clip_ratio/high_mean": 0.00032090567401610315,
      "clip_ratio/low_mean": 0.00023853111270000227,
      "clip_ratio/low_min": 0.00023853111270000227,
      "clip_ratio/region_mean": 0.0005594367867161054,
      "entropy": 1.1097766757011414,
      "epoch": 0.1323321054122981,
      "grad_norm": 0.40234375,
      "learning_rate": 8.678095777840748e-07,
      "loss": 0.0529,
      "step": 934,
      "step_time": 3.040224284864962
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1581.0,
      "completions/max_terminated_length": 1581.0,
      "completions/mean_length": 742.890625,
      "completions/mean_terminated_length": 742.890625,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "entropy": 0.7832144126296043,
      "epoch": 0.132473788608671,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.62109375,
      "learning_rate": 8.676678945877018e-07,
      "loss": 0.0244,
      "num_tokens": 27569615.0,
      "reward": 0.1796875,
      "reward_std": 0.3920558989048004,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 935,
      "step_time": 51.5860336208716
    },
    {
      "clip_ratio/high_max": 0.0003745515823538881,
      "clip_ratio/high_mean": 0.0003745515823538881,
      "clip_ratio/low_mean": 0.0005735318372899201,
      "clip_ratio/low_min": 0.0005735318372899201,
      "clip_ratio/region_mean": 0.0009480834196438082,
      "entropy": 0.8261370435357094,
      "epoch": 0.13261547180504393,
      "grad_norm": 0.166015625,
      "learning_rate": 8.67526211391329e-07,
      "loss": 0.0018,
      "step": 936,
      "step_time": 3.2277294732630253
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1482.0,
      "completions/max_terminated_length": 1482.0,
      "completions/mean_length": 724.3125,
      "completions/mean_terminated_length": 724.3125,
      "completions/min_length": 322.0,
      "completions/min_terminated_length": 322.0,
      "entropy": 0.6575741283595562,
      "epoch": 0.13275715500141683,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.427734375,
      "learning_rate": 8.67384528194956e-07,
      "loss": -0.0182,
      "num_tokens": 27630323.0,
      "reward": 0.28125,
      "reward_std": 0.665922224521637,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 937,
      "step_time": 50.07529559265822
    },
    {
      "clip_ratio/high_max": 5.4489973990712315e-05,
      "clip_ratio/high_mean": 5.4489973990712315e-05,
      "clip_ratio/low_mean": 0.000339285732479766,
      "clip_ratio/low_min": 0.000339285732479766,
      "clip_ratio/region_mean": 0.0003937757064704783,
      "entropy": 0.6768704950809479,
      "epoch": 0.13289883819778975,
      "grad_norm": 0.375,
      "learning_rate": 8.672428449985832e-07,
      "loss": 0.0219,
      "step": 938,
      "step_time": 3.474307192489505
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1313.0,
      "completions/max_terminated_length": 1313.0,
      "completions/mean_length": 752.234375,
      "completions/mean_terminated_length": 752.234375,
      "completions/min_length": 392.0,
      "completions/min_terminated_length": 392.0,
      "entropy": 0.9657958000898361,
      "epoch": 0.13304052139416264,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.384765625,
      "learning_rate": 8.671011618022103e-07,
      "loss": 0.0317,
      "num_tokens": 27693714.0,
      "reward": 0.34375,
      "reward_std": 0.7175520658493042,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 939,
      "step_time": 44.29453054629266
    },
    {
      "clip_ratio/high_max": 8.170144064933993e-05,
      "clip_ratio/high_mean": 8.170144064933993e-05,
      "clip_ratio/low_mean": 0.0002651250033522956,
      "clip_ratio/low_min": 0.0002651250033522956,
      "clip_ratio/region_mean": 0.00034682644400163554,
      "entropy": 0.8911872878670692,
      "epoch": 0.13318220459053556,
      "grad_norm": 0.34765625,
      "learning_rate": 8.669594786058373e-07,
      "loss": -0.0098,
      "step": 940,
      "step_time": 3.2530517484992743
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1459.0,
      "completions/max_terminated_length": 1459.0,
      "completions/mean_length": 900.15625,
      "completions/mean_terminated_length": 900.15625,
      "completions/min_length": 359.0,
      "completions/min_terminated_length": 359.0,
      "entropy": 0.5498889572918415,
      "epoch": 0.13332388778690848,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1796875,
      "learning_rate": 8.668177954094644e-07,
      "loss": 0.0764,
      "num_tokens": 27765020.0,
      "reward": 0.1875,
      "reward_std": 0.39339789748191833,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 941,
      "step_time": 48.491165935993195
    },
    {
      "clip_ratio/high_max": 0.00020499129095696844,
      "clip_ratio/high_mean": 0.00020499129095696844,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00020499129095696844,
      "entropy": 0.5525979027152061,
      "epoch": 0.13346557098328138,
      "grad_norm": 0.34765625,
      "learning_rate": 8.666761122130914e-07,
      "loss": -0.0757,
      "step": 942,
      "step_time": 3.4521396113559604
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1384.0,
      "completions/max_terminated_length": 1384.0,
      "completions/mean_length": 715.6875,
      "completions/mean_terminated_length": 715.6875,
      "completions/min_length": 376.0,
      "completions/min_terminated_length": 376.0,
      "entropy": 0.8152125105261803,
      "epoch": 0.1336072541796543,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.3046875,
      "learning_rate": 8.665344290167186e-07,
      "loss": -0.0214,
      "num_tokens": 27825304.0,
      "reward": 0.2109375,
      "reward_std": 0.5477564930915833,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 943,
      "step_time": 46.4992782715708
    },
    {
      "clip_ratio/high_max": 5.062778291176073e-05,
      "clip_ratio/high_mean": 5.062778291176073e-05,
      "clip_ratio/low_mean": 9.412960207555443e-05,
      "clip_ratio/low_min": 9.412960207555443e-05,
      "clip_ratio/region_mean": 0.00014475738498731516,
      "entropy": 0.6480812281370163,
      "epoch": 0.1337489373760272,
      "grad_norm": 0.1982421875,
      "learning_rate": 8.663927458203457e-07,
      "loss": 0.0137,
      "step": 944,
      "step_time": 3.188762364909053
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1262.0,
      "completions/max_terminated_length": 1262.0,
      "completions/mean_length": 621.78125,
      "completions/mean_terminated_length": 621.78125,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "entropy": 0.8470354676246643,
      "epoch": 0.13389062057240012,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.55859375,
      "learning_rate": 8.662510626239728e-07,
      "loss": 0.0041,
      "num_tokens": 27875498.0,
      "reward": 0.28125,
      "reward_std": 0.6538955569267273,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 945,
      "step_time": 40.95328837260604
    },
    {
      "clip_ratio/high_max": 0.00015782176342327148,
      "clip_ratio/high_mean": 0.00015782176342327148,
      "clip_ratio/low_mean": 0.00016334112660842948,
      "clip_ratio/low_min": 0.00016334112660842948,
      "clip_ratio/region_mean": 0.00032116289003170095,
      "entropy": 0.8560223281383514,
      "epoch": 0.13403230376877304,
      "grad_norm": 0.2314453125,
      "learning_rate": 8.661093794275999e-07,
      "loss": 0.0362,
      "step": 946,
      "step_time": 2.983434172347188
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1412.0,
      "completions/max_terminated_length": 1412.0,
      "completions/mean_length": 741.328125,
      "completions/mean_terminated_length": 741.328125,
      "completions/min_length": 332.0,
      "completions/min_terminated_length": 332.0,
      "entropy": 0.8189511373639107,
      "epoch": 0.13417398696514593,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.44140625,
      "learning_rate": 8.659676962312269e-07,
      "loss": 0.0299,
      "num_tokens": 27933599.0,
      "reward": 0.234375,
      "reward_std": 0.5037065148353577,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 947,
      "step_time": 46.29887699428946
    },
    {
      "clip_ratio/high_max": 0.00024342523101950064,
      "clip_ratio/high_mean": 0.00024342523101950064,
      "clip_ratio/low_mean": 9.508903895039111e-05,
      "clip_ratio/low_min": 9.508903895039111e-05,
      "clip_ratio/region_mean": 0.00033851426996989176,
      "entropy": 0.8313570097088814,
      "epoch": 0.13431567016151885,
      "grad_norm": 0.462890625,
      "learning_rate": 8.65826013034854e-07,
      "loss": -0.0553,
      "step": 948,
      "step_time": 3.1533844778314233
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1509.0,
      "completions/max_terminated_length": 1509.0,
      "completions/mean_length": 848.078125,
      "completions/mean_terminated_length": 848.078125,
      "completions/min_length": 378.0,
      "completions/min_terminated_length": 378.0,
      "entropy": 0.515473011881113,
      "epoch": 0.13445735335789175,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.322265625,
      "learning_rate": 8.656843298384811e-07,
      "loss": 0.0268,
      "num_tokens": 27997604.0,
      "reward": 0.40625,
      "reward_std": 0.75,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 949,
      "step_time": 49.79686200898141
    },
    {
      "clip_ratio/high_max": 0.00016482928549521603,
      "clip_ratio/high_mean": 0.00016482928549521603,
      "clip_ratio/low_mean": 0.0003080179485550616,
      "clip_ratio/low_min": 0.0003080179485550616,
      "clip_ratio/region_mean": 0.0004728472340502776,
      "entropy": 0.7694533616304398,
      "epoch": 0.13459903655426467,
      "grad_norm": 0.318359375,
      "learning_rate": 8.655426466421082e-07,
      "loss": 0.0051,
      "step": 950,
      "step_time": 3.3466487461701035
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1683.0,
      "completions/max_terminated_length": 1683.0,
      "completions/mean_length": 777.859375,
      "completions/mean_terminated_length": 777.859375,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "entropy": 0.6796465441584587,
      "epoch": 0.13474071975063756,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.291015625,
      "learning_rate": 8.654009634457353e-07,
      "loss": -0.042,
      "num_tokens": 28057883.0,
      "reward": 0.40625,
      "reward_std": 0.6835655570030212,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 951,
      "step_time": 55.59736468549818
    },
    {
      "clip_ratio/high_max": 8.859904846758582e-05,
      "clip_ratio/high_mean": 8.859904846758582e-05,
      "clip_ratio/low_mean": 0.0001418354149791412,
      "clip_ratio/low_min": 0.0001418354149791412,
      "clip_ratio/region_mean": 0.00023043445980874822,
      "entropy": 0.555211029946804,
      "epoch": 0.13488240294701048,
      "grad_norm": 0.275390625,
      "learning_rate": 8.652592802493624e-07,
      "loss": 0.029,
      "step": 952,
      "step_time": 3.479525080882013
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1422.0,
      "completions/max_terminated_length": 1422.0,
      "completions/mean_length": 760.578125,
      "completions/mean_terminated_length": 760.578125,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "entropy": 0.9019854813814163,
      "epoch": 0.1350240861433834,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.26953125,
      "learning_rate": 8.651175970529895e-07,
      "loss": -0.0818,
      "num_tokens": 28117248.0,
      "reward": 0.3671875,
      "reward_std": 0.6561200618743896,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 953,
      "step_time": 47.301100762560964
    },
    {
      "clip_ratio/high_max": 0.0006118370238255011,
      "clip_ratio/high_mean": 0.0006118370238255011,
      "clip_ratio/low_mean": 9.60046199907083e-05,
      "clip_ratio/low_min": 9.60046199907083e-05,
      "clip_ratio/region_mean": 0.0007078416438162094,
      "entropy": 0.874908834695816,
      "epoch": 0.1351657693397563,
      "grad_norm": 0.515625,
      "learning_rate": 8.649759138566167e-07,
      "loss": 0.0634,
      "step": 954,
      "step_time": 3.0662350496277213
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1368.0,
      "completions/max_terminated_length": 1368.0,
      "completions/mean_length": 700.84375,
      "completions/mean_terminated_length": 700.84375,
      "completions/min_length": 282.0,
      "completions/min_terminated_length": 282.0,
      "entropy": 0.9012546762824059,
      "epoch": 0.13530745253612922,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.7890625,
      "learning_rate": 8.648342306602436e-07,
      "loss": 0.0077,
      "num_tokens": 28171238.0,
      "reward": 0.4296875,
      "reward_std": 0.7119567394256592,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 955,
      "step_time": 45.33602775912732
    },
    {
      "clip_ratio/high_max": 0.0005931280793447513,
      "clip_ratio/high_mean": 0.0005931280793447513,
      "clip_ratio/low_mean": 0.00013540514555643313,
      "clip_ratio/low_min": 0.00013540514555643313,
      "clip_ratio/region_mean": 0.0007285332249011844,
      "entropy": 0.8897420167922974,
      "epoch": 0.1354491357325021,
      "grad_norm": 0.357421875,
      "learning_rate": 8.646925474638707e-07,
      "loss": 0.0118,
      "step": 956,
      "step_time": 2.936844889074564
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1252.0,
      "completions/max_terminated_length": 1252.0,
      "completions/mean_length": 667.390625,
      "completions/mean_terminated_length": 667.390625,
      "completions/min_length": 287.0,
      "completions/min_terminated_length": 287.0,
      "entropy": 0.9714462384581566,
      "epoch": 0.13559081892887503,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.4140625,
      "learning_rate": 8.645508642674978e-07,
      "loss": -0.0215,
      "num_tokens": 28223695.0,
      "reward": 0.234375,
      "reward_std": 0.5342904329299927,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 957,
      "step_time": 41.95033910032362
    },
    {
      "clip_ratio/high_max": 8.426019485341385e-05,
      "clip_ratio/high_mean": 8.426019485341385e-05,
      "clip_ratio/low_mean": 0.0003103517956333235,
      "clip_ratio/low_min": 0.0003103517956333235,
      "clip_ratio/region_mean": 0.00039461199412471615,
      "entropy": 0.7780819311738014,
      "epoch": 0.13573250212524796,
      "grad_norm": 0.345703125,
      "learning_rate": 8.644091810711249e-07,
      "loss": 0.0356,
      "step": 958,
      "step_time": 2.813982349820435
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1695.0,
      "completions/max_terminated_length": 1695.0,
      "completions/mean_length": 862.21875,
      "completions/mean_terminated_length": 862.21875,
      "completions/min_length": 417.0,
      "completions/min_terminated_length": 417.0,
      "entropy": 0.7117524445056915,
      "epoch": 0.13587418532162085,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.251953125,
      "learning_rate": 8.642674978747521e-07,
      "loss": 0.049,
      "num_tokens": 28288701.0,
      "reward": 0.140625,
      "reward_std": 0.3145764470100403,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 959,
      "step_time": 55.751408671960235
    },
    {
      "clip_ratio/high_max": 0.00021935927725280635,
      "clip_ratio/high_mean": 0.00021935927725280635,
      "clip_ratio/low_mean": 5.157829582458362e-05,
      "clip_ratio/low_min": 5.157829582458362e-05,
      "clip_ratio/region_mean": 0.00027093756580143236,
      "entropy": 0.5920219868421555,
      "epoch": 0.13601586851799377,
      "grad_norm": 0.390625,
      "learning_rate": 8.641258146783791e-07,
      "loss": -0.041,
      "step": 960,
      "step_time": 3.4895775513723493
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1360.0,
      "completions/max_terminated_length": 1360.0,
      "completions/mean_length": 596.71875,
      "completions/mean_terminated_length": 596.71875,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "entropy": 0.5410081595182419,
      "epoch": 0.13615755171436666,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.7265625,
      "learning_rate": 8.639841314820063e-07,
      "loss": -0.1241,
      "num_tokens": 28336843.0,
      "reward": 0.4921875,
      "reward_std": 0.7585083246231079,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 961,
      "step_time": 44.33949794713408
    },
    {
      "clip_ratio/high_max": 0.0005974986925139092,
      "clip_ratio/high_mean": 0.0005974986925139092,
      "clip_ratio/low_mean": 0.0003233008574170526,
      "clip_ratio/low_min": 0.0003233008574170526,
      "clip_ratio/region_mean": 0.000920799546292983,
      "entropy": 0.4191906563937664,
      "epoch": 0.1362992349107396,
      "grad_norm": 0.828125,
      "learning_rate": 8.638424482856332e-07,
      "loss": 0.1031,
      "step": 962,
      "step_time": 2.9853436583653092
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1404.0,
      "completions/max_terminated_length": 1404.0,
      "completions/mean_length": 812.109375,
      "completions/mean_terminated_length": 812.109375,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "entropy": 0.8137881904840469,
      "epoch": 0.1364409181071125,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.31640625,
      "learning_rate": 8.637007650892603e-07,
      "loss": 0.0046,
      "num_tokens": 28398978.0,
      "reward": 0.09375,
      "reward_std": 0.19669894874095917,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 963,
      "step_time": 45.755850466899574
    },
    {
      "clip_ratio/high_max": 0.00028892521004308946,
      "clip_ratio/high_mean": 0.00028892521004308946,
      "clip_ratio/low_mean": 3.660322181531228e-05,
      "clip_ratio/low_min": 3.660322181531228e-05,
      "clip_ratio/region_mean": 0.00032552843185840175,
      "entropy": 0.8361817002296448,
      "epoch": 0.1365826013034854,
      "grad_norm": 0.275390625,
      "learning_rate": 8.635590818928875e-07,
      "loss": -0.0117,
      "step": 964,
      "step_time": 3.021469993516803
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1293.0,
      "completions/max_terminated_length": 1293.0,
      "completions/mean_length": 743.734375,
      "completions/mean_terminated_length": 743.734375,
      "completions/min_length": 435.0,
      "completions/min_terminated_length": 435.0,
      "entropy": 0.665630754083395,
      "epoch": 0.13672428449985832,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.431640625,
      "learning_rate": 8.634173986965145e-07,
      "loss": 0.0139,
      "num_tokens": 28456897.0,
      "reward": 0.34375,
      "reward_std": 0.647798478603363,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 965,
      "step_time": 42.6756233824417
    },
    {
      "clip_ratio/high_max": 8.829542275634594e-05,
      "clip_ratio/high_mean": 8.829542275634594e-05,
      "clip_ratio/low_mean": 0.0004575050661514979,
      "clip_ratio/low_min": 0.0004575050661514979,
      "clip_ratio/region_mean": 0.0005458004925458226,
      "entropy": 0.580097209662199,
      "epoch": 0.13686596769623122,
      "grad_norm": 0.53125,
      "learning_rate": 8.632757155001417e-07,
      "loss": -0.0051,
      "step": 966,
      "step_time": 2.9151545595377684
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2001.0,
      "completions/max_terminated_length": 2001.0,
      "completions/mean_length": 827.5625,
      "completions/mean_terminated_length": 827.5625,
      "completions/min_length": 438.0,
      "completions/min_terminated_length": 438.0,
      "entropy": 0.6768599711358547,
      "epoch": 0.13700765089260414,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.447265625,
      "learning_rate": 8.631340323037687e-07,
      "loss": 0.0093,
      "num_tokens": 28519349.0,
      "reward": 0.25,
      "reward_std": 0.5345224738121033,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 967,
      "step_time": 66.66728048305959
    },
    {
      "clip_ratio/high_max": 7.540572187281214e-05,
      "clip_ratio/high_mean": 7.540572187281214e-05,
      "clip_ratio/low_mean": 0.00048825548219610937,
      "clip_ratio/low_min": 0.00048825548219610937,
      "clip_ratio/region_mean": 0.0005636612077069003,
      "entropy": 0.7335340157151222,
      "epoch": 0.13714933408897706,
      "grad_norm": 0.55078125,
      "learning_rate": 8.629923491073959e-07,
      "loss": 0.0034,
      "step": 968,
      "step_time": 4.087215366773307
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1418.0,
      "completions/max_terminated_length": 1418.0,
      "completions/mean_length": 650.546875,
      "completions/mean_terminated_length": 650.546875,
      "completions/min_length": 12.0,
      "completions/min_terminated_length": 12.0,
      "entropy": 0.8508981615304947,
      "epoch": 0.13729101728534995,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.466796875,
      "learning_rate": 8.62850665911023e-07,
      "loss": -0.033,
      "num_tokens": 28571112.0,
      "reward": 0.3828125,
      "reward_std": 0.7545743584632874,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 969,
      "step_time": 46.33566978480667
    },
    {
      "clip_ratio/high_max": 4.3523676140466705e-05,
      "clip_ratio/high_mean": 4.3523676140466705e-05,
      "clip_ratio/low_mean": 0.00019146004342474043,
      "clip_ratio/low_min": 0.00019146004342474043,
      "clip_ratio/region_mean": 0.00023498371956520714,
      "entropy": 0.7448087148368359,
      "epoch": 0.13743270048172287,
      "grad_norm": 0.421875,
      "learning_rate": 8.627089827146499e-07,
      "loss": -0.006,
      "step": 970,
      "step_time": 3.086399031803012
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1198.0,
      "completions/max_terminated_length": 1198.0,
      "completions/mean_length": 621.359375,
      "completions/mean_terminated_length": 621.359375,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "entropy": 0.7522677294909954,
      "epoch": 0.13757438367809577,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.36328125,
      "learning_rate": 8.625672995182771e-07,
      "loss": 0.1663,
      "num_tokens": 28622943.0,
      "reward": 0.3125,
      "reward_std": 0.613990306854248,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 971,
      "step_time": 39.73256332334131
    },
    {
      "clip_ratio/high_max": 0.00045853180927224457,
      "clip_ratio/high_mean": 0.00045853180927224457,
      "clip_ratio/low_mean": 0.0010050040618807543,
      "clip_ratio/low_min": 0.0010050040618807543,
      "clip_ratio/region_mean": 0.0014635358711529989,
      "entropy": 0.711924135684967,
      "epoch": 0.1377160668744687,
      "grad_norm": 0.8984375,
      "learning_rate": 8.624256163219041e-07,
      "loss": -0.1977,
      "step": 972,
      "step_time": 3.0185534954071045
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1432.0,
      "completions/max_terminated_length": 1432.0,
      "completions/mean_length": 661.640625,
      "completions/mean_terminated_length": 661.640625,
      "completions/min_length": 287.0,
      "completions/min_terminated_length": 287.0,
      "entropy": 0.7642504796385765,
      "epoch": 0.1378577500708416,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.380859375,
      "learning_rate": 8.622839331255313e-07,
      "loss": 0.0446,
      "num_tokens": 28675896.0,
      "reward": 0.5234375,
      "reward_std": 0.8377487063407898,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 973,
      "step_time": 47.71447745710611
    },
    {
      "clip_ratio/high_max": 4.369101588963531e-05,
      "clip_ratio/high_mean": 4.369101588963531e-05,
      "clip_ratio/low_mean": 9.994664287660271e-05,
      "clip_ratio/low_min": 9.994664287660271e-05,
      "clip_ratio/region_mean": 0.00014363765876623802,
      "entropy": 0.7531677186489105,
      "epoch": 0.1379994332672145,
      "grad_norm": 0.40234375,
      "learning_rate": 8.621422499291584e-07,
      "loss": -0.0083,
      "step": 974,
      "step_time": 3.0933244423940778
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1466.0,
      "completions/max_terminated_length": 1466.0,
      "completions/mean_length": 834.5,
      "completions/mean_terminated_length": 834.5,
      "completions/min_length": 497.0,
      "completions/min_terminated_length": 497.0,
      "entropy": 0.538855068385601,
      "epoch": 0.13814111646358743,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.455078125,
      "learning_rate": 8.620005667327855e-07,
      "loss": -0.1046,
      "num_tokens": 28738552.0,
      "reward": 0.28125,
      "reward_std": 0.5482656359672546,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 975,
      "step_time": 48.637478817254305
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00019888567476300523,
      "clip_ratio/low_min": 0.00019888567476300523,
      "clip_ratio/region_mean": 0.00019888567476300523,
      "entropy": 0.6324850022792816,
      "epoch": 0.13828279965996032,
      "grad_norm": 0.224609375,
      "learning_rate": 8.618588835364126e-07,
      "loss": 0.053,
      "step": 976,
      "step_time": 3.291510445997119
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1514.0,
      "completions/max_terminated_length": 1514.0,
      "completions/mean_length": 713.5625,
      "completions/mean_terminated_length": 713.5625,
      "completions/min_length": 307.0,
      "completions/min_terminated_length": 307.0,
      "entropy": 0.6939446777105331,
      "epoch": 0.13842448285633324,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.42578125,
      "learning_rate": 8.617172003400395e-07,
      "loss": -0.065,
      "num_tokens": 28793628.0,
      "reward": 0.15625,
      "reward_std": 0.3196600377559662,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 977,
      "step_time": 50.32604799978435
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00025357052800245583,
      "clip_ratio/low_min": 0.00025357052800245583,
      "clip_ratio/region_mean": 0.00025357052800245583,
      "entropy": 0.8267230466008186,
      "epoch": 0.13856616605270614,
      "grad_norm": 0.11474609375,
      "learning_rate": 8.615755171436667e-07,
      "loss": 0.0514,
      "step": 978,
      "step_time": 3.1825844328850508
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1150.0,
      "completions/max_terminated_length": 1150.0,
      "completions/mean_length": 735.015625,
      "completions/mean_terminated_length": 735.015625,
      "completions/min_length": 345.0,
      "completions/min_terminated_length": 345.0,
      "entropy": 0.7870310097932816,
      "epoch": 0.13870784924907906,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.6640625,
      "learning_rate": 8.614338339472938e-07,
      "loss": -0.0621,
      "num_tokens": 28857613.0,
      "reward": 0.3203125,
      "reward_std": 0.6508064866065979,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 979,
      "step_time": 39.8786979848519
    },
    {
      "clip_ratio/high_max": 8.545279706595466e-05,
      "clip_ratio/high_mean": 8.545279706595466e-05,
      "clip_ratio/low_mean": 0.0008556602151656989,
      "clip_ratio/low_min": 0.0008556602151656989,
      "clip_ratio/region_mean": 0.0009411130085936747,
      "entropy": 0.7183623649179935,
      "epoch": 0.13884953244545198,
      "grad_norm": 0.36328125,
      "learning_rate": 8.612921507509209e-07,
      "loss": 0.035,
      "step": 980,
      "step_time": 3.3194722728803754
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1430.0,
      "completions/max_terminated_length": 1430.0,
      "completions/mean_length": 711.0625,
      "completions/mean_terminated_length": 711.0625,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "entropy": 0.7928975820541382,
      "epoch": 0.13899121564182487,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 8.61150467554548e-07,
      "loss": 0.0,
      "num_tokens": 28915489.0,
      "reward": 0.125,
      "reward_std": 0.2182178944349289,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 981,
      "step_time": 47.81871483195573
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.8405219912528992,
      "epoch": 0.1391328988381978,
      "grad_norm": 0.0,
      "learning_rate": 8.610087843581751e-07,
      "loss": 0.0,
      "step": 982,
      "step_time": 3.134428622201085
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1494.0,
      "completions/max_terminated_length": 1494.0,
      "completions/mean_length": 796.296875,
      "completions/mean_terminated_length": 796.296875,
      "completions/min_length": 14.0,
      "completions/min_terminated_length": 14.0,
      "entropy": 0.6893126778304577,
      "epoch": 0.1392745820345707,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.48828125,
      "learning_rate": 8.608671011618022e-07,
      "loss": 0.0255,
      "num_tokens": 28978228.0,
      "reward": 0.4296875,
      "reward_std": 0.7119567394256592,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 983,
      "step_time": 49.78041742835194
    },
    {
      "clip_ratio/high_max": 0.0010884250805247575,
      "clip_ratio/high_mean": 0.0010884250805247575,
      "clip_ratio/low_mean": 0.00027859179681399837,
      "clip_ratio/low_min": 0.00027859179681399837,
      "clip_ratio/region_mean": 0.0013670168846147135,
      "entropy": 0.53401830047369,
      "epoch": 0.1394162652309436,
      "grad_norm": 0.34375,
      "learning_rate": 8.607254179654293e-07,
      "loss": -0.0291,
      "step": 984,
      "step_time": 3.252551439218223
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1574.0,
      "completions/max_terminated_length": 1574.0,
      "completions/mean_length": 815.1875,
      "completions/mean_terminated_length": 815.1875,
      "completions/min_length": 389.0,
      "completions/min_terminated_length": 389.0,
      "entropy": 0.6896476708352566,
      "epoch": 0.13955794842731653,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.5,
      "learning_rate": 8.605837347690563e-07,
      "loss": 0.0152,
      "num_tokens": 29043312.0,
      "reward": 0.1328125,
      "reward_std": 0.3117053508758545,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 985,
      "step_time": 52.84214606042951
    },
    {
      "clip_ratio/high_max": 0.00024266830951091833,
      "clip_ratio/high_mean": 0.00024266830951091833,
      "clip_ratio/low_mean": 0.00012758764569298364,
      "clip_ratio/low_min": 0.00012758764569298364,
      "clip_ratio/region_mean": 0.000370255955203902,
      "entropy": 0.7738973684608936,
      "epoch": 0.13969963162368942,
      "grad_norm": 0.26171875,
      "learning_rate": 8.604420515726834e-07,
      "loss": 0.0384,
      "step": 986,
      "step_time": 3.4170014606788754
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1474.0,
      "completions/max_terminated_length": 1474.0,
      "completions/mean_length": 761.453125,
      "completions/mean_terminated_length": 761.453125,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "entropy": 0.6115894950926304,
      "epoch": 0.13984131482006235,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.283203125,
      "learning_rate": 8.603003683763105e-07,
      "loss": 0.0364,
      "num_tokens": 29108621.0,
      "reward": 0.2734375,
      "reward_std": 0.5768668055534363,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 987,
      "step_time": 50.58256671950221
    },
    {
      "clip_ratio/high_max": 0.00018031405488727614,
      "clip_ratio/high_mean": 0.00018031405488727614,
      "clip_ratio/low_mean": 0.0006656265395577066,
      "clip_ratio/low_min": 0.0006656265395577066,
      "clip_ratio/region_mean": 0.0008459405944449827,
      "entropy": 0.5722984336316586,
      "epoch": 0.13998299801643524,
      "grad_norm": 0.53125,
      "learning_rate": 8.601586851799376e-07,
      "loss": -0.0073,
      "step": 988,
      "step_time": 3.5683399392291903
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1169.0,
      "completions/max_terminated_length": 1169.0,
      "completions/mean_length": 687.40625,
      "completions/mean_terminated_length": 687.40625,
      "completions/min_length": 294.0,
      "completions/min_terminated_length": 294.0,
      "entropy": 0.6443828716874123,
      "epoch": 0.14012468121280816,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.67578125,
      "learning_rate": 8.600170019835648e-07,
      "loss": 0.0274,
      "num_tokens": 29160343.0,
      "reward": 0.6171875,
      "reward_std": 0.8671344518661499,
      "rewards/accuracy_reward_func/mean": 0.5,
      "rewards/accuracy_reward_func/std": 0.8728715777397156,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 989,
      "step_time": 38.456728097982705
    },
    {
      "clip_ratio/high_max": 0.00028726378513965756,
      "clip_ratio/high_mean": 0.00028726378513965756,
      "clip_ratio/low_mean": 0.0008057831291807815,
      "clip_ratio/low_min": 0.0008057831291807815,
      "clip_ratio/region_mean": 0.0010930469288723543,
      "entropy": 0.6763658449053764,
      "epoch": 0.14026636440918108,
      "grad_norm": 0.578125,
      "learning_rate": 8.598753187871918e-07,
      "loss": 0.0138,
      "step": 990,
      "step_time": 2.5807684287428856
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1440.0,
      "completions/max_terminated_length": 1440.0,
      "completions/mean_length": 620.828125,
      "completions/mean_terminated_length": 620.828125,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "entropy": 0.7311660312116146,
      "epoch": 0.14040804760555398,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1728515625,
      "learning_rate": 8.597336355908189e-07,
      "loss": -0.0047,
      "num_tokens": 29210268.0,
      "reward": 0.21875,
      "reward_std": 0.5482656359672546,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 991,
      "step_time": 47.816564152017236
    },
    {
      "clip_ratio/high_max": 0.00011358200208633207,
      "clip_ratio/high_mean": 0.00011358200208633207,
      "clip_ratio/low_mean": 0.00020719785243272781,
      "clip_ratio/low_min": 0.00020719785243272781,
      "clip_ratio/region_mean": 0.00032077984724310227,
      "entropy": 0.6076286546885967,
      "epoch": 0.1405497308019269,
      "grad_norm": 0.271484375,
      "learning_rate": 8.595919523944459e-07,
      "loss": -0.004,
      "step": 992,
      "step_time": 3.1755925053730607
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1512.0,
      "completions/max_terminated_length": 1512.0,
      "completions/mean_length": 857.109375,
      "completions/mean_terminated_length": 857.109375,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "entropy": 0.631420623511076,
      "epoch": 0.1406914139982998,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.314453125,
      "learning_rate": 8.59450269198073e-07,
      "loss": -0.024,
      "num_tokens": 29276899.0,
      "reward": 0.34375,
      "reward_std": 0.6228136420249939,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 993,
      "step_time": 50.53704736381769
    },
    {
      "clip_ratio/high_max": 0.00023932529802550562,
      "clip_ratio/high_mean": 0.00023932529802550562,
      "clip_ratio/low_mean": 7.851758709875867e-05,
      "clip_ratio/low_min": 7.851758709875867e-05,
      "clip_ratio/region_mean": 0.0003178428887622431,
      "entropy": 0.7728894650936127,
      "epoch": 0.1408330971946727,
      "grad_norm": 0.416015625,
      "learning_rate": 8.593085860017002e-07,
      "loss": 0.0138,
      "step": 994,
      "step_time": 3.392513770610094
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2807.0,
      "completions/mean_length": 900.546875,
      "completions/mean_terminated_length": 849.825439453125,
      "completions/min_length": 397.0,
      "completions/min_terminated_length": 397.0,
      "entropy": 0.5899927653372288,
      "epoch": 0.14097478039104563,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.392578125,
      "learning_rate": 8.591669028053272e-07,
      "loss": -0.0296,
      "num_tokens": 29346534.0,
      "reward": 0.4296875,
      "reward_std": 0.8538762331008911,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 995,
      "step_time": 165.92121532093734
    },
    {
      "clip_ratio/high_max": 8.350033749593422e-05,
      "clip_ratio/high_mean": 8.350033749593422e-05,
      "clip_ratio/low_mean": 0.0006376180608640425,
      "clip_ratio/low_min": 0.0006376180608640425,
      "clip_ratio/region_mean": 0.0007211184056359343,
      "entropy": 0.8452712148427963,
      "epoch": 0.14111646358741853,
      "grad_norm": 0.5078125,
      "learning_rate": 8.590252196089544e-07,
      "loss": 0.0629,
      "step": 996,
      "step_time": 7.206351255998015
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1637.0,
      "completions/max_terminated_length": 1637.0,
      "completions/mean_length": 680.078125,
      "completions/mean_terminated_length": 680.078125,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "entropy": 0.5826401375234127,
      "epoch": 0.14125814678379145,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.48828125,
      "learning_rate": 8.588835364125814e-07,
      "loss": -0.0423,
      "num_tokens": 29399531.0,
      "reward": 0.15625,
      "reward_std": 0.3196600377559662,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 997,
      "step_time": 53.96476737782359
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0001569918640598189,
      "clip_ratio/low_min": 0.0001569918640598189,
      "clip_ratio/region_mean": 0.0001569918640598189,
      "entropy": 0.7435035817325115,
      "epoch": 0.14139982998016434,
      "grad_norm": 0.1259765625,
      "learning_rate": 8.587418532162085e-07,
      "loss": 0.0356,
      "step": 998,
      "step_time": 3.4911347925662994
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1395.0,
      "completions/max_terminated_length": 1395.0,
      "completions/mean_length": 710.640625,
      "completions/mean_terminated_length": 710.640625,
      "completions/min_length": 430.0,
      "completions/min_terminated_length": 430.0,
      "entropy": 0.832970380783081,
      "epoch": 0.14154151317653726,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.365234375,
      "learning_rate": 8.586001700198356e-07,
      "loss": -0.0041,
      "num_tokens": 29455876.0,
      "reward": 0.4296875,
      "reward_std": 0.7119567394256592,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 999,
      "step_time": 46.17194216698408
    },
    {
      "clip_ratio/high_max": 0.0009183055008179508,
      "clip_ratio/high_mean": 0.0009183055008179508,
      "clip_ratio/low_mean": 0.0003182683103659656,
      "clip_ratio/low_min": 0.0003182683103659656,
      "clip_ratio/region_mean": 0.0012365738111839164,
      "entropy": 0.8794801831245422,
      "epoch": 0.1416831963729102,
      "grad_norm": 0.6484375,
      "learning_rate": 8.584584868234627e-07,
      "loss": 0.0037,
      "step": 1000,
      "step_time": 3.066122896037996
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1058.0,
      "completions/max_terminated_length": 1058.0,
      "completions/mean_length": 691.75,
      "completions/mean_terminated_length": 691.75,
      "completions/min_length": 404.0,
      "completions/min_terminated_length": 404.0,
      "entropy": 1.0839298442006111,
      "epoch": 0.14182487956928308,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.64453125,
      "learning_rate": 8.583168036270898e-07,
      "loss": 0.0318,
      "num_tokens": 29512180.0,
      "reward": 0.2578125,
      "reward_std": 0.5491132140159607,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1001,
      "step_time": 34.94039822835475
    },
    {
      "clip_ratio/high_max": 0.0002830675366567448,
      "clip_ratio/high_mean": 0.0002830675366567448,
      "clip_ratio/low_mean": 4.4045100366929546e-05,
      "clip_ratio/low_min": 4.4045100366929546e-05,
      "clip_ratio/region_mean": 0.0003271126370236743,
      "entropy": 1.2680521309375763,
      "epoch": 0.141966562765656,
      "grad_norm": 0.275390625,
      "learning_rate": 8.581751204307168e-07,
      "loss": -0.0274,
      "step": 1002,
      "step_time": 2.520901103504002
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1594.0,
      "completions/max_terminated_length": 1594.0,
      "completions/mean_length": 587.328125,
      "completions/mean_terminated_length": 587.328125,
      "completions/min_length": 207.0,
      "completions/min_terminated_length": 207.0,
      "entropy": 0.7912951111793518,
      "epoch": 0.1421082459620289,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.44140625,
      "learning_rate": 8.58033437234344e-07,
      "loss": 0.0705,
      "num_tokens": 29559721.0,
      "reward": 0.3125,
      "reward_std": 0.6393200755119324,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1003,
      "step_time": 52.508735025301576
    },
    {
      "clip_ratio/high_max": 0.0005123184819240123,
      "clip_ratio/high_mean": 0.0005123184819240123,
      "clip_ratio/low_mean": 0.00018545328202890232,
      "clip_ratio/low_min": 0.00018545328202890232,
      "clip_ratio/region_mean": 0.0006977717639529146,
      "entropy": 0.5477895438671112,
      "epoch": 0.14224992915840182,
      "grad_norm": 0.435546875,
      "learning_rate": 8.578917540379711e-07,
      "loss": -0.0604,
      "step": 1004,
      "step_time": 3.3370121978223324
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1144.0,
      "completions/max_terminated_length": 1144.0,
      "completions/mean_length": 724.078125,
      "completions/mean_terminated_length": 724.078125,
      "completions/min_length": 403.0,
      "completions/min_terminated_length": 403.0,
      "entropy": 0.8998603671789169,
      "epoch": 0.1423916123547747,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.412109375,
      "learning_rate": 8.577500708415981e-07,
      "loss": 0.0384,
      "num_tokens": 29617358.0,
      "reward": 0.3984375,
      "reward_std": 0.6853320598602295,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1005,
      "step_time": 37.0813328884542
    },
    {
      "clip_ratio/high_max": 0.0006182106808410026,
      "clip_ratio/high_mean": 0.0006182106808410026,
      "clip_ratio/low_mean": 0.00013389096420723945,
      "clip_ratio/low_min": 0.00013389096420723945,
      "clip_ratio/region_mean": 0.0007521016559621785,
      "entropy": 0.8221712186932564,
      "epoch": 0.14253329555114763,
      "grad_norm": 0.54296875,
      "learning_rate": 8.576083876452252e-07,
      "loss": -0.0552,
      "step": 1006,
      "step_time": 2.6260302290320396
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1197.0,
      "completions/max_terminated_length": 1197.0,
      "completions/mean_length": 570.21875,
      "completions/mean_terminated_length": 570.21875,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "entropy": 0.6748216524720192,
      "epoch": 0.14267497874752055,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.369140625,
      "learning_rate": 8.574667044488523e-07,
      "loss": 0.0071,
      "num_tokens": 29664316.0,
      "reward": 0.3046875,
      "reward_std": 0.6400470733642578,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1007,
      "step_time": 39.12436614278704
    },
    {
      "clip_ratio/high_max": 0.0001656355343584437,
      "clip_ratio/high_mean": 0.0001656355343584437,
      "clip_ratio/low_mean": 0.0006461345183197409,
      "clip_ratio/low_min": 0.0006461345183197409,
      "clip_ratio/region_mean": 0.0008117700526781846,
      "entropy": 0.6303676217794418,
      "epoch": 0.14281666194389345,
      "grad_norm": 0.45703125,
      "learning_rate": 8.573250212524794e-07,
      "loss": 0.0128,
      "step": 1008,
      "step_time": 2.6620761146768928
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1239.0,
      "completions/max_terminated_length": 1239.0,
      "completions/mean_length": 641.65625,
      "completions/mean_terminated_length": 641.65625,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "entropy": 0.9841389507055283,
      "epoch": 0.14295834514026637,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.52734375,
      "learning_rate": 8.571833380561066e-07,
      "loss": 0.1121,
      "num_tokens": 29714710.0,
      "reward": 0.2109375,
      "reward_std": 0.4525473415851593,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1009,
      "step_time": 40.51281384099275
    },
    {
      "clip_ratio/high_max": 0.0004784921729878988,
      "clip_ratio/high_mean": 0.0004784921729878988,
      "clip_ratio/low_mean": 4.3706295400625095e-05,
      "clip_ratio/low_min": 4.3706295400625095e-05,
      "clip_ratio/region_mean": 0.0005221984647505451,
      "entropy": 1.0688104778528214,
      "epoch": 0.14310002833663926,
      "grad_norm": 0.52734375,
      "learning_rate": 8.570416548597336e-07,
      "loss": -0.0972,
      "step": 1010,
      "step_time": 2.718507611192763
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3912.0,
      "completions/max_terminated_length": 3912.0,
      "completions/mean_length": 809.171875,
      "completions/mean_terminated_length": 809.171875,
      "completions/min_length": 386.0,
      "completions/min_terminated_length": 386.0,
      "entropy": 0.7704444229602814,
      "epoch": 0.14324171153301218,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.412109375,
      "learning_rate": 8.568999716633607e-07,
      "loss": 0.116,
      "num_tokens": 29776257.0,
      "reward": 0.3984375,
      "reward_std": 0.7826475501060486,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 1011,
      "step_time": 153.83432871382684
    },
    {
      "clip_ratio/high_max": 0.0003627480364229996,
      "clip_ratio/high_mean": 0.0003627480364229996,
      "clip_ratio/low_mean": 0.00033178101148223504,
      "clip_ratio/low_min": 0.00033178101148223504,
      "clip_ratio/region_mean": 0.000694529040629277,
      "entropy": 0.7358380705118179,
      "epoch": 0.1433833947293851,
      "grad_norm": 0.474609375,
      "learning_rate": 8.567582884669877e-07,
      "loss": -0.0366,
      "step": 1012,
      "step_time": 6.789662981405854
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2512.0,
      "completions/max_terminated_length": 2512.0,
      "completions/mean_length": 790.5625,
      "completions/mean_terminated_length": 790.5625,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "entropy": 0.7238843776285648,
      "epoch": 0.143525077925758,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.28515625,
      "learning_rate": 8.566166052706148e-07,
      "loss": 0.0472,
      "num_tokens": 29837573.0,
      "reward": 0.34375,
      "reward_std": 0.6228136420249939,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1013,
      "step_time": 87.45772321242839
    },
    {
      "clip_ratio/high_max": 0.00023272019461728632,
      "clip_ratio/high_mean": 0.00023272019461728632,
      "clip_ratio/low_mean": 0.0005432165235106368,
      "clip_ratio/low_min": 0.0005432165235106368,
      "clip_ratio/region_mean": 0.0007759367217659019,
      "entropy": 0.4838900864124298,
      "epoch": 0.14366676112213092,
      "grad_norm": 0.5390625,
      "learning_rate": 8.56474922074242e-07,
      "loss": -0.0337,
      "step": 1014,
      "step_time": 4.783348674885929
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1660.0,
      "completions/max_terminated_length": 1660.0,
      "completions/mean_length": 734.828125,
      "completions/mean_terminated_length": 734.828125,
      "completions/min_length": 394.0,
      "completions/min_terminated_length": 394.0,
      "entropy": 0.8522800207138062,
      "epoch": 0.14380844431850381,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.3515625,
      "learning_rate": 8.56333238877869e-07,
      "loss": 0.0284,
      "num_tokens": 29895866.0,
      "reward": 0.3125,
      "reward_std": 0.6393200755119324,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1015,
      "step_time": 54.78248343523592
    },
    {
      "clip_ratio/high_max": 0.00011429881124058738,
      "clip_ratio/high_mean": 0.00011429881124058738,
      "clip_ratio/low_mean": 0.00029630380231537856,
      "clip_ratio/low_min": 0.00029630380231537856,
      "clip_ratio/region_mean": 0.00041060261355596595,
      "entropy": 0.823588490486145,
      "epoch": 0.14395012751487674,
      "grad_norm": 0.359375,
      "learning_rate": 8.561915556814962e-07,
      "loss": -0.0169,
      "step": 1016,
      "step_time": 3.619593633338809
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1162.0,
      "completions/max_terminated_length": 1162.0,
      "completions/mean_length": 600.578125,
      "completions/mean_terminated_length": 600.578125,
      "completions/min_length": 283.0,
      "completions/min_terminated_length": 283.0,
      "entropy": 1.1383508443832397,
      "epoch": 0.14409181071124966,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.51171875,
      "learning_rate": 8.560498724851233e-07,
      "loss": 0.0066,
      "num_tokens": 29943775.0,
      "reward": 0.4140625,
      "reward_std": 0.5673293471336365,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.2265625,
      "rewards/format_reward_func/std": 0.250866562128067,
      "step": 1017,
      "step_time": 37.9209591280669
    },
    {
      "clip_ratio/high_max": 0.0006129419816716108,
      "clip_ratio/high_mean": 0.0006129419816716108,
      "clip_ratio/low_mean": 0.00018057059787679464,
      "clip_ratio/low_min": 0.00018057059787679464,
      "clip_ratio/region_mean": 0.0007935125904623419,
      "entropy": 0.8112715929746628,
      "epoch": 0.14423349390762255,
      "grad_norm": 0.8359375,
      "learning_rate": 8.559081892887503e-07,
      "loss": 0.001,
      "step": 1018,
      "step_time": 2.585349351167679
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1579.0,
      "completions/max_terminated_length": 1579.0,
      "completions/mean_length": 845.46875,
      "completions/mean_terminated_length": 845.46875,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "entropy": 0.6093781776726246,
      "epoch": 0.14437517710399547,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.365234375,
      "learning_rate": 8.557665060923775e-07,
      "loss": 0.0963,
      "num_tokens": 30008557.0,
      "reward": 0.1796875,
      "reward_std": 0.44869464635849,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 1019,
      "step_time": 52.380611882545054
    },
    {
      "clip_ratio/high_max": 0.0001041614159476012,
      "clip_ratio/high_mean": 0.0001041614159476012,
      "clip_ratio/low_mean": 0.00047040694698807783,
      "clip_ratio/low_min": 0.00047040694698807783,
      "clip_ratio/region_mean": 0.0005745683738496155,
      "entropy": 0.758998204022646,
      "epoch": 0.14451686030036837,
      "grad_norm": 0.6328125,
      "learning_rate": 8.556248228960044e-07,
      "loss": -0.0589,
      "step": 1020,
      "step_time": 3.5055935429409146
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1603.0,
      "completions/max_terminated_length": 1603.0,
      "completions/mean_length": 819.0625,
      "completions/mean_terminated_length": 819.0625,
      "completions/min_length": 26.0,
      "completions/min_terminated_length": 26.0,
      "entropy": 0.9101675227284431,
      "epoch": 0.1446585434967413,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.462890625,
      "learning_rate": 8.554831396996316e-07,
      "loss": 0.0341,
      "num_tokens": 30072161.0,
      "reward": 0.1171875,
      "reward_std": 0.21347814798355103,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1021,
      "step_time": 52.685882883146405
    },
    {
      "clip_ratio/high_max": 0.00010635364378686063,
      "clip_ratio/high_mean": 0.00010635364378686063,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00010635364378686063,
      "entropy": 0.9207909852266312,
      "epoch": 0.1448002266931142,
      "grad_norm": 0.056884765625,
      "learning_rate": 8.553414565032587e-07,
      "loss": -0.0266,
      "step": 1022,
      "step_time": 3.33228709269315
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1226.0,
      "completions/max_terminated_length": 1226.0,
      "completions/mean_length": 604.25,
      "completions/mean_terminated_length": 604.25,
      "completions/min_length": 319.0,
      "completions/min_terminated_length": 319.0,
      "entropy": 0.7794370949268341,
      "epoch": 0.1449419098894871,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.201171875,
      "learning_rate": 8.551997733068858e-07,
      "loss": 0.0069,
      "num_tokens": 30125153.0,
      "reward": 0.28125,
      "reward_std": 0.5482656359672546,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1023,
      "step_time": 41.12249604612589
    },
    {
      "clip_ratio/high_max": 7.768800423946232e-05,
      "clip_ratio/high_mean": 7.768800423946232e-05,
      "clip_ratio/low_mean": 0.0002399818658886943,
      "clip_ratio/low_min": 0.0002399818658886943,
      "clip_ratio/region_mean": 0.0003176698701281566,
      "entropy": 0.9015840888023376,
      "epoch": 0.14508359308586002,
      "grad_norm": 0.3515625,
      "learning_rate": 8.550580901105129e-07,
      "loss": 0.0079,
      "step": 1024,
      "step_time": 3.253893812187016
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2269.0,
      "completions/max_terminated_length": 2269.0,
      "completions/mean_length": 738.796875,
      "completions/mean_terminated_length": 738.796875,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "entropy": 0.9932369440793991,
      "epoch": 0.14522527628223292,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.26171875,
      "learning_rate": 8.5491640691414e-07,
      "loss": -0.0386,
      "num_tokens": 30181748.0,
      "reward": 0.328125,
      "reward_std": 0.7828455567359924,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1025,
      "step_time": 76.40819483343512
    },
    {
      "clip_ratio/high_max": 0.00012050299119437113,
      "clip_ratio/high_mean": 0.00012050299119437113,
      "clip_ratio/low_mean": 7.659093898837455e-05,
      "clip_ratio/low_min": 7.659093898837455e-05,
      "clip_ratio/region_mean": 0.00019709393018274568,
      "entropy": 0.9549592360854149,
      "epoch": 0.14536695947860584,
      "grad_norm": 0.34375,
      "learning_rate": 8.547747237177671e-07,
      "loss": 0.0496,
      "step": 1026,
      "step_time": 4.370337046682835
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1004.0,
      "completions/max_terminated_length": 1004.0,
      "completions/mean_length": 607.453125,
      "completions/mean_terminated_length": 607.453125,
      "completions/min_length": 292.0,
      "completions/min_terminated_length": 292.0,
      "entropy": 0.565190352499485,
      "epoch": 0.14550864267497876,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.453125,
      "learning_rate": 8.546330405213941e-07,
      "loss": -0.0303,
      "num_tokens": 30236353.0,
      "reward": 0.625,
      "reward_std": 0.8261595964431763,
      "rewards/accuracy_reward_func/mean": 0.5,
      "rewards/accuracy_reward_func/std": 0.8728715777397156,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1027,
      "step_time": 33.57329170126468
    },
    {
      "clip_ratio/high_max": 0.0001934557585627772,
      "clip_ratio/high_mean": 0.0001934557585627772,
      "clip_ratio/low_mean": 0.00014462733088294044,
      "clip_ratio/low_min": 0.00014462733088294044,
      "clip_ratio/region_mean": 0.00033808310035965405,
      "entropy": 0.6866895854473114,
      "epoch": 0.14565032587135165,
      "grad_norm": 0.388671875,
      "learning_rate": 8.544913573250212e-07,
      "loss": 0.0201,
      "step": 1028,
      "step_time": 2.869460556656122
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1257.0,
      "completions/max_terminated_length": 1257.0,
      "completions/mean_length": 680.78125,
      "completions/mean_terminated_length": 680.78125,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "entropy": 0.5708852484822273,
      "epoch": 0.14579200906772458,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.40234375,
      "learning_rate": 8.543496741286483e-07,
      "loss": 0.0275,
      "num_tokens": 30289059.0,
      "reward": 0.375,
      "reward_std": 0.7867957949638367,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1029,
      "step_time": 40.683032034896314
    },
    {
      "clip_ratio/high_max": 0.00014397279664990492,
      "clip_ratio/high_mean": 0.00014397279664990492,
      "clip_ratio/low_mean": 0.00040307090603164397,
      "clip_ratio/low_min": 0.00040307090603164397,
      "clip_ratio/region_mean": 0.0005470437026815489,
      "entropy": 0.6477682739496231,
      "epoch": 0.14593369226409747,
      "grad_norm": 0.302734375,
      "learning_rate": 8.542079909322754e-07,
      "loss": -0.0258,
      "step": 1030,
      "step_time": 2.738450290635228
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1099.0,
      "completions/max_terminated_length": 1099.0,
      "completions/mean_length": 641.46875,
      "completions/mean_terminated_length": 641.46875,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "entropy": 0.7235423177480698,
      "epoch": 0.1460753754604704,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.466796875,
      "learning_rate": 8.540663077359025e-07,
      "loss": 0.0058,
      "num_tokens": 30339025.0,
      "reward": 0.3046875,
      "reward_std": 0.6400470733642578,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1031,
      "step_time": 35.515523481182754
    },
    {
      "clip_ratio/high_max": 0.00022482191707240418,
      "clip_ratio/high_mean": 0.00022482191707240418,
      "clip_ratio/low_mean": 0.00034213459366583265,
      "clip_ratio/low_min": 0.00034213459366583265,
      "clip_ratio/region_mean": 0.0005669565107382368,
      "entropy": 0.6999664604663849,
      "epoch": 0.14621705865684329,
      "grad_norm": 0.5859375,
      "learning_rate": 8.539246245395297e-07,
      "loss": -0.0142,
      "step": 1032,
      "step_time": 2.498806893825531
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1450.0,
      "completions/max_terminated_length": 1450.0,
      "completions/mean_length": 785.0625,
      "completions/mean_terminated_length": 785.0625,
      "completions/min_length": 255.0,
      "completions/min_terminated_length": 255.0,
      "entropy": 0.8599545583128929,
      "epoch": 0.1463587418532162,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 8.537829413431567e-07,
      "loss": 0.0,
      "num_tokens": 30400645.0,
      "reward": 0.125,
      "reward_std": 0.2182178944349289,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1033,
      "step_time": 48.094608971849084
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.761249978095293,
      "epoch": 0.14650042504958913,
      "grad_norm": 0.0,
      "learning_rate": 8.536412581467837e-07,
      "loss": 0.0,
      "step": 1034,
      "step_time": 3.2078237514942884
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1335.0,
      "completions/max_terminated_length": 1335.0,
      "completions/mean_length": 796.90625,
      "completions/mean_terminated_length": 796.90625,
      "completions/min_length": 3.0,
      "completions/min_terminated_length": 3.0,
      "entropy": 0.6190719306468964,
      "epoch": 0.14664210824596202,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5390625,
      "learning_rate": 8.534995749504108e-07,
      "loss": -0.0442,
      "num_tokens": 30461199.0,
      "reward": 0.3359375,
      "reward_std": 0.6239574551582336,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1035,
      "step_time": 43.78361406456679
    },
    {
      "clip_ratio/high_max": 0.0004361950414022431,
      "clip_ratio/high_mean": 0.0004361950414022431,
      "clip_ratio/low_mean": 0.0003677880158647895,
      "clip_ratio/low_min": 0.0003677880158647895,
      "clip_ratio/region_mean": 0.0008039830572670326,
      "entropy": 0.6236331388354301,
      "epoch": 0.14678379144233494,
      "grad_norm": 0.380859375,
      "learning_rate": 8.533578917540379e-07,
      "loss": 0.0851,
      "step": 1036,
      "step_time": 2.9511450063437223
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1162.0,
      "completions/max_terminated_length": 1162.0,
      "completions/mean_length": 678.625,
      "completions/mean_terminated_length": 678.625,
      "completions/min_length": 353.0,
      "completions/min_terminated_length": 353.0,
      "entropy": 0.6507273018360138,
      "epoch": 0.14692547463870784,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.349609375,
      "learning_rate": 8.532162085576651e-07,
      "loss": 0.0591,
      "num_tokens": 30514263.0,
      "reward": 0.6171875,
      "reward_std": 0.920413076877594,
      "rewards/accuracy_reward_func/mean": 0.5,
      "rewards/accuracy_reward_func/std": 0.8728715777397156,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1037,
      "step_time": 37.93765876069665
    },
    {
      "clip_ratio/high_max": 0.000459937218693085,
      "clip_ratio/high_mean": 0.000459937218693085,
      "clip_ratio/low_mean": 0.0006045454392733518,
      "clip_ratio/low_min": 0.0006045454392733518,
      "clip_ratio/region_mean": 0.001064482654328458,
      "entropy": 0.6318391487002373,
      "epoch": 0.14706715783508076,
      "grad_norm": 0.546875,
      "learning_rate": 8.530745253612921e-07,
      "loss": -0.0016,
      "step": 1038,
      "step_time": 2.698383016511798
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1192.0,
      "completions/max_terminated_length": 1192.0,
      "completions/mean_length": 691.328125,
      "completions/mean_terminated_length": 691.328125,
      "completions/min_length": 400.0,
      "completions/min_terminated_length": 400.0,
      "entropy": 0.7772115767002106,
      "epoch": 0.14720884103145368,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 8.529328421649193e-07,
      "loss": 0.0,
      "num_tokens": 30567356.0,
      "reward": 0.125,
      "reward_std": 0.2182178944349289,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1039,
      "step_time": 38.986720382235944
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.7312032133340836,
      "epoch": 0.14735052422782657,
      "grad_norm": 0.0,
      "learning_rate": 8.527911589685463e-07,
      "loss": 0.0,
      "step": 1040,
      "step_time": 2.6446931110695004
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1526.0,
      "completions/max_terminated_length": 1526.0,
      "completions/mean_length": 801.28125,
      "completions/mean_terminated_length": 801.28125,
      "completions/min_length": 331.0,
      "completions/min_terminated_length": 331.0,
      "entropy": 0.6215624734759331,
      "epoch": 0.1474922074241995,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.375,
      "learning_rate": 8.526494757721733e-07,
      "loss": 0.0049,
      "num_tokens": 30628590.0,
      "reward": 0.59375,
      "reward_std": 0.8110105395317078,
      "rewards/accuracy_reward_func/mean": 0.46875,
      "rewards/accuracy_reward_func/std": 0.8539125919342041,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1041,
      "step_time": 50.456032590940595
    },
    {
      "clip_ratio/high_max": 0.00019296686878078617,
      "clip_ratio/high_mean": 0.00019296686878078617,
      "clip_ratio/low_mean": 0.00027663303262670524,
      "clip_ratio/low_min": 0.00027663303262670524,
      "clip_ratio/region_mean": 0.0004695999014074914,
      "entropy": 0.6833895519375801,
      "epoch": 0.1476338906205724,
      "grad_norm": 0.359375,
      "learning_rate": 8.525077925758005e-07,
      "loss": -0.0085,
      "step": 1042,
      "step_time": 3.2186485370621085
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 936.0,
      "completions/mean_length": 607.734375,
      "completions/mean_terminated_length": 552.3651123046875,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "entropy": 0.5221385322511196,
      "epoch": 0.1477755738169453,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5546875,
      "learning_rate": 8.523661093794275e-07,
      "loss": -0.0467,
      "num_tokens": 30679293.0,
      "reward": 0.5,
      "reward_std": 0.7968190908432007,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1043,
      "step_time": 165.2553065000102
    },
    {
      "clip_ratio/high_max": 0.00010283834126312286,
      "clip_ratio/high_mean": 0.00010283834126312286,
      "clip_ratio/low_mean": 0.0005252026676316746,
      "clip_ratio/low_min": 0.0005252026676316746,
      "clip_ratio/region_mean": 0.0006280410088947974,
      "entropy": 0.625628188252449,
      "epoch": 0.14791725701331823,
      "grad_norm": 0.453125,
      "learning_rate": 8.522244261830547e-07,
      "loss": 0.0491,
      "step": 1044,
      "step_time": 7.1667811358347535
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1295.0,
      "completions/max_terminated_length": 1295.0,
      "completions/mean_length": 707.375,
      "completions/mean_terminated_length": 707.375,
      "completions/min_length": 327.0,
      "completions/min_terminated_length": 327.0,
      "entropy": 1.1823192462325096,
      "epoch": 0.14805894020969113,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 8.520827429866817e-07,
      "loss": 0.0,
      "num_tokens": 30735797.0,
      "reward": 0.125,
      "reward_std": 0.2182178944349289,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1045,
      "step_time": 43.255836153402925
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 1.0394802391529083,
      "epoch": 0.14820062340606405,
      "grad_norm": 0.0,
      "learning_rate": 8.519410597903089e-07,
      "loss": 0.0,
      "step": 1046,
      "step_time": 2.9264164362102747
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1182.0,
      "completions/max_terminated_length": 1182.0,
      "completions/mean_length": 839.375,
      "completions/mean_terminated_length": 839.375,
      "completions/min_length": 314.0,
      "completions/min_terminated_length": 314.0,
      "entropy": 0.6287059038877487,
      "epoch": 0.14834230660243694,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.244140625,
      "learning_rate": 8.51799376593936e-07,
      "loss": 0.0296,
      "num_tokens": 30801053.0,
      "reward": 0.421875,
      "reward_std": 0.8918446898460388,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1047,
      "step_time": 38.479444701224566
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 3.666764314402826e-05,
      "clip_ratio/low_min": 3.666764314402826e-05,
      "clip_ratio/region_mean": 3.666764314402826e-05,
      "entropy": 0.6151234395802021,
      "epoch": 0.14848398979880986,
      "grad_norm": 0.40625,
      "learning_rate": 8.51657693397563e-07,
      "loss": -0.021,
      "step": 1048,
      "step_time": 2.710699493996799
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2065.0,
      "completions/max_terminated_length": 2065.0,
      "completions/mean_length": 847.390625,
      "completions/mean_terminated_length": 847.390625,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "entropy": 0.46113747358322144,
      "epoch": 0.14862567299518278,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.35546875,
      "learning_rate": 8.515160102011901e-07,
      "loss": -0.0152,
      "num_tokens": 30866726.0,
      "reward": 0.3828125,
      "reward_std": 0.6885814070701599,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1049,
      "step_time": 68.82098540011793
    },
    {
      "clip_ratio/high_max": 0.0004396982621983625,
      "clip_ratio/high_mean": 0.0004396982621983625,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0004396982621983625,
      "entropy": 0.6313257664442062,
      "epoch": 0.14876735619155568,
      "grad_norm": 0.4375,
      "learning_rate": 8.513743270048171e-07,
      "loss": 0.0053,
      "step": 1050,
      "step_time": 4.235373733565211
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1706.0,
      "completions/max_terminated_length": 1706.0,
      "completions/mean_length": 841.46875,
      "completions/mean_terminated_length": 841.46875,
      "completions/min_length": 564.0,
      "completions/min_terminated_length": 564.0,
      "entropy": 0.6092255488038063,
      "epoch": 0.1489090393879286,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 8.512326438084443e-07,
      "loss": 0.0,
      "num_tokens": 30930532.0,
      "reward": 0.125,
      "reward_std": 0.2182178944349289,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1051,
      "step_time": 55.80606353003532
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.678819440305233,
      "epoch": 0.1490507225843015,
      "grad_norm": 0.0,
      "learning_rate": 8.510909606120714e-07,
      "loss": 0.0,
      "step": 1052,
      "step_time": 3.4722825214266777
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1230.0,
      "completions/max_terminated_length": 1230.0,
      "completions/mean_length": 719.53125,
      "completions/mean_terminated_length": 719.53125,
      "completions/min_length": 315.0,
      "completions/min_terminated_length": 315.0,
      "entropy": 0.6144619472324848,
      "epoch": 0.14919240578067441,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.5859375,
      "learning_rate": 8.509492774156985e-07,
      "loss": -0.0367,
      "num_tokens": 30985974.0,
      "reward": 0.7109375,
      "reward_std": 0.8674204349517822,
      "rewards/accuracy_reward_func/mean": 0.59375,
      "rewards/accuracy_reward_func/std": 0.9209855198860168,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1053,
      "step_time": 40.03779754508287
    },
    {
      "clip_ratio/high_max": 0.0008238555274147075,
      "clip_ratio/high_mean": 0.0008238555274147075,
      "clip_ratio/low_mean": 0.0005401064481702633,
      "clip_ratio/low_min": 0.0005401064481702633,
      "clip_ratio/region_mean": 0.001363961971946992,
      "entropy": 0.5657810121774673,
      "epoch": 0.14933408897704734,
      "grad_norm": 0.578125,
      "learning_rate": 8.508075942193256e-07,
      "loss": 0.0663,
      "step": 1054,
      "step_time": 2.923187978565693
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1356.0,
      "completions/max_terminated_length": 1356.0,
      "completions/mean_length": 747.0625,
      "completions/mean_terminated_length": 747.0625,
      "completions/min_length": 439.0,
      "completions/min_terminated_length": 439.0,
      "entropy": 1.1530550420284271,
      "epoch": 0.14947577217342023,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 8.506659110229526e-07,
      "loss": 0.0,
      "num_tokens": 31044842.0,
      "reward": 0.125,
      "reward_std": 0.2182178944349289,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1055,
      "step_time": 44.87310409080237
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 1.1657135337591171,
      "epoch": 0.14961745536979315,
      "grad_norm": 0.0,
      "learning_rate": 8.505242278265797e-07,
      "loss": 0.0,
      "step": 1056,
      "step_time": 2.926819235086441
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1374.0,
      "completions/max_terminated_length": 1374.0,
      "completions/mean_length": 723.09375,
      "completions/mean_terminated_length": 723.09375,
      "completions/min_length": 293.0,
      "completions/min_terminated_length": 293.0,
      "entropy": 0.8314132541418076,
      "epoch": 0.14975913856616604,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.5390625,
      "learning_rate": 8.503825446302068e-07,
      "loss": -0.0593,
      "num_tokens": 31101568.0,
      "reward": 0.1796875,
      "reward_std": 0.3920558989048004,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1057,
      "step_time": 44.84923948068172
    },
    {
      "clip_ratio/high_max": 0.00016822761608636938,
      "clip_ratio/high_mean": 0.00016822761608636938,
      "clip_ratio/low_mean": 8.205691483453847e-05,
      "clip_ratio/low_min": 8.205691483453847e-05,
      "clip_ratio/region_mean": 0.00025028453092090786,
      "entropy": 0.7957828529179096,
      "epoch": 0.14990082176253897,
      "grad_norm": 0.423828125,
      "learning_rate": 8.502408614338339e-07,
      "loss": 0.0588,
      "step": 1058,
      "step_time": 3.0071740271523595
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 794.0,
      "completions/max_terminated_length": 794.0,
      "completions/mean_length": 536.609375,
      "completions/mean_terminated_length": 536.609375,
      "completions/min_length": 281.0,
      "completions/min_terminated_length": 281.0,
      "entropy": 0.9754528924822807,
      "epoch": 0.15004250495891186,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.7109375,
      "learning_rate": 8.50099178237461e-07,
      "loss": 0.0073,
      "num_tokens": 31146791.0,
      "reward": 0.4140625,
      "reward_std": 0.8191879987716675,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1059,
      "step_time": 26.471269813366234
    },
    {
      "clip_ratio/high_max": 0.0003404780145501718,
      "clip_ratio/high_mean": 0.0003404780145501718,
      "clip_ratio/low_mean": 0.0008892223486327566,
      "clip_ratio/low_min": 0.0008892223486327566,
      "clip_ratio/region_mean": 0.0012297003413550556,
      "entropy": 1.0227460414171219,
      "epoch": 0.15018418815528478,
      "grad_norm": 0.52734375,
      "learning_rate": 8.499574950410881e-07,
      "loss": -0.0077,
      "step": 1060,
      "step_time": 2.086155022494495
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1270.0,
      "completions/max_terminated_length": 1270.0,
      "completions/mean_length": 677.515625,
      "completions/mean_terminated_length": 677.515625,
      "completions/min_length": 309.0,
      "completions/min_terminated_length": 309.0,
      "entropy": 0.8028443679213524,
      "epoch": 0.1503258713516577,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.58203125,
      "learning_rate": 8.498158118447152e-07,
      "loss": -0.0064,
      "num_tokens": 31199256.0,
      "reward": 0.6484375,
      "reward_std": 0.8246195912361145,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.2421875,
      "rewards/format_reward_func/std": 0.25185325741767883,
      "step": 1061,
      "step_time": 41.49922405928373
    },
    {
      "clip_ratio/high_max": 0.0003457528837316204,
      "clip_ratio/high_mean": 0.0003457528837316204,
      "clip_ratio/low_mean": 0.0002451737309456803,
      "clip_ratio/low_min": 0.0002451737309456803,
      "clip_ratio/region_mean": 0.0005909266183152795,
      "entropy": 0.6776297464966774,
      "epoch": 0.1504675545480306,
      "grad_norm": 0.458984375,
      "learning_rate": 8.496741286483423e-07,
      "loss": 0.0624,
      "step": 1062,
      "step_time": 2.7665637666359544
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1687.0,
      "completions/max_terminated_length": 1687.0,
      "completions/mean_length": 712.359375,
      "completions/mean_terminated_length": 712.359375,
      "completions/min_length": 315.0,
      "completions/min_terminated_length": 315.0,
      "entropy": 1.0593015775084496,
      "epoch": 0.15060923774440352,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.458984375,
      "learning_rate": 8.495324454519693e-07,
      "loss": 0.0128,
      "num_tokens": 31254303.0,
      "reward": 0.1796875,
      "reward_std": 0.44869464635849,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 1063,
      "step_time": 55.524747488088906
    },
    {
      "clip_ratio/high_max": 0.00014859105431241915,
      "clip_ratio/high_mean": 0.00014859105431241915,
      "clip_ratio/low_mean": 0.0003985869334428571,
      "clip_ratio/low_min": 0.0003985869334428571,
      "clip_ratio/region_mean": 0.0005471779913932551,
      "entropy": 0.7818459123373032,
      "epoch": 0.1507509209407764,
      "grad_norm": 0.357421875,
      "learning_rate": 8.493907622555964e-07,
      "loss": -0.0346,
      "step": 1064,
      "step_time": 3.526425533927977
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1133.0,
      "completions/max_terminated_length": 1133.0,
      "completions/mean_length": 705.625,
      "completions/mean_terminated_length": 705.625,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "entropy": 0.7834511250257492,
      "epoch": 0.15089260413714933,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2578125,
      "learning_rate": 8.492490790592235e-07,
      "loss": -0.0124,
      "num_tokens": 31313207.0,
      "reward": 0.3125,
      "reward_std": 0.7319250702857971,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1065,
      "step_time": 37.15397097915411
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 4.385965075925924e-05,
      "clip_ratio/low_min": 4.385965075925924e-05,
      "clip_ratio/region_mean": 4.385965075925924e-05,
      "entropy": 0.78268051892519,
      "epoch": 0.15103428733352225,
      "grad_norm": 0.150390625,
      "learning_rate": 8.491073958628506e-07,
      "loss": 0.03,
      "step": 1066,
      "step_time": 2.7299678344279528
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1372.0,
      "completions/max_terminated_length": 1372.0,
      "completions/mean_length": 669.609375,
      "completions/mean_terminated_length": 669.609375,
      "completions/min_length": 17.0,
      "completions/min_terminated_length": 17.0,
      "entropy": 0.5784290246665478,
      "epoch": 0.15117597052989515,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.39453125,
      "learning_rate": 8.489657126664778e-07,
      "loss": 0.0256,
      "num_tokens": 31364302.0,
      "reward": 0.4375,
      "reward_std": 0.8333333134651184,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1067,
      "step_time": 45.23719106707722
    },
    {
      "clip_ratio/high_max": 0.0003807424000115134,
      "clip_ratio/high_mean": 0.0003807424000115134,
      "clip_ratio/low_mean": 0.00041205262459698133,
      "clip_ratio/low_min": 0.00041205262459698133,
      "clip_ratio/region_mean": 0.0007927950391604099,
      "entropy": 0.5577897299081087,
      "epoch": 0.15131765372626807,
      "grad_norm": 0.34765625,
      "learning_rate": 8.488240294701048e-07,
      "loss": -0.015,
      "step": 1068,
      "step_time": 2.908901683986187
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1647.0,
      "completions/max_terminated_length": 1647.0,
      "completions/mean_length": 604.6875,
      "completions/mean_terminated_length": 604.6875,
      "completions/min_length": 14.0,
      "completions/min_terminated_length": 14.0,
      "entropy": 0.5252018235623837,
      "epoch": 0.15145933692264096,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.54296875,
      "learning_rate": 8.48682346273732e-07,
      "loss": -0.1017,
      "num_tokens": 31411738.0,
      "reward": 0.25,
      "reward_std": 0.5039526224136353,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1069,
      "step_time": 54.20343623030931
    },
    {
      "clip_ratio/high_max": 7.462686335202307e-05,
      "clip_ratio/high_mean": 7.462686335202307e-05,
      "clip_ratio/low_mean": 0.000401040928409202,
      "clip_ratio/low_min": 0.000401040928409202,
      "clip_ratio/region_mean": 0.0004756677917612251,
      "entropy": 0.5289618447422981,
      "epoch": 0.15160102011901389,
      "grad_norm": 0.314453125,
      "learning_rate": 8.485406630773589e-07,
      "loss": 0.0527,
      "step": 1070,
      "step_time": 3.4202198358252645
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1558.0,
      "completions/max_terminated_length": 1558.0,
      "completions/mean_length": 719.25,
      "completions/mean_terminated_length": 719.25,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "entropy": 0.7477532401680946,
      "epoch": 0.1517427033153868,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 8.483989798809861e-07,
      "loss": 0.0,
      "num_tokens": 31475770.0,
      "reward": 0.125,
      "reward_std": 0.2182178944349289,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1071,
      "step_time": 51.95966402627528
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.8174787610769272,
      "epoch": 0.1518843865117597,
      "grad_norm": 0.0,
      "learning_rate": 8.482572966846132e-07,
      "loss": 0.0,
      "step": 1072,
      "step_time": 3.6531371101737022
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 964.0,
      "completions/max_terminated_length": 964.0,
      "completions/mean_length": 569.0625,
      "completions/mean_terminated_length": 569.0625,
      "completions/min_length": 298.0,
      "completions/min_terminated_length": 298.0,
      "entropy": 0.6218280605971813,
      "epoch": 0.15202606970813262,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.65625,
      "learning_rate": 8.481156134882402e-07,
      "loss": 0.0195,
      "num_tokens": 31526430.0,
      "reward": 0.3828125,
      "reward_std": 0.6885814070701599,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1073,
      "step_time": 32.19011727254838
    },
    {
      "clip_ratio/high_max": 0.0004819335154024884,
      "clip_ratio/high_mean": 0.0004819335154024884,
      "clip_ratio/low_mean": 0.0005552125912799966,
      "clip_ratio/low_min": 0.0005552125912799966,
      "clip_ratio/region_mean": 0.0010371461103204638,
      "entropy": 0.6893232464790344,
      "epoch": 0.15216775290450552,
      "grad_norm": 0.6953125,
      "learning_rate": 8.479739302918674e-07,
      "loss": 0.0244,
      "step": 1074,
      "step_time": 2.5748178772628307
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1700.0,
      "completions/max_terminated_length": 1700.0,
      "completions/mean_length": 728.453125,
      "completions/mean_terminated_length": 728.453125,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "entropy": 0.7083514630794525,
      "epoch": 0.15230943610087844,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.734375,
      "learning_rate": 8.478322470954944e-07,
      "loss": -0.0375,
      "num_tokens": 31582203.0,
      "reward": 0.3984375,
      "reward_std": 0.7724404335021973,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1075,
      "step_time": 58.51866917219013
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0007485249716410181,
      "clip_ratio/low_min": 0.0007485249716410181,
      "clip_ratio/region_mean": 0.0007485249716410181,
      "entropy": 1.0271651670336723,
      "epoch": 0.15245111929725136,
      "grad_norm": 0.357421875,
      "learning_rate": 8.476905638991216e-07,
      "loss": 0.0553,
      "step": 1076,
      "step_time": 3.6290969159454107
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1609.0,
      "completions/max_terminated_length": 1609.0,
      "completions/mean_length": 796.234375,
      "completions/mean_terminated_length": 796.234375,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "entropy": 0.6164981685578823,
      "epoch": 0.15259280249362425,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.453125,
      "learning_rate": 8.475488807027486e-07,
      "loss": -0.0997,
      "num_tokens": 31643450.0,
      "reward": 0.3203125,
      "reward_std": 0.7091644406318665,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.0703125,
      "rewards/format_reward_func/std": 0.1751912236213684,
      "step": 1077,
      "step_time": 52.620020067319274
    },
    {
      "clip_ratio/high_max": 4.958349745720625e-05,
      "clip_ratio/high_mean": 4.958349745720625e-05,
      "clip_ratio/low_mean": 0.000556890092411777,
      "clip_ratio/low_min": 0.000556890092411777,
      "clip_ratio/region_mean": 0.0006064735898689833,
      "entropy": 0.674431350082159,
      "epoch": 0.15273448568999717,
      "grad_norm": 0.26171875,
      "learning_rate": 8.474071975063757e-07,
      "loss": 0.0806,
      "step": 1078,
      "step_time": 3.3171395789831877
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1227.0,
      "completions/max_terminated_length": 1227.0,
      "completions/mean_length": 627.78125,
      "completions/mean_terminated_length": 627.78125,
      "completions/min_length": 290.0,
      "completions/min_terminated_length": 290.0,
      "entropy": 1.176352459937334,
      "epoch": 0.15287616888637007,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.63671875,
      "learning_rate": 8.472655143100028e-07,
      "loss": -0.0011,
      "num_tokens": 31695388.0,
      "reward": 0.34375,
      "reward_std": 0.647798478603363,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1079,
      "step_time": 40.60187041666359
    },
    {
      "clip_ratio/high_max": 0.00021951903545414098,
      "clip_ratio/high_mean": 0.00021951903545414098,
      "clip_ratio/low_mean": 0.0003043713149963878,
      "clip_ratio/low_min": 0.0003043713149963878,
      "clip_ratio/region_mean": 0.0005238903504505288,
      "entropy": 0.8651216551661491,
      "epoch": 0.153017852082743,
      "grad_norm": 0.314453125,
      "learning_rate": 8.471238311136298e-07,
      "loss": 0.0295,
      "step": 1080,
      "step_time": 3.1042732652276754
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1430.0,
      "completions/max_terminated_length": 1430.0,
      "completions/mean_length": 688.421875,
      "completions/mean_terminated_length": 688.421875,
      "completions/min_length": 283.0,
      "completions/min_terminated_length": 283.0,
      "entropy": 0.895613931119442,
      "epoch": 0.1531595352791159,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.443359375,
      "learning_rate": 8.46982147917257e-07,
      "loss": 0.0775,
      "num_tokens": 31747847.0,
      "reward": 0.5,
      "reward_std": 0.7559289336204529,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1081,
      "step_time": 46.754146558232605
    },
    {
      "clip_ratio/high_max": 0.0006285215822572354,
      "clip_ratio/high_mean": 0.0006285215822572354,
      "clip_ratio/low_mean": 0.0005593843816313893,
      "clip_ratio/low_min": 0.0005593843816313893,
      "clip_ratio/region_mean": 0.0011879059602506459,
      "entropy": 0.7609760351479053,
      "epoch": 0.1533012184754888,
      "grad_norm": 0.59375,
      "learning_rate": 8.468404647208841e-07,
      "loss": -0.018,
      "step": 1082,
      "step_time": 2.9915582314133644
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1331.0,
      "completions/max_terminated_length": 1331.0,
      "completions/mean_length": 903.953125,
      "completions/mean_terminated_length": 903.953125,
      "completions/min_length": 323.0,
      "completions/min_terminated_length": 323.0,
      "entropy": 0.7812957391142845,
      "epoch": 0.15344290167186173,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.38671875,
      "learning_rate": 8.466987815245112e-07,
      "loss": -0.0115,
      "num_tokens": 31817908.0,
      "reward": 0.2109375,
      "reward_std": 0.5024123191833496,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 1083,
      "step_time": 43.88275514729321
    },
    {
      "clip_ratio/high_max": 0.0003951127582695335,
      "clip_ratio/high_mean": 0.0003951127582695335,
      "clip_ratio/low_mean": 3.2224801543634385e-05,
      "clip_ratio/low_min": 3.2224801543634385e-05,
      "clip_ratio/region_mean": 0.0004273375598131679,
      "entropy": 0.7597749158740044,
      "epoch": 0.15358458486823462,
      "grad_norm": 0.36328125,
      "learning_rate": 8.465570983281382e-07,
      "loss": 0.0184,
      "step": 1084,
      "step_time": 3.1810186645016074
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1574.0,
      "completions/max_terminated_length": 1574.0,
      "completions/mean_length": 841.203125,
      "completions/mean_terminated_length": 841.203125,
      "completions/min_length": 367.0,
      "completions/min_terminated_length": 367.0,
      "entropy": 0.7333158142864704,
      "epoch": 0.15372626806460754,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.470703125,
      "learning_rate": 8.464154151317653e-07,
      "loss": 0.09,
      "num_tokens": 31882065.0,
      "reward": 0.40625,
      "reward_std": 0.7175520658493042,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 1085,
      "step_time": 51.35403269343078
    },
    {
      "clip_ratio/high_max": 0.0005312896792020183,
      "clip_ratio/high_mean": 0.0005312896792020183,
      "clip_ratio/low_mean": 7.89657497080043e-05,
      "clip_ratio/low_min": 7.89657497080043e-05,
      "clip_ratio/region_mean": 0.0006102554289100226,
      "entropy": 0.7183942571282387,
      "epoch": 0.15386795126098043,
      "grad_norm": 0.337890625,
      "learning_rate": 8.462737319353924e-07,
      "loss": -0.0669,
      "step": 1086,
      "step_time": 3.280072024092078
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1322.0,
      "completions/max_terminated_length": 1322.0,
      "completions/mean_length": 653.40625,
      "completions/mean_terminated_length": 653.40625,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "entropy": 0.7960633523762226,
      "epoch": 0.15400963445735336,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.5703125,
      "learning_rate": 8.461320487390196e-07,
      "loss": -0.0503,
      "num_tokens": 31935003.0,
      "reward": 0.5625,
      "reward_std": 0.9738648533821106,
      "rewards/accuracy_reward_func/mean": 0.4375,
      "rewards/accuracy_reward_func/std": 0.8333333730697632,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1087,
      "step_time": 42.974973465316
    },
    {
      "clip_ratio/high_max": 0.0004257680193404667,
      "clip_ratio/high_mean": 0.0004257680193404667,
      "clip_ratio/low_mean": 0.0006185469646879937,
      "clip_ratio/low_min": 0.0006185469646879937,
      "clip_ratio/region_mean": 0.0010443149840284605,
      "entropy": 0.7038543671369553,
      "epoch": 0.15415131765372628,
      "grad_norm": 0.71484375,
      "learning_rate": 8.459903655426466e-07,
      "loss": -0.0493,
      "step": 1088,
      "step_time": 2.9021639302372932
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1132.0,
      "completions/max_terminated_length": 1132.0,
      "completions/mean_length": 621.734375,
      "completions/mean_terminated_length": 621.734375,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "entropy": 0.7902888357639313,
      "epoch": 0.15429300085009917,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5234375,
      "learning_rate": 8.458486823462737e-07,
      "loss": -0.0101,
      "num_tokens": 31984138.0,
      "reward": 0.40625,
      "reward_std": 0.7064049243927002,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1089,
      "step_time": 36.97857839241624
    },
    {
      "clip_ratio/high_max": 0.00036130738590145484,
      "clip_ratio/high_mean": 0.00036130738590145484,
      "clip_ratio/low_mean": 0.0005020026510464959,
      "clip_ratio/low_min": 0.0005020026510464959,
      "clip_ratio/region_mean": 0.0008633100369479507,
      "entropy": 0.8518703952431679,
      "epoch": 0.1544346840464721,
      "grad_norm": 0.6640625,
      "learning_rate": 8.457069991499008e-07,
      "loss": 0.0205,
      "step": 1090,
      "step_time": 2.5712947249412537
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1805.0,
      "completions/max_terminated_length": 1805.0,
      "completions/mean_length": 902.5,
      "completions/mean_terminated_length": 902.5,
      "completions/min_length": 321.0,
      "completions/min_terminated_length": 321.0,
      "entropy": 0.5809761062264442,
      "epoch": 0.154576367242845,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.486328125,
      "learning_rate": 8.455653159535278e-07,
      "loss": 0.0658,
      "num_tokens": 32053818.0,
      "reward": 0.2421875,
      "reward_std": 0.503891110420227,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1091,
      "step_time": 60.45603327360004
    },
    {
      "clip_ratio/high_max": 0.0003882480159518309,
      "clip_ratio/high_mean": 0.0003882480159518309,
      "clip_ratio/low_mean": 0.00016011255866033025,
      "clip_ratio/low_min": 0.00016011255866033025,
      "clip_ratio/region_mean": 0.0005483605746121611,
      "entropy": 0.5095209963619709,
      "epoch": 0.1547180504392179,
      "grad_norm": 0.326171875,
      "learning_rate": 8.45423632757155e-07,
      "loss": -0.0664,
      "step": 1092,
      "step_time": 3.7476248908787966
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1225.0,
      "completions/max_terminated_length": 1225.0,
      "completions/mean_length": 769.71875,
      "completions/mean_terminated_length": 769.71875,
      "completions/min_length": 356.0,
      "completions/min_terminated_length": 356.0,
      "entropy": 0.5795071050524712,
      "epoch": 0.15485973363559083,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.515625,
      "learning_rate": 8.45281949560782e-07,
      "loss": -0.0383,
      "num_tokens": 32112312.0,
      "reward": 0.28125,
      "reward_std": 0.5482656359672546,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1093,
      "step_time": 40.91724996455014
    },
    {
      "clip_ratio/high_max": 6.679134094156325e-05,
      "clip_ratio/high_mean": 6.679134094156325e-05,
      "clip_ratio/low_mean": 0.00017458093498134986,
      "clip_ratio/low_min": 0.00017458093498134986,
      "clip_ratio/region_mean": 0.0002413722759229131,
      "entropy": 0.6001247502863407,
      "epoch": 0.15500141683196372,
      "grad_norm": 0.37109375,
      "learning_rate": 8.451402663644092e-07,
      "loss": 0.0757,
      "step": 1094,
      "step_time": 2.7798241283744574
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1316.0,
      "completions/max_terminated_length": 1316.0,
      "completions/mean_length": 697.703125,
      "completions/mean_terminated_length": 697.703125,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "entropy": 0.610741063952446,
      "epoch": 0.15514310002833664,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.578125,
      "learning_rate": 8.449985831680362e-07,
      "loss": -0.053,
      "num_tokens": 32167445.0,
      "reward": 0.203125,
      "reward_std": 0.4517931640148163,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1095,
      "step_time": 43.87791181914508
    },
    {
      "clip_ratio/high_max": 0.00020671098536695354,
      "clip_ratio/high_mean": 0.00020671098536695354,
      "clip_ratio/low_mean": 0.0004051923315273598,
      "clip_ratio/low_min": 0.0004051923315273598,
      "clip_ratio/region_mean": 0.0006119033168943133,
      "entropy": 0.6239910125732422,
      "epoch": 0.15528478322470954,
      "grad_norm": 0.466796875,
      "learning_rate": 8.448568999716633e-07,
      "loss": 0.015,
      "step": 1096,
      "step_time": 2.9566109562292695
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2296.0,
      "completions/max_terminated_length": 2296.0,
      "completions/mean_length": 801.125,
      "completions/mean_terminated_length": 801.125,
      "completions/min_length": 88.0,
      "completions/min_terminated_length": 88.0,
      "entropy": 0.7045339494943619,
      "epoch": 0.15542646642108246,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.3359375,
      "learning_rate": 8.447152167752905e-07,
      "loss": -0.0199,
      "num_tokens": 32228109.0,
      "reward": 0.28125,
      "reward_std": 0.603396475315094,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1097,
      "step_time": 78.75699028745294
    },
    {
      "clip_ratio/high_max": 6.913805555086583e-05,
      "clip_ratio/high_mean": 6.913805555086583e-05,
      "clip_ratio/low_mean": 0.00018026086399913765,
      "clip_ratio/low_min": 0.00018026086399913765,
      "clip_ratio/region_mean": 0.0002493989195500035,
      "entropy": 0.6939486041665077,
      "epoch": 0.15556814961745538,
      "grad_norm": 0.24609375,
      "learning_rate": 8.445735335789174e-07,
      "loss": 0.0285,
      "step": 1098,
      "step_time": 4.5589727042242885
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 918.0,
      "completions/max_terminated_length": 918.0,
      "completions/mean_length": 550.734375,
      "completions/mean_terminated_length": 550.734375,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "entropy": 0.6084369905292988,
      "epoch": 0.15570983281382828,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.73046875,
      "learning_rate": 8.444318503825446e-07,
      "loss": -0.0851,
      "num_tokens": 32272556.0,
      "reward": 0.6171875,
      "reward_std": 0.9030028581619263,
      "rewards/accuracy_reward_func/mean": 0.5,
      "rewards/accuracy_reward_func/std": 0.8728715777397156,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1099,
      "step_time": 30.589964005164802
    },
    {
      "clip_ratio/high_max": 0.00029319317036424764,
      "clip_ratio/high_mean": 0.00029319317036424764,
      "clip_ratio/low_mean": 0.0008133611590892542,
      "clip_ratio/low_min": 0.0008133611590892542,
      "clip_ratio/region_mean": 0.0011065543185395654,
      "entropy": 0.5263069272041321,
      "epoch": 0.1558515160102012,
      "grad_norm": 0.65625,
      "learning_rate": 8.442901671861716e-07,
      "loss": 0.0377,
      "step": 1100,
      "step_time": 2.262972040101886
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1329.0,
      "completions/max_terminated_length": 1329.0,
      "completions/mean_length": 892.234375,
      "completions/mean_terminated_length": 892.234375,
      "completions/min_length": 380.0,
      "completions/min_terminated_length": 380.0,
      "entropy": 0.631010290235281,
      "epoch": 0.1559931992065741,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.09228515625,
      "learning_rate": 8.441484839897988e-07,
      "loss": 0.0336,
      "num_tokens": 32342139.0,
      "reward": 0.140625,
      "reward_std": 0.3615305721759796,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1101,
      "step_time": 44.13686065096408
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 7.015477967797779e-05,
      "clip_ratio/low_min": 7.015477967797779e-05,
      "clip_ratio/region_mean": 7.015477967797779e-05,
      "entropy": 0.6640292219817638,
      "epoch": 0.156134882402947,
      "grad_norm": 0.28515625,
      "learning_rate": 8.440068007934259e-07,
      "loss": -0.0183,
      "step": 1102,
      "step_time": 3.157666760496795
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1228.0,
      "completions/max_terminated_length": 1228.0,
      "completions/mean_length": 681.046875,
      "completions/mean_terminated_length": 681.046875,
      "completions/min_length": 236.0,
      "completions/min_terminated_length": 236.0,
      "entropy": 0.5432580821216106,
      "epoch": 0.15627656559931993,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.267578125,
      "learning_rate": 8.43865117597053e-07,
      "loss": -0.0143,
      "num_tokens": 32395246.0,
      "reward": 0.4921875,
      "reward_std": 0.7585083246231079,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1103,
      "step_time": 39.78095183428377
    },
    {
      "clip_ratio/high_max": 0.0006728164626110811,
      "clip_ratio/high_mean": 0.0006728164626110811,
      "clip_ratio/low_mean": 0.00044747742867912166,
      "clip_ratio/low_min": 0.00044747742867912166,
      "clip_ratio/region_mean": 0.0011202938840142451,
      "entropy": 0.8272106051445007,
      "epoch": 0.15641824879569283,
      "grad_norm": 0.6015625,
      "learning_rate": 8.437234344006801e-07,
      "loss": 0.0298,
      "step": 1104,
      "step_time": 2.724328816868365
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1231.0,
      "completions/max_terminated_length": 1231.0,
      "completions/mean_length": 669.78125,
      "completions/mean_terminated_length": 669.78125,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "entropy": 0.48574113100767136,
      "epoch": 0.15655993199206575,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.6640625,
      "learning_rate": 8.43581751204307e-07,
      "loss": 0.022,
      "num_tokens": 32450864.0,
      "reward": 0.5,
      "reward_std": 0.7766431570053101,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1105,
      "step_time": 40.41250861529261
    },
    {
      "clip_ratio/high_max": 0.00020865209080511704,
      "clip_ratio/high_mean": 0.00020865209080511704,
      "clip_ratio/low_mean": 0.0009519240375084337,
      "clip_ratio/low_min": 0.0009519240375084337,
      "clip_ratio/region_mean": 0.0011605761355895083,
      "entropy": 0.458894819021225,
      "epoch": 0.15670161518843864,
      "grad_norm": 0.3984375,
      "learning_rate": 8.434400680079342e-07,
      "loss": 0.0395,
      "step": 1106,
      "step_time": 2.9666480803862214
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1237.0,
      "completions/max_terminated_length": 1237.0,
      "completions/mean_length": 607.921875,
      "completions/mean_terminated_length": 607.921875,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "entropy": 0.7020202055573463,
      "epoch": 0.15684329838481156,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.7265625,
      "learning_rate": 8.432983848115613e-07,
      "loss": 0.0073,
      "num_tokens": 32499371.0,
      "reward": 1.0,
      "reward_std": 1.098339319229126,
      "rewards/accuracy_reward_func/mean": 0.875,
      "rewards/accuracy_reward_func/std": 1.0,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1107,
      "step_time": 40.29505842272192
    },
    {
      "clip_ratio/high_max": 0.0010989454967784695,
      "clip_ratio/high_mean": 0.0010989454967784695,
      "clip_ratio/low_mean": 0.00025724769511725754,
      "clip_ratio/low_min": 0.00025724769511725754,
      "clip_ratio/region_mean": 0.0013561931773438118,
      "entropy": 0.5495739206671715,
      "epoch": 0.15698498158118449,
      "grad_norm": 0.2119140625,
      "learning_rate": 8.431567016151884e-07,
      "loss": 0.011,
      "step": 1108,
      "step_time": 2.785720626823604
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1244.0,
      "completions/max_terminated_length": 1244.0,
      "completions/mean_length": 851.625,
      "completions/mean_terminated_length": 851.625,
      "completions/min_length": 456.0,
      "completions/min_terminated_length": 456.0,
      "entropy": 0.5978085957467556,
      "epoch": 0.15712666477755738,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.4140625,
      "learning_rate": 8.430150184188155e-07,
      "loss": 0.0245,
      "num_tokens": 32567187.0,
      "reward": 0.1875,
      "reward_std": 0.44986769556999207,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 1109,
      "step_time": 41.17641683854163
    },
    {
      "clip_ratio/high_max": 0.00018784131498250645,
      "clip_ratio/high_mean": 0.00018784131498250645,
      "clip_ratio/low_mean": 0.00012256241461727768,
      "clip_ratio/low_min": 0.00012256241461727768,
      "clip_ratio/region_mean": 0.00031040372959978413,
      "entropy": 0.628438912332058,
      "epoch": 0.1572683479739303,
      "grad_norm": 0.275390625,
      "learning_rate": 8.428733352224426e-07,
      "loss": -0.0175,
      "step": 1110,
      "step_time": 3.046489465981722
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3620.0,
      "completions/max_terminated_length": 3620.0,
      "completions/mean_length": 819.484375,
      "completions/mean_terminated_length": 819.484375,
      "completions/min_length": 15.0,
      "completions/min_terminated_length": 15.0,
      "entropy": 0.6693718023598194,
      "epoch": 0.1574100311703032,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.09765625,
      "learning_rate": 8.427316520260697e-07,
      "loss": -0.058,
      "num_tokens": 32630002.0,
      "reward": 0.109375,
      "reward_std": 0.2083333283662796,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1111,
      "step_time": 137.9145811861381
    },
    {
      "clip_ratio/high_max": 0.00016992904420476407,
      "clip_ratio/high_mean": 0.00016992904420476407,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00016992904420476407,
      "entropy": 0.710074208676815,
      "epoch": 0.15755171436667612,
      "grad_norm": 0.4375,
      "learning_rate": 8.425899688296967e-07,
      "loss": 0.0593,
      "step": 1112,
      "step_time": 6.407460443675518
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1356.0,
      "completions/max_terminated_length": 1356.0,
      "completions/mean_length": 707.5,
      "completions/mean_terminated_length": 707.5,
      "completions/min_length": 14.0,
      "completions/min_terminated_length": 14.0,
      "entropy": 0.6353751048445702,
      "epoch": 0.157693397563049,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2734375,
      "learning_rate": 8.424482856333238e-07,
      "loss": 0.0615,
      "num_tokens": 32684594.0,
      "reward": 0.3359375,
      "reward_std": 0.7403060793876648,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1113,
      "step_time": 44.626594978384674
    },
    {
      "clip_ratio/high_max": 0.0001383967901347205,
      "clip_ratio/high_mean": 0.0001383967901347205,
      "clip_ratio/low_mean": 0.00016046749078668654,
      "clip_ratio/low_min": 0.00016046749078668654,
      "clip_ratio/region_mean": 0.00029886428092140704,
      "entropy": 0.6954738423228264,
      "epoch": 0.15783508075942193,
      "grad_norm": 0.412109375,
      "learning_rate": 8.423066024369509e-07,
      "loss": -0.0457,
      "step": 1114,
      "step_time": 2.9139849664643407
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1109.0,
      "completions/max_terminated_length": 1109.0,
      "completions/mean_length": 688.359375,
      "completions/mean_terminated_length": 688.359375,
      "completions/min_length": 337.0,
      "completions/min_terminated_length": 337.0,
      "entropy": 1.0403566658496857,
      "epoch": 0.15797676395579485,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.74609375,
      "learning_rate": 8.42164919240578e-07,
      "loss": 0.0137,
      "num_tokens": 32738521.0,
      "reward": 0.171875,
      "reward_std": 0.3905505836009979,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1115,
      "step_time": 37.30964088626206
    },
    {
      "clip_ratio/high_max": 0.00039335938345175236,
      "clip_ratio/high_mean": 0.00039335938345175236,
      "clip_ratio/low_mean": 0.0002863992012862582,
      "clip_ratio/low_min": 0.0002863992012862582,
      "clip_ratio/region_mean": 0.0006797585774620529,
      "entropy": 0.8910915218293667,
      "epoch": 0.15811844715216775,
      "grad_norm": 0.1962890625,
      "learning_rate": 8.420232360442051e-07,
      "loss": 0.0112,
      "step": 1116,
      "step_time": 2.633797572925687
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1816.0,
      "completions/max_terminated_length": 1816.0,
      "completions/mean_length": 836.453125,
      "completions/mean_terminated_length": 836.453125,
      "completions/min_length": 356.0,
      "completions/min_terminated_length": 356.0,
      "entropy": 0.6166085004806519,
      "epoch": 0.15826013034854067,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 8.418815528478323e-07,
      "loss": 0.0,
      "num_tokens": 32801750.0,
      "reward": 0.125,
      "reward_std": 0.2182178944349289,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1117,
      "step_time": 60.53495681285858
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.7685667127370834,
      "epoch": 0.15840181354491356,
      "grad_norm": 0.0,
      "learning_rate": 8.417398696514593e-07,
      "loss": 0.0,
      "step": 1118,
      "step_time": 3.5842431439086795
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 3561.0,
      "completions/mean_length": 778.75,
      "completions/mean_terminated_length": 726.0952758789062,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "entropy": 0.9973127618432045,
      "epoch": 0.15854349674128648,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.49609375,
      "learning_rate": 8.415981864550865e-07,
      "loss": 0.1458,
      "num_tokens": 32860678.0,
      "reward": 0.390625,
      "reward_std": 0.6870037913322449,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1119,
      "step_time": 163.42480386327952
    },
    {
      "clip_ratio/high_max": 0.0006612345387111418,
      "clip_ratio/high_mean": 0.0006612345387111418,
      "clip_ratio/low_mean": 9.597986718290485e-05,
      "clip_ratio/low_min": 9.597986718290485e-05,
      "clip_ratio/region_mean": 0.0007572144095320255,
      "entropy": 1.0153183117508888,
      "epoch": 0.1586851799376594,
      "grad_norm": 0.59375,
      "learning_rate": 8.414565032587134e-07,
      "loss": -0.1098,
      "step": 1120,
      "step_time": 7.05928741581738
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1258.0,
      "completions/max_terminated_length": 1258.0,
      "completions/mean_length": 740.671875,
      "completions/mean_terminated_length": 740.671875,
      "completions/min_length": 337.0,
      "completions/min_terminated_length": 337.0,
      "entropy": 0.633635587990284,
      "epoch": 0.1588268631340323,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.578125,
      "learning_rate": 8.413148200623405e-07,
      "loss": 0.0906,
      "num_tokens": 32917105.0,
      "reward": 0.359375,
      "reward_std": 0.6574888825416565,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1121,
      "step_time": 41.38725432660431
    },
    {
      "clip_ratio/high_max": 0.00026337366580264643,
      "clip_ratio/high_mean": 0.00026337366580264643,
      "clip_ratio/low_mean": 0.00025436427677050233,
      "clip_ratio/low_min": 0.00025436427677050233,
      "clip_ratio/region_mean": 0.0005177379352971911,
      "entropy": 0.59626504778862,
      "epoch": 0.15896854633040522,
      "grad_norm": 0.416015625,
      "learning_rate": 8.411731368659677e-07,
      "loss": -0.0655,
      "step": 1122,
      "step_time": 2.768158532679081
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1563.0,
      "completions/max_terminated_length": 1563.0,
      "completions/mean_length": 776.078125,
      "completions/mean_terminated_length": 776.078125,
      "completions/min_length": 326.0,
      "completions/min_terminated_length": 326.0,
      "entropy": 0.5654306337237358,
      "epoch": 0.1591102295267781,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.396484375,
      "learning_rate": 8.410314536695947e-07,
      "loss": -0.0835,
      "num_tokens": 32978022.0,
      "reward": 0.5,
      "reward_std": 0.7559289336204529,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1123,
      "step_time": 52.49802341405302
    },
    {
      "clip_ratio/high_max": 0.0002125841965607833,
      "clip_ratio/high_mean": 0.0002125841965607833,
      "clip_ratio/low_mean": 0.00023016068371362053,
      "clip_ratio/low_min": 0.00023016068371362053,
      "clip_ratio/region_mean": 0.00044274488755036145,
      "entropy": 0.5989751666784286,
      "epoch": 0.15925191272315103,
      "grad_norm": 0.52734375,
      "learning_rate": 8.408897704732219e-07,
      "loss": 0.0587,
      "step": 1124,
      "step_time": 3.548686195164919
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1344.0,
      "completions/max_terminated_length": 1344.0,
      "completions/mean_length": 859.3125,
      "completions/mean_terminated_length": 859.3125,
      "completions/min_length": 361.0,
      "completions/min_terminated_length": 361.0,
      "entropy": 0.5688401386141777,
      "epoch": 0.15939359591952396,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.365234375,
      "learning_rate": 8.40748087276849e-07,
      "loss": 0.0083,
      "num_tokens": 33042858.0,
      "reward": 0.4296875,
      "reward_std": 0.7961573600769043,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1125,
      "step_time": 44.137525426223874
    },
    {
      "clip_ratio/high_max": 0.0004022538778372109,
      "clip_ratio/high_mean": 0.0004022538778372109,
      "clip_ratio/low_mean": 0.0003306985781819094,
      "clip_ratio/low_min": 0.0003306985781819094,
      "clip_ratio/region_mean": 0.0007329524560191203,
      "entropy": 0.5944279097020626,
      "epoch": 0.15953527911589685,
      "grad_norm": 0.455078125,
      "learning_rate": 8.406064040804761e-07,
      "loss": -0.0094,
      "step": 1126,
      "step_time": 2.945127012208104
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1253.0,
      "completions/max_terminated_length": 1253.0,
      "completions/mean_length": 694.84375,
      "completions/mean_terminated_length": 694.84375,
      "completions/min_length": 254.0,
      "completions/min_terminated_length": 254.0,
      "entropy": 0.6336836069822311,
      "epoch": 0.15967696231226977,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.435546875,
      "learning_rate": 8.404647208841031e-07,
      "loss": 0.0174,
      "num_tokens": 33097728.0,
      "reward": 0.46875,
      "reward_std": 0.7339553236961365,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1127,
      "step_time": 40.839456534944475
    },
    {
      "clip_ratio/high_max": 0.00029433022064040415,
      "clip_ratio/high_mean": 0.00029433022064040415,
      "clip_ratio/low_mean": 0.00022839651137473993,
      "clip_ratio/low_min": 0.00022839651137473993,
      "clip_ratio/region_mean": 0.0005227267320151441,
      "entropy": 0.6586252003908157,
      "epoch": 0.15981864550864266,
      "grad_norm": 0.390625,
      "learning_rate": 8.403230376877301e-07,
      "loss": -0.0294,
      "step": 1128,
      "step_time": 2.984530182555318
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1317.0,
      "completions/max_terminated_length": 1317.0,
      "completions/mean_length": 598.75,
      "completions/mean_terminated_length": 598.75,
      "completions/min_length": 5.0,
      "completions/min_terminated_length": 5.0,
      "entropy": 0.5766382645815611,
      "epoch": 0.1599603287050156,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5078125,
      "learning_rate": 8.401813544913573e-07,
      "loss": 0.0008,
      "num_tokens": 33151696.0,
      "reward": 0.59375,
      "reward_std": 0.9380620121955872,
      "rewards/accuracy_reward_func/mean": 0.46875,
      "rewards/accuracy_reward_func/std": 0.8539125919342041,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1129,
      "step_time": 43.55431638471782
    },
    {
      "clip_ratio/high_max": 4.2589439544826746e-05,
      "clip_ratio/high_mean": 4.2589439544826746e-05,
      "clip_ratio/low_mean": 0.0007542508174083196,
      "clip_ratio/low_min": 0.0007542508174083196,
      "clip_ratio/region_mean": 0.0007968402569531463,
      "entropy": 0.6107852756977081,
      "epoch": 0.1601020119013885,
      "grad_norm": 0.48828125,
      "learning_rate": 8.400396712949844e-07,
      "loss": -0.0415,
      "step": 1130,
      "step_time": 3.045610038563609
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1330.0,
      "completions/max_terminated_length": 1330.0,
      "completions/mean_length": 706.28125,
      "completions/mean_terminated_length": 706.28125,
      "completions/min_length": 289.0,
      "completions/min_terminated_length": 289.0,
      "entropy": 0.6157058477401733,
      "epoch": 0.1602436950977614,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.330078125,
      "learning_rate": 8.398979880986115e-07,
      "loss": -0.0522,
      "num_tokens": 33205970.0,
      "reward": 0.3671875,
      "reward_std": 0.6561200618743896,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1131,
      "step_time": 43.040534724481404
    },
    {
      "clip_ratio/high_max": 0.00029967731825308874,
      "clip_ratio/high_mean": 0.00029967731825308874,
      "clip_ratio/low_mean": 0.00020886882339254953,
      "clip_ratio/low_min": 0.00020886882339254953,
      "clip_ratio/region_mean": 0.0005085461307317019,
      "entropy": 0.5892051421105862,
      "epoch": 0.16038537829413432,
      "grad_norm": 0.58984375,
      "learning_rate": 8.397563049022386e-07,
      "loss": 0.0256,
      "step": 1132,
      "step_time": 3.015419720672071
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2237.0,
      "completions/max_terminated_length": 2237.0,
      "completions/mean_length": 804.578125,
      "completions/mean_terminated_length": 804.578125,
      "completions/min_length": 249.0,
      "completions/min_terminated_length": 249.0,
      "entropy": 0.741277415305376,
      "epoch": 0.16052706149050722,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.470703125,
      "learning_rate": 8.396146217058657e-07,
      "loss": -0.0565,
      "num_tokens": 33267447.0,
      "reward": 0.203125,
      "reward_std": 0.48565736413002014,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1133,
      "step_time": 75.2301788078621
    },
    {
      "clip_ratio/high_max": 7.77846944401972e-05,
      "clip_ratio/high_mean": 7.77846944401972e-05,
      "clip_ratio/low_mean": 0.0005439103842945769,
      "clip_ratio/low_min": 0.0005439103842945769,
      "clip_ratio/region_mean": 0.0006216950750967953,
      "entropy": 0.8163547851145267,
      "epoch": 0.16066874468688014,
      "grad_norm": 0.328125,
      "learning_rate": 8.394729385094927e-07,
      "loss": 0.0354,
      "step": 1134,
      "step_time": 4.288983364589512
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1409.0,
      "completions/max_terminated_length": 1409.0,
      "completions/mean_length": 630.703125,
      "completions/mean_terminated_length": 630.703125,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "entropy": 0.8700883388519287,
      "epoch": 0.16081042788325306,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.4296875,
      "learning_rate": 8.393312553131198e-07,
      "loss": 0.0556,
      "num_tokens": 33317268.0,
      "reward": 0.828125,
      "reward_std": 0.9395149946212769,
      "rewards/accuracy_reward_func/mean": 0.71875,
      "rewards/accuracy_reward_func/std": 0.9672207236289978,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1135,
      "step_time": 46.20900919474661
    },
    {
      "clip_ratio/high_max": 0.0006570595578523353,
      "clip_ratio/high_mean": 0.0006570595578523353,
      "clip_ratio/low_mean": 0.00016888310710783117,
      "clip_ratio/low_min": 0.00016888310710783117,
      "clip_ratio/region_mean": 0.0008259426685981452,
      "entropy": 0.76995063200593,
      "epoch": 0.16095211107962595,
      "grad_norm": 0.67578125,
      "learning_rate": 8.391895721167469e-07,
      "loss": -0.0571,
      "step": 1136,
      "step_time": 3.2185434261336923
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1465.0,
      "completions/max_terminated_length": 1465.0,
      "completions/mean_length": 702.578125,
      "completions/mean_terminated_length": 702.578125,
      "completions/min_length": 39.0,
      "completions/min_terminated_length": 39.0,
      "entropy": 0.5211323611438274,
      "epoch": 0.16109379427599888,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.55078125,
      "learning_rate": 8.39047888920374e-07,
      "loss": 0.1161,
      "num_tokens": 33372713.0,
      "reward": 0.6953125,
      "reward_std": 0.8756729364395142,
      "rewards/accuracy_reward_func/mean": 0.59375,
      "rewards/accuracy_reward_func/std": 0.9209855198860168,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1137,
      "step_time": 48.13026832230389
    },
    {
      "clip_ratio/high_max": 0.0007595641109219287,
      "clip_ratio/high_mean": 0.0007595641109219287,
      "clip_ratio/low_mean": 0.0003375818851054646,
      "clip_ratio/low_min": 0.0003375818851054646,
      "clip_ratio/region_mean": 0.001097145999665372,
      "entropy": 0.42593130096793175,
      "epoch": 0.16123547747237177,
      "grad_norm": 0.58984375,
      "learning_rate": 8.389062057240011e-07,
      "loss": -0.0688,
      "step": 1138,
      "step_time": 3.1791679253801703
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1232.0,
      "completions/max_terminated_length": 1232.0,
      "completions/mean_length": 667.765625,
      "completions/mean_terminated_length": 667.765625,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "entropy": 0.8257132098078728,
      "epoch": 0.1613771606687447,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.625,
      "learning_rate": 8.387645225276282e-07,
      "loss": 0.0295,
      "num_tokens": 33425226.0,
      "reward": 0.453125,
      "reward_std": 0.7385031580924988,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1139,
      "step_time": 40.09689440857619
    },
    {
      "clip_ratio/high_max": 0.000518001561431447,
      "clip_ratio/high_mean": 0.000518001561431447,
      "clip_ratio/low_mean": 0.00023175220485427417,
      "clip_ratio/low_min": 0.00023175220485427417,
      "clip_ratio/region_mean": 0.000749753751733806,
      "entropy": 0.7093327641487122,
      "epoch": 0.16151884386511758,
      "grad_norm": 0.4609375,
      "learning_rate": 8.386228393312554e-07,
      "loss": -0.0695,
      "step": 1140,
      "step_time": 2.7538342010229826
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1114.0,
      "completions/max_terminated_length": 1114.0,
      "completions/mean_length": 690.140625,
      "completions/mean_terminated_length": 690.140625,
      "completions/min_length": 249.0,
      "completions/min_terminated_length": 249.0,
      "entropy": 0.8709456697106361,
      "epoch": 0.1616605270614905,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.267578125,
      "learning_rate": 8.384811561348823e-07,
      "loss": -0.031,
      "num_tokens": 33479171.0,
      "reward": 0.3359375,
      "reward_std": 0.6239574551582336,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1141,
      "step_time": 36.3678232608363
    },
    {
      "clip_ratio/high_max": 0.0005155552134965546,
      "clip_ratio/high_mean": 0.0005155552134965546,
      "clip_ratio/low_mean": 8.576412074035034e-05,
      "clip_ratio/low_min": 8.576412074035034e-05,
      "clip_ratio/region_mean": 0.000601319334236905,
      "entropy": 0.9295438602566719,
      "epoch": 0.16180221025786343,
      "grad_norm": 0.58203125,
      "learning_rate": 8.383394729385095e-07,
      "loss": 0.0222,
      "step": 1142,
      "step_time": 2.555754257366061
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1432.0,
      "completions/max_terminated_length": 1432.0,
      "completions/mean_length": 687.578125,
      "completions/mean_terminated_length": 687.578125,
      "completions/min_length": 433.0,
      "completions/min_terminated_length": 433.0,
      "entropy": 1.0498329475522041,
      "epoch": 0.16194389345423632,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.35546875,
      "learning_rate": 8.381977897421365e-07,
      "loss": 0.0299,
      "num_tokens": 33534952.0,
      "reward": 0.390625,
      "reward_std": 0.6870037913322449,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1143,
      "step_time": 47.04512248001993
    },
    {
      "clip_ratio/high_max": 0.00018323600670555606,
      "clip_ratio/high_mean": 0.00018323600670555606,
      "clip_ratio/low_mean": 0.0002374149698880501,
      "clip_ratio/low_min": 0.0002374149698880501,
      "clip_ratio/region_mean": 0.0004206509765936062,
      "entropy": 0.9353771880269051,
      "epoch": 0.16208557665060924,
      "grad_norm": 0.4609375,
      "learning_rate": 8.380561065457636e-07,
      "loss": -0.0384,
      "step": 1144,
      "step_time": 3.1426091007888317
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2498.0,
      "completions/max_terminated_length": 2498.0,
      "completions/mean_length": 818.078125,
      "completions/mean_terminated_length": 818.078125,
      "completions/min_length": 381.0,
      "completions/min_terminated_length": 381.0,
      "entropy": 0.6982718519866467,
      "epoch": 0.16222725984698214,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.48828125,
      "learning_rate": 8.379144233493908e-07,
      "loss": -0.0607,
      "num_tokens": 33600157.0,
      "reward": 0.5859375,
      "reward_std": 0.9409328699111938,
      "rewards/accuracy_reward_func/mean": 0.46875,
      "rewards/accuracy_reward_func/std": 0.8539125919342041,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1145,
      "step_time": 86.46115677803755
    },
    {
      "clip_ratio/high_max": 0.00012625252566067502,
      "clip_ratio/high_mean": 0.00012625252566067502,
      "clip_ratio/low_mean": 0.0005252272003417602,
      "clip_ratio/low_min": 0.0005252272003417602,
      "clip_ratio/region_mean": 0.0006514797260024352,
      "entropy": 0.7052740640938282,
      "epoch": 0.16236894304335506,
      "grad_norm": 0.412109375,
      "learning_rate": 8.377727401530178e-07,
      "loss": 0.0589,
      "step": 1146,
      "step_time": 4.773989585228264
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1228.0,
      "completions/max_terminated_length": 1228.0,
      "completions/mean_length": 759.234375,
      "completions/mean_terminated_length": 759.234375,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "entropy": 1.1197869777679443,
      "epoch": 0.16251062623972798,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.09716796875,
      "learning_rate": 8.37631056956645e-07,
      "loss": 0.036,
      "num_tokens": 33657420.0,
      "reward": 0.1875,
      "reward_std": 0.39339789748191833,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1147,
      "step_time": 40.27938815578818
    },
    {
      "clip_ratio/high_max": 4.177807568339631e-05,
      "clip_ratio/high_mean": 4.177807568339631e-05,
      "clip_ratio/low_mean": 8.238443115260452e-05,
      "clip_ratio/low_min": 8.238443115260452e-05,
      "clip_ratio/region_mean": 0.00012416250683600083,
      "entropy": 0.868184357881546,
      "epoch": 0.16265230943610087,
      "grad_norm": 0.3046875,
      "learning_rate": 8.374893737602719e-07,
      "loss": -0.0464,
      "step": 1148,
      "step_time": 2.727346019819379
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1424.0,
      "completions/max_terminated_length": 1424.0,
      "completions/mean_length": 843.796875,
      "completions/mean_terminated_length": 843.796875,
      "completions/min_length": 366.0,
      "completions/min_terminated_length": 366.0,
      "entropy": 0.7401244528591633,
      "epoch": 0.1627939926324738,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.462890625,
      "learning_rate": 8.373476905638991e-07,
      "loss": 0.0287,
      "num_tokens": 33724159.0,
      "reward": 0.1171875,
      "reward_std": 0.21347814798355103,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1149,
      "step_time": 47.09659746475518
    },
    {
      "clip_ratio/high_max": 0.00011656282731564716,
      "clip_ratio/high_mean": 0.00011656282731564716,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00011656282731564716,
      "entropy": 0.766873225569725,
      "epoch": 0.1629356758288467,
      "grad_norm": 0.052978515625,
      "learning_rate": 8.372060073675262e-07,
      "loss": -0.0185,
      "step": 1150,
      "step_time": 3.3280022647231817
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1697.0,
      "completions/max_terminated_length": 1697.0,
      "completions/mean_length": 951.796875,
      "completions/mean_terminated_length": 951.796875,
      "completions/min_length": 374.0,
      "completions/min_terminated_length": 374.0,
      "entropy": 0.5031588785350323,
      "epoch": 0.1630773590252196,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.4921875,
      "learning_rate": 8.370643241711532e-07,
      "loss": 0.0211,
      "num_tokens": 33795698.0,
      "reward": 0.203125,
      "reward_std": 0.4517931640148163,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1151,
      "step_time": 56.79745360836387
    },
    {
      "clip_ratio/high_max": 0.00016016068548196927,
      "clip_ratio/high_mean": 0.00016016068548196927,
      "clip_ratio/low_mean": 0.0003869664196827216,
      "clip_ratio/low_min": 0.0003869664196827216,
      "clip_ratio/region_mean": 0.0005471271051646909,
      "entropy": 0.5644862428307533,
      "epoch": 0.16321904222159253,
      "grad_norm": 0.39453125,
      "learning_rate": 8.369226409747804e-07,
      "loss": 0.0116,
      "step": 1152,
      "step_time": 3.5350988870486617
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1758.0,
      "completions/max_terminated_length": 1758.0,
      "completions/mean_length": 759.015625,
      "completions/mean_terminated_length": 759.015625,
      "completions/min_length": 345.0,
      "completions/min_terminated_length": 345.0,
      "entropy": 0.6985398717224598,
      "epoch": 0.16336072541796542,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.59375,
      "learning_rate": 8.367809577784074e-07,
      "loss": -0.1385,
      "num_tokens": 33855219.0,
      "reward": 0.1875,
      "reward_std": 0.39339789748191833,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1153,
      "step_time": 58.6466282857582
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0003572300192900002,
      "clip_ratio/low_min": 0.0003572300192900002,
      "clip_ratio/region_mean": 0.0003572300192900002,
      "entropy": 0.6921946071088314,
      "epoch": 0.16350240861433835,
      "grad_norm": 0.1376953125,
      "learning_rate": 8.366392745820346e-07,
      "loss": 0.0667,
      "step": 1154,
      "step_time": 3.7175167556852102
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1363.0,
      "completions/max_terminated_length": 1363.0,
      "completions/mean_length": 723.5625,
      "completions/mean_terminated_length": 723.5625,
      "completions/min_length": 322.0,
      "completions/min_terminated_length": 322.0,
      "entropy": 0.9202484712004662,
      "epoch": 0.16364409181071124,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.07177734375,
      "learning_rate": 8.364975913856616e-07,
      "loss": -0.0239,
      "num_tokens": 33911831.0,
      "reward": 0.1171875,
      "reward_std": 0.21347814798355103,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1155,
      "step_time": 44.97611212357879
    },
    {
      "clip_ratio/high_max": 0.00024422494243481196,
      "clip_ratio/high_mean": 0.00024422494243481196,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00024422494243481196,
      "entropy": 0.7630265355110168,
      "epoch": 0.16378577500708416,
      "grad_norm": 0.41796875,
      "learning_rate": 8.363559081892887e-07,
      "loss": 0.0173,
      "step": 1156,
      "step_time": 2.9365067798644304
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1337.0,
      "completions/max_terminated_length": 1337.0,
      "completions/mean_length": 676.890625,
      "completions/mean_terminated_length": 676.890625,
      "completions/min_length": 13.0,
      "completions/min_terminated_length": 13.0,
      "entropy": 0.6264113560318947,
      "epoch": 0.16392745820345708,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.40234375,
      "learning_rate": 8.362142249929158e-07,
      "loss": -0.0778,
      "num_tokens": 33965184.0,
      "reward": 0.1796875,
      "reward_std": 0.3920558989048004,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1157,
      "step_time": 43.70840132050216
    },
    {
      "clip_ratio/high_max": 0.0002746265090536326,
      "clip_ratio/high_mean": 0.0002746265090536326,
      "clip_ratio/low_mean": 0.00044173690548632294,
      "clip_ratio/low_min": 0.00044173690548632294,
      "clip_ratio/region_mean": 0.0007163634145399556,
      "entropy": 0.743542306125164,
      "epoch": 0.16406914139982998,
      "grad_norm": 0.498046875,
      "learning_rate": 8.360725417965428e-07,
      "loss": 0.051,
      "step": 1158,
      "step_time": 3.0557107385247946
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1261.0,
      "completions/max_terminated_length": 1261.0,
      "completions/mean_length": 643.953125,
      "completions/mean_terminated_length": 643.953125,
      "completions/min_length": 298.0,
      "completions/min_terminated_length": 298.0,
      "entropy": 0.9832894578576088,
      "epoch": 0.1642108245962029,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.76171875,
      "learning_rate": 8.3593085860017e-07,
      "loss": 0.0318,
      "num_tokens": 34016909.0,
      "reward": 0.4296875,
      "reward_std": 0.7119567394256592,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1159,
      "step_time": 41.150071053765714
    },
    {
      "clip_ratio/high_max": 0.0006566406773345079,
      "clip_ratio/high_mean": 0.0006566406773345079,
      "clip_ratio/low_mean": 0.00013044977458775975,
      "clip_ratio/low_min": 0.00013044977458775975,
      "clip_ratio/region_mean": 0.0007870904555602465,
      "entropy": 1.0522330924868584,
      "epoch": 0.1643525077925758,
      "grad_norm": 0.50390625,
      "learning_rate": 8.357891754037971e-07,
      "loss": -0.003,
      "step": 1160,
      "step_time": 2.8112721294164658
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1389.0,
      "completions/max_terminated_length": 1389.0,
      "completions/mean_length": 660.34375,
      "completions/mean_terminated_length": 660.34375,
      "completions/min_length": 281.0,
      "completions/min_terminated_length": 281.0,
      "entropy": 0.8012627065181732,
      "epoch": 0.1644941909889487,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.4609375,
      "learning_rate": 8.356474922074242e-07,
      "loss": 0.0534,
      "num_tokens": 34069555.0,
      "reward": 0.140625,
      "reward_std": 0.3145764470100403,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1161,
      "step_time": 45.219147871248424
    },
    {
      "clip_ratio/high_max": 0.0002803584866342135,
      "clip_ratio/high_mean": 0.0002803584866342135,
      "clip_ratio/low_mean": 0.00044937328857486136,
      "clip_ratio/low_min": 0.00044937328857486136,
      "clip_ratio/region_mean": 0.0007297317752090748,
      "entropy": 0.8910257779061794,
      "epoch": 0.16463587418532163,
      "grad_norm": 0.333984375,
      "learning_rate": 8.355058090110512e-07,
      "loss": -0.0637,
      "step": 1162,
      "step_time": 2.9782493198290467
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1554.0,
      "completions/max_terminated_length": 1554.0,
      "completions/mean_length": 782.953125,
      "completions/mean_terminated_length": 782.953125,
      "completions/min_length": 383.0,
      "completions/min_terminated_length": 383.0,
      "entropy": 0.7171084508299828,
      "epoch": 0.16477755738169453,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.251953125,
      "learning_rate": 8.353641258146783e-07,
      "loss": -0.0059,
      "num_tokens": 34132624.0,
      "reward": 0.09375,
      "reward_std": 0.19669894874095917,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 1163,
      "step_time": 51.977005649358034
    },
    {
      "clip_ratio/high_max": 0.0001426254166290164,
      "clip_ratio/high_mean": 0.0001426254166290164,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0001426254166290164,
      "entropy": 0.8493845909833908,
      "epoch": 0.16491924057806745,
      "grad_norm": 0.2421875,
      "learning_rate": 8.352224426183054e-07,
      "loss": 0.0089,
      "step": 1164,
      "step_time": 3.4785800855606794
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1206.0,
      "completions/max_terminated_length": 1206.0,
      "completions/mean_length": 596.015625,
      "completions/mean_terminated_length": 596.015625,
      "completions/min_length": 2.0,
      "completions/min_terminated_length": 2.0,
      "entropy": 1.0067718997597694,
      "epoch": 0.16506092377444034,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.302734375,
      "learning_rate": 8.350807594219326e-07,
      "loss": 0.0041,
      "num_tokens": 34183569.0,
      "reward": 0.1796875,
      "reward_std": 0.46604710817337036,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1165,
      "step_time": 39.51151025574654
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00026812038049683906,
      "clip_ratio/low_min": 0.00026812038049683906,
      "clip_ratio/region_mean": 0.00026812038049683906,
      "entropy": 0.9141373932361603,
      "epoch": 0.16520260697081326,
      "grad_norm": 0.291015625,
      "learning_rate": 8.349390762255596e-07,
      "loss": -0.0229,
      "step": 1166,
      "step_time": 2.8114951429888606
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2347.0,
      "completions/max_terminated_length": 2347.0,
      "completions/mean_length": 771.96875,
      "completions/mean_terminated_length": 771.96875,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "entropy": 0.8787951022386551,
      "epoch": 0.16534429016718616,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.40625,
      "learning_rate": 8.347973930291867e-07,
      "loss": -0.0543,
      "num_tokens": 34249151.0,
      "reward": 0.2109375,
      "reward_std": 0.4863590598106384,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1167,
      "step_time": 82.29323390312493
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00023501608302467503,
      "clip_ratio/low_min": 0.00023501608302467503,
      "clip_ratio/region_mean": 0.00023501608302467503,
      "entropy": 0.8540936820209026,
      "epoch": 0.16548597336355908,
      "grad_norm": 0.1337890625,
      "learning_rate": 8.346557098328138e-07,
      "loss": 0.0633,
      "step": 1168,
      "step_time": 4.832777510397136
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1105.0,
      "completions/max_terminated_length": 1105.0,
      "completions/mean_length": 726.390625,
      "completions/mean_terminated_length": 726.390625,
      "completions/min_length": 378.0,
      "completions/min_terminated_length": 378.0,
      "entropy": 0.9131312444806099,
      "epoch": 0.165627656559932,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.57421875,
      "learning_rate": 8.345140266364409e-07,
      "loss": 0.0326,
      "num_tokens": 34308328.0,
      "reward": 0.2421875,
      "reward_std": 0.503891110420227,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1169,
      "step_time": 36.62544724904001
    },
    {
      "clip_ratio/high_max": 0.0004378317898954265,
      "clip_ratio/high_mean": 0.0004378317898954265,
      "clip_ratio/low_mean": 0.00023678928482695483,
      "clip_ratio/low_min": 0.00023678928482695483,
      "clip_ratio/region_mean": 0.0006746210638084449,
      "entropy": 0.9836965948343277,
      "epoch": 0.1657693397563049,
      "grad_norm": 0.341796875,
      "learning_rate": 8.34372343440068e-07,
      "loss": -0.0317,
      "step": 1170,
      "step_time": 2.6855124942958355
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1229.0,
      "completions/max_terminated_length": 1229.0,
      "completions/mean_length": 552.21875,
      "completions/mean_terminated_length": 552.21875,
      "completions/min_length": 10.0,
      "completions/min_terminated_length": 10.0,
      "entropy": 0.7884940356016159,
      "epoch": 0.16591102295267782,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.74609375,
      "learning_rate": 8.34230660243695e-07,
      "loss": 0.0043,
      "num_tokens": 34353094.0,
      "reward": 0.515625,
      "reward_std": 0.8211913108825684,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1171,
      "step_time": 40.032942741177976
    },
    {
      "clip_ratio/high_max": 0.00014731880219187587,
      "clip_ratio/high_mean": 0.00014731880219187587,
      "clip_ratio/low_mean": 0.0006768205239495728,
      "clip_ratio/low_min": 0.0006768205239495728,
      "clip_ratio/region_mean": 0.0008241393188654911,
      "entropy": 0.6369168236851692,
      "epoch": 0.1660527061490507,
      "grad_norm": 0.6015625,
      "learning_rate": 8.340889770473222e-07,
      "loss": 0.0254,
      "step": 1172,
      "step_time": 2.6998851178213954
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1953.0,
      "completions/max_terminated_length": 1953.0,
      "completions/mean_length": 845.765625,
      "completions/mean_terminated_length": 845.765625,
      "completions/min_length": 368.0,
      "completions/min_terminated_length": 368.0,
      "entropy": 0.9642196223139763,
      "epoch": 0.16619438934542363,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.251953125,
      "learning_rate": 8.339472938509492e-07,
      "loss": -0.0199,
      "num_tokens": 34420983.0,
      "reward": 0.1015625,
      "reward_std": 0.20275263488292694,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1173,
      "step_time": 64.90593048743904
    },
    {
      "clip_ratio/high_max": 0.000314474764309125,
      "clip_ratio/high_mean": 0.000314474764309125,
      "clip_ratio/low_mean": 7.018529140623286e-05,
      "clip_ratio/low_min": 7.018529140623286e-05,
      "clip_ratio/region_mean": 0.0003846600557153579,
      "entropy": 0.9275910779833794,
      "epoch": 0.16633607254179655,
      "grad_norm": 0.341796875,
      "learning_rate": 8.338056106545764e-07,
      "loss": -0.0154,
      "step": 1174,
      "step_time": 3.920922073535621
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1458.0,
      "completions/max_terminated_length": 1458.0,
      "completions/mean_length": 783.5625,
      "completions/mean_terminated_length": 783.5625,
      "completions/min_length": 6.0,
      "completions/min_terminated_length": 6.0,
      "entropy": 0.4884253591299057,
      "epoch": 0.16647775573816945,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.40234375,
      "learning_rate": 8.336639274582035e-07,
      "loss": 0.0302,
      "num_tokens": 34483067.0,
      "reward": 0.4609375,
      "reward_std": 0.7983350157737732,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1175,
      "step_time": 48.164720084518194
    },
    {
      "clip_ratio/high_max": 0.000280832760836347,
      "clip_ratio/high_mean": 0.000280832760836347,
      "clip_ratio/low_mean": 0.0003589720909076277,
      "clip_ratio/low_min": 0.0003589720909076277,
      "clip_ratio/region_mean": 0.0006398048481059959,
      "entropy": 0.5138030834496021,
      "epoch": 0.16661943893454237,
      "grad_norm": 0.45703125,
      "learning_rate": 8.335222442618305e-07,
      "loss": -0.0192,
      "step": 1176,
      "step_time": 3.460496462881565
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1507.0,
      "completions/max_terminated_length": 1507.0,
      "completions/mean_length": 652.46875,
      "completions/mean_terminated_length": 652.46875,
      "completions/min_length": 250.0,
      "completions/min_terminated_length": 250.0,
      "entropy": 0.7378649711608887,
      "epoch": 0.16676112213091526,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.47265625,
      "learning_rate": 8.333805610654576e-07,
      "loss": 0.0159,
      "num_tokens": 34536649.0,
      "reward": 0.4921875,
      "reward_std": 0.7585083246231079,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1177,
      "step_time": 49.6305412305519
    },
    {
      "clip_ratio/high_max": 0.0005783550077467225,
      "clip_ratio/high_mean": 0.0005783550077467225,
      "clip_ratio/low_mean": 0.0004875890736002475,
      "clip_ratio/low_min": 0.0004875890736002475,
      "clip_ratio/region_mean": 0.00106594408134697,
      "entropy": 0.6611392349004745,
      "epoch": 0.16690280532728818,
      "grad_norm": 0.59375,
      "learning_rate": 8.332388778690846e-07,
      "loss": -0.0101,
      "step": 1178,
      "step_time": 3.2798238191753626
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1718.0,
      "completions/max_terminated_length": 1718.0,
      "completions/mean_length": 743.359375,
      "completions/mean_terminated_length": 743.359375,
      "completions/min_length": 305.0,
      "completions/min_terminated_length": 305.0,
      "entropy": 0.6358686946332455,
      "epoch": 0.1670444885236611,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5625,
      "learning_rate": 8.330971946727118e-07,
      "loss": -0.1536,
      "num_tokens": 34594272.0,
      "reward": 0.4375,
      "reward_std": 0.7099072337150574,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1179,
      "step_time": 56.51334898453206
    },
    {
      "clip_ratio/high_max": 9.681033770903014e-05,
      "clip_ratio/high_mean": 9.681033770903014e-05,
      "clip_ratio/low_mean": 0.0002827301650540903,
      "clip_ratio/low_min": 0.0002827301650540903,
      "clip_ratio/region_mean": 0.00037954050276312046,
      "entropy": 0.6111481823027134,
      "epoch": 0.167186171720034,
      "grad_norm": 0.302734375,
      "learning_rate": 8.329555114763389e-07,
      "loss": 0.077,
      "step": 1180,
      "step_time": 3.786121480166912
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1041.0,
      "completions/max_terminated_length": 1041.0,
      "completions/mean_length": 655.21875,
      "completions/mean_terminated_length": 655.21875,
      "completions/min_length": 355.0,
      "completions/min_terminated_length": 355.0,
      "entropy": 0.6622022278606892,
      "epoch": 0.16732785491640692,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.515625,
      "learning_rate": 8.32813828279966e-07,
      "loss": -0.0,
      "num_tokens": 34647470.0,
      "reward": 0.609375,
      "reward_std": 0.8331844806671143,
      "rewards/accuracy_reward_func/mean": 0.5,
      "rewards/accuracy_reward_func/std": 0.8728715777397156,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1181,
      "step_time": 34.95724165253341
    },
    {
      "clip_ratio/high_max": 0.00070032471921877,
      "clip_ratio/high_mean": 0.00070032471921877,
      "clip_ratio/low_mean": 0.00015359290409833193,
      "clip_ratio/low_min": 0.00015359290409833193,
      "clip_ratio/region_mean": 0.000853917623317102,
      "entropy": 0.7042422369122505,
      "epoch": 0.16746953811277981,
      "grad_norm": 0.53515625,
      "learning_rate": 8.326721450835931e-07,
      "loss": 0.0054,
      "step": 1182,
      "step_time": 2.5198867293074727
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1443.0,
      "completions/max_terminated_length": 1443.0,
      "completions/mean_length": 771.953125,
      "completions/mean_terminated_length": 771.953125,
      "completions/min_length": 447.0,
      "completions/min_terminated_length": 447.0,
      "entropy": 0.6143220365047455,
      "epoch": 0.16761122130915274,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.384765625,
      "learning_rate": 8.325304618872201e-07,
      "loss": 0.0105,
      "num_tokens": 34706075.0,
      "reward": 0.5,
      "reward_std": 0.8164966106414795,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1183,
      "step_time": 47.79233692120761
    },
    {
      "clip_ratio/high_max": 9.025947656482458e-05,
      "clip_ratio/high_mean": 9.025947656482458e-05,
      "clip_ratio/low_mean": 0.0006025765178492293,
      "clip_ratio/low_min": 0.0006025765178492293,
      "clip_ratio/region_mean": 0.0006928359980520327,
      "entropy": 0.6724056266248226,
      "epoch": 0.16775290450552566,
      "grad_norm": 0.61328125,
      "learning_rate": 8.323887786908472e-07,
      "loss": -0.0145,
      "step": 1184,
      "step_time": 3.081296325661242
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3211.0,
      "completions/max_terminated_length": 3211.0,
      "completions/mean_length": 809.6875,
      "completions/mean_terminated_length": 809.6875,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "entropy": 0.6210052743554115,
      "epoch": 0.16789458770189855,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.21484375,
      "learning_rate": 8.322470954944743e-07,
      "loss": -0.0136,
      "num_tokens": 34768743.0,
      "reward": 0.25,
      "reward_std": 0.5039526224136353,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1185,
      "step_time": 118.24123021122068
    },
    {
      "clip_ratio/high_max": 8.796104157227091e-05,
      "clip_ratio/high_mean": 8.796104157227091e-05,
      "clip_ratio/low_mean": 0.0005412321879703086,
      "clip_ratio/low_min": 0.0005412321879703086,
      "clip_ratio/region_mean": 0.0006291932295425795,
      "entropy": 0.5505023784935474,
      "epoch": 0.16803627089827147,
      "grad_norm": 0.22265625,
      "learning_rate": 8.321054122981014e-07,
      "loss": -0.022,
      "step": 1186,
      "step_time": 5.751455393619835
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1514.0,
      "completions/max_terminated_length": 1514.0,
      "completions/mean_length": 759.078125,
      "completions/mean_terminated_length": 759.078125,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "entropy": 0.4777376390993595,
      "epoch": 0.16817795409464437,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.5859375,
      "learning_rate": 8.319637291017285e-07,
      "loss": -0.0525,
      "num_tokens": 34827564.0,
      "reward": 0.625,
      "reward_std": 0.917207658290863,
      "rewards/accuracy_reward_func/mean": 0.5,
      "rewards/accuracy_reward_func/std": 0.8728715777397156,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1187,
      "step_time": 50.101197701878846
    },
    {
      "clip_ratio/high_max": 4.3342581193428487e-05,
      "clip_ratio/high_mean": 4.3342581193428487e-05,
      "clip_ratio/low_mean": 0.0006316702492767945,
      "clip_ratio/low_min": 0.0006316702492767945,
      "clip_ratio/region_mean": 0.000675012830470223,
      "entropy": 0.5999903604388237,
      "epoch": 0.1683196372910173,
      "grad_norm": 0.51953125,
      "learning_rate": 8.318220459053556e-07,
      "loss": 0.0333,
      "step": 1188,
      "step_time": 3.204383290372789
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1441.0,
      "completions/max_terminated_length": 1441.0,
      "completions/mean_length": 817.84375,
      "completions/mean_terminated_length": 817.84375,
      "completions/min_length": 343.0,
      "completions/min_terminated_length": 343.0,
      "entropy": 0.6025857515633106,
      "epoch": 0.1684613204873902,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.19921875,
      "learning_rate": 8.316803627089827e-07,
      "loss": -0.0332,
      "num_tokens": 34889474.0,
      "reward": 0.1484375,
      "reward_std": 0.3638385236263275,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1189,
      "step_time": 47.94407558999956
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 7.419886969728395e-05,
      "clip_ratio/low_min": 7.419886969728395e-05,
      "clip_ratio/region_mean": 7.419886969728395e-05,
      "entropy": 0.5902419164776802,
      "epoch": 0.1686030036837631,
      "grad_norm": 0.09716796875,
      "learning_rate": 8.315386795126099e-07,
      "loss": 0.0304,
      "step": 1190,
      "step_time": 3.0490802666172385
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1226.0,
      "completions/max_terminated_length": 1226.0,
      "completions/mean_length": 785.5625,
      "completions/mean_terminated_length": 785.5625,
      "completions/min_length": 431.0,
      "completions/min_terminated_length": 431.0,
      "entropy": 0.84459013864398,
      "epoch": 0.16874468688013602,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.462890625,
      "learning_rate": 8.313969963162368e-07,
      "loss": -0.0997,
      "num_tokens": 34950518.0,
      "reward": 0.4296875,
      "reward_std": 0.7119567394256592,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1191,
      "step_time": 39.86415118165314
    },
    {
      "clip_ratio/high_max": 0.0003827565706160385,
      "clip_ratio/high_mean": 0.0003827565706160385,
      "clip_ratio/low_mean": 0.00021564631242654286,
      "clip_ratio/low_min": 0.00021564631242654286,
      "clip_ratio/region_mean": 0.000598402890318539,
      "entropy": 0.6814012713730335,
      "epoch": 0.16888637007650892,
      "grad_norm": 0.609375,
      "learning_rate": 8.312553131198639e-07,
      "loss": 0.1167,
      "step": 1192,
      "step_time": 2.7599099138751626
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1389.0,
      "completions/max_terminated_length": 1389.0,
      "completions/mean_length": 728.890625,
      "completions/mean_terminated_length": 728.890625,
      "completions/min_length": 299.0,
      "completions/min_terminated_length": 299.0,
      "entropy": 0.9020465575158596,
      "epoch": 0.16902805327288184,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.33203125,
      "learning_rate": 8.31113629923491e-07,
      "loss": 0.0413,
      "num_tokens": 35008655.0,
      "reward": 0.40625,
      "reward_std": 0.6835655570030212,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1193,
      "step_time": 45.85865062754601
    },
    {
      "clip_ratio/high_max": 0.00012936285565956496,
      "clip_ratio/high_mean": 0.00012936285565956496,
      "clip_ratio/low_mean": 0.00013292804578668438,
      "clip_ratio/low_min": 0.00013292804578668438,
      "clip_ratio/region_mean": 0.00026229090144624934,
      "entropy": 0.8854729384183884,
      "epoch": 0.16916973646925473,
      "grad_norm": 0.38671875,
      "learning_rate": 8.309719467271181e-07,
      "loss": -0.0315,
      "step": 1194,
      "step_time": 3.314242140389979
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1513.0,
      "completions/max_terminated_length": 1513.0,
      "completions/mean_length": 711.671875,
      "completions/mean_terminated_length": 711.671875,
      "completions/min_length": 365.0,
      "completions/min_terminated_length": 365.0,
      "entropy": 0.862957663834095,
      "epoch": 0.16931141966562765,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.12060546875,
      "learning_rate": 8.308302635307453e-07,
      "loss": 0.0107,
      "num_tokens": 35065594.0,
      "reward": 0.1484375,
      "reward_std": 0.3172261714935303,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1195,
      "step_time": 49.813056209124625
    },
    {
      "clip_ratio/high_max": 0.0003721594075614121,
      "clip_ratio/high_mean": 0.0003721594075614121,
      "clip_ratio/low_mean": 0.00047226592141669244,
      "clip_ratio/low_min": 0.00047226592141669244,
      "clip_ratio/region_mean": 0.0008444253107882105,
      "entropy": 0.8010687902569771,
      "epoch": 0.16945310286200058,
      "grad_norm": 0.55859375,
      "learning_rate": 8.306885803343723e-07,
      "loss": 0.008,
      "step": 1196,
      "step_time": 3.301951590925455
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1144.0,
      "completions/max_terminated_length": 1144.0,
      "completions/mean_length": 669.03125,
      "completions/mean_terminated_length": 669.03125,
      "completions/min_length": 301.0,
      "completions/min_terminated_length": 301.0,
      "entropy": 0.7110417447984219,
      "epoch": 0.16959478605837347,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.470703125,
      "learning_rate": 8.305468971379995e-07,
      "loss": 0.0167,
      "num_tokens": 35118460.0,
      "reward": 0.1875,
      "reward_std": 0.44986769556999207,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 1197,
      "step_time": 37.132820380851626
    },
    {
      "clip_ratio/high_max": 0.0002868306801246945,
      "clip_ratio/high_mean": 0.0002868306801246945,
      "clip_ratio/low_mean": 0.00029391679345280863,
      "clip_ratio/low_min": 0.00029391679345280863,
      "clip_ratio/region_mean": 0.0005807474735775031,
      "entropy": 0.652152381837368,
      "epoch": 0.1697364692547464,
      "grad_norm": 0.30078125,
      "learning_rate": 8.304052139416264e-07,
      "loss": -0.0292,
      "step": 1198,
      "step_time": 2.772544597275555
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1132.0,
      "completions/max_terminated_length": 1132.0,
      "completions/mean_length": 818.078125,
      "completions/mean_terminated_length": 818.078125,
      "completions/min_length": 447.0,
      "completions/min_terminated_length": 447.0,
      "entropy": 0.6533599570393562,
      "epoch": 0.16987815245111929,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.06884765625,
      "learning_rate": 8.302635307452535e-07,
      "loss": -0.0398,
      "num_tokens": 35184689.0,
      "reward": 0.1171875,
      "reward_std": 0.21347814798355103,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1199,
      "step_time": 37.91576187592
    },
    {
      "clip_ratio/high_max": 0.00021077860947116278,
      "clip_ratio/high_mean": 0.00021077860947116278,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00021077860947116278,
      "entropy": 0.6741057261824608,
      "epoch": 0.1700198356474922,
      "grad_norm": 0.396484375,
      "learning_rate": 8.301218475488807e-07,
      "loss": 0.0458,
      "step": 1200,
      "step_time": 2.7851682016626
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1113.0,
      "completions/max_terminated_length": 1113.0,
      "completions/mean_length": 616.71875,
      "completions/mean_terminated_length": 616.71875,
      "completions/min_length": 274.0,
      "completions/min_terminated_length": 274.0,
      "entropy": 1.0287888646125793,
      "epoch": 0.17016151884386513,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.703125,
      "learning_rate": 8.299801643525077e-07,
      "loss": -0.028,
      "num_tokens": 35236863.0,
      "reward": 0.2421875,
      "reward_std": 0.5344644784927368,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1201,
      "step_time": 36.25447961315513
    },
    {
      "clip_ratio/high_max": 6.225099787116051e-05,
      "clip_ratio/high_mean": 6.225099787116051e-05,
      "clip_ratio/low_mean": 0.0005973209990770556,
      "clip_ratio/low_min": 0.0005973209990770556,
      "clip_ratio/region_mean": 0.0006595719969482161,
      "entropy": 1.0983555316925049,
      "epoch": 0.17030320204023802,
      "grad_norm": 0.671875,
      "learning_rate": 8.298384811561349e-07,
      "loss": 0.0252,
      "step": 1202,
      "step_time": 2.7942847702652216
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1321.0,
      "completions/max_terminated_length": 1321.0,
      "completions/mean_length": 819.0,
      "completions/mean_terminated_length": 819.0,
      "completions/min_length": 480.0,
      "completions/min_terminated_length": 480.0,
      "entropy": 0.6264495626091957,
      "epoch": 0.17044488523661094,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.240234375,
      "learning_rate": 8.296967979597619e-07,
      "loss": -0.0274,
      "num_tokens": 35298831.0,
      "reward": 0.2421875,
      "reward_std": 0.503891110420227,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1203,
      "step_time": 43.644353561103344
    },
    {
      "clip_ratio/high_max": 0.00017379943164996803,
      "clip_ratio/high_mean": 0.00017379943164996803,
      "clip_ratio/low_mean": 3.972036938648671e-05,
      "clip_ratio/low_min": 3.972036938648671e-05,
      "clip_ratio/region_mean": 0.00021351980103645474,
      "entropy": 0.5815745964646339,
      "epoch": 0.17058656843298384,
      "grad_norm": 0.421875,
      "learning_rate": 8.295551147633891e-07,
      "loss": 0.0307,
      "step": 1204,
      "step_time": 2.8950188299641013
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2447.0,
      "completions/max_terminated_length": 2447.0,
      "completions/mean_length": 729.21875,
      "completions/mean_terminated_length": 729.21875,
      "completions/min_length": 15.0,
      "completions/min_terminated_length": 15.0,
      "entropy": 0.667723074555397,
      "epoch": 0.17072825162935676,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.58984375,
      "learning_rate": 8.294134315670161e-07,
      "loss": 0.0594,
      "num_tokens": 35356733.0,
      "reward": 0.375,
      "reward_std": 0.5909368395805359,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.21875,
      "rewards/format_reward_func/std": 0.25,
      "step": 1205,
      "step_time": 84.39567436929792
    },
    {
      "clip_ratio/high_max": 0.0003645133001555223,
      "clip_ratio/high_mean": 0.0003645133001555223,
      "clip_ratio/low_mean": 0.00013266923633636907,
      "clip_ratio/low_min": 0.00013266923633636907,
      "clip_ratio/region_mean": 0.000497182543767849,
      "entropy": 0.668635681271553,
      "epoch": 0.17086993482572968,
      "grad_norm": 0.400390625,
      "learning_rate": 8.292717483706431e-07,
      "loss": -0.0065,
      "step": 1206,
      "step_time": 4.659180536866188
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1015.0,
      "completions/max_terminated_length": 1015.0,
      "completions/mean_length": 644.96875,
      "completions/mean_terminated_length": 644.96875,
      "completions/min_length": 367.0,
      "completions/min_terminated_length": 367.0,
      "entropy": 0.49133455380797386,
      "epoch": 0.17101161802210257,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.53515625,
      "learning_rate": 8.291300651742703e-07,
      "loss": -0.0102,
      "num_tokens": 35408619.0,
      "reward": 0.46875,
      "reward_std": 0.9079673886299133,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1207,
      "step_time": 33.669657106511295
    },
    {
      "clip_ratio/high_max": 0.00021155767535674386,
      "clip_ratio/high_mean": 0.00021155767535674386,
      "clip_ratio/low_mean": 0.0008054292629822157,
      "clip_ratio/low_min": 0.0008054292629822157,
      "clip_ratio/region_mean": 0.0010169869456149172,
      "entropy": 0.48513974249362946,
      "epoch": 0.1711533012184755,
      "grad_norm": 0.60546875,
      "learning_rate": 8.289883819778973e-07,
      "loss": -0.0212,
      "step": 1208,
      "step_time": 2.385696022771299
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1556.0,
      "completions/max_terminated_length": 1556.0,
      "completions/mean_length": 789.109375,
      "completions/mean_terminated_length": 789.109375,
      "completions/min_length": 349.0,
      "completions/min_terminated_length": 349.0,
      "entropy": 0.49487002566456795,
      "epoch": 0.1712949844148484,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.40234375,
      "learning_rate": 8.288466987815245e-07,
      "loss": -0.0303,
      "num_tokens": 35470242.0,
      "reward": 0.53125,
      "reward_std": 0.7760042548179626,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1209,
      "step_time": 51.58746706135571
    },
    {
      "clip_ratio/high_max": 0.00024316708731930703,
      "clip_ratio/high_mean": 0.00024316708731930703,
      "clip_ratio/low_mean": 0.00016868886632437352,
      "clip_ratio/low_min": 0.00016868886632437352,
      "clip_ratio/region_mean": 0.00041185595000570174,
      "entropy": 0.7323246039450169,
      "epoch": 0.1714366676112213,
      "grad_norm": 0.31640625,
      "learning_rate": 8.287050155851516e-07,
      "loss": 0.0365,
      "step": 1210,
      "step_time": 3.2766422079876065
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1305.0,
      "completions/max_terminated_length": 1305.0,
      "completions/mean_length": 634.515625,
      "completions/mean_terminated_length": 634.515625,
      "completions/min_length": 10.0,
      "completions/min_terminated_length": 10.0,
      "entropy": 0.8479490652680397,
      "epoch": 0.17157835080759423,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.546875,
      "learning_rate": 8.285633323887787e-07,
      "loss": 0.0612,
      "num_tokens": 35520371.0,
      "reward": 0.1484375,
      "reward_std": 0.3172261714935303,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1211,
      "step_time": 42.91765129752457
    },
    {
      "clip_ratio/high_max": 0.000434280518675223,
      "clip_ratio/high_mean": 0.000434280518675223,
      "clip_ratio/low_mean": 0.0006675166441709734,
      "clip_ratio/low_min": 0.0006675166441709734,
      "clip_ratio/region_mean": 0.0011017971592082176,
      "entropy": 0.7553261332213879,
      "epoch": 0.17172003400396713,
      "grad_norm": 0.466796875,
      "learning_rate": 8.284216491924057e-07,
      "loss": -0.0889,
      "step": 1212,
      "step_time": 2.871351429261267
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1292.0,
      "completions/max_terminated_length": 1292.0,
      "completions/mean_length": 629.53125,
      "completions/mean_terminated_length": 629.53125,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "entropy": 0.7537868395447731,
      "epoch": 0.17186171720034005,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.4921875,
      "learning_rate": 8.282799659960327e-07,
      "loss": -0.0189,
      "num_tokens": 35568965.0,
      "reward": 0.3046875,
      "reward_std": 0.5883605480194092,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1213,
      "step_time": 41.64189898595214
    },
    {
      "clip_ratio/high_max": 0.0003325633588247001,
      "clip_ratio/high_mean": 0.0003325633588247001,
      "clip_ratio/low_mean": 0.000612852891208604,
      "clip_ratio/low_min": 0.000612852891208604,
      "clip_ratio/region_mean": 0.0009454162536712829,
      "entropy": 0.6237002462148666,
      "epoch": 0.17200340039671294,
      "grad_norm": 0.63671875,
      "learning_rate": 8.281382827996599e-07,
      "loss": 0.0099,
      "step": 1214,
      "step_time": 2.7708108266815543
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1543.0,
      "completions/max_terminated_length": 1543.0,
      "completions/mean_length": 797.6875,
      "completions/mean_terminated_length": 797.6875,
      "completions/min_length": 364.0,
      "completions/min_terminated_length": 364.0,
      "entropy": 0.6566391065716743,
      "epoch": 0.17214508359308586,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.37109375,
      "learning_rate": 8.27996599603287e-07,
      "loss": -0.0624,
      "num_tokens": 35628081.0,
      "reward": 0.1484375,
      "reward_std": 0.3172261714935303,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1215,
      "step_time": 50.59030962176621
    },
    {
      "clip_ratio/high_max": 0.0003121575791737996,
      "clip_ratio/high_mean": 0.0003121575791737996,
      "clip_ratio/low_mean": 0.0002088285909849219,
      "clip_ratio/low_min": 0.0002088285909849219,
      "clip_ratio/region_mean": 0.0005209861737967003,
      "entropy": 0.7009310759603977,
      "epoch": 0.17228676678945878,
      "grad_norm": 0.283203125,
      "learning_rate": 8.278549164069141e-07,
      "loss": 0.0573,
      "step": 1216,
      "step_time": 3.235537991859019
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1375.0,
      "completions/max_terminated_length": 1375.0,
      "completions/mean_length": 740.921875,
      "completions/mean_terminated_length": 740.921875,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "entropy": 0.8947394862771034,
      "epoch": 0.17242844998583168,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.263671875,
      "learning_rate": 8.277132332105412e-07,
      "loss": 0.0007,
      "num_tokens": 35689180.0,
      "reward": 0.328125,
      "reward_std": 0.625,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1217,
      "step_time": 45.713525895029306
    },
    {
      "clip_ratio/high_max": 0.00010220768308499828,
      "clip_ratio/high_mean": 0.00010220768308499828,
      "clip_ratio/low_mean": 0.00011532042117323726,
      "clip_ratio/low_min": 0.00011532042117323726,
      "clip_ratio/region_mean": 0.00021752810425823554,
      "entropy": 0.7414060272276402,
      "epoch": 0.1725701331822046,
      "grad_norm": 0.470703125,
      "learning_rate": 8.275715500141683e-07,
      "loss": 0.0222,
      "step": 1218,
      "step_time": 3.2031178371980786
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1336.0,
      "completions/max_terminated_length": 1336.0,
      "completions/mean_length": 776.828125,
      "completions/mean_terminated_length": 776.828125,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "entropy": 0.6336440481245518,
      "epoch": 0.1727118163785775,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.404296875,
      "learning_rate": 8.274298668177953e-07,
      "loss": 0.006,
      "num_tokens": 35747073.0,
      "reward": 0.234375,
      "reward_std": 0.5342904329299927,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1219,
      "step_time": 43.90543183404952
    },
    {
      "clip_ratio/high_max": 8.664328561280854e-05,
      "clip_ratio/high_mean": 8.664328561280854e-05,
      "clip_ratio/low_mean": 4.498021007748321e-05,
      "clip_ratio/low_min": 4.498021007748321e-05,
      "clip_ratio/region_mean": 0.00013162349569029175,
      "entropy": 0.6425619833171368,
      "epoch": 0.17285349957495041,
      "grad_norm": 0.28125,
      "learning_rate": 8.272881836214225e-07,
      "loss": -0.0112,
      "step": 1220,
      "step_time": 3.0654655983671546
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1556.0,
      "completions/max_terminated_length": 1556.0,
      "completions/mean_length": 791.796875,
      "completions/mean_terminated_length": 791.796875,
      "completions/min_length": 363.0,
      "completions/min_terminated_length": 363.0,
      "entropy": 0.6101433522999287,
      "epoch": 0.1729951827713233,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.60546875,
      "learning_rate": 8.271465004250495e-07,
      "loss": -0.0907,
      "num_tokens": 35807780.0,
      "reward": 0.28125,
      "reward_std": 0.603396475315094,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1221,
      "step_time": 51.653068255633116
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0006102644692873582,
      "clip_ratio/low_min": 0.0006102644692873582,
      "clip_ratio/region_mean": 0.0006102644692873582,
      "entropy": 0.5536684468388557,
      "epoch": 0.17313686596769623,
      "grad_norm": 0.1474609375,
      "learning_rate": 8.270048172286766e-07,
      "loss": 0.0947,
      "step": 1222,
      "step_time": 3.2804798604920506
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1233.0,
      "completions/max_terminated_length": 1233.0,
      "completions/mean_length": 762.5,
      "completions/mean_terminated_length": 762.5,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "entropy": 0.6886631995439529,
      "epoch": 0.17327854916406915,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.5546875,
      "learning_rate": 8.268631340323037e-07,
      "loss": -0.0201,
      "num_tokens": 35871668.0,
      "reward": 0.2109375,
      "reward_std": 0.4525473415851593,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1223,
      "step_time": 41.059999061748385
    },
    {
      "clip_ratio/high_max": 0.0002873630328394938,
      "clip_ratio/high_mean": 0.0002873630328394938,
      "clip_ratio/low_mean": 0.00015997565424186178,
      "clip_ratio/low_min": 0.00015997565424186178,
      "clip_ratio/region_mean": 0.0004473386943573132,
      "entropy": 0.806009829044342,
      "epoch": 0.17342023236044204,
      "grad_norm": 0.193359375,
      "learning_rate": 8.267214508359308e-07,
      "loss": 0.0429,
      "step": 1224,
      "step_time": 3.154790955595672
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1215.0,
      "completions/max_terminated_length": 1215.0,
      "completions/mean_length": 720.171875,
      "completions/mean_terminated_length": 720.171875,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "entropy": 0.8942978717386723,
      "epoch": 0.17356191555681497,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5390625,
      "learning_rate": 8.26579767639558e-07,
      "loss": -0.0354,
      "num_tokens": 35929007.0,
      "reward": 0.40625,
      "reward_std": 0.7064049243927002,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1225,
      "step_time": 40.04813558328897
    },
    {
      "clip_ratio/high_max": 3.93081754737068e-05,
      "clip_ratio/high_mean": 3.93081754737068e-05,
      "clip_ratio/low_mean": 0.0006816859713580925,
      "clip_ratio/low_min": 0.0006816859713580925,
      "clip_ratio/region_mean": 0.0007209941504697781,
      "entropy": 0.8911735415458679,
      "epoch": 0.17370359875318786,
      "grad_norm": 0.8828125,
      "learning_rate": 8.26438084443185e-07,
      "loss": -0.0167,
      "step": 1226,
      "step_time": 2.8470887364819646
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1714.0,
      "completions/max_terminated_length": 1714.0,
      "completions/mean_length": 758.21875,
      "completions/mean_terminated_length": 758.21875,
      "completions/min_length": 4.0,
      "completions/min_terminated_length": 4.0,
      "entropy": 0.7306849882006645,
      "epoch": 0.17384528194956078,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.314453125,
      "learning_rate": 8.262964012468121e-07,
      "loss": 0.0058,
      "num_tokens": 35986669.0,
      "reward": 0.2421875,
      "reward_std": 0.5908843874931335,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1227,
      "step_time": 56.649868494831026
    },
    {
      "clip_ratio/high_max": 0.00020602939912350848,
      "clip_ratio/high_mean": 0.00020602939912350848,
      "clip_ratio/low_mean": 0.0003296206923550926,
      "clip_ratio/low_min": 0.0003296206923550926,
      "clip_ratio/region_mean": 0.0005356500951165799,
      "entropy": 0.637755498290062,
      "epoch": 0.1739869651459337,
      "grad_norm": 0.375,
      "learning_rate": 8.261547180504391e-07,
      "loss": -0.0022,
      "step": 1228,
      "step_time": 3.6724526872858405
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1619.0,
      "completions/max_terminated_length": 1619.0,
      "completions/mean_length": 756.46875,
      "completions/mean_terminated_length": 756.46875,
      "completions/min_length": 382.0,
      "completions/min_terminated_length": 382.0,
      "entropy": 0.6284992024302483,
      "epoch": 0.1741286483423066,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.357421875,
      "learning_rate": 8.260130348540662e-07,
      "loss": -0.0341,
      "num_tokens": 36050059.0,
      "reward": 0.4921875,
      "reward_std": 0.8930605053901672,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1229,
      "step_time": 54.278810071758926
    },
    {
      "clip_ratio/high_max": 8.571109719923697e-05,
      "clip_ratio/high_mean": 8.571109719923697e-05,
      "clip_ratio/low_mean": 0.0002018284249061253,
      "clip_ratio/low_min": 0.0002018284249061253,
      "clip_ratio/region_mean": 0.00028753952210536227,
      "entropy": 0.5720418430864811,
      "epoch": 0.17427033153867952,
      "grad_norm": 0.32421875,
      "learning_rate": 8.258713516576934e-07,
      "loss": 0.053,
      "step": 1230,
      "step_time": 3.4596000211313367
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1525.0,
      "completions/max_terminated_length": 1525.0,
      "completions/mean_length": 724.8125,
      "completions/mean_terminated_length": 724.8125,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "entropy": 0.6156884916126728,
      "epoch": 0.1744120147350524,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.4921875,
      "learning_rate": 8.257296684613204e-07,
      "loss": 0.0022,
      "num_tokens": 36114399.0,
      "reward": 0.25,
      "reward_std": 0.5634361505508423,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1231,
      "step_time": 52.605995470657945
    },
    {
      "clip_ratio/high_max": 0.0001851971392170526,
      "clip_ratio/high_mean": 0.0001851971392170526,
      "clip_ratio/low_mean": 0.0006619672130909748,
      "clip_ratio/low_min": 0.0006619672130909748,
      "clip_ratio/region_mean": 0.0008471643523080274,
      "entropy": 0.8295246735215187,
      "epoch": 0.17455369793142533,
      "grad_norm": 0.44140625,
      "learning_rate": 8.255879852649476e-07,
      "loss": 0.0269,
      "step": 1232,
      "step_time": 3.7144320886582136
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1294.0,
      "completions/max_terminated_length": 1294.0,
      "completions/mean_length": 729.96875,
      "completions/mean_terminated_length": 729.96875,
      "completions/min_length": 15.0,
      "completions/min_terminated_length": 15.0,
      "entropy": 0.693349801003933,
      "epoch": 0.17469538112779825,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.39453125,
      "learning_rate": 8.254463020685747e-07,
      "loss": -0.0133,
      "num_tokens": 36173389.0,
      "reward": 0.3984375,
      "reward_std": 0.7927232980728149,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1233,
      "step_time": 42.34666465502232
    },
    {
      "clip_ratio/high_max": 7.952920350362547e-05,
      "clip_ratio/high_mean": 7.952920350362547e-05,
      "clip_ratio/low_mean": 0.0003672141428978648,
      "clip_ratio/low_min": 0.0003672141428978648,
      "clip_ratio/region_mean": 0.00044674333912553266,
      "entropy": 0.6721592620015144,
      "epoch": 0.17483706432417115,
      "grad_norm": 0.345703125,
      "learning_rate": 8.253046188722017e-07,
      "loss": 0.0607,
      "step": 1234,
      "step_time": 2.8831462813541293
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1412.0,
      "completions/max_terminated_length": 1412.0,
      "completions/mean_length": 676.484375,
      "completions/mean_terminated_length": 676.484375,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "entropy": 0.6893913671374321,
      "epoch": 0.17497874752054407,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.404296875,
      "learning_rate": 8.251629356758288e-07,
      "loss": 0.0375,
      "num_tokens": 36226956.0,
      "reward": 0.421875,
      "reward_std": 0.7358115911483765,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1235,
      "step_time": 46.05610656645149
    },
    {
      "clip_ratio/high_max": 0.00020609459897968918,
      "clip_ratio/high_mean": 0.00020609459897968918,
      "clip_ratio/low_mean": 0.0003662013477878645,
      "clip_ratio/low_min": 0.0003662013477878645,
      "clip_ratio/region_mean": 0.0005722959467675537,
      "entropy": 0.7958479076623917,
      "epoch": 0.17512043071691696,
      "grad_norm": 0.59375,
      "learning_rate": 8.250212524794559e-07,
      "loss": -0.0021,
      "step": 1236,
      "step_time": 3.1093808570876718
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1211.0,
      "completions/max_terminated_length": 1211.0,
      "completions/mean_length": 695.84375,
      "completions/mean_terminated_length": 695.84375,
      "completions/min_length": 268.0,
      "completions/min_terminated_length": 268.0,
      "entropy": 0.6438560523092747,
      "epoch": 0.17526211391328989,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.373046875,
      "learning_rate": 8.24879569283083e-07,
      "loss": 0.093,
      "num_tokens": 36279938.0,
      "reward": 0.5625,
      "reward_std": 0.9236745238304138,
      "rewards/accuracy_reward_func/mean": 0.4375,
      "rewards/accuracy_reward_func/std": 0.8333333730697632,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1237,
      "step_time": 39.401293033733964
    },
    {
      "clip_ratio/high_max": 0.0002929463080363348,
      "clip_ratio/high_mean": 0.0002929463080363348,
      "clip_ratio/low_mean": 0.00034640626108739525,
      "clip_ratio/low_min": 0.00034640626108739525,
      "clip_ratio/region_mean": 0.0006393525800376665,
      "entropy": 0.5669775828719139,
      "epoch": 0.1754037971096628,
      "grad_norm": 0.61328125,
      "learning_rate": 8.247378860867101e-07,
      "loss": -0.0829,
      "step": 1238,
      "step_time": 2.676260283216834
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1094.0,
      "completions/max_terminated_length": 1094.0,
      "completions/mean_length": 632.90625,
      "completions/mean_terminated_length": 632.90625,
      "completions/min_length": 244.0,
      "completions/min_terminated_length": 244.0,
      "entropy": 0.6853082403540611,
      "epoch": 0.1755454803060357,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.310546875,
      "learning_rate": 8.245962028903372e-07,
      "loss": 0.0003,
      "num_tokens": 36332636.0,
      "reward": 0.375,
      "reward_std": 0.6546536684036255,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1239,
      "step_time": 35.77218849025667
    },
    {
      "clip_ratio/high_max": 5.267593587632291e-05,
      "clip_ratio/high_mean": 5.267593587632291e-05,
      "clip_ratio/low_mean": 9.54562783590518e-05,
      "clip_ratio/low_min": 9.54562783590518e-05,
      "clip_ratio/region_mean": 0.0001481322142353747,
      "entropy": 0.8658347278833389,
      "epoch": 0.17568716350240862,
      "grad_norm": 0.228515625,
      "learning_rate": 8.244545196939643e-07,
      "loss": 0.0051,
      "step": 1240,
      "step_time": 2.5859491927549243
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3722.0,
      "completions/max_terminated_length": 3722.0,
      "completions/mean_length": 793.671875,
      "completions/mean_terminated_length": 793.671875,
      "completions/min_length": 24.0,
      "completions/min_terminated_length": 24.0,
      "entropy": 0.918253518640995,
      "epoch": 0.17582884669878152,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.4765625,
      "learning_rate": 8.243128364975913e-07,
      "loss": -0.0193,
      "num_tokens": 36393751.0,
      "reward": 0.3359375,
      "reward_std": 0.6729152798652649,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1241,
      "step_time": 144.13346727006137
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0002484901160642039,
      "clip_ratio/low_min": 0.0002484901160642039,
      "clip_ratio/region_mean": 0.0002484901160642039,
      "entropy": 0.7354603596031666,
      "epoch": 0.17597052989515444,
      "grad_norm": 0.365234375,
      "learning_rate": 8.241711533012184e-07,
      "loss": 0.0208,
      "step": 1242,
      "step_time": 6.52778550144285
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1060.0,
      "completions/max_terminated_length": 1060.0,
      "completions/mean_length": 635.125,
      "completions/mean_terminated_length": 635.125,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "entropy": 0.9482107758522034,
      "epoch": 0.17611221309152736,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.74609375,
      "learning_rate": 8.240294701048456e-07,
      "loss": -0.1265,
      "num_tokens": 36444271.0,
      "reward": 0.5703125,
      "reward_std": 0.8207004070281982,
      "rewards/accuracy_reward_func/mean": 0.46875,
      "rewards/accuracy_reward_func/std": 0.8539125919342041,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1243,
      "step_time": 35.31080974359065
    },
    {
      "clip_ratio/high_max": 0.0006275476589507889,
      "clip_ratio/high_mean": 0.0006275476589507889,
      "clip_ratio/low_mean": 0.0007541859013144858,
      "clip_ratio/low_min": 0.0007541859013144858,
      "clip_ratio/region_mean": 0.0013817335820931476,
      "entropy": 0.8787615299224854,
      "epoch": 0.17625389628790025,
      "grad_norm": 0.5546875,
      "learning_rate": 8.238877869084726e-07,
      "loss": 0.0687,
      "step": 1244,
      "step_time": 2.509434647858143
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1847.0,
      "completions/max_terminated_length": 1847.0,
      "completions/mean_length": 805.140625,
      "completions/mean_terminated_length": 805.140625,
      "completions/min_length": 441.0,
      "completions/min_terminated_length": 441.0,
      "entropy": 0.6028210334479809,
      "epoch": 0.17639557948427317,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.4296875,
      "learning_rate": 8.237461037120998e-07,
      "loss": -0.0649,
      "num_tokens": 36507128.0,
      "reward": 0.4140625,
      "reward_std": 0.7157784700393677,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1245,
      "step_time": 61.10904597584158
    },
    {
      "clip_ratio/high_max": 0.000207032666367013,
      "clip_ratio/high_mean": 0.000207032666367013,
      "clip_ratio/low_mean": 0.00028994876265642233,
      "clip_ratio/low_min": 0.00028994876265642233,
      "clip_ratio/region_mean": 0.0004969814290234353,
      "entropy": 0.7533583752810955,
      "epoch": 0.17653726268064607,
      "grad_norm": 0.44140625,
      "learning_rate": 8.236044205157268e-07,
      "loss": 0.0774,
      "step": 1246,
      "step_time": 3.9439216339960694
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1290.0,
      "completions/max_terminated_length": 1290.0,
      "completions/mean_length": 668.390625,
      "completions/mean_terminated_length": 668.390625,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "entropy": 0.8015361428260803,
      "epoch": 0.176678945877019,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.6015625,
      "learning_rate": 8.234627373193539e-07,
      "loss": 0.0687,
      "num_tokens": 36559281.0,
      "reward": 0.9375,
      "reward_std": 1.1109126806259155,
      "rewards/accuracy_reward_func/mean": 0.8125,
      "rewards/accuracy_reward_func/std": 0.9900296926498413,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1247,
      "step_time": 42.752900446765125
    },
    {
      "clip_ratio/high_max": 0.000728412935131928,
      "clip_ratio/high_mean": 0.000728412935131928,
      "clip_ratio/low_mean": 0.0004960661863151472,
      "clip_ratio/low_min": 0.0004960661863151472,
      "clip_ratio/region_mean": 0.00122447910689516,
      "entropy": 0.833511047065258,
      "epoch": 0.17682062907339188,
      "grad_norm": 0.6640625,
      "learning_rate": 8.23321054122981e-07,
      "loss": -0.0485,
      "step": 1248,
      "step_time": 2.864232387393713
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1271.0,
      "completions/max_terminated_length": 1271.0,
      "completions/mean_length": 634.90625,
      "completions/mean_terminated_length": 634.90625,
      "completions/min_length": 14.0,
      "completions/min_terminated_length": 14.0,
      "entropy": 1.0428450368344784,
      "epoch": 0.1769623122697648,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.50390625,
      "learning_rate": 8.23179370926608e-07,
      "loss": 0.0473,
      "num_tokens": 36610043.0,
      "reward": 0.3125,
      "reward_std": 0.5875696539878845,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1249,
      "step_time": 41.81282687559724
    },
    {
      "clip_ratio/high_max": 0.00013139687507646158,
      "clip_ratio/high_mean": 0.00013139687507646158,
      "clip_ratio/low_mean": 0.000208851935894927,
      "clip_ratio/low_min": 0.000208851935894927,
      "clip_ratio/region_mean": 0.0003402488109713886,
      "entropy": 0.9173128753900528,
      "epoch": 0.17710399546613773,
      "grad_norm": 0.6015625,
      "learning_rate": 8.230376877302352e-07,
      "loss": -0.0248,
      "step": 1250,
      "step_time": 2.944710426032543
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1384.0,
      "completions/max_terminated_length": 1384.0,
      "completions/mean_length": 719.765625,
      "completions/mean_terminated_length": 719.765625,
      "completions/min_length": 324.0,
      "completions/min_terminated_length": 324.0,
      "entropy": 0.48892026394605637,
      "epoch": 0.17724567866251062,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.60546875,
      "learning_rate": 8.228960045338622e-07,
      "loss": -0.002,
      "num_tokens": 36665804.0,
      "reward": 0.6484375,
      "reward_std": 0.8622584342956543,
      "rewards/accuracy_reward_func/mean": 0.53125,
      "rewards/accuracy_reward_func/std": 0.8903138637542725,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1251,
      "step_time": 45.62043129932135
    },
    {
      "clip_ratio/high_max": 0.0003188043483532965,
      "clip_ratio/high_mean": 0.0003188043483532965,
      "clip_ratio/low_mean": 0.0007926032012619544,
      "clip_ratio/low_min": 0.0007926032012619544,
      "clip_ratio/region_mean": 0.0011114075568912085,
      "entropy": 0.5403301157057285,
      "epoch": 0.17738736185888354,
      "grad_norm": 0.80078125,
      "learning_rate": 8.227543213374894e-07,
      "loss": 0.0267,
      "step": 1252,
      "step_time": 2.976833635941148
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 852.0,
      "completions/max_terminated_length": 852.0,
      "completions/mean_length": 605.453125,
      "completions/mean_terminated_length": 605.453125,
      "completions/min_length": 330.0,
      "completions/min_terminated_length": 330.0,
      "entropy": 1.002450481057167,
      "epoch": 0.17752904505525643,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.33984375,
      "learning_rate": 8.226126381411165e-07,
      "loss": 0.0735,
      "num_tokens": 36714345.0,
      "reward": 0.3984375,
      "reward_std": 0.7516103982925415,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1253,
      "step_time": 28.019063866697252
    },
    {
      "clip_ratio/high_max": 0.00023473666442441754,
      "clip_ratio/high_mean": 0.00023473666442441754,
      "clip_ratio/low_mean": 0.00040382545557804406,
      "clip_ratio/low_min": 0.00040382545557804406,
      "clip_ratio/region_mean": 0.0006385621200024616,
      "entropy": 1.0382270738482475,
      "epoch": 0.17767072825162936,
      "grad_norm": 0.55859375,
      "learning_rate": 8.224709549447435e-07,
      "loss": -0.065,
      "step": 1254,
      "step_time": 2.2901814971119165
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1591.0,
      "completions/max_terminated_length": 1591.0,
      "completions/mean_length": 840.953125,
      "completions/mean_terminated_length": 840.953125,
      "completions/min_length": 17.0,
      "completions/min_terminated_length": 17.0,
      "entropy": 0.5574077814817429,
      "epoch": 0.17781241144800228,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2412109375,
      "learning_rate": 8.223292717483706e-07,
      "loss": -0.0512,
      "num_tokens": 36777766.0,
      "reward": 0.34375,
      "reward_std": 0.6228136420249939,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1255,
      "step_time": 52.60541395563632
    },
    {
      "clip_ratio/high_max": 3.578585892682895e-05,
      "clip_ratio/high_mean": 3.578585892682895e-05,
      "clip_ratio/low_mean": 8.336134851560928e-05,
      "clip_ratio/low_min": 8.336134851560928e-05,
      "clip_ratio/region_mean": 0.00011914720744243823,
      "entropy": 0.5024467743933201,
      "epoch": 0.17795409464437517,
      "grad_norm": 0.1630859375,
      "learning_rate": 8.221875885519976e-07,
      "loss": 0.0191,
      "step": 1256,
      "step_time": 3.266479649581015
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1107.0,
      "completions/max_terminated_length": 1107.0,
      "completions/mean_length": 595.1875,
      "completions/mean_terminated_length": 595.1875,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "entropy": 0.6819902174174786,
      "epoch": 0.1780957778407481,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.072265625,
      "learning_rate": 8.220459053556248e-07,
      "loss": -0.0242,
      "num_tokens": 36828338.0,
      "reward": 0.1171875,
      "reward_std": 0.21347814798355103,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1257,
      "step_time": 37.21449329517782
    },
    {
      "clip_ratio/high_max": 0.0005452387667901348,
      "clip_ratio/high_mean": 0.0005452387667901348,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0005452387667901348,
      "entropy": 0.738728478550911,
      "epoch": 0.178237461037121,
      "grad_norm": 0.2470703125,
      "learning_rate": 8.219042221592519e-07,
      "loss": -0.0036,
      "step": 1258,
      "step_time": 2.7519881008192897
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1432.0,
      "completions/max_terminated_length": 1432.0,
      "completions/mean_length": 723.375,
      "completions/mean_terminated_length": 723.375,
      "completions/min_length": 313.0,
      "completions/min_terminated_length": 313.0,
      "entropy": 0.7424110360443592,
      "epoch": 0.1783791442334939,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.498046875,
      "learning_rate": 8.21762538962879e-07,
      "loss": -0.0662,
      "num_tokens": 36884106.0,
      "reward": 0.3359375,
      "reward_std": 0.6239574551582336,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1259,
      "step_time": 47.581012045033276
    },
    {
      "clip_ratio/high_max": 0.0002924288019130472,
      "clip_ratio/high_mean": 0.0002924288019130472,
      "clip_ratio/low_mean": 0.0005585134385910351,
      "clip_ratio/low_min": 0.0005585134385910351,
      "clip_ratio/region_mean": 0.0008509422332281247,
      "entropy": 0.6526510119438171,
      "epoch": 0.17852082742986683,
      "grad_norm": 0.5625,
      "learning_rate": 8.216208557665061e-07,
      "loss": 0.0805,
      "step": 1260,
      "step_time": 3.0882531832903624
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1574.0,
      "completions/max_terminated_length": 1574.0,
      "completions/mean_length": 618.59375,
      "completions/mean_terminated_length": 618.59375,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "entropy": 1.0440563932061195,
      "epoch": 0.17866251062623972,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.50390625,
      "learning_rate": 8.214791725701331e-07,
      "loss": -0.0079,
      "num_tokens": 36935536.0,
      "reward": 0.359375,
      "reward_std": 0.789156436920166,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1261,
      "step_time": 52.82267714384943
    },
    {
      "clip_ratio/high_max": 0.00026952241751132533,
      "clip_ratio/high_mean": 0.00026952241751132533,
      "clip_ratio/low_mean": 3.5663339076563716e-05,
      "clip_ratio/low_min": 3.5663339076563716e-05,
      "clip_ratio/region_mean": 0.00030518575658788905,
      "entropy": 1.0322729721665382,
      "epoch": 0.17880419382261264,
      "grad_norm": 0.50390625,
      "learning_rate": 8.213374893737602e-07,
      "loss": 0.022,
      "step": 1262,
      "step_time": 3.404650959186256
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1412.0,
      "completions/max_terminated_length": 1412.0,
      "completions/mean_length": 865.328125,
      "completions/mean_terminated_length": 865.328125,
      "completions/min_length": 478.0,
      "completions/min_terminated_length": 478.0,
      "entropy": 0.5946569256484509,
      "epoch": 0.17894587701898554,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1806640625,
      "learning_rate": 8.211958061773873e-07,
      "loss": -0.0427,
      "num_tokens": 37002677.0,
      "reward": 0.3203125,
      "reward_std": 0.7419792413711548,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1263,
      "step_time": 47.591421636752784
    },
    {
      "clip_ratio/high_max": 7.227522291941568e-05,
      "clip_ratio/high_mean": 7.227522291941568e-05,
      "clip_ratio/low_mean": 7.344842742895707e-05,
      "clip_ratio/low_min": 7.344842742895707e-05,
      "clip_ratio/region_mean": 0.00014572365034837276,
      "entropy": 0.5909665152430534,
      "epoch": 0.17908756021535846,
      "grad_norm": 0.2001953125,
      "learning_rate": 8.210541229810144e-07,
      "loss": 0.0411,
      "step": 1264,
      "step_time": 3.22741177957505
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1290.0,
      "completions/max_terminated_length": 1290.0,
      "completions/mean_length": 721.46875,
      "completions/mean_terminated_length": 721.46875,
      "completions/min_length": 367.0,
      "completions/min_terminated_length": 367.0,
      "entropy": 0.7558976486325264,
      "epoch": 0.17922924341173138,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.419921875,
      "learning_rate": 8.209124397846415e-07,
      "loss": 0.0059,
      "num_tokens": 37058819.0,
      "reward": 0.1875,
      "reward_std": 0.39339789748191833,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1265,
      "step_time": 42.64892263803631
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00033651657213340513,
      "clip_ratio/low_min": 0.00033651657213340513,
      "clip_ratio/region_mean": 0.00033651657213340513,
      "entropy": 0.8366722911596298,
      "epoch": 0.17937092660810428,
      "grad_norm": 0.37109375,
      "learning_rate": 8.207707565882686e-07,
      "loss": -0.0122,
      "step": 1266,
      "step_time": 2.799902427010238
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1548.0,
      "completions/max_terminated_length": 1548.0,
      "completions/mean_length": 659.53125,
      "completions/mean_terminated_length": 659.53125,
      "completions/min_length": 15.0,
      "completions/min_terminated_length": 15.0,
      "entropy": 0.941795140504837,
      "epoch": 0.1795126098044772,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.310546875,
      "learning_rate": 8.206290733918957e-07,
      "loss": 0.0062,
      "num_tokens": 37112501.0,
      "reward": 0.1328125,
      "reward_std": 0.3804987072944641,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.0703125,
      "rewards/format_reward_func/std": 0.1751912236213684,
      "step": 1267,
      "step_time": 50.902917872183025
    },
    {
      "clip_ratio/high_max": 0.00014978171384427696,
      "clip_ratio/high_mean": 0.00014978171384427696,
      "clip_ratio/low_mean": 0.0005447117619041819,
      "clip_ratio/low_min": 0.0005447117619041819,
      "clip_ratio/region_mean": 0.0006944934684725013,
      "entropy": 0.8642885610461235,
      "epoch": 0.1796542930008501,
      "grad_norm": 0.58984375,
      "learning_rate": 8.204873901955229e-07,
      "loss": -0.0004,
      "step": 1268,
      "step_time": 3.2623835373669863
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1062.0,
      "completions/max_terminated_length": 1062.0,
      "completions/mean_length": 681.015625,
      "completions/mean_terminated_length": 681.015625,
      "completions/min_length": 321.0,
      "completions/min_terminated_length": 321.0,
      "entropy": 0.6858576312661171,
      "epoch": 0.179795976197223,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.63671875,
      "learning_rate": 8.203457069991498e-07,
      "loss": 0.0643,
      "num_tokens": 37167238.0,
      "reward": 0.71875,
      "reward_std": 0.8991839289665222,
      "rewards/accuracy_reward_func/mean": 0.59375,
      "rewards/accuracy_reward_func/std": 0.9209855198860168,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1269,
      "step_time": 35.235624842345715
    },
    {
      "clip_ratio/high_max": 0.0003763414169952739,
      "clip_ratio/high_mean": 0.0003763414169952739,
      "clip_ratio/low_mean": 0.0001809371678973548,
      "clip_ratio/low_min": 0.0001809371678973548,
      "clip_ratio/region_mean": 0.0005572785848926287,
      "entropy": 0.6006545387208462,
      "epoch": 0.1799376593935959,
      "grad_norm": 0.404296875,
      "learning_rate": 8.202040238027769e-07,
      "loss": -0.0613,
      "step": 1270,
      "step_time": 2.5044636437669396
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1378.0,
      "completions/max_terminated_length": 1378.0,
      "completions/mean_length": 635.9375,
      "completions/mean_terminated_length": 635.9375,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "entropy": 0.5539796613156796,
      "epoch": 0.18007934258996883,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.54296875,
      "learning_rate": 8.20062340606404e-07,
      "loss": -0.0676,
      "num_tokens": 37218866.0,
      "reward": 0.28125,
      "reward_std": 0.5482656359672546,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1271,
      "step_time": 45.11764226295054
    },
    {
      "clip_ratio/high_max": 0.00012664640962611884,
      "clip_ratio/high_mean": 0.00012664640962611884,
      "clip_ratio/low_mean": 0.00047394863213412464,
      "clip_ratio/low_min": 0.00047394863213412464,
      "clip_ratio/region_mean": 0.0006005950344842859,
      "entropy": 0.6464585848152637,
      "epoch": 0.18022102578634175,
      "grad_norm": 0.4453125,
      "learning_rate": 8.199206574100311e-07,
      "loss": 0.0739,
      "step": 1272,
      "step_time": 3.244176252745092
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1007.0,
      "completions/max_terminated_length": 1007.0,
      "completions/mean_length": 557.75,
      "completions/mean_terminated_length": 557.75,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "entropy": 1.1655811071395874,
      "epoch": 0.18036270898271464,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.458984375,
      "learning_rate": 8.197789742136583e-07,
      "loss": 0.046,
      "num_tokens": 37264930.0,
      "reward": 0.2265625,
      "reward_std": 0.5033986568450928,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1273,
      "step_time": 33.14973193500191
    },
    {
      "clip_ratio/high_max": 0.00029649211501237005,
      "clip_ratio/high_mean": 0.00029649211501237005,
      "clip_ratio/low_mean": 0.0003994444850832224,
      "clip_ratio/low_min": 0.0003994444850832224,
      "clip_ratio/region_mean": 0.0006959366000955924,
      "entropy": 1.2858213633298874,
      "epoch": 0.18050439217908756,
      "grad_norm": 0.62109375,
      "learning_rate": 8.196372910172853e-07,
      "loss": -0.0391,
      "step": 1274,
      "step_time": 2.325007584877312
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1371.0,
      "completions/max_terminated_length": 1371.0,
      "completions/mean_length": 704.953125,
      "completions/mean_terminated_length": 704.953125,
      "completions/min_length": 278.0,
      "completions/min_terminated_length": 278.0,
      "entropy": 0.8464256227016449,
      "epoch": 0.18064607537546046,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.455078125,
      "learning_rate": 8.194956078209125e-07,
      "loss": 0.0446,
      "num_tokens": 37318783.0,
      "reward": 0.1484375,
      "reward_std": 0.3172261714935303,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1275,
      "step_time": 44.96390092745423
    },
    {
      "clip_ratio/high_max": 0.00023706542197032832,
      "clip_ratio/high_mean": 0.00023706542197032832,
      "clip_ratio/low_mean": 0.0002394637449469883,
      "clip_ratio/low_min": 0.0002394637449469883,
      "clip_ratio/region_mean": 0.0004765291669173166,
      "entropy": 0.7543238401412964,
      "epoch": 0.18078775857183338,
      "grad_norm": 0.390625,
      "learning_rate": 8.193539246245395e-07,
      "loss": -0.0369,
      "step": 1276,
      "step_time": 3.0997288431972265
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1346.0,
      "completions/max_terminated_length": 1346.0,
      "completions/mean_length": 790.109375,
      "completions/mean_terminated_length": 790.109375,
      "completions/min_length": 402.0,
      "completions/min_terminated_length": 402.0,
      "entropy": 0.7129699029028416,
      "epoch": 0.1809294417682063,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.130859375,
      "learning_rate": 8.192122414281665e-07,
      "loss": -0.0029,
      "num_tokens": 37379046.0,
      "reward": 0.140625,
      "reward_std": 0.3145764470100403,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1277,
      "step_time": 44.37591209821403
    },
    {
      "clip_ratio/high_max": 0.0005627551654470153,
      "clip_ratio/high_mean": 0.0005627551654470153,
      "clip_ratio/low_mean": 3.933291372959502e-05,
      "clip_ratio/low_min": 3.933291372959502e-05,
      "clip_ratio/region_mean": 0.0006020880791766103,
      "entropy": 0.7230421081185341,
      "epoch": 0.1810711249645792,
      "grad_norm": 0.546875,
      "learning_rate": 8.190705582317937e-07,
      "loss": -0.0086,
      "step": 1278,
      "step_time": 2.9327595019713044
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2434.0,
      "completions/max_terminated_length": 2434.0,
      "completions/mean_length": 742.78125,
      "completions/mean_terminated_length": 742.78125,
      "completions/min_length": 347.0,
      "completions/min_terminated_length": 347.0,
      "entropy": 0.6742135584354401,
      "epoch": 0.18121280816095212,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.482421875,
      "learning_rate": 8.189288750354207e-07,
      "loss": -0.023,
      "num_tokens": 37437128.0,
      "reward": 0.3671875,
      "reward_std": 0.5509169101715088,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.2421875,
      "rewards/format_reward_func/std": 0.25185325741767883,
      "step": 1279,
      "step_time": 83.61792159732431
    },
    {
      "clip_ratio/high_max": 0.00020266857973183505,
      "clip_ratio/high_mean": 0.00020266857973183505,
      "clip_ratio/low_mean": 0.0007530300717917271,
      "clip_ratio/low_min": 0.0007530300717917271,
      "clip_ratio/region_mean": 0.0009556986406096257,
      "entropy": 0.6358381658792496,
      "epoch": 0.181354491357325,
      "grad_norm": 0.6875,
      "learning_rate": 8.187871918390479e-07,
      "loss": 0.0808,
      "step": 1280,
      "step_time": 4.554942480288446
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1900.0,
      "completions/max_terminated_length": 1900.0,
      "completions/mean_length": 830.71875,
      "completions/mean_terminated_length": 830.71875,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "entropy": 0.6660146415233612,
      "epoch": 0.18149617455369793,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.2197265625,
      "learning_rate": 8.186455086426749e-07,
      "loss": 0.0679,
      "num_tokens": 37502534.0,
      "reward": 0.3125,
      "reward_std": 0.613990306854248,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1281,
      "step_time": 63.16954481229186
    },
    {
      "clip_ratio/high_max": 0.0001885522506199777,
      "clip_ratio/high_mean": 0.0001885522506199777,
      "clip_ratio/low_mean": 0.00035395351733313873,
      "clip_ratio/low_min": 0.00035395351733313873,
      "clip_ratio/region_mean": 0.0005425057643151376,
      "entropy": 0.5193122662603855,
      "epoch": 0.18163785775007085,
      "grad_norm": 0.4921875,
      "learning_rate": 8.185038254463021e-07,
      "loss": -0.0606,
      "step": 1282,
      "step_time": 3.8536139326170087
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1410.0,
      "completions/max_terminated_length": 1410.0,
      "completions/mean_length": 689.65625,
      "completions/mean_terminated_length": 689.65625,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "entropy": 0.6712349355220795,
      "epoch": 0.18177954094644375,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.4609375,
      "learning_rate": 8.183621422499292e-07,
      "loss": 0.0464,
      "num_tokens": 37555312.0,
      "reward": 0.65625,
      "reward_std": 1.0113444328308105,
      "rewards/accuracy_reward_func/mean": 0.53125,
      "rewards/accuracy_reward_func/std": 0.8903138637542725,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1283,
      "step_time": 46.428574649617076
    },
    {
      "clip_ratio/high_max": 0.0006199226518219803,
      "clip_ratio/high_mean": 0.0006199226518219803,
      "clip_ratio/low_mean": 0.0006405018975783605,
      "clip_ratio/low_min": 0.0006405018975783605,
      "clip_ratio/region_mean": 0.0012604245384864043,
      "entropy": 0.6891654953360558,
      "epoch": 0.18192122414281667,
      "grad_norm": 0.44140625,
      "learning_rate": 8.182204590535561e-07,
      "loss": -0.0589,
      "step": 1284,
      "step_time": 2.99969189055264
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1081.0,
      "completions/max_terminated_length": 1081.0,
      "completions/mean_length": 536.546875,
      "completions/mean_terminated_length": 536.546875,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "entropy": 0.5949643887579441,
      "epoch": 0.18206290733918956,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.470703125,
      "learning_rate": 8.180787758571833e-07,
      "loss": -0.0459,
      "num_tokens": 37599619.0,
      "reward": 0.6484375,
      "reward_std": 0.8436489105224609,
      "rewards/accuracy_reward_func/mean": 0.53125,
      "rewards/accuracy_reward_func/std": 0.8903138637542725,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1285,
      "step_time": 35.52838390134275
    },
    {
      "clip_ratio/high_max": 0.0009612388312234543,
      "clip_ratio/high_mean": 0.0009612388312234543,
      "clip_ratio/low_mean": 0.00021387438027886674,
      "clip_ratio/low_min": 0.00021387438027886674,
      "clip_ratio/region_mean": 0.001175113211502321,
      "entropy": 0.6227720193564892,
      "epoch": 0.18220459053556248,
      "grad_norm": 0.9765625,
      "learning_rate": 8.179370926608103e-07,
      "loss": 0.0283,
      "step": 1286,
      "step_time": 2.5075117526575923
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1464.0,
      "completions/max_terminated_length": 1464.0,
      "completions/mean_length": 820.28125,
      "completions/mean_terminated_length": 820.28125,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "entropy": 0.5870448648929596,
      "epoch": 0.1823462737319354,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2431640625,
      "learning_rate": 8.177954094644375e-07,
      "loss": 0.0134,
      "num_tokens": 37663509.0,
      "reward": 0.328125,
      "reward_std": 0.6738820672035217,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1287,
      "step_time": 48.34325520321727
    },
    {
      "clip_ratio/high_max": 7.754342368571088e-05,
      "clip_ratio/high_mean": 7.754342368571088e-05,
      "clip_ratio/low_mean": 0.00028785294853150845,
      "clip_ratio/low_min": 0.00028785294853150845,
      "clip_ratio/region_mean": 0.00036539637585519813,
      "entropy": 0.6462103687226772,
      "epoch": 0.1824879569283083,
      "grad_norm": 0.419921875,
      "learning_rate": 8.176537262680646e-07,
      "loss": 0.0081,
      "step": 1288,
      "step_time": 3.220672228373587
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1612.0,
      "completions/max_terminated_length": 1612.0,
      "completions/mean_length": 809.78125,
      "completions/mean_terminated_length": 809.78125,
      "completions/min_length": 299.0,
      "completions/min_terminated_length": 299.0,
      "entropy": 0.426056083291769,
      "epoch": 0.18262964012468122,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2431640625,
      "learning_rate": 8.175120430716917e-07,
      "loss": 0.0182,
      "num_tokens": 37725463.0,
      "reward": 0.375,
      "reward_std": 0.6546536684036255,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1289,
      "step_time": 52.73642810806632
    },
    {
      "clip_ratio/high_max": 7.598709271405824e-05,
      "clip_ratio/high_mean": 7.598709271405824e-05,
      "clip_ratio/low_mean": 0.00021343608023016714,
      "clip_ratio/low_min": 0.00021343608023016714,
      "clip_ratio/region_mean": 0.00028942317294422537,
      "entropy": 0.4092188458889723,
      "epoch": 0.1827713233210541,
      "grad_norm": 0.353515625,
      "learning_rate": 8.173703598753188e-07,
      "loss": -0.0195,
      "step": 1290,
      "step_time": 3.5253719072788954
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1462.0,
      "completions/max_terminated_length": 1462.0,
      "completions/mean_length": 879.453125,
      "completions/mean_terminated_length": 879.453125,
      "completions/min_length": 15.0,
      "completions/min_terminated_length": 15.0,
      "entropy": 0.6545729041099548,
      "epoch": 0.18291300651742703,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5703125,
      "learning_rate": 8.172286766789458e-07,
      "loss": -0.0399,
      "num_tokens": 37790804.0,
      "reward": 0.1953125,
      "reward_std": 0.45090022683143616,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1291,
      "step_time": 48.158951953053474
    },
    {
      "clip_ratio/high_max": 7.51653642510064e-05,
      "clip_ratio/high_mean": 7.51653642510064e-05,
      "clip_ratio/low_mean": 0.0009538322483422235,
      "clip_ratio/low_min": 0.0009538322483422235,
      "clip_ratio/region_mean": 0.0010289976125932299,
      "entropy": 0.671372078359127,
      "epoch": 0.18305468971379996,
      "grad_norm": 0.23828125,
      "learning_rate": 8.170869934825729e-07,
      "loss": 0.0616,
      "step": 1292,
      "step_time": 3.102238532155752
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1092.0,
      "completions/max_terminated_length": 1092.0,
      "completions/mean_length": 779.796875,
      "completions/mean_terminated_length": 779.796875,
      "completions/min_length": 382.0,
      "completions/min_terminated_length": 382.0,
      "entropy": 0.8194541111588478,
      "epoch": 0.18319637291017285,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.228515625,
      "learning_rate": 8.169453102862e-07,
      "loss": -0.0097,
      "num_tokens": 37851271.0,
      "reward": 0.2734375,
      "reward_std": 0.6780555844306946,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1293,
      "step_time": 36.05692649818957
    },
    {
      "clip_ratio/high_max": 7.842012928449549e-05,
      "clip_ratio/high_mean": 7.842012928449549e-05,
      "clip_ratio/low_mean": 0.00025724863007781096,
      "clip_ratio/low_min": 0.00025724863007781096,
      "clip_ratio/region_mean": 0.00033566875936230645,
      "entropy": 0.9070032835006714,
      "epoch": 0.18333805610654577,
      "grad_norm": 0.337890625,
      "learning_rate": 8.168036270898271e-07,
      "loss": 0.0253,
      "step": 1294,
      "step_time": 2.7179525336250663
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1416.0,
      "completions/max_terminated_length": 1416.0,
      "completions/mean_length": 695.28125,
      "completions/mean_terminated_length": 695.28125,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "entropy": 0.49456726014614105,
      "epoch": 0.18347973930291867,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.466796875,
      "learning_rate": 8.166619438934542e-07,
      "loss": 0.054,
      "num_tokens": 37904201.0,
      "reward": 0.53125,
      "reward_std": 0.8158888816833496,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1295,
      "step_time": 46.78356993384659
    },
    {
      "clip_ratio/high_max": 0.00018024599557975307,
      "clip_ratio/high_mean": 0.00018024599557975307,
      "clip_ratio/low_mean": 0.00030676760434289463,
      "clip_ratio/low_min": 0.00030676760434289463,
      "clip_ratio/region_mean": 0.0004870135999226477,
      "entropy": 0.6844542883336544,
      "epoch": 0.1836214224992916,
      "grad_norm": 0.3984375,
      "learning_rate": 8.165202606970813e-07,
      "loss": -0.0329,
      "step": 1296,
      "step_time": 3.0478890547528863
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 998.0,
      "completions/max_terminated_length": 998.0,
      "completions/mean_length": 678.453125,
      "completions/mean_terminated_length": 678.453125,
      "completions/min_length": 386.0,
      "completions/min_terminated_length": 386.0,
      "entropy": 0.7434802800416946,
      "epoch": 0.18376310569566448,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.478515625,
      "learning_rate": 8.163785775007084e-07,
      "loss": -0.047,
      "num_tokens": 37959702.0,
      "reward": 0.625,
      "reward_std": 0.863731324672699,
      "rewards/accuracy_reward_func/mean": 0.5,
      "rewards/accuracy_reward_func/std": 0.8728715777397156,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1297,
      "step_time": 33.357563900761306
    },
    {
      "clip_ratio/high_max": 0.00015957975119818002,
      "clip_ratio/high_mean": 0.00015957975119818002,
      "clip_ratio/low_mean": 0.0003453516255831346,
      "clip_ratio/low_min": 0.0003453516255831346,
      "clip_ratio/region_mean": 0.000504931369505357,
      "entropy": 0.7436229214072227,
      "epoch": 0.1839047888920374,
      "grad_norm": 0.60546875,
      "learning_rate": 8.162368943043355e-07,
      "loss": 0.0401,
      "step": 1298,
      "step_time": 2.6670734472572803
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2441.0,
      "completions/max_terminated_length": 2441.0,
      "completions/mean_length": 700.125,
      "completions/mean_terminated_length": 700.125,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "entropy": 0.8302062004804611,
      "epoch": 0.18404647208841032,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.34375,
      "learning_rate": 8.160952111079625e-07,
      "loss": 0.0081,
      "num_tokens": 38014782.0,
      "reward": 0.078125,
      "reward_std": 0.18298126757144928,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 1299,
      "step_time": 84.51137080974877
    },
    {
      "clip_ratio/high_max": 0.00011526456000865437,
      "clip_ratio/high_mean": 0.00011526456000865437,
      "clip_ratio/low_mean": 5.7392102462472394e-05,
      "clip_ratio/low_min": 5.7392102462472394e-05,
      "clip_ratio/region_mean": 0.00017265666247112677,
      "entropy": 0.7210763022303581,
      "epoch": 0.18418815528478322,
      "grad_norm": 0.3359375,
      "learning_rate": 8.159535279115896e-07,
      "loss": -0.0231,
      "step": 1300,
      "step_time": 4.698551180772483
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1170.0,
      "completions/max_terminated_length": 1170.0,
      "completions/mean_length": 684.9375,
      "completions/mean_terminated_length": 684.9375,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "entropy": 0.6997292563319206,
      "epoch": 0.18432983848115614,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.43359375,
      "learning_rate": 8.158118447152167e-07,
      "loss": 0.0793,
      "num_tokens": 38070330.0,
      "reward": 0.1796875,
      "reward_std": 0.3920558989048004,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1301,
      "step_time": 38.85954968351871
    },
    {
      "clip_ratio/high_max": 0.0004366444954939652,
      "clip_ratio/high_mean": 0.0004366444954939652,
      "clip_ratio/low_mean": 9.24070154724177e-05,
      "clip_ratio/low_min": 9.24070154724177e-05,
      "clip_ratio/region_mean": 0.0005290515109663829,
      "entropy": 0.7683505788445473,
      "epoch": 0.18447152167752903,
      "grad_norm": 0.416015625,
      "learning_rate": 8.156701615188438e-07,
      "loss": -0.0877,
      "step": 1302,
      "step_time": 2.7186839506030083
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1498.0,
      "completions/max_terminated_length": 1498.0,
      "completions/mean_length": 708.34375,
      "completions/mean_terminated_length": 708.34375,
      "completions/min_length": 291.0,
      "completions/min_terminated_length": 291.0,
      "entropy": 0.6434573158621788,
      "epoch": 0.18461320487390195,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5,
      "learning_rate": 8.15528478322471e-07,
      "loss": -0.0121,
      "num_tokens": 38125760.0,
      "reward": 0.234375,
      "reward_std": 0.5342904329299927,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1303,
      "step_time": 49.834961138665676
    },
    {
      "clip_ratio/high_max": 3.198566992068663e-05,
      "clip_ratio/high_mean": 3.198566992068663e-05,
      "clip_ratio/low_mean": 0.00032921944512054324,
      "clip_ratio/low_min": 0.00032921944512054324,
      "clip_ratio/region_mean": 0.0003612051150412299,
      "entropy": 0.5588708147406578,
      "epoch": 0.18475488807027488,
      "grad_norm": 0.423828125,
      "learning_rate": 8.15386795126098e-07,
      "loss": 0.0083,
      "step": 1304,
      "step_time": 3.163613391108811
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1404.0,
      "completions/max_terminated_length": 1404.0,
      "completions/mean_length": 808.609375,
      "completions/mean_terminated_length": 808.609375,
      "completions/min_length": 9.0,
      "completions/min_terminated_length": 9.0,
      "entropy": 0.5334102809429169,
      "epoch": 0.18489657126664777,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.58203125,
      "learning_rate": 8.152451119297251e-07,
      "loss": 0.1506,
      "num_tokens": 38187079.0,
      "reward": 0.4921875,
      "reward_std": 0.7585083246231079,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1305,
      "step_time": 46.40909880772233
    },
    {
      "clip_ratio/high_max": 0.0005724816001020372,
      "clip_ratio/high_mean": 0.0005724816001020372,
      "clip_ratio/low_mean": 0.00015390081534860656,
      "clip_ratio/low_min": 0.00015390081534860656,
      "clip_ratio/region_mean": 0.0007263824190886226,
      "entropy": 0.4952036738395691,
      "epoch": 0.1850382544630207,
      "grad_norm": 0.53125,
      "learning_rate": 8.151034287333521e-07,
      "loss": -0.1834,
      "step": 1306,
      "step_time": 3.0929981926456094
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1586.0,
      "completions/max_terminated_length": 1586.0,
      "completions/mean_length": 769.25,
      "completions/mean_terminated_length": 769.25,
      "completions/min_length": 261.0,
      "completions/min_terminated_length": 261.0,
      "entropy": 0.7780845277011395,
      "epoch": 0.18517993765939358,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1279296875,
      "learning_rate": 8.149617455369793e-07,
      "loss": 0.0284,
      "num_tokens": 38249943.0,
      "reward": 0.1484375,
      "reward_std": 0.3638385236263275,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1307,
      "step_time": 53.606066677719355
    },
    {
      "clip_ratio/high_max": 3.980891779065132e-05,
      "clip_ratio/high_mean": 3.980891779065132e-05,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 3.980891779065132e-05,
      "entropy": 0.7715655490756035,
      "epoch": 0.1853216208557665,
      "grad_norm": 0.3203125,
      "learning_rate": 8.148200623406064e-07,
      "loss": -0.0388,
      "step": 1308,
      "step_time": 3.519498118199408
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1161.0,
      "completions/max_terminated_length": 1161.0,
      "completions/mean_length": 733.171875,
      "completions/mean_terminated_length": 733.171875,
      "completions/min_length": 398.0,
      "completions/min_terminated_length": 398.0,
      "entropy": 1.0129968896508217,
      "epoch": 0.18546330405213943,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.50390625,
      "learning_rate": 8.146783791442334e-07,
      "loss": -0.015,
      "num_tokens": 38307282.0,
      "reward": 0.4921875,
      "reward_std": 0.7585083246231079,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1309,
      "step_time": 38.29146310687065
    },
    {
      "clip_ratio/high_max": 0.00018345719945500605,
      "clip_ratio/high_mean": 0.00018345719945500605,
      "clip_ratio/low_mean": 0.0001200812475872226,
      "clip_ratio/low_min": 0.0001200812475872226,
      "clip_ratio/region_mean": 0.00030353844704222865,
      "entropy": 0.8656369745731354,
      "epoch": 0.18560498724851232,
      "grad_norm": 0.353515625,
      "learning_rate": 8.145366959478606e-07,
      "loss": 0.0241,
      "step": 1310,
      "step_time": 2.6241229753941298
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1567.0,
      "completions/max_terminated_length": 1567.0,
      "completions/mean_length": 878.53125,
      "completions/mean_terminated_length": 878.53125,
      "completions/min_length": 417.0,
      "completions/min_terminated_length": 417.0,
      "entropy": 0.5128845870494843,
      "epoch": 0.18574667044488524,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.375,
      "learning_rate": 8.143950127514876e-07,
      "loss": 0.0204,
      "num_tokens": 38373204.0,
      "reward": 0.3203125,
      "reward_std": 0.7419792413711548,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1311,
      "step_time": 51.93044954538345
    },
    {
      "clip_ratio/high_max": 0.00014482637925539166,
      "clip_ratio/high_mean": 0.00014482637925539166,
      "clip_ratio/low_mean": 0.0003173841214447748,
      "clip_ratio/low_min": 0.0003173841214447748,
      "clip_ratio/region_mean": 0.00046221050070016645,
      "entropy": 0.5521291829645634,
      "epoch": 0.18588835364125814,
      "grad_norm": 0.3828125,
      "learning_rate": 8.142533295551147e-07,
      "loss": 0.0005,
      "step": 1312,
      "step_time": 3.2679618215188384
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1409.0,
      "completions/max_terminated_length": 1409.0,
      "completions/mean_length": 709.40625,
      "completions/mean_terminated_length": 709.40625,
      "completions/min_length": 350.0,
      "completions/min_terminated_length": 350.0,
      "entropy": 0.932820737361908,
      "epoch": 0.18603003683763106,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.259765625,
      "learning_rate": 8.141116463587418e-07,
      "loss": 0.0036,
      "num_tokens": 38429182.0,
      "reward": 0.109375,
      "reward_std": 0.2083333283662796,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1313,
      "step_time": 46.56873573921621
    },
    {
      "clip_ratio/high_max": 0.00032043402461567894,
      "clip_ratio/high_mean": 0.00032043402461567894,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00032043402461567894,
      "entropy": 0.8437640890479088,
      "epoch": 0.18617172003400398,
      "grad_norm": 0.3203125,
      "learning_rate": 8.139699631623689e-07,
      "loss": -0.0029,
      "step": 1314,
      "step_time": 3.020259452983737
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1367.0,
      "completions/max_terminated_length": 1367.0,
      "completions/mean_length": 725.234375,
      "completions/mean_terminated_length": 725.234375,
      "completions/min_length": 419.0,
      "completions/min_terminated_length": 419.0,
      "entropy": 0.6817195266485214,
      "epoch": 0.18631340323037687,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.373046875,
      "learning_rate": 8.13828279965996e-07,
      "loss": 0.0212,
      "num_tokens": 38487485.0,
      "reward": 0.2734375,
      "reward_std": 0.6542273163795471,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1315,
      "step_time": 45.26632712688297
    },
    {
      "clip_ratio/high_max": 0.0001711874829197768,
      "clip_ratio/high_mean": 0.0001711874829197768,
      "clip_ratio/low_mean": 0.00033899232948897406,
      "clip_ratio/low_min": 0.00033899232948897406,
      "clip_ratio/region_mean": 0.0005101798124087509,
      "entropy": 0.7192497737705708,
      "epoch": 0.1864550864267498,
      "grad_norm": 0.296875,
      "learning_rate": 8.13686596769623e-07,
      "loss": -0.0128,
      "step": 1316,
      "step_time": 3.1876231469213963
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1119.0,
      "completions/max_terminated_length": 1119.0,
      "completions/mean_length": 708.453125,
      "completions/mean_terminated_length": 708.453125,
      "completions/min_length": 301.0,
      "completions/min_terminated_length": 301.0,
      "entropy": 0.772707711905241,
      "epoch": 0.1865967696231227,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.53515625,
      "learning_rate": 8.135449135732502e-07,
      "loss": 0.1082,
      "num_tokens": 38541674.0,
      "reward": 0.3046875,
      "reward_std": 0.5883605480194092,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1317,
      "step_time": 36.66648688912392
    },
    {
      "clip_ratio/high_max": 0.0006281524874793831,
      "clip_ratio/high_mean": 0.0006281524874793831,
      "clip_ratio/low_mean": 0.000193596635654103,
      "clip_ratio/low_min": 0.000193596635654103,
      "clip_ratio/region_mean": 0.0008217491085815709,
      "entropy": 0.6446712091565132,
      "epoch": 0.1867384528194956,
      "grad_norm": 0.490234375,
      "learning_rate": 8.134032303768773e-07,
      "loss": -0.0676,
      "step": 1318,
      "step_time": 2.543577244505286
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1214.0,
      "completions/max_terminated_length": 1214.0,
      "completions/mean_length": 659.125,
      "completions/mean_terminated_length": 659.125,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "entropy": 0.804499689489603,
      "epoch": 0.18688013601586853,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.6484375,
      "learning_rate": 8.132615471805043e-07,
      "loss": -0.0593,
      "num_tokens": 38594866.0,
      "reward": 0.6171875,
      "reward_std": 0.8579330444335938,
      "rewards/accuracy_reward_func/mean": 0.53125,
      "rewards/accuracy_reward_func/std": 0.8903138637542725,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 1319,
      "step_time": 39.900171568617225
    },
    {
      "clip_ratio/high_max": 0.0007881168457970489,
      "clip_ratio/high_mean": 0.0007881168457970489,
      "clip_ratio/low_mean": 0.0007248912843351718,
      "clip_ratio/low_min": 0.0007248912843351718,
      "clip_ratio/region_mean": 0.001513008122856263,
      "entropy": 0.7446236982941628,
      "epoch": 0.18702181921224142,
      "grad_norm": 0.5546875,
      "learning_rate": 8.131198639841314e-07,
      "loss": 0.0535,
      "step": 1320,
      "step_time": 2.914556249976158
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1838.0,
      "completions/max_terminated_length": 1838.0,
      "completions/mean_length": 713.203125,
      "completions/mean_terminated_length": 713.203125,
      "completions/min_length": 10.0,
      "completions/min_terminated_length": 10.0,
      "entropy": 0.677268709987402,
      "epoch": 0.18716350240861435,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.322265625,
      "learning_rate": 8.129781807877585e-07,
      "loss": 0.0375,
      "num_tokens": 38649679.0,
      "reward": 0.4375,
      "reward_std": 0.7099072337150574,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1321,
      "step_time": 60.31288205459714
    },
    {
      "clip_ratio/high_max": 0.0002969603447127156,
      "clip_ratio/high_mean": 0.0002969603447127156,
      "clip_ratio/low_mean": 6.690331247227732e-05,
      "clip_ratio/low_min": 6.690331247227732e-05,
      "clip_ratio/region_mean": 0.0003638636571849929,
      "entropy": 0.5205884464085102,
      "epoch": 0.18730518560498724,
      "grad_norm": 0.341796875,
      "learning_rate": 8.128364975913856e-07,
      "loss": -0.005,
      "step": 1322,
      "step_time": 3.6484750248491764
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1188.0,
      "completions/max_terminated_length": 1188.0,
      "completions/mean_length": 645.265625,
      "completions/mean_terminated_length": 645.265625,
      "completions/min_length": 303.0,
      "completions/min_terminated_length": 303.0,
      "entropy": 1.114259086549282,
      "epoch": 0.18744686880136016,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1015625,
      "learning_rate": 8.126948143950128e-07,
      "loss": -0.052,
      "num_tokens": 38700896.0,
      "reward": 0.1171875,
      "reward_std": 0.21347814798355103,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1323,
      "step_time": 38.463825044222176
    },
    {
      "clip_ratio/high_max": 0.00016323236559401266,
      "clip_ratio/high_mean": 0.00016323236559401266,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00016323236559401266,
      "entropy": 1.5185344815254211,
      "epoch": 0.18758855199773306,
      "grad_norm": 0.5546875,
      "learning_rate": 8.125531311986398e-07,
      "loss": 0.0724,
      "step": 1324,
      "step_time": 2.8214660827070475
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1335.0,
      "completions/max_terminated_length": 1335.0,
      "completions/mean_length": 783.375,
      "completions/mean_terminated_length": 783.375,
      "completions/min_length": 268.0,
      "completions/min_terminated_length": 268.0,
      "entropy": 0.7283870354294777,
      "epoch": 0.18773023519410598,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.0859375,
      "learning_rate": 8.124114480022669e-07,
      "loss": 0.0192,
      "num_tokens": 38766536.0,
      "reward": 0.140625,
      "reward_std": 0.3615305721759796,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1325,
      "step_time": 44.513268638402224
    },
    {
      "clip_ratio/high_max": 3.243383616791107e-05,
      "clip_ratio/high_mean": 3.243383616791107e-05,
      "clip_ratio/low_mean": 0.00012439952115528286,
      "clip_ratio/low_min": 0.00012439952115528286,
      "clip_ratio/region_mean": 0.00015683335732319392,
      "entropy": 0.7338501662015915,
      "epoch": 0.1878719183904789,
      "grad_norm": 0.263671875,
      "learning_rate": 8.122697648058939e-07,
      "loss": -0.0282,
      "step": 1326,
      "step_time": 3.160468665882945
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1332.0,
      "completions/max_terminated_length": 1332.0,
      "completions/mean_length": 798.375,
      "completions/mean_terminated_length": 798.375,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "entropy": 0.7797961793839931,
      "epoch": 0.1880136015868518,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.267578125,
      "learning_rate": 8.12128081609521e-07,
      "loss": 0.0081,
      "num_tokens": 38829024.0,
      "reward": 0.2421875,
      "reward_std": 0.503891110420227,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1327,
      "step_time": 43.96422111801803
    },
    {
      "clip_ratio/high_max": 0.0005013170666643418,
      "clip_ratio/high_mean": 0.0005013170666643418,
      "clip_ratio/low_mean": 0.00011029854431399144,
      "clip_ratio/low_min": 0.00011029854431399144,
      "clip_ratio/region_mean": 0.0006116156109783333,
      "entropy": 0.6463447697460651,
      "epoch": 0.1881552847832247,
      "grad_norm": 0.486328125,
      "learning_rate": 8.119863984131482e-07,
      "loss": 0.0158,
      "step": 1328,
      "step_time": 3.081701929681003
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1715.0,
      "completions/max_terminated_length": 1715.0,
      "completions/mean_length": 933.8125,
      "completions/mean_terminated_length": 933.8125,
      "completions/min_length": 51.0,
      "completions/min_terminated_length": 51.0,
      "entropy": 0.3536688070744276,
      "epoch": 0.1882969679795976,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2373046875,
      "learning_rate": 8.118447152167752e-07,
      "loss": 0.0375,
      "num_tokens": 38897684.0,
      "reward": 0.21875,
      "reward_std": 0.5185067057609558,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1329,
      "step_time": 56.04942279495299
    },
    {
      "clip_ratio/high_max": 0.00010296921391272917,
      "clip_ratio/high_mean": 0.00010296921391272917,
      "clip_ratio/low_mean": 0.0002452031221764628,
      "clip_ratio/low_min": 0.0002452031221764628,
      "clip_ratio/region_mean": 0.00034817233608919196,
      "entropy": 0.4056917279958725,
      "epoch": 0.18843865117597053,
      "grad_norm": 0.37890625,
      "learning_rate": 8.117030320204024e-07,
      "loss": -0.0448,
      "step": 1330,
      "step_time": 3.4630398359149694
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1321.0,
      "completions/max_terminated_length": 1321.0,
      "completions/mean_length": 849.375,
      "completions/mean_terminated_length": 849.375,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "entropy": 0.660084430128336,
      "epoch": 0.18858033437234345,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2734375,
      "learning_rate": 8.115613488240294e-07,
      "loss": 0.0186,
      "num_tokens": 38963596.0,
      "reward": 0.109375,
      "reward_std": 0.2083333283662796,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1331,
      "step_time": 44.29694873280823
    },
    {
      "clip_ratio/high_max": 0.0004136273309995886,
      "clip_ratio/high_mean": 0.0004136273309995886,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0004136273309995886,
      "entropy": 0.6417457684874535,
      "epoch": 0.18872201756871634,
      "grad_norm": 0.232421875,
      "learning_rate": 8.114196656276565e-07,
      "loss": -0.0204,
      "step": 1332,
      "step_time": 2.9522546641528606
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1218.0,
      "completions/max_terminated_length": 1218.0,
      "completions/mean_length": 714.703125,
      "completions/mean_terminated_length": 714.703125,
      "completions/min_length": 16.0,
      "completions/min_terminated_length": 16.0,
      "entropy": 0.631327997893095,
      "epoch": 0.18886370076508927,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.408203125,
      "learning_rate": 8.112779824312837e-07,
      "loss": 0.0413,
      "num_tokens": 39019561.0,
      "reward": 0.5625,
      "reward_std": 0.9574271440505981,
      "rewards/accuracy_reward_func/mean": 0.4375,
      "rewards/accuracy_reward_func/std": 0.8333333730697632,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1333,
      "step_time": 40.52117981668562
    },
    {
      "clip_ratio/high_max": 0.00021853822909179144,
      "clip_ratio/high_mean": 0.00021853822909179144,
      "clip_ratio/low_mean": 0.0004221674389555119,
      "clip_ratio/low_min": 0.0004221674389555119,
      "clip_ratio/region_mean": 0.0006407056644093245,
      "entropy": 0.7589289508759975,
      "epoch": 0.18900538396146216,
      "grad_norm": 0.51953125,
      "learning_rate": 8.111362992349106e-07,
      "loss": -0.0261,
      "step": 1334,
      "step_time": 2.7462140060961246
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1069.0,
      "completions/max_terminated_length": 1069.0,
      "completions/mean_length": 678.15625,
      "completions/mean_terminated_length": 678.15625,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "entropy": 0.8729240149259567,
      "epoch": 0.18914706715783508,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.234375,
      "learning_rate": 8.109946160385378e-07,
      "loss": 0.0393,
      "num_tokens": 39072243.0,
      "reward": 0.2109375,
      "reward_std": 0.5477564930915833,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1335,
      "step_time": 35.1967767206952
    },
    {
      "clip_ratio/high_max": 8.652094402350485e-05,
      "clip_ratio/high_mean": 8.652094402350485e-05,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 8.652094402350485e-05,
      "entropy": 0.9822288304567337,
      "epoch": 0.189288750354208,
      "grad_norm": 0.306640625,
      "learning_rate": 8.108529328421648e-07,
      "loss": -0.0412,
      "step": 1336,
      "step_time": 2.4836328495293856
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1418.0,
      "completions/max_terminated_length": 1418.0,
      "completions/mean_length": 851.546875,
      "completions/mean_terminated_length": 851.546875,
      "completions/min_length": 16.0,
      "completions/min_terminated_length": 16.0,
      "entropy": 0.48015369661152363,
      "epoch": 0.1894304335505809,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.4140625,
      "learning_rate": 8.10711249645792e-07,
      "loss": -0.0018,
      "num_tokens": 39137382.0,
      "reward": 0.5859375,
      "reward_std": 0.9576537013053894,
      "rewards/accuracy_reward_func/mean": 0.46875,
      "rewards/accuracy_reward_func/std": 0.8539125919342041,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1337,
      "step_time": 46.42573742941022
    },
    {
      "clip_ratio/high_max": 0.0003285625898570288,
      "clip_ratio/high_mean": 0.0003285625898570288,
      "clip_ratio/low_mean": 0.0002481455976521829,
      "clip_ratio/low_min": 0.0002481455976521829,
      "clip_ratio/region_mean": 0.0005767081838712329,
      "entropy": 0.4583597257733345,
      "epoch": 0.18957211674695382,
      "grad_norm": 0.373046875,
      "learning_rate": 8.105695664494191e-07,
      "loss": 0.0051,
      "step": 1338,
      "step_time": 3.0768605517223477
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1954.0,
      "completions/max_terminated_length": 1954.0,
      "completions/mean_length": 820.28125,
      "completions/mean_terminated_length": 820.28125,
      "completions/min_length": 279.0,
      "completions/min_terminated_length": 279.0,
      "entropy": 0.44744960218667984,
      "epoch": 0.1897137999433267,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5,
      "learning_rate": 8.104278832530462e-07,
      "loss": -0.1178,
      "num_tokens": 39200712.0,
      "reward": 0.7734375,
      "reward_std": 1.0500555038452148,
      "rewards/accuracy_reward_func/mean": 0.65625,
      "rewards/accuracy_reward_func/std": 0.9464847445487976,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1339,
      "step_time": 65.13025282509625
    },
    {
      "clip_ratio/high_max": 0.0004738566240121145,
      "clip_ratio/high_mean": 0.0004738566240121145,
      "clip_ratio/low_mean": 0.00041626992970122956,
      "clip_ratio/low_min": 0.00041626992970122956,
      "clip_ratio/region_mean": 0.0008901265573513228,
      "entropy": 0.6238912120461464,
      "epoch": 0.18985548313969963,
      "grad_norm": 0.380859375,
      "learning_rate": 8.102862000566733e-07,
      "loss": 0.1052,
      "step": 1340,
      "step_time": 3.8850031597539783
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1038.0,
      "completions/max_terminated_length": 1038.0,
      "completions/mean_length": 535.25,
      "completions/mean_terminated_length": 535.25,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "entropy": 0.807175450026989,
      "epoch": 0.18999716633607255,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.76171875,
      "learning_rate": 8.101445168603003e-07,
      "loss": -0.0136,
      "num_tokens": 39243336.0,
      "reward": 0.4375,
      "reward_std": 0.7532995939254761,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1341,
      "step_time": 33.920674903318286
    },
    {
      "clip_ratio/high_max": 0.00032173840008908883,
      "clip_ratio/high_mean": 0.00032173840008908883,
      "clip_ratio/low_mean": 0.0010598457447485998,
      "clip_ratio/low_min": 0.0010598457447485998,
      "clip_ratio/region_mean": 0.0013815841521136463,
      "entropy": 0.7637649402022362,
      "epoch": 0.19013884953244545,
      "grad_norm": 0.59765625,
      "learning_rate": 8.100028336639274e-07,
      "loss": 0.0056,
      "step": 1342,
      "step_time": 2.526925379410386
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1312.0,
      "completions/max_terminated_length": 1312.0,
      "completions/mean_length": 704.734375,
      "completions/mean_terminated_length": 704.734375,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "entropy": 0.7424673140048981,
      "epoch": 0.19028053272881837,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.58203125,
      "learning_rate": 8.098611504675545e-07,
      "loss": 0.0624,
      "num_tokens": 39299319.0,
      "reward": 0.3125,
      "reward_std": 0.6267831921577454,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 1343,
      "step_time": 42.763996647670865
    },
    {
      "clip_ratio/high_max": 0.0003805808228207752,
      "clip_ratio/high_mean": 0.0003805808228207752,
      "clip_ratio/low_mean": 0.00012564214193844236,
      "clip_ratio/low_min": 0.00012564214193844236,
      "clip_ratio/region_mean": 0.0005062229683971964,
      "entropy": 0.6328342445194721,
      "epoch": 0.19042221592519126,
      "grad_norm": 0.34375,
      "learning_rate": 8.097194672711816e-07,
      "loss": -0.0432,
      "step": 1344,
      "step_time": 2.9025161089375615
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1733.0,
      "completions/max_terminated_length": 1733.0,
      "completions/mean_length": 811.953125,
      "completions/mean_terminated_length": 811.953125,
      "completions/min_length": 428.0,
      "completions/min_terminated_length": 428.0,
      "entropy": 0.7239931672811508,
      "epoch": 0.19056389912156418,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2099609375,
      "learning_rate": 8.095777840748087e-07,
      "loss": -0.0005,
      "num_tokens": 39363380.0,
      "reward": 0.25,
      "reward_std": 0.5039526224136353,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1345,
      "step_time": 57.47905535902828
    },
    {
      "clip_ratio/high_max": 8.37043953652028e-05,
      "clip_ratio/high_mean": 8.37043953652028e-05,
      "clip_ratio/low_mean": 4.76917193736881e-05,
      "clip_ratio/low_min": 4.76917193736881e-05,
      "clip_ratio/region_mean": 0.0001313961147388909,
      "entropy": 0.6747841015458107,
      "epoch": 0.1907055823179371,
      "grad_norm": 0.2021484375,
      "learning_rate": 8.094361008784359e-07,
      "loss": -0.01,
      "step": 1346,
      "step_time": 3.819514451548457
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1796.0,
      "completions/max_terminated_length": 1796.0,
      "completions/mean_length": 893.0625,
      "completions/mean_terminated_length": 893.0625,
      "completions/min_length": 9.0,
      "completions/min_terminated_length": 9.0,
      "entropy": 0.3807215355336666,
      "epoch": 0.19084726551431,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2119140625,
      "learning_rate": 8.092944176820629e-07,
      "loss": 0.0574,
      "num_tokens": 39429336.0,
      "reward": 0.625,
      "reward_std": 1.0764433145523071,
      "rewards/accuracy_reward_func/mean": 0.5,
      "rewards/accuracy_reward_func/std": 0.8728715777397156,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1347,
      "step_time": 58.724064433947206
    },
    {
      "clip_ratio/high_max": 0.0001500724501966033,
      "clip_ratio/high_mean": 0.0001500724501966033,
      "clip_ratio/low_mean": 0.00017398109412170015,
      "clip_ratio/low_min": 0.00017398109412170015,
      "clip_ratio/region_mean": 0.00032405354431830347,
      "entropy": 0.417115468531847,
      "epoch": 0.19098894871068292,
      "grad_norm": 0.37890625,
      "learning_rate": 8.091527344856899e-07,
      "loss": -0.0632,
      "step": 1348,
      "step_time": 3.5615502577275038
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 998.0,
      "completions/max_terminated_length": 998.0,
      "completions/mean_length": 602.171875,
      "completions/mean_terminated_length": 602.171875,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "entropy": 0.7854431308805943,
      "epoch": 0.19113063190705581,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.80078125,
      "learning_rate": 8.09011051289317e-07,
      "loss": -0.0895,
      "num_tokens": 39479123.0,
      "reward": 0.21875,
      "reward_std": 0.4869324266910553,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1349,
      "step_time": 32.79847498331219
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00035875079265679233,
      "clip_ratio/low_min": 0.00035875079265679233,
      "clip_ratio/region_mean": 0.00035875079265679233,
      "entropy": 0.8522897437214851,
      "epoch": 0.19127231510342874,
      "grad_norm": 0.21875,
      "learning_rate": 8.088693680929441e-07,
      "loss": 0.0859,
      "step": 1350,
      "step_time": 2.495007447898388
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1298.0,
      "completions/max_terminated_length": 1298.0,
      "completions/mean_length": 761.09375,
      "completions/mean_terminated_length": 761.09375,
      "completions/min_length": 324.0,
      "completions/min_terminated_length": 324.0,
      "entropy": 0.8685138076543808,
      "epoch": 0.19141399829980163,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.107421875,
      "learning_rate": 8.087276848965713e-07,
      "loss": 0.0301,
      "num_tokens": 39541673.0,
      "reward": 0.15625,
      "reward_std": 0.3196600377559662,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1351,
      "step_time": 42.72840402647853
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 3.0266342946561053e-05,
      "clip_ratio/low_min": 3.0266342946561053e-05,
      "clip_ratio/region_mean": 3.0266342946561053e-05,
      "entropy": 0.696037121117115,
      "epoch": 0.19155568149617455,
      "grad_norm": 0.3828125,
      "learning_rate": 8.085860017001983e-07,
      "loss": -0.0547,
      "step": 1352,
      "step_time": 2.9288128027692437
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1280.0,
      "completions/max_terminated_length": 1280.0,
      "completions/mean_length": 653.453125,
      "completions/mean_terminated_length": 653.453125,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "entropy": 0.9120864868164062,
      "epoch": 0.19169736469254747,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.08740234375,
      "learning_rate": 8.084443185038255e-07,
      "loss": 0.0241,
      "num_tokens": 39595334.0,
      "reward": 0.15625,
      "reward_std": 0.3196600377559662,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1353,
      "step_time": 41.80267043970525
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00036464413642534055,
      "clip_ratio/low_min": 0.00036464413642534055,
      "clip_ratio/region_mean": 0.00036464413642534055,
      "entropy": 0.9289886578917503,
      "epoch": 0.19183904788892037,
      "grad_norm": 0.33203125,
      "learning_rate": 8.083026353074525e-07,
      "loss": 0.0006,
      "step": 1354,
      "step_time": 2.83668290451169
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1597.0,
      "completions/max_terminated_length": 1597.0,
      "completions/mean_length": 799.328125,
      "completions/mean_terminated_length": 799.328125,
      "completions/min_length": 352.0,
      "completions/min_terminated_length": 352.0,
      "entropy": 0.6887334324419498,
      "epoch": 0.1919807310852933,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.494140625,
      "learning_rate": 8.081609521110795e-07,
      "loss": -0.015,
      "num_tokens": 39658171.0,
      "reward": 0.390625,
      "reward_std": 0.7317556142807007,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1355,
      "step_time": 53.23138003889471
    },
    {
      "clip_ratio/high_max": 0.0002120639182976447,
      "clip_ratio/high_mean": 0.0002120639182976447,
      "clip_ratio/low_mean": 0.00039226511944434606,
      "clip_ratio/low_min": 0.00039226511944434606,
      "clip_ratio/region_mean": 0.0006043290304660331,
      "entropy": 0.8131209798157215,
      "epoch": 0.19212241428166618,
      "grad_norm": 0.5546875,
      "learning_rate": 8.080192689147067e-07,
      "loss": -0.0265,
      "step": 1356,
      "step_time": 3.5216403109952807
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1127.0,
      "completions/max_terminated_length": 1127.0,
      "completions/mean_length": 708.65625,
      "completions/mean_terminated_length": 708.65625,
      "completions/min_length": 323.0,
      "completions/min_terminated_length": 323.0,
      "entropy": 0.9070982411503792,
      "epoch": 0.1922640974780391,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.37109375,
      "learning_rate": 8.078775857183337e-07,
      "loss": -0.0099,
      "num_tokens": 39713573.0,
      "reward": 0.1875,
      "reward_std": 0.39339789748191833,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1357,
      "step_time": 36.56720641814172
    },
    {
      "clip_ratio/high_max": 4.822530900128186e-05,
      "clip_ratio/high_mean": 4.822530900128186e-05,
      "clip_ratio/low_mean": 0.00017864308028947562,
      "clip_ratio/low_min": 0.00017864308028947562,
      "clip_ratio/region_mean": 0.00022686838929075748,
      "entropy": 1.016740508377552,
      "epoch": 0.19240578067441202,
      "grad_norm": 0.3046875,
      "learning_rate": 8.077359025219609e-07,
      "loss": -0.0099,
      "step": 1358,
      "step_time": 2.54192385263741
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1582.0,
      "completions/max_terminated_length": 1582.0,
      "completions/mean_length": 890.109375,
      "completions/mean_terminated_length": 890.109375,
      "completions/min_length": 445.0,
      "completions/min_terminated_length": 445.0,
      "entropy": 0.47492824494838715,
      "epoch": 0.19254746387078492,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.28125,
      "learning_rate": 8.075942193255879e-07,
      "loss": 0.07,
      "num_tokens": 39781580.0,
      "reward": 0.484375,
      "reward_std": 0.8772646188735962,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1359,
      "step_time": 52.503904149867594
    },
    {
      "clip_ratio/high_max": 0.00032218558408203535,
      "clip_ratio/high_mean": 0.00032218558408203535,
      "clip_ratio/low_mean": 7.101656592567451e-05,
      "clip_ratio/low_min": 7.101656592567451e-05,
      "clip_ratio/region_mean": 0.00039320215000770986,
      "entropy": 0.5418030694127083,
      "epoch": 0.19268914706715784,
      "grad_norm": 0.283203125,
      "learning_rate": 8.074525361292151e-07,
      "loss": -0.0586,
      "step": 1360,
      "step_time": 3.36871955730021
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1549.0,
      "completions/max_terminated_length": 1549.0,
      "completions/mean_length": 768.234375,
      "completions/mean_terminated_length": 768.234375,
      "completions/min_length": 404.0,
      "completions/min_terminated_length": 404.0,
      "entropy": 1.2274256721138954,
      "epoch": 0.19283083026353073,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.625,
      "learning_rate": 8.073108529328422e-07,
      "loss": 0.0162,
      "num_tokens": 39845691.0,
      "reward": 0.140625,
      "reward_std": 0.3145764470100403,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1361,
      "step_time": 51.22619944810867
    },
    {
      "clip_ratio/high_max": 0.000449823204689892,
      "clip_ratio/high_mean": 0.000449823204689892,
      "clip_ratio/low_mean": 4.929022179567255e-05,
      "clip_ratio/low_min": 4.929022179567255e-05,
      "clip_ratio/region_mean": 0.0004991134264855646,
      "entropy": 1.0514533966779709,
      "epoch": 0.19297251345990366,
      "grad_norm": 0.1259765625,
      "learning_rate": 8.071691697364692e-07,
      "loss": -0.0111,
      "step": 1362,
      "step_time": 3.334192412905395
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1493.0,
      "completions/max_terminated_length": 1493.0,
      "completions/mean_length": 874.328125,
      "completions/mean_terminated_length": 874.328125,
      "completions/min_length": 491.0,
      "completions/min_terminated_length": 491.0,
      "entropy": 0.7450679391622543,
      "epoch": 0.19311419665627658,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.451171875,
      "learning_rate": 8.070274865400963e-07,
      "loss": 0.0113,
      "num_tokens": 39912224.0,
      "reward": 0.203125,
      "reward_std": 0.4517931640148163,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1363,
      "step_time": 48.94682804308832
    },
    {
      "clip_ratio/high_max": 0.0004891167518508155,
      "clip_ratio/high_mean": 0.0004891167518508155,
      "clip_ratio/low_mean": 0.00011529101539053954,
      "clip_ratio/low_min": 0.00011529101539053954,
      "clip_ratio/region_mean": 0.000604407767241355,
      "entropy": 0.8359299153089523,
      "epoch": 0.19325587985264947,
      "grad_norm": 0.416015625,
      "learning_rate": 8.068858033437233e-07,
      "loss": -0.0322,
      "step": 1364,
      "step_time": 3.4080408131703734
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1647.0,
      "completions/max_terminated_length": 1647.0,
      "completions/mean_length": 774.9375,
      "completions/mean_terminated_length": 774.9375,
      "completions/min_length": 326.0,
      "completions/min_terminated_length": 326.0,
      "entropy": 0.5973724648356438,
      "epoch": 0.1933975630490224,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.55859375,
      "learning_rate": 8.067441201473505e-07,
      "loss": 0.0604,
      "num_tokens": 39970796.0,
      "reward": 0.1484375,
      "reward_std": 0.3172261714935303,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1365,
      "step_time": 53.67805142235011
    },
    {
      "clip_ratio/high_max": 0.00022828632427263074,
      "clip_ratio/high_mean": 0.00022828632427263074,
      "clip_ratio/low_mean": 0.00018071290469379164,
      "clip_ratio/low_min": 0.00018071290469379164,
      "clip_ratio/region_mean": 0.0004089992326044012,
      "entropy": 0.8410280868411064,
      "epoch": 0.19353924624539529,
      "grad_norm": 0.09375,
      "learning_rate": 8.066024369509776e-07,
      "loss": -0.0201,
      "step": 1366,
      "step_time": 3.349217745475471
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1471.0,
      "completions/max_terminated_length": 1471.0,
      "completions/mean_length": 971.703125,
      "completions/mean_terminated_length": 971.703125,
      "completions/min_length": 477.0,
      "completions/min_terminated_length": 477.0,
      "entropy": 0.6105809174478054,
      "epoch": 0.1936809294417682,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.408203125,
      "learning_rate": 8.064607537546047e-07,
      "loss": -0.0477,
      "num_tokens": 40043625.0,
      "reward": 0.140625,
      "reward_std": 0.3145764470100403,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1367,
      "step_time": 48.84299322683364
    },
    {
      "clip_ratio/high_max": 0.00012683131353696808,
      "clip_ratio/high_mean": 0.00012683131353696808,
      "clip_ratio/low_mean": 0.0001531964517198503,
      "clip_ratio/low_min": 0.0001531964517198503,
      "clip_ratio/region_mean": 0.0002800277652568184,
      "entropy": 0.5769317671656609,
      "epoch": 0.19382261263814113,
      "grad_norm": 0.2041015625,
      "learning_rate": 8.063190705582318e-07,
      "loss": 0.0283,
      "step": 1368,
      "step_time": 3.470097491517663
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1769.0,
      "completions/max_terminated_length": 1769.0,
      "completions/mean_length": 853.53125,
      "completions/mean_terminated_length": 853.53125,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "entropy": 0.5824069641530514,
      "epoch": 0.19396429583451402,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.4453125,
      "learning_rate": 8.061773873618588e-07,
      "loss": -0.0155,
      "num_tokens": 40108763.0,
      "reward": 0.4140625,
      "reward_std": 0.7157784700393677,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1369,
      "step_time": 59.01111969072372
    },
    {
      "clip_ratio/high_max": 0.00027162180049344897,
      "clip_ratio/high_mean": 0.00027162180049344897,
      "clip_ratio/low_mean": 0.0002861035136447754,
      "clip_ratio/low_min": 0.0002861035136447754,
      "clip_ratio/region_mean": 0.0005577253141382243,
      "entropy": 0.5462942235171795,
      "epoch": 0.19410597903088694,
      "grad_norm": 0.388671875,
      "learning_rate": 8.060357041654859e-07,
      "loss": 0.0402,
      "step": 1370,
      "step_time": 3.649151130579412
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1761.0,
      "completions/max_terminated_length": 1761.0,
      "completions/mean_length": 987.296875,
      "completions/mean_terminated_length": 987.296875,
      "completions/min_length": 488.0,
      "completions/min_terminated_length": 488.0,
      "entropy": 0.4460670202970505,
      "epoch": 0.19424766222725984,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2353515625,
      "learning_rate": 8.05894020969113e-07,
      "loss": 0.0294,
      "num_tokens": 40183454.0,
      "reward": 0.1015625,
      "reward_std": 0.20275263488292694,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1371,
      "step_time": 58.33654813747853
    },
    {
      "clip_ratio/high_max": 0.00021533906510740053,
      "clip_ratio/high_mean": 0.00021533906510740053,
      "clip_ratio/low_mean": 3.120319524896331e-05,
      "clip_ratio/low_min": 3.120319524896331e-05,
      "clip_ratio/region_mean": 0.00024654226035636384,
      "entropy": 0.5374387688934803,
      "epoch": 0.19438934542363276,
      "grad_norm": 0.1826171875,
      "learning_rate": 8.057523377727401e-07,
      "loss": -0.016,
      "step": 1372,
      "step_time": 3.6663272250443697
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1628.0,
      "completions/max_terminated_length": 1628.0,
      "completions/mean_length": 876.84375,
      "completions/mean_terminated_length": 876.84375,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "entropy": 0.5383695960044861,
      "epoch": 0.19453102862000568,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.44921875,
      "learning_rate": 8.056106545763672e-07,
      "loss": 0.0152,
      "num_tokens": 40250420.0,
      "reward": 0.2109375,
      "reward_std": 0.4525473415851593,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1373,
      "step_time": 53.76507585030049
    },
    {
      "clip_ratio/high_max": 0.0004169847088633105,
      "clip_ratio/high_mean": 0.0004169847088633105,
      "clip_ratio/low_mean": 0.00011579456622712314,
      "clip_ratio/low_min": 0.00011579456622712314,
      "clip_ratio/region_mean": 0.0005327792750904337,
      "entropy": 0.5859816744923592,
      "epoch": 0.19467271181637857,
      "grad_norm": 0.15625,
      "learning_rate": 8.054689713799943e-07,
      "loss": -0.0241,
      "step": 1374,
      "step_time": 3.467758247628808
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1611.0,
      "completions/max_terminated_length": 1611.0,
      "completions/mean_length": 616.59375,
      "completions/mean_terminated_length": 616.59375,
      "completions/min_length": 207.0,
      "completions/min_terminated_length": 207.0,
      "entropy": 0.696945708245039,
      "epoch": 0.1948143950127515,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.75,
      "learning_rate": 8.053272881836214e-07,
      "loss": -0.0817,
      "num_tokens": 40298698.0,
      "reward": 0.5859375,
      "reward_std": 0.8888850212097168,
      "rewards/accuracy_reward_func/mean": 0.46875,
      "rewards/accuracy_reward_func/std": 0.8539125919342041,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1375,
      "step_time": 52.673563967458904
    },
    {
      "clip_ratio/high_max": 0.00010606703290250152,
      "clip_ratio/high_mean": 0.00010606703290250152,
      "clip_ratio/low_mean": 0.0006013832244207151,
      "clip_ratio/low_min": 0.0006013832244207151,
      "clip_ratio/region_mean": 0.0007074502573232166,
      "entropy": 0.5929930098354816,
      "epoch": 0.1949560782091244,
      "grad_norm": 0.42578125,
      "learning_rate": 8.051856049872486e-07,
      "loss": 0.0868,
      "step": 1376,
      "step_time": 3.308240416459739
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1438.0,
      "completions/max_terminated_length": 1438.0,
      "completions/mean_length": 771.90625,
      "completions/mean_terminated_length": 771.90625,
      "completions/min_length": 12.0,
      "completions/min_terminated_length": 12.0,
      "entropy": 0.7371804937720299,
      "epoch": 0.1950977614054973,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.3828125,
      "learning_rate": 8.050439217908755e-07,
      "loss": -0.0522,
      "num_tokens": 40359252.0,
      "reward": 0.1875,
      "reward_std": 0.44986769556999207,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 1377,
      "step_time": 47.19203379377723
    },
    {
      "clip_ratio/high_max": 0.0002106973079207819,
      "clip_ratio/high_mean": 0.0002106973079207819,
      "clip_ratio/low_mean": 0.00040767368773231283,
      "clip_ratio/low_min": 0.00040767368773231283,
      "clip_ratio/region_mean": 0.0006183709920151159,
      "entropy": 0.8025626316666603,
      "epoch": 0.1952394446018702,
      "grad_norm": 0.5703125,
      "learning_rate": 8.049022385945027e-07,
      "loss": 0.0305,
      "step": 1378,
      "step_time": 3.0985067430883646
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1403.0,
      "completions/max_terminated_length": 1403.0,
      "completions/mean_length": 781.359375,
      "completions/mean_terminated_length": 781.359375,
      "completions/min_length": 339.0,
      "completions/min_terminated_length": 339.0,
      "entropy": 0.9176442921161652,
      "epoch": 0.19538112779824313,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.26953125,
      "learning_rate": 8.047605553981297e-07,
      "loss": 0.0228,
      "num_tokens": 40423787.0,
      "reward": 0.109375,
      "reward_std": 0.2083333283662796,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1379,
      "step_time": 46.20345296896994
    },
    {
      "clip_ratio/high_max": 0.00012169052570243366,
      "clip_ratio/high_mean": 0.00012169052570243366,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00012169052570243366,
      "entropy": 0.7534737810492516,
      "epoch": 0.19552281099461605,
      "grad_norm": 0.326171875,
      "learning_rate": 8.046188722017568e-07,
      "loss": -0.0197,
      "step": 1380,
      "step_time": 3.1843795301392674
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1390.0,
      "completions/max_terminated_length": 1390.0,
      "completions/mean_length": 636.984375,
      "completions/mean_terminated_length": 636.984375,
      "completions/min_length": 373.0,
      "completions/min_terminated_length": 373.0,
      "entropy": 0.9070303812623024,
      "epoch": 0.19566449419098894,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.56640625,
      "learning_rate": 8.04477189005384e-07,
      "loss": 0.002,
      "num_tokens": 40475194.0,
      "reward": 0.8125,
      "reward_std": 0.9738648533821106,
      "rewards/accuracy_reward_func/mean": 0.6875,
      "rewards/accuracy_reward_func/std": 0.9574271440505981,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1381,
      "step_time": 45.42176482081413
    },
    {
      "clip_ratio/high_max": 0.0005441710636659991,
      "clip_ratio/high_mean": 0.0005441710636659991,
      "clip_ratio/low_mean": 0.00017742237105267122,
      "clip_ratio/low_min": 0.00017742237105267122,
      "clip_ratio/region_mean": 0.0007215934347186703,
      "entropy": 0.8134888932108879,
      "epoch": 0.19580617738736186,
      "grad_norm": 0.5078125,
      "learning_rate": 8.04335505809011e-07,
      "loss": 0.0636,
      "step": 1382,
      "step_time": 3.057664230465889
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1296.0,
      "completions/max_terminated_length": 1296.0,
      "completions/mean_length": 667.546875,
      "completions/mean_terminated_length": 667.546875,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "entropy": 0.7772462442517281,
      "epoch": 0.19594786058373476,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.65234375,
      "learning_rate": 8.041938226126382e-07,
      "loss": 0.022,
      "num_tokens": 40529565.0,
      "reward": 0.25,
      "reward_std": 0.5345224738121033,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1383,
      "step_time": 43.06655933801085
    },
    {
      "clip_ratio/high_max": 8.93802207428962e-05,
      "clip_ratio/high_mean": 8.93802207428962e-05,
      "clip_ratio/low_mean": 0.0008129675625241362,
      "clip_ratio/low_min": 0.0008129675625241362,
      "clip_ratio/region_mean": 0.0009023477869050112,
      "entropy": 0.8027528747916222,
      "epoch": 0.19608954378010768,
      "grad_norm": 0.64453125,
      "learning_rate": 8.040521394162651e-07,
      "loss": -0.0095,
      "step": 1384,
      "step_time": 2.915324908681214
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1489.0,
      "completions/max_terminated_length": 1489.0,
      "completions/mean_length": 705.125,
      "completions/mean_terminated_length": 705.125,
      "completions/min_length": 321.0,
      "completions/min_terminated_length": 321.0,
      "entropy": 0.41457624360919,
      "epoch": 0.1962312269764806,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.45703125,
      "learning_rate": 8.039104562198923e-07,
      "loss": -0.0087,
      "num_tokens": 40584197.0,
      "reward": 0.3671875,
      "reward_std": 0.807908296585083,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1385,
      "step_time": 48.39811480604112
    },
    {
      "clip_ratio/high_max": 5.0709939387161285e-05,
      "clip_ratio/high_mean": 5.0709939387161285e-05,
      "clip_ratio/low_mean": 0.00013679281255463138,
      "clip_ratio/low_min": 0.00013679281255463138,
      "clip_ratio/region_mean": 0.00018750275194179267,
      "entropy": 0.4570984113961458,
      "epoch": 0.1963729101728535,
      "grad_norm": 0.2197265625,
      "learning_rate": 8.037687730235194e-07,
      "loss": 0.015,
      "step": 1386,
      "step_time": 3.296093304641545
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1662.0,
      "completions/max_terminated_length": 1662.0,
      "completions/mean_length": 750.796875,
      "completions/mean_terminated_length": 750.796875,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "entropy": 0.47218596190214157,
      "epoch": 0.19651459336922641,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.453125,
      "learning_rate": 8.036270898271464e-07,
      "loss": 0.0541,
      "num_tokens": 40640312.0,
      "reward": 0.6875,
      "reward_std": 1.0370134115219116,
      "rewards/accuracy_reward_func/mean": 0.5625,
      "rewards/accuracy_reward_func/std": 0.9063270092010498,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1387,
      "step_time": 54.05968839302659
    },
    {
      "clip_ratio/high_max": 0.0003381923997949343,
      "clip_ratio/high_mean": 0.0003381923997949343,
      "clip_ratio/low_mean": 0.0005051156404078938,
      "clip_ratio/low_min": 0.0005051156404078938,
      "clip_ratio/region_mean": 0.0008433080329268705,
      "entropy": 0.450248870998621,
      "epoch": 0.1966562765655993,
      "grad_norm": 0.458984375,
      "learning_rate": 8.034854066307736e-07,
      "loss": -0.0464,
      "step": 1388,
      "step_time": 3.352916108444333
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1198.0,
      "completions/max_terminated_length": 1198.0,
      "completions/mean_length": 743.6875,
      "completions/mean_terminated_length": 743.6875,
      "completions/min_length": 352.0,
      "completions/min_terminated_length": 352.0,
      "entropy": 0.6867222338914871,
      "epoch": 0.19679795976197223,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.52734375,
      "learning_rate": 8.033437234344006e-07,
      "loss": -0.082,
      "num_tokens": 40696580.0,
      "reward": 0.375,
      "reward_std": 0.6784669756889343,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1389,
      "step_time": 38.87836455274373
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00032359296892536804,
      "clip_ratio/low_min": 0.00032359296892536804,
      "clip_ratio/region_mean": 0.00032359296892536804,
      "entropy": 0.5278911590576172,
      "epoch": 0.19693964295834515,
      "grad_norm": 0.33984375,
      "learning_rate": 8.032020402380278e-07,
      "loss": 0.0515,
      "step": 1390,
      "step_time": 2.812976563349366
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1364.0,
      "completions/max_terminated_length": 1364.0,
      "completions/mean_length": 813.75,
      "completions/mean_terminated_length": 813.75,
      "completions/min_length": 445.0,
      "completions/min_terminated_length": 445.0,
      "entropy": 0.7091493457555771,
      "epoch": 0.19708132615471805,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.298828125,
      "learning_rate": 8.030603570416548e-07,
      "loss": -0.0833,
      "num_tokens": 40759332.0,
      "reward": 0.21875,
      "reward_std": 0.4531635046005249,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1391,
      "step_time": 44.512672365643084
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00015176873057498597,
      "clip_ratio/low_min": 0.00015176873057498597,
      "clip_ratio/region_mean": 0.00015176873057498597,
      "entropy": 0.8884679600596428,
      "epoch": 0.19722300935109097,
      "grad_norm": 0.2431640625,
      "learning_rate": 8.029186738452819e-07,
      "loss": 0.0612,
      "step": 1392,
      "step_time": 2.95152775477618
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1066.0,
      "completions/max_terminated_length": 1066.0,
      "completions/mean_length": 714.859375,
      "completions/mean_terminated_length": 714.859375,
      "completions/min_length": 316.0,
      "completions/min_terminated_length": 316.0,
      "entropy": 0.843204639852047,
      "epoch": 0.19736469254746386,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.25,
      "learning_rate": 8.02776990648909e-07,
      "loss": 0.0481,
      "num_tokens": 40817899.0,
      "reward": 0.28125,
      "reward_std": 0.6777355074882507,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1393,
      "step_time": 35.565169115550816
    },
    {
      "clip_ratio/high_max": 9.122900883085094e-05,
      "clip_ratio/high_mean": 9.122900883085094e-05,
      "clip_ratio/low_mean": 0.00017379504788550548,
      "clip_ratio/low_min": 0.00017379504788550548,
      "clip_ratio/region_mean": 0.0002650240567163564,
      "entropy": 0.8386528939008713,
      "epoch": 0.19750637574383678,
      "grad_norm": 0.330078125,
      "learning_rate": 8.02635307452536e-07,
      "loss": -0.0422,
      "step": 1394,
      "step_time": 2.8441736279055476
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1196.0,
      "completions/max_terminated_length": 1196.0,
      "completions/mean_length": 713.34375,
      "completions/mean_terminated_length": 713.34375,
      "completions/min_length": 326.0,
      "completions/min_terminated_length": 326.0,
      "entropy": 1.0189931988716125,
      "epoch": 0.1976480589402097,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.6953125,
      "learning_rate": 8.024936242561632e-07,
      "loss": -0.0171,
      "num_tokens": 40873505.0,
      "reward": 0.28125,
      "reward_std": 0.5482656359672546,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1395,
      "step_time": 39.52540697064251
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0002760107126960065,
      "clip_ratio/low_min": 0.0002760107126960065,
      "clip_ratio/region_mean": 0.0002760107126960065,
      "entropy": 0.9284583330154419,
      "epoch": 0.1977897421365826,
      "grad_norm": 0.380859375,
      "learning_rate": 8.023519410597903e-07,
      "loss": 0.0117,
      "step": 1396,
      "step_time": 2.7204629816114902
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1471.0,
      "completions/max_terminated_length": 1471.0,
      "completions/mean_length": 688.53125,
      "completions/mean_terminated_length": 688.53125,
      "completions/min_length": 319.0,
      "completions/min_terminated_length": 319.0,
      "entropy": 0.8969989940524101,
      "epoch": 0.19793142533295552,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.337890625,
      "learning_rate": 8.022102578634174e-07,
      "loss": 0.011,
      "num_tokens": 40929795.0,
      "reward": 0.1015625,
      "reward_std": 0.20275263488292694,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1397,
      "step_time": 48.90498048439622
    },
    {
      "clip_ratio/high_max": 0.0003594215668272227,
      "clip_ratio/high_mean": 0.0003594215668272227,
      "clip_ratio/low_mean": 3.553155329427682e-05,
      "clip_ratio/low_min": 3.553155329427682e-05,
      "clip_ratio/region_mean": 0.0003949531201214995,
      "entropy": 0.7860480919480324,
      "epoch": 0.1980731085293284,
      "grad_norm": 0.376953125,
      "learning_rate": 8.020685746670444e-07,
      "loss": 0.0121,
      "step": 1398,
      "step_time": 3.373973504640162
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1638.0,
      "completions/max_terminated_length": 1638.0,
      "completions/mean_length": 794.0,
      "completions/mean_terminated_length": 794.0,
      "completions/min_length": 261.0,
      "completions/min_terminated_length": 261.0,
      "entropy": 0.572808425873518,
      "epoch": 0.19821479172570133,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.515625,
      "learning_rate": 8.019268914706715e-07,
      "loss": -0.025,
      "num_tokens": 40999507.0,
      "reward": 0.4296875,
      "reward_std": 0.7552314400672913,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1399,
      "step_time": 58.01113618258387
    },
    {
      "clip_ratio/high_max": 0.00019953671289840713,
      "clip_ratio/high_mean": 0.00019953671289840713,
      "clip_ratio/low_mean": 0.0005145922586962115,
      "clip_ratio/low_min": 0.0005145922586962115,
      "clip_ratio/region_mean": 0.0007141289715946186,
      "entropy": 0.5153793059289455,
      "epoch": 0.19835647492207426,
      "grad_norm": 0.33984375,
      "learning_rate": 8.017852082742986e-07,
      "loss": 0.0774,
      "step": 1400,
      "step_time": 4.171117085032165
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1420.0,
      "completions/max_terminated_length": 1420.0,
      "completions/mean_length": 605.53125,
      "completions/mean_terminated_length": 605.53125,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "entropy": 0.7888671234250069,
      "epoch": 0.19849815811844715,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 8.016435250779258e-07,
      "loss": 0.0,
      "num_tokens": 41047173.0,
      "reward": 0.125,
      "reward_std": 0.2182178944349289,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1401,
      "step_time": 46.75723041873425
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 1.0776785910129547,
      "epoch": 0.19863984131482007,
      "grad_norm": 0.0,
      "learning_rate": 8.015018418815528e-07,
      "loss": 0.0,
      "step": 1402,
      "step_time": 2.959437639452517
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1484.0,
      "completions/max_terminated_length": 1484.0,
      "completions/mean_length": 702.0625,
      "completions/mean_terminated_length": 702.0625,
      "completions/min_length": 18.0,
      "completions/min_terminated_length": 18.0,
      "entropy": 0.5863572545349598,
      "epoch": 0.19878152451119296,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.39453125,
      "learning_rate": 8.0136015868518e-07,
      "loss": -0.0407,
      "num_tokens": 41106233.0,
      "reward": 0.8125,
      "reward_std": 0.8886408805847168,
      "rewards/accuracy_reward_func/mean": 0.6875,
      "rewards/accuracy_reward_func/std": 0.9574271440505981,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1403,
      "step_time": 50.701762271113694
    },
    {
      "clip_ratio/high_max": 0.0001985688868444413,
      "clip_ratio/high_mean": 0.0001985688868444413,
      "clip_ratio/low_mean": 0.00044716352931573056,
      "clip_ratio/low_min": 0.00044716352931573056,
      "clip_ratio/region_mean": 0.0006457324234361295,
      "entropy": 0.5912301987409592,
      "epoch": 0.19892320770756589,
      "grad_norm": 0.578125,
      "learning_rate": 8.01218475488807e-07,
      "loss": 0.0,
      "step": 1404,
      "step_time": 3.4275091756135225
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1115.0,
      "completions/max_terminated_length": 1115.0,
      "completions/mean_length": 645.53125,
      "completions/mean_terminated_length": 645.53125,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "entropy": 0.6047612503170967,
      "epoch": 0.19906489090393878,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2890625,
      "learning_rate": 8.01076792292434e-07,
      "loss": -0.0735,
      "num_tokens": 41156907.0,
      "reward": 0.4140625,
      "reward_std": 0.7157784700393677,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1405,
      "step_time": 36.54285683296621
    },
    {
      "clip_ratio/high_max": 0.0005024815145588946,
      "clip_ratio/high_mean": 0.0005024815145588946,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0005024815145588946,
      "entropy": 0.4843556880950928,
      "epoch": 0.1992065741003117,
      "grad_norm": 0.54296875,
      "learning_rate": 8.009351090960612e-07,
      "loss": 0.0174,
      "step": 1406,
      "step_time": 2.5389555767178535
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1386.0,
      "completions/max_terminated_length": 1386.0,
      "completions/mean_length": 784.359375,
      "completions/mean_terminated_length": 784.359375,
      "completions/min_length": 354.0,
      "completions/min_terminated_length": 354.0,
      "entropy": 0.7948733046650887,
      "epoch": 0.19934825729668462,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.56640625,
      "learning_rate": 8.007934258996882e-07,
      "loss": -0.0398,
      "num_tokens": 41217346.0,
      "reward": 0.46875,
      "reward_std": 0.7339553236961365,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1407,
      "step_time": 45.811472753062844
    },
    {
      "clip_ratio/high_max": 4.461099160835147e-05,
      "clip_ratio/high_mean": 4.461099160835147e-05,
      "clip_ratio/low_mean": 0.00027950382718699984,
      "clip_ratio/low_min": 0.00027950382718699984,
      "clip_ratio/region_mean": 0.0003241148187953513,
      "entropy": 0.7840016037225723,
      "epoch": 0.19948994049305752,
      "grad_norm": 0.318359375,
      "learning_rate": 8.006517427033154e-07,
      "loss": 0.0418,
      "step": 1408,
      "step_time": 3.0276089096441865
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1956.0,
      "completions/max_terminated_length": 1956.0,
      "completions/mean_length": 711.421875,
      "completions/mean_terminated_length": 711.421875,
      "completions/min_length": 3.0,
      "completions/min_terminated_length": 3.0,
      "entropy": 0.8131249360740185,
      "epoch": 0.19963162368943044,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.054443359375,
      "learning_rate": 8.005100595069424e-07,
      "loss": 0.0213,
      "num_tokens": 41272349.0,
      "reward": 0.171875,
      "reward_std": 0.4647814631462097,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1409,
      "step_time": 65.22150732576847
    },
    {
      "clip_ratio/high_max": 4.302926026866771e-05,
      "clip_ratio/high_mean": 4.302926026866771e-05,
      "clip_ratio/low_mean": 0.00014269342864281498,
      "clip_ratio/low_min": 0.00014269342864281498,
      "clip_ratio/region_mean": 0.0001857226889114827,
      "entropy": 0.7039534412324429,
      "epoch": 0.19977330688580333,
      "grad_norm": 0.3515625,
      "learning_rate": 8.003683763105696e-07,
      "loss": -0.0055,
      "step": 1410,
      "step_time": 3.906508957967162
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2387.0,
      "completions/max_terminated_length": 2387.0,
      "completions/mean_length": 728.90625,
      "completions/mean_terminated_length": 728.90625,
      "completions/min_length": 373.0,
      "completions/min_terminated_length": 373.0,
      "entropy": 1.1371226608753204,
      "epoch": 0.19991499008217625,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.3359375,
      "learning_rate": 8.002266931141967e-07,
      "loss": -0.0085,
      "num_tokens": 41329799.0,
      "reward": 0.109375,
      "reward_std": 0.2083333283662796,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1411,
      "step_time": 82.93064867053181
    },
    {
      "clip_ratio/high_max": 0.00038627727917628363,
      "clip_ratio/high_mean": 0.00038627727917628363,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00038627727917628363,
      "entropy": 0.9579585269093513,
      "epoch": 0.20005667327854917,
      "grad_norm": 0.314453125,
      "learning_rate": 8.000850099178236e-07,
      "loss": 0.0044,
      "step": 1412,
      "step_time": 4.634767799638212
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1697.0,
      "completions/max_terminated_length": 1697.0,
      "completions/mean_length": 693.765625,
      "completions/mean_terminated_length": 693.765625,
      "completions/min_length": 340.0,
      "completions/min_terminated_length": 340.0,
      "entropy": 0.7874148488044739,
      "epoch": 0.20019835647492207,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.62890625,
      "learning_rate": 7.999433267214508e-07,
      "loss": -0.0468,
      "num_tokens": 41383384.0,
      "reward": 0.5,
      "reward_std": 0.8908708095550537,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1413,
      "step_time": 55.889293757267296
    },
    {
      "clip_ratio/high_max": 9.901644807541743e-05,
      "clip_ratio/high_mean": 9.901644807541743e-05,
      "clip_ratio/low_mean": 0.00034890888491645455,
      "clip_ratio/low_min": 0.00034890888491645455,
      "clip_ratio/region_mean": 0.000447925332991872,
      "entropy": 0.6652666479349136,
      "epoch": 0.200340039671295,
      "grad_norm": 0.361328125,
      "learning_rate": 7.998016435250778e-07,
      "loss": 0.0837,
      "step": 1414,
      "step_time": 3.4309243401512504
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1317.0,
      "completions/max_terminated_length": 1317.0,
      "completions/mean_length": 722.140625,
      "completions/mean_terminated_length": 722.140625,
      "completions/min_length": 241.0,
      "completions/min_terminated_length": 241.0,
      "entropy": 0.39859936013817787,
      "epoch": 0.20048172286766788,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.60546875,
      "learning_rate": 7.99659960328705e-07,
      "loss": 0.0672,
      "num_tokens": 41440449.0,
      "reward": 1.0,
      "reward_std": 1.1126972436904907,
      "rewards/accuracy_reward_func/mean": 0.875,
      "rewards/accuracy_reward_func/std": 1.0,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1415,
      "step_time": 46.82019927445799
    },
    {
      "clip_ratio/high_max": 0.0006644848981522955,
      "clip_ratio/high_mean": 0.0006644848981522955,
      "clip_ratio/low_mean": 0.00040280573739437386,
      "clip_ratio/low_min": 0.00040280573739437386,
      "clip_ratio/region_mean": 0.001067290642822627,
      "entropy": 0.3902928903698921,
      "epoch": 0.2006234060640408,
      "grad_norm": 0.44921875,
      "learning_rate": 7.995182771323321e-07,
      "loss": -0.0798,
      "step": 1416,
      "step_time": 3.139018981717527
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1388.0,
      "completions/max_terminated_length": 1388.0,
      "completions/mean_length": 768.328125,
      "completions/mean_terminated_length": 768.328125,
      "completions/min_length": 360.0,
      "completions/min_terminated_length": 360.0,
      "entropy": 0.8569623082876205,
      "epoch": 0.20076508926041373,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.6484375,
      "learning_rate": 7.993765939359592e-07,
      "loss": 0.084,
      "num_tokens": 41498806.0,
      "reward": 0.3984375,
      "reward_std": 0.6853320598602295,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1417,
      "step_time": 45.04049224592745
    },
    {
      "clip_ratio/high_max": 0.00047107657155720517,
      "clip_ratio/high_mean": 0.00047107657155720517,
      "clip_ratio/low_mean": 0.00014672642646473832,
      "clip_ratio/low_min": 0.00014672642646473832,
      "clip_ratio/region_mean": 0.0006178029907459859,
      "entropy": 0.7573101967573166,
      "epoch": 0.20090677245678662,
      "grad_norm": 0.54296875,
      "learning_rate": 7.992349107395863e-07,
      "loss": -0.0859,
      "step": 1418,
      "step_time": 3.0125873889774084
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1398.0,
      "completions/max_terminated_length": 1398.0,
      "completions/mean_length": 779.328125,
      "completions/mean_terminated_length": 779.328125,
      "completions/min_length": 341.0,
      "completions/min_terminated_length": 341.0,
      "entropy": 0.7485248185694218,
      "epoch": 0.20104845565315954,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2890625,
      "learning_rate": 7.990932275432132e-07,
      "loss": 0.0191,
      "num_tokens": 41557435.0,
      "reward": 0.2109375,
      "reward_std": 0.5179682970046997,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1419,
      "step_time": 45.16491442825645
    },
    {
      "clip_ratio/high_max": 4.40761650679633e-05,
      "clip_ratio/high_mean": 4.40761650679633e-05,
      "clip_ratio/low_mean": 0.0004190912477497477,
      "clip_ratio/low_min": 0.0004190912477497477,
      "clip_ratio/region_mean": 0.000463167412817711,
      "entropy": 0.734632596373558,
      "epoch": 0.20119013884953243,
      "grad_norm": 0.4609375,
      "learning_rate": 7.989515443468404e-07,
      "loss": -0.0108,
      "step": 1420,
      "step_time": 3.1741747027263045
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1647.0,
      "completions/max_terminated_length": 1647.0,
      "completions/mean_length": 796.140625,
      "completions/mean_terminated_length": 796.140625,
      "completions/min_length": 447.0,
      "completions/min_terminated_length": 447.0,
      "entropy": 0.8124944195151329,
      "epoch": 0.20133182204590536,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2021484375,
      "learning_rate": 7.988098611504675e-07,
      "loss": 0.0368,
      "num_tokens": 41624868.0,
      "reward": 0.25,
      "reward_std": 0.6172134280204773,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1421,
      "step_time": 55.85686164908111
    },
    {
      "clip_ratio/high_max": 0.0001217317912960425,
      "clip_ratio/high_mean": 0.0001217317912960425,
      "clip_ratio/low_mean": 4.193223867332563e-05,
      "clip_ratio/low_min": 4.193223867332563e-05,
      "clip_ratio/region_mean": 0.00016366402269341052,
      "entropy": 0.800209254026413,
      "epoch": 0.20147350524227828,
      "grad_norm": 0.25,
      "learning_rate": 7.986681779540946e-07,
      "loss": -0.0346,
      "step": 1422,
      "step_time": 3.841888301074505
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1112.0,
      "completions/max_terminated_length": 1112.0,
      "completions/mean_length": 645.578125,
      "completions/mean_terminated_length": 645.578125,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "entropy": 0.5659766830503941,
      "epoch": 0.20161518843865117,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.59765625,
      "learning_rate": 7.985264947577217e-07,
      "loss": -0.0842,
      "num_tokens": 41678793.0,
      "reward": 0.40625,
      "reward_std": 0.8303518295288086,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1423,
      "step_time": 36.42345084436238
    },
    {
      "clip_ratio/high_max": 0.00010517746341065504,
      "clip_ratio/high_mean": 0.00010517746341065504,
      "clip_ratio/low_mean": 0.0009243833592336159,
      "clip_ratio/low_min": 0.0009243833592336159,
      "clip_ratio/region_mean": 0.0010295608371961862,
      "entropy": 0.5645376965403557,
      "epoch": 0.2017568716350241,
      "grad_norm": 0.279296875,
      "learning_rate": 7.983848115613488e-07,
      "loss": 0.0722,
      "step": 1424,
      "step_time": 2.8660891419276595
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1354.0,
      "completions/max_terminated_length": 1354.0,
      "completions/mean_length": 837.1875,
      "completions/mean_terminated_length": 837.1875,
      "completions/min_length": 394.0,
      "completions/min_terminated_length": 394.0,
      "entropy": 0.6253799721598625,
      "epoch": 0.201898554831397,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.71484375,
      "learning_rate": 7.982431283649759e-07,
      "loss": 0.0047,
      "num_tokens": 41741301.0,
      "reward": 0.7265625,
      "reward_std": 0.9212210774421692,
      "rewards/accuracy_reward_func/mean": 0.625,
      "rewards/accuracy_reward_func/std": 0.934353232383728,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1425,
      "step_time": 44.236996085383
    },
    {
      "clip_ratio/high_max": 0.0006813879481342155,
      "clip_ratio/high_mean": 0.0006813879481342155,
      "clip_ratio/low_mean": 0.00021477017799043097,
      "clip_ratio/low_min": 0.00021477017799043097,
      "clip_ratio/region_mean": 0.0008961581188486889,
      "entropy": 0.5783142745494843,
      "epoch": 0.2020402380277699,
      "grad_norm": 0.4296875,
      "learning_rate": 7.981014451686031e-07,
      "loss": 0.0004,
      "step": 1426,
      "step_time": 2.9768560538068414
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1275.0,
      "completions/max_terminated_length": 1275.0,
      "completions/mean_length": 707.359375,
      "completions/mean_terminated_length": 707.359375,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "entropy": 0.9326831251382828,
      "epoch": 0.20218192122414283,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.43359375,
      "learning_rate": 7.9795976197223e-07,
      "loss": 0.0053,
      "num_tokens": 41796300.0,
      "reward": 0.4609375,
      "reward_std": 0.757526695728302,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1427,
      "step_time": 41.37335755676031
    },
    {
      "clip_ratio/high_max": 4.681647988036275e-05,
      "clip_ratio/high_mean": 4.681647988036275e-05,
      "clip_ratio/low_mean": 0.0001649195073696319,
      "clip_ratio/low_min": 0.0001649195073696319,
      "clip_ratio/region_mean": 0.00021173598724999465,
      "entropy": 0.8866231292486191,
      "epoch": 0.20232360442051572,
      "grad_norm": 0.55859375,
      "learning_rate": 7.978180787758571e-07,
      "loss": -0.0079,
      "step": 1428,
      "step_time": 3.0078634787350893
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1940.0,
      "completions/max_terminated_length": 1940.0,
      "completions/mean_length": 897.640625,
      "completions/mean_terminated_length": 897.640625,
      "completions/min_length": 296.0,
      "completions/min_terminated_length": 296.0,
      "entropy": 0.539648987352848,
      "epoch": 0.20246528761688865,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2431640625,
      "learning_rate": 7.976763955794842e-07,
      "loss": -0.0218,
      "num_tokens": 41866917.0,
      "reward": 0.4296875,
      "reward_std": 0.7119567394256592,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1429,
      "step_time": 65.67965680733323
    },
    {
      "clip_ratio/high_max": 0.0006152145033411216,
      "clip_ratio/high_mean": 0.0006152145033411216,
      "clip_ratio/low_mean": 0.0001389729259244632,
      "clip_ratio/low_min": 0.0001389729259244632,
      "clip_ratio/region_mean": 0.0007541874292655848,
      "entropy": 0.43755848705768585,
      "epoch": 0.20260697081326154,
      "grad_norm": 0.388671875,
      "learning_rate": 7.975347123831113e-07,
      "loss": 0.0514,
      "step": 1430,
      "step_time": 4.08986359462142
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1491.0,
      "completions/max_terminated_length": 1491.0,
      "completions/mean_length": 677.734375,
      "completions/mean_terminated_length": 677.734375,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "entropy": 0.4842456951737404,
      "epoch": 0.20274865400963446,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5390625,
      "learning_rate": 7.973930291867385e-07,
      "loss": -0.0122,
      "num_tokens": 41919412.0,
      "reward": 0.359375,
      "reward_std": 0.6574888825416565,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1431,
      "step_time": 48.750146294012666
    },
    {
      "clip_ratio/high_max": 0.0005188969371374696,
      "clip_ratio/high_mean": 0.0005188969371374696,
      "clip_ratio/low_mean": 0.0004859489381487947,
      "clip_ratio/low_min": 0.0004859489381487947,
      "clip_ratio/region_mean": 0.0010048458680103067,
      "entropy": 0.5677698403596878,
      "epoch": 0.20289033720600735,
      "grad_norm": 0.5,
      "learning_rate": 7.972513459903655e-07,
      "loss": -0.0234,
      "step": 1432,
      "step_time": 3.1479722391813993
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 913.0,
      "completions/max_terminated_length": 913.0,
      "completions/mean_length": 551.40625,
      "completions/mean_terminated_length": 551.40625,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "entropy": 0.7603097334504128,
      "epoch": 0.20303202040238028,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.216796875,
      "learning_rate": 7.971096627939927e-07,
      "loss": -0.0575,
      "num_tokens": 41966494.0,
      "reward": 0.4921875,
      "reward_std": 0.7585083246231079,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1433,
      "step_time": 30.41173262707889
    },
    {
      "clip_ratio/high_max": 0.0006747113111487124,
      "clip_ratio/high_mean": 0.0006747113111487124,
      "clip_ratio/low_mean": 0.00018147750233765692,
      "clip_ratio/low_min": 0.00018147750233765692,
      "clip_ratio/region_mean": 0.0008561888280382846,
      "entropy": 0.8692867159843445,
      "epoch": 0.2031737035987532,
      "grad_norm": 0.796875,
      "learning_rate": 7.969679795976196e-07,
      "loss": 0.0835,
      "step": 1434,
      "step_time": 2.327528561465442
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1124.0,
      "completions/max_terminated_length": 1124.0,
      "completions/mean_length": 719.859375,
      "completions/mean_terminated_length": 719.859375,
      "completions/min_length": 361.0,
      "completions/min_terminated_length": 361.0,
      "entropy": 0.7782683409750462,
      "epoch": 0.2033153867951261,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.46484375,
      "learning_rate": 7.968262964012467e-07,
      "loss": 0.0879,
      "num_tokens": 42022213.0,
      "reward": 0.515625,
      "reward_std": 0.7815772891044617,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1435,
      "step_time": 36.48332926351577
    },
    {
      "clip_ratio/high_max": 0.0004001543784397654,
      "clip_ratio/high_mean": 0.0004001543784397654,
      "clip_ratio/low_mean": 0.00033367307696607895,
      "clip_ratio/low_min": 0.00033367307696607895,
      "clip_ratio/region_mean": 0.0007338274554058444,
      "entropy": 0.7202731296420097,
      "epoch": 0.203457069991499,
      "grad_norm": 0.5234375,
      "learning_rate": 7.966846132048739e-07,
      "loss": -0.0008,
      "step": 1436,
      "step_time": 2.564505882561207
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1140.0,
      "completions/max_terminated_length": 1140.0,
      "completions/mean_length": 613.125,
      "completions/mean_terminated_length": 613.125,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "entropy": 0.6200625039637089,
      "epoch": 0.2035987531878719,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.59375,
      "learning_rate": 7.965429300085009e-07,
      "loss": 0.0194,
      "num_tokens": 42070429.0,
      "reward": 0.7890625,
      "reward_std": 0.9206824898719788,
      "rewards/accuracy_reward_func/mean": 0.6875,
      "rewards/accuracy_reward_func/std": 0.9574271440505981,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1437,
      "step_time": 37.25673655048013
    },
    {
      "clip_ratio/high_max": 0.0004294477039366029,
      "clip_ratio/high_mean": 0.0004294477039366029,
      "clip_ratio/low_mean": 0.0005004625636502169,
      "clip_ratio/low_min": 0.0005004625636502169,
      "clip_ratio/region_mean": 0.0009299102603108622,
      "entropy": 0.6068692393600941,
      "epoch": 0.20374043638424483,
      "grad_norm": 0.69921875,
      "learning_rate": 7.964012468121281e-07,
      "loss": -0.0514,
      "step": 1438,
      "step_time": 2.6354908160865307
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1880.0,
      "completions/max_terminated_length": 1880.0,
      "completions/mean_length": 824.1875,
      "completions/mean_terminated_length": 824.1875,
      "completions/min_length": 293.0,
      "completions/min_terminated_length": 293.0,
      "entropy": 0.5701415352523327,
      "epoch": 0.20388211958061775,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.359375,
      "learning_rate": 7.962595636157551e-07,
      "loss": 0.1302,
      "num_tokens": 42133081.0,
      "reward": 0.5,
      "reward_std": 0.7766431570053101,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1439,
      "step_time": 62.378377077169716
    },
    {
      "clip_ratio/high_max": 0.0002557080952101387,
      "clip_ratio/high_mean": 0.0002557080952101387,
      "clip_ratio/low_mean": 0.0006188169827510137,
      "clip_ratio/low_min": 0.0006188169827510137,
      "clip_ratio/region_mean": 0.0008745250743231736,
      "entropy": 0.5585131235420704,
      "epoch": 0.20402380277699064,
      "grad_norm": 0.6171875,
      "learning_rate": 7.961178804193823e-07,
      "loss": -0.1516,
      "step": 1440,
      "step_time": 3.834468628279865
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1960.0,
      "completions/max_terminated_length": 1960.0,
      "completions/mean_length": 806.09375,
      "completions/mean_terminated_length": 806.09375,
      "completions/min_length": 379.0,
      "completions/min_terminated_length": 379.0,
      "entropy": 0.7186485677957535,
      "epoch": 0.20416548597336356,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.5234375,
      "learning_rate": 7.959761972230093e-07,
      "loss": 0.0722,
      "num_tokens": 42196703.0,
      "reward": 0.1171875,
      "reward_std": 0.21347814798355103,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1441,
      "step_time": 65.59728997107595
    },
    {
      "clip_ratio/high_max": 0.0005532928553293459,
      "clip_ratio/high_mean": 0.0005532928553293459,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0005532928553293459,
      "entropy": 0.6280553117394447,
      "epoch": 0.20430716916973646,
      "grad_norm": 0.09033203125,
      "learning_rate": 7.958345140266363e-07,
      "loss": -0.045,
      "step": 1442,
      "step_time": 3.9660026961937547
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1344.0,
      "completions/max_terminated_length": 1344.0,
      "completions/mean_length": 736.734375,
      "completions/mean_terminated_length": 736.734375,
      "completions/min_length": 420.0,
      "completions/min_terminated_length": 420.0,
      "entropy": 0.9938990250229836,
      "epoch": 0.20444885236610938,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.3203125,
      "learning_rate": 7.956928308302635e-07,
      "loss": 0.0063,
      "num_tokens": 42254046.0,
      "reward": 0.109375,
      "reward_std": 0.2083333283662796,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1443,
      "step_time": 43.868875712156296
    },
    {
      "clip_ratio/high_max": 0.00021197293608565815,
      "clip_ratio/high_mean": 0.00021197293608565815,
      "clip_ratio/low_mean": 4.515895852819085e-05,
      "clip_ratio/low_min": 4.515895852819085e-05,
      "clip_ratio/region_mean": 0.000257131894613849,
      "entropy": 0.9427328035235405,
      "epoch": 0.2045905355624823,
      "grad_norm": 0.30859375,
      "learning_rate": 7.955511476338905e-07,
      "loss": -0.0057,
      "step": 1444,
      "step_time": 2.920666489750147
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1416.0,
      "completions/max_terminated_length": 1416.0,
      "completions/mean_length": 726.390625,
      "completions/mean_terminated_length": 726.390625,
      "completions/min_length": 281.0,
      "completions/min_terminated_length": 281.0,
      "entropy": 0.839044813066721,
      "epoch": 0.2047322187588552,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.33203125,
      "learning_rate": 7.954094644375177e-07,
      "loss": 0.0764,
      "num_tokens": 42310583.0,
      "reward": 0.3046875,
      "reward_std": 0.6147472858428955,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1445,
      "step_time": 46.41131064668298
    },
    {
      "clip_ratio/high_max": 0.00016469406182295643,
      "clip_ratio/high_mean": 0.00016469406182295643,
      "clip_ratio/low_mean": 0.0007969881626195274,
      "clip_ratio/low_min": 0.0007969881626195274,
      "clip_ratio/region_mean": 0.0009616822280804627,
      "entropy": 0.7718304172158241,
      "epoch": 0.20487390195522812,
      "grad_norm": 0.72265625,
      "learning_rate": 7.952677812411448e-07,
      "loss": -0.1049,
      "step": 1446,
      "step_time": 3.2287332890555263
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1351.0,
      "completions/max_terminated_length": 1351.0,
      "completions/mean_length": 756.265625,
      "completions/mean_terminated_length": 756.265625,
      "completions/min_length": 298.0,
      "completions/min_terminated_length": 298.0,
      "entropy": 0.6453432030975819,
      "epoch": 0.205015585151601,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.0927734375,
      "learning_rate": 7.951260980447719e-07,
      "loss": 0.0301,
      "num_tokens": 42368520.0,
      "reward": 0.15625,
      "reward_std": 0.3196600377559662,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1447,
      "step_time": 44.453991207294166
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00021634777294821106,
      "clip_ratio/low_min": 0.00021634777294821106,
      "clip_ratio/region_mean": 0.00021634777294821106,
      "entropy": 0.7769040130078793,
      "epoch": 0.20515726834797393,
      "grad_norm": 0.330078125,
      "learning_rate": 7.949844148483989e-07,
      "loss": -0.0582,
      "step": 1448,
      "step_time": 2.8936254922300577
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1761.0,
      "completions/mean_length": 769.84375,
      "completions/mean_terminated_length": 717.0476684570312,
      "completions/min_length": 288.0,
      "completions/min_terminated_length": 288.0,
      "entropy": 0.7711359709501266,
      "epoch": 0.20529895154434685,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.248046875,
      "learning_rate": 7.948427316520261e-07,
      "loss": 0.0616,
      "num_tokens": 42427630.0,
      "reward": 0.2890625,
      "reward_std": 0.7116082906723022,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1449,
      "step_time": 163.49695271532983
    },
    {
      "clip_ratio/high_max": 0.00013030404807068408,
      "clip_ratio/high_mean": 0.00013030404807068408,
      "clip_ratio/low_mean": 0.0001827079468057491,
      "clip_ratio/low_min": 0.0001827079468057491,
      "clip_ratio/region_mean": 0.00031301199487643316,
      "entropy": 0.9680261015892029,
      "epoch": 0.20544063474071975,
      "grad_norm": 0.44921875,
      "learning_rate": 7.947010484556531e-07,
      "loss": -0.0295,
      "step": 1450,
      "step_time": 7.240155856125057
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1148.0,
      "completions/max_terminated_length": 1148.0,
      "completions/mean_length": 638.15625,
      "completions/mean_terminated_length": 638.15625,
      "completions/min_length": 8.0,
      "completions/min_terminated_length": 8.0,
      "entropy": 0.696376658976078,
      "epoch": 0.20558231793709267,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.56640625,
      "learning_rate": 7.945593652592802e-07,
      "loss": -0.0744,
      "num_tokens": 42478744.0,
      "reward": 0.5625,
      "reward_std": 0.7943251132965088,
      "rewards/accuracy_reward_func/mean": 0.4375,
      "rewards/accuracy_reward_func/std": 0.8333333730697632,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1451,
      "step_time": 37.895341923460364
    },
    {
      "clip_ratio/high_max": 0.0002398330507276114,
      "clip_ratio/high_mean": 0.0002398330507276114,
      "clip_ratio/low_mean": 0.00018157650993089192,
      "clip_ratio/low_min": 0.00018157650993089192,
      "clip_ratio/region_mean": 0.0004214095606585033,
      "entropy": 0.6705787591636181,
      "epoch": 0.20572400113346556,
      "grad_norm": 0.439453125,
      "learning_rate": 7.944176820629073e-07,
      "loss": 0.0638,
      "step": 1452,
      "step_time": 2.6116397567093372
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1160.0,
      "completions/max_terminated_length": 1160.0,
      "completions/mean_length": 631.234375,
      "completions/mean_terminated_length": 631.234375,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "entropy": 0.6213829293847084,
      "epoch": 0.20586568432983848,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.609375,
      "learning_rate": 7.942759988665344e-07,
      "loss": 0.1152,
      "num_tokens": 42528647.0,
      "reward": 0.3671875,
      "reward_std": 0.6561200618743896,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1453,
      "step_time": 37.727418918162584
    },
    {
      "clip_ratio/high_max": 0.0007635727415618021,
      "clip_ratio/high_mean": 0.0007635727415618021,
      "clip_ratio/low_mean": 0.0005169482828932814,
      "clip_ratio/low_min": 0.0005169482828932814,
      "clip_ratio/region_mean": 0.0012805209989892319,
      "entropy": 0.44485723227262497,
      "epoch": 0.2060073675262114,
      "grad_norm": 0.64453125,
      "learning_rate": 7.941343156701616e-07,
      "loss": -0.1252,
      "step": 1454,
      "step_time": 2.7704114066436887
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3138.0,
      "completions/max_terminated_length": 3138.0,
      "completions/mean_length": 629.390625,
      "completions/mean_terminated_length": 629.390625,
      "completions/min_length": 10.0,
      "completions/min_terminated_length": 10.0,
      "entropy": 1.3639672175049782,
      "epoch": 0.2061490507225843,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.408203125,
      "learning_rate": 7.939926324737885e-07,
      "loss": -0.0619,
      "num_tokens": 42584816.0,
      "reward": 0.2734375,
      "reward_std": 0.5904644727706909,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 1455,
      "step_time": 116.19014260172844
    },
    {
      "clip_ratio/high_max": 0.00013894258154323325,
      "clip_ratio/high_mean": 0.00013894258154323325,
      "clip_ratio/low_mean": 0.0007984765397850424,
      "clip_ratio/low_min": 0.0007984765397850424,
      "clip_ratio/region_mean": 0.0009374191213282757,
      "entropy": 0.8917039036750793,
      "epoch": 0.20629073391895722,
      "grad_norm": 0.5234375,
      "learning_rate": 7.938509492774157e-07,
      "loss": 0.0453,
      "step": 1456,
      "step_time": 5.840671980753541
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1777.0,
      "completions/max_terminated_length": 1777.0,
      "completions/mean_length": 741.359375,
      "completions/mean_terminated_length": 741.359375,
      "completions/min_length": 289.0,
      "completions/min_terminated_length": 289.0,
      "entropy": 0.5871973689645529,
      "epoch": 0.2064324171153301,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.408203125,
      "learning_rate": 7.937092660810427e-07,
      "loss": -0.0021,
      "num_tokens": 42640951.0,
      "reward": 0.46875,
      "reward_std": 0.7339553236961365,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1457,
      "step_time": 58.77837652526796
    },
    {
      "clip_ratio/high_max": 0.0003304508172732312,
      "clip_ratio/high_mean": 0.0003304508172732312,
      "clip_ratio/low_mean": 0.00035993530764244497,
      "clip_ratio/low_min": 0.00035993530764244497,
      "clip_ratio/region_mean": 0.0006903861212776974,
      "entropy": 0.5905191265046597,
      "epoch": 0.20657410031170303,
      "grad_norm": 0.4921875,
      "learning_rate": 7.935675828846698e-07,
      "loss": -0.0552,
      "step": 1458,
      "step_time": 3.538492428138852
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1451.0,
      "completions/max_terminated_length": 1451.0,
      "completions/mean_length": 650.921875,
      "completions/mean_terminated_length": 650.921875,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "entropy": 0.7613900229334831,
      "epoch": 0.20671578350807593,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.421875,
      "learning_rate": 7.93425899688297e-07,
      "loss": -0.0159,
      "num_tokens": 42691858.0,
      "reward": 0.7421875,
      "reward_std": 0.7611196041107178,
      "rewards/accuracy_reward_func/mean": 0.5,
      "rewards/accuracy_reward_func/std": 0.8728715777397156,
      "rewards/format_reward_func/mean": 0.2421875,
      "rewards/format_reward_func/std": 0.25185325741767883,
      "step": 1459,
      "step_time": 47.447206581011415
    },
    {
      "clip_ratio/high_max": 0.0005152028861630242,
      "clip_ratio/high_mean": 0.0005152028861630242,
      "clip_ratio/low_mean": 0.00015773679115227424,
      "clip_ratio/low_min": 0.00015773679115227424,
      "clip_ratio/region_mean": 0.0006729396773152985,
      "entropy": 0.6351185627281666,
      "epoch": 0.20685746670444885,
      "grad_norm": 0.5859375,
      "learning_rate": 7.93284216491924e-07,
      "loss": 0.0315,
      "step": 1460,
      "step_time": 3.0721670854836702
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1518.0,
      "completions/max_terminated_length": 1518.0,
      "completions/mean_length": 748.109375,
      "completions/mean_terminated_length": 748.109375,
      "completions/min_length": 301.0,
      "completions/min_terminated_length": 301.0,
      "entropy": 0.6665292903780937,
      "epoch": 0.20699914990082177,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.46484375,
      "learning_rate": 7.931425332955512e-07,
      "loss": 0.0242,
      "num_tokens": 42752649.0,
      "reward": 0.390625,
      "reward_std": 0.6870037913322449,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1461,
      "step_time": 50.25513529218733
    },
    {
      "clip_ratio/high_max": 0.00046630596625618637,
      "clip_ratio/high_mean": 0.00046630596625618637,
      "clip_ratio/low_mean": 0.0003226335156796267,
      "clip_ratio/low_min": 0.0003226335156796267,
      "clip_ratio/region_mean": 0.0007889394873927813,
      "entropy": 0.5767413303256035,
      "epoch": 0.20714083309719467,
      "grad_norm": 0.423828125,
      "learning_rate": 7.930008500991781e-07,
      "loss": -0.0991,
      "step": 1462,
      "step_time": 3.39614200219512
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1622.0,
      "completions/max_terminated_length": 1622.0,
      "completions/mean_length": 761.90625,
      "completions/mean_terminated_length": 761.90625,
      "completions/min_length": 350.0,
      "completions/min_terminated_length": 350.0,
      "entropy": 0.7365176863968372,
      "epoch": 0.2072825162935676,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.765625,
      "learning_rate": 7.928591669028053e-07,
      "loss": -0.0463,
      "num_tokens": 42813139.0,
      "reward": 0.2421875,
      "reward_std": 0.503891110420227,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1463,
      "step_time": 53.52574125584215
    },
    {
      "clip_ratio/high_max": 0.0003386725547898095,
      "clip_ratio/high_mean": 0.0003386725547898095,
      "clip_ratio/low_mean": 0.0004632307136489544,
      "clip_ratio/low_min": 0.0004632307136489544,
      "clip_ratio/region_mean": 0.0008019032757147215,
      "entropy": 0.6072698570787907,
      "epoch": 0.20742419948994048,
      "grad_norm": 0.2255859375,
      "learning_rate": 7.927174837064324e-07,
      "loss": 0.0118,
      "step": 1464,
      "step_time": 3.404908017255366
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1594.0,
      "completions/max_terminated_length": 1594.0,
      "completions/mean_length": 820.5625,
      "completions/mean_terminated_length": 820.5625,
      "completions/min_length": 278.0,
      "completions/min_terminated_length": 278.0,
      "entropy": 0.853860080242157,
      "epoch": 0.2075658826863134,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.458984375,
      "learning_rate": 7.925758005100594e-07,
      "loss": -0.0472,
      "num_tokens": 42876007.0,
      "reward": 0.296875,
      "reward_std": 0.5890451669692993,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1465,
      "step_time": 52.966933535411954
    },
    {
      "clip_ratio/high_max": 0.00034512445927248336,
      "clip_ratio/high_mean": 0.00034512445927248336,
      "clip_ratio/low_mean": 0.00022601553791901097,
      "clip_ratio/low_min": 0.00022601553791901097,
      "clip_ratio/region_mean": 0.0005711399899155367,
      "entropy": 0.6645699888467789,
      "epoch": 0.20770756588268632,
      "grad_norm": 0.51953125,
      "learning_rate": 7.924341173136866e-07,
      "loss": 0.0437,
      "step": 1466,
      "step_time": 3.3428152250126004
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1653.0,
      "completions/max_terminated_length": 1653.0,
      "completions/mean_length": 857.6875,
      "completions/mean_terminated_length": 857.6875,
      "completions/min_length": 446.0,
      "completions/min_terminated_length": 446.0,
      "entropy": 0.5483008697628975,
      "epoch": 0.20784924907905922,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.466796875,
      "learning_rate": 7.922924341173136e-07,
      "loss": -0.0402,
      "num_tokens": 42941475.0,
      "reward": 0.2421875,
      "reward_std": 0.503891110420227,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1467,
      "step_time": 54.35275170579553
    },
    {
      "clip_ratio/high_max": 0.0002956061980512459,
      "clip_ratio/high_mean": 0.0002956061980512459,
      "clip_ratio/low_mean": 0.0003819430130533874,
      "clip_ratio/low_min": 0.0003819430130533874,
      "clip_ratio/region_mean": 0.0006775492074666545,
      "entropy": 0.6263887323439121,
      "epoch": 0.20799093227543214,
      "grad_norm": 0.384765625,
      "learning_rate": 7.921507509209408e-07,
      "loss": 0.0646,
      "step": 1468,
      "step_time": 3.635086809284985
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1672.0,
      "completions/max_terminated_length": 1672.0,
      "completions/mean_length": 741.90625,
      "completions/mean_terminated_length": 741.90625,
      "completions/min_length": 360.0,
      "completions/min_terminated_length": 360.0,
      "entropy": 1.0948888435959816,
      "epoch": 0.20813261547180503,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.486328125,
      "learning_rate": 7.920090677245679e-07,
      "loss": 0.0903,
      "num_tokens": 43000349.0,
      "reward": 0.265625,
      "reward_std": 0.548943817615509,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1469,
      "step_time": 55.034854906611145
    },
    {
      "clip_ratio/high_max": 0.00031546958052786067,
      "clip_ratio/high_mean": 0.00031546958052786067,
      "clip_ratio/low_mean": 0.00033395398349966854,
      "clip_ratio/low_min": 0.00033395398349966854,
      "clip_ratio/region_mean": 0.0006494235749414656,
      "entropy": 0.9785397686064243,
      "epoch": 0.20827429866817795,
      "grad_norm": 0.65234375,
      "learning_rate": 7.918673845281949e-07,
      "loss": -0.0738,
      "step": 1470,
      "step_time": 3.4995196470990777
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1334.0,
      "completions/max_terminated_length": 1334.0,
      "completions/mean_length": 682.5,
      "completions/mean_terminated_length": 682.5,
      "completions/min_length": 374.0,
      "completions/min_terminated_length": 374.0,
      "entropy": 0.6617369428277016,
      "epoch": 0.20841598186455088,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.515625,
      "learning_rate": 7.91725701331822e-07,
      "loss": 0.0233,
      "num_tokens": 43054813.0,
      "reward": 0.5546875,
      "reward_std": 0.7974024415016174,
      "rewards/accuracy_reward_func/mean": 0.4375,
      "rewards/accuracy_reward_func/std": 0.8333333730697632,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1471,
      "step_time": 43.69247507303953
    },
    {
      "clip_ratio/high_max": 0.0004225905067869462,
      "clip_ratio/high_mean": 0.0004225905067869462,
      "clip_ratio/low_mean": 0.0005950155391474254,
      "clip_ratio/low_min": 0.0005950155391474254,
      "clip_ratio/region_mean": 0.0010176060459343717,
      "entropy": 0.6343268342316151,
      "epoch": 0.20855766506092377,
      "grad_norm": 0.4609375,
      "learning_rate": 7.915840181354491e-07,
      "loss": 0.0015,
      "step": 1472,
      "step_time": 3.1432098308578134
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1477.0,
      "completions/max_terminated_length": 1477.0,
      "completions/mean_length": 745.390625,
      "completions/mean_terminated_length": 745.390625,
      "completions/min_length": 351.0,
      "completions/min_terminated_length": 351.0,
      "entropy": 0.7181376442313194,
      "epoch": 0.2086993482572967,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.408203125,
      "learning_rate": 7.914423349390762e-07,
      "loss": 0.0657,
      "num_tokens": 43113366.0,
      "reward": 0.5,
      "reward_std": 0.7559289336204529,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1473,
      "step_time": 49.10084248986095
    },
    {
      "clip_ratio/high_max": 0.00011829652794403955,
      "clip_ratio/high_mean": 0.00011829652794403955,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00011829652794403955,
      "entropy": 0.627290703356266,
      "epoch": 0.20884103145366958,
      "grad_norm": 0.404296875,
      "learning_rate": 7.913006517427033e-07,
      "loss": -0.0607,
      "step": 1474,
      "step_time": 3.19539313390851
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1443.0,
      "completions/max_terminated_length": 1443.0,
      "completions/mean_length": 925.3125,
      "completions/mean_terminated_length": 925.3125,
      "completions/min_length": 479.0,
      "completions/min_terminated_length": 479.0,
      "entropy": 0.741676963865757,
      "epoch": 0.2089827146500425,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.04248046875,
      "learning_rate": 7.911589685463304e-07,
      "loss": -0.0181,
      "num_tokens": 43182778.0,
      "reward": 0.1171875,
      "reward_std": 0.21347814798355103,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1475,
      "step_time": 47.12007165700197
    },
    {
      "clip_ratio/high_max": 0.0004284922397346236,
      "clip_ratio/high_mean": 0.0004284922397346236,
      "clip_ratio/low_mean": 2.940484591817949e-05,
      "clip_ratio/low_min": 2.940484591817949e-05,
      "clip_ratio/region_mean": 0.00045789708565280307,
      "entropy": 0.5725208558142185,
      "epoch": 0.20912439784641543,
      "grad_norm": 0.37109375,
      "learning_rate": 7.910172853499575e-07,
      "loss": 0.0264,
      "step": 1476,
      "step_time": 3.1298828134313226
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1914.0,
      "completions/max_terminated_length": 1914.0,
      "completions/mean_length": 809.875,
      "completions/mean_terminated_length": 809.875,
      "completions/min_length": 388.0,
      "completions/min_terminated_length": 388.0,
      "entropy": 0.7174379825592041,
      "epoch": 0.20926608104278832,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.267578125,
      "learning_rate": 7.908756021535845e-07,
      "loss": 0.0173,
      "num_tokens": 43244706.0,
      "reward": 0.21875,
      "reward_std": 0.4869324266910553,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1477,
      "step_time": 63.31248367857188
    },
    {
      "clip_ratio/high_max": 0.00011585245738388039,
      "clip_ratio/high_mean": 0.00011585245738388039,
      "clip_ratio/low_mean": 0.00033959817301365547,
      "clip_ratio/low_min": 0.00033959817301365547,
      "clip_ratio/region_mean": 0.0004554506376734935,
      "entropy": 0.7054765149950981,
      "epoch": 0.20940776423916124,
      "grad_norm": 0.44140625,
      "learning_rate": 7.907339189572116e-07,
      "loss": -0.0037,
      "step": 1478,
      "step_time": 3.8010200252756476
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2952.0,
      "completions/max_terminated_length": 2952.0,
      "completions/mean_length": 645.0625,
      "completions/mean_terminated_length": 645.0625,
      "completions/min_length": 21.0,
      "completions/min_terminated_length": 21.0,
      "entropy": 0.9762504287064075,
      "epoch": 0.20954944743553414,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.53125,
      "learning_rate": 7.905922357608388e-07,
      "loss": -0.0199,
      "num_tokens": 43298406.0,
      "reward": 0.59375,
      "reward_std": 1.0498487949371338,
      "rewards/accuracy_reward_func/mean": 0.46875,
      "rewards/accuracy_reward_func/std": 0.8539125919342041,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1479,
      "step_time": 105.88436663895845
    },
    {
      "clip_ratio/high_max": 0.0002469428436597809,
      "clip_ratio/high_mean": 0.0002469428436597809,
      "clip_ratio/low_mean": 9.549374954076484e-05,
      "clip_ratio/low_min": 9.549374954076484e-05,
      "clip_ratio/region_mean": 0.00034243659320054576,
      "entropy": 0.8930738717317581,
      "epoch": 0.20969113063190706,
      "grad_norm": 0.2314453125,
      "learning_rate": 7.904505525644658e-07,
      "loss": 0.0175,
      "step": 1480,
      "step_time": 5.39876797888428
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1348.0,
      "completions/max_terminated_length": 1348.0,
      "completions/mean_length": 720.34375,
      "completions/mean_terminated_length": 720.34375,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "entropy": 0.8824103884398937,
      "epoch": 0.20983281382827998,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.283203125,
      "learning_rate": 7.90308869368093e-07,
      "loss": 0.0145,
      "num_tokens": 43354892.0,
      "reward": 0.375,
      "reward_std": 0.6784669756889343,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1481,
      "step_time": 44.03245795890689
    },
    {
      "clip_ratio/high_max": 0.00046533270506188273,
      "clip_ratio/high_mean": 0.00046533270506188273,
      "clip_ratio/low_mean": 0.0002550037133914884,
      "clip_ratio/low_min": 0.0002550037133914884,
      "clip_ratio/region_mean": 0.0007203364184533712,
      "entropy": 0.817833699285984,
      "epoch": 0.20997449702465287,
      "grad_norm": 0.447265625,
      "learning_rate": 7.9016718617172e-07,
      "loss": -0.0076,
      "step": 1482,
      "step_time": 2.9286157293245196
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1518.0,
      "completions/max_terminated_length": 1518.0,
      "completions/mean_length": 682.84375,
      "completions/mean_terminated_length": 682.84375,
      "completions/min_length": 15.0,
      "completions/min_terminated_length": 15.0,
      "entropy": 0.8150836080312729,
      "epoch": 0.2101161802210258,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.50390625,
      "learning_rate": 7.900255029753471e-07,
      "loss": -0.0272,
      "num_tokens": 43409186.0,
      "reward": 0.15625,
      "reward_std": 0.3196600377559662,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1483,
      "step_time": 50.0391175923869
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0002819861219904851,
      "clip_ratio/low_min": 0.0002819861219904851,
      "clip_ratio/region_mean": 0.0002819861219904851,
      "entropy": 0.9131195843219757,
      "epoch": 0.2102578634173987,
      "grad_norm": 0.09912109375,
      "learning_rate": 7.898838197789742e-07,
      "loss": 0.0299,
      "step": 1484,
      "step_time": 3.1885388903319836
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1414.0,
      "completions/max_terminated_length": 1414.0,
      "completions/mean_length": 716.828125,
      "completions/mean_terminated_length": 716.828125,
      "completions/min_length": 313.0,
      "completions/min_terminated_length": 313.0,
      "entropy": 0.7189797349274158,
      "epoch": 0.2103995466137716,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.404296875,
      "learning_rate": 7.897421365826012e-07,
      "loss": 0.0745,
      "num_tokens": 43465063.0,
      "reward": 0.4921875,
      "reward_std": 0.9279273152351379,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1485,
      "step_time": 46.812287473119795
    },
    {
      "clip_ratio/high_max": 0.0005050305771874264,
      "clip_ratio/high_mean": 0.0005050305771874264,
      "clip_ratio/low_mean": 0.0003407065451028757,
      "clip_ratio/low_min": 0.0003407065451028757,
      "clip_ratio/region_mean": 0.0008457371222903021,
      "entropy": 0.8156288024038076,
      "epoch": 0.2105412298101445,
      "grad_norm": 0.58984375,
      "learning_rate": 7.896004533862284e-07,
      "loss": -0.0474,
      "step": 1486,
      "step_time": 3.0316234370693564
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1291.0,
      "completions/max_terminated_length": 1291.0,
      "completions/mean_length": 815.671875,
      "completions/mean_terminated_length": 815.671875,
      "completions/min_length": 10.0,
      "completions/min_terminated_length": 10.0,
      "entropy": 0.659655749797821,
      "epoch": 0.21068291300651742,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.427734375,
      "learning_rate": 7.894587701898554e-07,
      "loss": 0.0205,
      "num_tokens": 43525618.0,
      "reward": 0.2109375,
      "reward_std": 0.4525473415851593,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1487,
      "step_time": 41.86643699090928
    },
    {
      "clip_ratio/high_max": 0.0002447731931169983,
      "clip_ratio/high_mean": 0.0002447731931169983,
      "clip_ratio/low_mean": 0.00036000840918859467,
      "clip_ratio/low_min": 0.00036000840918859467,
      "clip_ratio/region_mean": 0.000604781602305593,
      "entropy": 0.6407380662858486,
      "epoch": 0.21082459620289035,
      "grad_norm": 0.283203125,
      "learning_rate": 7.893170869934826e-07,
      "loss": -0.0197,
      "step": 1488,
      "step_time": 2.82651240285486
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1379.0,
      "completions/max_terminated_length": 1379.0,
      "completions/mean_length": 834.296875,
      "completions/mean_terminated_length": 834.296875,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "entropy": 0.49480289220809937,
      "epoch": 0.21096627939926324,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.3828125,
      "learning_rate": 7.891754037971097e-07,
      "loss": -0.0255,
      "num_tokens": 43588165.0,
      "reward": 0.1875,
      "reward_std": 0.39339789748191833,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1489,
      "step_time": 45.075726884417236
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00014748079775017686,
      "clip_ratio/low_min": 0.00014748079775017686,
      "clip_ratio/region_mean": 0.00014748079775017686,
      "entropy": 0.5504688620567322,
      "epoch": 0.21110796259563616,
      "grad_norm": 0.224609375,
      "learning_rate": 7.890337206007367e-07,
      "loss": 0.0019,
      "step": 1490,
      "step_time": 3.134005489759147
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1357.0,
      "completions/max_terminated_length": 1357.0,
      "completions/mean_length": 819.703125,
      "completions/mean_terminated_length": 819.703125,
      "completions/min_length": 422.0,
      "completions/min_terminated_length": 422.0,
      "entropy": 0.8901479542255402,
      "epoch": 0.21124964579200906,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.35546875,
      "learning_rate": 7.888920374043638e-07,
      "loss": 0.0495,
      "num_tokens": 43651314.0,
      "reward": 0.09375,
      "reward_std": 0.19669894874095917,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 1491,
      "step_time": 44.86301768012345
    },
    {
      "clip_ratio/high_max": 0.00028754838785971515,
      "clip_ratio/high_mean": 0.00028754838785971515,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00028754838785971515,
      "entropy": 0.8389355167746544,
      "epoch": 0.21139132898838198,
      "grad_norm": 0.10009765625,
      "learning_rate": 7.887503542079908e-07,
      "loss": -0.0428,
      "step": 1492,
      "step_time": 2.949343752115965
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1157.0,
      "completions/max_terminated_length": 1157.0,
      "completions/mean_length": 647.890625,
      "completions/mean_terminated_length": 647.890625,
      "completions/min_length": 317.0,
      "completions/min_terminated_length": 317.0,
      "entropy": 0.5534971505403519,
      "epoch": 0.2115330121847549,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.455078125,
      "learning_rate": 7.88608671011618e-07,
      "loss": 0.0427,
      "num_tokens": 43702635.0,
      "reward": 0.4375,
      "reward_std": 0.774084210395813,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1493,
      "step_time": 37.76798087079078
    },
    {
      "clip_ratio/high_max": 0.0004901974461972713,
      "clip_ratio/high_mean": 0.0004901974461972713,
      "clip_ratio/low_mean": 0.000368540841009235,
      "clip_ratio/low_min": 0.000368540841009235,
      "clip_ratio/region_mean": 0.0008587382726545911,
      "entropy": 0.6762327402830124,
      "epoch": 0.2116746953811278,
      "grad_norm": 0.5546875,
      "learning_rate": 7.884669878152451e-07,
      "loss": -0.0509,
      "step": 1494,
      "step_time": 2.87659696303308
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1152.0,
      "completions/max_terminated_length": 1152.0,
      "completions/mean_length": 668.640625,
      "completions/mean_terminated_length": 668.640625,
      "completions/min_length": 324.0,
      "completions/min_terminated_length": 324.0,
      "entropy": 0.9786054715514183,
      "epoch": 0.2118163785775007,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.42578125,
      "learning_rate": 7.883253046188722e-07,
      "loss": 0.0055,
      "num_tokens": 43755812.0,
      "reward": 0.1484375,
      "reward_std": 0.3850344121456146,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.0859375,
      "rewards/format_reward_func/std": 0.19012710452079773,
      "step": 1495,
      "step_time": 37.54315638914704
    },
    {
      "clip_ratio/high_max": 0.0001364777926937677,
      "clip_ratio/high_mean": 0.0001364777926937677,
      "clip_ratio/low_mean": 0.0003699385415529832,
      "clip_ratio/low_min": 0.0003699385415529832,
      "clip_ratio/region_mean": 0.0005064163342467509,
      "entropy": 1.0924748629331589,
      "epoch": 0.2119580617738736,
      "grad_norm": 0.44921875,
      "learning_rate": 7.881836214224993e-07,
      "loss": 0.0128,
      "step": 1496,
      "step_time": 2.676442066207528
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1361.0,
      "completions/max_terminated_length": 1361.0,
      "completions/mean_length": 769.578125,
      "completions/mean_terminated_length": 769.578125,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "entropy": 0.6666352488100529,
      "epoch": 0.21209974497024653,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.33203125,
      "learning_rate": 7.880419382261263e-07,
      "loss": -0.0019,
      "num_tokens": 43814585.0,
      "reward": 0.1875,
      "reward_std": 0.39339789748191833,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1497,
      "step_time": 44.1733762184158
    },
    {
      "clip_ratio/high_max": 3.0413624699576758e-05,
      "clip_ratio/high_mean": 3.0413624699576758e-05,
      "clip_ratio/low_mean": 8.979982158052735e-05,
      "clip_ratio/low_min": 8.979982158052735e-05,
      "clip_ratio/region_mean": 0.00012021344628010411,
      "entropy": 0.5926208272576332,
      "epoch": 0.21224142816661945,
      "grad_norm": 0.28515625,
      "learning_rate": 7.879002550297534e-07,
      "loss": 0.0029,
      "step": 1498,
      "step_time": 2.9322362383827567
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1631.0,
      "completions/max_terminated_length": 1631.0,
      "completions/mean_length": 715.578125,
      "completions/mean_terminated_length": 715.578125,
      "completions/min_length": 14.0,
      "completions/min_terminated_length": 14.0,
      "entropy": 0.5668587423861027,
      "epoch": 0.21238311136299234,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.173828125,
      "learning_rate": 7.877585718333805e-07,
      "loss": 0.0706,
      "num_tokens": 43871102.0,
      "reward": 0.21875,
      "reward_std": 0.4531635046005249,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1499,
      "step_time": 53.95595148485154
    },
    {
      "clip_ratio/high_max": 0.0002775277134787757,
      "clip_ratio/high_mean": 0.0002775277134787757,
      "clip_ratio/low_mean": 9.946949285222217e-05,
      "clip_ratio/low_min": 9.946949285222217e-05,
      "clip_ratio/region_mean": 0.00037699720633099787,
      "entropy": 0.509800773113966,
      "epoch": 0.21252479455936527,
      "grad_norm": 0.361328125,
      "learning_rate": 7.876168886370076e-07,
      "loss": -0.0625,
      "step": 1500,
      "step_time": 3.351244144141674
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1488.0,
      "completions/max_terminated_length": 1488.0,
      "completions/mean_length": 717.3125,
      "completions/mean_terminated_length": 717.3125,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "entropy": 0.5207089446485043,
      "epoch": 0.21266647775573816,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.52734375,
      "learning_rate": 7.874752054406347e-07,
      "loss": -0.0031,
      "num_tokens": 43927234.0,
      "reward": 0.8125,
      "reward_std": 1.0671873092651367,
      "rewards/accuracy_reward_func/mean": 0.6875,
      "rewards/accuracy_reward_func/std": 0.9574271440505981,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1501,
      "step_time": 49.14703623391688
    },
    {
      "clip_ratio/high_max": 0.000551064164028503,
      "clip_ratio/high_mean": 0.000551064164028503,
      "clip_ratio/low_mean": 9.182165013044141e-05,
      "clip_ratio/low_min": 9.182165013044141e-05,
      "clip_ratio/region_mean": 0.0006428858177969232,
      "entropy": 0.5433799363672733,
      "epoch": 0.21280816095211108,
      "grad_norm": 0.5234375,
      "learning_rate": 7.873335222442618e-07,
      "loss": 0.0128,
      "step": 1502,
      "step_time": 3.1809241324663162
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1420.0,
      "completions/max_terminated_length": 1420.0,
      "completions/mean_length": 753.53125,
      "completions/mean_terminated_length": 753.53125,
      "completions/min_length": 411.0,
      "completions/min_terminated_length": 411.0,
      "entropy": 0.47549692541360855,
      "epoch": 0.212949844148484,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.39453125,
      "learning_rate": 7.871918390478889e-07,
      "loss": 0.0755,
      "num_tokens": 43985748.0,
      "reward": 0.4375,
      "reward_std": 0.852168083190918,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1503,
      "step_time": 47.42496943194419
    },
    {
      "clip_ratio/high_max": 0.0001804691637516953,
      "clip_ratio/high_mean": 0.0001804691637516953,
      "clip_ratio/low_mean": 0.0008493820860167034,
      "clip_ratio/low_min": 0.0008493820860167034,
      "clip_ratio/region_mean": 0.00102985124613042,
      "entropy": 0.6228253729641438,
      "epoch": 0.2130915273448569,
      "grad_norm": 0.455078125,
      "learning_rate": 7.870501558515161e-07,
      "loss": -0.0346,
      "step": 1504,
      "step_time": 3.1037098402157426
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1217.0,
      "completions/mean_length": 730.546875,
      "completions/mean_terminated_length": 677.1270141601562,
      "completions/min_length": 3.0,
      "completions/min_terminated_length": 3.0,
      "entropy": 0.6743981800973415,
      "epoch": 0.21323321054122982,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.49609375,
      "learning_rate": 7.86908472655143e-07,
      "loss": -0.0168,
      "num_tokens": 44041255.0,
      "reward": 0.328125,
      "reward_std": 0.6499007940292358,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1505,
      "step_time": 163.12161846086383
    },
    {
      "clip_ratio/high_max": 0.0002894821373047307,
      "clip_ratio/high_mean": 0.0002894821373047307,
      "clip_ratio/low_mean": 0.0011233201148570515,
      "clip_ratio/low_min": 0.0011233201148570515,
      "clip_ratio/region_mean": 0.0014128022521617822,
      "entropy": 0.6233739517629147,
      "epoch": 0.2133748937376027,
      "grad_norm": 0.5703125,
      "learning_rate": 7.867667894587701e-07,
      "loss": -0.0023,
      "step": 1506,
      "step_time": 7.025829796679318
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1150.0,
      "completions/max_terminated_length": 1150.0,
      "completions/mean_length": 613.859375,
      "completions/mean_terminated_length": 613.859375,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "entropy": 0.5594944469630718,
      "epoch": 0.21351657693397563,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5078125,
      "learning_rate": 7.866251062623972e-07,
      "loss": -0.0155,
      "num_tokens": 44088878.0,
      "reward": 0.3125,
      "reward_std": 0.613990306854248,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1507,
      "step_time": 37.61620959825814
    },
    {
      "clip_ratio/high_max": 4.822530900128186e-05,
      "clip_ratio/high_mean": 4.822530900128186e-05,
      "clip_ratio/low_mean": 0.0005132545484229922,
      "clip_ratio/low_min": 0.0005132545484229922,
      "clip_ratio/region_mean": 0.0005614798574242741,
      "entropy": 0.4784211479127407,
      "epoch": 0.21365826013034855,
      "grad_norm": 0.486328125,
      "learning_rate": 7.864834230660243e-07,
      "loss": 0.0243,
      "step": 1508,
      "step_time": 2.5345994103699923
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1258.0,
      "completions/max_terminated_length": 1258.0,
      "completions/mean_length": 716.203125,
      "completions/mean_terminated_length": 716.203125,
      "completions/min_length": 249.0,
      "completions/min_terminated_length": 249.0,
      "entropy": 0.54784220084548,
      "epoch": 0.21379994332672145,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.63671875,
      "learning_rate": 7.863417398696515e-07,
      "loss": -0.1205,
      "num_tokens": 44144891.0,
      "reward": 0.6875,
      "reward_std": 0.852168083190918,
      "rewards/accuracy_reward_func/mean": 0.5625,
      "rewards/accuracy_reward_func/std": 0.9063270092010498,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1509,
      "step_time": 41.32801114208996
    },
    {
      "clip_ratio/high_max": 8.327781688421965e-05,
      "clip_ratio/high_mean": 8.327781688421965e-05,
      "clip_ratio/low_mean": 0.0006255940461414866,
      "clip_ratio/low_min": 0.0006255940461414866,
      "clip_ratio/region_mean": 0.0007088718630257063,
      "entropy": 0.5822090543806553,
      "epoch": 0.21394162652309437,
      "grad_norm": 0.451171875,
      "learning_rate": 7.862000566732785e-07,
      "loss": 0.137,
      "step": 1510,
      "step_time": 2.7931017810478806
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1242.0,
      "completions/max_terminated_length": 1242.0,
      "completions/mean_length": 648.203125,
      "completions/mean_terminated_length": 648.203125,
      "completions/min_length": 307.0,
      "completions/min_terminated_length": 307.0,
      "entropy": 0.728702038526535,
      "epoch": 0.21408330971946726,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.52734375,
      "learning_rate": 7.860583734769057e-07,
      "loss": -0.0336,
      "num_tokens": 44196664.0,
      "reward": 0.421875,
      "reward_std": 0.71391361951828,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1511,
      "step_time": 40.854194913990796
    },
    {
      "clip_ratio/high_max": 0.00038356961886165664,
      "clip_ratio/high_mean": 0.00038356961886165664,
      "clip_ratio/low_mean": 0.00034553730438346975,
      "clip_ratio/low_min": 0.00034553730438346975,
      "clip_ratio/region_mean": 0.0007291069232451264,
      "entropy": 0.9420050755143166,
      "epoch": 0.21422499291584018,
      "grad_norm": 0.61328125,
      "learning_rate": 7.859166902805326e-07,
      "loss": 0.0736,
      "step": 1512,
      "step_time": 2.979339078068733
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1404.0,
      "completions/max_terminated_length": 1404.0,
      "completions/mean_length": 703.140625,
      "completions/mean_terminated_length": 703.140625,
      "completions/min_length": 366.0,
      "completions/min_terminated_length": 366.0,
      "entropy": 0.8649768605828285,
      "epoch": 0.21436667611221308,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.53125,
      "learning_rate": 7.857750070841597e-07,
      "loss": -0.0292,
      "num_tokens": 44252673.0,
      "reward": 0.28125,
      "reward_std": 0.5482656359672546,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1513,
      "step_time": 46.23962367605418
    },
    {
      "clip_ratio/high_max": 0.0001142074033850804,
      "clip_ratio/high_mean": 0.0001142074033850804,
      "clip_ratio/low_mean": 0.00045641298493137583,
      "clip_ratio/low_min": 0.00045641298493137583,
      "clip_ratio/region_mean": 0.0005706203883164562,
      "entropy": 0.9038674831390381,
      "epoch": 0.214508359308586,
      "grad_norm": 0.1953125,
      "learning_rate": 7.856333238877869e-07,
      "loss": 0.0272,
      "step": 1514,
      "step_time": 3.0630941707640886
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1337.0,
      "completions/max_terminated_length": 1337.0,
      "completions/mean_length": 776.765625,
      "completions/mean_terminated_length": 776.765625,
      "completions/min_length": 13.0,
      "completions/min_terminated_length": 13.0,
      "entropy": 0.8364302590489388,
      "epoch": 0.21465004250495892,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.67578125,
      "learning_rate": 7.854916406914139e-07,
      "loss": 0.0137,
      "num_tokens": 44314626.0,
      "reward": 0.234375,
      "reward_std": 0.5037065148353577,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1515,
      "step_time": 44.35994145553559
    },
    {
      "clip_ratio/high_max": 0.00011105109297204763,
      "clip_ratio/high_mean": 0.00011105109297204763,
      "clip_ratio/low_mean": 0.0003122375055681914,
      "clip_ratio/low_min": 0.0003122375055681914,
      "clip_ratio/region_mean": 0.00042328859854023904,
      "entropy": 0.975741907954216,
      "epoch": 0.21479172570133181,
      "grad_norm": 0.3203125,
      "learning_rate": 7.853499574950411e-07,
      "loss": 0.0324,
      "step": 1516,
      "step_time": 3.2056798692792654
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1552.0,
      "completions/max_terminated_length": 1552.0,
      "completions/mean_length": 741.265625,
      "completions/mean_terminated_length": 741.265625,
      "completions/min_length": 314.0,
      "completions/min_terminated_length": 314.0,
      "entropy": 0.6422161720693111,
      "epoch": 0.21493340889770474,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.546875,
      "learning_rate": 7.852082742986681e-07,
      "loss": 0.0858,
      "num_tokens": 44373907.0,
      "reward": 0.3984375,
      "reward_std": 0.6853320598602295,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1517,
      "step_time": 51.90302006341517
    },
    {
      "clip_ratio/high_max": 0.0004655347947846167,
      "clip_ratio/high_mean": 0.0004655347947846167,
      "clip_ratio/low_mean": 0.0005704720388166606,
      "clip_ratio/low_min": 0.0005704720388166606,
      "clip_ratio/region_mean": 0.0010360068481531925,
      "entropy": 0.7159690074622631,
      "epoch": 0.21507509209407763,
      "grad_norm": 0.51171875,
      "learning_rate": 7.850665911022953e-07,
      "loss": -0.025,
      "step": 1518,
      "step_time": 3.327333802357316
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1633.0,
      "completions/max_terminated_length": 1633.0,
      "completions/mean_length": 666.953125,
      "completions/mean_terminated_length": 666.953125,
      "completions/min_length": 341.0,
      "completions/min_terminated_length": 341.0,
      "entropy": 0.8343058973550797,
      "epoch": 0.21521677529045055,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 7.849249079059224e-07,
      "loss": 0.0,
      "num_tokens": 44434496.0,
      "reward": 0.125,
      "reward_std": 0.2182178944349289,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1519,
      "step_time": 55.49147206172347
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 1.07410279661417,
      "epoch": 0.21535845848682347,
      "grad_norm": 0.0,
      "learning_rate": 7.847832247095493e-07,
      "loss": 0.0,
      "step": 1520,
      "step_time": 3.81950725056231
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 1270.0,
      "completions/mean_length": 854.171875,
      "completions/mean_terminated_length": 802.71435546875,
      "completions/min_length": 367.0,
      "completions/min_terminated_length": 367.0,
      "entropy": 0.70295500010252,
      "epoch": 0.21550014168319637,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.09423828125,
      "learning_rate": 7.846415415131765e-07,
      "loss": 0.0296,
      "num_tokens": 44501883.0,
      "reward": 0.15625,
      "reward_std": 0.3196600377559662,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1521,
      "step_time": 167.64871025830507
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0002057836391031742,
      "clip_ratio/low_min": 0.0002057836391031742,
      "clip_ratio/region_mean": 0.0002057836391031742,
      "entropy": 0.6841215565800667,
      "epoch": 0.2156418248795693,
      "grad_norm": 0.291015625,
      "learning_rate": 7.844998583168035e-07,
      "loss": -0.0309,
      "step": 1522,
      "step_time": 7.289593102410436
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1383.0,
      "completions/max_terminated_length": 1383.0,
      "completions/mean_length": 743.859375,
      "completions/mean_terminated_length": 743.859375,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "entropy": 0.38952190056443214,
      "epoch": 0.21578350807594218,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.400390625,
      "learning_rate": 7.843581751204307e-07,
      "loss": -0.0308,
      "num_tokens": 44557186.0,
      "reward": 0.6015625,
      "reward_std": 0.9092980623245239,
      "rewards/accuracy_reward_func/mean": 0.5,
      "rewards/accuracy_reward_func/std": 0.8728715777397156,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1523,
      "step_time": 44.8119858559221
    },
    {
      "clip_ratio/high_max": 0.0002543112277635373,
      "clip_ratio/high_mean": 0.0002543112277635373,
      "clip_ratio/low_mean": 0.0005350720493879635,
      "clip_ratio/low_min": 0.0005350720493879635,
      "clip_ratio/region_mean": 0.0007893832698755432,
      "entropy": 0.4719589725136757,
      "epoch": 0.2159251912723151,
      "grad_norm": 0.39453125,
      "learning_rate": 7.842164919240578e-07,
      "loss": 0.0251,
      "step": 1524,
      "step_time": 3.147042320109904
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1360.0,
      "completions/max_terminated_length": 1360.0,
      "completions/mean_length": 659.1875,
      "completions/mean_terminated_length": 659.1875,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "entropy": 0.6852961480617523,
      "epoch": 0.21606687446868802,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.1982421875,
      "learning_rate": 7.840748087276849e-07,
      "loss": 0.0328,
      "num_tokens": 44610670.0,
      "reward": 0.28125,
      "reward_std": 0.6538955569267273,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1525,
      "step_time": 44.80801478587091
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0008361907275684644,
      "clip_ratio/low_min": 0.0008361907275684644,
      "clip_ratio/region_mean": 0.0008361907275684644,
      "entropy": 0.5903436616063118,
      "epoch": 0.21620855766506092,
      "grad_norm": 0.380859375,
      "learning_rate": 7.83933125531312e-07,
      "loss": -0.0149,
      "step": 1526,
      "step_time": 2.976655545644462
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1223.0,
      "completions/max_terminated_length": 1223.0,
      "completions/mean_length": 754.265625,
      "completions/mean_terminated_length": 754.265625,
      "completions/min_length": 299.0,
      "completions/min_terminated_length": 299.0,
      "entropy": 0.5567805022001266,
      "epoch": 0.21635024086143384,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.578125,
      "learning_rate": 7.83791442334939e-07,
      "loss": 0.0336,
      "num_tokens": 44668191.0,
      "reward": 0.5546875,
      "reward_std": 0.7974024415016174,
      "rewards/accuracy_reward_func/mean": 0.4375,
      "rewards/accuracy_reward_func/std": 0.8333333730697632,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1527,
      "step_time": 40.01810419745743
    },
    {
      "clip_ratio/high_max": 0.0005949725746177137,
      "clip_ratio/high_mean": 0.0005949725746177137,
      "clip_ratio/low_mean": 0.00012845214223489165,
      "clip_ratio/low_min": 0.00012845214223489165,
      "clip_ratio/region_mean": 0.0007234247168526053,
      "entropy": 0.6374463364481926,
      "epoch": 0.21649192405780673,
      "grad_norm": 0.365234375,
      "learning_rate": 7.836497591385661e-07,
      "loss": -0.0128,
      "step": 1528,
      "step_time": 2.7998572969809175
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1704.0,
      "completions/max_terminated_length": 1704.0,
      "completions/mean_length": 712.421875,
      "completions/mean_terminated_length": 712.421875,
      "completions/min_length": 289.0,
      "completions/min_terminated_length": 289.0,
      "entropy": 0.3984462693333626,
      "epoch": 0.21663360725417966,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.455078125,
      "learning_rate": 7.835080759421932e-07,
      "loss": 0.0134,
      "num_tokens": 44723146.0,
      "reward": 0.53125,
      "reward_std": 0.9252841472625732,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1529,
      "step_time": 55.79598852433264
    },
    {
      "clip_ratio/high_max": 0.00030498389969579875,
      "clip_ratio/high_mean": 0.00030498389969579875,
      "clip_ratio/low_mean": 0.0001746294838085305,
      "clip_ratio/low_min": 0.0001746294838085305,
      "clip_ratio/region_mean": 0.00047961337986635044,
      "entropy": 0.5306387208402157,
      "epoch": 0.21677529045055258,
      "grad_norm": 0.5078125,
      "learning_rate": 7.833663927458203e-07,
      "loss": 0.0059,
      "step": 1530,
      "step_time": 3.418476590886712
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 940.0,
      "completions/max_terminated_length": 940.0,
      "completions/mean_length": 474.359375,
      "completions/mean_terminated_length": 474.359375,
      "completions/min_length": 3.0,
      "completions/min_terminated_length": 3.0,
      "entropy": 1.0174558758735657,
      "epoch": 0.21691697364692547,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.47265625,
      "learning_rate": 7.832247095494474e-07,
      "loss": -0.0442,
      "num_tokens": 44766513.0,
      "reward": 0.65625,
      "reward_std": 0.839855432510376,
      "rewards/accuracy_reward_func/mean": 0.53125,
      "rewards/accuracy_reward_func/std": 0.8903138637542725,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1531,
      "step_time": 31.198880444280803
    },
    {
      "clip_ratio/high_max": 0.0007024457590887323,
      "clip_ratio/high_mean": 0.0007024457590887323,
      "clip_ratio/low_mean": 0.00040983840881381184,
      "clip_ratio/low_min": 0.00040983840881381184,
      "clip_ratio/region_mean": 0.0011122841679025441,
      "entropy": 1.011780984699726,
      "epoch": 0.2170586568432984,
      "grad_norm": 0.7265625,
      "learning_rate": 7.830830263530745e-07,
      "loss": 0.0504,
      "step": 1532,
      "step_time": 2.4612977290526032
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1592.0,
      "completions/max_terminated_length": 1592.0,
      "completions/mean_length": 988.109375,
      "completions/mean_terminated_length": 988.109375,
      "completions/min_length": 583.0,
      "completions/min_terminated_length": 583.0,
      "entropy": 0.5802346952259541,
      "epoch": 0.21720034003967129,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.205078125,
      "learning_rate": 7.829413431567016e-07,
      "loss": -0.0041,
      "num_tokens": 44842552.0,
      "reward": 0.1640625,
      "reward_std": 0.4277542531490326,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1533,
      "step_time": 53.526414540596306
    },
    {
      "clip_ratio/high_max": 3.311258114990778e-05,
      "clip_ratio/high_mean": 3.311258114990778e-05,
      "clip_ratio/low_mean": 9.759893509908579e-05,
      "clip_ratio/low_min": 9.759893509908579e-05,
      "clip_ratio/region_mean": 0.00013071151624899358,
      "entropy": 0.6255198791623116,
      "epoch": 0.2173420232360442,
      "grad_norm": 0.220703125,
      "learning_rate": 7.827996599603287e-07,
      "loss": 0.0223,
      "step": 1534,
      "step_time": 3.54689721763134
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1552.0,
      "completions/max_terminated_length": 1552.0,
      "completions/mean_length": 837.609375,
      "completions/mean_terminated_length": 837.609375,
      "completions/min_length": 391.0,
      "completions/min_terminated_length": 391.0,
      "entropy": 0.9340100139379501,
      "epoch": 0.21748370643241713,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.1396484375,
      "learning_rate": 7.826579767639557e-07,
      "loss": 0.0136,
      "num_tokens": 44908719.0,
      "reward": 0.1484375,
      "reward_std": 0.3172261714935303,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1535,
      "step_time": 51.16572462581098
    },
    {
      "clip_ratio/high_max": 0.00035974262573290616,
      "clip_ratio/high_mean": 0.00035974262573290616,
      "clip_ratio/low_mean": 0.00027117416539113037,
      "clip_ratio/low_min": 0.00027117416539113037,
      "clip_ratio/region_mean": 0.0006309167947620153,
      "entropy": 0.9319398514926434,
      "epoch": 0.21762538962879002,
      "grad_norm": 0.458984375,
      "learning_rate": 7.825162935675828e-07,
      "loss": 0.0204,
      "step": 1536,
      "step_time": 3.3651767699047923
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1624.0,
      "completions/max_terminated_length": 1624.0,
      "completions/mean_length": 763.71875,
      "completions/mean_terminated_length": 763.71875,
      "completions/min_length": 366.0,
      "completions/min_terminated_length": 366.0,
      "entropy": 0.815053503960371,
      "epoch": 0.21776707282516294,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.310546875,
      "learning_rate": 7.823746103712099e-07,
      "loss": 0.0322,
      "num_tokens": 44966653.0,
      "reward": 0.21875,
      "reward_std": 0.4531635046005249,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1537,
      "step_time": 54.401661354117095
    },
    {
      "clip_ratio/high_max": 4.4060627260478213e-05,
      "clip_ratio/high_mean": 4.4060627260478213e-05,
      "clip_ratio/low_mean": 0.0003180223902745638,
      "clip_ratio/low_min": 0.0003180223902745638,
      "clip_ratio/region_mean": 0.000362083017535042,
      "entropy": 0.9064610749483109,
      "epoch": 0.21790875602153584,
      "grad_norm": 0.22265625,
      "learning_rate": 7.82232927174837e-07,
      "loss": -0.0125,
      "step": 1538,
      "step_time": 3.3336992915719748
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1318.0,
      "completions/max_terminated_length": 1318.0,
      "completions/mean_length": 673.109375,
      "completions/mean_terminated_length": 673.109375,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "entropy": 0.6590983122587204,
      "epoch": 0.21805043921790876,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.314453125,
      "learning_rate": 7.820912439784642e-07,
      "loss": -0.0035,
      "num_tokens": 45021524.0,
      "reward": 0.34375,
      "reward_std": 0.6228136420249939,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1539,
      "step_time": 44.325017244555056
    },
    {
      "clip_ratio/high_max": 0.0003524720850691665,
      "clip_ratio/high_mean": 0.0003524720850691665,
      "clip_ratio/low_mean": 0.00019477654495858587,
      "clip_ratio/low_min": 0.00019477654495858587,
      "clip_ratio/region_mean": 0.0005472486300277524,
      "entropy": 0.7113401591777802,
      "epoch": 0.21819212241428165,
      "grad_norm": 0.357421875,
      "learning_rate": 7.819495607820912e-07,
      "loss": 0.0198,
      "step": 1540,
      "step_time": 3.046489829197526
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1225.0,
      "completions/max_terminated_length": 1225.0,
      "completions/mean_length": 629.78125,
      "completions/mean_terminated_length": 629.78125,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "entropy": 1.0483283177018166,
      "epoch": 0.21833380561065457,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.8359375,
      "learning_rate": 7.818078775857183e-07,
      "loss": -0.0218,
      "num_tokens": 45081958.0,
      "reward": 0.2109375,
      "reward_std": 0.4525473415851593,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1541,
      "step_time": 42.18113515805453
    },
    {
      "clip_ratio/high_max": 0.00045978851994732395,
      "clip_ratio/high_mean": 0.00045978851994732395,
      "clip_ratio/low_mean": 0.0006908214236318599,
      "clip_ratio/low_min": 0.0006908214236318599,
      "clip_ratio/region_mean": 0.0011506099435791839,
      "entropy": 0.9201317802071571,
      "epoch": 0.2184754888070275,
      "grad_norm": 0.2099609375,
      "learning_rate": 7.816661943893453e-07,
      "loss": 0.0282,
      "step": 1542,
      "step_time": 3.43262555077672
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1516.0,
      "completions/max_terminated_length": 1516.0,
      "completions/mean_length": 748.921875,
      "completions/mean_terminated_length": 748.921875,
      "completions/min_length": 385.0,
      "completions/min_terminated_length": 385.0,
      "entropy": 0.757111195474863,
      "epoch": 0.2186171720034004,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.359375,
      "learning_rate": 7.815245111929725e-07,
      "loss": 0.017,
      "num_tokens": 45139601.0,
      "reward": 0.265625,
      "reward_std": 0.577135443687439,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1543,
      "step_time": 49.80631733033806
    },
    {
      "clip_ratio/high_max": 0.000129189073049929,
      "clip_ratio/high_mean": 0.000129189073049929,
      "clip_ratio/low_mean": 0.00046710282913409173,
      "clip_ratio/low_min": 0.00046710282913409173,
      "clip_ratio/region_mean": 0.0005962919021840207,
      "entropy": 0.7195844948291779,
      "epoch": 0.2187588551997733,
      "grad_norm": 0.4140625,
      "learning_rate": 7.813828279965996e-07,
      "loss": -0.0608,
      "step": 1544,
      "step_time": 3.1797687858343124
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1482.0,
      "completions/max_terminated_length": 1482.0,
      "completions/mean_length": 657.34375,
      "completions/mean_terminated_length": 657.34375,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "entropy": 0.8412057310342789,
      "epoch": 0.2189005383961462,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.63671875,
      "learning_rate": 7.812411448002266e-07,
      "loss": 0.0902,
      "num_tokens": 45191335.0,
      "reward": 0.4921875,
      "reward_std": 0.7585083246231079,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1545,
      "step_time": 48.69449685327709
    },
    {
      "clip_ratio/high_max": 0.000582736454816768,
      "clip_ratio/high_mean": 0.000582736454816768,
      "clip_ratio/low_mean": 0.0002839426997525152,
      "clip_ratio/low_min": 0.0002839426997525152,
      "clip_ratio/region_mean": 0.0008666791509313043,
      "entropy": 0.688121996819973,
      "epoch": 0.21904222159251913,
      "grad_norm": 0.5078125,
      "learning_rate": 7.810994616038538e-07,
      "loss": -0.0682,
      "step": 1546,
      "step_time": 3.3462361907586455
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1282.0,
      "completions/max_terminated_length": 1282.0,
      "completions/mean_length": 646.53125,
      "completions/mean_terminated_length": 646.53125,
      "completions/min_length": 300.0,
      "completions/min_terminated_length": 300.0,
      "entropy": 0.6961981952190399,
      "epoch": 0.21918390478889205,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.43359375,
      "learning_rate": 7.809577784074808e-07,
      "loss": 0.0727,
      "num_tokens": 45247449.0,
      "reward": 0.46875,
      "reward_std": 0.7552725076675415,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1547,
      "step_time": 42.0029664458707
    },
    {
      "clip_ratio/high_max": 0.00043233883116045035,
      "clip_ratio/high_mean": 0.00043233883116045035,
      "clip_ratio/low_mean": 0.0009727330798341427,
      "clip_ratio/low_min": 0.0009727330798341427,
      "clip_ratio/region_mean": 0.0014050719037186354,
      "entropy": 0.6178689263761044,
      "epoch": 0.21932558798526494,
      "grad_norm": 0.7421875,
      "learning_rate": 7.808160952111079e-07,
      "loss": -0.0584,
      "step": 1548,
      "step_time": 2.958926333114505
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1654.0,
      "completions/max_terminated_length": 1654.0,
      "completions/mean_length": 765.671875,
      "completions/mean_terminated_length": 765.671875,
      "completions/min_length": 341.0,
      "completions/min_terminated_length": 341.0,
      "entropy": 0.6632264703512192,
      "epoch": 0.21946727118163786,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.48828125,
      "learning_rate": 7.80674412014735e-07,
      "loss": 0.0257,
      "num_tokens": 45305716.0,
      "reward": 0.2421875,
      "reward_std": 0.503891110420227,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1549,
      "step_time": 54.01199381519109
    },
    {
      "clip_ratio/high_max": 0.0005651181636494584,
      "clip_ratio/high_mean": 0.0005651181636494584,
      "clip_ratio/low_mean": 0.00040536370579502545,
      "clip_ratio/low_min": 0.00040536370579502545,
      "clip_ratio/region_mean": 0.0009704818803584203,
      "entropy": 0.689655527472496,
      "epoch": 0.21960895437801076,
      "grad_norm": 0.36328125,
      "learning_rate": 7.805327288183621e-07,
      "loss": -0.0127,
      "step": 1550,
      "step_time": 3.3486454635858536
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1387.0,
      "completions/max_terminated_length": 1387.0,
      "completions/mean_length": 796.515625,
      "completions/mean_terminated_length": 796.515625,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "entropy": 0.6936515644192696,
      "epoch": 0.21975063757438368,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.470703125,
      "learning_rate": 7.803910456219892e-07,
      "loss": 0.0462,
      "num_tokens": 45367285.0,
      "reward": 0.2109375,
      "reward_std": 0.4525473415851593,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1551,
      "step_time": 45.63038335554302
    },
    {
      "clip_ratio/high_max": 0.00015709289436927065,
      "clip_ratio/high_mean": 0.00015709289436927065,
      "clip_ratio/low_mean": 3.977091910201125e-05,
      "clip_ratio/low_min": 3.977091910201125e-05,
      "clip_ratio/region_mean": 0.0001968638134712819,
      "entropy": 0.636348694562912,
      "epoch": 0.2198923207707566,
      "grad_norm": 0.2216796875,
      "learning_rate": 7.802493624256164e-07,
      "loss": -0.0289,
      "step": 1552,
      "step_time": 3.1033399794250727
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1804.0,
      "completions/max_terminated_length": 1804.0,
      "completions/mean_length": 898.921875,
      "completions/mean_terminated_length": 898.921875,
      "completions/min_length": 417.0,
      "completions/min_terminated_length": 417.0,
      "entropy": 0.6226502098143101,
      "epoch": 0.2200340039671295,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1591796875,
      "learning_rate": 7.801076792292434e-07,
      "loss": 0.0418,
      "num_tokens": 45436992.0,
      "reward": 0.25,
      "reward_std": 0.6172134280204773,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1553,
      "step_time": 59.79567172471434
    },
    {
      "clip_ratio/high_max": 3.5072953323833644e-05,
      "clip_ratio/high_mean": 3.5072953323833644e-05,
      "clip_ratio/low_mean": 0.00010260748967994004,
      "clip_ratio/low_min": 0.00010260748967994004,
      "clip_ratio/region_mean": 0.0001376804430037737,
      "entropy": 0.5473779141902924,
      "epoch": 0.22017568716350241,
      "grad_norm": 0.2412109375,
      "learning_rate": 7.799659960328705e-07,
      "loss": -0.0351,
      "step": 1554,
      "step_time": 3.6988010480999947
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1653.0,
      "completions/max_terminated_length": 1653.0,
      "completions/mean_length": 809.09375,
      "completions/mean_terminated_length": 809.09375,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "entropy": 1.0293674245476723,
      "epoch": 0.2203173703598753,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.107421875,
      "learning_rate": 7.798243128364975e-07,
      "loss": -0.0015,
      "num_tokens": 45501046.0,
      "reward": 0.1484375,
      "reward_std": 0.3172261714935303,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1555,
      "step_time": 55.08956888504326
    },
    {
      "clip_ratio/high_max": 0.0002587934286566451,
      "clip_ratio/high_mean": 0.0002587934286566451,
      "clip_ratio/low_mean": 0.00041286517080152407,
      "clip_ratio/low_min": 0.00041286517080152407,
      "clip_ratio/region_mean": 0.0006716585921822116,
      "entropy": 0.985462099313736,
      "epoch": 0.22045905355624823,
      "grad_norm": 0.41015625,
      "learning_rate": 7.796826296401246e-07,
      "loss": 0.0216,
      "step": 1556,
      "step_time": 3.462200122885406
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1130.0,
      "completions/max_terminated_length": 1130.0,
      "completions/mean_length": 738.703125,
      "completions/mean_terminated_length": 738.703125,
      "completions/min_length": 357.0,
      "completions/min_terminated_length": 357.0,
      "entropy": 0.7717200517654419,
      "epoch": 0.22060073675262115,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.50390625,
      "learning_rate": 7.795409464437518e-07,
      "loss": 0.0409,
      "num_tokens": 45557059.0,
      "reward": 0.6484375,
      "reward_std": 0.8436489105224609,
      "rewards/accuracy_reward_func/mean": 0.53125,
      "rewards/accuracy_reward_func/std": 0.8903138637542725,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1557,
      "step_time": 37.133972715586424
    },
    {
      "clip_ratio/high_max": 0.00042049922558362596,
      "clip_ratio/high_mean": 0.00042049922558362596,
      "clip_ratio/low_mean": 0.0006661701991106384,
      "clip_ratio/low_min": 0.0006661701991106384,
      "clip_ratio/region_mean": 0.0010866694137803279,
      "entropy": 0.649282805621624,
      "epoch": 0.22074241994899405,
      "grad_norm": 0.55859375,
      "learning_rate": 7.793992632473788e-07,
      "loss": -0.0071,
      "step": 1558,
      "step_time": 2.5805109133943915
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1460.0,
      "completions/max_terminated_length": 1460.0,
      "completions/mean_length": 801.25,
      "completions/mean_terminated_length": 801.25,
      "completions/min_length": 316.0,
      "completions/min_terminated_length": 316.0,
      "entropy": 0.6991114839911461,
      "epoch": 0.22088410314536697,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.341796875,
      "learning_rate": 7.79257580051006e-07,
      "loss": 0.1277,
      "num_tokens": 45619507.0,
      "reward": 0.4609375,
      "reward_std": 0.757526695728302,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1559,
      "step_time": 47.74772875756025
    },
    {
      "clip_ratio/high_max": 0.000334835745888995,
      "clip_ratio/high_mean": 0.000334835745888995,
      "clip_ratio/low_mean": 0.00044920291111338884,
      "clip_ratio/low_min": 0.00044920291111338884,
      "clip_ratio/region_mean": 0.0007840386606403627,
      "entropy": 0.6636176630854607,
      "epoch": 0.22102578634173986,
      "grad_norm": 0.52734375,
      "learning_rate": 7.79115896854633e-07,
      "loss": -0.1215,
      "step": 1560,
      "step_time": 3.1089525502175093
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1094.0,
      "completions/max_terminated_length": 1094.0,
      "completions/mean_length": 537.078125,
      "completions/mean_terminated_length": 537.078125,
      "completions/min_length": 290.0,
      "completions/min_terminated_length": 290.0,
      "entropy": 0.8210705444216728,
      "epoch": 0.22116746953811278,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.240234375,
      "learning_rate": 7.789742136582601e-07,
      "loss": 0.0088,
      "num_tokens": 45663976.0,
      "reward": 0.21875,
      "reward_std": 0.4531635046005249,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1561,
      "step_time": 35.33359041437507
    },
    {
      "clip_ratio/high_max": 0.00017790894344216213,
      "clip_ratio/high_mean": 0.00017790894344216213,
      "clip_ratio/low_mean": 0.00019171922758687288,
      "clip_ratio/low_min": 0.00019171922758687288,
      "clip_ratio/region_mean": 0.000369628171029035,
      "entropy": 0.7635693699121475,
      "epoch": 0.2213091527344857,
      "grad_norm": 0.392578125,
      "learning_rate": 7.788325304618873e-07,
      "loss": -0.0093,
      "step": 1562,
      "step_time": 2.4778826227411628
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1568.0,
      "completions/max_terminated_length": 1568.0,
      "completions/mean_length": 617.8125,
      "completions/mean_terminated_length": 617.8125,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "entropy": 0.644554328173399,
      "epoch": 0.2214508359308586,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.466796875,
      "learning_rate": 7.786908472655142e-07,
      "loss": -0.0202,
      "num_tokens": 45713628.0,
      "reward": 0.875,
      "reward_std": 0.8997353911399841,
      "rewards/accuracy_reward_func/mean": 0.75,
      "rewards/accuracy_reward_func/std": 0.9759001135826111,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1563,
      "step_time": 50.94214781653136
    },
    {
      "clip_ratio/high_max": 0.00040069442547974177,
      "clip_ratio/high_mean": 0.00040069442547974177,
      "clip_ratio/low_mean": 0.0004003643407486379,
      "clip_ratio/low_min": 0.0004003643407486379,
      "clip_ratio/region_mean": 0.0008010587662283797,
      "entropy": 0.541393231600523,
      "epoch": 0.22159251912723152,
      "grad_norm": 0.6328125,
      "learning_rate": 7.785491640691414e-07,
      "loss": 0.0078,
      "step": 1564,
      "step_time": 3.414622816257179
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1425.0,
      "completions/max_terminated_length": 1425.0,
      "completions/mean_length": 711.53125,
      "completions/mean_terminated_length": 711.53125,
      "completions/min_length": 397.0,
      "completions/min_terminated_length": 397.0,
      "entropy": 0.7117931619286537,
      "epoch": 0.2217342023236044,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.3984375,
      "learning_rate": 7.784074808727684e-07,
      "loss": -0.0279,
      "num_tokens": 45769598.0,
      "reward": 0.2421875,
      "reward_std": 0.503891110420227,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1565,
      "step_time": 46.130780157633126
    },
    {
      "clip_ratio/high_max": 0.0005025675745855551,
      "clip_ratio/high_mean": 0.0005025675745855551,
      "clip_ratio/low_mean": 0.0005139722525200341,
      "clip_ratio/low_min": 0.0005139722525200341,
      "clip_ratio/region_mean": 0.0010165398271055892,
      "entropy": 0.7467104867100716,
      "epoch": 0.22187588551997733,
      "grad_norm": 0.625,
      "learning_rate": 7.782657976763956e-07,
      "loss": 0.0111,
      "step": 1566,
      "step_time": 3.04292852897197
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 2326.0,
      "completions/mean_length": 848.515625,
      "completions/mean_terminated_length": 796.9683227539062,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "entropy": 0.6649754419922829,
      "epoch": 0.22201756871635023,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.3203125,
      "learning_rate": 7.781241144800227e-07,
      "loss": -0.0325,
      "num_tokens": 45833551.0,
      "reward": 0.53125,
      "reward_std": 0.975391685962677,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1567,
      "step_time": 162.9091151431203
    },
    {
      "clip_ratio/high_max": 8.580586654716171e-05,
      "clip_ratio/high_mean": 8.580586654716171e-05,
      "clip_ratio/low_mean": 0.00018875101159210317,
      "clip_ratio/low_min": 0.00018875101159210317,
      "clip_ratio/region_mean": 0.0002745568781392649,
      "entropy": 0.48488858714699745,
      "epoch": 0.22215925191272315,
      "grad_norm": 0.34375,
      "learning_rate": 7.779824312836497e-07,
      "loss": 0.0796,
      "step": 1568,
      "step_time": 7.286524012684822
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1582.0,
      "completions/max_terminated_length": 1582.0,
      "completions/mean_length": 673.40625,
      "completions/mean_terminated_length": 673.40625,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "entropy": 0.8295590355992317,
      "epoch": 0.22230093510909607,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.439453125,
      "learning_rate": 7.778407480872769e-07,
      "loss": 0.0361,
      "num_tokens": 45886329.0,
      "reward": 0.3359375,
      "reward_std": 0.7403060793876648,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1569,
      "step_time": 51.85527922865003
    },
    {
      "clip_ratio/high_max": 0.0001000120973912999,
      "clip_ratio/high_mean": 0.0001000120973912999,
      "clip_ratio/low_mean": 0.000458705413620919,
      "clip_ratio/low_min": 0.000458705413620919,
      "clip_ratio/region_mean": 0.0005587175110122189,
      "entropy": 0.7906223237514496,
      "epoch": 0.22244261830546896,
      "grad_norm": 0.412109375,
      "learning_rate": 7.776990648909038e-07,
      "loss": -0.0385,
      "step": 1570,
      "step_time": 3.308345147408545
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1853.0,
      "completions/max_terminated_length": 1853.0,
      "completions/mean_length": 821.078125,
      "completions/mean_terminated_length": 821.078125,
      "completions/min_length": 275.0,
      "completions/min_terminated_length": 275.0,
      "entropy": 0.775753378868103,
      "epoch": 0.22258430150184189,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.287109375,
      "learning_rate": 7.77557381694531e-07,
      "loss": 0.0326,
      "num_tokens": 45948734.0,
      "reward": 0.3125,
      "reward_std": 0.6393200755119324,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1571,
      "step_time": 61.04454093705863
    },
    {
      "clip_ratio/high_max": 0.0002190154009440448,
      "clip_ratio/high_mean": 0.0002190154009440448,
      "clip_ratio/low_mean": 7.573264520033263e-05,
      "clip_ratio/low_min": 7.573264520033263e-05,
      "clip_ratio/region_mean": 0.00029474804614437744,
      "entropy": 0.8086614422500134,
      "epoch": 0.22272598469821478,
      "grad_norm": 0.326171875,
      "learning_rate": 7.774156984981581e-07,
      "loss": 0.0068,
      "step": 1572,
      "step_time": 3.6731916731223464
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1717.0,
      "completions/max_terminated_length": 1717.0,
      "completions/mean_length": 907.40625,
      "completions/mean_terminated_length": 907.40625,
      "completions/min_length": 436.0,
      "completions/min_terminated_length": 436.0,
      "entropy": 0.8005855828523636,
      "epoch": 0.2228676678945877,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.3203125,
      "learning_rate": 7.772740153017852e-07,
      "loss": 0.0232,
      "num_tokens": 46018520.0,
      "reward": 0.21875,
      "reward_std": 0.502967357635498,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 1573,
      "step_time": 57.13790086098015
    },
    {
      "clip_ratio/high_max": 0.00031404745459440164,
      "clip_ratio/high_mean": 0.00031404745459440164,
      "clip_ratio/low_mean": 3.48577814293094e-05,
      "clip_ratio/low_min": 3.48577814293094e-05,
      "clip_ratio/region_mean": 0.00034890523602371104,
      "entropy": 0.6769179105758667,
      "epoch": 0.22300935109096062,
      "grad_norm": 0.388671875,
      "learning_rate": 7.771323321054123e-07,
      "loss": -0.0162,
      "step": 1574,
      "step_time": 3.635693929158151
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1550.0,
      "completions/max_terminated_length": 1550.0,
      "completions/mean_length": 743.65625,
      "completions/mean_terminated_length": 743.65625,
      "completions/min_length": 429.0,
      "completions/min_terminated_length": 429.0,
      "entropy": 0.5215120390057564,
      "epoch": 0.22315103428733352,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.43359375,
      "learning_rate": 7.769906489090394e-07,
      "loss": 0.0063,
      "num_tokens": 46077202.0,
      "reward": 0.46875,
      "reward_std": 0.7339553236961365,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1575,
      "step_time": 51.684899197891355
    },
    {
      "clip_ratio/high_max": 0.000182334340934176,
      "clip_ratio/high_mean": 0.000182334340934176,
      "clip_ratio/low_mean": 0.00048602472452330403,
      "clip_ratio/low_min": 0.00048602472452330403,
      "clip_ratio/region_mean": 0.0006683590727334376,
      "entropy": 0.47412680089473724,
      "epoch": 0.22329271748370644,
      "grad_norm": 0.380859375,
      "learning_rate": 7.768489657126665e-07,
      "loss": 0.0037,
      "step": 1576,
      "step_time": 3.3137616673484445
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1423.0,
      "completions/max_terminated_length": 1423.0,
      "completions/mean_length": 817.609375,
      "completions/mean_terminated_length": 817.609375,
      "completions/min_length": 241.0,
      "completions/min_terminated_length": 241.0,
      "entropy": 0.48944224417209625,
      "epoch": 0.22343440068007933,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5625,
      "learning_rate": 7.767072825162935e-07,
      "loss": -0.0937,
      "num_tokens": 46141577.0,
      "reward": 0.2421875,
      "reward_std": 0.5344644784927368,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1577,
      "step_time": 47.55460916925222
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.000808618584414944,
      "clip_ratio/low_min": 0.000808618584414944,
      "clip_ratio/region_mean": 0.000808618584414944,
      "entropy": 0.45828214660286903,
      "epoch": 0.22357608387645225,
      "grad_norm": 0.263671875,
      "learning_rate": 7.765655993199206e-07,
      "loss": 0.0552,
      "step": 1578,
      "step_time": 3.227967632934451
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1399.0,
      "completions/max_terminated_length": 1399.0,
      "completions/mean_length": 734.0625,
      "completions/mean_terminated_length": 734.0625,
      "completions/min_length": 321.0,
      "completions/min_terminated_length": 321.0,
      "entropy": 0.6251412741839886,
      "epoch": 0.22371776707282517,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.62109375,
      "learning_rate": 7.764239161235477e-07,
      "loss": 0.0006,
      "num_tokens": 46198541.0,
      "reward": 0.3046875,
      "reward_std": 0.5883605480194092,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1579,
      "step_time": 45.557660267688334
    },
    {
      "clip_ratio/high_max": 0.00028010330061079003,
      "clip_ratio/high_mean": 0.00028010330061079003,
      "clip_ratio/low_mean": 0.0003118539789284114,
      "clip_ratio/low_min": 0.0003118539789284114,
      "clip_ratio/region_mean": 0.000591957268625265,
      "entropy": 0.6147558316588402,
      "epoch": 0.22385945026919807,
      "grad_norm": 0.361328125,
      "learning_rate": 7.762822329271748e-07,
      "loss": -0.0064,
      "step": 1580,
      "step_time": 2.9661463126540184
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1252.0,
      "completions/max_terminated_length": 1252.0,
      "completions/mean_length": 692.421875,
      "completions/mean_terminated_length": 692.421875,
      "completions/min_length": 305.0,
      "completions/min_terminated_length": 305.0,
      "entropy": 1.0327078774571419,
      "epoch": 0.224001133465571,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.392578125,
      "learning_rate": 7.761405497308019e-07,
      "loss": 0.0283,
      "num_tokens": 46251128.0,
      "reward": 0.5,
      "reward_std": 0.9428090453147888,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1581,
      "step_time": 40.816652924753726
    },
    {
      "clip_ratio/high_max": 0.00011945074584218673,
      "clip_ratio/high_mean": 0.00011945074584218673,
      "clip_ratio/low_mean": 0.00013078424308332615,
      "clip_ratio/low_min": 0.00013078424308332615,
      "clip_ratio/region_mean": 0.0002502349889255129,
      "entropy": 0.9719539508223534,
      "epoch": 0.22414281666194388,
      "grad_norm": 0.376953125,
      "learning_rate": 7.759988665344291e-07,
      "loss": -0.0169,
      "step": 1582,
      "step_time": 2.751028623431921
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1532.0,
      "completions/max_terminated_length": 1532.0,
      "completions/mean_length": 787.40625,
      "completions/mean_terminated_length": 787.40625,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "entropy": 0.6832038722932339,
      "epoch": 0.2242844998583168,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.515625,
      "learning_rate": 7.758571833380561e-07,
      "loss": 0.0108,
      "num_tokens": 46315218.0,
      "reward": 0.78125,
      "reward_std": 0.8991839289665222,
      "rewards/accuracy_reward_func/mean": 0.65625,
      "rewards/accuracy_reward_func/std": 0.9464847445487976,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1583,
      "step_time": 50.96292949374765
    },
    {
      "clip_ratio/high_max": 0.00039232938433997333,
      "clip_ratio/high_mean": 0.00039232938433997333,
      "clip_ratio/low_mean": 0.000281066579191247,
      "clip_ratio/low_min": 0.000281066579191247,
      "clip_ratio/region_mean": 0.0006733959598932415,
      "entropy": 0.6843668036162853,
      "epoch": 0.22442618305468973,
      "grad_norm": 0.55859375,
      "learning_rate": 7.757155001416831e-07,
      "loss": -0.0782,
      "step": 1584,
      "step_time": 3.398893354460597
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.015625,
      "completions/max_length": 4096.0,
      "completions/max_terminated_length": 961.0,
      "completions/mean_length": 601.9375,
      "completions/mean_terminated_length": 546.4761962890625,
      "completions/min_length": 4.0,
      "completions/min_terminated_length": 4.0,
      "entropy": 0.6015806049108505,
      "epoch": 0.22456786625106262,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.419921875,
      "learning_rate": 7.755738169453102e-07,
      "loss": 0.0451,
      "num_tokens": 46362206.0,
      "reward": 0.3046875,
      "reward_std": 0.664384126663208,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1585,
      "step_time": 162.96865251660347
    },
    {
      "clip_ratio/high_max": 0.0005585497565334663,
      "clip_ratio/high_mean": 0.0005585497565334663,
      "clip_ratio/low_mean": 0.0004943289568473119,
      "clip_ratio/low_min": 0.0004943289568473119,
      "clip_ratio/region_mean": 0.0010528787097427994,
      "entropy": 0.7200996838510036,
      "epoch": 0.22470954944743554,
      "grad_norm": 0.84375,
      "learning_rate": 7.754321337489373e-07,
      "loss": -0.0664,
      "step": 1586,
      "step_time": 7.074159460142255
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1812.0,
      "completions/max_terminated_length": 1812.0,
      "completions/mean_length": 757.21875,
      "completions/mean_terminated_length": 757.21875,
      "completions/min_length": 303.0,
      "completions/min_terminated_length": 303.0,
      "entropy": 0.6419468410313129,
      "epoch": 0.22485123264380844,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.4140625,
      "learning_rate": 7.752904505525645e-07,
      "loss": -0.0495,
      "num_tokens": 46420300.0,
      "reward": 0.5,
      "reward_std": 0.7968190908432007,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1587,
      "step_time": 59.87368674390018
    },
    {
      "clip_ratio/high_max": 9.100082388613373e-05,
      "clip_ratio/high_mean": 9.100082388613373e-05,
      "clip_ratio/low_mean": 0.00021108976397954393,
      "clip_ratio/low_min": 0.00021108976397954393,
      "clip_ratio/region_mean": 0.00030209059150365647,
      "entropy": 0.5647900048643351,
      "epoch": 0.22499291584018136,
      "grad_norm": 0.30859375,
      "learning_rate": 7.751487673561915e-07,
      "loss": 0.0471,
      "step": 1588,
      "step_time": 3.685146980918944
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1624.0,
      "completions/max_terminated_length": 1624.0,
      "completions/mean_length": 843.46875,
      "completions/mean_terminated_length": 843.46875,
      "completions/min_length": 328.0,
      "completions/min_terminated_length": 328.0,
      "entropy": 0.7178388014435768,
      "epoch": 0.22513459903655428,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.4609375,
      "learning_rate": 7.750070841598187e-07,
      "loss": -0.0217,
      "num_tokens": 46486554.0,
      "reward": 0.1796875,
      "reward_std": 0.3920558989048004,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1589,
      "step_time": 54.146421026438475
    },
    {
      "clip_ratio/high_max": 0.0002366478329349775,
      "clip_ratio/high_mean": 0.0002366478329349775,
      "clip_ratio/low_mean": 0.00012817122842534445,
      "clip_ratio/low_min": 0.00012817122842534445,
      "clip_ratio/region_mean": 0.00036481906136032194,
      "entropy": 0.7398609220981598,
      "epoch": 0.22527628223292717,
      "grad_norm": 0.169921875,
      "learning_rate": 7.748654009634457e-07,
      "loss": 0.0155,
      "step": 1590,
      "step_time": 3.584258943796158
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 992.0,
      "completions/max_terminated_length": 992.0,
      "completions/mean_length": 589.171875,
      "completions/mean_terminated_length": 589.171875,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "entropy": 1.2269364148378372,
      "epoch": 0.2254179654293001,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.091796875,
      "learning_rate": 7.747237177670727e-07,
      "loss": 0.0106,
      "num_tokens": 46536389.0,
      "reward": 0.1484375,
      "reward_std": 0.3638385236263275,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1591,
      "step_time": 33.03813996911049
    },
    {
      "clip_ratio/high_max": 0.00011195700790267438,
      "clip_ratio/high_mean": 0.00011195700790267438,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.00011195700790267438,
      "entropy": 1.0659101754426956,
      "epoch": 0.225559648625673,
      "grad_norm": 0.37890625,
      "learning_rate": 7.745820345706999e-07,
      "loss": -0.0156,
      "step": 1592,
      "step_time": 2.4519927110522985
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1775.0,
      "completions/max_terminated_length": 1775.0,
      "completions/mean_length": 734.46875,
      "completions/mean_terminated_length": 734.46875,
      "completions/min_length": 10.0,
      "completions/min_terminated_length": 10.0,
      "entropy": 1.0609744861721992,
      "epoch": 0.2257013318220459,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.361328125,
      "learning_rate": 7.744403513743269e-07,
      "loss": 0.0158,
      "num_tokens": 46594035.0,
      "reward": 0.421875,
      "reward_std": 0.8175590634346008,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1593,
      "step_time": 59.06712743174285
    },
    {
      "clip_ratio/high_max": 0.00017599483908270486,
      "clip_ratio/high_mean": 0.00017599483908270486,
      "clip_ratio/low_mean": 0.000304054090520367,
      "clip_ratio/low_min": 0.000304054090520367,
      "clip_ratio/region_mean": 0.0004800489259650931,
      "entropy": 1.1031074225902557,
      "epoch": 0.2258430150184188,
      "grad_norm": 0.4453125,
      "learning_rate": 7.742986681779541e-07,
      "loss": 0.0007,
      "step": 1594,
      "step_time": 3.7407761476933956
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1384.0,
      "completions/max_terminated_length": 1384.0,
      "completions/mean_length": 660.953125,
      "completions/mean_terminated_length": 660.953125,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "entropy": 0.5471235401928425,
      "epoch": 0.22598469821479172,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.58984375,
      "learning_rate": 7.741569849815811e-07,
      "loss": 0.0573,
      "num_tokens": 46645936.0,
      "reward": 0.5,
      "reward_std": 0.8164966106414795,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1595,
      "step_time": 45.72616272140294
    },
    {
      "clip_ratio/high_max": 0.0005154250320629217,
      "clip_ratio/high_mean": 0.0005154250320629217,
      "clip_ratio/low_mean": 0.00047581378021277487,
      "clip_ratio/low_min": 0.00047581378021277487,
      "clip_ratio/region_mean": 0.0009912388122756965,
      "entropy": 0.5615439787507057,
      "epoch": 0.22612638141116465,
      "grad_norm": 0.482421875,
      "learning_rate": 7.740153017852083e-07,
      "loss": -0.0264,
      "step": 1596,
      "step_time": 3.0515976203605533
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3076.0,
      "completions/max_terminated_length": 3076.0,
      "completions/mean_length": 758.46875,
      "completions/mean_terminated_length": 758.46875,
      "completions/min_length": 308.0,
      "completions/min_terminated_length": 308.0,
      "entropy": 0.7058689966797829,
      "epoch": 0.22626806460753754,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.39453125,
      "learning_rate": 7.738736185888354e-07,
      "loss": 0.0248,
      "num_tokens": 46703230.0,
      "reward": 0.84375,
      "reward_std": 0.9631091952323914,
      "rewards/accuracy_reward_func/mean": 0.59375,
      "rewards/accuracy_reward_func/std": 0.9209855198860168,
      "rewards/format_reward_func/mean": 0.25,
      "rewards/format_reward_func/std": 0.2519763112068176,
      "step": 1597,
      "step_time": 111.21466992609203
    },
    {
      "clip_ratio/high_max": 0.000248150980041828,
      "clip_ratio/high_mean": 0.000248150980041828,
      "clip_ratio/low_mean": 0.00015343110862886533,
      "clip_ratio/low_min": 0.00015343110862886533,
      "clip_ratio/region_mean": 0.00040158208867069334,
      "entropy": 0.6344179064035416,
      "epoch": 0.22640974780391046,
      "grad_norm": 0.3125,
      "learning_rate": 7.737319353924624e-07,
      "loss": 0.0594,
      "step": 1598,
      "step_time": 5.493134248070419
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1443.0,
      "completions/max_terminated_length": 1443.0,
      "completions/mean_length": 698.109375,
      "completions/mean_terminated_length": 698.109375,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "entropy": 0.6660089492797852,
      "epoch": 0.22655143100028335,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.62109375,
      "learning_rate": 7.735902521960895e-07,
      "loss": 0.0446,
      "num_tokens": 46755781.0,
      "reward": 0.140625,
      "reward_std": 0.3145764470100403,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1599,
      "step_time": 47.46993057895452
    },
    {
      "clip_ratio/high_max": 0.0006029214928275906,
      "clip_ratio/high_mean": 0.0006029214928275906,
      "clip_ratio/low_mean": 9.45894789765589e-05,
      "clip_ratio/low_min": 9.45894789765589e-05,
      "clip_ratio/region_mean": 0.0006975109718041494,
      "entropy": 0.5814477391541004,
      "epoch": 0.22669311419665628,
      "grad_norm": 0.18359375,
      "learning_rate": 7.734485689997165e-07,
      "loss": -0.0344,
      "step": 1600,
      "step_time": 2.9846189664676785
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1386.0,
      "completions/max_terminated_length": 1386.0,
      "completions/mean_length": 647.265625,
      "completions/mean_terminated_length": 647.265625,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "entropy": 0.8653568476438522,
      "epoch": 0.2268347973930292,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.09521484375,
      "learning_rate": 7.733068858033437e-07,
      "loss": 0.0374,
      "num_tokens": 46809782.0,
      "reward": 0.1875,
      "reward_std": 0.4671765863895416,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1601,
      "step_time": 45.95176436845213
    },
    {
      "clip_ratio/high_max": 0.00010187448788201436,
      "clip_ratio/high_mean": 0.00010187448788201436,
      "clip_ratio/low_mean": 0.00017200111687998287,
      "clip_ratio/low_min": 0.00017200111687998287,
      "clip_ratio/region_mean": 0.00027387560476199724,
      "entropy": 0.7708271481096745,
      "epoch": 0.2269764805894021,
      "grad_norm": 0.3359375,
      "learning_rate": 7.731652026069708e-07,
      "loss": -0.034,
      "step": 1602,
      "step_time": 3.0384567733854055
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1223.0,
      "completions/max_terminated_length": 1223.0,
      "completions/mean_length": 752.4375,
      "completions/mean_terminated_length": 752.4375,
      "completions/min_length": 332.0,
      "completions/min_terminated_length": 332.0,
      "entropy": 0.6124402657151222,
      "epoch": 0.227118163785775,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.56640625,
      "learning_rate": 7.730235194105979e-07,
      "loss": -0.0027,
      "num_tokens": 46868674.0,
      "reward": 0.34375,
      "reward_std": 0.647798478603363,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1603,
      "step_time": 39.99650170747191
    },
    {
      "clip_ratio/high_max": 3.659250432974659e-05,
      "clip_ratio/high_mean": 3.659250432974659e-05,
      "clip_ratio/low_mean": 0.0006081809442548547,
      "clip_ratio/low_min": 0.0006081809442548547,
      "clip_ratio/region_mean": 0.0006447734522225801,
      "entropy": 0.6748915798962116,
      "epoch": 0.2272598469821479,
      "grad_norm": 0.470703125,
      "learning_rate": 7.72881836214225e-07,
      "loss": 0.0102,
      "step": 1604,
      "step_time": 2.7507251957431436
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1788.0,
      "completions/max_terminated_length": 1788.0,
      "completions/mean_length": 763.25,
      "completions/mean_terminated_length": 763.25,
      "completions/min_length": 9.0,
      "completions/min_terminated_length": 9.0,
      "entropy": 0.654547356069088,
      "epoch": 0.22740153017852083,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.3125,
      "learning_rate": 7.72740153017852e-07,
      "loss": 0.0111,
      "num_tokens": 46931922.0,
      "reward": 0.1875,
      "reward_std": 0.4318656623363495,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1605,
      "step_time": 59.28545933868736
    },
    {
      "clip_ratio/high_max": 0.00011197372077731416,
      "clip_ratio/high_mean": 0.00011197372077731416,
      "clip_ratio/low_mean": 0.00029034556791884825,
      "clip_ratio/low_min": 0.00029034556791884825,
      "clip_ratio/region_mean": 0.0004023192923341412,
      "entropy": 0.5713020823895931,
      "epoch": 0.22754321337489375,
      "grad_norm": 0.365234375,
      "learning_rate": 7.725984698214791e-07,
      "loss": -0.0124,
      "step": 1606,
      "step_time": 3.723845404572785
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1215.0,
      "completions/max_terminated_length": 1215.0,
      "completions/mean_length": 669.046875,
      "completions/mean_terminated_length": 669.046875,
      "completions/min_length": 397.0,
      "completions/min_terminated_length": 397.0,
      "entropy": 0.5983969084918499,
      "epoch": 0.22768489657126664,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.67578125,
      "learning_rate": 7.724567866251062e-07,
      "loss": -0.1134,
      "num_tokens": 46986421.0,
      "reward": 0.84375,
      "reward_std": 0.9464846849441528,
      "rewards/accuracy_reward_func/mean": 0.59375,
      "rewards/accuracy_reward_func/std": 0.9209855198860168,
      "rewards/format_reward_func/mean": 0.25,
      "rewards/format_reward_func/std": 0.2519763112068176,
      "step": 1607,
      "step_time": 39.56357115972787
    },
    {
      "clip_ratio/high_max": 0.00025412030299776234,
      "clip_ratio/high_mean": 0.00025412030299776234,
      "clip_ratio/low_mean": 0.0004963166538800579,
      "clip_ratio/low_min": 0.0004963166538800579,
      "clip_ratio/region_mean": 0.0007504369568778202,
      "entropy": 0.6341571286320686,
      "epoch": 0.22782657976763956,
      "grad_norm": 0.41015625,
      "learning_rate": 7.723151034287333e-07,
      "loss": 0.0854,
      "step": 1608,
      "step_time": 2.741713386029005
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1117.0,
      "completions/max_terminated_length": 1117.0,
      "completions/mean_length": 562.15625,
      "completions/mean_terminated_length": 562.15625,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "entropy": 0.6636752709746361,
      "epoch": 0.22796826296401246,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.408203125,
      "learning_rate": 7.721734202323604e-07,
      "loss": 0.0516,
      "num_tokens": 47030527.0,
      "reward": 0.34375,
      "reward_std": 0.6228136420249939,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1609,
      "step_time": 36.15451891720295
    },
    {
      "clip_ratio/high_max": 0.00023978740136954002,
      "clip_ratio/high_mean": 0.00023978740136954002,
      "clip_ratio/low_mean": 0.00037450498712132685,
      "clip_ratio/low_min": 0.00037450498712132685,
      "clip_ratio/region_mean": 0.0006142923884908669,
      "entropy": 0.8356402963399887,
      "epoch": 0.22810994616038538,
      "grad_norm": 0.90625,
      "learning_rate": 7.720317370359875e-07,
      "loss": -0.0549,
      "step": 1610,
      "step_time": 2.493721435777843
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1528.0,
      "completions/max_terminated_length": 1528.0,
      "completions/mean_length": 857.125,
      "completions/mean_terminated_length": 857.125,
      "completions/min_length": 379.0,
      "completions/min_terminated_length": 379.0,
      "entropy": 0.5909558534622192,
      "epoch": 0.2282516293567583,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.3828125,
      "learning_rate": 7.718900538396146e-07,
      "loss": 0.0252,
      "num_tokens": 47095607.0,
      "reward": 0.2421875,
      "reward_std": 0.503891110420227,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1611,
      "step_time": 50.198079149238765
    },
    {
      "clip_ratio/high_max": 0.00029349516626098193,
      "clip_ratio/high_mean": 0.00029349516626098193,
      "clip_ratio/low_mean": 0.000449734361609444,
      "clip_ratio/low_min": 0.000449734361609444,
      "clip_ratio/region_mean": 0.0007432295242324471,
      "entropy": 0.504614669829607,
      "epoch": 0.2283933125531312,
      "grad_norm": 0.6015625,
      "learning_rate": 7.717483706432418e-07,
      "loss": 0.0081,
      "step": 1612,
      "step_time": 3.4079809030517936
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1269.0,
      "completions/max_terminated_length": 1269.0,
      "completions/mean_length": 720.609375,
      "completions/mean_terminated_length": 720.609375,
      "completions/min_length": 397.0,
      "completions/min_terminated_length": 397.0,
      "entropy": 0.48544423654675484,
      "epoch": 0.22853499574950412,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.431640625,
      "learning_rate": 7.716066874468687e-07,
      "loss": 0.1272,
      "num_tokens": 47155406.0,
      "reward": 0.5,
      "reward_std": 0.8728715777397156,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1613,
      "step_time": 42.40892322733998
    },
    {
      "clip_ratio/high_max": 0.0005091990460641682,
      "clip_ratio/high_mean": 0.0005091990460641682,
      "clip_ratio/low_mean": 0.0004927816880808678,
      "clip_ratio/low_min": 0.0004927816880808678,
      "clip_ratio/region_mean": 0.0010019807268690784,
      "entropy": 0.5699484944343567,
      "epoch": 0.228676678945877,
      "grad_norm": 0.703125,
      "learning_rate": 7.714650042504959e-07,
      "loss": -0.1079,
      "step": 1614,
      "step_time": 3.0087656332179904
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2346.0,
      "completions/max_terminated_length": 2346.0,
      "completions/mean_length": 806.8125,
      "completions/mean_terminated_length": 806.8125,
      "completions/min_length": 255.0,
      "completions/min_terminated_length": 255.0,
      "entropy": 0.5176269076764584,
      "epoch": 0.22881836214224993,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.6171875,
      "learning_rate": 7.713233210541229e-07,
      "loss": -0.0382,
      "num_tokens": 47216466.0,
      "reward": 0.5703125,
      "reward_std": 0.9380289316177368,
      "rewards/accuracy_reward_func/mean": 0.4375,
      "rewards/accuracy_reward_func/std": 0.8333333730697632,
      "rewards/format_reward_func/mean": 0.1328125,
      "rewards/format_reward_func/std": 0.22257846593856812,
      "step": 1615,
      "step_time": 79.75709840469062
    },
    {
      "clip_ratio/high_max": 0.00027067153132520616,
      "clip_ratio/high_mean": 0.00027067153132520616,
      "clip_ratio/low_mean": 0.0005969830672256649,
      "clip_ratio/low_min": 0.0005969830672256649,
      "clip_ratio/region_mean": 0.000867654598550871,
      "entropy": 0.5493093803524971,
      "epoch": 0.22896004533862285,
      "grad_norm": 0.41796875,
      "learning_rate": 7.7118163785775e-07,
      "loss": 0.0673,
      "step": 1616,
      "step_time": 4.6397672817111015
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 912.0,
      "completions/max_terminated_length": 912.0,
      "completions/mean_length": 647.265625,
      "completions/mean_terminated_length": 647.265625,
      "completions/min_length": 9.0,
      "completions/min_terminated_length": 9.0,
      "entropy": 1.3140979409217834,
      "epoch": 0.22910172853499575,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.376953125,
      "learning_rate": 7.710399546613772e-07,
      "loss": 0.0532,
      "num_tokens": 47270195.0,
      "reward": 0.265625,
      "reward_std": 0.577135443687439,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1617,
      "step_time": 30.155248700641096
    },
    {
      "clip_ratio/high_max": 4.607445589499548e-05,
      "clip_ratio/high_mean": 4.607445589499548e-05,
      "clip_ratio/low_mean": 0.00040116185118677095,
      "clip_ratio/low_min": 0.00040116185118677095,
      "clip_ratio/region_mean": 0.0004472363070817664,
      "entropy": 1.1376197040081024,
      "epoch": 0.22924341173136867,
      "grad_norm": 0.5546875,
      "learning_rate": 7.708982714650042e-07,
      "loss": -0.0376,
      "step": 1618,
      "step_time": 2.300438174046576
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1193.0,
      "completions/max_terminated_length": 1193.0,
      "completions/mean_length": 606.546875,
      "completions/mean_terminated_length": 606.546875,
      "completions/min_length": 250.0,
      "completions/min_terminated_length": 250.0,
      "entropy": 0.7632132768630981,
      "epoch": 0.22938509492774156,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.453125,
      "learning_rate": 7.707565882686314e-07,
      "loss": 0.059,
      "num_tokens": 47321142.0,
      "reward": 0.375,
      "reward_std": 0.6546536684036255,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1619,
      "step_time": 39.636033181101084
    },
    {
      "clip_ratio/high_max": 0.00020652473176596686,
      "clip_ratio/high_mean": 0.00020652473176596686,
      "clip_ratio/low_mean": 0.000713787623681128,
      "clip_ratio/low_min": 0.000713787623681128,
      "clip_ratio/region_mean": 0.0009203123518091161,
      "entropy": 0.8324156701564789,
      "epoch": 0.22952677812411448,
      "grad_norm": 0.609375,
      "learning_rate": 7.706149050722583e-07,
      "loss": -0.0236,
      "step": 1620,
      "step_time": 2.73748473636806
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1440.0,
      "completions/max_terminated_length": 1440.0,
      "completions/mean_length": 844.875,
      "completions/mean_terminated_length": 844.875,
      "completions/min_length": 15.0,
      "completions/min_terminated_length": 15.0,
      "entropy": 0.5325890257954597,
      "epoch": 0.22966846132048738,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.3828125,
      "learning_rate": 7.704732218758855e-07,
      "loss": 0.0005,
      "num_tokens": 47385278.0,
      "reward": 0.4921875,
      "reward_std": 0.8751062750816345,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1621,
      "step_time": 48.1973692914471
    },
    {
      "clip_ratio/high_max": 0.0001850348271545954,
      "clip_ratio/high_mean": 0.0001850348271545954,
      "clip_ratio/low_mean": 0.0002598184801172465,
      "clip_ratio/low_min": 0.0002598184801172465,
      "clip_ratio/region_mean": 0.00044485331454779953,
      "entropy": 0.5757601335644722,
      "epoch": 0.2298101445168603,
      "grad_norm": 0.42578125,
      "learning_rate": 7.703315386795126e-07,
      "loss": -0.0129,
      "step": 1622,
      "step_time": 3.153325646184385
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1373.0,
      "completions/max_terminated_length": 1373.0,
      "completions/mean_length": 706.171875,
      "completions/mean_terminated_length": 706.171875,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "entropy": 0.765585258603096,
      "epoch": 0.22995182771323322,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.21484375,
      "learning_rate": 7.701898554831396e-07,
      "loss": -0.0168,
      "num_tokens": 47438169.0,
      "reward": 0.1875,
      "reward_std": 0.4671765863895416,
      "rewards/accuracy_reward_func/mean": 0.0625,
      "rewards/accuracy_reward_func/std": 0.35073620080947876,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1623,
      "step_time": 44.582884083501995
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00027307903656037524,
      "clip_ratio/low_min": 0.00027307903656037524,
      "clip_ratio/region_mean": 0.00027307903656037524,
      "entropy": 0.5874156057834625,
      "epoch": 0.2300935109096061,
      "grad_norm": 0.2255859375,
      "learning_rate": 7.700481722867668e-07,
      "loss": 0.005,
      "step": 1624,
      "step_time": 2.8932343255728483
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1989.0,
      "completions/max_terminated_length": 1989.0,
      "completions/mean_length": 727.328125,
      "completions/mean_terminated_length": 727.328125,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "entropy": 0.6859333999454975,
      "epoch": 0.23023519410597904,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.353515625,
      "learning_rate": 7.699064890903938e-07,
      "loss": -0.0295,
      "num_tokens": 47494142.0,
      "reward": 0.25,
      "reward_std": 0.5039526224136353,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1625,
      "step_time": 66.02560355048627
    },
    {
      "clip_ratio/high_max": 2.99688326776959e-05,
      "clip_ratio/high_mean": 2.99688326776959e-05,
      "clip_ratio/low_mean": 4.7892721340758726e-05,
      "clip_ratio/low_min": 4.7892721340758726e-05,
      "clip_ratio/region_mean": 7.786155401845463e-05,
      "entropy": 0.6540616936981678,
      "epoch": 0.23037687730235193,
      "grad_norm": 0.2578125,
      "learning_rate": 7.69764805894021e-07,
      "loss": 0.0267,
      "step": 1626,
      "step_time": 3.9067244166508317
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1286.0,
      "completions/max_terminated_length": 1286.0,
      "completions/mean_length": 892.84375,
      "completions/mean_terminated_length": 892.84375,
      "completions/min_length": 485.0,
      "completions/min_terminated_length": 485.0,
      "entropy": 0.8229725249111652,
      "epoch": 0.23051856049872485,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0,
      "learning_rate": 7.69623122697648e-07,
      "loss": 0.0,
      "num_tokens": 47564228.0,
      "reward": 0.125,
      "reward_std": 0.2182178944349289,
      "rewards/accuracy_reward_func/mean": 0.0,
      "rewards/accuracy_reward_func/std": 0.0,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1627,
      "step_time": 42.62207954097539
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.5818668305873871,
      "epoch": 0.23066024369509777,
      "grad_norm": 0.0,
      "learning_rate": 7.694814395012751e-07,
      "loss": 0.0,
      "step": 1628,
      "step_time": 2.943290024995804
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1504.0,
      "completions/max_terminated_length": 1504.0,
      "completions/mean_length": 727.21875,
      "completions/mean_terminated_length": 727.21875,
      "completions/min_length": 15.0,
      "completions/min_terminated_length": 15.0,
      "entropy": 0.7913004830479622,
      "epoch": 0.23080192689147067,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.35546875,
      "learning_rate": 7.693397563049022e-07,
      "loss": -0.0331,
      "num_tokens": 47620146.0,
      "reward": 0.21875,
      "reward_std": 0.4531635046005249,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1629,
      "step_time": 49.47103920672089
    },
    {
      "clip_ratio/high_max": 9.773260535439476e-05,
      "clip_ratio/high_mean": 9.773260535439476e-05,
      "clip_ratio/low_mean": 4.886630267719738e-05,
      "clip_ratio/low_min": 4.886630267719738e-05,
      "clip_ratio/region_mean": 0.00014659890439361334,
      "entropy": 0.5786785110831261,
      "epoch": 0.2309436100878436,
      "grad_norm": 0.361328125,
      "learning_rate": 7.691980731085292e-07,
      "loss": 0.0128,
      "step": 1630,
      "step_time": 3.3583152014762163
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1511.0,
      "completions/max_terminated_length": 1511.0,
      "completions/mean_length": 801.046875,
      "completions/mean_terminated_length": 801.046875,
      "completions/min_length": 3.0,
      "completions/min_terminated_length": 3.0,
      "entropy": 0.5455377884209156,
      "epoch": 0.23108529328421648,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.62109375,
      "learning_rate": 7.690563899121564e-07,
      "loss": -0.0064,
      "num_tokens": 47680389.0,
      "reward": 0.4296875,
      "reward_std": 0.7119567394256592,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1631,
      "step_time": 50.32053402904421
    },
    {
      "clip_ratio/high_max": 0.0006024884569342248,
      "clip_ratio/high_mean": 0.0006024884569342248,
      "clip_ratio/low_mean": 9.339254756923765e-05,
      "clip_ratio/low_min": 9.339254756923765e-05,
      "clip_ratio/region_mean": 0.0006958810008654837,
      "entropy": 0.586139339953661,
      "epoch": 0.2312269764805894,
      "grad_norm": 0.2451171875,
      "learning_rate": 7.689147067157835e-07,
      "loss": -0.007,
      "step": 1632,
      "step_time": 3.2395173674449325
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1249.0,
      "completions/max_terminated_length": 1249.0,
      "completions/mean_length": 751.140625,
      "completions/mean_terminated_length": 751.140625,
      "completions/min_length": 365.0,
      "completions/min_terminated_length": 365.0,
      "entropy": 0.7357337065041065,
      "epoch": 0.23136865967696232,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.328125,
      "learning_rate": 7.687730235194106e-07,
      "loss": 0.0297,
      "num_tokens": 47739390.0,
      "reward": 0.5234375,
      "reward_std": 0.8927827477455139,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1633,
      "step_time": 41.05788837186992
    },
    {
      "clip_ratio/high_max": 0.0001301948941545561,
      "clip_ratio/high_mean": 0.0001301948941545561,
      "clip_ratio/low_mean": 0.00028445568023016676,
      "clip_ratio/low_min": 0.00028445568023016676,
      "clip_ratio/region_mean": 0.00041465057438472286,
      "entropy": 0.5908474288880825,
      "epoch": 0.23151034287333522,
      "grad_norm": 0.53515625,
      "learning_rate": 7.686313403230376e-07,
      "loss": -0.0353,
      "step": 1634,
      "step_time": 3.124262905679643
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1781.0,
      "completions/max_terminated_length": 1781.0,
      "completions/mean_length": 1053.9375,
      "completions/mean_terminated_length": 1053.9375,
      "completions/min_length": 422.0,
      "completions/min_terminated_length": 422.0,
      "entropy": 0.49147331342101097,
      "epoch": 0.23165202606970814,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.078125,
      "learning_rate": 7.684896571266647e-07,
      "loss": 0.0279,
      "num_tokens": 47818586.0,
      "reward": 0.15625,
      "reward_std": 0.3196600377559662,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1635,
      "step_time": 58.7937236931175
    },
    {
      "clip_ratio/high_max": 3.079576345044188e-05,
      "clip_ratio/high_mean": 3.079576345044188e-05,
      "clip_ratio/low_mean": 0.0001802241004043026,
      "clip_ratio/low_min": 0.0001802241004043026,
      "clip_ratio/region_mean": 0.00021101986385474447,
      "entropy": 0.4248487763106823,
      "epoch": 0.23179370926608103,
      "grad_norm": 0.2373046875,
      "learning_rate": 7.683479739302918e-07,
      "loss": -0.0463,
      "step": 1636,
      "step_time": 3.657249272800982
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1312.0,
      "completions/max_terminated_length": 1312.0,
      "completions/mean_length": 696.4375,
      "completions/mean_terminated_length": 696.4375,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "entropy": 0.502014797180891,
      "epoch": 0.23193539246245395,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.65625,
      "learning_rate": 7.68206290733919e-07,
      "loss": -0.0169,
      "num_tokens": 47879926.0,
      "reward": 0.3046875,
      "reward_std": 0.6147472858428955,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1637,
      "step_time": 44.828610128723085
    },
    {
      "clip_ratio/high_max": 0.00017097394447773695,
      "clip_ratio/high_mean": 0.00017097394447773695,
      "clip_ratio/low_mean": 0.00037396594416350126,
      "clip_ratio/low_min": 0.00037396594416350126,
      "clip_ratio/region_mean": 0.0005449398813652806,
      "entropy": 0.5560067370533943,
      "epoch": 0.23207707565882688,
      "grad_norm": 0.44140625,
      "learning_rate": 7.68064607537546e-07,
      "loss": 0.038,
      "step": 1638,
      "step_time": 3.54497904330492
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1209.0,
      "completions/max_terminated_length": 1209.0,
      "completions/mean_length": 696.703125,
      "completions/mean_terminated_length": 696.703125,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "entropy": 0.7894076928496361,
      "epoch": 0.23221875885519977,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.6640625,
      "learning_rate": 7.679229243411731e-07,
      "loss": -0.0654,
      "num_tokens": 47934579.0,
      "reward": 0.28125,
      "reward_std": 0.5482656359672546,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1639,
      "step_time": 39.830760611221194
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00029248741702758707,
      "clip_ratio/low_min": 0.00029248741702758707,
      "clip_ratio/region_mean": 0.00029248741702758707,
      "entropy": 0.7694776132702827,
      "epoch": 0.2323604420515727,
      "grad_norm": 0.30078125,
      "learning_rate": 7.677812411448002e-07,
      "loss": 0.0779,
      "step": 1640,
      "step_time": 2.705143033526838
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1533.0,
      "completions/max_terminated_length": 1533.0,
      "completions/mean_length": 871.484375,
      "completions/mean_terminated_length": 871.484375,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "entropy": 0.5853761471807957,
      "epoch": 0.23250212524794558,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.228515625,
      "learning_rate": 7.676395579484272e-07,
      "loss": 0.0115,
      "num_tokens": 48000690.0,
      "reward": 0.3125,
      "reward_std": 0.613990306854248,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1641,
      "step_time": 50.20989312697202
    },
    {
      "clip_ratio/high_max": 3.747002483578399e-05,
      "clip_ratio/high_mean": 3.747002483578399e-05,
      "clip_ratio/low_mean": 0.0002264948889205698,
      "clip_ratio/low_min": 0.0002264948889205698,
      "clip_ratio/region_mean": 0.0002639649137563538,
      "entropy": 0.5638319328427315,
      "epoch": 0.2326438084443185,
      "grad_norm": 0.37109375,
      "learning_rate": 7.674978747520544e-07,
      "loss": -0.0151,
      "step": 1642,
      "step_time": 3.2890665270388126
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1504.0,
      "completions/max_terminated_length": 1504.0,
      "completions/mean_length": 824.53125,
      "completions/mean_terminated_length": 824.53125,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "entropy": 0.47988201305270195,
      "epoch": 0.23278549164069143,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.5625,
      "learning_rate": 7.673561915556814e-07,
      "loss": 0.0116,
      "num_tokens": 48064612.0,
      "reward": 0.4921875,
      "reward_std": 0.7585083246231079,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1643,
      "step_time": 49.79546799417585
    },
    {
      "clip_ratio/high_max": 0.0003484105436655227,
      "clip_ratio/high_mean": 0.0003484105436655227,
      "clip_ratio/low_mean": 0.000615664084762102,
      "clip_ratio/low_min": 0.000615664084762102,
      "clip_ratio/region_mean": 0.0009640746175136883,
      "entropy": 0.5116491764783859,
      "epoch": 0.23292717483706432,
      "grad_norm": 0.353515625,
      "learning_rate": 7.672145083593086e-07,
      "loss": 0.0366,
      "step": 1644,
      "step_time": 3.2901415890082717
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1613.0,
      "completions/max_terminated_length": 1613.0,
      "completions/mean_length": 792.203125,
      "completions/mean_terminated_length": 792.203125,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "entropy": 0.5705487728118896,
      "epoch": 0.23306885803343724,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.490234375,
      "learning_rate": 7.670728251629356e-07,
      "loss": -0.0764,
      "num_tokens": 48124081.0,
      "reward": 0.375,
      "reward_std": 0.745356023311615,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1645,
      "step_time": 52.84489215258509
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0005728637297579553,
      "clip_ratio/low_min": 0.0005728637297579553,
      "clip_ratio/region_mean": 0.0005728637297579553,
      "entropy": 0.5853615589439869,
      "epoch": 0.23321054122981014,
      "grad_norm": 0.3203125,
      "learning_rate": 7.669311419665628e-07,
      "loss": 0.0726,
      "step": 1646,
      "step_time": 3.323767869733274
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1682.0,
      "completions/max_terminated_length": 1682.0,
      "completions/mean_length": 745.109375,
      "completions/mean_terminated_length": 745.109375,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "entropy": 0.6758888326585293,
      "epoch": 0.23335222442618306,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.1611328125,
      "learning_rate": 7.667894587701899e-07,
      "loss": 0.0669,
      "num_tokens": 48181288.0,
      "reward": 0.5546875,
      "reward_std": 1.02398681640625,
      "rewards/accuracy_reward_func/mean": 0.4375,
      "rewards/accuracy_reward_func/std": 0.8333333730697632,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1647,
      "step_time": 56.40420708246529
    },
    {
      "clip_ratio/high_max": 0.0002724214100453537,
      "clip_ratio/high_mean": 0.0002724214100453537,
      "clip_ratio/low_mean": 0.00032569429458817467,
      "clip_ratio/low_min": 0.00032569429458817467,
      "clip_ratio/region_mean": 0.000598115711909486,
      "entropy": 0.7472007572650909,
      "epoch": 0.23349390762255595,
      "grad_norm": 0.470703125,
      "learning_rate": 7.666477755738168e-07,
      "loss": -0.0555,
      "step": 1648,
      "step_time": 3.507851974107325
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1524.0,
      "completions/max_terminated_length": 1524.0,
      "completions/mean_length": 869.921875,
      "completions/mean_terminated_length": 869.921875,
      "completions/min_length": 485.0,
      "completions/min_terminated_length": 485.0,
      "entropy": 0.5475769490003586,
      "epoch": 0.23363559081892887,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.404296875,
      "learning_rate": 7.66506092377444e-07,
      "loss": 0.0821,
      "num_tokens": 48245331.0,
      "reward": 0.53125,
      "reward_std": 0.7961963415145874,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1649,
      "step_time": 50.70333479065448
    },
    {
      "clip_ratio/high_max": 0.00023813913685444277,
      "clip_ratio/high_mean": 0.00023813913685444277,
      "clip_ratio/low_mean": 0.0006653455311607104,
      "clip_ratio/low_min": 0.0006653455311607104,
      "clip_ratio/region_mean": 0.0009034846661961637,
      "entropy": 0.5874434188008308,
      "epoch": 0.2337772740153018,
      "grad_norm": 0.55859375,
      "learning_rate": 7.66364409181071e-07,
      "loss": -0.0626,
      "step": 1650,
      "step_time": 3.2126624742522836
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1547.0,
      "completions/max_terminated_length": 1547.0,
      "completions/mean_length": 818.453125,
      "completions/mean_terminated_length": 818.453125,
      "completions/min_length": 309.0,
      "completions/min_terminated_length": 309.0,
      "entropy": 0.6582010164856911,
      "epoch": 0.2339189572116747,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.26953125,
      "learning_rate": 7.662227259846982e-07,
      "loss": 0.0591,
      "num_tokens": 48307104.0,
      "reward": 0.34375,
      "reward_std": 0.5261042714118958,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.21875,
      "rewards/format_reward_func/std": 0.25,
      "step": 1651,
      "step_time": 51.22527230530977
    },
    {
      "clip_ratio/high_max": 7.067361730150878e-05,
      "clip_ratio/high_mean": 7.067361730150878e-05,
      "clip_ratio/low_mean": 0.0002611480522318743,
      "clip_ratio/low_min": 0.0002611480522318743,
      "clip_ratio/region_mean": 0.0003318216768093407,
      "entropy": 0.7590929009020329,
      "epoch": 0.2340606404080476,
      "grad_norm": 0.4921875,
      "learning_rate": 7.660810427883253e-07,
      "loss": -0.0407,
      "step": 1652,
      "step_time": 3.393540643155575
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1221.0,
      "completions/max_terminated_length": 1221.0,
      "completions/mean_length": 736.078125,
      "completions/mean_terminated_length": 736.078125,
      "completions/min_length": 13.0,
      "completions/min_terminated_length": 13.0,
      "entropy": 0.4702896662056446,
      "epoch": 0.2342023236044205,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.46484375,
      "learning_rate": 7.659393595919524e-07,
      "loss": 0.0324,
      "num_tokens": 48363797.0,
      "reward": 0.84375,
      "reward_std": 1.0869901180267334,
      "rewards/accuracy_reward_func/mean": 0.71875,
      "rewards/accuracy_reward_func/std": 0.9672207236289978,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1653,
      "step_time": 40.659742495045066
    },
    {
      "clip_ratio/high_max": 0.0005675535830960143,
      "clip_ratio/high_mean": 0.0005675535830960143,
      "clip_ratio/low_mean": 0.000397499341488583,
      "clip_ratio/low_min": 0.000397499341488583,
      "clip_ratio/region_mean": 0.0009650529027567245,
      "entropy": 0.37251491472125053,
      "epoch": 0.23434400680079343,
      "grad_norm": 0.37109375,
      "learning_rate": 7.657976763955795e-07,
      "loss": -0.1087,
      "step": 1654,
      "step_time": 2.745305337011814
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1588.0,
      "completions/max_terminated_length": 1588.0,
      "completions/mean_length": 908.15625,
      "completions/mean_terminated_length": 908.15625,
      "completions/min_length": 426.0,
      "completions/min_terminated_length": 426.0,
      "entropy": 0.4605337306857109,
      "epoch": 0.23448568999716635,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.32421875,
      "learning_rate": 7.656559931992064e-07,
      "loss": 0.0485,
      "num_tokens": 48432511.0,
      "reward": 0.296875,
      "reward_std": 0.5890451669692993,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1655,
      "step_time": 53.23969465866685
    },
    {
      "clip_ratio/high_max": 0.00039443076457246207,
      "clip_ratio/high_mean": 0.00039443076457246207,
      "clip_ratio/low_mean": 0.00021200660194153897,
      "clip_ratio/low_min": 0.00021200660194153897,
      "clip_ratio/region_mean": 0.0006064373628760222,
      "entropy": 0.4883478619158268,
      "epoch": 0.23462737319353924,
      "grad_norm": 0.490234375,
      "learning_rate": 7.655143100028336e-07,
      "loss": -0.0258,
      "step": 1656,
      "step_time": 3.579841945320368
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1215.0,
      "completions/max_terminated_length": 1215.0,
      "completions/mean_length": 680.484375,
      "completions/mean_terminated_length": 680.484375,
      "completions/min_length": 241.0,
      "completions/min_terminated_length": 241.0,
      "entropy": 0.8200481981039047,
      "epoch": 0.23476905638991216,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.5859375,
      "learning_rate": 7.653726268064607e-07,
      "loss": -0.0205,
      "num_tokens": 48487582.0,
      "reward": 0.46875,
      "reward_std": 0.7339553236961365,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1657,
      "step_time": 40.56563428230584
    },
    {
      "clip_ratio/high_max": 0.0007649917461094446,
      "clip_ratio/high_mean": 0.0007649917461094446,
      "clip_ratio/low_mean": 0.00022144442846183665,
      "clip_ratio/low_min": 0.00022144442846183665,
      "clip_ratio/region_mean": 0.000986436160019366,
      "entropy": 0.7031469866633415,
      "epoch": 0.23491073958628506,
      "grad_norm": 0.5625,
      "learning_rate": 7.652309436100878e-07,
      "loss": 0.063,
      "step": 1658,
      "step_time": 2.8083298448473215
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1431.0,
      "completions/max_terminated_length": 1431.0,
      "completions/mean_length": 687.34375,
      "completions/mean_terminated_length": 687.34375,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "entropy": 0.8027136698365211,
      "epoch": 0.23505242278265798,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.298828125,
      "learning_rate": 7.650892604137149e-07,
      "loss": 0.0015,
      "num_tokens": 48541636.0,
      "reward": 0.28125,
      "reward_std": 0.5482656359672546,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1659,
      "step_time": 47.501570450142026
    },
    {
      "clip_ratio/high_max": 0.0001515004587417934,
      "clip_ratio/high_mean": 0.0001515004587417934,
      "clip_ratio/low_mean": 0.00041679650894366205,
      "clip_ratio/low_min": 0.00041679650894366205,
      "clip_ratio/region_mean": 0.0005682969785993919,
      "entropy": 0.7297208085656166,
      "epoch": 0.2351941059790309,
      "grad_norm": 0.423828125,
      "learning_rate": 7.649475772173421e-07,
      "loss": 0.0326,
      "step": 1660,
      "step_time": 3.227900586090982
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1285.0,
      "completions/max_terminated_length": 1285.0,
      "completions/mean_length": 648.515625,
      "completions/mean_terminated_length": 648.515625,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "entropy": 0.5761992409825325,
      "epoch": 0.2353357891754038,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.6328125,
      "learning_rate": 7.648058940209691e-07,
      "loss": 0.0405,
      "num_tokens": 48594341.0,
      "reward": 0.3359375,
      "reward_std": 0.4459223449230194,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.2421875,
      "rewards/format_reward_func/std": 0.25185325741767883,
      "step": 1661,
      "step_time": 42.81449831649661
    },
    {
      "clip_ratio/high_max": 0.0007008059037616476,
      "clip_ratio/high_mean": 0.0007008059037616476,
      "clip_ratio/low_mean": 0.00029242876553325914,
      "clip_ratio/low_min": 0.00029242876553325914,
      "clip_ratio/region_mean": 0.0009932346729328856,
      "entropy": 0.5104873143136501,
      "epoch": 0.2354774723717767,
      "grad_norm": 0.345703125,
      "learning_rate": 7.646642108245963e-07,
      "loss": -0.0574,
      "step": 1662,
      "step_time": 2.87521518394351
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1500.0,
      "completions/max_terminated_length": 1500.0,
      "completions/mean_length": 702.8125,
      "completions/mean_terminated_length": 702.8125,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "entropy": 0.7771192379295826,
      "epoch": 0.2356191555681496,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.208984375,
      "learning_rate": 7.645225276282232e-07,
      "loss": -0.0239,
      "num_tokens": 48653385.0,
      "reward": 0.3046875,
      "reward_std": 0.7325600981712341,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1663,
      "step_time": 50.4201401360333
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00013997760834172368,
      "clip_ratio/low_min": 0.00013997760834172368,
      "clip_ratio/region_mean": 0.00013997760834172368,
      "entropy": 0.6883272975683212,
      "epoch": 0.23576083876452253,
      "grad_norm": 0.2275390625,
      "learning_rate": 7.643808444318503e-07,
      "loss": 0.0064,
      "step": 1664,
      "step_time": 3.307272237725556
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1693.0,
      "completions/max_terminated_length": 1693.0,
      "completions/mean_length": 763.15625,
      "completions/mean_terminated_length": 763.15625,
      "completions/min_length": 307.0,
      "completions/min_terminated_length": 307.0,
      "entropy": 0.7491889856755733,
      "epoch": 0.23590252196089545,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.26171875,
      "learning_rate": 7.642391612354775e-07,
      "loss": -0.0178,
      "num_tokens": 48714547.0,
      "reward": 0.265625,
      "reward_std": 0.6782841682434082,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1665,
      "step_time": 56.05611079186201
    },
    {
      "clip_ratio/high_max": 8.749896369408816e-05,
      "clip_ratio/high_mean": 8.749896369408816e-05,
      "clip_ratio/low_mean": 0.0001347799989162013,
      "clip_ratio/low_min": 0.0001347799989162013,
      "clip_ratio/region_mean": 0.00022227896261028945,
      "entropy": 0.8250436708331108,
      "epoch": 0.23604420515726834,
      "grad_norm": 0.2373046875,
      "learning_rate": 7.640974780391045e-07,
      "loss": 0.0128,
      "step": 1666,
      "step_time": 3.5127806095406413
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1477.0,
      "completions/max_terminated_length": 1477.0,
      "completions/mean_length": 685.75,
      "completions/mean_terminated_length": 685.75,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "entropy": 0.725854679942131,
      "epoch": 0.23618588835364127,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2734375,
      "learning_rate": 7.639557948427317e-07,
      "loss": -0.0289,
      "num_tokens": 48770211.0,
      "reward": 0.578125,
      "reward_std": 0.8461807370185852,
      "rewards/accuracy_reward_func/mean": 0.5,
      "rewards/accuracy_reward_func/std": 0.8728715777397156,
      "rewards/format_reward_func/mean": 0.078125,
      "rewards/format_reward_func/std": 0.18298126757144928,
      "step": 1667,
      "step_time": 48.87861542124301
    },
    {
      "clip_ratio/high_max": 0.00011934785652556457,
      "clip_ratio/high_mean": 0.00011934785652556457,
      "clip_ratio/low_mean": 4.1159037209581584e-05,
      "clip_ratio/low_min": 4.1159037209581584e-05,
      "clip_ratio/region_mean": 0.00016050689373514615,
      "entropy": 0.5340065956115723,
      "epoch": 0.23632757155001416,
      "grad_norm": 0.3203125,
      "learning_rate": 7.638141116463587e-07,
      "loss": 0.0264,
      "step": 1668,
      "step_time": 3.1834799284115434
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1166.0,
      "completions/max_terminated_length": 1166.0,
      "completions/mean_length": 581.953125,
      "completions/mean_terminated_length": 581.953125,
      "completions/min_length": 5.0,
      "completions/min_terminated_length": 5.0,
      "entropy": 0.8295220360159874,
      "epoch": 0.23646925474638708,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.50390625,
      "learning_rate": 7.636724284499859e-07,
      "loss": -0.0335,
      "num_tokens": 48816720.0,
      "reward": 0.28125,
      "reward_std": 0.6538955569267273,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1669,
      "step_time": 38.65783017128706
    },
    {
      "clip_ratio/high_max": 9.582215716363862e-05,
      "clip_ratio/high_mean": 9.582215716363862e-05,
      "clip_ratio/low_mean": 8.294625149574131e-05,
      "clip_ratio/low_min": 8.294625149574131e-05,
      "clip_ratio/region_mean": 0.00017876840865937993,
      "entropy": 1.0229723677039146,
      "epoch": 0.23661093794276,
      "grad_norm": 0.427734375,
      "learning_rate": 7.635307452536129e-07,
      "loss": 0.0407,
      "step": 1670,
      "step_time": 2.610372685827315
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1406.0,
      "completions/max_terminated_length": 1406.0,
      "completions/mean_length": 735.953125,
      "completions/mean_terminated_length": 735.953125,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "entropy": 0.8269752524793148,
      "epoch": 0.2367526211391329,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.166015625,
      "learning_rate": 7.633890620572399e-07,
      "loss": 0.0221,
      "num_tokens": 48877453.0,
      "reward": 0.21875,
      "reward_std": 0.4531635046005249,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1671,
      "step_time": 46.87485314253718
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00021944920445093885,
      "clip_ratio/low_min": 0.00021944920445093885,
      "clip_ratio/region_mean": 0.00021944920445093885,
      "entropy": 0.7541084215044975,
      "epoch": 0.23689430433550582,
      "grad_norm": 0.2099609375,
      "learning_rate": 7.632473788608671e-07,
      "loss": 0.0147,
      "step": 1672,
      "step_time": 3.172122768126428
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1330.0,
      "completions/max_terminated_length": 1330.0,
      "completions/mean_length": 690.5625,
      "completions/mean_terminated_length": 690.5625,
      "completions/min_length": 304.0,
      "completions/min_terminated_length": 304.0,
      "entropy": 0.41511350497603416,
      "epoch": 0.2370359875318787,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.361328125,
      "learning_rate": 7.631056956644941e-07,
      "loss": 0.0093,
      "num_tokens": 48931745.0,
      "reward": 0.46875,
      "reward_std": 0.7552725076675415,
      "rewards/accuracy_reward_func/mean": 0.34375,
      "rewards/accuracy_reward_func/std": 0.7605084180831909,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1673,
      "step_time": 43.448413994163275
    },
    {
      "clip_ratio/high_max": 0.0003217685443814844,
      "clip_ratio/high_mean": 0.0003217685443814844,
      "clip_ratio/low_mean": 0.00047772792822797783,
      "clip_ratio/low_min": 0.00047772792822797783,
      "clip_ratio/region_mean": 0.0007994964726094622,
      "entropy": 0.5097570531070232,
      "epoch": 0.23717767072825163,
      "grad_norm": 0.51171875,
      "learning_rate": 7.629640124681213e-07,
      "loss": -0.0036,
      "step": 1674,
      "step_time": 3.106383301317692
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1311.0,
      "completions/max_terminated_length": 1311.0,
      "completions/mean_length": 741.484375,
      "completions/mean_terminated_length": 741.484375,
      "completions/min_length": 284.0,
      "completions/min_terminated_length": 284.0,
      "entropy": 0.6678049080073833,
      "epoch": 0.23731935392462453,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2421875,
      "learning_rate": 7.628223292717484e-07,
      "loss": 0.0593,
      "num_tokens": 48989584.0,
      "reward": 0.3046875,
      "reward_std": 0.6147472858428955,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1675,
      "step_time": 42.804331249557436
    },
    {
      "clip_ratio/high_max": 0.00032581566483713686,
      "clip_ratio/high_mean": 0.00032581566483713686,
      "clip_ratio/low_mean": 0.00034654953196877614,
      "clip_ratio/low_min": 0.00034654953196877614,
      "clip_ratio/region_mean": 0.000672365196805913,
      "entropy": 0.7102232575416565,
      "epoch": 0.23746103712099745,
      "grad_norm": 0.4609375,
      "learning_rate": 7.626806460753755e-07,
      "loss": -0.0288,
      "step": 1676,
      "step_time": 2.8763938676565886
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1682.0,
      "completions/max_terminated_length": 1682.0,
      "completions/mean_length": 767.0,
      "completions/mean_terminated_length": 767.0,
      "completions/min_length": 373.0,
      "completions/min_terminated_length": 373.0,
      "entropy": 0.7444775253534317,
      "epoch": 0.23760272031737037,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.57421875,
      "learning_rate": 7.625389628790025e-07,
      "loss": 0.052,
      "num_tokens": 49049680.0,
      "reward": 0.1484375,
      "reward_std": 0.3172261714935303,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1677,
      "step_time": 56.28710986766964
    },
    {
      "clip_ratio/high_max": 0.0004197610505798366,
      "clip_ratio/high_mean": 0.0004197610505798366,
      "clip_ratio/low_mean": 0.00017686839419184253,
      "clip_ratio/low_min": 0.00017686839419184253,
      "clip_ratio/region_mean": 0.0005966294484096579,
      "entropy": 0.7296650037169456,
      "epoch": 0.23774440351374326,
      "grad_norm": 0.095703125,
      "learning_rate": 7.623972796826295e-07,
      "loss": -0.0231,
      "step": 1678,
      "step_time": 3.6638246066868305
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 3885.0,
      "completions/max_terminated_length": 3885.0,
      "completions/mean_length": 843.4375,
      "completions/mean_terminated_length": 843.4375,
      "completions/min_length": 387.0,
      "completions/min_terminated_length": 387.0,
      "entropy": 0.6131848432123661,
      "epoch": 0.23788608671011618,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.404296875,
      "learning_rate": 7.622555964862567e-07,
      "loss": -0.0084,
      "num_tokens": 49114716.0,
      "reward": 0.3125,
      "reward_std": 0.6393200755119324,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1679,
      "step_time": 152.49318681750447
    },
    {
      "clip_ratio/high_max": 0.00013885594671592116,
      "clip_ratio/high_mean": 0.00013885594671592116,
      "clip_ratio/low_mean": 0.00038452778971986845,
      "clip_ratio/low_min": 0.00038452778971986845,
      "clip_ratio/region_mean": 0.0005233837364357896,
      "entropy": 0.6554735600948334,
      "epoch": 0.23802776990648908,
      "grad_norm": 0.408203125,
      "learning_rate": 7.621139132898838e-07,
      "loss": 0.0171,
      "step": 1680,
      "step_time": 6.780165660195053
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2213.0,
      "completions/max_terminated_length": 2213.0,
      "completions/mean_length": 894.59375,
      "completions/mean_terminated_length": 894.59375,
      "completions/min_length": 303.0,
      "completions/min_terminated_length": 303.0,
      "entropy": 0.6011683121323586,
      "epoch": 0.238169453102862,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.263671875,
      "learning_rate": 7.619722300935109e-07,
      "loss": -0.0308,
      "num_tokens": 49182370.0,
      "reward": 0.125,
      "reward_std": 0.35634833574295044,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 1681,
      "step_time": 74.73259133379906
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.00010771219240268692,
      "clip_ratio/low_min": 0.00010771219240268692,
      "clip_ratio/region_mean": 0.00010771219240268692,
      "entropy": 0.657380934804678,
      "epoch": 0.23831113629923492,
      "grad_norm": 0.11865234375,
      "learning_rate": 7.61830546897138e-07,
      "loss": 0.0579,
      "step": 1682,
      "step_time": 4.467871171422303
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1395.0,
      "completions/max_terminated_length": 1395.0,
      "completions/mean_length": 769.984375,
      "completions/mean_terminated_length": 769.984375,
      "completions/min_length": 393.0,
      "completions/min_terminated_length": 393.0,
      "entropy": 0.7731852382421494,
      "epoch": 0.23845281949560782,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.09912109375,
      "learning_rate": 7.616888637007651e-07,
      "loss": 0.0284,
      "num_tokens": 49242337.0,
      "reward": 0.15625,
      "reward_std": 0.3196600377559662,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1683,
      "step_time": 45.551626378670335
    },
    {
      "clip_ratio/high_max": 0.00012441936996765435,
      "clip_ratio/high_mean": 0.00012441936996765435,
      "clip_ratio/low_mean": 0.0005227283581916708,
      "clip_ratio/low_min": 0.0005227283581916708,
      "clip_ratio/region_mean": 0.0006471477281593252,
      "entropy": 0.7756981328129768,
      "epoch": 0.23859450269198074,
      "grad_norm": 0.337890625,
      "learning_rate": 7.615471805043921e-07,
      "loss": -0.0445,
      "step": 1684,
      "step_time": 2.9704904900863767
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1207.0,
      "completions/max_terminated_length": 1207.0,
      "completions/mean_length": 677.171875,
      "completions/mean_terminated_length": 677.171875,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "entropy": 0.6433559730648994,
      "epoch": 0.23873618588835363,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.259765625,
      "learning_rate": 7.614054973080193e-07,
      "loss": -0.0151,
      "num_tokens": 49294956.0,
      "reward": 0.296875,
      "reward_std": 0.7111289501190186,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1685,
      "step_time": 39.53769212402403
    },
    {
      "clip_ratio/high_max": 0.00014164306048769504,
      "clip_ratio/high_mean": 0.00014164306048769504,
      "clip_ratio/low_mean": 0.000608862261287868,
      "clip_ratio/low_min": 0.000608862261287868,
      "clip_ratio/region_mean": 0.0007505053144996054,
      "entropy": 0.6211289837956429,
      "epoch": 0.23887786908472655,
      "grad_norm": 0.384765625,
      "learning_rate": 7.612638141116463e-07,
      "loss": 0.065,
      "step": 1686,
      "step_time": 2.7194429580122232
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1252.0,
      "completions/max_terminated_length": 1252.0,
      "completions/mean_length": 642.609375,
      "completions/mean_terminated_length": 642.609375,
      "completions/min_length": 317.0,
      "completions/min_terminated_length": 317.0,
      "entropy": 0.7466798536479473,
      "epoch": 0.23901955228109947,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.5859375,
      "learning_rate": 7.611221309152734e-07,
      "loss": 0.0126,
      "num_tokens": 49345875.0,
      "reward": 0.65625,
      "reward_std": 1.0869901180267334,
      "rewards/accuracy_reward_func/mean": 0.53125,
      "rewards/accuracy_reward_func/std": 0.8903138637542725,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1687,
      "step_time": 40.94076912011951
    },
    {
      "clip_ratio/high_max": 0.0002866225622710772,
      "clip_ratio/high_mean": 0.0002866225622710772,
      "clip_ratio/low_mean": 0.0003064201373490505,
      "clip_ratio/low_min": 0.0003064201373490505,
      "clip_ratio/region_mean": 0.0005930426996201277,
      "entropy": 0.6941432245075703,
      "epoch": 0.23916123547747237,
      "grad_norm": 0.416015625,
      "learning_rate": 7.609804477189005e-07,
      "loss": -0.0004,
      "step": 1688,
      "step_time": 2.7355475006625056
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2173.0,
      "completions/max_terminated_length": 2173.0,
      "completions/mean_length": 824.046875,
      "completions/mean_terminated_length": 824.046875,
      "completions/min_length": 290.0,
      "completions/min_terminated_length": 290.0,
      "entropy": 0.53483597189188,
      "epoch": 0.2393029186738453,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.28515625,
      "learning_rate": 7.608387645225276e-07,
      "loss": -0.054,
      "num_tokens": 49408998.0,
      "reward": 0.4296875,
      "reward_std": 0.7119567394256592,
      "rewards/accuracy_reward_func/mean": 0.3125,
      "rewards/accuracy_reward_func/std": 0.7319250702857971,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1689,
      "step_time": 73.552699258551
    },
    {
      "clip_ratio/high_max": 0.00046424614265561104,
      "clip_ratio/high_mean": 0.00046424614265561104,
      "clip_ratio/low_mean": 4.053177690366283e-05,
      "clip_ratio/low_min": 4.053177690366283e-05,
      "clip_ratio/region_mean": 0.0005047779195592739,
      "entropy": 0.5348959602415562,
      "epoch": 0.23944460187021818,
      "grad_norm": 0.388671875,
      "learning_rate": 7.606970813261548e-07,
      "loss": 0.0133,
      "step": 1690,
      "step_time": 4.1822381084784865
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1043.0,
      "completions/max_terminated_length": 1043.0,
      "completions/mean_length": 683.109375,
      "completions/mean_terminated_length": 683.109375,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "entropy": 0.8692295402288437,
      "epoch": 0.2395862850665911,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.328125,
      "learning_rate": 7.605553981297817e-07,
      "loss": 0.0146,
      "num_tokens": 49463661.0,
      "reward": 0.25,
      "reward_std": 0.5039526224136353,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1691,
      "step_time": 34.64821704570204
    },
    {
      "clip_ratio/high_max": 0.00017431218657293357,
      "clip_ratio/high_mean": 0.00017431218657293357,
      "clip_ratio/low_mean": 9.509080337011255e-05,
      "clip_ratio/low_min": 9.509080337011255e-05,
      "clip_ratio/region_mean": 0.0002694029899430461,
      "entropy": 0.9172353222966194,
      "epoch": 0.23972796826296403,
      "grad_norm": 0.3125,
      "learning_rate": 7.604137149334089e-07,
      "loss": -0.0213,
      "step": 1692,
      "step_time": 2.4910059766843915
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1348.0,
      "completions/max_terminated_length": 1348.0,
      "completions/mean_length": 662.015625,
      "completions/mean_terminated_length": 662.015625,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "entropy": 0.6945909038186073,
      "epoch": 0.23986965145933692,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.38671875,
      "learning_rate": 7.602720317370359e-07,
      "loss": 0.0058,
      "num_tokens": 49515870.0,
      "reward": 0.21875,
      "reward_std": 0.5625551342964172,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.09375,
      "rewards/format_reward_func/std": 0.19669894874095917,
      "step": 1693,
      "step_time": 44.259572956711054
    },
    {
      "clip_ratio/high_max": 0.00013428483725874685,
      "clip_ratio/high_mean": 0.00013428483725874685,
      "clip_ratio/low_mean": 0.00013782186579192057,
      "clip_ratio/low_min": 0.00013782186579192057,
      "clip_ratio/region_mean": 0.00027210670668864623,
      "entropy": 0.8255185782909393,
      "epoch": 0.24001133465570984,
      "grad_norm": 0.466796875,
      "learning_rate": 7.60130348540663e-07,
      "loss": -0.0451,
      "step": 1694,
      "step_time": 2.889189793728292
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1097.0,
      "completions/max_terminated_length": 1097.0,
      "completions/mean_length": 737.140625,
      "completions/mean_terminated_length": 737.140625,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "entropy": 0.8502883613109589,
      "epoch": 0.24015301785208273,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.69140625,
      "learning_rate": 7.599886653442902e-07,
      "loss": 0.0349,
      "num_tokens": 49573639.0,
      "reward": 0.578125,
      "reward_std": 0.8175590634346008,
      "rewards/accuracy_reward_func/mean": 0.46875,
      "rewards/accuracy_reward_func/std": 0.8539125919342041,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1695,
      "step_time": 36.5327517921105
    },
    {
      "clip_ratio/high_max": 0.0005476214755617548,
      "clip_ratio/high_mean": 0.0005476214755617548,
      "clip_ratio/low_mean": 0.00028551336436066777,
      "clip_ratio/low_min": 0.00028551336436066777,
      "clip_ratio/region_mean": 0.0008331348435604014,
      "entropy": 0.7663005627691746,
      "epoch": 0.24029470104845566,
      "grad_norm": 0.361328125,
      "learning_rate": 7.598469821479172e-07,
      "loss": -0.0347,
      "step": 1696,
      "step_time": 2.5466897627338767
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1291.0,
      "completions/max_terminated_length": 1291.0,
      "completions/mean_length": 749.640625,
      "completions/mean_terminated_length": 749.640625,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "entropy": 0.48119165375828743,
      "epoch": 0.24043638424482858,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.427734375,
      "learning_rate": 7.597052989515444e-07,
      "loss": -0.0351,
      "num_tokens": 49633936.0,
      "reward": 0.53125,
      "reward_std": 0.7760042548179626,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1697,
      "step_time": 42.88820860628039
    },
    {
      "clip_ratio/high_max": 0.0002593525896372739,
      "clip_ratio/high_mean": 0.0002593525896372739,
      "clip_ratio/low_mean": 0.0002766767211141996,
      "clip_ratio/low_min": 0.0002766767211141996,
      "clip_ratio/region_mean": 0.0005360293034755159,
      "entropy": 0.5877662338316441,
      "epoch": 0.24057806744120147,
      "grad_norm": 0.279296875,
      "learning_rate": 7.595636157551713e-07,
      "loss": 0.0371,
      "step": 1698,
      "step_time": 2.925097169354558
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1661.0,
      "completions/max_terminated_length": 1661.0,
      "completions/mean_length": 792.328125,
      "completions/mean_terminated_length": 792.328125,
      "completions/min_length": 395.0,
      "completions/min_terminated_length": 395.0,
      "entropy": 0.7637921646237373,
      "epoch": 0.2407197506375744,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.2890625,
      "learning_rate": 7.594219325587985e-07,
      "loss": -0.0289,
      "num_tokens": 49695061.0,
      "reward": 0.34375,
      "reward_std": 0.7811011672019958,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1699,
      "step_time": 55.38384010549635
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "entropy": 0.8085529617965221,
      "epoch": 0.24086143383394729,
      "grad_norm": 0.2421875,
      "learning_rate": 7.592802493624256e-07,
      "loss": 0.03,
      "step": 1700,
      "step_time": 3.591301554813981
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1015.0,
      "completions/max_terminated_length": 1015.0,
      "completions/mean_length": 549.140625,
      "completions/mean_terminated_length": 549.140625,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "entropy": 1.1638953611254692,
      "epoch": 0.2410031170303202,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.408203125,
      "learning_rate": 7.591385661660526e-07,
      "loss": 0.0427,
      "num_tokens": 49746286.0,
      "reward": 0.2421875,
      "reward_std": 0.5633811354637146,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1701,
      "step_time": 35.764123474247754
    },
    {
      "clip_ratio/high_max": 0.00010986020060954615,
      "clip_ratio/high_mean": 0.00010986020060954615,
      "clip_ratio/low_mean": 0.00017134327936219051,
      "clip_ratio/low_min": 0.00017134327936219051,
      "clip_ratio/region_mean": 0.00028120347997173667,
      "entropy": 1.2675756365060806,
      "epoch": 0.2411448002266931,
      "grad_norm": 0.66015625,
      "learning_rate": 7.589968829696798e-07,
      "loss": -0.07,
      "step": 1702,
      "step_time": 2.8163687605410814
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1525.0,
      "completions/max_terminated_length": 1525.0,
      "completions/mean_length": 668.65625,
      "completions/mean_terminated_length": 668.65625,
      "completions/min_length": 16.0,
      "completions/min_terminated_length": 16.0,
      "entropy": 0.9228263273835182,
      "epoch": 0.24128648342306602,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.48828125,
      "learning_rate": 7.588551997733068e-07,
      "loss": -0.016,
      "num_tokens": 49799800.0,
      "reward": 0.5078125,
      "reward_std": 0.7842304110527039,
      "rewards/accuracy_reward_func/mean": 0.40625,
      "rewards/accuracy_reward_func/std": 0.8110105991363525,
      "rewards/format_reward_func/mean": 0.1015625,
      "rewards/format_reward_func/std": 0.20275264978408813,
      "step": 1703,
      "step_time": 50.952718663960695
    },
    {
      "clip_ratio/high_max": 0.0004580611021083314,
      "clip_ratio/high_mean": 0.0004580611021083314,
      "clip_ratio/low_mean": 0.00021477967675309628,
      "clip_ratio/low_min": 0.00021477967675309628,
      "clip_ratio/region_mean": 0.0006728407679474913,
      "entropy": 0.9752079099416733,
      "epoch": 0.24142816661943894,
      "grad_norm": 0.41015625,
      "learning_rate": 7.58713516576934e-07,
      "loss": 0.0164,
      "step": 1704,
      "step_time": 3.377801727503538
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1277.0,
      "completions/max_terminated_length": 1277.0,
      "completions/mean_length": 749.609375,
      "completions/mean_terminated_length": 749.609375,
      "completions/min_length": 395.0,
      "completions/min_terminated_length": 395.0,
      "entropy": 0.9332384206354618,
      "epoch": 0.24156984981581184,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.1259765625,
      "learning_rate": 7.58571833380561e-07,
      "loss": 0.0128,
      "num_tokens": 49857807.0,
      "reward": 0.1484375,
      "reward_std": 0.3172261714935303,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1705,
      "step_time": 42.303398995660245
    },
    {
      "clip_ratio/high_max": 0.0001689177515800111,
      "clip_ratio/high_mean": 0.0001689177515800111,
      "clip_ratio/low_mean": 0.00017132678112830035,
      "clip_ratio/low_min": 0.00017132678112830035,
      "clip_ratio/region_mean": 0.00034024453270831145,
      "entropy": 0.7314038947224617,
      "epoch": 0.24171153301218476,
      "grad_norm": 0.5546875,
      "learning_rate": 7.584301501841881e-07,
      "loss": 0.0133,
      "step": 1706,
      "step_time": 2.7857154440134764
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1978.0,
      "completions/max_terminated_length": 1978.0,
      "completions/mean_length": 752.21875,
      "completions/mean_terminated_length": 752.21875,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "entropy": 0.7438606396317482,
      "epoch": 0.24185321620855765,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.2041015625,
      "learning_rate": 7.582884669878152e-07,
      "loss": 0.018,
      "num_tokens": 49919581.0,
      "reward": 0.375,
      "reward_std": 0.8067178130149841,
      "rewards/accuracy_reward_func/mean": 0.25,
      "rewards/accuracy_reward_func/std": 0.6666666865348816,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1707,
      "step_time": 67.1732452372089
    },
    {
      "clip_ratio/high_max": 5.918560782447457e-05,
      "clip_ratio/high_mean": 5.918560782447457e-05,
      "clip_ratio/low_mean": 0.00042530937571427785,
      "clip_ratio/low_min": 0.00042530937571427785,
      "clip_ratio/region_mean": 0.0004844949835387524,
      "entropy": 0.6083973832428455,
      "epoch": 0.24199489940493057,
      "grad_norm": 0.44140625,
      "learning_rate": 7.581467837914423e-07,
      "loss": -0.0187,
      "step": 1708,
      "step_time": 4.257812513969839
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2534.0,
      "completions/max_terminated_length": 2534.0,
      "completions/mean_length": 810.421875,
      "completions/mean_terminated_length": 810.421875,
      "completions/min_length": 236.0,
      "completions/min_terminated_length": 236.0,
      "entropy": 0.41705766320228577,
      "epoch": 0.2421365826013035,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.22265625,
      "learning_rate": 7.580051005950694e-07,
      "loss": -0.0235,
      "num_tokens": 49982680.0,
      "reward": 0.28125,
      "reward_std": 0.5482656359672546,
      "rewards/accuracy_reward_func/mean": 0.15625,
      "rewards/accuracy_reward_func/std": 0.5409794449806213,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1709,
      "step_time": 88.2274772869423
    },
    {
      "clip_ratio/high_max": 2.7298536224407144e-05,
      "clip_ratio/high_mean": 2.7298536224407144e-05,
      "clip_ratio/low_mean": 5.048465391155332e-05,
      "clip_ratio/low_min": 5.048465391155332e-05,
      "clip_ratio/region_mean": 7.778319013596047e-05,
      "entropy": 0.5203085727989674,
      "epoch": 0.2422782657976764,
      "grad_norm": 0.2197265625,
      "learning_rate": 7.578634173986965e-07,
      "loss": -0.0024,
      "step": 1710,
      "step_time": 4.850119957700372
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1469.0,
      "completions/max_terminated_length": 1469.0,
      "completions/mean_length": 743.578125,
      "completions/mean_terminated_length": 743.578125,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "entropy": 0.5317993499338627,
      "epoch": 0.2424199489940493,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.333984375,
      "learning_rate": 7.577217342023236e-07,
      "loss": -0.0106,
      "num_tokens": 50040829.0,
      "reward": 0.3359375,
      "reward_std": 0.6239574551582336,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1711,
      "step_time": 48.050594015046954
    },
    {
      "clip_ratio/high_max": 0.0010653002755134366,
      "clip_ratio/high_mean": 0.0010653002755134366,
      "clip_ratio/low_mean": 0.00020988974210922606,
      "clip_ratio/low_min": 0.00020988974210922606,
      "clip_ratio/region_mean": 0.001275190010346705,
      "entropy": 0.7372909486293793,
      "epoch": 0.2425616321904222,
      "grad_norm": 0.625,
      "learning_rate": 7.575800510059506e-07,
      "loss": 0.0497,
      "step": 1712,
      "step_time": 3.16122246067971
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1304.0,
      "completions/max_terminated_length": 1304.0,
      "completions/mean_length": 720.15625,
      "completions/mean_terminated_length": 720.15625,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "entropy": 0.6493189781904221,
      "epoch": 0.24270331538679513,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.427734375,
      "learning_rate": 7.574383678095777e-07,
      "loss": 0.1564,
      "num_tokens": 50095847.0,
      "reward": 0.4921875,
      "reward_std": 0.8567759394645691,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1713,
      "step_time": 42.99271837994456
    },
    {
      "clip_ratio/high_max": 0.0004419027900439687,
      "clip_ratio/high_mean": 0.0004419027900439687,
      "clip_ratio/low_mean": 0.0007522320665884763,
      "clip_ratio/low_min": 0.0007522320665884763,
      "clip_ratio/region_mean": 0.0011941348602704238,
      "entropy": 0.7090519778430462,
      "epoch": 0.24284499858316805,
      "grad_norm": 0.58203125,
      "learning_rate": 7.572966846132048e-07,
      "loss": -0.1454,
      "step": 1714,
      "step_time": 2.8206613240763545
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1475.0,
      "completions/max_terminated_length": 1475.0,
      "completions/mean_length": 789.171875,
      "completions/mean_terminated_length": 789.171875,
      "completions/min_length": 13.0,
      "completions/min_terminated_length": 13.0,
      "entropy": 0.718370720744133,
      "epoch": 0.24298668177954094,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.1904296875,
      "learning_rate": 7.57155001416832e-07,
      "loss": 0.0256,
      "num_tokens": 50156466.0,
      "reward": 0.21875,
      "reward_std": 0.4531635046005249,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1715,
      "step_time": 48.82246502209455
    },
    {
      "clip_ratio/high_max": 9.349289757665247e-05,
      "clip_ratio/high_mean": 9.349289757665247e-05,
      "clip_ratio/low_mean": 4.669406189350411e-05,
      "clip_ratio/low_min": 4.669406189350411e-05,
      "clip_ratio/region_mean": 0.00014018695947015658,
      "entropy": 0.7316850014030933,
      "epoch": 0.24312836497591386,
      "grad_norm": 0.2236328125,
      "learning_rate": 7.57013318220459e-07,
      "loss": -0.0007,
      "step": 1716,
      "step_time": 3.090314608067274
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1775.0,
      "completions/max_terminated_length": 1775.0,
      "completions/mean_length": 772.109375,
      "completions/mean_terminated_length": 772.109375,
      "completions/min_length": 469.0,
      "completions/min_terminated_length": 469.0,
      "entropy": 0.9994656294584274,
      "epoch": 0.24327004817228676,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.4296875,
      "learning_rate": 7.568716350240862e-07,
      "loss": -0.0245,
      "num_tokens": 50219641.0,
      "reward": 0.21875,
      "reward_std": 0.4869324266910553,
      "rewards/accuracy_reward_func/mean": 0.09375,
      "rewards/accuracy_reward_func/std": 0.42608407139778137,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1717,
      "step_time": 58.83105426747352
    },
    {
      "clip_ratio/high_max": 8.941345004132017e-05,
      "clip_ratio/high_mean": 8.941345004132017e-05,
      "clip_ratio/low_mean": 0.00018074821491609327,
      "clip_ratio/low_min": 0.00018074821491609327,
      "clip_ratio/region_mean": 0.00027016166131943464,
      "entropy": 0.909426175057888,
      "epoch": 0.24341173136865968,
      "grad_norm": 0.271484375,
      "learning_rate": 7.567299518277132e-07,
      "loss": 0.0458,
      "step": 1718,
      "step_time": 3.649167714640498
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1191.0,
      "completions/max_terminated_length": 1191.0,
      "completions/mean_length": 768.546875,
      "completions/mean_terminated_length": 768.546875,
      "completions/min_length": 11.0,
      "completions/min_terminated_length": 11.0,
      "entropy": 0.6066458374261856,
      "epoch": 0.2435534145650326,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.58984375,
      "learning_rate": 7.565882686313403e-07,
      "loss": 0.1238,
      "num_tokens": 50280300.0,
      "reward": 0.484375,
      "reward_std": 0.7609974145889282,
      "rewards/accuracy_reward_func/mean": 0.375,
      "rewards/accuracy_reward_func/std": 0.7867957949638367,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1719,
      "step_time": 39.4933812841773
    },
    {
      "clip_ratio/high_max": 0.0007898240510257892,
      "clip_ratio/high_mean": 0.0007898240510257892,
      "clip_ratio/low_mean": 0.0007305955623451155,
      "clip_ratio/low_min": 0.0007305955623451155,
      "clip_ratio/region_mean": 0.0015204196206468623,
      "entropy": 0.500771775841713,
      "epoch": 0.2436950977614055,
      "grad_norm": 0.466796875,
      "learning_rate": 7.564465854349674e-07,
      "loss": -0.1287,
      "step": 1720,
      "step_time": 2.8225635699927807
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1596.0,
      "completions/max_terminated_length": 1596.0,
      "completions/mean_length": 817.21875,
      "completions/mean_terminated_length": 817.21875,
      "completions/min_length": 284.0,
      "completions/min_terminated_length": 284.0,
      "entropy": 0.8771440051496029,
      "epoch": 0.24383678095777842,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.4453125,
      "learning_rate": 7.563049022385944e-07,
      "loss": -0.0556,
      "num_tokens": 50343642.0,
      "reward": 0.3984375,
      "reward_std": 0.6853320598602295,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1721,
      "step_time": 52.87725933920592
    },
    {
      "clip_ratio/high_max": 0.0004150492859480437,
      "clip_ratio/high_mean": 0.0004150492859480437,
      "clip_ratio/low_mean": 0.00045181967834651005,
      "clip_ratio/low_min": 0.00045181967834651005,
      "clip_ratio/region_mean": 0.0008668689679325325,
      "entropy": 0.7355610802769661,
      "epoch": 0.2439784641541513,
      "grad_norm": 0.423828125,
      "learning_rate": 7.561632190422216e-07,
      "loss": 0.1058,
      "step": 1722,
      "step_time": 3.560389523394406
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1384.0,
      "completions/max_terminated_length": 1384.0,
      "completions/mean_length": 659.71875,
      "completions/mean_terminated_length": 659.71875,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "entropy": 0.8103609457612038,
      "epoch": 0.24412014735052423,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.68359375,
      "learning_rate": 7.560215358458486e-07,
      "loss": 0.0192,
      "num_tokens": 50393896.0,
      "reward": 0.8671875,
      "reward_std": 0.9051974415779114,
      "rewards/accuracy_reward_func/mean": 0.75,
      "rewards/accuracy_reward_func/std": 0.9759001135826111,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1723,
      "step_time": 45.627658602781594
    },
    {
      "clip_ratio/high_max": 0.001478756770666223,
      "clip_ratio/high_mean": 0.001478756770666223,
      "clip_ratio/low_mean": 0.0003608736951719038,
      "clip_ratio/low_min": 0.0003608736951719038,
      "clip_ratio/region_mean": 0.0018396304658381268,
      "entropy": 0.7997222319245338,
      "epoch": 0.24426183054689715,
      "grad_norm": 0.734375,
      "learning_rate": 7.558798526494758e-07,
      "loss": -0.0199,
      "step": 1724,
      "step_time": 2.924199413508177
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1354.0,
      "completions/max_terminated_length": 1354.0,
      "completions/mean_length": 646.265625,
      "completions/mean_terminated_length": 646.265625,
      "completions/min_length": 285.0,
      "completions/min_terminated_length": 285.0,
      "entropy": 0.7928973883390427,
      "epoch": 0.24440351374327005,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.60546875,
      "learning_rate": 7.557381694531029e-07,
      "loss": -0.0348,
      "num_tokens": 50444665.0,
      "reward": 0.3125,
      "reward_std": 0.5875696539878845,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1725,
      "step_time": 44.535463656298816
    },
    {
      "clip_ratio/high_max": 0.00022432460536947474,
      "clip_ratio/high_mean": 0.00022432460536947474,
      "clip_ratio/low_mean": 0.0008410066875512712,
      "clip_ratio/low_min": 0.0008410066875512712,
      "clip_ratio/region_mean": 0.0010653312783688307,
      "entropy": 0.7449811697006226,
      "epoch": 0.24454519693964297,
      "grad_norm": 0.546875,
      "learning_rate": 7.555964862567299e-07,
      "loss": 0.0338,
      "step": 1726,
      "step_time": 3.1122902520000935
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1718.0,
      "completions/max_terminated_length": 1718.0,
      "completions/mean_length": 757.171875,
      "completions/mean_terminated_length": 757.171875,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "entropy": 0.400750357657671,
      "epoch": 0.24468688013601586,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.484375,
      "learning_rate": 7.55454803060357e-07,
      "loss": -0.0749,
      "num_tokens": 50502212.0,
      "reward": 0.8125,
      "reward_std": 0.9236745238304138,
      "rewards/accuracy_reward_func/mean": 0.6875,
      "rewards/accuracy_reward_func/std": 0.9574271440505981,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1727,
      "step_time": 57.23280434682965
    },
    {
      "clip_ratio/high_max": 0.0007769469302729703,
      "clip_ratio/high_mean": 0.0007769469302729703,
      "clip_ratio/low_mean": 0.0006624498855671845,
      "clip_ratio/low_min": 0.0006624498855671845,
      "clip_ratio/region_mean": 0.0014393968049262185,
      "entropy": 0.6023498773574829,
      "epoch": 0.24482856333238878,
      "grad_norm": 0.5078125,
      "learning_rate": 7.55313119863984e-07,
      "loss": 0.0623,
      "step": 1728,
      "step_time": 3.4857243970036507
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1571.0,
      "completions/max_terminated_length": 1571.0,
      "completions/mean_length": 700.1875,
      "completions/mean_terminated_length": 700.1875,
      "completions/min_length": 308.0,
      "completions/min_terminated_length": 308.0,
      "entropy": 0.5152010880410671,
      "epoch": 0.24497024652876168,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.50390625,
      "learning_rate": 7.551714366676112e-07,
      "loss": 0.0752,
      "num_tokens": 50554800.0,
      "reward": 0.96875,
      "reward_std": 1.097887635231018,
      "rewards/accuracy_reward_func/mean": 0.84375,
      "rewards/accuracy_reward_func/std": 0.9955257177352905,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1729,
      "step_time": 55.82018235884607
    },
    {
      "clip_ratio/high_max": 0.00010292301158187911,
      "clip_ratio/high_mean": 0.00010292301158187911,
      "clip_ratio/low_mean": 0.00017455913985031657,
      "clip_ratio/low_min": 0.00017455913985031657,
      "clip_ratio/region_mean": 0.0002774821514321957,
      "entropy": 0.5011803805828094,
      "epoch": 0.2451119297251346,
      "grad_norm": 0.466796875,
      "learning_rate": 7.550297534712383e-07,
      "loss": -0.0439,
      "step": 1730,
      "step_time": 3.389674486592412
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1520.0,
      "completions/max_terminated_length": 1520.0,
      "completions/mean_length": 842.125,
      "completions/mean_terminated_length": 842.125,
      "completions/min_length": 308.0,
      "completions/min_terminated_length": 308.0,
      "entropy": 0.8269313797354698,
      "epoch": 0.24525361292150752,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.462890625,
      "learning_rate": 7.548880702748654e-07,
      "loss": -0.0329,
      "num_tokens": 50623512.0,
      "reward": 0.234375,
      "reward_std": 0.5037065148353577,
      "rewards/accuracy_reward_func/mean": 0.125,
      "rewards/accuracy_reward_func/std": 0.48795005679130554,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1731,
      "step_time": 51.03879897389561
    },
    {
      "clip_ratio/high_max": 0.00026075497225974686,
      "clip_ratio/high_mean": 0.00026075497225974686,
      "clip_ratio/low_mean": 0.0005030861357226968,
      "clip_ratio/low_min": 0.0005030861357226968,
      "clip_ratio/region_mean": 0.0007638411188963801,
      "entropy": 0.5669938661158085,
      "epoch": 0.2453952961178804,
      "grad_norm": 0.49609375,
      "learning_rate": 7.547463870784925e-07,
      "loss": 0.0037,
      "step": 1732,
      "step_time": 3.549401568248868
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1158.0,
      "completions/max_terminated_length": 1158.0,
      "completions/mean_length": 638.9375,
      "completions/mean_terminated_length": 638.9375,
      "completions/min_length": 268.0,
      "completions/min_terminated_length": 268.0,
      "entropy": 0.776996660977602,
      "epoch": 0.24553697931425333,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.5390625,
      "learning_rate": 7.546047038821195e-07,
      "loss": -0.0435,
      "num_tokens": 50687236.0,
      "reward": 0.34375,
      "reward_std": 0.7175520658493042,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1733,
      "step_time": 41.85474216006696
    },
    {
      "clip_ratio/high_max": 0.00010557432688074186,
      "clip_ratio/high_mean": 0.00010557432688074186,
      "clip_ratio/low_mean": 0.0005371862789615989,
      "clip_ratio/low_min": 0.0005371862789615989,
      "clip_ratio/region_mean": 0.0006427606058423407,
      "entropy": 0.7724260538816452,
      "epoch": 0.24567866251062623,
      "grad_norm": 0.265625,
      "learning_rate": 7.544630206857466e-07,
      "loss": 0.035,
      "step": 1734,
      "step_time": 3.549957529641688
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1643.0,
      "completions/max_terminated_length": 1643.0,
      "completions/mean_length": 764.625,
      "completions/mean_terminated_length": 764.625,
      "completions/min_length": 362.0,
      "completions/min_terminated_length": 362.0,
      "entropy": 0.9515216872096062,
      "epoch": 0.24582034570699915,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.66015625,
      "learning_rate": 7.543213374893737e-07,
      "loss": -0.0614,
      "num_tokens": 50752140.0,
      "reward": 0.34375,
      "reward_std": 0.7175520658493042,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1735,
      "step_time": 55.613415223546326
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0006496924070233945,
      "clip_ratio/low_min": 0.0006496924070233945,
      "clip_ratio/region_mean": 0.0006496924070233945,
      "entropy": 1.0144478157162666,
      "epoch": 0.24596202890337207,
      "grad_norm": 0.53515625,
      "learning_rate": 7.541796542930008e-07,
      "loss": 0.0319,
      "step": 1736,
      "step_time": 3.606012523174286
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1506.0,
      "completions/max_terminated_length": 1506.0,
      "completions/mean_length": 806.15625,
      "completions/mean_terminated_length": 806.15625,
      "completions/min_length": 361.0,
      "completions/min_terminated_length": 361.0,
      "entropy": 0.8244729936122894,
      "epoch": 0.24610371209974496,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.498046875,
      "learning_rate": 7.540379710966279e-07,
      "loss": -0.0013,
      "num_tokens": 50812358.0,
      "reward": 0.78125,
      "reward_std": 0.8813545107841492,
      "rewards/accuracy_reward_func/mean": 0.65625,
      "rewards/accuracy_reward_func/std": 0.9464847445487976,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1737,
      "step_time": 49.77881149854511
    },
    {
      "clip_ratio/high_max": 0.0007050840795272961,
      "clip_ratio/high_mean": 0.0007050840795272961,
      "clip_ratio/low_mean": 0.00015622497085132636,
      "clip_ratio/low_min": 0.00015622497085132636,
      "clip_ratio/region_mean": 0.0008613090431026649,
      "entropy": 0.7176064476370811,
      "epoch": 0.24624539529611789,
      "grad_norm": 0.51953125,
      "learning_rate": 7.53896287900255e-07,
      "loss": 0.0307,
      "step": 1738,
      "step_time": 3.158242125995457
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1259.0,
      "completions/max_terminated_length": 1259.0,
      "completions/mean_length": 765.65625,
      "completions/mean_terminated_length": 765.65625,
      "completions/min_length": 378.0,
      "completions/min_terminated_length": 378.0,
      "entropy": 0.8199720233678818,
      "epoch": 0.24638707849249078,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.421875,
      "learning_rate": 7.537546047038821e-07,
      "loss": -0.0208,
      "num_tokens": 50871600.0,
      "reward": 0.328125,
      "reward_std": 0.7194505929946899,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1739,
      "step_time": 41.70013531669974
    },
    {
      "clip_ratio/high_max": 4.126774365431629e-05,
      "clip_ratio/high_mean": 4.126774365431629e-05,
      "clip_ratio/low_mean": 0.00017557773389853537,
      "clip_ratio/low_min": 0.00017557773389853537,
      "clip_ratio/region_mean": 0.00021684547755285166,
      "entropy": 0.8095926195383072,
      "epoch": 0.2465287616888637,
      "grad_norm": 0.37890625,
      "learning_rate": 7.536129215075093e-07,
      "loss": 0.0087,
      "step": 1740,
      "step_time": 2.89938753657043
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1364.0,
      "completions/max_terminated_length": 1364.0,
      "completions/mean_length": 698.53125,
      "completions/mean_terminated_length": 698.53125,
      "completions/min_length": 244.0,
      "completions/min_terminated_length": 244.0,
      "entropy": 0.7861771807074547,
      "epoch": 0.24667044488523662,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.10498046875,
      "learning_rate": 7.534712383111362e-07,
      "loss": 0.046,
      "num_tokens": 50925138.0,
      "reward": 0.15625,
      "reward_std": 0.3196600377559662,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1741,
      "step_time": 44.73023861460388
    },
    {
      "clip_ratio/high_max": 3.920953531633131e-05,
      "clip_ratio/high_mean": 3.920953531633131e-05,
      "clip_ratio/low_mean": 0.00015025420725578442,
      "clip_ratio/low_min": 0.00015025420725578442,
      "clip_ratio/region_mean": 0.00018946374257211573,
      "entropy": 0.8587370701134205,
      "epoch": 0.24681212808160952,
      "grad_norm": 0.3515625,
      "learning_rate": 7.533295551147633e-07,
      "loss": -0.0413,
      "step": 1742,
      "step_time": 2.9143394539132714
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1733.0,
      "completions/max_terminated_length": 1733.0,
      "completions/mean_length": 841.734375,
      "completions/mean_terminated_length": 841.734375,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "entropy": 0.6864238269627094,
      "epoch": 0.24695381127798244,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.38671875,
      "learning_rate": 7.531878719183904e-07,
      "loss": -0.0124,
      "num_tokens": 50988433.0,
      "reward": 0.3046875,
      "reward_std": 0.5883605480194092,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1743,
      "step_time": 57.52041764743626
    },
    {
      "clip_ratio/high_max": 0.0004551591591734905,
      "clip_ratio/high_mean": 0.0004551591591734905,
      "clip_ratio/low_mean": 0.000270844109763857,
      "clip_ratio/low_min": 0.000270844109763857,
      "clip_ratio/region_mean": 0.0007260032689373475,
      "entropy": 0.6593202948570251,
      "epoch": 0.24709549447435533,
      "grad_norm": 0.4921875,
      "learning_rate": 7.530461887220175e-07,
      "loss": 0.0403,
      "step": 1744,
      "step_time": 3.732592612504959
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1486.0,
      "completions/max_terminated_length": 1486.0,
      "completions/mean_length": 858.046875,
      "completions/mean_terminated_length": 858.046875,
      "completions/min_length": 513.0,
      "completions/min_terminated_length": 513.0,
      "entropy": 0.571840338408947,
      "epoch": 0.24723717767072825,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.34765625,
      "learning_rate": 7.529045055256447e-07,
      "loss": -0.0079,
      "num_tokens": 51053764.0,
      "reward": 0.34375,
      "reward_std": 0.6228136420249939,
      "rewards/accuracy_reward_func/mean": 0.21875,
      "rewards/accuracy_reward_func/std": 0.6291528940200806,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1745,
      "step_time": 49.60948734264821
    },
    {
      "clip_ratio/high_max": 7.144817936932668e-05,
      "clip_ratio/high_mean": 7.144817936932668e-05,
      "clip_ratio/low_mean": 0.00031554984889226034,
      "clip_ratio/low_min": 0.00031554984889226034,
      "clip_ratio/region_mean": 0.000386998028261587,
      "entropy": 0.5218273103237152,
      "epoch": 0.24737886086710117,
      "grad_norm": 0.234375,
      "learning_rate": 7.527628223292717e-07,
      "loss": 0.032,
      "step": 1746,
      "step_time": 3.305261409841478
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1089.0,
      "completions/max_terminated_length": 1089.0,
      "completions/mean_length": 630.75,
      "completions/mean_terminated_length": 630.75,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "entropy": 0.7671032138168812,
      "epoch": 0.24752054406347407,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.3046875,
      "learning_rate": 7.526211391328989e-07,
      "loss": 0.0463,
      "num_tokens": 51103172.0,
      "reward": 0.3125,
      "reward_std": 0.5875696539878845,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1747,
      "step_time": 35.76216967403889
    },
    {
      "clip_ratio/high_max": 0.00031877727087703533,
      "clip_ratio/high_mean": 0.00031877727087703533,
      "clip_ratio/low_mean": 0.00030376611539395526,
      "clip_ratio/low_min": 0.00030376611539395526,
      "clip_ratio/region_mean": 0.0006225433826330118,
      "entropy": 0.7013089507818222,
      "epoch": 0.247662227259847,
      "grad_norm": 0.58984375,
      "learning_rate": 7.524794559365258e-07,
      "loss": -0.0677,
      "step": 1748,
      "step_time": 2.641095098108053
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1798.0,
      "completions/max_terminated_length": 1798.0,
      "completions/mean_length": 810.34375,
      "completions/mean_terminated_length": 810.34375,
      "completions/min_length": 296.0,
      "completions/min_terminated_length": 296.0,
      "entropy": 0.6097018159925938,
      "epoch": 0.24780391045621988,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.408203125,
      "learning_rate": 7.523377727401529e-07,
      "loss": -0.0541,
      "num_tokens": 51165002.0,
      "reward": 0.3984375,
      "reward_std": 0.8506752252578735,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1749,
      "step_time": 59.76653614360839
    },
    {
      "clip_ratio/high_max": 3.768465467146598e-05,
      "clip_ratio/high_mean": 3.768465467146598e-05,
      "clip_ratio/low_mean": 0.0001906856159621384,
      "clip_ratio/low_min": 0.0001906856159621384,
      "clip_ratio/region_mean": 0.00022837027063360438,
      "entropy": 0.630464855581522,
      "epoch": 0.2479455936525928,
      "grad_norm": 0.265625,
      "learning_rate": 7.521960895437801e-07,
      "loss": 0.0786,
      "step": 1750,
      "step_time": 3.5825427174568176
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1464.0,
      "completions/max_terminated_length": 1464.0,
      "completions/mean_length": 889.046875,
      "completions/mean_terminated_length": 889.046875,
      "completions/min_length": 306.0,
      "completions/min_terminated_length": 306.0,
      "entropy": 0.6115238703787327,
      "epoch": 0.24808727684896573,
      "frac_reward_zero_std": 0.25,
      "grad_norm": 0.32421875,
      "learning_rate": 7.520544063474071e-07,
      "loss": 0.0188,
      "num_tokens": 51231709.0,
      "reward": 0.75,
      "reward_std": 0.9258201122283936,
      "rewards/accuracy_reward_func/mean": 0.625,
      "rewards/accuracy_reward_func/std": 0.934353232383728,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1751,
      "step_time": 48.43794272467494
    },
    {
      "clip_ratio/high_max": 0.0005174352409085259,
      "clip_ratio/high_mean": 0.0005174352409085259,
      "clip_ratio/low_mean": 0.00020473490258154925,
      "clip_ratio/low_min": 0.00020473490258154925,
      "clip_ratio/region_mean": 0.0007221701362141175,
      "entropy": 0.43512936122715473,
      "epoch": 0.24822896004533862,
      "grad_norm": 0.37890625,
      "learning_rate": 7.519127231510343e-07,
      "loss": 0.0475,
      "step": 1752,
      "step_time": 3.320107076317072
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1005.0,
      "completions/max_terminated_length": 1005.0,
      "completions/mean_length": 597.3125,
      "completions/mean_terminated_length": 597.3125,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "entropy": 0.673896674066782,
      "epoch": 0.24837064324171154,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.5703125,
      "learning_rate": 7.517710399546613e-07,
      "loss": 0.0032,
      "num_tokens": 51281217.0,
      "reward": 0.40625,
      "reward_std": 0.6835655570030212,
      "rewards/accuracy_reward_func/mean": 0.28125,
      "rewards/accuracy_reward_func/std": 0.7007648944854736,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1753,
      "step_time": 33.365315397270024
    },
    {
      "clip_ratio/high_max": 4.144562262808904e-05,
      "clip_ratio/high_mean": 4.144562262808904e-05,
      "clip_ratio/low_mean": 0.00062384526245296,
      "clip_ratio/low_min": 0.00062384526245296,
      "clip_ratio/region_mean": 0.0006652908850810491,
      "entropy": 0.8209373541176319,
      "epoch": 0.24851232643808444,
      "grad_norm": 0.41796875,
      "learning_rate": 7.516293567582885e-07,
      "loss": 0.0147,
      "step": 1754,
      "step_time": 2.429302559234202
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1307.0,
      "completions/max_terminated_length": 1307.0,
      "completions/mean_length": 668.75,
      "completions/mean_terminated_length": 668.75,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "entropy": 0.6329163685441017,
      "epoch": 0.24865400963445736,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.400390625,
      "learning_rate": 7.514876735619155e-07,
      "loss": -0.002,
      "num_tokens": 51335697.0,
      "reward": 0.8671875,
      "reward_std": 1.0810128450393677,
      "rewards/accuracy_reward_func/mean": 0.75,
      "rewards/accuracy_reward_func/std": 0.9759001135826111,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1755,
      "step_time": 42.732388680800796
    },
    {
      "clip_ratio/high_max": 0.00021661625578417443,
      "clip_ratio/high_mean": 0.00021661625578417443,
      "clip_ratio/low_mean": 5.5017604609020054e-05,
      "clip_ratio/low_min": 5.5017604609020054e-05,
      "clip_ratio/region_mean": 0.0002716338603931945,
      "entropy": 0.6465475149452686,
      "epoch": 0.24879569283083025,
      "grad_norm": 0.30859375,
      "learning_rate": 7.513459903655425e-07,
      "loss": -0.0052,
      "step": 1756,
      "step_time": 2.8646875601261854
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1311.0,
      "completions/max_terminated_length": 1311.0,
      "completions/mean_length": 668.65625,
      "completions/mean_terminated_length": 668.65625,
      "completions/min_length": 299.0,
      "completions/min_terminated_length": 299.0,
      "entropy": 0.7403983026742935,
      "epoch": 0.24893737602720317,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.263671875,
      "learning_rate": 7.512043071691697e-07,
      "loss": -0.02,
      "num_tokens": 51387515.0,
      "reward": 0.3125,
      "reward_std": 0.5875696539878845,
      "rewards/accuracy_reward_func/mean": 0.1875,
      "rewards/accuracy_reward_func/std": 0.5875696539878845,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1757,
      "step_time": 43.219951250590384
    },
    {
      "clip_ratio/high_max": 0.0001303067801927682,
      "clip_ratio/high_mean": 0.0001303067801927682,
      "clip_ratio/low_mean": 0.0001246981009899173,
      "clip_ratio/low_min": 0.0001246981009899173,
      "clip_ratio/region_mean": 0.0002550048811826855,
      "entropy": 0.5877345725893974,
      "epoch": 0.2490790592235761,
      "grad_norm": 0.28515625,
      "learning_rate": 7.510626239727967e-07,
      "loss": 0.003,
      "step": 1758,
      "step_time": 2.8144433284178376
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 988.0,
      "completions/max_terminated_length": 988.0,
      "completions/mean_length": 553.671875,
      "completions/mean_terminated_length": 553.671875,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "entropy": 0.8061565086245537,
      "epoch": 0.249220742419949,
      "frac_reward_zero_std": 0.75,
      "grad_norm": 0.494140625,
      "learning_rate": 7.509209407764239e-07,
      "loss": 0.0314,
      "num_tokens": 51433798.0,
      "reward": 0.59375,
      "reward_std": 0.8110105395317078,
      "rewards/accuracy_reward_func/mean": 0.46875,
      "rewards/accuracy_reward_func/std": 0.8539125919342041,
      "rewards/format_reward_func/mean": 0.125,
      "rewards/format_reward_func/std": 0.2182178944349289,
      "step": 1759,
      "step_time": 33.23440880700946
    },
    {
      "clip_ratio/high_max": 0.0004647634123102762,
      "clip_ratio/high_mean": 0.0004647634123102762,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0004647634123102762,
      "entropy": 0.9046816453337669,
      "epoch": 0.2493624256163219,
      "grad_norm": 0.04833984375,
      "learning_rate": 7.50779257580051e-07,
      "loss": -0.0129,
      "step": 1760,
      "step_time": 2.4477120134979486
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1223.0,
      "completions/max_terminated_length": 1223.0,
      "completions/mean_length": 832.234375,
      "completions/mean_terminated_length": 832.234375,
      "completions/min_length": 492.0,
      "completions/min_terminated_length": 492.0,
      "entropy": 0.9176091775298119,
      "epoch": 0.2495041088126948,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.220703125,
      "learning_rate": 7.506375743836781e-07,
      "loss": 0.0284,
      "num_tokens": 51499621.0,
      "reward": 0.140625,
      "reward_std": 0.3145764470100403,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.109375,
      "rewards/format_reward_func/std": 0.2083333432674408,
      "step": 1761,
      "step_time": 40.79478948563337
    },
    {
      "clip_ratio/high_max": 0.00023392855291604064,
      "clip_ratio/high_mean": 0.00023392855291604064,
      "clip_ratio/low_mean": 0.00018088771685143001,
      "clip_ratio/low_min": 0.00018088771685143001,
      "clip_ratio/region_mean": 0.00041481626976747066,
      "entropy": 0.7213535197079182,
      "epoch": 0.24964579200906772,
      "grad_norm": 0.421875,
      "learning_rate": 7.504958911873051e-07,
      "loss": -0.0356,
      "step": 1762,
      "step_time": 3.040356029756367
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1335.0,
      "completions/max_terminated_length": 1335.0,
      "completions/mean_length": 751.5625,
      "completions/mean_terminated_length": 751.5625,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "entropy": 0.7713953703641891,
      "epoch": 0.24978747520544065,
      "frac_reward_zero_std": 0.5,
      "grad_norm": 0.11376953125,
      "learning_rate": 7.503542079909322e-07,
      "loss": -0.0242,
      "num_tokens": 51557241.0,
      "reward": 0.1484375,
      "reward_std": 0.3172261714935303,
      "rewards/accuracy_reward_func/mean": 0.03125,
      "rewards/accuracy_reward_func/std": 0.25,
      "rewards/format_reward_func/mean": 0.1171875,
      "rewards/format_reward_func/std": 0.21347814798355103,
      "step": 1763,
      "step_time": 44.49286170583218
    },
    {
      "clip_ratio/high_max": 0.0002523943876440171,
      "clip_ratio/high_mean": 0.0002523943876440171,
      "clip_ratio/low_mean": 0.0007387998193735257,
      "clip_ratio/low_min": 0.0007387998193735257,
      "clip_ratio/region_mean": 0.000991194221569458,
      "entropy": 0.8997098580002785,
      "epoch": 0.24992915840181354,
      "grad_norm": 0.55078125,
      "learning_rate": 7.502125247945593e-07,
      "loss": 0.0332,
      "step": 1764,
      "step_time": 2.922588236629963
    }
  ],
  "logging_steps": 1,
  "max_steps": 7058,
  "num_input_tokens_seen": 51557241,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}