socialcontract-policy-7b-v1/checkpoint-200/trainer_state.json

{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0303030303030303,
  "eval_steps": 500,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 177.8,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 177.8,
      "completions/max_terminated_length": 177.8,
      "completions/mean_length": 157.85000610351562,
      "completions/mean_terminated_length": 157.85000610351562,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.07575757575757576,
      "frac_reward_zero_std": 0.4000000059604645,
      "grad_norm": 1.5840047597885132,
      "kl": 0.0010059793893522702,
      "learning_rate": 1.6000000000000001e-06,
      "loss": 0.0,
      "num_tokens": 73447.0,
      "reward": 0.5880883574485779,
      "reward_std": 0.020529226586222648,
      "rewards/reward_function/mean": 0.5880883395671844,
      "rewards/reward_function/std": 0.06562883183360099,
      "step": 5
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 176.2,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 176.2,
      "completions/max_terminated_length": 176.2,
      "completions/mean_length": 156.65000915527344,
      "completions/mean_terminated_length": 156.65000915527344,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.15151515151515152,
      "frac_reward_zero_std": 0.26666667461395266,
      "grad_norm": 1.6390373706817627,
      "kl": 0.0017284046276472508,
      "learning_rate": 3.6000000000000003e-06,
      "loss": 0.0,
      "num_tokens": 146334.0,
      "reward": 0.605418348312378,
      "reward_std": 0.02508251890540123,
      "rewards/reward_function/mean": 0.60541832447052,
      "rewards/reward_function/std": 0.06859094277024269,
      "step": 10
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 176.4,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 176.4,
      "completions/max_terminated_length": 176.4,
      "completions/mean_length": 157.0000030517578,
      "completions/mean_terminated_length": 157.0000030517578,
      "completions/min_length": 140.8,
      "completions/min_terminated_length": 140.8,
      "epoch": 0.22727272727272727,
      "frac_reward_zero_std": 0.26666667461395266,
      "grad_norm": 0.7626600861549377,
      "kl": 0.003397522373901059,
      "learning_rate": 5.600000000000001e-06,
      "loss": 0.0,
      "num_tokens": 219198.0,
      "reward": 0.5862850427627564,
      "reward_std": 0.036518129706382754,
      "rewards/reward_function/mean": 0.5862850069999694,
      "rewards/reward_function/std": 0.08488646671175956,
      "step": 15
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 183.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 183.0,
      "completions/max_terminated_length": 183.0,
      "completions/mean_length": 156.98334045410155,
      "completions/mean_terminated_length": 156.98334045410155,
      "completions/min_length": 139.8,
      "completions/min_terminated_length": 139.8,
      "epoch": 0.30303030303030304,
      "frac_reward_zero_std": 0.26666667461395266,
      "grad_norm": 0.9624250531196594,
      "kl": 0.007015585945919156,
      "learning_rate": 7.600000000000001e-06,
      "loss": 0.0,
      "num_tokens": 291737.0,
      "reward": 0.6001700401306153,
      "reward_std": 0.025772593356668948,
      "rewards/reward_function/mean": 0.6001700043678284,
      "rewards/reward_function/std": 0.07909451425075531,
      "step": 20
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 172.2,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 172.2,
      "completions/max_terminated_length": 172.2,
      "completions/mean_length": 155.23333740234375,
      "completions/mean_terminated_length": 155.23333740234375,
      "completions/min_length": 138.2,
      "completions/min_terminated_length": 138.2,
      "epoch": 0.3787878787878788,
      "frac_reward_zero_std": 0.26666667461395266,
      "grad_norm": 0.5355867743492126,
      "kl": 0.009492208405087391,
      "learning_rate": 9.600000000000001e-06,
      "loss": 0.0,
      "num_tokens": 364535.0,
      "reward": 0.5766633510589599,
      "reward_std": 0.04085115455091,
      "rewards/reward_function/mean": 0.576663339138031,
      "rewards/reward_function/std": 0.10587597712874412,
      "step": 25
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 198.4,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 198.4,
      "completions/max_terminated_length": 198.4,
      "completions/mean_length": 153.6166748046875,
      "completions/mean_terminated_length": 153.6166748046875,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.45454545454545453,
      "frac_reward_zero_std": 0.13333333730697633,
      "grad_norm": 0.6549646854400635,
      "kl": 0.061492755884925525,
      "learning_rate": 1.16e-05,
      "loss": 0.0001,
      "num_tokens": 436992.0,
      "reward": 0.5978150248527527,
      "reward_std": 0.04262940138578415,
      "rewards/reward_function/mean": 0.5978150129318237,
      "rewards/reward_function/std": 0.09431936666369438,
      "step": 30
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 176.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 176.0,
      "completions/max_terminated_length": 176.0,
      "completions/mean_length": 158.86667175292968,
      "completions/mean_terminated_length": 158.86667175292968,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.5303030303030303,
      "frac_reward_zero_std": 0.40000001192092893,
      "grad_norm": 0.4725801348686218,
      "kl": 2.357983988771836,
      "learning_rate": 1.3600000000000002e-05,
      "loss": 0.0024,
      "num_tokens": 509788.0,
      "reward": 0.6049700140953064,
      "reward_std": 0.012831439916044473,
      "rewards/reward_function/mean": 0.6049699783325195,
      "rewards/reward_function/std": 0.08928216472268105,
      "step": 35
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 172.4,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 172.4,
      "completions/max_terminated_length": 172.4,
      "completions/mean_length": 154.5500030517578,
      "completions/mean_terminated_length": 154.5500030517578,
      "completions/min_length": 138.8,
      "completions/min_terminated_length": 138.8,
      "epoch": 0.6060606060606061,
      "frac_reward_zero_std": 0.4666666746139526,
      "grad_norm": 0.41579461097717285,
      "kl": 0.10282722649474939,
      "learning_rate": 1.5600000000000003e-05,
      "loss": 0.0001,
      "num_tokens": 582789.0,
      "reward": 0.5595033764839172,
      "reward_std": 0.014409982354845852,
      "rewards/reward_function/mean": 0.5595033466815948,
      "rewards/reward_function/std": 0.053104204079136255,
      "step": 40
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 202.6,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 202.6,
      "completions/max_terminated_length": 202.6,
      "completions/mean_length": 158.20000305175782,
      "completions/mean_terminated_length": 158.20000305175782,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.6818181818181818,
      "frac_reward_zero_std": 0.33333333730697634,
      "grad_norm": 0.03286667913198471,
      "kl": 3726.0936788400013,
      "learning_rate": 1.76e-05,
      "loss": 3.7261,
      "num_tokens": 655565.0,
      "reward": 0.5829650402069092,
      "reward_std": 0.031194474175572397,
      "rewards/reward_function/mean": 0.5829649925231933,
      "rewards/reward_function/std": 0.09724260903894902,
      "step": 45
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 180.4,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 180.4,
      "completions/max_terminated_length": 180.4,
      "completions/mean_length": 157.5500030517578,
      "completions/mean_terminated_length": 157.5500030517578,
      "completions/min_length": 141.2,
      "completions/min_terminated_length": 141.2,
      "epoch": 0.7575757575757576,
      "frac_reward_zero_std": 0.26666667461395266,
      "grad_norm": 0.45231395959854126,
      "kl": 0.24270717451969784,
      "learning_rate": 1.9600000000000002e-05,
      "loss": 0.0002,
      "num_tokens": 727754.0,
      "reward": 0.6422233581542969,
      "reward_std": 0.015453202556818724,
      "rewards/reward_function/mean": 0.642223310470581,
      "rewards/reward_function/std": 0.08873879238963127,
      "step": 50
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 174.8,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 174.8,
      "completions/max_terminated_length": 174.8,
      "completions/mean_length": 153.8166717529297,
      "completions/mean_terminated_length": 153.8166717529297,
      "completions/min_length": 138.2,
      "completions/min_terminated_length": 138.2,
      "epoch": 0.8333333333333334,
      "frac_reward_zero_std": 0.20000000596046447,
      "grad_norm": 0.3569779694080353,
      "kl": 0.25451052089532217,
      "learning_rate": 1.9822222222222226e-05,
      "loss": 0.0003,
      "num_tokens": 800059.0,
      "reward": 0.6014716982841491,
      "reward_std": 0.015854166075587272,
      "rewards/reward_function/mean": 0.6014716625213623,
      "rewards/reward_function/std": 0.10040064603090286,
      "step": 55
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 173.2,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 173.2,
      "completions/max_terminated_length": 173.2,
      "completions/mean_length": 153.4666717529297,
      "completions/mean_terminated_length": 153.4666717529297,
      "completions/min_length": 135.6,
      "completions/min_terminated_length": 135.6,
      "epoch": 0.9090909090909091,
      "frac_reward_zero_std": 0.20000000596046447,
      "grad_norm": 0.4230985939502716,
      "kl": 0.10768474241097768,
      "learning_rate": 1.9600000000000002e-05,
      "loss": 0.0001,
      "num_tokens": 872639.0,
      "reward": 0.6015583634376526,
      "reward_std": 0.020151399821043015,
      "rewards/reward_function/mean": 0.6015583276748657,
      "rewards/reward_function/std": 0.1292761668562889,
      "step": 60
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 164.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 164.0,
      "completions/max_terminated_length": 164.0,
      "completions/mean_length": 148.58334045410157,
      "completions/mean_terminated_length": 148.58334045410157,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.9848484848484849,
      "frac_reward_zero_std": 0.26666667461395266,
      "grad_norm": 0.25373604893684387,
      "kl": 0.1025156612197558,
      "learning_rate": 1.9377777777777778e-05,
      "loss": 0.0001,
      "num_tokens": 944522.0,
      "reward": 0.6054783701896668,
      "reward_std": 0.014289665129035711,
      "rewards/reward_function/mean": 0.6054783225059509,
      "rewards/reward_function/std": 0.1043807715177536,
      "step": 65
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 166.8,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 166.8,
      "completions/max_terminated_length": 166.8,
      "completions/mean_length": 148.18333740234374,
      "completions/mean_terminated_length": 148.18333740234374,
      "completions/min_length": 129.8,
      "completions/min_terminated_length": 129.8,
      "epoch": 1.0606060606060606,
      "frac_reward_zero_std": 0.20000000596046447,
      "grad_norm": 0.40739330649375916,
      "kl": 0.13809017241001129,
      "learning_rate": 1.9155555555555558e-05,
      "loss": 0.0001,
      "num_tokens": 1016593.0,
      "reward": 0.625361704826355,
      "reward_std": 0.020681749982759356,
      "rewards/reward_function/mean": 0.6253616333007812,
      "rewards/reward_function/std": 0.09655277617275715,
      "step": 70
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 161.6,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 161.6,
      "completions/max_terminated_length": 161.6,
      "completions/mean_length": 143.83333740234374,
      "completions/mean_terminated_length": 143.83333740234374,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 1.1363636363636362,
      "frac_reward_zero_std": 0.33333333730697634,
      "grad_norm": 0.012142821215093136,
      "kl": 0.1849093531568845,
      "learning_rate": 1.8933333333333334e-05,
      "loss": 0.0002,
      "num_tokens": 1087987.0,
      "reward": 0.6634533524513244,
      "reward_std": 0.01583307459950447,
      "rewards/reward_function/mean": 0.6634533286094666,
      "rewards/reward_function/std": 0.12549073845148087,
      "step": 75
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 167.4,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 167.4,
      "completions/max_terminated_length": 167.4,
      "completions/mean_length": 149.76667175292968,
      "completions/mean_terminated_length": 149.76667175292968,
      "completions/min_length": 135.4,
      "completions/min_terminated_length": 135.4,
      "epoch": 1.2121212121212122,
      "frac_reward_zero_std": 0.26666667461395266,
      "grad_norm": 0.2965545952320099,
      "kl": 0.14318528175354003,
      "learning_rate": 1.8711111111111113e-05,
      "loss": 0.0001,
      "num_tokens": 1160193.0,
      "reward": 0.5806800246238708,
      "reward_std": 0.04468099344521761,
      "rewards/reward_function/mean": 0.5806800127029419,
      "rewards/reward_function/std": 0.11235176101326942,
      "step": 80
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 168.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 168.0,
      "completions/max_terminated_length": 168.0,
      "completions/mean_length": 148.08334045410157,
      "completions/mean_terminated_length": 148.08334045410157,
      "completions/min_length": 134.8,
      "completions/min_terminated_length": 134.8,
      "epoch": 1.2878787878787878,
      "frac_reward_zero_std": 0.13333333730697633,
      "grad_norm": 0.3983455300331116,
      "kl": 0.16668486495812734,
      "learning_rate": 1.848888888888889e-05,
      "loss": 0.0002,
      "num_tokens": 1232170.0,
      "reward": 0.5667450308799744,
      "reward_std": 0.02706171413883567,
      "rewards/reward_function/mean": 0.5667450308799744,
      "rewards/reward_function/std": 0.1369288980960846,
      "step": 85
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 159.6,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 159.6,
      "completions/max_terminated_length": 159.6,
      "completions/mean_length": 143.23333740234375,
      "completions/mean_terminated_length": 143.23333740234375,
      "completions/min_length": 127.2,
      "completions/min_terminated_length": 127.2,
      "epoch": 1.3636363636363638,
      "frac_reward_zero_std": 0.20000000596046447,
      "grad_norm": 0.3573758006095886,
      "kl": 0.16684276660283406,
      "learning_rate": 1.826666666666667e-05,
      "loss": 0.0002,
      "num_tokens": 1303880.0,
      "reward": 0.6362017035484314,
      "reward_std": 0.007156953122466803,
      "rewards/reward_function/mean": 0.6362016916275024,
      "rewards/reward_function/std": 0.07174314968287945,
      "step": 90
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 156.2,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 156.2,
      "completions/max_terminated_length": 156.2,
      "completions/mean_length": 142.61667175292968,
      "completions/mean_terminated_length": 142.61667175292968,
      "completions/min_length": 132.4,
      "completions/min_terminated_length": 132.4,
      "epoch": 1.4393939393939394,
      "frac_reward_zero_std": 0.40000001192092893,
      "grad_norm": 0.28054413199424744,
      "kl": 0.16249675651391346,
      "learning_rate": 1.8044444444444445e-05,
      "loss": 0.0002,
      "num_tokens": 1375937.0,
      "reward": 0.5929333567619324,
      "reward_std": 0.010427127918228507,
      "rewards/reward_function/mean": 0.5929333448410035,
      "rewards/reward_function/std": 0.0421123169362545,
      "step": 95
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 153.2,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 153.2,
      "completions/max_terminated_length": 153.2,
      "completions/mean_length": 141.6166748046875,
      "completions/mean_terminated_length": 141.6166748046875,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 1.5151515151515151,
      "frac_reward_zero_std": 0.40000001192092893,
      "grad_norm": 0.35829174518585205,
      "kl": 0.1883176525433858,
      "learning_rate": 1.782222222222222e-05,
      "loss": 0.0002,
      "num_tokens": 1448046.0,
      "reward": 0.5822266817092896,
      "reward_std": 0.0035873036831617355,
      "rewards/reward_function/mean": 0.5822266697883606,
      "rewards/reward_function/std": 0.045498589798808095,
      "step": 100
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 150.8,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 150.8,
      "completions/max_terminated_length": 150.8,
      "completions/mean_length": 138.93334045410157,
      "completions/mean_terminated_length": 138.93334045410157,
      "completions/min_length": 124.2,
      "completions/min_terminated_length": 124.2,
      "epoch": 1.5909090909090908,
      "frac_reward_zero_std": 0.6000000178813935,
      "grad_norm": 0.24431772530078888,
      "kl": 0.19910954435666403,
      "learning_rate": 1.76e-05,
      "loss": 0.0002,
      "num_tokens": 1520398.0,
      "reward": 0.6048667073249817,
      "reward_std": 0.0037458556122146546,
      "rewards/reward_function/mean": 0.6048666715621949,
      "rewards/reward_function/std": 0.05969845354557037,
      "step": 105
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 150.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 150.0,
      "completions/max_terminated_length": 150.0,
      "completions/mean_length": 138.0500061035156,
      "completions/mean_terminated_length": 138.0500061035156,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 1.6666666666666665,
      "frac_reward_zero_std": 0.4666666746139526,
      "grad_norm": 0.3577372431755066,
      "kl": 0.20313620964686077,
      "learning_rate": 1.737777777777778e-05,
      "loss": 0.0002,
      "num_tokens": 1591865.0,
      "reward": 0.6223516702651978,
      "reward_std": 0.005239984532818198,
      "rewards/reward_function/mean": 0.6223516583442688,
      "rewards/reward_function/std": 0.08074029944837094,
      "step": 110
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 147.6,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 147.6,
      "completions/max_terminated_length": 147.6,
      "completions/mean_length": 135.33334045410157,
      "completions/mean_terminated_length": 135.33334045410157,
      "completions/min_length": 126.8,
      "completions/min_terminated_length": 126.8,
      "epoch": 1.7424242424242424,
      "frac_reward_zero_std": 0.3333333432674408,
      "grad_norm": 0.4057120680809021,
      "kl": 0.23306088149547577,
      "learning_rate": 1.7155555555555557e-05,
      "loss": 0.0002,
      "num_tokens": 1663321.0,
      "reward": 0.6518083691596985,
      "reward_std": 0.004030292294919491,
      "rewards/reward_function/mean": 0.6518083572387695,
      "rewards/reward_function/std": 0.07627851068973542,
      "step": 115
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 148.2,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 148.2,
      "completions/max_terminated_length": 148.2,
      "completions/mean_length": 137.23334045410155,
      "completions/mean_terminated_length": 137.23334045410155,
      "completions/min_length": 126.8,
      "completions/min_terminated_length": 126.8,
      "epoch": 1.8181818181818183,
      "frac_reward_zero_std": 0.40000001192092893,
      "grad_norm": 0.33752211928367615,
      "kl": 0.22376729945341747,
      "learning_rate": 1.6933333333333336e-05,
      "loss": 0.0002,
      "num_tokens": 1735547.0,
      "reward": 0.5559616804122924,
      "reward_std": 0.004689847212284803,
      "rewards/reward_function/mean": 0.55596165060997,
      "rewards/reward_function/std": 0.07087234668433666,
      "step": 120
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 144.6,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 144.6,
      "completions/max_terminated_length": 144.6,
      "completions/mean_length": 134.8166717529297,
      "completions/mean_terminated_length": 134.8166717529297,
      "completions/min_length": 124.6,
      "completions/min_terminated_length": 124.6,
      "epoch": 1.893939393939394,
      "frac_reward_zero_std": 0.26666667461395266,
      "grad_norm": 0.383306622505188,
      "kl": 0.21860195795694987,
      "learning_rate": 1.6711111111111112e-05,
      "loss": 0.0002,
      "num_tokens": 1806636.0,
      "reward": 0.619973337650299,
      "reward_std": 0.007127840328030289,
      "rewards/reward_function/mean": 0.6199733138084411,
      "rewards/reward_function/std": 0.1044730719178915,
      "step": 125
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 149.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 149.0,
      "completions/max_terminated_length": 149.0,
      "completions/mean_length": 138.85000305175782,
      "completions/mean_terminated_length": 138.85000305175782,
      "completions/min_length": 129.8,
      "completions/min_terminated_length": 129.8,
      "epoch": 1.9696969696969697,
      "frac_reward_zero_std": 0.600000011920929,
      "grad_norm": 0.3041795790195465,
      "kl": 0.22460319399833678,
      "learning_rate": 1.648888888888889e-05,
      "loss": 0.0002,
      "num_tokens": 1878715.0,
      "reward": 0.600421690940857,
      "reward_std": 0.003138695494271815,
      "rewards/reward_function/mean": 0.6004216790199279,
      "rewards/reward_function/std": 0.07153937965631485,
      "step": 130
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 149.4,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 149.4,
      "completions/max_terminated_length": 149.4,
      "completions/mean_length": 138.73333740234375,
      "completions/mean_terminated_length": 138.73333740234375,
      "completions/min_length": 129.6,
      "completions/min_terminated_length": 129.6,
      "epoch": 2.0454545454545454,
      "frac_reward_zero_std": 0.06666666865348816,
      "grad_norm": 0.4632037281990051,
      "kl": 0.2490247219800949,
      "learning_rate": 1.6266666666666668e-05,
      "loss": 0.0003,
      "num_tokens": 1950283.0,
      "reward": 0.6769016981124878,
      "reward_std": 0.004545123921707273,
      "rewards/reward_function/mean": 0.6769016504287719,
      "rewards/reward_function/std": 0.10631415694952011,
      "step": 135
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 150.4,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 150.4,
      "completions/max_terminated_length": 150.4,
      "completions/mean_length": 141.00000610351563,
      "completions/mean_terminated_length": 141.00000610351563,
      "completions/min_length": 133.4,
      "completions/min_terminated_length": 133.4,
      "epoch": 2.121212121212121,
      "frac_reward_zero_std": 0.4666666805744171,
      "grad_norm": 0.3432351350784302,
      "kl": 0.2777308980623881,
      "learning_rate": 1.6044444444444444e-05,
      "loss": 0.0003,
      "num_tokens": 2022539.0,
      "reward": 0.5752000212669373,
      "reward_std": 0.003263407130725682,
      "rewards/reward_function/mean": 0.5751999974250793,
      "rewards/reward_function/std": 0.04959992915391922,
      "step": 140
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 159.6,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 159.6,
      "completions/max_terminated_length": 159.6,
      "completions/mean_length": 142.4166748046875,
      "completions/mean_terminated_length": 142.4166748046875,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 2.196969696969697,
      "frac_reward_zero_std": 0.40000001192092893,
      "grad_norm": 0.2584984600543976,
      "kl": 0.28019193609555565,
      "learning_rate": 1.5822222222222224e-05,
      "loss": 0.0003,
      "num_tokens": 2094328.0,
      "reward": 0.6064266800880432,
      "reward_std": 0.005170531757175923,
      "rewards/reward_function/mean": 0.6064266920089721,
      "rewards/reward_function/std": 0.06116051897406578,
      "step": 145
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 151.8,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 151.8,
      "completions/max_terminated_length": 151.8,
      "completions/mean_length": 140.68333740234374,
      "completions/mean_terminated_length": 140.68333740234374,
      "completions/min_length": 130.4,
      "completions/min_terminated_length": 130.4,
      "epoch": 2.2727272727272725,
      "frac_reward_zero_std": 0.4666666805744171,
      "grad_norm": 0.5067008137702942,
      "kl": 0.2740016082922618,
      "learning_rate": 1.5600000000000003e-05,
      "loss": 0.0003,
      "num_tokens": 2166033.0,
      "reward": 0.609345018863678,
      "reward_std": 0.002939810324460268,
      "rewards/reward_function/mean": 0.6093450069427491,
      "rewards/reward_function/std": 0.07519036456942559,
      "step": 150
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 156.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 156.0,
      "completions/max_terminated_length": 156.0,
      "completions/mean_length": 141.85000305175782,
      "completions/mean_terminated_length": 141.85000305175782,
      "completions/min_length": 131.4,
      "completions/min_terminated_length": 131.4,
      "epoch": 2.3484848484848486,
      "frac_reward_zero_std": 0.4666666746139526,
      "grad_norm": 0.0041471216827631,
      "kl": 0.30289856195449827,
      "learning_rate": 1.537777777777778e-05,
      "loss": 0.0003,
      "num_tokens": 2238128.0,
      "reward": 0.625088381767273,
      "reward_std": 0.003446168079972267,
      "rewards/reward_function/mean": 0.625088346004486,
      "rewards/reward_function/std": 0.0934045672416687,
      "step": 155
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 154.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 154.0,
      "completions/max_terminated_length": 154.0,
      "completions/mean_length": 143.03333740234376,
      "completions/mean_terminated_length": 143.03333740234376,
      "completions/min_length": 132.6,
      "completions/min_terminated_length": 132.6,
      "epoch": 2.4242424242424243,
      "frac_reward_zero_std": 0.4666666805744171,
      "grad_norm": 0.4292708933353424,
      "kl": 0.32506192127863565,
      "learning_rate": 1.5155555555555557e-05,
      "loss": 0.0003,
      "num_tokens": 2310254.0,
      "reward": 0.6129150271415711,
      "reward_std": 0.001613644661847502,
      "rewards/reward_function/mean": 0.6129150032997132,
      "rewards/reward_function/std": 0.04124578349292278,
      "step": 160
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 150.6,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 150.6,
      "completions/max_terminated_length": 150.6,
      "completions/mean_length": 140.08333740234374,
      "completions/mean_terminated_length": 140.08333740234374,
      "completions/min_length": 130.2,
      "completions/min_terminated_length": 130.2,
      "epoch": 2.5,
      "frac_reward_zero_std": 0.600000011920929,
      "grad_norm": 0.22632652521133423,
      "kl": 0.3719263752301534,
      "learning_rate": 1.4933333333333335e-05,
      "loss": 0.0004,
      "num_tokens": 2382007.0,
      "reward": 0.6153733611106873,
      "reward_std": 0.0011415929766371846,
      "rewards/reward_function/mean": 0.6153733372688294,
      "rewards/reward_function/std": 0.06577699668705464,
      "step": 165
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 153.6,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 153.6,
      "completions/max_terminated_length": 153.6,
      "completions/mean_length": 142.00000610351563,
      "completions/mean_terminated_length": 142.00000610351563,
      "completions/min_length": 132.2,
      "completions/min_terminated_length": 132.2,
      "epoch": 2.5757575757575757,
      "frac_reward_zero_std": 0.40000001192092893,
      "grad_norm": 0.24591365456581116,
      "kl": 0.3840523103872935,
      "learning_rate": 1.4711111111111111e-05,
      "loss": 0.0004,
      "num_tokens": 2453727.0,
      "reward": 0.6065983414649964,
      "reward_std": 0.0017149411884020082,
      "rewards/reward_function/mean": 0.6065983414649964,
      "rewards/reward_function/std": 0.07528561279177666,
      "step": 170
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 153.2,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 153.2,
      "completions/max_terminated_length": 153.2,
      "completions/mean_length": 138.4166717529297,
      "completions/mean_terminated_length": 138.4166717529297,
      "completions/min_length": 131.2,
      "completions/min_terminated_length": 131.2,
      "epoch": 2.6515151515151514,
      "frac_reward_zero_std": 0.6666666746139527,
      "grad_norm": 0.2127596139907837,
      "kl": 0.39285261034965513,
      "learning_rate": 1.448888888888889e-05,
      "loss": 0.0004,
      "num_tokens": 2525720.0,
      "reward": 0.5957500219345093,
      "reward_std": 0.000984994637838099,
      "rewards/reward_function/mean": 0.5957500100135803,
      "rewards/reward_function/std": 0.05670791454613209,
      "step": 175
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 150.4,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 150.4,
      "completions/max_terminated_length": 150.4,
      "completions/mean_length": 138.28334045410156,
      "completions/mean_terminated_length": 138.28334045410156,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 2.7272727272727275,
      "frac_reward_zero_std": 0.3333333432674408,
      "grad_norm": 0.5221720933914185,
      "kl": 0.42230349183082583,
      "learning_rate": 1.4266666666666668e-05,
      "loss": 0.0004,
      "num_tokens": 2597141.0,
      "reward": 0.6146900177001953,
      "reward_std": 0.002093914127908647,
      "rewards/reward_function/mean": 0.6146899938583374,
      "rewards/reward_function/std": 0.09454492926597595,
      "step": 180
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 144.6,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 144.6,
      "completions/max_terminated_length": 144.6,
      "completions/mean_length": 136.4,
      "completions/mean_terminated_length": 136.4,
      "completions/min_length": 128.8,
      "completions/min_terminated_length": 128.8,
      "epoch": 2.8030303030303028,
      "frac_reward_zero_std": 0.6666666746139527,
      "grad_norm": 0.0012158072786405683,
      "kl": 0.4219982922077179,
      "learning_rate": 1.4044444444444445e-05,
      "loss": 0.0004,
      "num_tokens": 2668885.0,
      "reward": 0.6260683536529541,
      "reward_std": 0.001636023900937289,
      "rewards/reward_function/mean": 0.6260683178901673,
      "rewards/reward_function/std": 0.0843635703320615,
      "step": 185
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 145.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 145.0,
      "completions/max_terminated_length": 145.0,
      "completions/mean_length": 134.48334045410155,
      "completions/mean_terminated_length": 134.48334045410155,
      "completions/min_length": 128.8,
      "completions/min_terminated_length": 128.8,
      "epoch": 2.878787878787879,
      "frac_reward_zero_std": 0.4666666746139526,
      "grad_norm": 0.5890435576438904,
      "kl": 0.4845229466756185,
      "learning_rate": 1.3822222222222224e-05,
      "loss": 0.0005,
      "num_tokens": 2739846.0,
      "reward": 0.647468364238739,
      "reward_std": 0.004450538125820458,
      "rewards/reward_function/mean": 0.6474683403968811,
      "rewards/reward_function/std": 0.0956076867878437,
      "step": 190
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 142.8,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 142.8,
      "completions/max_terminated_length": 142.8,
      "completions/mean_length": 136.56666870117186,
      "completions/mean_terminated_length": 136.56666870117186,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 2.9545454545454546,
      "frac_reward_zero_std": 0.5333333492279053,
      "grad_norm": 0.5040601491928101,
      "kl": 0.4712466796239217,
      "learning_rate": 1.3600000000000002e-05,
      "loss": 0.0005,
      "num_tokens": 2811368.0,
      "reward": 0.5991516828536987,
      "reward_std": 0.0033168070833198724,
      "rewards/reward_function/mean": 0.5991516828536987,
      "rewards/reward_function/std": 0.11686233524233103,
      "step": 195
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completion_length": 149.6,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 149.6,
      "completions/max_terminated_length": 149.6,
      "completions/mean_length": 136.61666870117188,
      "completions/mean_terminated_length": 136.61666870117188,
      "completions/min_length": 128.6,
      "completions/min_terminated_length": 128.6,
      "epoch": 3.0303030303030303,
      "frac_reward_zero_std": 0.06666666865348816,
      "grad_norm": 0.4343958795070648,
      "kl": 4.539325646559397,
      "learning_rate": 1.3377777777777778e-05,
      "loss": 0.0046,
      "num_tokens": 2882637.0,
      "reward": 0.6381200432777405,
      "reward_std": 0.002671318035572767,
      "rewards/reward_function/mean": 0.6381200075149536,
      "rewards/reward_function/std": 0.06200197748839855,
      "step": 200
    }
  ],
  "logging_steps": 5,
  "max_steps": 500,
  "num_input_tokens_seen": 2882637,
  "num_train_epochs": 8,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}