PS_only_answer_Qwen3-4B-Bas…/trainer_state.json

{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 6.0,
  "eval_steps": 500,
  "global_step": 552,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 0.38946533203125,
      "epoch": 0.010869565217391304,
      "grad_norm": 315.6698714695191,
      "learning_rate": 0.0,
      "loss": 8.9828,
      "mean_token_accuracy": 0.0,
      "num_tokens": 777725.0,
      "step": 1
    },
    {
      "entropy": 0.3969879150390625,
      "epoch": 0.021739130434782608,
      "grad_norm": 466.74895901719714,
      "learning_rate": 3.5714285714285716e-07,
      "loss": 8.9856,
      "mean_token_accuracy": 0.0,
      "num_tokens": 1534087.0,
      "step": 2
    },
    {
      "entropy": 0.414215087890625,
      "epoch": 0.03260869565217391,
      "grad_norm": 313.0590476955082,
      "learning_rate": 7.142857142857143e-07,
      "loss": 8.9585,
      "mean_token_accuracy": 0.0,
      "num_tokens": 2251605.0,
      "step": 3
    },
    {
      "entropy": 0.4156036376953125,
      "epoch": 0.043478260869565216,
      "grad_norm": 322.1957149716581,
      "learning_rate": 1.0714285714285714e-06,
      "loss": 8.82,
      "mean_token_accuracy": 0.0026041667442768812,
      "num_tokens": 2984442.0,
      "step": 4
    },
    {
      "entropy": 0.4057464599609375,
      "epoch": 0.05434782608695652,
      "grad_norm": 333.32420078344524,
      "learning_rate": 1.4285714285714286e-06,
      "loss": 8.3726,
      "mean_token_accuracy": 0.0,
      "num_tokens": 3729226.0,
      "step": 5
    },
    {
      "entropy": 0.413665771484375,
      "epoch": 0.06521739130434782,
      "grad_norm": 344.85532324021267,
      "learning_rate": 1.7857142857142859e-06,
      "loss": 8.149,
      "mean_token_accuracy": 0.0,
      "num_tokens": 4461570.0,
      "step": 6
    },
    {
      "entropy": 0.4109649658203125,
      "epoch": 0.07608695652173914,
      "grad_norm": 302.5022874598738,
      "learning_rate": 2.1428571428571427e-06,
      "loss": 6.3273,
      "mean_token_accuracy": 0.013020833721384406,
      "num_tokens": 5168135.0,
      "step": 7
    },
    {
      "entropy": 0.40997314453125,
      "epoch": 0.08695652173913043,
      "grad_norm": 237.7658495539627,
      "learning_rate": 2.5e-06,
      "loss": 5.6306,
      "mean_token_accuracy": 0.052083334885537624,
      "num_tokens": 5883180.0,
      "step": 8
    },
    {
      "entropy": 0.430908203125,
      "epoch": 0.09782608695652174,
      "grad_norm": 100.46732695715927,
      "learning_rate": 2.8571428571428573e-06,
      "loss": 4.2259,
      "mean_token_accuracy": 0.5000000149011612,
      "num_tokens": 6598581.0,
      "step": 9
    },
    {
      "entropy": 0.4042510986328125,
      "epoch": 0.10869565217391304,
      "grad_norm": 87.44477963421811,
      "learning_rate": 3.2142857142857147e-06,
      "loss": 4.0218,
      "mean_token_accuracy": 0.505208348389715,
      "num_tokens": 7349958.0,
      "step": 10
    },
    {
      "entropy": 0.4014434814453125,
      "epoch": 0.11956521739130435,
      "grad_norm": 59.598832111788084,
      "learning_rate": 3.5714285714285718e-06,
      "loss": 3.397,
      "mean_token_accuracy": 0.47916668094694614,
      "num_tokens": 8070384.0,
      "step": 11
    },
    {
      "entropy": 0.3985595703125,
      "epoch": 0.13043478260869565,
      "grad_norm": 58.89721891498,
      "learning_rate": 3.928571428571429e-06,
      "loss": 3.3175,
      "mean_token_accuracy": 0.5156250153668225,
      "num_tokens": 8821388.0,
      "step": 12
    },
    {
      "entropy": 0.412139892578125,
      "epoch": 0.14130434782608695,
      "grad_norm": 57.763698893093924,
      "learning_rate": 4.2857142857142855e-06,
      "loss": 3.2288,
      "mean_token_accuracy": 0.4973958481568843,
      "num_tokens": 9545729.0,
      "step": 13
    },
    {
      "entropy": 0.412322998046875,
      "epoch": 0.15217391304347827,
      "grad_norm": 57.012214863208236,
      "learning_rate": 4.642857142857144e-06,
      "loss": 3.136,
      "mean_token_accuracy": 0.5130208486225456,
      "num_tokens": 10280763.0,
      "step": 14
    },
    {
      "entropy": 0.39215087890625,
      "epoch": 0.16304347826086957,
      "grad_norm": 59.78373888259897,
      "learning_rate": 5e-06,
      "loss": 3.0284,
      "mean_token_accuracy": 0.5000000149011612,
      "num_tokens": 11017097.0,
      "step": 15
    },
    {
      "entropy": 0.4046478271484375,
      "epoch": 0.17391304347826086,
      "grad_norm": 56.35703451720673,
      "learning_rate": 5.357142857142857e-06,
      "loss": 2.9787,
      "mean_token_accuracy": 0.5286458490882069,
      "num_tokens": 11745946.0,
      "step": 16
    },
    {
      "entropy": 0.4138946533203125,
      "epoch": 0.18478260869565216,
      "grad_norm": 57.11569893772183,
      "learning_rate": 5.7142857142857145e-06,
      "loss": 2.9467,
      "mean_token_accuracy": 0.49218751466833055,
      "num_tokens": 12461650.0,
      "step": 17
    },
    {
      "entropy": 0.4058380126953125,
      "epoch": 0.1956521739130435,
      "grad_norm": 55.23185625669379,
      "learning_rate": 6.071428571428571e-06,
      "loss": 2.8953,
      "mean_token_accuracy": 0.5546875165309757,
      "num_tokens": 13175466.0,
      "step": 18
    },
    {
      "entropy": 0.408355712890625,
      "epoch": 0.20652173913043478,
      "grad_norm": 55.50831778840008,
      "learning_rate": 6.4285714285714295e-06,
      "loss": 2.8555,
      "mean_token_accuracy": 0.5442708495538682,
      "num_tokens": 13901333.0,
      "step": 19
    },
    {
      "entropy": 0.4122161865234375,
      "epoch": 0.21739130434782608,
      "grad_norm": 55.637259861428056,
      "learning_rate": 6.785714285714287e-06,
      "loss": 2.8171,
      "mean_token_accuracy": 0.5338541825767606,
      "num_tokens": 14635121.0,
      "step": 20
    },
    {
      "entropy": 0.41473388671875,
      "epoch": 0.22826086956521738,
      "grad_norm": 56.06526118098774,
      "learning_rate": 7.1428571428571436e-06,
      "loss": 2.781,
      "mean_token_accuracy": 0.5208333488553762,
      "num_tokens": 15366289.0,
      "step": 21
    },
    {
      "entropy": 0.39394378662109375,
      "epoch": 0.2391304347826087,
      "grad_norm": 55.83049832859949,
      "learning_rate": 7.500000000000001e-06,
      "loss": 2.7103,
      "mean_token_accuracy": 0.5677083502523601,
      "num_tokens": 16118565.0,
      "step": 22
    },
    {
      "entropy": 0.395904541015625,
      "epoch": 0.25,
      "grad_norm": 56.10857035721592,
      "learning_rate": 7.857142857142858e-06,
      "loss": 2.6853,
      "mean_token_accuracy": 0.5729166837409139,
      "num_tokens": 16831343.0,
      "step": 23
    },
    {
      "entropy": 0.3978729248046875,
      "epoch": 0.2608695652173913,
      "grad_norm": 57.0244499529703,
      "learning_rate": 8.214285714285714e-06,
      "loss": 2.6702,
      "mean_token_accuracy": 0.5442708495538682,
      "num_tokens": 17574773.0,
      "step": 24
    },
    {
      "entropy": 0.409698486328125,
      "epoch": 0.2717391304347826,
      "grad_norm": 57.26813754016509,
      "learning_rate": 8.571428571428571e-06,
      "loss": 2.6229,
      "mean_token_accuracy": 0.5625000167638063,
      "num_tokens": 18282777.0,
      "step": 25
    },
    {
      "entropy": 0.383453369140625,
      "epoch": 0.2826086956521739,
      "grad_norm": 57.29093153416358,
      "learning_rate": 8.92857142857143e-06,
      "loss": 2.586,
      "mean_token_accuracy": 0.5781250172294676,
      "num_tokens": 19040487.0,
      "step": 26
    },
    {
      "entropy": 0.38873291015625,
      "epoch": 0.29347826086956524,
      "grad_norm": 57.84075039887169,
      "learning_rate": 9.285714285714288e-06,
      "loss": 2.5229,
      "mean_token_accuracy": 0.5937500176951289,
      "num_tokens": 19783607.0,
      "step": 27
    },
    {
      "entropy": 0.38079833984375,
      "epoch": 0.30434782608695654,
      "grad_norm": 57.38028820670192,
      "learning_rate": 9.642857142857144e-06,
      "loss": 2.4787,
      "mean_token_accuracy": 0.5807291839737445,
      "num_tokens": 20541403.0,
      "step": 28
    },
    {
      "entropy": 0.3932647705078125,
      "epoch": 0.31521739130434784,
      "grad_norm": 59.611680437411394,
      "learning_rate": 1e-05,
      "loss": 2.4647,
      "mean_token_accuracy": 0.5781250172294676,
      "num_tokens": 21252538.0,
      "step": 29
    },
    {
      "entropy": 0.3833160400390625,
      "epoch": 0.32608695652173914,
      "grad_norm": 58.36981131744803,
      "learning_rate": 9.999910138041584e-06,
      "loss": 2.435,
      "mean_token_accuracy": 0.570312516996637,
      "num_tokens": 21991236.0,
      "step": 30
    },
    {
      "entropy": 0.38861083984375,
      "epoch": 0.33695652173913043,
      "grad_norm": 57.54373458350173,
      "learning_rate": 9.999640555396404e-06,
      "loss": 2.3526,
      "mean_token_accuracy": 0.5963541844394058,
      "num_tokens": 22694548.0,
      "step": 31
    },
    {
      "entropy": 0.3880615234375,
      "epoch": 0.34782608695652173,
      "grad_norm": 57.63303221653064,
      "learning_rate": 9.99919126175455e-06,
      "loss": 2.3313,
      "mean_token_accuracy": 0.593750016996637,
      "num_tokens": 23430487.0,
      "step": 32
    },
    {
      "entropy": 0.3811492919921875,
      "epoch": 0.358695652173913,
      "grad_norm": 57.72390770011731,
      "learning_rate": 9.998562273265786e-06,
      "loss": 2.2918,
      "mean_token_accuracy": 0.8776041734963655,
      "num_tokens": 24181244.0,
      "step": 33
    },
    {
      "entropy": 0.3953704833984375,
      "epoch": 0.3695652173913043,
      "grad_norm": 58.029424681700796,
      "learning_rate": 9.997753612538963e-06,
      "loss": 2.2338,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 24915943.0,
      "step": 34
    },
    {
      "entropy": 0.3798675537109375,
      "epoch": 0.3804347826086957,
      "grad_norm": 59.34218664895998,
      "learning_rate": 9.996765308641218e-06,
      "loss": 2.2015,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 25663630.0,
      "step": 35
    },
    {
      "entropy": 0.379669189453125,
      "epoch": 0.391304347826087,
      "grad_norm": 58.949780480307,
      "learning_rate": 9.995597397096923e-06,
      "loss": 2.141,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 26407773.0,
      "step": 36
    },
    {
      "entropy": 0.3817138671875,
      "epoch": 0.40217391304347827,
      "grad_norm": 58.84273222043512,
      "learning_rate": 9.994249919886402e-06,
      "loss": 2.0965,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 27164106.0,
      "step": 37
    },
    {
      "entropy": 0.3880615234375,
      "epoch": 0.41304347826086957,
      "grad_norm": 60.67675154443456,
      "learning_rate": 9.992722925444434e-06,
      "loss": 2.0978,
      "mean_token_accuracy": 0.8854166734963655,
      "num_tokens": 27897283.0,
      "step": 38
    },
    {
      "entropy": 0.3957977294921875,
      "epoch": 0.42391304347826086,
      "grad_norm": 59.51897798155435,
      "learning_rate": 9.9910164686585e-06,
      "loss": 2.0161,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 28610979.0,
      "step": 39
    },
    {
      "entropy": 0.381622314453125,
      "epoch": 0.43478260869565216,
      "grad_norm": 60.899128801285,
      "learning_rate": 9.989130610866822e-06,
      "loss": 2.0094,
      "mean_token_accuracy": 0.8880208400078118,
      "num_tokens": 29356474.0,
      "step": 40
    },
    {
      "entropy": 0.3835906982421875,
      "epoch": 0.44565217391304346,
      "grad_norm": 58.3261234967332,
      "learning_rate": 9.98706541985615e-06,
      "loss": 1.899,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 30082564.0,
      "step": 41
    },
    {
      "entropy": 0.3951263427734375,
      "epoch": 0.45652173913043476,
      "grad_norm": 61.12090163314252,
      "learning_rate": 9.984820969859326e-06,
      "loss": 1.9094,
      "mean_token_accuracy": 0.890625006519258,
      "num_tokens": 30818547.0,
      "step": 42
    },
    {
      "entropy": 0.404876708984375,
      "epoch": 0.4673913043478261,
      "grad_norm": 57.185366032597685,
      "learning_rate": 9.98239734155262e-06,
      "loss": 1.8053,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 31545398.0,
      "step": 43
    },
    {
      "entropy": 0.4084930419921875,
      "epoch": 0.4782608695652174,
      "grad_norm": 60.380446837997425,
      "learning_rate": 9.979794622052825e-06,
      "loss": 1.7952,
      "mean_token_accuracy": 0.8932291730307043,
      "num_tokens": 32256062.0,
      "step": 44
    },
    {
      "entropy": 0.38165283203125,
      "epoch": 0.4891304347826087,
      "grad_norm": 57.5457856459078,
      "learning_rate": 9.977012904914133e-06,
      "loss": 1.7393,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 33011274.0,
      "step": 45
    },
    {
      "entropy": 0.385589599609375,
      "epoch": 0.5,
      "grad_norm": 57.35547943074641,
      "learning_rate": 9.97405229012476e-06,
      "loss": 1.6497,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 33764119.0,
      "step": 46
    },
    {
      "entropy": 0.391448974609375,
      "epoch": 0.5108695652173914,
      "grad_norm": 57.305050595872764,
      "learning_rate": 9.970912884103365e-06,
      "loss": 1.6352,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 34492076.0,
      "step": 47
    },
    {
      "entropy": 0.3942413330078125,
      "epoch": 0.5217391304347826,
      "grad_norm": 56.967915464322175,
      "learning_rate": 9.967594799695218e-06,
      "loss": 1.5493,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 35212738.0,
      "step": 48
    },
    {
      "entropy": 0.3892669677734375,
      "epoch": 0.532608695652174,
      "grad_norm": 56.26654613769549,
      "learning_rate": 9.964098156168143e-06,
      "loss": 1.5163,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 35931476.0,
      "step": 49
    },
    {
      "entropy": 0.392578125,
      "epoch": 0.5434782608695652,
      "grad_norm": 56.409419897448565,
      "learning_rate": 9.960423079208235e-06,
      "loss": 1.4614,
      "mean_token_accuracy": 0.8932291730307043,
      "num_tokens": 36660301.0,
      "step": 50
    },
    {
      "entropy": 0.39044189453125,
      "epoch": 0.5543478260869565,
      "grad_norm": 56.26636906901754,
      "learning_rate": 9.956569700915338e-06,
      "loss": 1.4034,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 37392344.0,
      "step": 51
    },
    {
      "entropy": 0.38787841796875,
      "epoch": 0.5652173913043478,
      "grad_norm": 56.78604460119251,
      "learning_rate": 9.9525381597983e-06,
      "loss": 1.3589,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 38121957.0,
      "step": 52
    },
    {
      "entropy": 0.39923095703125,
      "epoch": 0.5760869565217391,
      "grad_norm": 56.52321476676124,
      "learning_rate": 9.948328600769996e-06,
      "loss": 1.3051,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 38823389.0,
      "step": 53
    },
    {
      "entropy": 0.3892364501953125,
      "epoch": 0.5869565217391305,
      "grad_norm": 56.330269891300844,
      "learning_rate": 9.943941175142109e-06,
      "loss": 1.2242,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 39555613.0,
      "step": 54
    },
    {
      "entropy": 0.386505126953125,
      "epoch": 0.5978260869565217,
      "grad_norm": 56.36416999462555,
      "learning_rate": 9.939376040619707e-06,
      "loss": 1.1731,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 40303952.0,
      "step": 55
    },
    {
      "entropy": 0.407684326171875,
      "epoch": 0.6086956521739131,
      "grad_norm": 55.94894102658134,
      "learning_rate": 9.934633361295558e-06,
      "loss": 1.1361,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 41023712.0,
      "step": 56
    },
    {
      "entropy": 0.3871612548828125,
      "epoch": 0.6195652173913043,
      "grad_norm": 56.573891970199746,
      "learning_rate": 9.929713307644245e-06,
      "loss": 1.1162,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 41770575.0,
      "step": 57
    },
    {
      "entropy": 0.396026611328125,
      "epoch": 0.6304347826086957,
      "grad_norm": 54.97627315598426,
      "learning_rate": 9.924616056516027e-06,
      "loss": 1.0296,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 42465243.0,
      "step": 58
    },
    {
      "entropy": 0.395904541015625,
      "epoch": 0.6413043478260869,
      "grad_norm": 54.72653253975622,
      "learning_rate": 9.919341791130496e-06,
      "loss": 0.9831,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 43188215.0,
      "step": 59
    },
    {
      "entropy": 0.3848876953125,
      "epoch": 0.6521739130434783,
      "grad_norm": 53.8854462452121,
      "learning_rate": 9.91389070106998e-06,
      "loss": 0.9347,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 43909467.0,
      "step": 60
    },
    {
      "entropy": 0.3821868896484375,
      "epoch": 0.6630434782608695,
      "grad_norm": 53.12851555885652,
      "learning_rate": 9.908262982272724e-06,
      "loss": 0.8937,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 44654466.0,
      "step": 61
    },
    {
      "entropy": 0.398681640625,
      "epoch": 0.6739130434782609,
      "grad_norm": 52.59277424497321,
      "learning_rate": 9.902458837025865e-06,
      "loss": 0.8465,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 45377893.0,
      "step": 62
    },
    {
      "entropy": 0.3859100341796875,
      "epoch": 0.6847826086956522,
      "grad_norm": 51.17664626773459,
      "learning_rate": 9.896478473958147e-06,
      "loss": 0.8272,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 46095362.0,
      "step": 63
    },
    {
      "entropy": 0.390899658203125,
      "epoch": 0.6956521739130435,
      "grad_norm": 49.87319614412102,
      "learning_rate": 9.890322108032423e-06,
      "loss": 0.7584,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 46843674.0,
      "step": 64
    },
    {
      "entropy": 0.3957366943359375,
      "epoch": 0.7065217391304348,
      "grad_norm": 48.54394210794892,
      "learning_rate": 9.883989960537934e-06,
      "loss": 0.741,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 47576425.0,
      "step": 65
    },
    {
      "entropy": 0.396148681640625,
      "epoch": 0.717391304347826,
      "grad_norm": 47.477875084345044,
      "learning_rate": 9.87748225908235e-06,
      "loss": 0.6742,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 48311238.0,
      "step": 66
    },
    {
      "entropy": 0.4044952392578125,
      "epoch": 0.7282608695652174,
      "grad_norm": 45.121782291893496,
      "learning_rate": 9.870799237583586e-06,
      "loss": 0.6383,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 49031445.0,
      "step": 67
    },
    {
      "entropy": 0.3899993896484375,
      "epoch": 0.7391304347826086,
      "grad_norm": 43.41936838834345,
      "learning_rate": 9.863941136261409e-06,
      "loss": 0.6009,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 49768522.0,
      "step": 68
    },
    {
      "entropy": 0.386993408203125,
      "epoch": 0.75,
      "grad_norm": 41.76307158508762,
      "learning_rate": 9.85690820162878e-06,
      "loss": 0.5411,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 50503488.0,
      "step": 69
    },
    {
      "entropy": 0.3951263427734375,
      "epoch": 0.7608695652173914,
      "grad_norm": 39.375748301800115,
      "learning_rate": 9.849700686483016e-06,
      "loss": 0.5124,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 51237948.0,
      "step": 70
    },
    {
      "entropy": 0.3939361572265625,
      "epoch": 0.7717391304347826,
      "grad_norm": 37.29185471744987,
      "learning_rate": 9.842318849896679e-06,
      "loss": 0.5064,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 51960295.0,
      "step": 71
    },
    {
      "entropy": 0.381256103515625,
      "epoch": 0.782608695652174,
      "grad_norm": 36.68910989235752,
      "learning_rate": 9.834762957208293e-06,
      "loss": 0.4611,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 52706900.0,
      "step": 72
    },
    {
      "entropy": 0.3888092041015625,
      "epoch": 0.7934782608695652,
      "grad_norm": 36.827451890997565,
      "learning_rate": 9.827033280012783e-06,
      "loss": 0.4672,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 53444785.0,
      "step": 73
    },
    {
      "entropy": 0.3989715576171875,
      "epoch": 0.8043478260869565,
      "grad_norm": 30.53605573456876,
      "learning_rate": 9.819130096151718e-06,
      "loss": 0.3966,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 54173094.0,
      "step": 74
    },
    {
      "entropy": 0.3973236083984375,
      "epoch": 0.8152173913043478,
      "grad_norm": 31.028166621271485,
      "learning_rate": 9.811053689703333e-06,
      "loss": 0.4125,
      "mean_token_accuracy": 0.8932291730307043,
      "num_tokens": 54896317.0,
      "step": 75
    },
    {
      "entropy": 0.40203857421875,
      "epoch": 0.8260869565217391,
      "grad_norm": 27.241342036598507,
      "learning_rate": 9.802804350972308e-06,
      "loss": 0.3575,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 55622424.0,
      "step": 76
    },
    {
      "entropy": 0.391693115234375,
      "epoch": 0.8369565217391305,
      "grad_norm": 27.168623157104854,
      "learning_rate": 9.794382376479334e-06,
      "loss": 0.3398,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 56354361.0,
      "step": 77
    },
    {
      "entropy": 0.400909423828125,
      "epoch": 0.8478260869565217,
      "grad_norm": 22.330119084526892,
      "learning_rate": 9.785788068950463e-06,
      "loss": 0.337,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 57090942.0,
      "step": 78
    },
    {
      "entropy": 0.385894775390625,
      "epoch": 0.8586956521739131,
      "grad_norm": 22.025163679940967,
      "learning_rate": 9.777021737306214e-06,
      "loss": 0.3426,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 57854021.0,
      "step": 79
    },
    {
      "entropy": 0.39697265625,
      "epoch": 0.8695652173913043,
      "grad_norm": 19.240363977897534,
      "learning_rate": 9.768083696650481e-06,
      "loss": 0.2965,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 58637570.0,
      "step": 80
    },
    {
      "entropy": 0.4051971435546875,
      "epoch": 0.8804347826086957,
      "grad_norm": 18.60732585033922,
      "learning_rate": 9.7589742682592e-06,
      "loss": 0.2693,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 59352644.0,
      "step": 81
    },
    {
      "entropy": 0.418853759765625,
      "epoch": 0.8913043478260869,
      "grad_norm": 18.189976555197017,
      "learning_rate": 9.749693779568799e-06,
      "loss": 0.286,
      "mean_token_accuracy": 0.8932291730307043,
      "num_tokens": 60067123.0,
      "step": 82
    },
    {
      "entropy": 0.40314483642578125,
      "epoch": 0.9021739130434783,
      "grad_norm": 12.936233705567272,
      "learning_rate": 9.740242564164433e-06,
      "loss": 0.2535,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 60813519.0,
      "step": 83
    },
    {
      "entropy": 0.4290008544921875,
      "epoch": 0.9130434782608695,
      "grad_norm": 13.740643070160306,
      "learning_rate": 9.730620961767996e-06,
      "loss": 0.25,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 61524705.0,
      "step": 84
    },
    {
      "entropy": 0.40667724609375,
      "epoch": 0.9239130434782609,
      "grad_norm": 10.457967118857269,
      "learning_rate": 9.720829318225897e-06,
      "loss": 0.2059,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 62254953.0,
      "step": 85
    },
    {
      "entropy": 0.3998870849609375,
      "epoch": 0.9347826086956522,
      "grad_norm": 11.699661973920545,
      "learning_rate": 9.710867985496644e-06,
      "loss": 0.2262,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 63013496.0,
      "step": 86
    },
    {
      "entropy": 0.421539306640625,
      "epoch": 0.9456521739130435,
      "grad_norm": 8.459672592924544,
      "learning_rate": 9.700737321638185e-06,
      "loss": 0.1911,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 63758605.0,
      "step": 87
    },
    {
      "entropy": 0.4025421142578125,
      "epoch": 0.9565217391304348,
      "grad_norm": 7.533790265384148,
      "learning_rate": 9.690437690795038e-06,
      "loss": 0.1977,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 64520980.0,
      "step": 88
    },
    {
      "entropy": 0.4164886474609375,
      "epoch": 0.967391304347826,
      "grad_norm": 10.629747524471822,
      "learning_rate": 9.6799694631852e-06,
      "loss": 0.2302,
      "mean_token_accuracy": 0.890625006519258,
      "num_tokens": 65225177.0,
      "step": 89
    },
    {
      "entropy": 0.4214324951171875,
      "epoch": 0.9782608695652174,
      "grad_norm": 5.918226663240687,
      "learning_rate": 9.669333015086847e-06,
      "loss": 0.1912,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 65940322.0,
      "step": 90
    },
    {
      "entropy": 0.430511474609375,
      "epoch": 0.9891304347826086,
      "grad_norm": 8.550205573657701,
      "learning_rate": 9.658528728824799e-06,
      "loss": 0.1931,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 66645719.0,
      "step": 91
    },
    {
      "entropy": 0.3943328857421875,
      "epoch": 1.0,
      "grad_norm": 6.795150373519342,
      "learning_rate": 9.647556992756789e-06,
      "loss": 0.1997,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 67397799.0,
      "step": 92
    },
    {
      "entropy": 0.4061431884765625,
      "epoch": 1.0108695652173914,
      "grad_norm": 4.786553051671836,
      "learning_rate": 9.63641820125949e-06,
      "loss": 0.2051,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 68135704.0,
      "step": 93
    },
    {
      "entropy": 0.4077301025390625,
      "epoch": 1.0217391304347827,
      "grad_norm": 3.9582340756284107,
      "learning_rate": 9.62511275471435e-06,
      "loss": 0.1948,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 68868367.0,
      "step": 94
    },
    {
      "entropy": 0.4209136962890625,
      "epoch": 1.0326086956521738,
      "grad_norm": 10.272988472951816,
      "learning_rate": 9.613641059493197e-06,
      "loss": 0.2093,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 69606957.0,
      "step": 95
    },
    {
      "entropy": 0.4191741943359375,
      "epoch": 1.0434782608695652,
      "grad_norm": 3.803555525517053,
      "learning_rate": 9.602003527943629e-06,
      "loss": 0.1902,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 70355586.0,
      "step": 96
    },
    {
      "entropy": 0.4346466064453125,
      "epoch": 1.0543478260869565,
      "grad_norm": 13.328085221317107,
      "learning_rate": 9.590200578374198e-06,
      "loss": 0.235,
      "mean_token_accuracy": 0.8776041739620268,
      "num_tokens": 71080387.0,
      "step": 97
    },
    {
      "entropy": 0.4131622314453125,
      "epoch": 1.065217391304348,
      "grad_norm": 11.993597537264822,
      "learning_rate": 9.578232635039368e-06,
      "loss": 0.215,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 71823619.0,
      "step": 98
    },
    {
      "entropy": 0.4319610595703125,
      "epoch": 1.0760869565217392,
      "grad_norm": 2.4294235064003185,
      "learning_rate": 9.56610012812427e-06,
      "loss": 0.1792,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 72527331.0,
      "step": 99
    },
    {
      "entropy": 0.4180908203125,
      "epoch": 1.0869565217391304,
      "grad_norm": 12.388931927444336,
      "learning_rate": 9.553803493729237e-06,
      "loss": 0.1939,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 73256015.0,
      "step": 100
    },
    {
      "entropy": 0.426300048828125,
      "epoch": 1.0978260869565217,
      "grad_norm": 10.344054439615093,
      "learning_rate": 9.541343173854128e-06,
      "loss": 0.2141,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 73992128.0,
      "step": 101
    },
    {
      "entropy": 0.4560546875,
      "epoch": 1.108695652173913,
      "grad_norm": 2.5440911915385156,
      "learning_rate": 9.528719616382443e-06,
      "loss": 0.1751,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 74725894.0,
      "step": 102
    },
    {
      "entropy": 0.433990478515625,
      "epoch": 1.1195652173913044,
      "grad_norm": 3.110097576682396,
      "learning_rate": 9.515933275065218e-06,
      "loss": 0.1919,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 75444431.0,
      "step": 103
    },
    {
      "entropy": 0.417694091796875,
      "epoch": 1.1304347826086956,
      "grad_norm": 1.9443494911568453,
      "learning_rate": 9.502984609504724e-06,
      "loss": 0.1946,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 76194859.0,
      "step": 104
    },
    {
      "entropy": 0.4375457763671875,
      "epoch": 1.141304347826087,
      "grad_norm": 2.124859611425298,
      "learning_rate": 9.48987408513794e-06,
      "loss": 0.1743,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 76900186.0,
      "step": 105
    },
    {
      "entropy": 0.406158447265625,
      "epoch": 1.1521739130434783,
      "grad_norm": 5.649919616642402,
      "learning_rate": 9.476602173219822e-06,
      "loss": 0.1656,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 77644340.0,
      "step": 106
    },
    {
      "entropy": 0.417022705078125,
      "epoch": 1.1630434782608696,
      "grad_norm": 6.323018729735551,
      "learning_rate": 9.463169350806369e-06,
      "loss": 0.1641,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 78364062.0,
      "step": 107
    },
    {
      "entropy": 0.40484619140625,
      "epoch": 1.1739130434782608,
      "grad_norm": 8.835609055101898,
      "learning_rate": 9.449576100737474e-06,
      "loss": 0.1893,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 79109980.0,
      "step": 108
    },
    {
      "entropy": 0.4028472900390625,
      "epoch": 1.184782608695652,
      "grad_norm": 7.37350127233269,
      "learning_rate": 9.435822911619564e-06,
      "loss": 0.1869,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 79841399.0,
      "step": 109
    },
    {
      "entropy": 0.407989501953125,
      "epoch": 1.1956521739130435,
      "grad_norm": 2.6709691571161125,
      "learning_rate": 9.421910277808044e-06,
      "loss": 0.1558,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 80572496.0,
      "step": 110
    },
    {
      "entropy": 0.40106201171875,
      "epoch": 1.2065217391304348,
      "grad_norm": 3.3759278717507133,
      "learning_rate": 9.407838699389525e-06,
      "loss": 0.1568,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 81292793.0,
      "step": 111
    },
    {
      "entropy": 0.40478515625,
      "epoch": 1.2173913043478262,
      "grad_norm": 3.5279560378177433,
      "learning_rate": 9.39360868216384e-06,
      "loss": 0.1927,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 82038356.0,
      "step": 112
    },
    {
      "entropy": 0.404449462890625,
      "epoch": 1.2282608695652173,
      "grad_norm": 4.11618173598679,
      "learning_rate": 9.379220737625877e-06,
      "loss": 0.2144,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 82737144.0,
      "step": 113
    },
    {
      "entropy": 0.4352569580078125,
      "epoch": 1.2391304347826086,
      "grad_norm": 2.6597045166468063,
      "learning_rate": 9.364675382947185e-06,
      "loss": 0.1813,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 83462542.0,
      "step": 114
    },
    {
      "entropy": 0.4065399169921875,
      "epoch": 1.25,
      "grad_norm": 5.855839825961793,
      "learning_rate": 9.349973140957392e-06,
      "loss": 0.1764,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 84181869.0,
      "step": 115
    },
    {
      "entropy": 0.4140625,
      "epoch": 1.2608695652173914,
      "grad_norm": 1.6907727986123702,
      "learning_rate": 9.335114540125393e-06,
      "loss": 0.1493,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 84919453.0,
      "step": 116
    },
    {
      "entropy": 0.4123382568359375,
      "epoch": 1.2717391304347827,
      "grad_norm": 5.984304505734331,
      "learning_rate": 9.320100114540382e-06,
      "loss": 0.1977,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 85634603.0,
      "step": 117
    },
    {
      "entropy": 0.39662933349609375,
      "epoch": 1.2826086956521738,
      "grad_norm": 5.542831922138933,
      "learning_rate": 9.304930403892633e-06,
      "loss": 0.22,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 86360585.0,
      "step": 118
    },
    {
      "entropy": 0.4093170166015625,
      "epoch": 1.2934782608695652,
      "grad_norm": 1.840432103728799,
      "learning_rate": 9.289605953454108e-06,
      "loss": 0.1747,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 87081747.0,
      "step": 119
    },
    {
      "entropy": 0.4312744140625,
      "epoch": 1.3043478260869565,
      "grad_norm": 1.5399539421158377,
      "learning_rate": 9.274127314058857e-06,
      "loss": 0.1742,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 87812474.0,
      "step": 120
    },
    {
      "entropy": 0.4295501708984375,
      "epoch": 1.315217391304348,
      "grad_norm": 5.631410369111695,
      "learning_rate": 9.258495042083222e-06,
      "loss": 0.1873,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 88505296.0,
      "step": 121
    },
    {
      "entropy": 0.443206787109375,
      "epoch": 1.3260869565217392,
      "grad_norm": 5.14744267748714,
      "learning_rate": 9.242709699425833e-06,
      "loss": 0.2003,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 89228902.0,
      "step": 122
    },
    {
      "entropy": 0.4381561279296875,
      "epoch": 1.3369565217391304,
      "grad_norm": 5.088165275452012,
      "learning_rate": 9.226771853487411e-06,
      "loss": 0.1766,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 89966869.0,
      "step": 123
    },
    {
      "entropy": 0.4534454345703125,
      "epoch": 1.3478260869565217,
      "grad_norm": 3.6631869570612743,
      "learning_rate": 9.210682077150375e-06,
      "loss": 0.1941,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 90694209.0,
      "step": 124
    },
    {
      "entropy": 0.4652252197265625,
      "epoch": 1.358695652173913,
      "grad_norm": 1.7964533731259196,
      "learning_rate": 9.19444094875825e-06,
      "loss": 0.2024,
      "mean_token_accuracy": 0.8854166734963655,
      "num_tokens": 91412139.0,
      "step": 125
    },
    {
      "entropy": 0.4675445556640625,
      "epoch": 1.3695652173913042,
      "grad_norm": 3.1958316486515357,
      "learning_rate": 9.178049052094881e-06,
      "loss": 0.1805,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 92169703.0,
      "step": 126
    },
    {
      "entropy": 0.4624176025390625,
      "epoch": 1.3804347826086958,
      "grad_norm": 3.590713340252532,
      "learning_rate": 9.161506976363438e-06,
      "loss": 0.1693,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 92912510.0,
      "step": 127
    },
    {
      "entropy": 0.481842041015625,
      "epoch": 1.391304347826087,
      "grad_norm": 5.161885026565095,
      "learning_rate": 9.144815316165251e-06,
      "loss": 0.1808,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 93637311.0,
      "step": 128
    },
    {
      "entropy": 0.4896392822265625,
      "epoch": 1.4021739130434783,
      "grad_norm": 2.021044634144322,
      "learning_rate": 9.127974671478432e-06,
      "loss": 0.1734,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 94356050.0,
      "step": 129
    },
    {
      "entropy": 0.5020904541015625,
      "epoch": 1.4130434782608696,
      "grad_norm": 11.501102480658448,
      "learning_rate": 9.110985647636303e-06,
      "loss": 0.2669,
      "mean_token_accuracy": 0.8697916744276881,
      "num_tokens": 95083725.0,
      "step": 130
    },
    {
      "entropy": 0.514312744140625,
      "epoch": 1.4239130434782608,
      "grad_norm": 12.968700718739079,
      "learning_rate": 9.09384885530565e-06,
      "loss": 0.2808,
      "mean_token_accuracy": 0.8541666753590107,
      "num_tokens": 95797836.0,
      "step": 131
    },
    {
      "entropy": 0.4969940185546875,
      "epoch": 1.434782608695652,
      "grad_norm": 9.931831968632917,
      "learning_rate": 9.076564910464753e-06,
      "loss": 0.2461,
      "mean_token_accuracy": 0.8750000074505806,
      "num_tokens": 96528246.0,
      "step": 132
    },
    {
      "entropy": 0.498199462890625,
      "epoch": 1.4456521739130435,
      "grad_norm": 4.339899133284971,
      "learning_rate": 9.059134434381274e-06,
      "loss": 0.1742,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 97250780.0,
      "step": 133
    },
    {
      "entropy": 0.4845733642578125,
      "epoch": 1.4565217391304348,
      "grad_norm": 2.306490883407284,
      "learning_rate": 9.041558053589894e-06,
      "loss": 0.1638,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 98008622.0,
      "step": 134
    },
    {
      "entropy": 0.4831085205078125,
      "epoch": 1.4673913043478262,
      "grad_norm": 1.8621279194952003,
      "learning_rate": 9.023836399869814e-06,
      "loss": 0.1677,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 98750142.0,
      "step": 135
    },
    {
      "entropy": 0.471405029296875,
      "epoch": 1.4782608695652173,
      "grad_norm": 3.88923626434078,
      "learning_rate": 9.00597011022204e-06,
      "loss": 0.1779,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 99475178.0,
      "step": 136
    },
    {
      "entropy": 0.4650421142578125,
      "epoch": 1.4891304347826086,
      "grad_norm": 1.2842431099117309,
      "learning_rate": 8.987959826846479e-06,
      "loss": 0.192,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 100215781.0,
      "step": 137
    },
    {
      "entropy": 0.45721435546875,
      "epoch": 1.5,
      "grad_norm": 3.7825988575739977,
      "learning_rate": 8.96980619711887e-06,
      "loss": 0.1764,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 100926576.0,
      "step": 138
    },
    {
      "entropy": 0.4706268310546875,
      "epoch": 1.5108695652173914,
      "grad_norm": 4.11166953595038,
      "learning_rate": 8.951509873567498e-06,
      "loss": 0.1633,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 101648693.0,
      "step": 139
    },
    {
      "entropy": 0.4476776123046875,
      "epoch": 1.5217391304347827,
      "grad_norm": 3.508835423765,
      "learning_rate": 8.93307151384975e-06,
      "loss": 0.1797,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 102380247.0,
      "step": 140
    },
    {
      "entropy": 0.441864013671875,
      "epoch": 1.5326086956521738,
      "grad_norm": 1.8743506798902867,
      "learning_rate": 8.914491780728471e-06,
      "loss": 0.1677,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 103098045.0,
      "step": 141
    },
    {
      "entropy": 0.434967041015625,
      "epoch": 1.5434782608695652,
      "grad_norm": 3.9018048895964785,
      "learning_rate": 8.895771342048145e-06,
      "loss": 0.1827,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 103832961.0,
      "step": 142
    },
    {
      "entropy": 0.422088623046875,
      "epoch": 1.5543478260869565,
      "grad_norm": 0.8407286076374545,
      "learning_rate": 8.876910870710885e-06,
      "loss": 0.1552,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 104586103.0,
      "step": 143
    },
    {
      "entropy": 0.431365966796875,
      "epoch": 1.5652173913043477,
      "grad_norm": 2.496791263003307,
      "learning_rate": 8.857911044652244e-06,
      "loss": 0.1712,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 105315169.0,
      "step": 144
    },
    {
      "entropy": 0.4504241943359375,
      "epoch": 1.5760869565217392,
      "grad_norm": 5.281129505407569,
      "learning_rate": 8.838772546816857e-06,
      "loss": 0.1817,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 106045340.0,
      "step": 145
    },
    {
      "entropy": 0.438385009765625,
      "epoch": 1.5869565217391304,
      "grad_norm": 1.8313000203138219,
      "learning_rate": 8.819496065133879e-06,
      "loss": 0.1691,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 106778473.0,
      "step": 146
    },
    {
      "entropy": 0.44537353515625,
      "epoch": 1.5978260869565217,
      "grad_norm": 1.4464803967070357,
      "learning_rate": 8.800082292492274e-06,
      "loss": 0.1644,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 107468769.0,
      "step": 147
    },
    {
      "entropy": 0.414520263671875,
      "epoch": 1.608695652173913,
      "grad_norm": 1.924576425178567,
      "learning_rate": 8.780531926715888e-06,
      "loss": 0.1626,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 108243458.0,
      "step": 148
    },
    {
      "entropy": 0.4302825927734375,
      "epoch": 1.6195652173913042,
      "grad_norm": 1.0962823540272164,
      "learning_rate": 8.760845670538387e-06,
      "loss": 0.1685,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 109007236.0,
      "step": 149
    },
    {
      "entropy": 0.43780517578125,
      "epoch": 1.6304347826086958,
      "grad_norm": 4.789613646723918,
      "learning_rate": 8.741024231577983e-06,
      "loss": 0.2028,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 109750445.0,
      "step": 150
    },
    {
      "entropy": 0.46661376953125,
      "epoch": 1.641304347826087,
      "grad_norm": 4.597988837000804,
      "learning_rate": 8.721068322312007e-06,
      "loss": 0.1913,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 110475771.0,
      "step": 151
    },
    {
      "entropy": 0.437591552734375,
      "epoch": 1.6521739130434783,
      "grad_norm": 2.275948002873047,
      "learning_rate": 8.700978660051293e-06,
      "loss": 0.1736,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 111205566.0,
      "step": 152
    },
    {
      "entropy": 0.453033447265625,
      "epoch": 1.6630434782608696,
      "grad_norm": 3.5218616861457996,
      "learning_rate": 8.6807559669144e-06,
      "loss": 0.1578,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 111918245.0,
      "step": 153
    },
    {
      "entropy": 0.4627227783203125,
      "epoch": 1.6739130434782608,
      "grad_norm": 4.275737119580893,
      "learning_rate": 8.660400969801653e-06,
      "loss": 0.1581,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 112673380.0,
      "step": 154
    },
    {
      "entropy": 0.4431610107421875,
      "epoch": 1.6847826086956523,
      "grad_norm": 6.721196996196778,
      "learning_rate": 8.63991440036901e-06,
      "loss": 0.1996,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 113424643.0,
      "step": 155
    },
    {
      "entropy": 0.4608917236328125,
      "epoch": 1.6956521739130435,
      "grad_norm": 0.8681451268970228,
      "learning_rate": 8.619296995001773e-06,
      "loss": 0.1601,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 114148715.0,
      "step": 156
    },
    {
      "entropy": 0.45196533203125,
      "epoch": 1.7065217391304348,
      "grad_norm": 6.861189326417684,
      "learning_rate": 8.598549494788111e-06,
      "loss": 0.1945,
      "mean_token_accuracy": 0.890625006519258,
      "num_tokens": 114884454.0,
      "step": 157
    },
    {
      "entropy": 0.45758056640625,
      "epoch": 1.7173913043478262,
      "grad_norm": 5.124950758727847,
      "learning_rate": 8.577672645492426e-06,
      "loss": 0.1645,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 115616184.0,
      "step": 158
    },
    {
      "entropy": 0.45281982421875,
      "epoch": 1.7282608695652173,
      "grad_norm": 1.6625974094986276,
      "learning_rate": 8.556667197528543e-06,
      "loss": 0.1273,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 116370591.0,
      "step": 159
    },
    {
      "entropy": 0.447723388671875,
      "epoch": 1.7391304347826086,
      "grad_norm": 5.027178492680424,
      "learning_rate": 8.535533905932739e-06,
      "loss": 0.18,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 117090130.0,
      "step": 160
    },
    {
      "entropy": 0.444976806640625,
      "epoch": 1.75,
      "grad_norm": 5.000709767518473,
      "learning_rate": 8.5142735303366e-06,
      "loss": 0.1632,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 117829362.0,
      "step": 161
    },
    {
      "entropy": 0.448394775390625,
      "epoch": 1.7608695652173914,
      "grad_norm": 5.944643494256911,
      "learning_rate": 8.492886834939722e-06,
      "loss": 0.1734,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 118568505.0,
      "step": 162
    },
    {
      "entropy": 0.4547576904296875,
      "epoch": 1.7717391304347827,
      "grad_norm": 1.0596399329002748,
      "learning_rate": 8.47137458848224e-06,
      "loss": 0.1478,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 119304549.0,
      "step": 163
    },
    {
      "entropy": 0.46014404296875,
      "epoch": 1.7826086956521738,
      "grad_norm": 2.9257530385476778,
      "learning_rate": 8.44973756421719e-06,
      "loss": 0.1314,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 120022684.0,
      "step": 164
    },
    {
      "entropy": 0.4583740234375,
      "epoch": 1.7934782608695652,
      "grad_norm": 3.0191961025641088,
      "learning_rate": 8.427976539882725e-06,
      "loss": 0.1433,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 120753136.0,
      "step": 165
    },
    {
      "entropy": 0.4524993896484375,
      "epoch": 1.8043478260869565,
      "grad_norm": 1.3712817204311856,
      "learning_rate": 8.406092297674146e-06,
      "loss": 0.1677,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 121483427.0,
      "step": 166
    },
    {
      "entropy": 0.4454193115234375,
      "epoch": 1.8152173913043477,
      "grad_norm": 4.484081850218613,
      "learning_rate": 8.384085624215801e-06,
      "loss": 0.1372,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 122229408.0,
      "step": 167
    },
    {
      "entropy": 0.448333740234375,
      "epoch": 1.8260869565217392,
      "grad_norm": 4.273029077205158,
      "learning_rate": 8.3619573105328e-06,
      "loss": 0.2005,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 122989159.0,
      "step": 168
    },
    {
      "entropy": 0.4654388427734375,
      "epoch": 1.8369565217391304,
      "grad_norm": 5.077192609410063,
      "learning_rate": 8.339708152022586e-06,
      "loss": 0.2232,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 123713700.0,
      "step": 169
    },
    {
      "entropy": 0.482818603515625,
      "epoch": 1.8478260869565217,
      "grad_norm": 2.979531100604881,
      "learning_rate": 8.317338948426338e-06,
      "loss": 0.1386,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 124426341.0,
      "step": 170
    },
    {
      "entropy": 0.481842041015625,
      "epoch": 1.858695652173913,
      "grad_norm": 0.8909485690286074,
      "learning_rate": 8.294850503800237e-06,
      "loss": 0.1673,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 125152598.0,
      "step": 171
    },
    {
      "entropy": 0.4686126708984375,
      "epoch": 1.8695652173913042,
      "grad_norm": 4.834268816081698,
      "learning_rate": 8.272243626486553e-06,
      "loss": 0.1638,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 125908265.0,
      "step": 172
    },
    {
      "entropy": 0.4952545166015625,
      "epoch": 1.8804347826086958,
      "grad_norm": 6.5158475716084165,
      "learning_rate": 8.24951912908459e-06,
      "loss": 0.1784,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 126640327.0,
      "step": 173
    },
    {
      "entropy": 0.476104736328125,
      "epoch": 1.891304347826087,
      "grad_norm": 6.431818374713873,
      "learning_rate": 8.22667782842149e-06,
      "loss": 0.2,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 127360727.0,
      "step": 174
    },
    {
      "entropy": 0.4782562255859375,
      "epoch": 1.9021739130434783,
      "grad_norm": 4.448649191030321,
      "learning_rate": 8.203720545522852e-06,
      "loss": 0.1905,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 128101177.0,
      "step": 175
    },
    {
      "entropy": 0.4974365234375,
      "epoch": 1.9130434782608696,
      "grad_norm": 1.481542607521372,
      "learning_rate": 8.18064810558324e-06,
      "loss": 0.1482,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 128840203.0,
      "step": 176
    },
    {
      "entropy": 0.4729766845703125,
      "epoch": 1.9239130434782608,
      "grad_norm": 3.7127607104473443,
      "learning_rate": 8.157461337936506e-06,
      "loss": 0.1576,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 129566856.0,
      "step": 177
    },
    {
      "entropy": 0.4583740234375,
      "epoch": 1.9347826086956523,
      "grad_norm": 4.548494474309949,
      "learning_rate": 8.134161076025992e-06,
      "loss": 0.2012,
      "mean_token_accuracy": 0.8880208400078118,
      "num_tokens": 130325186.0,
      "step": 178
    },
    {
      "entropy": 0.49267578125,
      "epoch": 1.9456521739130435,
      "grad_norm": 1.9834993620269317,
      "learning_rate": 8.110748157374566e-06,
      "loss": 0.1388,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 131045097.0,
      "step": 179
    },
    {
      "entropy": 0.469512939453125,
      "epoch": 1.9565217391304348,
      "grad_norm": 2.0176595046179497,
      "learning_rate": 8.087223423554513e-06,
      "loss": 0.1676,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 131785066.0,
      "step": 180
    },
    {
      "entropy": 0.4782257080078125,
      "epoch": 1.9673913043478262,
      "grad_norm": 3.4358628195679883,
      "learning_rate": 8.063587720157298e-06,
      "loss": 0.1615,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 132494937.0,
      "step": 181
    },
    {
      "entropy": 0.4617462158203125,
      "epoch": 1.9782608695652173,
      "grad_norm": 2.573560201199528,
      "learning_rate": 8.039841896763157e-06,
      "loss": 0.1566,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 133241178.0,
      "step": 182
    },
    {
      "entropy": 0.4615631103515625,
      "epoch": 1.9891304347826086,
      "grad_norm": 2.6258551736931164,
      "learning_rate": 8.01598680691057e-06,
      "loss": 0.1802,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 133988365.0,
      "step": 183
    },
    {
      "entropy": 0.4644775390625,
      "epoch": 2.0,
      "grad_norm": 2.7309775334275996,
      "learning_rate": 7.99202330806557e-06,
      "loss": 0.1764,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 134713244.0,
      "step": 184
    },
    {
      "entropy": 0.466583251953125,
      "epoch": 2.010869565217391,
      "grad_norm": 4.037224293545294,
      "learning_rate": 7.967952261590936e-06,
      "loss": 0.1665,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 135429481.0,
      "step": 185
    },
    {
      "entropy": 0.4605712890625,
      "epoch": 2.0217391304347827,
      "grad_norm": 4.717971997804742,
      "learning_rate": 7.943774532715215e-06,
      "loss": 0.1763,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 136149605.0,
      "step": 186
    },
    {
      "entropy": 0.4555816650390625,
      "epoch": 2.032608695652174,
      "grad_norm": 2.7166036171097265,
      "learning_rate": 7.919490990501636e-06,
      "loss": 0.1662,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 136875475.0,
      "step": 187
    },
    {
      "entropy": 0.463836669921875,
      "epoch": 2.0434782608695654,
      "grad_norm": 1.076637546498458,
      "learning_rate": 7.895102507816866e-06,
      "loss": 0.1431,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 137595493.0,
      "step": 188
    },
    {
      "entropy": 0.46282958984375,
      "epoch": 2.0543478260869565,
      "grad_norm": 1.0321663552865756,
      "learning_rate": 7.870609961299627e-06,
      "loss": 0.1404,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 138343578.0,
      "step": 189
    },
    {
      "entropy": 0.4611663818359375,
      "epoch": 2.0652173913043477,
      "grad_norm": 1.0045620439831044,
      "learning_rate": 7.8460142313292e-06,
      "loss": 0.1438,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 139061827.0,
      "step": 190
    },
    {
      "entropy": 0.469024658203125,
      "epoch": 2.0760869565217392,
      "grad_norm": 2.8783197917199232,
      "learning_rate": 7.821316201993768e-06,
      "loss": 0.1412,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 139806593.0,
      "step": 191
    },
    {
      "entropy": 0.4560546875,
      "epoch": 2.0869565217391304,
      "grad_norm": 1.5569571010559995,
      "learning_rate": 7.796516761058649e-06,
      "loss": 0.18,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 140539525.0,
      "step": 192
    },
    {
      "entropy": 0.44830322265625,
      "epoch": 2.097826086956522,
      "grad_norm": 3.1361962861522485,
      "learning_rate": 7.771616799934372e-06,
      "loss": 0.1616,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 141295404.0,
      "step": 193
    },
    {
      "entropy": 0.4631805419921875,
      "epoch": 2.108695652173913,
      "grad_norm": 4.071503563525572,
      "learning_rate": 7.746617213644646e-06,
      "loss": 0.1819,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 142040002.0,
      "step": 194
    },
    {
      "entropy": 0.464111328125,
      "epoch": 2.119565217391304,
      "grad_norm": 1.2105937842795194,
      "learning_rate": 7.721518900794186e-06,
      "loss": 0.1571,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 142792108.0,
      "step": 195
    },
    {
      "entropy": 0.4702301025390625,
      "epoch": 2.130434782608696,
      "grad_norm": 3.6999512088630646,
      "learning_rate": 7.696322763536408e-06,
      "loss": 0.1943,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 143549121.0,
      "step": 196
    },
    {
      "entropy": 0.4797515869140625,
      "epoch": 2.141304347826087,
      "grad_norm": 1.7830393171227232,
      "learning_rate": 7.67102970754101e-06,
      "loss": 0.1354,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 144277257.0,
      "step": 197
    },
    {
      "entropy": 0.4991302490234375,
      "epoch": 2.1521739130434785,
      "grad_norm": 2.540030917360116,
      "learning_rate": 7.645640641961407e-06,
      "loss": 0.1479,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 144989757.0,
      "step": 198
    },
    {
      "entropy": 0.5069122314453125,
      "epoch": 2.1630434782608696,
      "grad_norm": 2.5434046748514425,
      "learning_rate": 7.620156479402066e-06,
      "loss": 0.132,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 145735476.0,
      "step": 199
    },
    {
      "entropy": 0.4848175048828125,
      "epoch": 2.1739130434782608,
      "grad_norm": 0.9338500576535639,
      "learning_rate": 7.594578135885684e-06,
      "loss": 0.1363,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 146498169.0,
      "step": 200
    },
    {
      "entropy": 0.483795166015625,
      "epoch": 2.1847826086956523,
      "grad_norm": 1.0853308679911267,
      "learning_rate": 7.568906530820281e-06,
      "loss": 0.1288,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 147239170.0,
      "step": 201
    },
    {
      "entropy": 0.470367431640625,
      "epoch": 2.1956521739130435,
      "grad_norm": 2.845790371631798,
      "learning_rate": 7.543142586966139e-06,
      "loss": 0.1632,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 147989958.0,
      "step": 202
    },
    {
      "entropy": 0.4615325927734375,
      "epoch": 2.2065217391304346,
      "grad_norm": 1.4768456863374138,
      "learning_rate": 7.517287230402639e-06,
      "loss": 0.1539,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 148733799.0,
      "step": 203
    },
    {
      "entropy": 0.453521728515625,
      "epoch": 2.217391304347826,
      "grad_norm": 2.224430677141759,
      "learning_rate": 7.491341390494971e-06,
      "loss": 0.1755,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 149480297.0,
      "step": 204
    },
    {
      "entropy": 0.4737396240234375,
      "epoch": 2.2282608695652173,
      "grad_norm": 1.4704770548938053,
      "learning_rate": 7.465305999860728e-06,
      "loss": 0.1281,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 150208824.0,
      "step": 205
    },
    {
      "entropy": 0.4908905029296875,
      "epoch": 2.239130434782609,
      "grad_norm": 3.6116869889669343,
      "learning_rate": 7.439181994336389e-06,
      "loss": 0.1447,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 150943893.0,
      "step": 206
    },
    {
      "entropy": 0.478668212890625,
      "epoch": 2.25,
      "grad_norm": 1.6297715795942518,
      "learning_rate": 7.412970312943672e-06,
      "loss": 0.1591,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 151678114.0,
      "step": 207
    },
    {
      "entropy": 0.476531982421875,
      "epoch": 2.260869565217391,
      "grad_norm": 5.930841807235425,
      "learning_rate": 7.386671897855786e-06,
      "loss": 0.188,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 152414615.0,
      "step": 208
    },
    {
      "entropy": 0.4714202880859375,
      "epoch": 2.2717391304347827,
      "grad_norm": 6.562260457054171,
      "learning_rate": 7.360287694363566e-06,
      "loss": 0.1864,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 153129775.0,
      "step": 209
    },
    {
      "entropy": 0.47235107421875,
      "epoch": 2.282608695652174,
      "grad_norm": 4.259683546071323,
      "learning_rate": 7.333818650841489e-06,
      "loss": 0.1519,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 153881112.0,
      "step": 210
    },
    {
      "entropy": 0.48944091796875,
      "epoch": 2.2934782608695654,
      "grad_norm": 0.8493794909632957,
      "learning_rate": 7.3072657187135895e-06,
      "loss": 0.1627,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 154605280.0,
      "step": 211
    },
    {
      "entropy": 0.4904327392578125,
      "epoch": 2.3043478260869565,
      "grad_norm": 1.176042443925146,
      "learning_rate": 7.280629852419263e-06,
      "loss": 0.1589,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 155346540.0,
      "step": 212
    },
    {
      "entropy": 0.4864654541015625,
      "epoch": 2.3152173913043477,
      "grad_norm": 1.2549750580300871,
      "learning_rate": 7.253912009378953e-06,
      "loss": 0.1517,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 156096858.0,
      "step": 213
    },
    {
      "entropy": 0.48406982421875,
      "epoch": 2.3260869565217392,
      "grad_norm": 4.296770964839128,
      "learning_rate": 7.227113149959738e-06,
      "loss": 0.1939,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 156809583.0,
      "step": 214
    },
    {
      "entropy": 0.494049072265625,
      "epoch": 2.3369565217391304,
      "grad_norm": 3.4023757660836758,
      "learning_rate": 7.200234237440815e-06,
      "loss": 0.1645,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 157514098.0,
      "step": 215
    },
    {
      "entropy": 0.495025634765625,
      "epoch": 2.3478260869565215,
      "grad_norm": 3.1409515107982697,
      "learning_rate": 7.173276237978872e-06,
      "loss": 0.1598,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 158244881.0,
      "step": 216
    },
    {
      "entropy": 0.5272064208984375,
      "epoch": 2.358695652173913,
      "grad_norm": 1.7630215135648313,
      "learning_rate": 7.146240120573358e-06,
      "loss": 0.152,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 158973009.0,
      "step": 217
    },
    {
      "entropy": 0.5052032470703125,
      "epoch": 2.369565217391304,
      "grad_norm": 2.815725584092174,
      "learning_rate": 7.1191268570316575e-06,
      "loss": 0.1613,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 159710034.0,
      "step": 218
    },
    {
      "entropy": 0.5098876953125,
      "epoch": 2.380434782608696,
      "grad_norm": 2.044655264151915,
      "learning_rate": 7.091937421934158e-06,
      "loss": 0.1385,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 160461608.0,
      "step": 219
    },
    {
      "entropy": 0.5081939697265625,
      "epoch": 2.391304347826087,
      "grad_norm": 1.2618085664936987,
      "learning_rate": 7.064672792599208e-06,
      "loss": 0.1316,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 161169636.0,
      "step": 220
    },
    {
      "entropy": 0.5016937255859375,
      "epoch": 2.4021739130434785,
      "grad_norm": 1.4026374830963084,
      "learning_rate": 7.037333949048005e-06,
      "loss": 0.1341,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 161899629.0,
      "step": 221
    },
    {
      "entropy": 0.4980010986328125,
      "epoch": 2.4130434782608696,
      "grad_norm": 1.120949935970389,
      "learning_rate": 7.009921873969359e-06,
      "loss": 0.1639,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 162641018.0,
      "step": 222
    },
    {
      "entropy": 0.5032501220703125,
      "epoch": 2.4239130434782608,
      "grad_norm": 1.0202702095820626,
      "learning_rate": 6.9824375526843705e-06,
      "loss": 0.1443,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 163389332.0,
      "step": 223
    },
    {
      "entropy": 0.5064239501953125,
      "epoch": 2.4347826086956523,
      "grad_norm": 2.2235763901956345,
      "learning_rate": 6.954881973111013e-06,
      "loss": 0.1253,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 164132521.0,
      "step": 224
    },
    {
      "entropy": 0.5135650634765625,
      "epoch": 2.4456521739130435,
      "grad_norm": 2.713574290981733,
      "learning_rate": 6.927256125728624e-06,
      "loss": 0.1545,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 164850463.0,
      "step": 225
    },
    {
      "entropy": 0.505279541015625,
      "epoch": 2.4565217391304346,
      "grad_norm": 1.0170830525838583,
      "learning_rate": 6.8995610035423044e-06,
      "loss": 0.1482,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 165566541.0,
      "step": 226
    },
    {
      "entropy": 0.4982147216796875,
      "epoch": 2.467391304347826,
      "grad_norm": 1.364450274746563,
      "learning_rate": 6.871797602047221e-06,
      "loss": 0.161,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 166287160.0,
      "step": 227
    },
    {
      "entropy": 0.5063934326171875,
      "epoch": 2.4782608695652173,
      "grad_norm": 1.3545987095682759,
      "learning_rate": 6.843966919192827e-06,
      "loss": 0.1526,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 167012634.0,
      "step": 228
    },
    {
      "entropy": 0.5102691650390625,
      "epoch": 2.489130434782609,
      "grad_norm": 2.9876200575272307,
      "learning_rate": 6.816069955346986e-06,
      "loss": 0.1465,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 167720898.0,
      "step": 229
    },
    {
      "entropy": 0.5014495849609375,
      "epoch": 2.5,
      "grad_norm": 1.3340164106473062,
      "learning_rate": 6.788107713260023e-06,
      "loss": 0.1411,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 168449203.0,
      "step": 230
    },
    {
      "entropy": 0.483795166015625,
      "epoch": 2.5108695652173916,
      "grad_norm": 0.6320173783920688,
      "learning_rate": 6.760081198028671e-06,
      "loss": 0.1612,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 169156495.0,
      "step": 231
    },
    {
      "entropy": 0.4820404052734375,
      "epoch": 2.5217391304347827,
      "grad_norm": 0.9926822544352581,
      "learning_rate": 6.731991417059947e-06,
      "loss": 0.1566,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 169890062.0,
      "step": 232
    },
    {
      "entropy": 0.4652099609375,
      "epoch": 2.532608695652174,
      "grad_norm": 1.6687248484619768,
      "learning_rate": 6.703839380034945e-06,
      "loss": 0.1502,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 170620478.0,
      "step": 233
    },
    {
      "entropy": 0.4732818603515625,
      "epoch": 2.5434782608695654,
      "grad_norm": 0.7906065554388806,
      "learning_rate": 6.675626098872536e-06,
      "loss": 0.1362,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 171340518.0,
      "step": 234
    },
    {
      "entropy": 0.4964141845703125,
      "epoch": 2.5543478260869565,
      "grad_norm": 2.8324093555146774,
      "learning_rate": 6.647352587693001e-06,
      "loss": 0.1319,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 172062284.0,
      "step": 235
    },
    {
      "entropy": 0.4817657470703125,
      "epoch": 2.5652173913043477,
      "grad_norm": 2.1071449332672327,
      "learning_rate": 6.619019862781571e-06,
      "loss": 0.1379,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 172786427.0,
      "step": 236
    },
    {
      "entropy": 0.47137451171875,
      "epoch": 2.5760869565217392,
      "grad_norm": 3.178536121090834,
      "learning_rate": 6.590628942551909e-06,
      "loss": 0.1478,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 173529025.0,
      "step": 237
    },
    {
      "entropy": 0.4671173095703125,
      "epoch": 2.5869565217391304,
      "grad_norm": 3.397701056505078,
      "learning_rate": 6.5621808475094904e-06,
      "loss": 0.1451,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 174276952.0,
      "step": 238
    },
    {
      "entropy": 0.479644775390625,
      "epoch": 2.5978260869565215,
      "grad_norm": 1.1248572941345445,
      "learning_rate": 6.533676600214929e-06,
      "loss": 0.1497,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 175031272.0,
      "step": 239
    },
    {
      "entropy": 0.4974822998046875,
      "epoch": 2.608695652173913,
      "grad_norm": 1.3065133235866113,
      "learning_rate": 6.505117225247218e-06,
      "loss": 0.1434,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 175749554.0,
      "step": 240
    },
    {
      "entropy": 0.49566650390625,
      "epoch": 2.619565217391304,
      "grad_norm": 6.530134263731,
      "learning_rate": 6.476503749166903e-06,
      "loss": 0.1536,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 176480814.0,
      "step": 241
    },
    {
      "entropy": 0.495574951171875,
      "epoch": 2.630434782608696,
      "grad_norm": 5.338140606102461,
      "learning_rate": 6.447837200479187e-06,
      "loss": 0.1709,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 177213446.0,
      "step": 242
    },
    {
      "entropy": 0.52337646484375,
      "epoch": 2.641304347826087,
      "grad_norm": 4.68248016938188,
      "learning_rate": 6.419118609596948e-06,
      "loss": 0.1857,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 177926767.0,
      "step": 243
    },
    {
      "entropy": 0.4987335205078125,
      "epoch": 2.6521739130434785,
      "grad_norm": 1.0211542704745407,
      "learning_rate": 6.390349008803717e-06,
      "loss": 0.1403,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 178645859.0,
      "step": 244
    },
    {
      "entropy": 0.5016632080078125,
      "epoch": 2.6630434782608696,
      "grad_norm": 4.034327444406108,
      "learning_rate": 6.36152943221656e-06,
      "loss": 0.1584,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 179364931.0,
      "step": 245
    },
    {
      "entropy": 0.5005035400390625,
      "epoch": 2.6739130434782608,
      "grad_norm": 4.466824359462036,
      "learning_rate": 6.332660915748915e-06,
      "loss": 0.1636,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 180114016.0,
      "step": 246
    },
    {
      "entropy": 0.5288543701171875,
      "epoch": 2.6847826086956523,
      "grad_norm": 1.4690411655275342,
      "learning_rate": 6.303744497073352e-06,
      "loss": 0.1684,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 180829173.0,
      "step": 247
    },
    {
      "entropy": 0.514923095703125,
      "epoch": 2.6956521739130435,
      "grad_norm": 0.9885474264044883,
      "learning_rate": 6.274781215584277e-06,
      "loss": 0.1412,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 181565615.0,
      "step": 248
    },
    {
      "entropy": 0.5373992919921875,
      "epoch": 2.7065217391304346,
      "grad_norm": 2.917522190830792,
      "learning_rate": 6.245772112360568e-06,
      "loss": 0.1576,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 182301212.0,
      "step": 249
    },
    {
      "entropy": 0.54473876953125,
      "epoch": 2.717391304347826,
      "grad_norm": 3.4843640294717315,
      "learning_rate": 6.216718230128156e-06,
      "loss": 0.1521,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 183021165.0,
      "step": 250
    },
    {
      "entropy": 0.53717041015625,
      "epoch": 2.7282608695652173,
      "grad_norm": 1.6206892611815522,
      "learning_rate": 6.187620613222544e-06,
      "loss": 0.1464,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 183759965.0,
      "step": 251
    },
    {
      "entropy": 0.5392608642578125,
      "epoch": 2.7391304347826084,
      "grad_norm": 0.8317300750650715,
      "learning_rate": 6.158480307551269e-06,
      "loss": 0.1347,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 184510253.0,
      "step": 252
    },
    {
      "entropy": 0.534027099609375,
      "epoch": 2.75,
      "grad_norm": 3.0517612786480237,
      "learning_rate": 6.129298360556304e-06,
      "loss": 0.1271,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 185245055.0,
      "step": 253
    },
    {
      "entropy": 0.535369873046875,
      "epoch": 2.7608695652173916,
      "grad_norm": 4.074365838098657,
      "learning_rate": 6.100075821176412e-06,
      "loss": 0.1449,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 185982247.0,
      "step": 254
    },
    {
      "entropy": 0.5504608154296875,
      "epoch": 2.7717391304347827,
      "grad_norm": 1.4083729156226907,
      "learning_rate": 6.070813739809443e-06,
      "loss": 0.1533,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 186720366.0,
      "step": 255
    },
    {
      "entropy": 0.54827880859375,
      "epoch": 2.782608695652174,
      "grad_norm": 3.1973947971521612,
      "learning_rate": 6.041513168274568e-06,
      "loss": 0.1324,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 187486715.0,
      "step": 256
    },
    {
      "entropy": 0.563385009765625,
      "epoch": 2.7934782608695654,
      "grad_norm": 4.67750299238707,
      "learning_rate": 6.012175159774488e-06,
      "loss": 0.1628,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 188235436.0,
      "step": 257
    },
    {
      "entropy": 0.566864013671875,
      "epoch": 2.8043478260869565,
      "grad_norm": 2.253633243764536,
      "learning_rate": 5.982800768857561e-06,
      "loss": 0.1553,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 188968498.0,
      "step": 258
    },
    {
      "entropy": 0.5386810302734375,
      "epoch": 2.8152173913043477,
      "grad_norm": 1.1715881442233769,
      "learning_rate": 5.953391051379904e-06,
      "loss": 0.1457,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 189723089.0,
      "step": 259
    },
    {
      "entropy": 0.52960205078125,
      "epoch": 2.8260869565217392,
      "grad_norm": 4.088083245455488,
      "learning_rate": 5.9239470644674425e-06,
      "loss": 0.1382,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 190453426.0,
      "step": 260
    },
    {
      "entropy": 0.524200439453125,
      "epoch": 2.8369565217391304,
      "grad_norm": 4.432730884883112,
      "learning_rate": 5.894469866477905e-06,
      "loss": 0.1181,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 191201163.0,
      "step": 261
    },
    {
      "entropy": 0.5243377685546875,
      "epoch": 2.8478260869565215,
      "grad_norm": 1.925220248594974,
      "learning_rate": 5.864960516962791e-06,
      "loss": 0.1547,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 191949698.0,
      "step": 262
    },
    {
      "entropy": 0.53729248046875,
      "epoch": 2.858695652173913,
      "grad_norm": 4.225782957601409,
      "learning_rate": 5.835420076629273e-06,
      "loss": 0.1662,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 192663193.0,
      "step": 263
    },
    {
      "entropy": 0.5235595703125,
      "epoch": 2.869565217391304,
      "grad_norm": 3.8933818384050967,
      "learning_rate": 5.805849607302081e-06,
      "loss": 0.1604,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 193415016.0,
      "step": 264
    },
    {
      "entropy": 0.533203125,
      "epoch": 2.880434782608696,
      "grad_norm": 1.183404560247307,
      "learning_rate": 5.776250171885329e-06,
      "loss": 0.1231,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 194119329.0,
      "step": 265
    },
    {
      "entropy": 0.5197296142578125,
      "epoch": 2.891304347826087,
      "grad_norm": 1.0443315319107171,
      "learning_rate": 5.74662283432431e-06,
      "loss": 0.1409,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 194853552.0,
      "step": 266
    },
    {
      "entropy": 0.522369384765625,
      "epoch": 2.9021739130434785,
      "grad_norm": 1.8841977266435408,
      "learning_rate": 5.716968659567256e-06,
      "loss": 0.1695,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 195583993.0,
      "step": 267
    },
    {
      "entropy": 0.512176513671875,
      "epoch": 2.9130434782608696,
      "grad_norm": 1.2884207258919589,
      "learning_rate": 5.687288713527051e-06,
      "loss": 0.1288,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 196314680.0,
      "step": 268
    },
    {
      "entropy": 0.5125579833984375,
      "epoch": 2.9239130434782608,
      "grad_norm": 0.8829648248396512,
      "learning_rate": 5.6575840630429295e-06,
      "loss": 0.1279,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 197041013.0,
      "step": 269
    },
    {
      "entropy": 0.5091094970703125,
      "epoch": 2.9347826086956523,
      "grad_norm": 0.8538419413264201,
      "learning_rate": 5.627855775842116e-06,
      "loss": 0.1359,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 197786660.0,
      "step": 270
    },
    {
      "entropy": 0.5001678466796875,
      "epoch": 2.9456521739130435,
      "grad_norm": 1.971714187767247,
      "learning_rate": 5.598104920501455e-06,
      "loss": 0.1113,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 198524868.0,
      "step": 271
    },
    {
      "entropy": 0.5052642822265625,
      "epoch": 2.9565217391304346,
      "grad_norm": 1.0869713759190893,
      "learning_rate": 5.568332566408995e-06,
      "loss": 0.1484,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 199230746.0,
      "step": 272
    },
    {
      "entropy": 0.4864349365234375,
      "epoch": 2.967391304347826,
      "grad_norm": 1.1493493716213605,
      "learning_rate": 5.538539783725556e-06,
      "loss": 0.1362,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 199952480.0,
      "step": 273
    },
    {
      "entropy": 0.4827880859375,
      "epoch": 2.9782608695652173,
      "grad_norm": 1.970961417172391,
      "learning_rate": 5.508727643346257e-06,
      "loss": 0.1649,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 200674955.0,
      "step": 274
    },
    {
      "entropy": 0.4893798828125,
      "epoch": 2.9891304347826084,
      "grad_norm": 2.231264328674979,
      "learning_rate": 5.478897216862026e-06,
      "loss": 0.1339,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 201422157.0,
      "step": 275
    },
    {
      "entropy": 0.4898529052734375,
      "epoch": 3.0,
      "grad_norm": 2.1227770896451825,
      "learning_rate": 5.4490495765210795e-06,
      "loss": 0.1311,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 202165315.0,
      "step": 276
    },
    {
      "entropy": 0.49591064453125,
      "epoch": 3.010869565217391,
      "grad_norm": 0.8128732029485423,
      "learning_rate": 5.4191857951903825e-06,
      "loss": 0.1147,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 202891458.0,
      "step": 277
    },
    {
      "entropy": 0.4910125732421875,
      "epoch": 3.0217391304347827,
      "grad_norm": 2.4160957516750092,
      "learning_rate": 5.389306946317089e-06,
      "loss": 0.1074,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 203611043.0,
      "step": 278
    },
    {
      "entropy": 0.482513427734375,
      "epoch": 3.032608695652174,
      "grad_norm": 3.926851456880796,
      "learning_rate": 5.359414103889947e-06,
      "loss": 0.1337,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 204353714.0,
      "step": 279
    },
    {
      "entropy": 0.4693603515625,
      "epoch": 3.0434782608695654,
      "grad_norm": 2.7175573403486295,
      "learning_rate": 5.329508342400702e-06,
      "loss": 0.147,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 205086225.0,
      "step": 280
    },
    {
      "entropy": 0.4728851318359375,
      "epoch": 3.0543478260869565,
      "grad_norm": 1.1460626041676274,
      "learning_rate": 5.29959073680547e-06,
      "loss": 0.1008,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 205807715.0,
      "step": 281
    },
    {
      "entropy": 0.471343994140625,
      "epoch": 3.0652173913043477,
      "grad_norm": 2.1709089094915734,
      "learning_rate": 5.2696623624861065e-06,
      "loss": 0.1262,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 206532731.0,
      "step": 282
    },
    {
      "entropy": 0.4701385498046875,
      "epoch": 3.0760869565217392,
      "grad_norm": 1.2595485529709791,
      "learning_rate": 5.239724295211541e-06,
      "loss": 0.0932,
      "mean_token_accuracy": 0.9713541683740914,
      "num_tokens": 207237339.0,
      "step": 283
    },
    {
      "entropy": 0.459320068359375,
      "epoch": 3.0869565217391304,
      "grad_norm": 1.5698321956894128,
      "learning_rate": 5.209777611099117e-06,
      "loss": 0.1241,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 207989608.0,
      "step": 284
    },
    {
      "entropy": 0.4395599365234375,
      "epoch": 3.097826086956522,
      "grad_norm": 1.69783604409681,
      "learning_rate": 5.179823386575908e-06,
      "loss": 0.1281,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 208728432.0,
      "step": 285
    },
    {
      "entropy": 0.45147705078125,
      "epoch": 3.108695652173913,
      "grad_norm": 1.0615370993698838,
      "learning_rate": 5.1498626983400215e-06,
      "loss": 0.0982,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 209445393.0,
      "step": 286
    },
    {
      "entropy": 0.4381561279296875,
      "epoch": 3.119565217391304,
      "grad_norm": 2.8535681161551674,
      "learning_rate": 5.11989662332191e-06,
      "loss": 0.1109,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 210188581.0,
      "step": 287
    },
    {
      "entropy": 0.4433135986328125,
      "epoch": 3.130434782608696,
      "grad_norm": 1.4364988918807542,
      "learning_rate": 5.089926238645645e-06,
      "loss": 0.1191,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 210934203.0,
      "step": 288
    },
    {
      "entropy": 0.44586181640625,
      "epoch": 3.141304347826087,
      "grad_norm": 1.9393044874421348,
      "learning_rate": 5.059952621590216e-06,
      "loss": 0.1061,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 211663826.0,
      "step": 289
    },
    {
      "entropy": 0.439666748046875,
      "epoch": 3.1521739130434785,
      "grad_norm": 2.3376360959881306,
      "learning_rate": 5.029976849550789e-06,
      "loss": 0.1254,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 212419393.0,
      "step": 290
    },
    {
      "entropy": 0.4515533447265625,
      "epoch": 3.1630434782608696,
      "grad_norm": 1.7473376460905792,
      "learning_rate": 5e-06,
      "loss": 0.1053,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 213136423.0,
      "step": 291
    },
    {
      "entropy": 0.4752655029296875,
      "epoch": 3.1739130434782608,
      "grad_norm": 2.1515204173368287,
      "learning_rate": 4.970023150449212e-06,
      "loss": 0.1195,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 213860272.0,
      "step": 292
    },
    {
      "entropy": 0.4649810791015625,
      "epoch": 3.1847826086956523,
      "grad_norm": 1.161783320943298,
      "learning_rate": 4.940047378409786e-06,
      "loss": 0.101,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 214585378.0,
      "step": 293
    },
    {
      "entropy": 0.4721527099609375,
      "epoch": 3.1956521739130435,
      "grad_norm": 3.0488785231868123,
      "learning_rate": 4.910073761354354e-06,
      "loss": 0.107,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 215314317.0,
      "step": 294
    },
    {
      "entropy": 0.46148681640625,
      "epoch": 3.2065217391304346,
      "grad_norm": 1.6516119059470056,
      "learning_rate": 4.880103376678092e-06,
      "loss": 0.1493,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 216042661.0,
      "step": 295
    },
    {
      "entropy": 0.4746246337890625,
      "epoch": 3.217391304347826,
      "grad_norm": 1.3433413972107777,
      "learning_rate": 4.85013730165998e-06,
      "loss": 0.1165,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 216739339.0,
      "step": 296
    },
    {
      "entropy": 0.4756622314453125,
      "epoch": 3.2282608695652173,
      "grad_norm": 1.0606902080875695,
      "learning_rate": 4.820176613424095e-06,
      "loss": 0.1131,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 217447362.0,
      "step": 297
    },
    {
      "entropy": 0.471160888671875,
      "epoch": 3.239130434782609,
      "grad_norm": 2.6829918300905167,
      "learning_rate": 4.790222388900884e-06,
      "loss": 0.1359,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 218159550.0,
      "step": 298
    },
    {
      "entropy": 0.457366943359375,
      "epoch": 3.25,
      "grad_norm": 2.156725632423845,
      "learning_rate": 4.76027570478846e-06,
      "loss": 0.0913,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 218907185.0,
      "step": 299
    },
    {
      "entropy": 0.4667510986328125,
      "epoch": 3.260869565217391,
      "grad_norm": 1.4923911198913233,
      "learning_rate": 4.730337637513895e-06,
      "loss": 0.1077,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 219629892.0,
      "step": 300
    },
    {
      "entropy": 0.444305419921875,
      "epoch": 3.2717391304347827,
      "grad_norm": 2.224265044378792,
      "learning_rate": 4.7004092631945315e-06,
      "loss": 0.1105,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 220371515.0,
      "step": 301
    },
    {
      "entropy": 0.4423980712890625,
      "epoch": 3.282608695652174,
      "grad_norm": 1.7206600518501267,
      "learning_rate": 4.6704916575993005e-06,
      "loss": 0.0907,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 221083509.0,
      "step": 302
    },
    {
      "entropy": 0.4576873779296875,
      "epoch": 3.2934782608695654,
      "grad_norm": 2.2064022107618952,
      "learning_rate": 4.640585896110054e-06,
      "loss": 0.0863,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 221790221.0,
      "step": 303
    },
    {
      "entropy": 0.4293365478515625,
      "epoch": 3.3043478260869565,
      "grad_norm": 2.1883714877604845,
      "learning_rate": 4.610693053682912e-06,
      "loss": 0.0973,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 222530911.0,
      "step": 304
    },
    {
      "entropy": 0.4264984130859375,
      "epoch": 3.3152173913043477,
      "grad_norm": 2.3834016438237144,
      "learning_rate": 4.580814204809618e-06,
      "loss": 0.1032,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 223268218.0,
      "step": 305
    },
    {
      "entropy": 0.41900634765625,
      "epoch": 3.3260869565217392,
      "grad_norm": 2.6490430199075803,
      "learning_rate": 4.550950423478923e-06,
      "loss": 0.0844,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 224029981.0,
      "step": 306
    },
    {
      "entropy": 0.4272613525390625,
      "epoch": 3.3369565217391304,
      "grad_norm": 3.6746660606708046,
      "learning_rate": 4.521102783137976e-06,
      "loss": 0.1374,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 224764931.0,
      "step": 307
    },
    {
      "entropy": 0.434600830078125,
      "epoch": 3.3478260869565215,
      "grad_norm": 2.20001338119031,
      "learning_rate": 4.491272356653744e-06,
      "loss": 0.1132,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 225480310.0,
      "step": 308
    },
    {
      "entropy": 0.4244842529296875,
      "epoch": 3.358695652173913,
      "grad_norm": 1.9993437964090839,
      "learning_rate": 4.4614602162744455e-06,
      "loss": 0.1034,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 226234590.0,
      "step": 309
    },
    {
      "entropy": 0.4345855712890625,
      "epoch": 3.369565217391304,
      "grad_norm": 1.5262968680261388,
      "learning_rate": 4.431667433591006e-06,
      "loss": 0.111,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 226970294.0,
      "step": 310
    },
    {
      "entropy": 0.42413330078125,
      "epoch": 3.380434782608696,
      "grad_norm": 2.35507119419013,
      "learning_rate": 4.401895079498547e-06,
      "loss": 0.136,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 227710083.0,
      "step": 311
    },
    {
      "entropy": 0.4420013427734375,
      "epoch": 3.391304347826087,
      "grad_norm": 1.3792671057279202,
      "learning_rate": 4.372144224157886e-06,
      "loss": 0.1073,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 228441034.0,
      "step": 312
    },
    {
      "entropy": 0.44500732421875,
      "epoch": 3.4021739130434785,
      "grad_norm": 1.891708512758459,
      "learning_rate": 4.342415936957073e-06,
      "loss": 0.0919,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 229150719.0,
      "step": 313
    },
    {
      "entropy": 0.44757080078125,
      "epoch": 3.4130434782608696,
      "grad_norm": 1.3004145452455615,
      "learning_rate": 4.312711286472951e-06,
      "loss": 0.0907,
      "mean_token_accuracy": 0.9713541683740914,
      "num_tokens": 229905738.0,
      "step": 314
    },
    {
      "entropy": 0.4571685791015625,
      "epoch": 3.4239130434782608,
      "grad_norm": 1.663691919809748,
      "learning_rate": 4.2830313404327475e-06,
      "loss": 0.0985,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 230616921.0,
      "step": 315
    },
    {
      "entropy": 0.446929931640625,
      "epoch": 3.4347826086956523,
      "grad_norm": 3.2662278921856136,
      "learning_rate": 4.253377165675691e-06,
      "loss": 0.1271,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 231359817.0,
      "step": 316
    },
    {
      "entropy": 0.4698028564453125,
      "epoch": 3.4456521739130435,
      "grad_norm": 3.151079873363305,
      "learning_rate": 4.223749828114672e-06,
      "loss": 0.0939,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 232068027.0,
      "step": 317
    },
    {
      "entropy": 0.4601593017578125,
      "epoch": 3.4565217391304346,
      "grad_norm": 2.219657071685145,
      "learning_rate": 4.19415039269792e-06,
      "loss": 0.1065,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 232796890.0,
      "step": 318
    },
    {
      "entropy": 0.470306396484375,
      "epoch": 3.467391304347826,
      "grad_norm": 3.478840356416632,
      "learning_rate": 4.1645799233707286e-06,
      "loss": 0.1169,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 233512366.0,
      "step": 319
    },
    {
      "entropy": 0.4529571533203125,
      "epoch": 3.4782608695652173,
      "grad_norm": 2.0797980654995762,
      "learning_rate": 4.1350394830372106e-06,
      "loss": 0.1014,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 234262329.0,
      "step": 320
    },
    {
      "entropy": 0.4445037841796875,
      "epoch": 3.489130434782609,
      "grad_norm": 2.474993845281043,
      "learning_rate": 4.105530133522096e-06,
      "loss": 0.1168,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 234992618.0,
      "step": 321
    },
    {
      "entropy": 0.4445343017578125,
      "epoch": 3.5,
      "grad_norm": 2.9427762933145303,
      "learning_rate": 4.076052935532559e-06,
      "loss": 0.1059,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 235719995.0,
      "step": 322
    },
    {
      "entropy": 0.4449005126953125,
      "epoch": 3.5108695652173916,
      "grad_norm": 1.427282302569735,
      "learning_rate": 4.046608948620098e-06,
      "loss": 0.0775,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 236466439.0,
      "step": 323
    },
    {
      "entropy": 0.437744140625,
      "epoch": 3.5217391304347827,
      "grad_norm": 2.1178562808749946,
      "learning_rate": 4.017199231142441e-06,
      "loss": 0.1105,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 237210401.0,
      "step": 324
    },
    {
      "entropy": 0.4417877197265625,
      "epoch": 3.532608695652174,
      "grad_norm": 1.3623120810517892,
      "learning_rate": 3.987824840225512e-06,
      "loss": 0.0848,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 237971302.0,
      "step": 325
    },
    {
      "entropy": 0.439056396484375,
      "epoch": 3.5434782608695654,
      "grad_norm": 2.8129554185940635,
      "learning_rate": 3.9584868317254325e-06,
      "loss": 0.0896,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 238706588.0,
      "step": 326
    },
    {
      "entropy": 0.446807861328125,
      "epoch": 3.5543478260869565,
      "grad_norm": 1.4232885839302145,
      "learning_rate": 3.92918626019056e-06,
      "loss": 0.0896,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 239434561.0,
      "step": 327
    },
    {
      "entropy": 0.4551544189453125,
      "epoch": 3.5652173913043477,
      "grad_norm": 1.9560189912268775,
      "learning_rate": 3.8999241788235896e-06,
      "loss": 0.1078,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 240168109.0,
      "step": 328
    },
    {
      "entropy": 0.44036865234375,
      "epoch": 3.5760869565217392,
      "grad_norm": 1.770419478884841,
      "learning_rate": 3.8707016394436985e-06,
      "loss": 0.0805,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 240901031.0,
      "step": 329
    },
    {
      "entropy": 0.426849365234375,
      "epoch": 3.5869565217391304,
      "grad_norm": 1.820144992799455,
      "learning_rate": 3.841519692448732e-06,
      "loss": 0.1217,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 241647113.0,
      "step": 330
    },
    {
      "entropy": 0.429931640625,
      "epoch": 3.5978260869565215,
      "grad_norm": 1.9184924440992128,
      "learning_rate": 3.8123793867774573e-06,
      "loss": 0.088,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 242384229.0,
      "step": 331
    },
    {
      "entropy": 0.4241943359375,
      "epoch": 3.608695652173913,
      "grad_norm": 3.6535797390559694,
      "learning_rate": 3.7832817698718456e-06,
      "loss": 0.1336,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 243104844.0,
      "step": 332
    },
    {
      "entropy": 0.4391937255859375,
      "epoch": 3.619565217391304,
      "grad_norm": 2.243434724409479,
      "learning_rate": 3.754227887639434e-06,
      "loss": 0.0849,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 243823295.0,
      "step": 333
    },
    {
      "entropy": 0.4254302978515625,
      "epoch": 3.630434782608696,
      "grad_norm": 3.359313018569261,
      "learning_rate": 3.725218784415723e-06,
      "loss": 0.103,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 244554740.0,
      "step": 334
    },
    {
      "entropy": 0.4165802001953125,
      "epoch": 3.641304347826087,
      "grad_norm": 2.8738785617856375,
      "learning_rate": 3.6962555029266488e-06,
      "loss": 0.1036,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 245314996.0,
      "step": 335
    },
    {
      "entropy": 0.4208526611328125,
      "epoch": 3.6521739130434785,
      "grad_norm": 2.139849028754957,
      "learning_rate": 3.667339084251087e-06,
      "loss": 0.0972,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 246051278.0,
      "step": 336
    },
    {
      "entropy": 0.410919189453125,
      "epoch": 3.6630434782608696,
      "grad_norm": 2.6373504192001813,
      "learning_rate": 3.638470567783442e-06,
      "loss": 0.0839,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 246788729.0,
      "step": 337
    },
    {
      "entropy": 0.4103546142578125,
      "epoch": 3.6739130434782608,
      "grad_norm": 3.69773965597217,
      "learning_rate": 3.609650991196285e-06,
      "loss": 0.084,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 247525757.0,
      "step": 338
    },
    {
      "entropy": 0.41436767578125,
      "epoch": 3.6847826086956523,
      "grad_norm": 2.460616360770657,
      "learning_rate": 3.5808813904030517e-06,
      "loss": 0.08,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 248262278.0,
      "step": 339
    },
    {
      "entropy": 0.4022369384765625,
      "epoch": 3.6956521739130435,
      "grad_norm": 1.5116339266661396,
      "learning_rate": 3.5521627995208146e-06,
      "loss": 0.0702,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 249010605.0,
      "step": 340
    },
    {
      "entropy": 0.40704345703125,
      "epoch": 3.7065217391304346,
      "grad_norm": 3.141992025955346,
      "learning_rate": 3.523496250833098e-06,
      "loss": 0.0794,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 249754972.0,
      "step": 341
    },
    {
      "entropy": 0.404327392578125,
      "epoch": 3.717391304347826,
      "grad_norm": 1.7992826366236954,
      "learning_rate": 3.4948827747527846e-06,
      "loss": 0.0864,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 250482210.0,
      "step": 342
    },
    {
      "entropy": 0.4138946533203125,
      "epoch": 3.7282608695652173,
      "grad_norm": 2.720361450431354,
      "learning_rate": 3.466323399785072e-06,
      "loss": 0.0982,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 251206312.0,
      "step": 343
    },
    {
      "entropy": 0.4068756103515625,
      "epoch": 3.7391304347826084,
      "grad_norm": 3.313444571027899,
      "learning_rate": 3.4378191524905104e-06,
      "loss": 0.0924,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 251940787.0,
      "step": 344
    },
    {
      "entropy": 0.39459228515625,
      "epoch": 3.75,
      "grad_norm": 2.179060118860267,
      "learning_rate": 3.4093710574480926e-06,
      "loss": 0.0727,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 252667326.0,
      "step": 345
    },
    {
      "entropy": 0.394989013671875,
      "epoch": 3.7608695652173916,
      "grad_norm": 3.239581528278896,
      "learning_rate": 3.3809801372184305e-06,
      "loss": 0.086,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 253409331.0,
      "step": 346
    },
    {
      "entropy": 0.395904541015625,
      "epoch": 3.7717391304347827,
      "grad_norm": 3.712206820653593,
      "learning_rate": 3.352647412307002e-06,
      "loss": 0.1257,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 254152233.0,
      "step": 347
    },
    {
      "entropy": 0.388031005859375,
      "epoch": 3.782608695652174,
      "grad_norm": 3.040551001448955,
      "learning_rate": 3.3243739011274645e-06,
      "loss": 0.1028,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 254869902.0,
      "step": 348
    },
    {
      "entropy": 0.3971405029296875,
      "epoch": 3.7934782608695654,
      "grad_norm": 3.2222316662685078,
      "learning_rate": 3.296160619965056e-06,
      "loss": 0.0931,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 255587572.0,
      "step": 349
    },
    {
      "entropy": 0.388824462890625,
      "epoch": 3.8043478260869565,
      "grad_norm": 3.2238950116576097,
      "learning_rate": 3.2680085829400553e-06,
      "loss": 0.0941,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 256334110.0,
      "step": 350
    },
    {
      "entropy": 0.396484375,
      "epoch": 3.8152173913043477,
      "grad_norm": 1.941909745811051,
      "learning_rate": 3.2399188019713325e-06,
      "loss": 0.0635,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 257063063.0,
      "step": 351
    },
    {
      "entropy": 0.397705078125,
      "epoch": 3.8260869565217392,
      "grad_norm": 3.1623853656013754,
      "learning_rate": 3.2118922867399776e-06,
      "loss": 0.0692,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 257787823.0,
      "step": 352
    },
    {
      "entropy": 0.3954315185546875,
      "epoch": 3.8369565217391304,
      "grad_norm": 2.553360929898648,
      "learning_rate": 3.183930044653014e-06,
      "loss": 0.0799,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 258511897.0,
      "step": 353
    },
    {
      "entropy": 0.384552001953125,
      "epoch": 3.8478260869565215,
      "grad_norm": 2.163235175390659,
      "learning_rate": 3.156033080807175e-06,
      "loss": 0.0593,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 259251524.0,
      "step": 354
    },
    {
      "entropy": 0.3790130615234375,
      "epoch": 3.858695652173913,
      "grad_norm": 4.68919443107796,
      "learning_rate": 3.128202397952781e-06,
      "loss": 0.0866,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 259990633.0,
      "step": 355
    },
    {
      "entropy": 0.377288818359375,
      "epoch": 3.869565217391304,
      "grad_norm": 1.9840564696526386,
      "learning_rate": 3.1004389964576976e-06,
      "loss": 0.0646,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 260716262.0,
      "step": 356
    },
    {
      "entropy": 0.3857574462890625,
      "epoch": 3.880434782608696,
      "grad_norm": 2.6794387414527256,
      "learning_rate": 3.0727438742713766e-06,
      "loss": 0.0763,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 261458207.0,
      "step": 357
    },
    {
      "entropy": 0.3833770751953125,
      "epoch": 3.891304347826087,
      "grad_norm": 2.9808276537112715,
      "learning_rate": 3.045118026888988e-06,
      "loss": 0.0531,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 262187662.0,
      "step": 358
    },
    {
      "entropy": 0.4000244140625,
      "epoch": 3.9021739130434785,
      "grad_norm": 2.7620890719103746,
      "learning_rate": 3.0175624473156315e-06,
      "loss": 0.0781,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 262910882.0,
      "step": 359
    },
    {
      "entropy": 0.37127685546875,
      "epoch": 3.9130434782608696,
      "grad_norm": 2.7510888926988195,
      "learning_rate": 2.9900781260306427e-06,
      "loss": 0.0852,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 263687774.0,
      "step": 360
    },
    {
      "entropy": 0.3938446044921875,
      "epoch": 3.9239130434782608,
      "grad_norm": 6.337664888717929,
      "learning_rate": 2.962666050951997e-06,
      "loss": 0.0893,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 264418788.0,
      "step": 361
    },
    {
      "entropy": 0.389923095703125,
      "epoch": 3.9347826086956523,
      "grad_norm": 6.7980024204714455,
      "learning_rate": 2.9353272074007933e-06,
      "loss": 0.1164,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 265155019.0,
      "step": 362
    },
    {
      "entropy": 0.37786865234375,
      "epoch": 3.9456521739130435,
      "grad_norm": 5.935949663530342,
      "learning_rate": 2.9080625780658455e-06,
      "loss": 0.0844,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 265897370.0,
      "step": 363
    },
    {
      "entropy": 0.394927978515625,
      "epoch": 3.9565217391304346,
      "grad_norm": 2.4465710963547944,
      "learning_rate": 2.8808731429683433e-06,
      "loss": 0.0875,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 266629479.0,
      "step": 364
    },
    {
      "entropy": 0.3730316162109375,
      "epoch": 3.967391304347826,
      "grad_norm": 3.5683194522600483,
      "learning_rate": 2.853759879426644e-06,
      "loss": 0.0674,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 267386177.0,
      "step": 365
    },
    {
      "entropy": 0.366302490234375,
      "epoch": 3.9782608695652173,
      "grad_norm": 2.68366600868882,
      "learning_rate": 2.8267237620211296e-06,
      "loss": 0.0679,
      "mean_token_accuracy": 0.9713541683740914,
      "num_tokens": 268144890.0,
      "step": 366
    },
    {
      "entropy": 0.3921661376953125,
      "epoch": 3.9891304347826084,
      "grad_norm": 4.863063218879701,
      "learning_rate": 2.7997657625591866e-06,
      "loss": 0.0795,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 268868996.0,
      "step": 367
    },
    {
      "entropy": 0.38543701171875,
      "epoch": 4.0,
      "grad_norm": 3.2004524443473854,
      "learning_rate": 2.772886850040264e-06,
      "loss": 0.0518,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 269604313.0,
      "step": 368
    },
    {
      "entropy": 0.3769683837890625,
      "epoch": 4.010869565217392,
      "grad_norm": 3.4659183188297495,
      "learning_rate": 2.7460879906210485e-06,
      "loss": 0.0563,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 270340362.0,
      "step": 369
    },
    {
      "entropy": 0.3636627197265625,
      "epoch": 4.021739130434782,
      "grad_norm": 4.4719120474649054,
      "learning_rate": 2.7193701475807376e-06,
      "loss": 0.0666,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 271068090.0,
      "step": 370
    },
    {
      "entropy": 0.3695831298828125,
      "epoch": 4.032608695652174,
      "grad_norm": 3.2911080310682883,
      "learning_rate": 2.6927342812864117e-06,
      "loss": 0.0476,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 271823613.0,
      "step": 371
    },
    {
      "entropy": 0.35894775390625,
      "epoch": 4.043478260869565,
      "grad_norm": 2.2755627960647233,
      "learning_rate": 2.6661813491585133e-06,
      "loss": 0.0428,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 272584056.0,
      "step": 372
    },
    {
      "entropy": 0.3820343017578125,
      "epoch": 4.054347826086956,
      "grad_norm": 2.082384982189385,
      "learning_rate": 2.6397123056364364e-06,
      "loss": 0.0375,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 273310463.0,
      "step": 373
    },
    {
      "entropy": 0.3758544921875,
      "epoch": 4.065217391304348,
      "grad_norm": 2.2984310307881612,
      "learning_rate": 2.613328102144216e-06,
      "loss": 0.0459,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 274049501.0,
      "step": 374
    },
    {
      "entropy": 0.3652191162109375,
      "epoch": 4.076086956521739,
      "grad_norm": 2.8540443718786803,
      "learning_rate": 2.5870296870563287e-06,
      "loss": 0.0457,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 274792270.0,
      "step": 375
    },
    {
      "entropy": 0.3785247802734375,
      "epoch": 4.086956521739131,
      "grad_norm": 5.935760043316941,
      "learning_rate": 2.5608180056636123e-06,
      "loss": 0.078,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 275525315.0,
      "step": 376
    },
    {
      "entropy": 0.3821258544921875,
      "epoch": 4.0978260869565215,
      "grad_norm": 4.421973911070414,
      "learning_rate": 2.534694000139273e-06,
      "loss": 0.0548,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 276256455.0,
      "step": 377
    },
    {
      "entropy": 0.3754425048828125,
      "epoch": 4.108695652173913,
      "grad_norm": 2.281738157842303,
      "learning_rate": 2.5086586095050314e-06,
      "loss": 0.0539,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 276998211.0,
      "step": 378
    },
    {
      "entropy": 0.373748779296875,
      "epoch": 4.119565217391305,
      "grad_norm": 1.9002371809518064,
      "learning_rate": 2.482712769597363e-06,
      "loss": 0.0295,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 277706989.0,
      "step": 379
    },
    {
      "entropy": 0.366363525390625,
      "epoch": 4.130434782608695,
      "grad_norm": 2.8114679385184314,
      "learning_rate": 2.4568574130338624e-06,
      "loss": 0.0548,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 278413603.0,
      "step": 380
    },
    {
      "entropy": 0.3585968017578125,
      "epoch": 4.141304347826087,
      "grad_norm": 5.838585606847557,
      "learning_rate": 2.4310934691797207e-06,
      "loss": 0.06,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 279161601.0,
      "step": 381
    },
    {
      "entropy": 0.3602752685546875,
      "epoch": 4.1521739130434785,
      "grad_norm": 4.335154593877668,
      "learning_rate": 2.405421864114318e-06,
      "loss": 0.0424,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 279923911.0,
      "step": 382
    },
    {
      "entropy": 0.3696746826171875,
      "epoch": 4.163043478260869,
      "grad_norm": 2.3856806706801366,
      "learning_rate": 2.379843520597937e-06,
      "loss": 0.0479,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 280628538.0,
      "step": 383
    },
    {
      "entropy": 0.3564453125,
      "epoch": 4.173913043478261,
      "grad_norm": 2.2199629984554647,
      "learning_rate": 2.3543593580385925e-06,
      "loss": 0.0335,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 281386515.0,
      "step": 384
    },
    {
      "entropy": 0.3761444091796875,
      "epoch": 4.184782608695652,
      "grad_norm": 1.8672445701976537,
      "learning_rate": 2.3289702924589914e-06,
      "loss": 0.0352,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 282106058.0,
      "step": 385
    },
    {
      "entropy": 0.3756103515625,
      "epoch": 4.195652173913044,
      "grad_norm": 2.023563500520965,
      "learning_rate": 2.303677236463593e-06,
      "loss": 0.0494,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 282842724.0,
      "step": 386
    },
    {
      "entropy": 0.362640380859375,
      "epoch": 4.206521739130435,
      "grad_norm": 2.633536101411254,
      "learning_rate": 2.2784810992058155e-06,
      "loss": 0.0554,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 283581050.0,
      "step": 387
    },
    {
      "entropy": 0.3733673095703125,
      "epoch": 4.217391304347826,
      "grad_norm": 3.2250525008424673,
      "learning_rate": 2.2533827863553552e-06,
      "loss": 0.0341,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 284317442.0,
      "step": 388
    },
    {
      "entropy": 0.3843841552734375,
      "epoch": 4.228260869565218,
      "grad_norm": 3.284477063949942,
      "learning_rate": 2.2283832000656304e-06,
      "loss": 0.0506,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 285018593.0,
      "step": 389
    },
    {
      "entropy": 0.3668975830078125,
      "epoch": 4.239130434782608,
      "grad_norm": 5.928598610402646,
      "learning_rate": 2.2034832389413536e-06,
      "loss": 0.0455,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 285750722.0,
      "step": 390
    },
    {
      "entropy": 0.36572265625,
      "epoch": 4.25,
      "grad_norm": 3.6471109741765257,
      "learning_rate": 2.178683798006234e-06,
      "loss": 0.0452,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 286480737.0,
      "step": 391
    },
    {
      "entropy": 0.36871337890625,
      "epoch": 4.260869565217392,
      "grad_norm": 3.3419104402538635,
      "learning_rate": 2.153985768670803e-06,
      "loss": 0.0488,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 287212069.0,
      "step": 392
    },
    {
      "entropy": 0.3669281005859375,
      "epoch": 4.271739130434782,
      "grad_norm": 3.7300842573513497,
      "learning_rate": 2.1293900387003742e-06,
      "loss": 0.0425,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 287943901.0,
      "step": 393
    },
    {
      "entropy": 0.3869171142578125,
      "epoch": 4.282608695652174,
      "grad_norm": 3.2084206024464104,
      "learning_rate": 2.104897492183135e-06,
      "loss": 0.0385,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 288656541.0,
      "step": 394
    },
    {
      "entropy": 0.3887176513671875,
      "epoch": 4.293478260869565,
      "grad_norm": 4.961188180697452,
      "learning_rate": 2.080509009498364e-06,
      "loss": 0.0668,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 289365793.0,
      "step": 395
    },
    {
      "entropy": 0.37005615234375,
      "epoch": 4.304347826086957,
      "grad_norm": 3.5977985886722825,
      "learning_rate": 2.056225467284786e-06,
      "loss": 0.0486,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 290122511.0,
      "step": 396
    },
    {
      "entropy": 0.3708038330078125,
      "epoch": 4.315217391304348,
      "grad_norm": 2.4810479470720037,
      "learning_rate": 2.0320477384090665e-06,
      "loss": 0.0189,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 290837689.0,
      "step": 397
    },
    {
      "entropy": 0.3691253662109375,
      "epoch": 4.326086956521739,
      "grad_norm": 3.3287339112960592,
      "learning_rate": 2.007976691934432e-06,
      "loss": 0.0663,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 291569921.0,
      "step": 398
    },
    {
      "entropy": 0.3631591796875,
      "epoch": 4.336956521739131,
      "grad_norm": 3.916264969749283,
      "learning_rate": 1.9840131930894334e-06,
      "loss": 0.0423,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 292292637.0,
      "step": 399
    },
    {
      "entropy": 0.36529541015625,
      "epoch": 4.3478260869565215,
      "grad_norm": 3.2405152021863475,
      "learning_rate": 1.9601581032368457e-06,
      "loss": 0.0357,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 293013524.0,
      "step": 400
    },
    {
      "entropy": 0.36810302734375,
      "epoch": 4.358695652173913,
      "grad_norm": 3.8484004278466175,
      "learning_rate": 1.936412279842705e-06,
      "loss": 0.0376,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 293738418.0,
      "step": 401
    },
    {
      "entropy": 0.38067626953125,
      "epoch": 4.369565217391305,
      "grad_norm": 3.525130558086958,
      "learning_rate": 1.912776576445488e-06,
      "loss": 0.0429,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 294462507.0,
      "step": 402
    },
    {
      "entropy": 0.3585052490234375,
      "epoch": 4.380434782608695,
      "grad_norm": 2.250246086502022,
      "learning_rate": 1.8892518426254363e-06,
      "loss": 0.0256,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 295213122.0,
      "step": 403
    },
    {
      "entropy": 0.3690185546875,
      "epoch": 4.391304347826087,
      "grad_norm": 3.2527904596357318,
      "learning_rate": 1.8658389239740094e-06,
      "loss": 0.0516,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 295955785.0,
      "step": 404
    },
    {
      "entropy": 0.3883819580078125,
      "epoch": 4.4021739130434785,
      "grad_norm": 2.164365648657982,
      "learning_rate": 1.8425386620634961e-06,
      "loss": 0.0381,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 296686141.0,
      "step": 405
    },
    {
      "entropy": 0.3680419921875,
      "epoch": 4.413043478260869,
      "grad_norm": 3.4647104323050417,
      "learning_rate": 1.8193518944167625e-06,
      "loss": 0.0672,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 297402535.0,
      "step": 406
    },
    {
      "entropy": 0.37060546875,
      "epoch": 4.423913043478261,
      "grad_norm": 2.2826455899833924,
      "learning_rate": 1.7962794544771477e-06,
      "loss": 0.0318,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 298141881.0,
      "step": 407
    },
    {
      "entropy": 0.376617431640625,
      "epoch": 4.434782608695652,
      "grad_norm": 2.9931055450631696,
      "learning_rate": 1.773322171578512e-06,
      "loss": 0.0449,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 298886718.0,
      "step": 408
    },
    {
      "entropy": 0.3712615966796875,
      "epoch": 4.445652173913043,
      "grad_norm": 3.600830424301089,
      "learning_rate": 1.7504808709154104e-06,
      "loss": 0.0514,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 299646262.0,
      "step": 409
    },
    {
      "entropy": 0.3692169189453125,
      "epoch": 4.456521739130435,
      "grad_norm": 1.3253503452801523,
      "learning_rate": 1.727756373513449e-06,
      "loss": 0.0188,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 300388639.0,
      "step": 410
    },
    {
      "entropy": 0.3683013916015625,
      "epoch": 4.467391304347826,
      "grad_norm": 2.4381572867857426,
      "learning_rate": 1.7051494961997623e-06,
      "loss": 0.0296,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 301099196.0,
      "step": 411
    },
    {
      "entropy": 0.3622589111328125,
      "epoch": 4.478260869565218,
      "grad_norm": 2.7029814314509526,
      "learning_rate": 1.6826610515736618e-06,
      "loss": 0.0221,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 301853509.0,
      "step": 412
    },
    {
      "entropy": 0.3836212158203125,
      "epoch": 4.489130434782608,
      "grad_norm": 2.1360252181123403,
      "learning_rate": 1.660291847977415e-06,
      "loss": 0.0292,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 302547819.0,
      "step": 413
    },
    {
      "entropy": 0.3631134033203125,
      "epoch": 4.5,
      "grad_norm": 3.8892065770784976,
      "learning_rate": 1.6380426894672003e-06,
      "loss": 0.0395,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 303298133.0,
      "step": 414
    },
    {
      "entropy": 0.373687744140625,
      "epoch": 4.510869565217392,
      "grad_norm": 1.5931759035477582,
      "learning_rate": 1.6159143757842005e-06,
      "loss": 0.0126,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 304028110.0,
      "step": 415
    },
    {
      "entropy": 0.3832550048828125,
      "epoch": 4.521739130434782,
      "grad_norm": 2.9266183164357202,
      "learning_rate": 1.5939077023258547e-06,
      "loss": 0.0305,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 304738623.0,
      "step": 416
    },
    {
      "entropy": 0.3830108642578125,
      "epoch": 4.532608695652174,
      "grad_norm": 2.3410447204251743,
      "learning_rate": 1.5720234601172767e-06,
      "loss": 0.0219,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 305455529.0,
      "step": 417
    },
    {
      "entropy": 0.361083984375,
      "epoch": 4.543478260869565,
      "grad_norm": 3.6230063541490947,
      "learning_rate": 1.5502624357828118e-06,
      "loss": 0.0322,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 306227061.0,
      "step": 418
    },
    {
      "entropy": 0.37835693359375,
      "epoch": 4.554347826086957,
      "grad_norm": 4.381556788199455,
      "learning_rate": 1.5286254115177623e-06,
      "loss": 0.0436,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 306946162.0,
      "step": 419
    },
    {
      "entropy": 0.3643951416015625,
      "epoch": 4.565217391304348,
      "grad_norm": 6.544082986897983,
      "learning_rate": 1.5071131650602782e-06,
      "loss": 0.0368,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 307682683.0,
      "step": 420
    },
    {
      "entropy": 0.382232666015625,
      "epoch": 4.576086956521739,
      "grad_norm": 3.1706389051138673,
      "learning_rate": 1.485726469663401e-06,
      "loss": 0.0408,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 308403966.0,
      "step": 421
    },
    {
      "entropy": 0.384979248046875,
      "epoch": 4.586956521739131,
      "grad_norm": 2.256895014157451,
      "learning_rate": 1.4644660940672628e-06,
      "loss": 0.0216,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 309112733.0,
      "step": 422
    },
    {
      "entropy": 0.3797607421875,
      "epoch": 4.5978260869565215,
      "grad_norm": 2.4229364921890166,
      "learning_rate": 1.4433328024714583e-06,
      "loss": 0.0355,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 309840224.0,
      "step": 423
    },
    {
      "entropy": 0.3744354248046875,
      "epoch": 4.608695652173913,
      "grad_norm": 3.78131994137205,
      "learning_rate": 1.422327354507575e-06,
      "loss": 0.0491,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 310579355.0,
      "step": 424
    },
    {
      "entropy": 0.3811187744140625,
      "epoch": 4.619565217391305,
      "grad_norm": 1.293390150872488,
      "learning_rate": 1.4014505052118893e-06,
      "loss": 0.021,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 311300709.0,
      "step": 425
    },
    {
      "entropy": 0.37059783935546875,
      "epoch": 4.630434782608695,
      "grad_norm": 2.5005118840623926,
      "learning_rate": 1.3807030049982284e-06,
      "loss": 0.0394,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 312044887.0,
      "step": 426
    },
    {
      "entropy": 0.364837646484375,
      "epoch": 4.641304347826087,
      "grad_norm": 3.4328331024935927,
      "learning_rate": 1.3600855996309937e-06,
      "loss": 0.0359,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 312805804.0,
      "step": 427
    },
    {
      "entropy": 0.3707122802734375,
      "epoch": 4.6521739130434785,
      "grad_norm": 1.5506314928638918,
      "learning_rate": 1.339599030198351e-06,
      "loss": 0.0153,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 313546303.0,
      "step": 428
    },
    {
      "entropy": 0.365325927734375,
      "epoch": 4.663043478260869,
      "grad_norm": 6.075100590757548,
      "learning_rate": 1.3192440330856005e-06,
      "loss": 0.0345,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 314287919.0,
      "step": 429
    },
    {
      "entropy": 0.3762969970703125,
      "epoch": 4.673913043478261,
      "grad_norm": 3.477915006597565,
      "learning_rate": 1.2990213399487078e-06,
      "loss": 0.0343,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 315036747.0,
      "step": 430
    },
    {
      "entropy": 0.36798095703125,
      "epoch": 4.684782608695652,
      "grad_norm": 3.30482815177179,
      "learning_rate": 1.278931677687994e-06,
      "loss": 0.0349,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 315777121.0,
      "step": 431
    },
    {
      "entropy": 0.3956756591796875,
      "epoch": 4.695652173913043,
      "grad_norm": 2.2624261119530336,
      "learning_rate": 1.2589757684220182e-06,
      "loss": 0.0279,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 316491657.0,
      "step": 432
    },
    {
      "entropy": 0.386871337890625,
      "epoch": 4.706521739130435,
      "grad_norm": 2.5987102967662885,
      "learning_rate": 1.239154329461615e-06,
      "loss": 0.025,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 317203117.0,
      "step": 433
    },
    {
      "entropy": 0.3802032470703125,
      "epoch": 4.717391304347826,
      "grad_norm": 11.78976220636319,
      "learning_rate": 1.2194680732841125e-06,
      "loss": 0.027,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 317932939.0,
      "step": 434
    },
    {
      "entropy": 0.3695831298828125,
      "epoch": 4.728260869565218,
      "grad_norm": 1.4535726565638205,
      "learning_rate": 1.1999177075077278e-06,
      "loss": 0.0157,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 318655131.0,
      "step": 435
    },
    {
      "entropy": 0.372222900390625,
      "epoch": 4.739130434782608,
      "grad_norm": 2.227860216915282,
      "learning_rate": 1.1805039348661213e-06,
      "loss": 0.0339,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 319425916.0,
      "step": 436
    },
    {
      "entropy": 0.36780548095703125,
      "epoch": 4.75,
      "grad_norm": 2.968190898882345,
      "learning_rate": 1.1612274531831463e-06,
      "loss": 0.0404,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 320188164.0,
      "step": 437
    },
    {
      "entropy": 0.3725128173828125,
      "epoch": 4.760869565217392,
      "grad_norm": 2.5729176879902607,
      "learning_rate": 1.1420889553477577e-06,
      "loss": 0.0242,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 320945078.0,
      "step": 438
    },
    {
      "entropy": 0.366943359375,
      "epoch": 4.771739130434782,
      "grad_norm": 4.223126656600791,
      "learning_rate": 1.1230891292891173e-06,
      "loss": 0.0409,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 321667110.0,
      "step": 439
    },
    {
      "entropy": 0.38299560546875,
      "epoch": 4.782608695652174,
      "grad_norm": 2.1752650444040267,
      "learning_rate": 1.1042286579518556e-06,
      "loss": 0.017,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 322368132.0,
      "step": 440
    },
    {
      "entropy": 0.37657928466796875,
      "epoch": 4.793478260869565,
      "grad_norm": 3.562638448582633,
      "learning_rate": 1.0855082192715294e-06,
      "loss": 0.0175,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 323081138.0,
      "step": 441
    },
    {
      "entropy": 0.3576202392578125,
      "epoch": 4.804347826086957,
      "grad_norm": 3.184207694087955,
      "learning_rate": 1.0669284861502517e-06,
      "loss": 0.0292,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 323834782.0,
      "step": 442
    },
    {
      "entropy": 0.3623504638671875,
      "epoch": 4.815217391304348,
      "grad_norm": 3.6116684829143364,
      "learning_rate": 1.0484901264325026e-06,
      "loss": 0.0327,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 324572560.0,
      "step": 443
    },
    {
      "entropy": 0.36328887939453125,
      "epoch": 4.826086956521739,
      "grad_norm": 3.0120967338129527,
      "learning_rate": 1.0301938028811303e-06,
      "loss": 0.044,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 325333579.0,
      "step": 444
    },
    {
      "entropy": 0.3816680908203125,
      "epoch": 4.836956521739131,
      "grad_norm": 3.2134089116785405,
      "learning_rate": 1.0120401731535213e-06,
      "loss": 0.014,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 326043919.0,
      "step": 445
    },
    {
      "entropy": 0.3697967529296875,
      "epoch": 4.8478260869565215,
      "grad_norm": 2.6103431867165816,
      "learning_rate": 9.940298897779615e-07,
      "loss": 0.0194,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 326778355.0,
      "step": 446
    },
    {
      "entropy": 0.3659210205078125,
      "epoch": 4.858695652173913,
      "grad_norm": 4.884732310839583,
      "learning_rate": 9.761636001301872e-07,
      "loss": 0.0285,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 327526403.0,
      "step": 447
    },
    {
      "entropy": 0.3646392822265625,
      "epoch": 4.869565217391305,
      "grad_norm": 1.0429953820202293,
      "learning_rate": 9.58441946410108e-07,
      "loss": 0.006,
      "mean_token_accuracy": 1.0,
      "num_tokens": 328261381.0,
      "step": 448
    },
    {
      "entropy": 0.361419677734375,
      "epoch": 4.880434782608695,
      "grad_norm": 4.329163549844521,
      "learning_rate": 9.408655656187282e-07,
      "loss": 0.0359,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 328976161.0,
      "step": 449
    },
    {
      "entropy": 0.36328125,
      "epoch": 4.891304347826087,
      "grad_norm": 4.6985890498926635,
      "learning_rate": 9.234350895352479e-07,
      "loss": 0.0395,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 329743013.0,
      "step": 450
    },
    {
      "entropy": 0.3837738037109375,
      "epoch": 4.9021739130434785,
      "grad_norm": 1.7936039900654406,
      "learning_rate": 9.061511446943533e-07,
      "loss": 0.0363,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 330461831.0,
      "step": 451
    },
    {
      "entropy": 0.3709564208984375,
      "epoch": 4.913043478260869,
      "grad_norm": 2.8010113777728196,
      "learning_rate": 8.890143523636968e-07,
      "loss": 0.0149,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 331179069.0,
      "step": 452
    },
    {
      "entropy": 0.3599700927734375,
      "epoch": 4.923913043478261,
      "grad_norm": 2.6542140850623417,
      "learning_rate": 8.720253285215685e-07,
      "loss": 0.0281,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 331906230.0,
      "step": 453
    },
    {
      "entropy": 0.36761474609375,
      "epoch": 4.934782608695652,
      "grad_norm": 2.102787378002008,
      "learning_rate": 8.551846838347489e-07,
      "loss": 0.0179,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 332636933.0,
      "step": 454
    },
    {
      "entropy": 0.3569183349609375,
      "epoch": 4.945652173913043,
      "grad_norm": 2.9898520005790896,
      "learning_rate": 8.384930236365629e-07,
      "loss": 0.0348,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 333371219.0,
      "step": 455
    },
    {
      "entropy": 0.3638763427734375,
      "epoch": 4.956521739130435,
      "grad_norm": 3.55912600331846,
      "learning_rate": 8.219509479051202e-07,
      "loss": 0.0168,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 334098665.0,
      "step": 456
    },
    {
      "entropy": 0.3528289794921875,
      "epoch": 4.967391304347826,
      "grad_norm": 5.453672915889957,
      "learning_rate": 8.055590512417499e-07,
      "loss": 0.0423,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 334840357.0,
      "step": 457
    },
    {
      "entropy": 0.36893463134765625,
      "epoch": 4.978260869565218,
      "grad_norm": 3.6882699724440258,
      "learning_rate": 7.893179228496261e-07,
      "loss": 0.0261,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 335587828.0,
      "step": 458
    },
    {
      "entropy": 0.357147216796875,
      "epoch": 4.989130434782608,
      "grad_norm": 3.05349873490017,
      "learning_rate": 7.732281465125907e-07,
      "loss": 0.0265,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 336312631.0,
      "step": 459
    },
    {
      "entropy": 0.3609161376953125,
      "epoch": 5.0,
      "grad_norm": 4.112829235471871,
      "learning_rate": 7.572903005741689e-07,
      "loss": 0.0439,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 337051194.0,
      "step": 460
    },
    {
      "entropy": 0.36293792724609375,
      "epoch": 5.010869565217392,
      "grad_norm": 1.260493729373897,
      "learning_rate": 7.415049579167783e-07,
      "loss": 0.0168,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 337793611.0,
      "step": 461
    },
    {
      "entropy": 0.3505401611328125,
      "epoch": 5.021739130434782,
      "grad_norm": 1.8319023947336366,
      "learning_rate": 7.258726859411435e-07,
      "loss": 0.0094,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 338527325.0,
      "step": 462
    },
    {
      "entropy": 0.3615875244140625,
      "epoch": 5.032608695652174,
      "grad_norm": 1.3895590520605454,
      "learning_rate": 7.103940465458936e-07,
      "loss": 0.0152,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 339239042.0,
      "step": 463
    },
    {
      "entropy": 0.36785888671875,
      "epoch": 5.043478260869565,
      "grad_norm": 3.5966853869255013,
      "learning_rate": 6.950695961073684e-07,
      "loss": 0.0194,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 339964458.0,
      "step": 464
    },
    {
      "entropy": 0.35654449462890625,
      "epoch": 5.054347826086956,
      "grad_norm": 2.608575559430269,
      "learning_rate": 6.79899885459619e-07,
      "loss": 0.0081,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 340698542.0,
      "step": 465
    },
    {
      "entropy": 0.3610382080078125,
      "epoch": 5.065217391304348,
      "grad_norm": 3.017531305913391,
      "learning_rate": 6.64885459874608e-07,
      "loss": 0.023,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 341441821.0,
      "step": 466
    },
    {
      "entropy": 0.361175537109375,
      "epoch": 5.076086956521739,
      "grad_norm": 1.957520122653363,
      "learning_rate": 6.500268590426107e-07,
      "loss": 0.0057,
      "mean_token_accuracy": 1.0,
      "num_tokens": 342182785.0,
      "step": 467
    },
    {
      "entropy": 0.3528900146484375,
      "epoch": 5.086956521739131,
      "grad_norm": 2.736144686839225,
      "learning_rate": 6.353246170528149e-07,
      "loss": 0.0196,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 342913563.0,
      "step": 468
    },
    {
      "entropy": 0.358489990234375,
      "epoch": 5.0978260869565215,
      "grad_norm": 1.4169650672468654,
      "learning_rate": 6.207792623741249e-07,
      "loss": 0.0113,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 343644150.0,
      "step": 469
    },
    {
      "entropy": 0.36163330078125,
      "epoch": 5.108695652173913,
      "grad_norm": 2.1705733667971874,
      "learning_rate": 6.063913178361614e-07,
      "loss": 0.0077,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 344386601.0,
      "step": 470
    },
    {
      "entropy": 0.3618927001953125,
      "epoch": 5.119565217391305,
      "grad_norm": 1.3993770986804515,
      "learning_rate": 5.921613006104765e-07,
      "loss": 0.0048,
      "mean_token_accuracy": 1.0,
      "num_tokens": 345118883.0,
      "step": 471
    },
    {
      "entropy": 0.3499603271484375,
      "epoch": 5.130434782608695,
      "grad_norm": 2.9315854838811095,
      "learning_rate": 5.780897221919551e-07,
      "loss": 0.0192,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 345867784.0,
      "step": 472
    },
    {
      "entropy": 0.342529296875,
      "epoch": 5.141304347826087,
      "grad_norm": 2.6227227802004,
      "learning_rate": 5.641770883804365e-07,
      "loss": 0.0174,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 346637121.0,
      "step": 473
    },
    {
      "entropy": 0.3626251220703125,
      "epoch": 5.1521739130434785,
      "grad_norm": 2.31403515671535,
      "learning_rate": 5.504238992625277e-07,
      "loss": 0.0222,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 347359602.0,
      "step": 474
    },
    {
      "entropy": 0.350799560546875,
      "epoch": 5.163043478260869,
      "grad_norm": 1.8616884008871544,
      "learning_rate": 5.368306491936326e-07,
      "loss": 0.0082,
      "mean_token_accuracy": 1.0,
      "num_tokens": 348109041.0,
      "step": 475
    },
    {
      "entropy": 0.3642120361328125,
      "epoch": 5.173913043478261,
      "grad_norm": 1.898830751098913,
      "learning_rate": 5.233978267801798e-07,
      "loss": 0.0075,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 348838865.0,
      "step": 476
    },
    {
      "entropy": 0.34546661376953125,
      "epoch": 5.184782608695652,
      "grad_norm": 2.826747258052636,
      "learning_rate": 5.101259148620618e-07,
      "loss": 0.0117,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 349590549.0,
      "step": 477
    },
    {
      "entropy": 0.3531951904296875,
      "epoch": 5.195652173913044,
      "grad_norm": 3.471076278890475,
      "learning_rate": 4.970153904952768e-07,
      "loss": 0.0139,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 350320409.0,
      "step": 478
    },
    {
      "entropy": 0.34603118896484375,
      "epoch": 5.206521739130435,
      "grad_norm": 1.4410847521798786,
      "learning_rate": 4.840667249347824e-07,
      "loss": 0.0189,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 351063162.0,
      "step": 479
    },
    {
      "entropy": 0.3441925048828125,
      "epoch": 5.217391304347826,
      "grad_norm": 4.101508328568396,
      "learning_rate": 4.7128038361755836e-07,
      "loss": 0.0291,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 351815664.0,
      "step": 480
    },
    {
      "entropy": 0.3400115966796875,
      "epoch": 5.228260869565218,
      "grad_norm": 1.9132001968967818,
      "learning_rate": 4.586568261458729e-07,
      "loss": 0.0126,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 352584415.0,
      "step": 481
    },
    {
      "entropy": 0.34954833984375,
      "epoch": 5.239130434782608,
      "grad_norm": 1.20736559687175,
      "learning_rate": 4.461965062707646e-07,
      "loss": 0.0048,
      "mean_token_accuracy": 1.0,
      "num_tokens": 353315713.0,
      "step": 482
    },
    {
      "entropy": 0.3578643798828125,
      "epoch": 5.25,
      "grad_norm": 1.1966450582654478,
      "learning_rate": 4.338998718757315e-07,
      "loss": 0.0049,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 354064332.0,
      "step": 483
    },
    {
      "entropy": 0.3527984619140625,
      "epoch": 5.260869565217392,
      "grad_norm": 3.628630374038582,
      "learning_rate": 4.2176736496063406e-07,
      "loss": 0.0209,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 354798241.0,
      "step": 484
    },
    {
      "entropy": 0.3661346435546875,
      "epoch": 5.271739130434782,
      "grad_norm": 4.553830435878044,
      "learning_rate": 4.0979942162580387e-07,
      "loss": 0.0179,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 355539181.0,
      "step": 485
    },
    {
      "entropy": 0.35675048828125,
      "epoch": 5.282608695652174,
      "grad_norm": 1.4119083244084685,
      "learning_rate": 3.979964720563728e-07,
      "loss": 0.0159,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 356250518.0,
      "step": 486
    },
    {
      "entropy": 0.354705810546875,
      "epoch": 5.293478260869565,
      "grad_norm": 2.72252208607272,
      "learning_rate": 3.863589405068047e-07,
      "loss": 0.0139,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 356999661.0,
      "step": 487
    },
    {
      "entropy": 0.36151123046875,
      "epoch": 5.304347826086957,
      "grad_norm": 4.803400218488495,
      "learning_rate": 3.748872452856506e-07,
      "loss": 0.0324,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 357744194.0,
      "step": 488
    },
    {
      "entropy": 0.34961700439453125,
      "epoch": 5.315217391304348,
      "grad_norm": 0.5193149065664531,
      "learning_rate": 3.63581798740511e-07,
      "loss": 0.0028,
      "mean_token_accuracy": 1.0,
      "num_tokens": 358456409.0,
      "step": 489
    },
    {
      "entropy": 0.34282684326171875,
      "epoch": 5.326086956521739,
      "grad_norm": 1.0139325475349,
      "learning_rate": 3.524430072432117e-07,
      "loss": 0.0087,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 359230574.0,
      "step": 490
    },
    {
      "entropy": 0.3507232666015625,
      "epoch": 5.336956521739131,
      "grad_norm": 3.2090179883924224,
      "learning_rate": 3.414712711752011e-07,
      "loss": 0.0224,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 359970054.0,
      "step": 491
    },
    {
      "entropy": 0.371307373046875,
      "epoch": 5.3478260869565215,
      "grad_norm": 1.6192325255981748,
      "learning_rate": 3.306669849131544e-07,
      "loss": 0.017,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 360662189.0,
      "step": 492
    },
    {
      "entropy": 0.3515777587890625,
      "epoch": 5.358695652173913,
      "grad_norm": 2.793466445386481,
      "learning_rate": 3.20030536814801e-07,
      "loss": 0.0172,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 361365790.0,
      "step": 493
    },
    {
      "entropy": 0.3429718017578125,
      "epoch": 5.369565217391305,
      "grad_norm": 2.5711700302355527,
      "learning_rate": 3.095623092049632e-07,
      "loss": 0.0155,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 362110461.0,
      "step": 494
    },
    {
      "entropy": 0.3441925048828125,
      "epoch": 5.380434782608695,
      "grad_norm": 2.0466536781934512,
      "learning_rate": 2.992626783618152e-07,
      "loss": 0.0152,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 362859225.0,
      "step": 495
    },
    {
      "entropy": 0.3544158935546875,
      "epoch": 5.391304347826087,
      "grad_norm": 2.6333839996544044,
      "learning_rate": 2.891320145033566e-07,
      "loss": 0.0283,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 363582577.0,
      "step": 496
    },
    {
      "entropy": 0.35443115234375,
      "epoch": 5.4021739130434785,
      "grad_norm": 1.4029118423723177,
      "learning_rate": 2.791706817741041e-07,
      "loss": 0.0056,
      "mean_token_accuracy": 1.0,
      "num_tokens": 364314328.0,
      "step": 497
    },
    {
      "entropy": 0.3395538330078125,
      "epoch": 5.413043478260869,
      "grad_norm": 1.7348517140331499,
      "learning_rate": 2.693790382320055e-07,
      "loss": 0.011,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 365050621.0,
      "step": 498
    },
    {
      "entropy": 0.35723876953125,
      "epoch": 5.423913043478261,
      "grad_norm": 1.8327873505736825,
      "learning_rate": 2.59757435835567e-07,
      "loss": 0.0074,
      "mean_token_accuracy": 1.0,
      "num_tokens": 365762950.0,
      "step": 499
    },
    {
      "entropy": 0.3436279296875,
      "epoch": 5.434782608695652,
      "grad_norm": 3.584391657711914,
      "learning_rate": 2.5030622043120237e-07,
      "loss": 0.0134,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 366523187.0,
      "step": 500
    },
    {
      "entropy": 0.3443756103515625,
      "epoch": 5.445652173913043,
      "grad_norm": 4.714065096780247,
      "learning_rate": 2.41025731740801e-07,
      "loss": 0.0291,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 367248418.0,
      "step": 501
    },
    {
      "entropy": 0.3575286865234375,
      "epoch": 5.456521739130435,
      "grad_norm": 2.8099304929366173,
      "learning_rate": 2.319163033495192e-07,
      "loss": 0.0128,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 367959364.0,
      "step": 502
    },
    {
      "entropy": 0.3438568115234375,
      "epoch": 5.467391304347826,
      "grad_norm": 3.249259570087751,
      "learning_rate": 2.2297826269378653e-07,
      "loss": 0.0043,
      "mean_token_accuracy": 1.0,
      "num_tokens": 368698084.0,
      "step": 503
    },
    {
      "entropy": 0.358154296875,
      "epoch": 5.478260869565218,
      "grad_norm": 1.00432499339161,
      "learning_rate": 2.142119310495383e-07,
      "loss": 0.003,
      "mean_token_accuracy": 1.0,
      "num_tokens": 369437773.0,
      "step": 504
    },
    {
      "entropy": 0.3480987548828125,
      "epoch": 5.489130434782608,
      "grad_norm": 2.3505497177242707,
      "learning_rate": 2.0561762352066638e-07,
      "loss": 0.0082,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 370172959.0,
      "step": 505
    },
    {
      "entropy": 0.35662841796875,
      "epoch": 5.5,
      "grad_norm": 3.659662983116438,
      "learning_rate": 1.9719564902769272e-07,
      "loss": 0.0289,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 370911567.0,
      "step": 506
    },
    {
      "entropy": 0.3758697509765625,
      "epoch": 5.510869565217392,
      "grad_norm": 1.8280848902905207,
      "learning_rate": 1.889463102966671e-07,
      "loss": 0.0045,
      "mean_token_accuracy": 1.0,
      "num_tokens": 371605585.0,
      "step": 507
    },
    {
      "entropy": 0.37042236328125,
      "epoch": 5.521739130434782,
      "grad_norm": 2.8950597478450204,
      "learning_rate": 1.8086990384828195e-07,
      "loss": 0.0051,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 372299696.0,
      "step": 508
    },
    {
      "entropy": 0.3441314697265625,
      "epoch": 5.532608695652174,
      "grad_norm": 3.7223713059993857,
      "learning_rate": 1.729667199872187e-07,
      "loss": 0.0093,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 373034212.0,
      "step": 509
    },
    {
      "entropy": 0.35153961181640625,
      "epoch": 5.543478260869565,
      "grad_norm": 0.9857002781057848,
      "learning_rate": 1.6523704279170773e-07,
      "loss": 0.0032,
      "mean_token_accuracy": 1.0,
      "num_tokens": 373767768.0,
      "step": 510
    },
    {
      "entropy": 0.34670257568359375,
      "epoch": 5.554347826086957,
      "grad_norm": 2.701890237570965,
      "learning_rate": 1.5768115010332207e-07,
      "loss": 0.0119,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 374534404.0,
      "step": 511
    },
    {
      "entropy": 0.3555908203125,
      "epoch": 5.565217391304348,
      "grad_norm": 0.5116879744824352,
      "learning_rate": 1.5029931351698723e-07,
      "loss": 0.0022,
      "mean_token_accuracy": 1.0,
      "num_tokens": 375257436.0,
      "step": 512
    },
    {
      "entropy": 0.35748291015625,
      "epoch": 5.576086956521739,
      "grad_norm": 4.767029408916068,
      "learning_rate": 1.4309179837122045e-07,
      "loss": 0.0053,
      "mean_token_accuracy": 1.0,
      "num_tokens": 375972319.0,
      "step": 513
    },
    {
      "entropy": 0.3569793701171875,
      "epoch": 5.586956521739131,
      "grad_norm": 1.523702506052456,
      "learning_rate": 1.3605886373859234e-07,
      "loss": 0.0329,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 376701929.0,
      "step": 514
    },
    {
      "entropy": 0.36837005615234375,
      "epoch": 5.5978260869565215,
      "grad_norm": 1.231123378477425,
      "learning_rate": 1.2920076241641376e-07,
      "loss": 0.0175,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 377416499.0,
      "step": 515
    },
    {
      "entropy": 0.3457489013671875,
      "epoch": 5.608695652173913,
      "grad_norm": 3.211458415378841,
      "learning_rate": 1.22517740917652e-07,
      "loss": 0.0062,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 378151819.0,
      "step": 516
    },
    {
      "entropy": 0.3673095703125,
      "epoch": 5.619565217391305,
      "grad_norm": 2.2968138031053584,
      "learning_rate": 1.1601003946206723e-07,
      "loss": 0.0049,
      "mean_token_accuracy": 1.0,
      "num_tokens": 378870635.0,
      "step": 517
    },
    {
      "entropy": 0.348663330078125,
      "epoch": 5.630434782608695,
      "grad_norm": 0.8120161286730525,
      "learning_rate": 1.0967789196757839e-07,
      "loss": 0.0032,
      "mean_token_accuracy": 1.0,
      "num_tokens": 379613235.0,
      "step": 518
    },
    {
      "entropy": 0.3479766845703125,
      "epoch": 5.641304347826087,
      "grad_norm": 3.621005950880961,
      "learning_rate": 1.0352152604185429e-07,
      "loss": 0.0189,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 380331871.0,
      "step": 519
    },
    {
      "entropy": 0.3465423583984375,
      "epoch": 5.6521739130434785,
      "grad_norm": 1.0304676162702109,
      "learning_rate": 9.754116297413574e-08,
      "loss": 0.0065,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 381075840.0,
      "step": 520
    },
    {
      "entropy": 0.338592529296875,
      "epoch": 5.663043478260869,
      "grad_norm": 1.2457350199821569,
      "learning_rate": 9.17370177272775e-08,
      "loss": 0.0165,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 381844276.0,
      "step": 521
    },
    {
      "entropy": 0.35430908203125,
      "epoch": 5.673913043478261,
      "grad_norm": 3.2357679678788753,
      "learning_rate": 8.610929893002274e-08,
      "loss": 0.016,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 382580967.0,
      "step": 522
    },
    {
      "entropy": 0.35726165771484375,
      "epoch": 5.684782608695652,
      "grad_norm": 0.8357988651200269,
      "learning_rate": 8.065820886950404e-08,
      "loss": 0.0032,
      "mean_token_accuracy": 1.0,
      "num_tokens": 383323161.0,
      "step": 523
    },
    {
      "entropy": 0.3606719970703125,
      "epoch": 5.695652173913043,
      "grad_norm": 1.8053396968076172,
      "learning_rate": 7.538394348397316e-08,
      "loss": 0.0053,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 384046832.0,
      "step": 524
    },
    {
      "entropy": 0.348907470703125,
      "epoch": 5.706521739130435,
      "grad_norm": 0.78934599141472,
      "learning_rate": 7.028669235575714e-08,
      "loss": 0.0123,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 384785911.0,
      "step": 525
    },
    {
      "entropy": 0.359100341796875,
      "epoch": 5.717391304347826,
      "grad_norm": 4.239374902002361,
      "learning_rate": 6.536663870444382e-08,
      "loss": 0.013,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 385520098.0,
      "step": 526
    },
    {
      "entropy": 0.36712646484375,
      "epoch": 5.728260869565218,
      "grad_norm": 4.136781223110316,
      "learning_rate": 6.062395938029485e-08,
      "loss": 0.0221,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 386225764.0,
      "step": 527
    },
    {
      "entropy": 0.3562774658203125,
      "epoch": 5.739130434782608,
      "grad_norm": 0.6827243482676063,
      "learning_rate": 5.605882485789138e-08,
      "loss": 0.0025,
      "mean_token_accuracy": 1.0,
      "num_tokens": 386914432.0,
      "step": 528
    },
    {
      "entropy": 0.35406494140625,
      "epoch": 5.75,
      "grad_norm": 1.10094630672696,
      "learning_rate": 5.167139923000553e-08,
      "loss": 0.0026,
      "mean_token_accuracy": 1.0,
      "num_tokens": 387645408.0,
      "step": 529
    },
    {
      "entropy": 0.344940185546875,
      "epoch": 5.760869565217392,
      "grad_norm": 1.4681128075864096,
      "learning_rate": 4.746184020170019e-08,
      "loss": 0.0134,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 388357543.0,
      "step": 530
    },
    {
      "entropy": 0.35626220703125,
      "epoch": 5.771739130434782,
      "grad_norm": 0.7921714405106227,
      "learning_rate": 4.3430299084663006e-08,
      "loss": 0.0029,
      "mean_token_accuracy": 1.0,
      "num_tokens": 389093956.0,
      "step": 531
    },
    {
      "entropy": 0.349609375,
      "epoch": 5.782608695652174,
      "grad_norm": 1.3755265353055757,
      "learning_rate": 3.957692079176623e-08,
      "loss": 0.0073,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 389835614.0,
      "step": 532
    },
    {
      "entropy": 0.3498687744140625,
      "epoch": 5.793478260869565,
      "grad_norm": 0.3167488649543176,
      "learning_rate": 3.590184383185758e-08,
      "loss": 0.0016,
      "mean_token_accuracy": 1.0,
      "num_tokens": 390566729.0,
      "step": 533
    },
    {
      "entropy": 0.337890625,
      "epoch": 5.804347826086957,
      "grad_norm": 1.2210778695918416,
      "learning_rate": 3.240520030478256e-08,
      "loss": 0.0124,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 391330756.0,
      "step": 534
    },
    {
      "entropy": 0.35284423828125,
      "epoch": 5.815217391304348,
      "grad_norm": 0.8652572770044866,
      "learning_rate": 2.9087115896635486e-08,
      "loss": 0.0128,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 392061193.0,
      "step": 535
    },
    {
      "entropy": 0.346435546875,
      "epoch": 5.826086956521739,
      "grad_norm": 1.4818183011709654,
      "learning_rate": 2.5947709875240867e-08,
      "loss": 0.0087,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 392797239.0,
      "step": 536
    },
    {
      "entropy": 0.33984375,
      "epoch": 5.836956521739131,
      "grad_norm": 1.0741638756056484,
      "learning_rate": 2.298709508586794e-08,
      "loss": 0.0043,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 393551768.0,
      "step": 537
    },
    {
      "entropy": 0.3536834716796875,
      "epoch": 5.8478260869565215,
      "grad_norm": 2.9609327309421913,
      "learning_rate": 2.0205377947174475e-08,
      "loss": 0.0126,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 394268274.0,
      "step": 538
    },
    {
      "entropy": 0.3431243896484375,
      "epoch": 5.858695652173913,
      "grad_norm": 0.33998192565601887,
      "learning_rate": 1.760265844738096e-08,
      "loss": 0.0021,
      "mean_token_accuracy": 1.0,
      "num_tokens": 395007910.0,
      "step": 539
    },
    {
      "entropy": 0.3602447509765625,
      "epoch": 5.869565217391305,
      "grad_norm": 1.0270048628312216,
      "learning_rate": 1.5179030140675122e-08,
      "loss": 0.0042,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 395737042.0,
      "step": 540
    },
    {
      "entropy": 0.33984375,
      "epoch": 5.880434782608695,
      "grad_norm": 2.4149107894798925,
      "learning_rate": 1.2934580143851294e-08,
      "loss": 0.0145,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 396489808.0,
      "step": 541
    },
    {
      "entropy": 0.358001708984375,
      "epoch": 5.891304347826087,
      "grad_norm": 6.345361819609863,
      "learning_rate": 1.0869389133178477e-08,
      "loss": 0.0182,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 397216049.0,
      "step": 542
    },
    {
      "entropy": 0.3616485595703125,
      "epoch": 5.9021739130434785,
      "grad_norm": 0.37451572236420405,
      "learning_rate": 8.983531341500984e-09,
      "loss": 0.0016,
      "mean_token_accuracy": 1.0,
      "num_tokens": 397935821.0,
      "step": 543
    },
    {
      "entropy": 0.361053466796875,
      "epoch": 5.913043478260869,
      "grad_norm": 4.141335172261133,
      "learning_rate": 7.277074555567809e-09,
      "loss": 0.0103,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 398660420.0,
      "step": 544
    },
    {
      "entropy": 0.3404083251953125,
      "epoch": 5.923913043478261,
      "grad_norm": 0.9682991945971461,
      "learning_rate": 5.750080113598455e-09,
      "loss": 0.0203,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 399411884.0,
      "step": 545
    },
    {
      "entropy": 0.35272979736328125,
      "epoch": 5.934782608695652,
      "grad_norm": 0.6012197075155875,
      "learning_rate": 4.40260290307748e-09,
      "loss": 0.0023,
      "mean_token_accuracy": 1.0,
      "num_tokens": 400163283.0,
      "step": 546
    },
    {
      "entropy": 0.3434600830078125,
      "epoch": 5.945652173913043,
      "grad_norm": 1.0272466051923472,
      "learning_rate": 3.2346913587816275e-09,
      "loss": 0.0035,
      "mean_token_accuracy": 1.0,
      "num_tokens": 400917589.0,
      "step": 547
    },
    {
      "entropy": 0.342559814453125,
      "epoch": 5.956521739130435,
      "grad_norm": 7.839442524146553,
      "learning_rate": 2.2463874610378912e-09,
      "loss": 0.0217,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 401657322.0,
      "step": 548
    },
    {
      "entropy": 0.34014129638671875,
      "epoch": 5.967391304347826,
      "grad_norm": 4.364832479015908,
      "learning_rate": 1.4377267342158274e-09,
      "loss": 0.0197,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 402419924.0,
      "step": 549
    },
    {
      "entropy": 0.35692596435546875,
      "epoch": 5.978260869565218,
      "grad_norm": 1.4724593498504412,
      "learning_rate": 8.087382454502468e-10,
      "loss": 0.0047,
      "mean_token_accuracy": 1.0,
      "num_tokens": 403131827.0,
      "step": 550
    },
    {
      "entropy": 0.3658294677734375,
      "epoch": 5.989130434782608,
      "grad_norm": 2.284458582779661,
      "learning_rate": 3.594446035964927e-10,
      "loss": 0.0125,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 403837845.0,
      "step": 551
    },
    {
      "entropy": 0.3401947021484375,
      "epoch": 6.0,
      "grad_norm": 2.0278741074635014,
      "learning_rate": 8.986195841609313e-11,
      "loss": 0.0131,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 404574499.0,
      "step": 552
    },
    {
      "epoch": 6.0,
      "step": 552,
      "total_flos": 476005550456832.0,
      "train_loss": 0.42957008274232433,
      "train_runtime": 50642.7156,
      "train_samples_per_second": 2.207,
      "train_steps_per_second": 0.011
    }
  ],
  "logging_steps": 1,
  "max_steps": 552,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 6,
  "save_steps": 46,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 476005550456832.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}