PS_only_answer_Qwen3-4B-Bas…/trainer_state.json

{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 6.0,
  "eval_steps": 500,
  "global_step": 552,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 0.4064483642578125,
      "epoch": 0.010869565217391304,
      "grad_norm": 316.1954145803367,
      "learning_rate": 0.0,
      "loss": 8.9534,
      "mean_token_accuracy": 0.0,
      "num_tokens": 716237.0,
      "step": 1
    },
    {
      "entropy": 0.4034576416015625,
      "epoch": 0.021739130434782608,
      "grad_norm": 316.6035417981591,
      "learning_rate": 3.5714285714285716e-07,
      "loss": 8.9394,
      "mean_token_accuracy": 0.0,
      "num_tokens": 1436361.0,
      "step": 2
    },
    {
      "entropy": 0.3996429443359375,
      "epoch": 0.03260869565217391,
      "grad_norm": 316.6395317248996,
      "learning_rate": 7.142857142857143e-07,
      "loss": 8.9467,
      "mean_token_accuracy": 0.0,
      "num_tokens": 2162231.0,
      "step": 3
    },
    {
      "entropy": 0.4075164794921875,
      "epoch": 0.043478260869565216,
      "grad_norm": 329.0753811968947,
      "learning_rate": 1.0714285714285714e-06,
      "loss": 8.8083,
      "mean_token_accuracy": 0.0,
      "num_tokens": 2882249.0,
      "step": 4
    },
    {
      "entropy": 0.409881591796875,
      "epoch": 0.05434782608695652,
      "grad_norm": 340.5161589624998,
      "learning_rate": 1.4285714285714286e-06,
      "loss": 8.3155,
      "mean_token_accuracy": 0.0,
      "num_tokens": 3630334.0,
      "step": 5
    },
    {
      "entropy": 0.4091339111328125,
      "epoch": 0.06521739130434782,
      "grad_norm": 350.17694147818787,
      "learning_rate": 1.7857142857142859e-06,
      "loss": 8.029,
      "mean_token_accuracy": 0.0,
      "num_tokens": 4348583.0,
      "step": 6
    },
    {
      "entropy": 0.420562744140625,
      "epoch": 0.07608695652173914,
      "grad_norm": 292.02271630195577,
      "learning_rate": 2.1428571428571427e-06,
      "loss": 6.2579,
      "mean_token_accuracy": 0.015625000465661287,
      "num_tokens": 5093349.0,
      "step": 7
    },
    {
      "entropy": 0.41021728515625,
      "epoch": 0.08695652173913043,
      "grad_norm": 213.12804469463538,
      "learning_rate": 2.5e-06,
      "loss": 5.4489,
      "mean_token_accuracy": 0.09895833628252149,
      "num_tokens": 5826281.0,
      "step": 8
    },
    {
      "entropy": 0.3978118896484375,
      "epoch": 0.09782608695652174,
      "grad_norm": 97.66044956229963,
      "learning_rate": 2.8571428571428573e-06,
      "loss": 4.2129,
      "mean_token_accuracy": 0.5000000149011612,
      "num_tokens": 6582160.0,
      "step": 9
    },
    {
      "entropy": 0.409454345703125,
      "epoch": 0.10869565217391304,
      "grad_norm": 86.55779511698141,
      "learning_rate": 3.2142857142857147e-06,
      "loss": 3.9897,
      "mean_token_accuracy": 0.5130208486225456,
      "num_tokens": 7326758.0,
      "step": 10
    },
    {
      "entropy": 0.40435791015625,
      "epoch": 0.11956521739130435,
      "grad_norm": 60.879810142569305,
      "learning_rate": 3.5714285714285718e-06,
      "loss": 3.3827,
      "mean_token_accuracy": 0.5078125151339918,
      "num_tokens": 8078864.0,
      "step": 11
    },
    {
      "entropy": 0.4039764404296875,
      "epoch": 0.13043478260869565,
      "grad_norm": 58.750093479172136,
      "learning_rate": 3.928571428571429e-06,
      "loss": 3.315,
      "mean_token_accuracy": 0.47916668094694614,
      "num_tokens": 8835877.0,
      "step": 12
    },
    {
      "entropy": 0.3963775634765625,
      "epoch": 0.14130434782608695,
      "grad_norm": 57.334082967049824,
      "learning_rate": 4.2857142857142855e-06,
      "loss": 3.2213,
      "mean_token_accuracy": 0.505208348389715,
      "num_tokens": 9564013.0,
      "step": 13
    },
    {
      "entropy": 0.40692138671875,
      "epoch": 0.15217391304347827,
      "grad_norm": 56.88924495255328,
      "learning_rate": 4.642857142857144e-06,
      "loss": 3.1317,
      "mean_token_accuracy": 0.5156250153668225,
      "num_tokens": 10276513.0,
      "step": 14
    },
    {
      "entropy": 0.40887451171875,
      "epoch": 0.16304347826086957,
      "grad_norm": 61.00555186883899,
      "learning_rate": 5e-06,
      "loss": 3.0143,
      "mean_token_accuracy": 0.5026041816454381,
      "num_tokens": 11022232.0,
      "step": 15
    },
    {
      "entropy": 0.3881988525390625,
      "epoch": 0.17391304347826086,
      "grad_norm": 57.82009249940493,
      "learning_rate": 5.357142857142857e-06,
      "loss": 2.9605,
      "mean_token_accuracy": 0.5312500158324838,
      "num_tokens": 11784925.0,
      "step": 16
    },
    {
      "entropy": 0.4075927734375,
      "epoch": 0.18478260869565216,
      "grad_norm": 59.216169126514494,
      "learning_rate": 5.7142857142857145e-06,
      "loss": 2.9568,
      "mean_token_accuracy": 0.48958334792405367,
      "num_tokens": 12525926.0,
      "step": 17
    },
    {
      "entropy": 0.3998565673828125,
      "epoch": 0.1956521739130435,
      "grad_norm": 55.76336103806422,
      "learning_rate": 6.071428571428571e-06,
      "loss": 2.8977,
      "mean_token_accuracy": 0.5416666828095913,
      "num_tokens": 13276714.0,
      "step": 18
    },
    {
      "entropy": 0.3948211669921875,
      "epoch": 0.20652173913043478,
      "grad_norm": 55.616431383734906,
      "learning_rate": 6.4285714285714295e-06,
      "loss": 2.8564,
      "mean_token_accuracy": 0.5312500158324838,
      "num_tokens": 14020555.0,
      "step": 19
    },
    {
      "entropy": 0.38909912109375,
      "epoch": 0.21739130434782608,
      "grad_norm": 56.199005378409595,
      "learning_rate": 6.785714285714287e-06,
      "loss": 2.8219,
      "mean_token_accuracy": 0.52604168234393,
      "num_tokens": 14767053.0,
      "step": 20
    },
    {
      "entropy": 0.40106201171875,
      "epoch": 0.22826086956521738,
      "grad_norm": 55.97552671227983,
      "learning_rate": 7.1428571428571436e-06,
      "loss": 2.7501,
      "mean_token_accuracy": 0.5651041835080832,
      "num_tokens": 15495580.0,
      "step": 21
    },
    {
      "entropy": 0.404937744140625,
      "epoch": 0.2391304347826087,
      "grad_norm": 57.15817768503365,
      "learning_rate": 7.500000000000001e-06,
      "loss": 2.715,
      "mean_token_accuracy": 0.5677083502523601,
      "num_tokens": 16230649.0,
      "step": 22
    },
    {
      "entropy": 0.389312744140625,
      "epoch": 0.25,
      "grad_norm": 56.40461745105964,
      "learning_rate": 7.857142857142858e-06,
      "loss": 2.6785,
      "mean_token_accuracy": 0.5859375174622983,
      "num_tokens": 16964870.0,
      "step": 23
    },
    {
      "entropy": 0.3954620361328125,
      "epoch": 0.2608695652173913,
      "grad_norm": 57.31612760261054,
      "learning_rate": 8.214285714285714e-06,
      "loss": 2.6422,
      "mean_token_accuracy": 0.5781250172294676,
      "num_tokens": 17701371.0,
      "step": 24
    },
    {
      "entropy": 0.3900299072265625,
      "epoch": 0.2717391304347826,
      "grad_norm": 57.10401187526701,
      "learning_rate": 8.571428571428571e-06,
      "loss": 2.6149,
      "mean_token_accuracy": 0.5677083502523601,
      "num_tokens": 18416531.0,
      "step": 25
    },
    {
      "entropy": 0.3831024169921875,
      "epoch": 0.2826086956521739,
      "grad_norm": 58.151187200830755,
      "learning_rate": 8.92857142857143e-06,
      "loss": 2.5833,
      "mean_token_accuracy": 0.5729166837409139,
      "num_tokens": 19167868.0,
      "step": 26
    },
    {
      "entropy": 0.3865203857421875,
      "epoch": 0.29347826086956524,
      "grad_norm": 57.52206365142452,
      "learning_rate": 9.285714285714288e-06,
      "loss": 2.5454,
      "mean_token_accuracy": 0.5546875165309757,
      "num_tokens": 19892036.0,
      "step": 27
    },
    {
      "entropy": 0.385955810546875,
      "epoch": 0.30434782608695654,
      "grad_norm": 57.32930206438006,
      "learning_rate": 9.642857142857144e-06,
      "loss": 2.4859,
      "mean_token_accuracy": 0.5807291839737445,
      "num_tokens": 20633296.0,
      "step": 28
    },
    {
      "entropy": 0.3830413818359375,
      "epoch": 0.31521739130434784,
      "grad_norm": 57.514299485076755,
      "learning_rate": 1e-05,
      "loss": 2.453,
      "mean_token_accuracy": 0.570312516996637,
      "num_tokens": 21383614.0,
      "step": 29
    },
    {
      "entropy": 0.3848114013671875,
      "epoch": 0.32608695652173914,
      "grad_norm": 57.613283621009266,
      "learning_rate": 9.999910138041584e-06,
      "loss": 2.4146,
      "mean_token_accuracy": 0.570312516996637,
      "num_tokens": 22096339.0,
      "step": 30
    },
    {
      "entropy": 0.3872222900390625,
      "epoch": 0.33695652173913043,
      "grad_norm": 57.88430629547056,
      "learning_rate": 9.999640555396404e-06,
      "loss": 2.3814,
      "mean_token_accuracy": 0.5677083502523601,
      "num_tokens": 22800854.0,
      "step": 31
    },
    {
      "entropy": 0.3859405517578125,
      "epoch": 0.34782608695652173,
      "grad_norm": 57.64198272427806,
      "learning_rate": 9.99919126175455e-06,
      "loss": 2.3378,
      "mean_token_accuracy": 0.5677083500195295,
      "num_tokens": 23531637.0,
      "step": 32
    },
    {
      "entropy": 0.404693603515625,
      "epoch": 0.358695652173913,
      "grad_norm": 57.83557250204721,
      "learning_rate": 9.998562273265786e-06,
      "loss": 2.2804,
      "mean_token_accuracy": 0.8802083397749811,
      "num_tokens": 24259765.0,
      "step": 33
    },
    {
      "entropy": 0.3770904541015625,
      "epoch": 0.3695652173913043,
      "grad_norm": 58.412527709106605,
      "learning_rate": 9.997753612538963e-06,
      "loss": 2.2282,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 24996790.0,
      "step": 34
    },
    {
      "entropy": 0.381988525390625,
      "epoch": 0.3804347826086957,
      "grad_norm": 62.003603702501856,
      "learning_rate": 9.996765308641218e-06,
      "loss": 2.2012,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 25748364.0,
      "step": 35
    },
    {
      "entropy": 0.3875579833984375,
      "epoch": 0.391304347826087,
      "grad_norm": 64.01516083138553,
      "learning_rate": 9.995597397096923e-06,
      "loss": 2.1914,
      "mean_token_accuracy": 0.8828125069849193,
      "num_tokens": 26456392.0,
      "step": 36
    },
    {
      "entropy": 0.381866455078125,
      "epoch": 0.40217391304347827,
      "grad_norm": 58.46905909243028,
      "learning_rate": 9.994249919886402e-06,
      "loss": 2.0891,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 27186385.0,
      "step": 37
    },
    {
      "entropy": 0.38336181640625,
      "epoch": 0.41304347826086957,
      "grad_norm": 59.236772724352356,
      "learning_rate": 9.992722925444434e-06,
      "loss": 2.0863,
      "mean_token_accuracy": 0.8932291730307043,
      "num_tokens": 27927774.0,
      "step": 38
    },
    {
      "entropy": 0.38409423828125,
      "epoch": 0.42391304347826086,
      "grad_norm": 59.112929977780055,
      "learning_rate": 9.9910164686585e-06,
      "loss": 2.0328,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 28676088.0,
      "step": 39
    },
    {
      "entropy": 0.3845977783203125,
      "epoch": 0.43478260869565216,
      "grad_norm": 58.36949510582871,
      "learning_rate": 9.989130610866822e-06,
      "loss": 1.9738,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 29419277.0,
      "step": 40
    },
    {
      "entropy": 0.398223876953125,
      "epoch": 0.44565217391304346,
      "grad_norm": 58.36131785544657,
      "learning_rate": 9.98706541985615e-06,
      "loss": 1.9332,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 30137219.0,
      "step": 41
    },
    {
      "entropy": 0.38714599609375,
      "epoch": 0.45652173913043476,
      "grad_norm": 57.77683241446312,
      "learning_rate": 9.984820969859326e-06,
      "loss": 1.8657,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 30853297.0,
      "step": 42
    },
    {
      "entropy": 0.3862762451171875,
      "epoch": 0.4673913043478261,
      "grad_norm": 57.54859823897654,
      "learning_rate": 9.98239734155262e-06,
      "loss": 1.8638,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 31573916.0,
      "step": 43
    },
    {
      "entropy": 0.393402099609375,
      "epoch": 0.4782608695652174,
      "grad_norm": 57.69762966616137,
      "learning_rate": 9.979794622052825e-06,
      "loss": 1.7789,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 32299390.0,
      "step": 44
    },
    {
      "entropy": 0.4020843505859375,
      "epoch": 0.4891304347826087,
      "grad_norm": 57.39613259001053,
      "learning_rate": 9.977012904914133e-06,
      "loss": 1.7068,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 33007654.0,
      "step": 45
    },
    {
      "entropy": 0.404937744140625,
      "epoch": 0.5,
      "grad_norm": 57.48878446925565,
      "learning_rate": 9.97405229012476e-06,
      "loss": 1.6749,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 33735959.0,
      "step": 46
    },
    {
      "entropy": 0.39722442626953125,
      "epoch": 0.5108695652173914,
      "grad_norm": 57.193892685070345,
      "learning_rate": 9.970912884103365e-06,
      "loss": 1.6226,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 34443251.0,
      "step": 47
    },
    {
      "entropy": 0.400604248046875,
      "epoch": 0.5217391304347826,
      "grad_norm": 57.23351426264449,
      "learning_rate": 9.967594799695218e-06,
      "loss": 1.5684,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 35176818.0,
      "step": 48
    },
    {
      "entropy": 0.3846588134765625,
      "epoch": 0.532608695652174,
      "grad_norm": 56.71940653774253,
      "learning_rate": 9.964098156168143e-06,
      "loss": 1.5083,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 35907234.0,
      "step": 49
    },
    {
      "entropy": 0.3896942138671875,
      "epoch": 0.5434782608695652,
      "grad_norm": 56.79605816967542,
      "learning_rate": 9.960423079208235e-06,
      "loss": 1.4552,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 36627274.0,
      "step": 50
    },
    {
      "entropy": 0.410064697265625,
      "epoch": 0.5543478260869565,
      "grad_norm": 56.4961529710094,
      "learning_rate": 9.956569700915338e-06,
      "loss": 1.3937,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 37349040.0,
      "step": 51
    },
    {
      "entropy": 0.3951416015625,
      "epoch": 0.5652173913043478,
      "grad_norm": 56.73231721252512,
      "learning_rate": 9.9525381597983e-06,
      "loss": 1.336,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 38073183.0,
      "step": 52
    },
    {
      "entropy": 0.3910369873046875,
      "epoch": 0.5760869565217391,
      "grad_norm": 56.68980999778742,
      "learning_rate": 9.948328600769996e-06,
      "loss": 1.2929,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 38815781.0,
      "step": 53
    },
    {
      "entropy": 0.386505126953125,
      "epoch": 0.5869565217391305,
      "grad_norm": 56.3291410125702,
      "learning_rate": 9.943941175142109e-06,
      "loss": 1.227,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 39563708.0,
      "step": 54
    },
    {
      "entropy": 0.394989013671875,
      "epoch": 0.5978260869565217,
      "grad_norm": 56.5090630513826,
      "learning_rate": 9.939376040619707e-06,
      "loss": 1.2184,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 40318028.0,
      "step": 55
    },
    {
      "entropy": 0.407745361328125,
      "epoch": 0.6086956521739131,
      "grad_norm": 56.90101774957091,
      "learning_rate": 9.934633361295558e-06,
      "loss": 1.1617,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 41036310.0,
      "step": 56
    },
    {
      "entropy": 0.3939361572265625,
      "epoch": 0.6195652173913043,
      "grad_norm": 55.34574486332025,
      "learning_rate": 9.929713307644245e-06,
      "loss": 1.0914,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 41767570.0,
      "step": 57
    },
    {
      "entropy": 0.38934326171875,
      "epoch": 0.6304347826086957,
      "grad_norm": 54.80114452961908,
      "learning_rate": 9.924616056516027e-06,
      "loss": 1.0453,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 42500202.0,
      "step": 58
    },
    {
      "entropy": 0.4176025390625,
      "epoch": 0.6413043478260869,
      "grad_norm": 54.81793866793337,
      "learning_rate": 9.919341791130496e-06,
      "loss": 1.009,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 43213523.0,
      "step": 59
    },
    {
      "entropy": 0.391021728515625,
      "epoch": 0.6521739130434783,
      "grad_norm": 53.8603152239526,
      "learning_rate": 9.91389070106998e-06,
      "loss": 0.9387,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 43932615.0,
      "step": 60
    },
    {
      "entropy": 0.395751953125,
      "epoch": 0.6630434782608695,
      "grad_norm": 53.59828951837273,
      "learning_rate": 9.908262982272724e-06,
      "loss": 0.9146,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 44651687.0,
      "step": 61
    },
    {
      "entropy": 0.3935699462890625,
      "epoch": 0.6739130434782609,
      "grad_norm": 52.60250731279598,
      "learning_rate": 9.902458837025865e-06,
      "loss": 0.8739,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 45400772.0,
      "step": 62
    },
    {
      "entropy": 0.4178314208984375,
      "epoch": 0.6847826086956522,
      "grad_norm": 51.60242726556114,
      "learning_rate": 9.896478473958147e-06,
      "loss": 0.8428,
      "mean_token_accuracy": 0.8880208400078118,
      "num_tokens": 46115929.0,
      "step": 63
    },
    {
      "entropy": 0.389373779296875,
      "epoch": 0.6956521739130435,
      "grad_norm": 49.759071832918835,
      "learning_rate": 9.890322108032423e-06,
      "loss": 0.7699,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 46852371.0,
      "step": 64
    },
    {
      "entropy": 0.397491455078125,
      "epoch": 0.7065217391304348,
      "grad_norm": 48.63005105686474,
      "learning_rate": 9.883989960537934e-06,
      "loss": 0.7378,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 47587968.0,
      "step": 65
    },
    {
      "entropy": 0.3970947265625,
      "epoch": 0.717391304347826,
      "grad_norm": 47.53994607167487,
      "learning_rate": 9.87748225908235e-06,
      "loss": 0.6891,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 48307921.0,
      "step": 66
    },
    {
      "entropy": 0.392730712890625,
      "epoch": 0.7282608695652174,
      "grad_norm": 45.536089368232155,
      "learning_rate": 9.870799237583586e-06,
      "loss": 0.6343,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 49046721.0,
      "step": 67
    },
    {
      "entropy": 0.3970489501953125,
      "epoch": 0.7391304347826086,
      "grad_norm": 43.41126935169946,
      "learning_rate": 9.863941136261409e-06,
      "loss": 0.5852,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 49797009.0,
      "step": 68
    },
    {
      "entropy": 0.39111328125,
      "epoch": 0.75,
      "grad_norm": 41.943833523729076,
      "learning_rate": 9.85690820162878e-06,
      "loss": 0.5562,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 50531811.0,
      "step": 69
    },
    {
      "entropy": 0.396209716796875,
      "epoch": 0.7608695652173914,
      "grad_norm": 39.74703264358072,
      "learning_rate": 9.849700686483016e-06,
      "loss": 0.5277,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 51269003.0,
      "step": 70
    },
    {
      "entropy": 0.400482177734375,
      "epoch": 0.7717391304347826,
      "grad_norm": 37.39002978726377,
      "learning_rate": 9.842318849896679e-06,
      "loss": 0.5038,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 52007122.0,
      "step": 71
    },
    {
      "entropy": 0.3865814208984375,
      "epoch": 0.782608695652174,
      "grad_norm": 35.76620228844199,
      "learning_rate": 9.834762957208293e-06,
      "loss": 0.4769,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 52773471.0,
      "step": 72
    },
    {
      "entropy": 0.3994598388671875,
      "epoch": 0.7934782608695652,
      "grad_norm": 32.81912749424063,
      "learning_rate": 9.827033280012783e-06,
      "loss": 0.4445,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 53522192.0,
      "step": 73
    },
    {
      "entropy": 0.4082489013671875,
      "epoch": 0.8043478260869565,
      "grad_norm": 30.842019217271996,
      "learning_rate": 9.819130096151718e-06,
      "loss": 0.4212,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 54255254.0,
      "step": 74
    },
    {
      "entropy": 0.382568359375,
      "epoch": 0.8152173913043478,
      "grad_norm": 28.70684736071387,
      "learning_rate": 9.811053689703333e-06,
      "loss": 0.3935,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 55009845.0,
      "step": 75
    },
    {
      "entropy": 0.3831024169921875,
      "epoch": 0.8260869565217391,
      "grad_norm": 27.8140221182149,
      "learning_rate": 9.802804350972308e-06,
      "loss": 0.3614,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 55740182.0,
      "step": 76
    },
    {
      "entropy": 0.386993408203125,
      "epoch": 0.8369565217391305,
      "grad_norm": 25.57078084151703,
      "learning_rate": 9.794382376479334e-06,
      "loss": 0.3034,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 56487919.0,
      "step": 77
    },
    {
      "entropy": 0.388092041015625,
      "epoch": 0.8478260869565217,
      "grad_norm": 26.962388202339746,
      "learning_rate": 9.785788068950463e-06,
      "loss": 0.3761,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 57236454.0,
      "step": 78
    },
    {
      "entropy": 0.3975677490234375,
      "epoch": 0.8586956521739131,
      "grad_norm": 19.98517763145453,
      "learning_rate": 9.777021737306214e-06,
      "loss": 0.3288,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 57949949.0,
      "step": 79
    },
    {
      "entropy": 0.3837432861328125,
      "epoch": 0.8695652173913043,
      "grad_norm": 18.169990552700863,
      "learning_rate": 9.768083696650481e-06,
      "loss": 0.3053,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 58701772.0,
      "step": 80
    },
    {
      "entropy": 0.40576171875,
      "epoch": 0.8804347826086957,
      "grad_norm": 15.568386859447184,
      "learning_rate": 9.7589742682592e-06,
      "loss": 0.2861,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 59406085.0,
      "step": 81
    },
    {
      "entropy": 0.39192962646484375,
      "epoch": 0.8913043478260869,
      "grad_norm": 15.077199146454074,
      "learning_rate": 9.749693779568799e-06,
      "loss": 0.2818,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 60140308.0,
      "step": 82
    },
    {
      "entropy": 0.400787353515625,
      "epoch": 0.9021739130434783,
      "grad_norm": 12.681655460421972,
      "learning_rate": 9.740242564164433e-06,
      "loss": 0.2702,
      "mean_token_accuracy": 0.8932291730307043,
      "num_tokens": 60870749.0,
      "step": 83
    },
    {
      "entropy": 0.3948822021484375,
      "epoch": 0.9130434782608695,
      "grad_norm": 11.907476150823829,
      "learning_rate": 9.730620961767996e-06,
      "loss": 0.2277,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 61601436.0,
      "step": 84
    },
    {
      "entropy": 0.3934478759765625,
      "epoch": 0.9239130434782609,
      "grad_norm": 10.39170244198829,
      "learning_rate": 9.720829318225897e-06,
      "loss": 0.2126,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 62327769.0,
      "step": 85
    },
    {
      "entropy": 0.3959503173828125,
      "epoch": 0.9347826086956522,
      "grad_norm": 14.82099050689931,
      "learning_rate": 9.710867985496644e-06,
      "loss": 0.2416,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 63073416.0,
      "step": 86
    },
    {
      "entropy": 0.3872833251953125,
      "epoch": 0.9456521739130435,
      "grad_norm": 12.817705500816434,
      "learning_rate": 9.700737321638185e-06,
      "loss": 0.2206,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 63811624.0,
      "step": 87
    },
    {
      "entropy": 0.405120849609375,
      "epoch": 0.9565217391304348,
      "grad_norm": 7.954646444625958,
      "learning_rate": 9.690437690795038e-06,
      "loss": 0.2376,
      "mean_token_accuracy": 0.890625006519258,
      "num_tokens": 64517502.0,
      "step": 88
    },
    {
      "entropy": 0.39605712890625,
      "epoch": 0.967391304347826,
      "grad_norm": 13.17508184546357,
      "learning_rate": 9.6799694631852e-06,
      "loss": 0.2386,
      "mean_token_accuracy": 0.8828125069849193,
      "num_tokens": 65239236.0,
      "step": 89
    },
    {
      "entropy": 0.398529052734375,
      "epoch": 0.9782608695652174,
      "grad_norm": 10.100284613021353,
      "learning_rate": 9.669333015086847e-06,
      "loss": 0.2382,
      "mean_token_accuracy": 0.8828125069849193,
      "num_tokens": 65961711.0,
      "step": 90
    },
    {
      "entropy": 0.4033355712890625,
      "epoch": 0.9891304347826086,
      "grad_norm": 4.893508272224444,
      "learning_rate": 9.658528728824799e-06,
      "loss": 0.2164,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 66708913.0,
      "step": 91
    },
    {
      "entropy": 0.400054931640625,
      "epoch": 1.0,
      "grad_norm": 8.527010651444911,
      "learning_rate": 9.647556992756789e-06,
      "loss": 0.2249,
      "mean_token_accuracy": 0.8776041739620268,
      "num_tokens": 67452071.0,
      "step": 92
    },
    {
      "entropy": 0.4095306396484375,
      "epoch": 1.0108695652173914,
      "grad_norm": 5.0214070744387485,
      "learning_rate": 9.63641820125949e-06,
      "loss": 0.1753,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 68178214.0,
      "step": 93
    },
    {
      "entropy": 0.411956787109375,
      "epoch": 1.0217391304347827,
      "grad_norm": 9.235180275756957,
      "learning_rate": 9.62511275471435e-06,
      "loss": 0.2003,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 68897799.0,
      "step": 94
    },
    {
      "entropy": 0.40460205078125,
      "epoch": 1.0326086956521738,
      "grad_norm": 3.788538138248571,
      "learning_rate": 9.613641059493197e-06,
      "loss": 0.1802,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 69640470.0,
      "step": 95
    },
    {
      "entropy": 0.396209716796875,
      "epoch": 1.0434782608695652,
      "grad_norm": 4.208488273400441,
      "learning_rate": 9.602003527943629e-06,
      "loss": 0.2007,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 70372981.0,
      "step": 96
    },
    {
      "entropy": 0.4058990478515625,
      "epoch": 1.0543478260869565,
      "grad_norm": 5.090519378846749,
      "learning_rate": 9.590200578374198e-06,
      "loss": 0.185,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 71094471.0,
      "step": 97
    },
    {
      "entropy": 0.412567138671875,
      "epoch": 1.065217391304348,
      "grad_norm": 3.910387905292596,
      "learning_rate": 9.578232635039368e-06,
      "loss": 0.1889,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 71819487.0,
      "step": 98
    },
    {
      "entropy": 0.4172515869140625,
      "epoch": 1.0760869565217392,
      "grad_norm": 3.33259675138505,
      "learning_rate": 9.56610012812427e-06,
      "loss": 0.1547,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 72524095.0,
      "step": 99
    },
    {
      "entropy": 0.4090118408203125,
      "epoch": 1.0869565217391304,
      "grad_norm": 6.105221371644603,
      "learning_rate": 9.553803493729237e-06,
      "loss": 0.2273,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 73276364.0,
      "step": 100
    },
    {
      "entropy": 0.4032745361328125,
      "epoch": 1.0978260869565217,
      "grad_norm": 7.273492259064905,
      "learning_rate": 9.541343173854128e-06,
      "loss": 0.2109,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 74015188.0,
      "step": 101
    },
    {
      "entropy": 0.4287567138671875,
      "epoch": 1.108695652173913,
      "grad_norm": 11.78834953806419,
      "learning_rate": 9.528719616382443e-06,
      "loss": 0.2375,
      "mean_token_accuracy": 0.8697916744276881,
      "num_tokens": 74732149.0,
      "step": 102
    },
    {
      "entropy": 0.4257965087890625,
      "epoch": 1.1195652173913044,
      "grad_norm": 5.85078430401604,
      "learning_rate": 9.515933275065218e-06,
      "loss": 0.2007,
      "mean_token_accuracy": 0.8932291730307043,
      "num_tokens": 75475337.0,
      "step": 103
    },
    {
      "entropy": 0.4450531005859375,
      "epoch": 1.1304347826086956,
      "grad_norm": 5.283943635084002,
      "learning_rate": 9.502984609504724e-06,
      "loss": 0.2154,
      "mean_token_accuracy": 0.890625006519258,
      "num_tokens": 76220959.0,
      "step": 104
    },
    {
      "entropy": 0.450225830078125,
      "epoch": 1.141304347826087,
      "grad_norm": 5.618705282107658,
      "learning_rate": 9.48987408513794e-06,
      "loss": 0.2052,
      "mean_token_accuracy": 0.8932291730307043,
      "num_tokens": 76950582.0,
      "step": 105
    },
    {
      "entropy": 0.4361114501953125,
      "epoch": 1.1521739130434783,
      "grad_norm": 1.7331454754094702,
      "learning_rate": 9.476602173219822e-06,
      "loss": 0.1904,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 77706149.0,
      "step": 106
    },
    {
      "entropy": 0.436370849609375,
      "epoch": 1.1630434782608696,
      "grad_norm": 6.173526327796113,
      "learning_rate": 9.463169350806369e-06,
      "loss": 0.2046,
      "mean_token_accuracy": 0.890625006519258,
      "num_tokens": 78423179.0,
      "step": 107
    },
    {
      "entropy": 0.4501953125,
      "epoch": 1.1739130434782608,
      "grad_norm": 2.5155717463001848,
      "learning_rate": 9.449576100737474e-06,
      "loss": 0.2181,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 79147028.0,
      "step": 108
    },
    {
      "entropy": 0.4363250732421875,
      "epoch": 1.184782608695652,
      "grad_norm": 2.6351749723051894,
      "learning_rate": 9.435822911619564e-06,
      "loss": 0.1971,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 79872134.0,
      "step": 109
    },
    {
      "entropy": 0.443756103515625,
      "epoch": 1.1956521739130435,
      "grad_norm": 3.6859054140971015,
      "learning_rate": 9.421910277808044e-06,
      "loss": 0.1872,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 80601073.0,
      "step": 110
    },
    {
      "entropy": 0.4273529052734375,
      "epoch": 1.2065217391304348,
      "grad_norm": 1.4196979506525784,
      "learning_rate": 9.407838699389525e-06,
      "loss": 0.1944,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 81329417.0,
      "step": 111
    },
    {
      "entropy": 0.4326019287109375,
      "epoch": 1.2173913043478262,
      "grad_norm": 7.565299962559855,
      "learning_rate": 9.39360868216384e-06,
      "loss": 0.2036,
      "mean_token_accuracy": 0.890625006519258,
      "num_tokens": 82026095.0,
      "step": 112
    },
    {
      "entropy": 0.42626953125,
      "epoch": 1.2282608695652173,
      "grad_norm": 8.401290054724909,
      "learning_rate": 9.379220737625877e-06,
      "loss": 0.2106,
      "mean_token_accuracy": 0.8854166734963655,
      "num_tokens": 82734118.0,
      "step": 113
    },
    {
      "entropy": 0.421051025390625,
      "epoch": 1.2391304347826086,
      "grad_norm": 2.559118218470473,
      "learning_rate": 9.364675382947185e-06,
      "loss": 0.1974,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 83446306.0,
      "step": 114
    },
    {
      "entropy": 0.408050537109375,
      "epoch": 1.25,
      "grad_norm": 8.58624633877316,
      "learning_rate": 9.349973140957392e-06,
      "loss": 0.2143,
      "mean_token_accuracy": 0.8932291730307043,
      "num_tokens": 84193941.0,
      "step": 115
    },
    {
      "entropy": 0.4257354736328125,
      "epoch": 1.2608695652173914,
      "grad_norm": 6.850628156698024,
      "learning_rate": 9.335114540125393e-06,
      "loss": 0.1974,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 84916648.0,
      "step": 116
    },
    {
      "entropy": 0.4109954833984375,
      "epoch": 1.2717391304347827,
      "grad_norm": 2.6154608058606708,
      "learning_rate": 9.320100114540382e-06,
      "loss": 0.1913,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 85658271.0,
      "step": 117
    },
    {
      "entropy": 0.417755126953125,
      "epoch": 1.2826086956521738,
      "grad_norm": 4.025167945927247,
      "learning_rate": 9.304930403892633e-06,
      "loss": 0.1773,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 86370265.0,
      "step": 118
    },
    {
      "entropy": 0.4383087158203125,
      "epoch": 1.2934782608695652,
      "grad_norm": 4.620376321046034,
      "learning_rate": 9.289605953454108e-06,
      "loss": 0.1773,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 87076977.0,
      "step": 119
    },
    {
      "entropy": 0.418731689453125,
      "epoch": 1.3043478260869565,
      "grad_norm": 4.831703681293118,
      "learning_rate": 9.274127314058857e-06,
      "loss": 0.1682,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 87817667.0,
      "step": 120
    },
    {
      "entropy": 0.4177398681640625,
      "epoch": 1.315217391304348,
      "grad_norm": 1.1754641251174802,
      "learning_rate": 9.258495042083222e-06,
      "loss": 0.1611,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 88554974.0,
      "step": 121
    },
    {
      "entropy": 0.4090423583984375,
      "epoch": 1.3260869565217392,
      "grad_norm": 1.1703411211396044,
      "learning_rate": 9.242709699425833e-06,
      "loss": 0.144,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 89316737.0,
      "step": 122
    },
    {
      "entropy": 0.41094970703125,
      "epoch": 1.3369565217391304,
      "grad_norm": 2.970352691863222,
      "learning_rate": 9.226771853487411e-06,
      "loss": 0.1661,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 90051687.0,
      "step": 123
    },
    {
      "entropy": 0.41253662109375,
      "epoch": 1.3478260869565217,
      "grad_norm": 2.3514583456752542,
      "learning_rate": 9.210682077150375e-06,
      "loss": 0.1429,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 90767066.0,
      "step": 124
    },
    {
      "entropy": 0.392852783203125,
      "epoch": 1.358695652173913,
      "grad_norm": 5.877805906023253,
      "learning_rate": 9.19444094875825e-06,
      "loss": 0.2221,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 91521346.0,
      "step": 125
    },
    {
      "entropy": 0.4010162353515625,
      "epoch": 1.3695652173913042,
      "grad_norm": 7.364988192263774,
      "learning_rate": 9.178049052094881e-06,
      "loss": 0.1769,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 92257050.0,
      "step": 126
    },
    {
      "entropy": 0.3958282470703125,
      "epoch": 1.3804347826086958,
      "grad_norm": 1.3362854666240815,
      "learning_rate": 9.161506976363438e-06,
      "loss": 0.1488,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 92996839.0,
      "step": 127
    },
    {
      "entropy": 0.4076690673828125,
      "epoch": 1.391304347826087,
      "grad_norm": 6.495540116834785,
      "learning_rate": 9.144815316165251e-06,
      "loss": 0.1989,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 93727790.0,
      "step": 128
    },
    {
      "entropy": 0.40826416015625,
      "epoch": 1.4021739130434783,
      "grad_norm": 2.2258788766906807,
      "learning_rate": 9.127974671478432e-06,
      "loss": 0.1542,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 94437475.0,
      "step": 129
    },
    {
      "entropy": 0.40631103515625,
      "epoch": 1.4130434782608696,
      "grad_norm": 5.976239215455163,
      "learning_rate": 9.110985647636303e-06,
      "loss": 0.1827,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 95192494.0,
      "step": 130
    },
    {
      "entropy": 0.41888427734375,
      "epoch": 1.4239130434782608,
      "grad_norm": 4.117801909553527,
      "learning_rate": 9.09384885530565e-06,
      "loss": 0.1829,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 95903677.0,
      "step": 131
    },
    {
      "entropy": 0.4131011962890625,
      "epoch": 1.434782608695652,
      "grad_norm": 1.8305930238204284,
      "learning_rate": 9.076564910464753e-06,
      "loss": 0.1763,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 96646573.0,
      "step": 132
    },
    {
      "entropy": 0.4432525634765625,
      "epoch": 1.4456521739130435,
      "grad_norm": 4.993214540045,
      "learning_rate": 9.059134434381274e-06,
      "loss": 0.1509,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 97354783.0,
      "step": 133
    },
    {
      "entropy": 0.4334869384765625,
      "epoch": 1.4565217391304348,
      "grad_norm": 8.35619420615095,
      "learning_rate": 9.041558053589894e-06,
      "loss": 0.2073,
      "mean_token_accuracy": 0.890625006519258,
      "num_tokens": 98083646.0,
      "step": 134
    },
    {
      "entropy": 0.4523773193359375,
      "epoch": 1.4673913043478262,
      "grad_norm": 5.3856467235881444,
      "learning_rate": 9.023836399869814e-06,
      "loss": 0.1909,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 98799122.0,
      "step": 135
    },
    {
      "entropy": 0.440277099609375,
      "epoch": 1.4782608695652173,
      "grad_norm": 1.5526328588187703,
      "learning_rate": 9.00597011022204e-06,
      "loss": 0.1715,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 99549085.0,
      "step": 136
    },
    {
      "entropy": 0.443115234375,
      "epoch": 1.4891304347826086,
      "grad_norm": 4.499936517140464,
      "learning_rate": 8.987959826846479e-06,
      "loss": 0.1821,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 100279374.0,
      "step": 137
    },
    {
      "entropy": 0.4477386474609375,
      "epoch": 1.5,
      "grad_norm": 6.540802758076889,
      "learning_rate": 8.96980619711887e-06,
      "loss": 0.1838,
      "mean_token_accuracy": 0.8932291730307043,
      "num_tokens": 101006751.0,
      "step": 138
    },
    {
      "entropy": 0.4475250244140625,
      "epoch": 1.5108695652173914,
      "grad_norm": 4.77577695784749,
      "learning_rate": 8.951509873567498e-06,
      "loss": 0.1654,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 101753195.0,
      "step": 139
    },
    {
      "entropy": 0.4398193359375,
      "epoch": 1.5217391304347827,
      "grad_norm": 0.958669190155911,
      "learning_rate": 8.93307151384975e-06,
      "loss": 0.1678,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 102497157.0,
      "step": 140
    },
    {
      "entropy": 0.4394683837890625,
      "epoch": 1.5326086956521738,
      "grad_norm": 2.09576725098122,
      "learning_rate": 8.914491780728471e-06,
      "loss": 0.1506,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 103258058.0,
      "step": 141
    },
    {
      "entropy": 0.4312286376953125,
      "epoch": 1.5434782608695652,
      "grad_norm": 3.9627393231646946,
      "learning_rate": 8.895771342048145e-06,
      "loss": 0.1821,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 103993344.0,
      "step": 142
    },
    {
      "entropy": 0.4441680908203125,
      "epoch": 1.5543478260869565,
      "grad_norm": 2.4267197468778385,
      "learning_rate": 8.876910870710885e-06,
      "loss": 0.1579,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 104721317.0,
      "step": 143
    },
    {
      "entropy": 0.458526611328125,
      "epoch": 1.5652173913043477,
      "grad_norm": 0.959835890510826,
      "learning_rate": 8.857911044652244e-06,
      "loss": 0.1762,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 105454865.0,
      "step": 144
    },
    {
      "entropy": 0.453216552734375,
      "epoch": 1.5760869565217392,
      "grad_norm": 0.8656513811970009,
      "learning_rate": 8.838772546816857e-06,
      "loss": 0.162,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 106187787.0,
      "step": 145
    },
    {
      "entropy": 0.4477996826171875,
      "epoch": 1.5869565217391304,
      "grad_norm": 2.235236009046714,
      "learning_rate": 8.819496065133879e-06,
      "loss": 0.1902,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 106933869.0,
      "step": 146
    },
    {
      "entropy": 0.461700439453125,
      "epoch": 1.5978260869565217,
      "grad_norm": 1.3847083824171043,
      "learning_rate": 8.800082292492274e-06,
      "loss": 0.1662,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 107670985.0,
      "step": 147
    },
    {
      "entropy": 0.4571990966796875,
      "epoch": 1.608695652173913,
      "grad_norm": 2.110373034103821,
      "learning_rate": 8.780531926715888e-06,
      "loss": 0.1879,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 108391600.0,
      "step": 148
    },
    {
      "entropy": 0.4744873046875,
      "epoch": 1.6195652173913042,
      "grad_norm": 1.2552996509584933,
      "learning_rate": 8.760845670538387e-06,
      "loss": 0.168,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 109110051.0,
      "step": 149
    },
    {
      "entropy": 0.454071044921875,
      "epoch": 1.6304347826086958,
      "grad_norm": 1.2218346399323967,
      "learning_rate": 8.741024231577983e-06,
      "loss": 0.1593,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 109841496.0,
      "step": 150
    },
    {
      "entropy": 0.4365692138671875,
      "epoch": 1.641304347826087,
      "grad_norm": 3.5532805823701885,
      "learning_rate": 8.721068322312007e-06,
      "loss": 0.1789,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 110601752.0,
      "step": 151
    },
    {
      "entropy": 0.438720703125,
      "epoch": 1.6521739130434783,
      "grad_norm": 2.618570816468189,
      "learning_rate": 8.700978660051293e-06,
      "loss": 0.1703,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 111338034.0,
      "step": 152
    },
    {
      "entropy": 0.428192138671875,
      "epoch": 1.6630434782608696,
      "grad_norm": 3.7249959826526804,
      "learning_rate": 8.6807559669144e-06,
      "loss": 0.1688,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 112075485.0,
      "step": 153
    },
    {
      "entropy": 0.43365478515625,
      "epoch": 1.6739130434782608,
      "grad_norm": 2.701449624084051,
      "learning_rate": 8.660400969801653e-06,
      "loss": 0.1593,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 112812513.0,
      "step": 154
    },
    {
      "entropy": 0.4405975341796875,
      "epoch": 1.6847826086956523,
      "grad_norm": 1.6349550608856147,
      "learning_rate": 8.63991440036901e-06,
      "loss": 0.1497,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 113549034.0,
      "step": 155
    },
    {
      "entropy": 0.4253997802734375,
      "epoch": 1.6956521739130435,
      "grad_norm": 3.5381763971030407,
      "learning_rate": 8.619296995001773e-06,
      "loss": 0.1357,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 114297361.0,
      "step": 156
    },
    {
      "entropy": 0.4300537109375,
      "epoch": 1.7065217391304348,
      "grad_norm": 2.12776328283804,
      "learning_rate": 8.598549494788111e-06,
      "loss": 0.1407,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 115041728.0,
      "step": 157
    },
    {
      "entropy": 0.42431640625,
      "epoch": 1.7173913043478262,
      "grad_norm": 4.083048067513888,
      "learning_rate": 8.577672645492426e-06,
      "loss": 0.1759,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 115768966.0,
      "step": 158
    },
    {
      "entropy": 0.4358062744140625,
      "epoch": 1.7282608695652173,
      "grad_norm": 2.9822083905224295,
      "learning_rate": 8.556667197528543e-06,
      "loss": 0.1694,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 116493068.0,
      "step": 159
    },
    {
      "entropy": 0.431549072265625,
      "epoch": 1.7391304347826086,
      "grad_norm": 1.377737052639115,
      "learning_rate": 8.535533905932739e-06,
      "loss": 0.1704,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 117227543.0,
      "step": 160
    },
    {
      "entropy": 0.4234161376953125,
      "epoch": 1.75,
      "grad_norm": 3.7730150655372894,
      "learning_rate": 8.5142735303366e-06,
      "loss": 0.1622,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 117954082.0,
      "step": 161
    },
    {
      "entropy": 0.4300537109375,
      "epoch": 1.7608695652173914,
      "grad_norm": 3.8510207496071662,
      "learning_rate": 8.492886834939722e-06,
      "loss": 0.1568,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 118696087.0,
      "step": 162
    },
    {
      "entropy": 0.4339599609375,
      "epoch": 1.7717391304347827,
      "grad_norm": 3.6049377888362986,
      "learning_rate": 8.47137458848224e-06,
      "loss": 0.185,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 119438989.0,
      "step": 163
    },
    {
      "entropy": 0.4301300048828125,
      "epoch": 1.7826086956521738,
      "grad_norm": 2.9030946251012644,
      "learning_rate": 8.44973756421719e-06,
      "loss": 0.1735,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 120156658.0,
      "step": 164
    },
    {
      "entropy": 0.446990966796875,
      "epoch": 1.7934782608695652,
      "grad_norm": 2.7073757112295977,
      "learning_rate": 8.427976539882725e-06,
      "loss": 0.172,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 120874328.0,
      "step": 165
    },
    {
      "entropy": 0.439178466796875,
      "epoch": 1.8043478260869565,
      "grad_norm": 2.1576703225463176,
      "learning_rate": 8.406092297674146e-06,
      "loss": 0.143,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 121620866.0,
      "step": 166
    },
    {
      "entropy": 0.452423095703125,
      "epoch": 1.8152173913043477,
      "grad_norm": 0.715865794995647,
      "learning_rate": 8.384085624215801e-06,
      "loss": 0.1572,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 122349819.0,
      "step": 167
    },
    {
      "entropy": 0.4546356201171875,
      "epoch": 1.8260869565217392,
      "grad_norm": 2.6387840712529687,
      "learning_rate": 8.3619573105328e-06,
      "loss": 0.1562,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 123074579.0,
      "step": 168
    },
    {
      "entropy": 0.4525146484375,
      "epoch": 1.8369565217391304,
      "grad_norm": 2.2344698287422355,
      "learning_rate": 8.339708152022586e-06,
      "loss": 0.1619,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 123798653.0,
      "step": 169
    },
    {
      "entropy": 0.4429779052734375,
      "epoch": 1.8478260869565217,
      "grad_norm": 1.5031686472955315,
      "learning_rate": 8.317338948426338e-06,
      "loss": 0.1573,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 124538280.0,
      "step": 170
    },
    {
      "entropy": 0.4425201416015625,
      "epoch": 1.858695652173913,
      "grad_norm": 4.304969851008702,
      "learning_rate": 8.294850503800237e-06,
      "loss": 0.1663,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 125277389.0,
      "step": 171
    },
    {
      "entropy": 0.4430389404296875,
      "epoch": 1.8695652173913042,
      "grad_norm": 3.4895856770049836,
      "learning_rate": 8.272243626486553e-06,
      "loss": 0.1678,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 126003018.0,
      "step": 172
    },
    {
      "entropy": 0.4497528076171875,
      "epoch": 1.8804347826086958,
      "grad_norm": 1.4901330302390436,
      "learning_rate": 8.24951912908459e-06,
      "loss": 0.1529,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 126744963.0,
      "step": 173
    },
    {
      "entropy": 0.448974609375,
      "epoch": 1.891304347826087,
      "grad_norm": 3.8022638830267894,
      "learning_rate": 8.22667782842149e-06,
      "loss": 0.1357,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 127474418.0,
      "step": 174
    },
    {
      "entropy": 0.469696044921875,
      "epoch": 1.9021739130434783,
      "grad_norm": 4.624766013015995,
      "learning_rate": 8.203720545522852e-06,
      "loss": 0.1642,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 128197638.0,
      "step": 175
    },
    {
      "entropy": 0.44281005859375,
      "epoch": 1.9130434782608696,
      "grad_norm": 0.8909416514919029,
      "learning_rate": 8.18064810558324e-06,
      "loss": 0.1468,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 128974530.0,
      "step": 176
    },
    {
      "entropy": 0.47247314453125,
      "epoch": 1.9239130434782608,
      "grad_norm": 3.31264642990561,
      "learning_rate": 8.157461337936506e-06,
      "loss": 0.1403,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 129705544.0,
      "step": 177
    },
    {
      "entropy": 0.467559814453125,
      "epoch": 1.9347826086956523,
      "grad_norm": 2.2961238238167683,
      "learning_rate": 8.134161076025992e-06,
      "loss": 0.1712,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 130441775.0,
      "step": 178
    },
    {
      "entropy": 0.4532623291015625,
      "epoch": 1.9456521739130435,
      "grad_norm": 1.2071079474568895,
      "learning_rate": 8.110748157374566e-06,
      "loss": 0.1453,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 131184126.0,
      "step": 179
    },
    {
      "entropy": 0.4669342041015625,
      "epoch": 1.9565217391304348,
      "grad_norm": 3.4296219861613397,
      "learning_rate": 8.087223423554513e-06,
      "loss": 0.1695,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 131916235.0,
      "step": 180
    },
    {
      "entropy": 0.4370269775390625,
      "epoch": 1.9673913043478262,
      "grad_norm": 6.99461763441038,
      "learning_rate": 8.063587720157298e-06,
      "loss": 0.1446,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 132672933.0,
      "step": 181
    },
    {
      "entropy": 0.427978515625,
      "epoch": 1.9782608695652173,
      "grad_norm": 0.8042636222526333,
      "learning_rate": 8.039841896763157e-06,
      "loss": 0.1593,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 133431646.0,
      "step": 182
    },
    {
      "entropy": 0.4595489501953125,
      "epoch": 1.9891304347826086,
      "grad_norm": 1.8884171499607314,
      "learning_rate": 8.01598680691057e-06,
      "loss": 0.1878,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 134155752.0,
      "step": 183
    },
    {
      "entropy": 0.4568023681640625,
      "epoch": 2.0,
      "grad_norm": 1.9167570632642232,
      "learning_rate": 7.99202330806557e-06,
      "loss": 0.1478,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 134891069.0,
      "step": 184
    },
    {
      "entropy": 0.45172119140625,
      "epoch": 2.010869565217391,
      "grad_norm": 1.1861270333194385,
      "learning_rate": 7.967952261590936e-06,
      "loss": 0.1337,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 135627118.0,
      "step": 185
    },
    {
      "entropy": 0.4335784912109375,
      "epoch": 2.0217391304347827,
      "grad_norm": 1.4314602898933635,
      "learning_rate": 7.943774532715215e-06,
      "loss": 0.1456,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 136354846.0,
      "step": 186
    },
    {
      "entropy": 0.4320526123046875,
      "epoch": 2.032608695652174,
      "grad_norm": 3.7590296233226677,
      "learning_rate": 7.919490990501636e-06,
      "loss": 0.1458,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 137110369.0,
      "step": 187
    },
    {
      "entropy": 0.4163360595703125,
      "epoch": 2.0434782608695654,
      "grad_norm": 4.040214994734957,
      "learning_rate": 7.895102507816866e-06,
      "loss": 0.1527,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 137870812.0,
      "step": 188
    },
    {
      "entropy": 0.4399871826171875,
      "epoch": 2.0543478260869565,
      "grad_norm": 2.3088269705309794,
      "learning_rate": 7.870609961299627e-06,
      "loss": 0.1201,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 138597219.0,
      "step": 189
    },
    {
      "entropy": 0.428070068359375,
      "epoch": 2.0652173913043477,
      "grad_norm": 3.491128861409292,
      "learning_rate": 7.8460142313292e-06,
      "loss": 0.1585,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 139336257.0,
      "step": 190
    },
    {
      "entropy": 0.412841796875,
      "epoch": 2.0760869565217392,
      "grad_norm": 2.7090610530083397,
      "learning_rate": 7.821316201993768e-06,
      "loss": 0.1275,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 140079026.0,
      "step": 191
    },
    {
      "entropy": 0.4281005859375,
      "epoch": 2.0869565217391304,
      "grad_norm": 1.897796251409077,
      "learning_rate": 7.796516761058649e-06,
      "loss": 0.1398,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 140812071.0,
      "step": 192
    },
    {
      "entropy": 0.4314727783203125,
      "epoch": 2.097826086956522,
      "grad_norm": 2.8413949411622768,
      "learning_rate": 7.771616799934372e-06,
      "loss": 0.1308,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 141543211.0,
      "step": 193
    },
    {
      "entropy": 0.42633056640625,
      "epoch": 2.108695652173913,
      "grad_norm": 2.125321208746909,
      "learning_rate": 7.746617213644646e-06,
      "loss": 0.1491,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 142284967.0,
      "step": 194
    },
    {
      "entropy": 0.4354705810546875,
      "epoch": 2.119565217391304,
      "grad_norm": 1.6755796947255133,
      "learning_rate": 7.721518900794186e-06,
      "loss": 0.1318,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 142993745.0,
      "step": 195
    },
    {
      "entropy": 0.4307098388671875,
      "epoch": 2.130434782608696,
      "grad_norm": 4.5207152084921365,
      "learning_rate": 7.696322763536408e-06,
      "loss": 0.1533,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 143700359.0,
      "step": 196
    },
    {
      "entropy": 0.4281158447265625,
      "epoch": 2.141304347826087,
      "grad_norm": 3.5733284045217184,
      "learning_rate": 7.67102970754101e-06,
      "loss": 0.161,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 144448357.0,
      "step": 197
    },
    {
      "entropy": 0.42779541015625,
      "epoch": 2.1521739130434785,
      "grad_norm": 1.121066926979484,
      "learning_rate": 7.645640641961407e-06,
      "loss": 0.1409,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 145210667.0,
      "step": 198
    },
    {
      "entropy": 0.4407958984375,
      "epoch": 2.1630434782608696,
      "grad_norm": 3.262999561397503,
      "learning_rate": 7.620156479402066e-06,
      "loss": 0.1622,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 145915294.0,
      "step": 199
    },
    {
      "entropy": 0.4230194091796875,
      "epoch": 2.1739130434782608,
      "grad_norm": 3.100611673827172,
      "learning_rate": 7.594578135885684e-06,
      "loss": 0.1277,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 146673271.0,
      "step": 200
    },
    {
      "entropy": 0.4468536376953125,
      "epoch": 2.1847826086956523,
      "grad_norm": 2.112369002225685,
      "learning_rate": 7.568906530820281e-06,
      "loss": 0.1405,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 147392814.0,
      "step": 201
    },
    {
      "entropy": 0.4447021484375,
      "epoch": 2.1956521739130435,
      "grad_norm": 3.818095919647784,
      "learning_rate": 7.543142586966139e-06,
      "loss": 0.1425,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 148129480.0,
      "step": 202
    },
    {
      "entropy": 0.426605224609375,
      "epoch": 2.2065217391304346,
      "grad_norm": 4.096093164061241,
      "learning_rate": 7.517287230402639e-06,
      "loss": 0.1684,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 148867806.0,
      "step": 203
    },
    {
      "entropy": 0.440093994140625,
      "epoch": 2.217391304347826,
      "grad_norm": 2.598352305904954,
      "learning_rate": 7.491341390494971e-06,
      "loss": 0.1428,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 149604198.0,
      "step": 204
    },
    {
      "entropy": 0.4529876708984375,
      "epoch": 2.2282608695652173,
      "grad_norm": 2.5574419887194653,
      "learning_rate": 7.465305999860728e-06,
      "loss": 0.1602,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 150305349.0,
      "step": 205
    },
    {
      "entropy": 0.4303741455078125,
      "epoch": 2.239130434782609,
      "grad_norm": 3.2398542494605764,
      "learning_rate": 7.439181994336389e-06,
      "loss": 0.1457,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 151037478.0,
      "step": 206
    },
    {
      "entropy": 0.433135986328125,
      "epoch": 2.25,
      "grad_norm": 2.847664391956948,
      "learning_rate": 7.412970312943672e-06,
      "loss": 0.1462,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 151767493.0,
      "step": 207
    },
    {
      "entropy": 0.4336395263671875,
      "epoch": 2.260869565217391,
      "grad_norm": 1.1717453238705648,
      "learning_rate": 7.386671897855786e-06,
      "loss": 0.1578,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 152498825.0,
      "step": 208
    },
    {
      "entropy": 0.434417724609375,
      "epoch": 2.2717391304347827,
      "grad_norm": 2.361721815355668,
      "learning_rate": 7.360287694363566e-06,
      "loss": 0.1413,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 153230657.0,
      "step": 209
    },
    {
      "entropy": 0.4575347900390625,
      "epoch": 2.282608695652174,
      "grad_norm": 1.2526059577569313,
      "learning_rate": 7.333818650841489e-06,
      "loss": 0.1399,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 153943297.0,
      "step": 210
    },
    {
      "entropy": 0.4569549560546875,
      "epoch": 2.2934782608695654,
      "grad_norm": 1.4532201585343005,
      "learning_rate": 7.3072657187135895e-06,
      "loss": 0.1547,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 154652549.0,
      "step": 211
    },
    {
      "entropy": 0.435577392578125,
      "epoch": 2.3043478260869565,
      "grad_norm": 4.040574986551822,
      "learning_rate": 7.280629852419263e-06,
      "loss": 0.1581,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 155409267.0,
      "step": 212
    },
    {
      "entropy": 0.437042236328125,
      "epoch": 2.3152173913043477,
      "grad_norm": 1.858790217444568,
      "learning_rate": 7.253912009378953e-06,
      "loss": 0.1321,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 156124445.0,
      "step": 213
    },
    {
      "entropy": 0.431732177734375,
      "epoch": 2.3260869565217392,
      "grad_norm": 5.0364715976704115,
      "learning_rate": 7.227113149959738e-06,
      "loss": 0.1532,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 156856677.0,
      "step": 214
    },
    {
      "entropy": 0.4216766357421875,
      "epoch": 2.3369565217391304,
      "grad_norm": 4.3593585425846335,
      "learning_rate": 7.200234237440815e-06,
      "loss": 0.1442,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 157579393.0,
      "step": 215
    },
    {
      "entropy": 0.42364501953125,
      "epoch": 2.3478260869565215,
      "grad_norm": 1.6435680795118313,
      "learning_rate": 7.173276237978872e-06,
      "loss": 0.1345,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 158300280.0,
      "step": 216
    },
    {
      "entropy": 0.4247589111328125,
      "epoch": 2.358695652173913,
      "grad_norm": 5.60860168635667,
      "learning_rate": 7.146240120573358e-06,
      "loss": 0.1549,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 159025174.0,
      "step": 217
    },
    {
      "entropy": 0.435943603515625,
      "epoch": 2.369565217391304,
      "grad_norm": 4.0413047498399814,
      "learning_rate": 7.1191268570316575e-06,
      "loss": 0.1586,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 159749263.0,
      "step": 218
    },
    {
      "entropy": 0.4086761474609375,
      "epoch": 2.380434782608696,
      "grad_norm": 1.600062177927603,
      "learning_rate": 7.091937421934158e-06,
      "loss": 0.1127,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 160499878.0,
      "step": 219
    },
    {
      "entropy": 0.4178924560546875,
      "epoch": 2.391304347826087,
      "grad_norm": 2.725165299425654,
      "learning_rate": 7.064672792599208e-06,
      "loss": 0.1515,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 161242541.0,
      "step": 220
    },
    {
      "entropy": 0.4392242431640625,
      "epoch": 2.4021739130434785,
      "grad_norm": 1.7127903264963833,
      "learning_rate": 7.037333949048005e-06,
      "loss": 0.1194,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 161972897.0,
      "step": 221
    },
    {
      "entropy": 0.417022705078125,
      "epoch": 2.4130434782608696,
      "grad_norm": 2.102525775167265,
      "learning_rate": 7.009921873969359e-06,
      "loss": 0.149,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 162689291.0,
      "step": 222
    },
    {
      "entropy": 0.4195709228515625,
      "epoch": 2.4239130434782608,
      "grad_norm": 1.2941339456006848,
      "learning_rate": 6.9824375526843705e-06,
      "loss": 0.1239,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 163428637.0,
      "step": 223
    },
    {
      "entropy": 0.424560546875,
      "epoch": 2.4347826086956523,
      "grad_norm": 1.3841024662703718,
      "learning_rate": 6.954881973111013e-06,
      "loss": 0.1167,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 164173474.0,
      "step": 224
    },
    {
      "entropy": 0.41522216796875,
      "epoch": 2.4456521739130435,
      "grad_norm": 1.7901478701733808,
      "learning_rate": 6.927256125728624e-06,
      "loss": 0.1253,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 164933018.0,
      "step": 225
    },
    {
      "entropy": 0.412750244140625,
      "epoch": 2.4565217391304346,
      "grad_norm": 2.3399198443485725,
      "learning_rate": 6.8995610035423044e-06,
      "loss": 0.1441,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 165675395.0,
      "step": 226
    },
    {
      "entropy": 0.408294677734375,
      "epoch": 2.467391304347826,
      "grad_norm": 2.589561351367803,
      "learning_rate": 6.871797602047221e-06,
      "loss": 0.1236,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 166385952.0,
      "step": 227
    },
    {
      "entropy": 0.404083251953125,
      "epoch": 2.4782608695652173,
      "grad_norm": 1.4624065792526815,
      "learning_rate": 6.843966919192827e-06,
      "loss": 0.1375,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 167140265.0,
      "step": 228
    },
    {
      "entropy": 0.4310150146484375,
      "epoch": 2.489130434782609,
      "grad_norm": 1.6602237072696386,
      "learning_rate": 6.816069955346986e-06,
      "loss": 0.1428,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 167834575.0,
      "step": 229
    },
    {
      "entropy": 0.4129791259765625,
      "epoch": 2.5,
      "grad_norm": 2.179618138566426,
      "learning_rate": 6.788107713260023e-06,
      "loss": 0.1236,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 168584889.0,
      "step": 230
    },
    {
      "entropy": 0.42919921875,
      "epoch": 2.5108695652173916,
      "grad_norm": 1.7489224970301658,
      "learning_rate": 6.760081198028671e-06,
      "loss": 0.1005,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 169314866.0,
      "step": 231
    },
    {
      "entropy": 0.445556640625,
      "epoch": 2.5217391304347827,
      "grad_norm": 1.2465794947114177,
      "learning_rate": 6.731991417059947e-06,
      "loss": 0.14,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 170025379.0,
      "step": 232
    },
    {
      "entropy": 0.4505157470703125,
      "epoch": 2.532608695652174,
      "grad_norm": 1.29178702607433,
      "learning_rate": 6.703839380034945e-06,
      "loss": 0.1259,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 170742285.0,
      "step": 233
    },
    {
      "entropy": 0.4273681640625,
      "epoch": 2.5434782608695654,
      "grad_norm": 1.6292575820828834,
      "learning_rate": 6.675626098872536e-06,
      "loss": 0.1257,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 171513817.0,
      "step": 234
    },
    {
      "entropy": 0.44970703125,
      "epoch": 2.5543478260869565,
      "grad_norm": 1.6852248282594262,
      "learning_rate": 6.647352587693001e-06,
      "loss": 0.1164,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 172232918.0,
      "step": 235
    },
    {
      "entropy": 0.4328765869140625,
      "epoch": 2.5652173913043477,
      "grad_norm": 2.073376600375582,
      "learning_rate": 6.619019862781571e-06,
      "loss": 0.1184,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 172969439.0,
      "step": 236
    },
    {
      "entropy": 0.44921875,
      "epoch": 2.5760869565217392,
      "grad_norm": 1.9200974378972484,
      "learning_rate": 6.590628942551909e-06,
      "loss": 0.1546,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 173690722.0,
      "step": 237
    },
    {
      "entropy": 0.448211669921875,
      "epoch": 2.5869565217391304,
      "grad_norm": 2.47885934149605,
      "learning_rate": 6.5621808475094904e-06,
      "loss": 0.1485,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 174399489.0,
      "step": 238
    },
    {
      "entropy": 0.4486236572265625,
      "epoch": 2.5978260869565215,
      "grad_norm": 2.447297038253941,
      "learning_rate": 6.533676600214929e-06,
      "loss": 0.1553,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 175126980.0,
      "step": 239
    },
    {
      "entropy": 0.4462738037109375,
      "epoch": 2.608695652173913,
      "grad_norm": 3.020302194189987,
      "learning_rate": 6.505117225247218e-06,
      "loss": 0.132,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 175866111.0,
      "step": 240
    },
    {
      "entropy": 0.457244873046875,
      "epoch": 2.619565217391304,
      "grad_norm": 4.330541634954611,
      "learning_rate": 6.476503749166903e-06,
      "loss": 0.1428,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 176587465.0,
      "step": 241
    },
    {
      "entropy": 0.45220947265625,
      "epoch": 2.630434782608696,
      "grad_norm": 1.1790309989239802,
      "learning_rate": 6.447837200479187e-06,
      "loss": 0.1372,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 177331643.0,
      "step": 242
    },
    {
      "entropy": 0.450225830078125,
      "epoch": 2.641304347826087,
      "grad_norm": 3.7677450833766417,
      "learning_rate": 6.419118609596948e-06,
      "loss": 0.1219,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 178092560.0,
      "step": 243
    },
    {
      "entropy": 0.4626617431640625,
      "epoch": 2.6521739130434785,
      "grad_norm": 2.354379471826025,
      "learning_rate": 6.390349008803717e-06,
      "loss": 0.1109,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 178833059.0,
      "step": 244
    },
    {
      "entropy": 0.458221435546875,
      "epoch": 2.6630434782608696,
      "grad_norm": 1.2492008836366866,
      "learning_rate": 6.36152943221656e-06,
      "loss": 0.1152,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 179574675.0,
      "step": 245
    },
    {
      "entropy": 0.4671173095703125,
      "epoch": 2.6739130434782608,
      "grad_norm": 1.9580205830162816,
      "learning_rate": 6.332660915748915e-06,
      "loss": 0.1656,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 180323503.0,
      "step": 246
    },
    {
      "entropy": 0.45538330078125,
      "epoch": 2.6847826086956523,
      "grad_norm": 4.428897441230732,
      "learning_rate": 6.303744497073352e-06,
      "loss": 0.1518,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 181063877.0,
      "step": 247
    },
    {
      "entropy": 0.4848785400390625,
      "epoch": 2.6956521739130435,
      "grad_norm": 1.1766911025294664,
      "learning_rate": 6.274781215584277e-06,
      "loss": 0.1104,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 181778413.0,
      "step": 248
    },
    {
      "entropy": 0.4732818603515625,
      "epoch": 2.7065217391304346,
      "grad_norm": 1.8955362883635332,
      "learning_rate": 6.245772112360568e-06,
      "loss": 0.1223,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 182489873.0,
      "step": 249
    },
    {
      "entropy": 0.4578857421875,
      "epoch": 2.717391304347826,
      "grad_norm": 2.9379287811463985,
      "learning_rate": 6.216718230128156e-06,
      "loss": 0.1172,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 183219695.0,
      "step": 250
    },
    {
      "entropy": 0.441741943359375,
      "epoch": 2.7282608695652173,
      "grad_norm": 1.9389285781656325,
      "learning_rate": 6.187620613222544e-06,
      "loss": 0.11,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 183941887.0,
      "step": 251
    },
    {
      "entropy": 0.4355010986328125,
      "epoch": 2.7391304347826084,
      "grad_norm": 3.644709985954486,
      "learning_rate": 6.158480307551269e-06,
      "loss": 0.139,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 184712672.0,
      "step": 252
    },
    {
      "entropy": 0.4271392822265625,
      "epoch": 2.75,
      "grad_norm": 3.221026942118114,
      "learning_rate": 6.129298360556304e-06,
      "loss": 0.1252,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 185474920.0,
      "step": 253
    },
    {
      "entropy": 0.43017578125,
      "epoch": 2.7608695652173916,
      "grad_norm": 2.162889337451279,
      "learning_rate": 6.100075821176412e-06,
      "loss": 0.1307,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 186231834.0,
      "step": 254
    },
    {
      "entropy": 0.4263153076171875,
      "epoch": 2.7717391304347827,
      "grad_norm": 2.3223435907370527,
      "learning_rate": 6.070813739809443e-06,
      "loss": 0.166,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 186953866.0,
      "step": 255
    },
    {
      "entropy": 0.4447784423828125,
      "epoch": 2.782608695652174,
      "grad_norm": 4.765363389730026,
      "learning_rate": 6.041513168274568e-06,
      "loss": 0.1388,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 187654888.0,
      "step": 256
    },
    {
      "entropy": 0.436981201171875,
      "epoch": 2.7934782608695654,
      "grad_norm": 4.817227760178238,
      "learning_rate": 6.012175159774488e-06,
      "loss": 0.1378,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 188367894.0,
      "step": 257
    },
    {
      "entropy": 0.4165802001953125,
      "epoch": 2.8043478260869565,
      "grad_norm": 3.882356634252438,
      "learning_rate": 5.982800768857561e-06,
      "loss": 0.1576,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 189121538.0,
      "step": 258
    },
    {
      "entropy": 0.4207763671875,
      "epoch": 2.8152173913043477,
      "grad_norm": 2.058067025008827,
      "learning_rate": 5.953391051379904e-06,
      "loss": 0.1363,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 189859316.0,
      "step": 259
    },
    {
      "entropy": 0.422271728515625,
      "epoch": 2.8260869565217392,
      "grad_norm": 2.977798103107239,
      "learning_rate": 5.9239470644674425e-06,
      "loss": 0.1455,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 190620335.0,
      "step": 260
    },
    {
      "entropy": 0.4425201416015625,
      "epoch": 2.8369565217391304,
      "grad_norm": 3.203730253497409,
      "learning_rate": 5.894469866477905e-06,
      "loss": 0.1364,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 191330675.0,
      "step": 261
    },
    {
      "entropy": 0.426361083984375,
      "epoch": 2.8478260869565215,
      "grad_norm": 1.7196548850693987,
      "learning_rate": 5.864960516962791e-06,
      "loss": 0.1167,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 192065111.0,
      "step": 262
    },
    {
      "entropy": 0.42193603515625,
      "epoch": 2.858695652173913,
      "grad_norm": 1.1850186363564392,
      "learning_rate": 5.835420076629273e-06,
      "loss": 0.1396,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 192813159.0,
      "step": 263
    },
    {
      "entropy": 0.4199371337890625,
      "epoch": 2.869565217391304,
      "grad_norm": 1.6406792692273324,
      "learning_rate": 5.805849607302081e-06,
      "loss": 0.1068,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 193548137.0,
      "step": 264
    },
    {
      "entropy": 0.411102294921875,
      "epoch": 2.880434782608696,
      "grad_norm": 1.3978429820195404,
      "learning_rate": 5.776250171885329e-06,
      "loss": 0.129,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 194262917.0,
      "step": 265
    },
    {
      "entropy": 0.413299560546875,
      "epoch": 2.891304347826087,
      "grad_norm": 1.583110777950559,
      "learning_rate": 5.74662283432431e-06,
      "loss": 0.1254,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 195029769.0,
      "step": 266
    },
    {
      "entropy": 0.4335479736328125,
      "epoch": 2.9021739130434785,
      "grad_norm": 3.1184241333316245,
      "learning_rate": 5.716968659567256e-06,
      "loss": 0.1115,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 195748587.0,
      "step": 267
    },
    {
      "entropy": 0.421295166015625,
      "epoch": 2.9130434782608696,
      "grad_norm": 2.6473286656450172,
      "learning_rate": 5.687288713527051e-06,
      "loss": 0.1119,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 196465825.0,
      "step": 268
    },
    {
      "entropy": 0.4080963134765625,
      "epoch": 2.9239130434782608,
      "grad_norm": 3.8885531393826835,
      "learning_rate": 5.6575840630429295e-06,
      "loss": 0.1447,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 197192986.0,
      "step": 269
    },
    {
      "entropy": 0.419708251953125,
      "epoch": 2.9347826086956523,
      "grad_norm": 1.4714496728075008,
      "learning_rate": 5.627855775842116e-06,
      "loss": 0.0956,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 197923689.0,
      "step": 270
    },
    {
      "entropy": 0.4107666015625,
      "epoch": 2.9456521739130435,
      "grad_norm": 4.069847778686403,
      "learning_rate": 5.598104920501455e-06,
      "loss": 0.1154,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 198657975.0,
      "step": 271
    },
    {
      "entropy": 0.4210357666015625,
      "epoch": 2.9565217391304346,
      "grad_norm": 4.4220609772880755,
      "learning_rate": 5.568332566408995e-06,
      "loss": 0.1238,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 199385421.0,
      "step": 272
    },
    {
      "entropy": 0.4142608642578125,
      "epoch": 2.967391304347826,
      "grad_norm": 2.063314390952295,
      "learning_rate": 5.538539783725556e-06,
      "loss": 0.1007,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 200127113.0,
      "step": 273
    },
    {
      "entropy": 0.433502197265625,
      "epoch": 2.9782608695652173,
      "grad_norm": 4.184422548701646,
      "learning_rate": 5.508727643346257e-06,
      "loss": 0.1044,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 200874584.0,
      "step": 274
    },
    {
      "entropy": 0.421417236328125,
      "epoch": 2.9891304347826084,
      "grad_norm": 5.513472072100993,
      "learning_rate": 5.478897216862026e-06,
      "loss": 0.1175,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 201599387.0,
      "step": 275
    },
    {
      "entropy": 0.4265899658203125,
      "epoch": 3.0,
      "grad_norm": 2.2997292647665954,
      "learning_rate": 5.4490495765210795e-06,
      "loss": 0.1175,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 202337950.0,
      "step": 276
    },
    {
      "entropy": 0.4306640625,
      "epoch": 3.010869565217391,
      "grad_norm": 2.190579855832304,
      "learning_rate": 5.4191857951903825e-06,
      "loss": 0.0996,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 203080367.0,
      "step": 277
    },
    {
      "entropy": 0.419464111328125,
      "epoch": 3.0217391304347827,
      "grad_norm": 2.516889051176757,
      "learning_rate": 5.389306946317089e-06,
      "loss": 0.0989,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 203814081.0,
      "step": 278
    },
    {
      "entropy": 0.4339599609375,
      "epoch": 3.032608695652174,
      "grad_norm": 1.8516168868416858,
      "learning_rate": 5.359414103889947e-06,
      "loss": 0.0925,
      "mean_token_accuracy": 0.9713541683740914,
      "num_tokens": 204525798.0,
      "step": 279
    },
    {
      "entropy": 0.442230224609375,
      "epoch": 3.0434782608695654,
      "grad_norm": 2.263130833855022,
      "learning_rate": 5.329508342400702e-06,
      "loss": 0.1097,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 205251214.0,
      "step": 280
    },
    {
      "entropy": 0.4254302978515625,
      "epoch": 3.0543478260869565,
      "grad_norm": 1.852545092555105,
      "learning_rate": 5.29959073680547e-06,
      "loss": 0.0933,
      "mean_token_accuracy": 0.9713541683740914,
      "num_tokens": 205985298.0,
      "step": 281
    },
    {
      "entropy": 0.4321746826171875,
      "epoch": 3.0652173913043477,
      "grad_norm": 1.9158331921780256,
      "learning_rate": 5.2696623624861065e-06,
      "loss": 0.0853,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 206728577.0,
      "step": 282
    },
    {
      "entropy": 0.4294891357421875,
      "epoch": 3.0760869565217392,
      "grad_norm": 2.0371798894165676,
      "learning_rate": 5.239724295211541e-06,
      "loss": 0.1054,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 207469541.0,
      "step": 283
    },
    {
      "entropy": 0.4210662841796875,
      "epoch": 3.0869565217391304,
      "grad_norm": 1.9350943795802646,
      "learning_rate": 5.209777611099117e-06,
      "loss": 0.0955,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 208200319.0,
      "step": 284
    },
    {
      "entropy": 0.42230224609375,
      "epoch": 3.097826086956522,
      "grad_norm": 2.065749100899018,
      "learning_rate": 5.179823386575908e-06,
      "loss": 0.0894,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 208930906.0,
      "step": 285
    },
    {
      "entropy": 0.4264678955078125,
      "epoch": 3.108695652173913,
      "grad_norm": 1.87532650866879,
      "learning_rate": 5.1498626983400215e-06,
      "loss": 0.0704,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 209673357.0,
      "step": 286
    },
    {
      "entropy": 0.426177978515625,
      "epoch": 3.119565217391304,
      "grad_norm": 2.547949788017777,
      "learning_rate": 5.11989662332191e-06,
      "loss": 0.0673,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 210405639.0,
      "step": 287
    },
    {
      "entropy": 0.41058349609375,
      "epoch": 3.130434782608696,
      "grad_norm": 4.082985336724253,
      "learning_rate": 5.089926238645645e-06,
      "loss": 0.1,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 211154540.0,
      "step": 288
    },
    {
      "entropy": 0.40264892578125,
      "epoch": 3.141304347826087,
      "grad_norm": 4.161528781356792,
      "learning_rate": 5.059952621590216e-06,
      "loss": 0.1174,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 211923877.0,
      "step": 289
    },
    {
      "entropy": 0.4231719970703125,
      "epoch": 3.1521739130434785,
      "grad_norm": 2.8317706039049093,
      "learning_rate": 5.029976849550789e-06,
      "loss": 0.0882,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 212646358.0,
      "step": 290
    },
    {
      "entropy": 0.4092864990234375,
      "epoch": 3.1630434782608696,
      "grad_norm": 3.7647245154772175,
      "learning_rate": 5e-06,
      "loss": 0.0987,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 213395797.0,
      "step": 291
    },
    {
      "entropy": 0.4217376708984375,
      "epoch": 3.1739130434782608,
      "grad_norm": 1.9356091403651188,
      "learning_rate": 4.970023150449212e-06,
      "loss": 0.0672,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 214125621.0,
      "step": 292
    },
    {
      "entropy": 0.399444580078125,
      "epoch": 3.1847826086956523,
      "grad_norm": 1.7965525747579338,
      "learning_rate": 4.940047378409786e-06,
      "loss": 0.0834,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 214877305.0,
      "step": 293
    },
    {
      "entropy": 0.406005859375,
      "epoch": 3.1956521739130435,
      "grad_norm": 3.66744736652184,
      "learning_rate": 4.910073761354354e-06,
      "loss": 0.0889,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 215607165.0,
      "step": 294
    },
    {
      "entropy": 0.3957672119140625,
      "epoch": 3.2065217391304346,
      "grad_norm": 2.390583019114987,
      "learning_rate": 4.880103376678092e-06,
      "loss": 0.0894,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 216349918.0,
      "step": 295
    },
    {
      "entropy": 0.391448974609375,
      "epoch": 3.217391304347826,
      "grad_norm": 4.333120844949512,
      "learning_rate": 4.85013730165998e-06,
      "loss": 0.1086,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 217102420.0,
      "step": 296
    },
    {
      "entropy": 0.3862152099609375,
      "epoch": 3.2282608695652173,
      "grad_norm": 1.9661125351891802,
      "learning_rate": 4.820176613424095e-06,
      "loss": 0.0672,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 217871171.0,
      "step": 297
    },
    {
      "entropy": 0.3945159912109375,
      "epoch": 3.239130434782609,
      "grad_norm": 2.4833763782030034,
      "learning_rate": 4.790222388900884e-06,
      "loss": 0.0763,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 218602469.0,
      "step": 298
    },
    {
      "entropy": 0.4013214111328125,
      "epoch": 3.25,
      "grad_norm": 2.3368622665113383,
      "learning_rate": 4.76027570478846e-06,
      "loss": 0.0687,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 219351088.0,
      "step": 299
    },
    {
      "entropy": 0.396148681640625,
      "epoch": 3.260869565217391,
      "grad_norm": 4.0802112165915725,
      "learning_rate": 4.730337637513895e-06,
      "loss": 0.0976,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 220084997.0,
      "step": 300
    },
    {
      "entropy": 0.411041259765625,
      "epoch": 3.2717391304347827,
      "grad_norm": 2.8000792590363157,
      "learning_rate": 4.7004092631945315e-06,
      "loss": 0.0819,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 220825937.0,
      "step": 301
    },
    {
      "entropy": 0.4010162353515625,
      "epoch": 3.282608695652174,
      "grad_norm": 2.351203914915469,
      "learning_rate": 4.6704916575993005e-06,
      "loss": 0.0808,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 221537274.0,
      "step": 302
    },
    {
      "entropy": 0.399322509765625,
      "epoch": 3.2934782608695654,
      "grad_norm": 3.0196125948653822,
      "learning_rate": 4.640585896110054e-06,
      "loss": 0.0793,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 222286417.0,
      "step": 303
    },
    {
      "entropy": 0.4076080322265625,
      "epoch": 3.3043478260869565,
      "grad_norm": 3.3492374322971865,
      "learning_rate": 4.610693053682912e-06,
      "loss": 0.1068,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 223030950.0,
      "step": 304
    },
    {
      "entropy": 0.393341064453125,
      "epoch": 3.3152173913043477,
      "grad_norm": 4.09084784233361,
      "learning_rate": 4.580814204809618e-06,
      "loss": 0.0801,
      "mean_token_accuracy": 0.9713541683740914,
      "num_tokens": 223743165.0,
      "step": 305
    },
    {
      "entropy": 0.3873291015625,
      "epoch": 3.3260869565217392,
      "grad_norm": 3.0848572572335153,
      "learning_rate": 4.550950423478923e-06,
      "loss": 0.0867,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 224517330.0,
      "step": 306
    },
    {
      "entropy": 0.39801025390625,
      "epoch": 3.3369565217391304,
      "grad_norm": 3.3058444621546195,
      "learning_rate": 4.521102783137976e-06,
      "loss": 0.0714,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 225256810.0,
      "step": 307
    },
    {
      "entropy": 0.4200592041015625,
      "epoch": 3.3478260869565215,
      "grad_norm": 1.9303494507196208,
      "learning_rate": 4.491272356653744e-06,
      "loss": 0.072,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 225948945.0,
      "step": 308
    },
    {
      "entropy": 0.4016876220703125,
      "epoch": 3.358695652173913,
      "grad_norm": 3.7639929496198175,
      "learning_rate": 4.4614602162744455e-06,
      "loss": 0.0948,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 226652546.0,
      "step": 309
    },
    {
      "entropy": 0.39385986328125,
      "epoch": 3.369565217391304,
      "grad_norm": 2.860515506088921,
      "learning_rate": 4.431667433591006e-06,
      "loss": 0.0751,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 227397217.0,
      "step": 310
    },
    {
      "entropy": 0.393035888671875,
      "epoch": 3.380434782608696,
      "grad_norm": 2.821437820622253,
      "learning_rate": 4.401895079498547e-06,
      "loss": 0.0923,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 228145981.0,
      "step": 311
    },
    {
      "entropy": 0.4042816162109375,
      "epoch": 3.391304347826087,
      "grad_norm": 3.347796149843741,
      "learning_rate": 4.372144224157886e-06,
      "loss": 0.098,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 228869333.0,
      "step": 312
    },
    {
      "entropy": 0.4080657958984375,
      "epoch": 3.4021739130434785,
      "grad_norm": 3.8771264560996745,
      "learning_rate": 4.342415936957073e-06,
      "loss": 0.0732,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 229601084.0,
      "step": 313
    },
    {
      "entropy": 0.3922576904296875,
      "epoch": 3.4130434782608696,
      "grad_norm": 3.286852395549644,
      "learning_rate": 4.312711286472951e-06,
      "loss": 0.0692,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 230337377.0,
      "step": 314
    },
    {
      "entropy": 0.4145660400390625,
      "epoch": 3.4239130434782608,
      "grad_norm": 2.046759416819987,
      "learning_rate": 4.2830313404327475e-06,
      "loss": 0.0756,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 231049706.0,
      "step": 315
    },
    {
      "entropy": 0.4028167724609375,
      "epoch": 3.4347826086956523,
      "grad_norm": 3.5900589950867063,
      "learning_rate": 4.253377165675691e-06,
      "loss": 0.0781,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 231809943.0,
      "step": 316
    },
    {
      "entropy": 0.4033203125,
      "epoch": 3.4456521739130435,
      "grad_norm": 4.3606053511862,
      "learning_rate": 4.223749828114672e-06,
      "loss": 0.0956,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 232535174.0,
      "step": 317
    },
    {
      "entropy": 0.4171600341796875,
      "epoch": 3.4565217391304346,
      "grad_norm": 2.83607465779978,
      "learning_rate": 4.19415039269792e-06,
      "loss": 0.0765,
      "mean_token_accuracy": 0.9713541683740914,
      "num_tokens": 233246120.0,
      "step": 318
    },
    {
      "entropy": 0.402130126953125,
      "epoch": 3.467391304347826,
      "grad_norm": 2.576977054467002,
      "learning_rate": 4.1645799233707286e-06,
      "loss": 0.0636,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 233984840.0,
      "step": 319
    },
    {
      "entropy": 0.4170989990234375,
      "epoch": 3.4782608695652173,
      "grad_norm": 6.716357369106125,
      "learning_rate": 4.1350394830372106e-06,
      "loss": 0.0973,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 234724529.0,
      "step": 320
    },
    {
      "entropy": 0.406707763671875,
      "epoch": 3.489130434782609,
      "grad_norm": 6.42753235081914,
      "learning_rate": 4.105530133522096e-06,
      "loss": 0.1006,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 235459715.0,
      "step": 321
    },
    {
      "entropy": 0.42047119140625,
      "epoch": 3.5,
      "grad_norm": 3.618496234149541,
      "learning_rate": 4.076052935532559e-06,
      "loss": 0.0627,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 236198323.0,
      "step": 322
    },
    {
      "entropy": 0.4431610107421875,
      "epoch": 3.5108695652173916,
      "grad_norm": 2.336160948468271,
      "learning_rate": 4.046608948620098e-06,
      "loss": 0.0731,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 236892341.0,
      "step": 323
    },
    {
      "entropy": 0.4384918212890625,
      "epoch": 3.5217391304347827,
      "grad_norm": 5.426660767550683,
      "learning_rate": 4.017199231142441e-06,
      "loss": 0.1195,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 237586452.0,
      "step": 324
    },
    {
      "entropy": 0.410369873046875,
      "epoch": 3.532608695652174,
      "grad_norm": 6.830481075910541,
      "learning_rate": 3.987824840225512e-06,
      "loss": 0.116,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 238320968.0,
      "step": 325
    },
    {
      "entropy": 0.41693115234375,
      "epoch": 3.5434782608695654,
      "grad_norm": 3.656658949454259,
      "learning_rate": 3.9584868317254325e-06,
      "loss": 0.0644,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 239054524.0,
      "step": 326
    },
    {
      "entropy": 0.41192626953125,
      "epoch": 3.5543478260869565,
      "grad_norm": 1.7888799014097259,
      "learning_rate": 3.92918626019056e-06,
      "loss": 0.0811,
      "mean_token_accuracy": 0.9713541683740914,
      "num_tokens": 239821160.0,
      "step": 327
    },
    {
      "entropy": 0.420074462890625,
      "epoch": 3.5652173913043477,
      "grad_norm": 4.950141865506235,
      "learning_rate": 3.8999241788235896e-06,
      "loss": 0.0795,
      "mean_token_accuracy": 0.9713541683740914,
      "num_tokens": 240544192.0,
      "step": 328
    },
    {
      "entropy": 0.4241180419921875,
      "epoch": 3.5760869565217392,
      "grad_norm": 4.219149299199713,
      "learning_rate": 3.8707016394436985e-06,
      "loss": 0.0714,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 241259075.0,
      "step": 329
    },
    {
      "entropy": 0.4210357666015625,
      "epoch": 3.5869565217391304,
      "grad_norm": 2.349097707963774,
      "learning_rate": 3.841519692448732e-06,
      "loss": 0.08,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 241988685.0,
      "step": 330
    },
    {
      "entropy": 0.4384613037109375,
      "epoch": 3.5978260869565215,
      "grad_norm": 1.9789251239472136,
      "learning_rate": 3.8123793867774573e-06,
      "loss": 0.0622,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 242703255.0,
      "step": 331
    },
    {
      "entropy": 0.4120025634765625,
      "epoch": 3.608695652173913,
      "grad_norm": 3.352056356359828,
      "learning_rate": 3.7832817698718456e-06,
      "loss": 0.0822,
      "mean_token_accuracy": 0.9713541683740914,
      "num_tokens": 243438575.0,
      "step": 332
    },
    {
      "entropy": 0.434722900390625,
      "epoch": 3.619565217391304,
      "grad_norm": 2.7962892710783698,
      "learning_rate": 3.754227887639434e-06,
      "loss": 0.068,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 244157391.0,
      "step": 333
    },
    {
      "entropy": 0.4107666015625,
      "epoch": 3.630434782608696,
      "grad_norm": 2.111712000540414,
      "learning_rate": 3.725218784415723e-06,
      "loss": 0.0686,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 244899991.0,
      "step": 334
    },
    {
      "entropy": 0.409393310546875,
      "epoch": 3.641304347826087,
      "grad_norm": 1.9485769602327097,
      "learning_rate": 3.6962555029266488e-06,
      "loss": 0.0617,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 245618627.0,
      "step": 335
    },
    {
      "entropy": 0.4043426513671875,
      "epoch": 3.6521739130434785,
      "grad_norm": 4.469216222095479,
      "learning_rate": 3.667339084251087e-06,
      "loss": 0.0968,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 246362596.0,
      "step": 336
    },
    {
      "entropy": 0.3925018310546875,
      "epoch": 3.6630434782608696,
      "grad_norm": 3.67936217412269,
      "learning_rate": 3.638470567783442e-06,
      "loss": 0.0717,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 247131032.0,
      "step": 337
    },
    {
      "entropy": 0.4095001220703125,
      "epoch": 3.6739130434782608,
      "grad_norm": 3.1999983388139723,
      "learning_rate": 3.609650991196285e-06,
      "loss": 0.0704,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 247867723.0,
      "step": 338
    },
    {
      "entropy": 0.4099884033203125,
      "epoch": 3.6847826086956523,
      "grad_norm": 2.0977770366249717,
      "learning_rate": 3.5808813904030517e-06,
      "loss": 0.041,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 248609917.0,
      "step": 339
    },
    {
      "entropy": 0.414337158203125,
      "epoch": 3.6956521739130435,
      "grad_norm": 2.234561787501645,
      "learning_rate": 3.5521627995208146e-06,
      "loss": 0.0655,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 249333588.0,
      "step": 340
    },
    {
      "entropy": 0.4004364013671875,
      "epoch": 3.7065217391304346,
      "grad_norm": 3.830980326705279,
      "learning_rate": 3.523496250833098e-06,
      "loss": 0.0873,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 250072667.0,
      "step": 341
    },
    {
      "entropy": 0.4086456298828125,
      "epoch": 3.717391304347826,
      "grad_norm": 2.284589154369261,
      "learning_rate": 3.4948827747527846e-06,
      "loss": 0.0527,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 250806854.0,
      "step": 342
    },
    {
      "entropy": 0.413909912109375,
      "epoch": 3.7282608695652173,
      "grad_norm": 1.9662699533817307,
      "learning_rate": 3.466323399785072e-06,
      "loss": 0.055,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 251512520.0,
      "step": 343
    },
    {
      "entropy": 0.4019317626953125,
      "epoch": 3.7391304347826084,
      "grad_norm": 3.438766951604437,
      "learning_rate": 3.4378191524905104e-06,
      "loss": 0.0688,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 252201188.0,
      "step": 344
    },
    {
      "entropy": 0.398681640625,
      "epoch": 3.75,
      "grad_norm": 4.5562772132020495,
      "learning_rate": 3.4093710574480926e-06,
      "loss": 0.0701,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 252932164.0,
      "step": 345
    },
    {
      "entropy": 0.3868408203125,
      "epoch": 3.7608695652173916,
      "grad_norm": 4.439568146410507,
      "learning_rate": 3.3809801372184305e-06,
      "loss": 0.0552,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 253644299.0,
      "step": 346
    },
    {
      "entropy": 0.40118408203125,
      "epoch": 3.7717391304347827,
      "grad_norm": 1.9626030736090752,
      "learning_rate": 3.352647412307002e-06,
      "loss": 0.0498,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 254380712.0,
      "step": 347
    },
    {
      "entropy": 0.393157958984375,
      "epoch": 3.782608695652174,
      "grad_norm": 2.1543503694459427,
      "learning_rate": 3.3243739011274645e-06,
      "loss": 0.0523,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 255122370.0,
      "step": 348
    },
    {
      "entropy": 0.393310546875,
      "epoch": 3.7934782608695654,
      "grad_norm": 2.8650678743520293,
      "learning_rate": 3.296160619965056e-06,
      "loss": 0.0417,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 255853485.0,
      "step": 349
    },
    {
      "entropy": 0.3787841796875,
      "epoch": 3.8043478260869565,
      "grad_norm": 4.716110560454938,
      "learning_rate": 3.2680085829400553e-06,
      "loss": 0.0988,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 256617512.0,
      "step": 350
    },
    {
      "entropy": 0.394500732421875,
      "epoch": 3.8152173913043477,
      "grad_norm": 3.178287201396078,
      "learning_rate": 3.2399188019713325e-06,
      "loss": 0.0502,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 257347949.0,
      "step": 351
    },
    {
      "entropy": 0.3861083984375,
      "epoch": 3.8260869565217392,
      "grad_norm": 2.8753426600753893,
      "learning_rate": 3.2118922867399776e-06,
      "loss": 0.0508,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 258083995.0,
      "step": 352
    },
    {
      "entropy": 0.3770904541015625,
      "epoch": 3.8369565217391304,
      "grad_norm": 2.077999957941228,
      "learning_rate": 3.183930044653014e-06,
      "loss": 0.0439,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 258838524.0,
      "step": 353
    },
    {
      "entropy": 0.392822265625,
      "epoch": 3.8478260869565215,
      "grad_norm": 4.140448020807878,
      "learning_rate": 3.156033080807175e-06,
      "loss": 0.0565,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 259555030.0,
      "step": 354
    },
    {
      "entropy": 0.378326416015625,
      "epoch": 3.858695652173913,
      "grad_norm": 4.342021370377634,
      "learning_rate": 3.128202397952781e-06,
      "loss": 0.0692,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 260294666.0,
      "step": 355
    },
    {
      "entropy": 0.4000701904296875,
      "epoch": 3.869565217391304,
      "grad_norm": 4.357125399250817,
      "learning_rate": 3.1004389964576976e-06,
      "loss": 0.0536,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 261023798.0,
      "step": 356
    },
    {
      "entropy": 0.3740081787109375,
      "epoch": 3.880434782608696,
      "grad_norm": 2.127220095503553,
      "learning_rate": 3.0727438742713766e-06,
      "loss": 0.0273,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 261776564.0,
      "step": 357
    },
    {
      "entropy": 0.3948822021484375,
      "epoch": 3.891304347826087,
      "grad_norm": 3.7059204972332287,
      "learning_rate": 3.045118026888988e-06,
      "loss": 0.0644,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 262502805.0,
      "step": 358
    },
    {
      "entropy": 0.3975677490234375,
      "epoch": 3.9021739130434785,
      "grad_norm": 2.729704189291735,
      "learning_rate": 3.0175624473156315e-06,
      "loss": 0.0417,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 263222577.0,
      "step": 359
    },
    {
      "entropy": 0.3936920166015625,
      "epoch": 3.9130434782608696,
      "grad_norm": 2.8381744770777697,
      "learning_rate": 2.9900781260306427e-06,
      "loss": 0.0453,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 263947176.0,
      "step": 360
    },
    {
      "entropy": 0.369842529296875,
      "epoch": 3.9239130434782608,
      "grad_norm": 1.4498595534297578,
      "learning_rate": 2.962666050951997e-06,
      "loss": 0.0276,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 264698640.0,
      "step": 361
    },
    {
      "entropy": 0.38536834716796875,
      "epoch": 3.9347826086956523,
      "grad_norm": 2.9610698399445092,
      "learning_rate": 2.9353272074007933e-06,
      "loss": 0.0449,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 265450039.0,
      "step": 362
    },
    {
      "entropy": 0.37188720703125,
      "epoch": 3.9456521739130435,
      "grad_norm": 5.98862409549196,
      "learning_rate": 2.9080625780658455e-06,
      "loss": 0.0576,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 266204345.0,
      "step": 363
    },
    {
      "entropy": 0.37111663818359375,
      "epoch": 3.9565217391304346,
      "grad_norm": 3.4202291089489867,
      "learning_rate": 2.8808731429683433e-06,
      "loss": 0.0397,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 266944078.0,
      "step": 364
    },
    {
      "entropy": 0.368408203125,
      "epoch": 3.967391304347826,
      "grad_norm": 5.356167439012959,
      "learning_rate": 2.853759879426644e-06,
      "loss": 0.0625,
      "mean_token_accuracy": 0.9713541683740914,
      "num_tokens": 267706680.0,
      "step": 365
    },
    {
      "entropy": 0.38713836669921875,
      "epoch": 3.9782608695652173,
      "grad_norm": 3.478787792686325,
      "learning_rate": 2.8267237620211296e-06,
      "loss": 0.0431,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 268418583.0,
      "step": 366
    },
    {
      "entropy": 0.398040771484375,
      "epoch": 3.9891304347826084,
      "grad_norm": 2.3224612771263917,
      "learning_rate": 2.7997657625591866e-06,
      "loss": 0.0468,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 269124601.0,
      "step": 367
    },
    {
      "entropy": 0.3655242919921875,
      "epoch": 4.0,
      "grad_norm": 1.5309075156665706,
      "learning_rate": 2.772886850040264e-06,
      "loss": 0.0303,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 269861255.0,
      "step": 368
    },
    {
      "entropy": 0.38800048828125,
      "epoch": 4.010869565217392,
      "grad_norm": 4.595277132404094,
      "learning_rate": 2.7460879906210485e-06,
      "loss": 0.0626,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 270577876.0,
      "step": 369
    },
    {
      "entropy": 0.38414764404296875,
      "epoch": 4.021739130434782,
      "grad_norm": 1.30073074273175,
      "learning_rate": 2.7193701475807376e-06,
      "loss": 0.0131,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 271313877.0,
      "step": 370
    },
    {
      "entropy": 0.38006591796875,
      "epoch": 4.032608695652174,
      "grad_norm": 3.127345673043137,
      "learning_rate": 2.6927342812864117e-06,
      "loss": 0.035,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 272042107.0,
      "step": 371
    },
    {
      "entropy": 0.3839569091796875,
      "epoch": 4.043478260869565,
      "grad_norm": 2.8102486746059836,
      "learning_rate": 2.6661813491585133e-06,
      "loss": 0.0448,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 272772018.0,
      "step": 372
    },
    {
      "entropy": 0.39007568359375,
      "epoch": 4.054347826086956,
      "grad_norm": 3.4906126866849756,
      "learning_rate": 2.6397123056364364e-06,
      "loss": 0.043,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 273489401.0,
      "step": 373
    },
    {
      "entropy": 0.39166259765625,
      "epoch": 4.065217391304348,
      "grad_norm": 2.7056141823831856,
      "learning_rate": 2.613328102144216e-06,
      "loss": 0.0291,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 274197438.0,
      "step": 374
    },
    {
      "entropy": 0.37099456787109375,
      "epoch": 4.076086956521739,
      "grad_norm": 5.751290163273267,
      "learning_rate": 2.5870296870563287e-06,
      "loss": 0.0544,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 274941180.0,
      "step": 375
    },
    {
      "entropy": 0.3722991943359375,
      "epoch": 4.086956521739131,
      "grad_norm": 3.6149156340975073,
      "learning_rate": 2.5608180056636123e-06,
      "loss": 0.0231,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 275661505.0,
      "step": 376
    },
    {
      "entropy": 0.397918701171875,
      "epoch": 4.0978260869565215,
      "grad_norm": 5.6778001098973725,
      "learning_rate": 2.534694000139273e-06,
      "loss": 0.0473,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 276351761.0,
      "step": 377
    },
    {
      "entropy": 0.3731231689453125,
      "epoch": 4.108695652173913,
      "grad_norm": 1.6129345942372684,
      "learning_rate": 2.5086586095050314e-06,
      "loss": 0.0189,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 277091175.0,
      "step": 378
    },
    {
      "entropy": 0.41300201416015625,
      "epoch": 4.119565217391305,
      "grad_norm": 2.416672492718532,
      "learning_rate": 2.482712769597363e-06,
      "loss": 0.0286,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 277796004.0,
      "step": 379
    },
    {
      "entropy": 0.3777923583984375,
      "epoch": 4.130434782608695,
      "grad_norm": 2.694451818933001,
      "learning_rate": 2.4568574130338624e-06,
      "loss": 0.0136,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 278512092.0,
      "step": 380
    },
    {
      "entropy": 0.394805908203125,
      "epoch": 4.141304347826087,
      "grad_norm": 1.065571833694989,
      "learning_rate": 2.4310934691797207e-06,
      "loss": 0.0138,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 279239365.0,
      "step": 381
    },
    {
      "entropy": 0.368896484375,
      "epoch": 4.1521739130434785,
      "grad_norm": 3.355927233441976,
      "learning_rate": 2.405421864114318e-06,
      "loss": 0.0367,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 279985674.0,
      "step": 382
    },
    {
      "entropy": 0.3618927001953125,
      "epoch": 4.163043478260869,
      "grad_norm": 2.933829565816469,
      "learning_rate": 2.379843520597937e-06,
      "loss": 0.0359,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 280738189.0,
      "step": 383
    },
    {
      "entropy": 0.3805389404296875,
      "epoch": 4.173913043478261,
      "grad_norm": 2.0799816846609214,
      "learning_rate": 2.3543593580385925e-06,
      "loss": 0.0367,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 281468488.0,
      "step": 384
    },
    {
      "entropy": 0.369659423828125,
      "epoch": 4.184782608695652,
      "grad_norm": 2.4691176788153686,
      "learning_rate": 2.3289702924589914e-06,
      "loss": 0.0272,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 282200429.0,
      "step": 385
    },
    {
      "entropy": 0.3701171875,
      "epoch": 4.195652173913044,
      "grad_norm": 4.7973226825473585,
      "learning_rate": 2.303677236463593e-06,
      "loss": 0.041,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 282939214.0,
      "step": 386
    },
    {
      "entropy": 0.36492919921875,
      "epoch": 4.206521739130435,
      "grad_norm": 6.0696191653483655,
      "learning_rate": 2.2784810992058155e-06,
      "loss": 0.0503,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 283684446.0,
      "step": 387
    },
    {
      "entropy": 0.368804931640625,
      "epoch": 4.217391304347826,
      "grad_norm": 5.120202970868459,
      "learning_rate": 2.2533827863553552e-06,
      "loss": 0.0444,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 284420413.0,
      "step": 388
    },
    {
      "entropy": 0.3820648193359375,
      "epoch": 4.228260869565218,
      "grad_norm": 4.194143973411087,
      "learning_rate": 2.2283832000656304e-06,
      "loss": 0.0351,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 285130092.0,
      "step": 389
    },
    {
      "entropy": 0.393524169921875,
      "epoch": 4.239130434782608,
      "grad_norm": 3.006419293824712,
      "learning_rate": 2.2034832389413536e-06,
      "loss": 0.0417,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 285850251.0,
      "step": 390
    },
    {
      "entropy": 0.3633880615234375,
      "epoch": 4.25,
      "grad_norm": 1.412874750428236,
      "learning_rate": 2.178683798006234e-06,
      "loss": 0.0153,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 286587859.0,
      "step": 391
    },
    {
      "entropy": 0.38916015625,
      "epoch": 4.260869565217392,
      "grad_norm": 1.910989852111756,
      "learning_rate": 2.153985768670803e-06,
      "loss": 0.0182,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 287290374.0,
      "step": 392
    },
    {
      "entropy": 0.3795166015625,
      "epoch": 4.271739130434782,
      "grad_norm": 1.5370768408364253,
      "learning_rate": 2.1293900387003742e-06,
      "loss": 0.0129,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 288035700.0,
      "step": 393
    },
    {
      "entropy": 0.38623046875,
      "epoch": 4.282608695652174,
      "grad_norm": 3.8269787890833933,
      "learning_rate": 2.104897492183135e-06,
      "loss": 0.0419,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 288754108.0,
      "step": 394
    },
    {
      "entropy": 0.359588623046875,
      "epoch": 4.293478260869565,
      "grad_norm": 3.3496010719475224,
      "learning_rate": 2.080509009498364e-06,
      "loss": 0.0456,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 289518077.0,
      "step": 395
    },
    {
      "entropy": 0.374298095703125,
      "epoch": 4.304347826086957,
      "grad_norm": 2.1492825124400263,
      "learning_rate": 2.056225467284786e-06,
      "loss": 0.031,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 290227144.0,
      "step": 396
    },
    {
      "entropy": 0.3732147216796875,
      "epoch": 4.315217391304348,
      "grad_norm": 2.988779848490244,
      "learning_rate": 2.0320477384090665e-06,
      "loss": 0.032,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 290960551.0,
      "step": 397
    },
    {
      "entropy": 0.3665008544921875,
      "epoch": 4.326086956521739,
      "grad_norm": 2.1974945204225755,
      "learning_rate": 2.007976691934432e-06,
      "loss": 0.0251,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 291701237.0,
      "step": 398
    },
    {
      "entropy": 0.39080810546875,
      "epoch": 4.336956521739131,
      "grad_norm": 1.9533920748345128,
      "learning_rate": 1.9840131930894334e-06,
      "loss": 0.0218,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 292416900.0,
      "step": 399
    },
    {
      "entropy": 0.3744659423828125,
      "epoch": 4.3478260869565215,
      "grad_norm": 2.2460758804470053,
      "learning_rate": 1.9601581032368457e-06,
      "loss": 0.0357,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 293147521.0,
      "step": 400
    },
    {
      "entropy": 0.380218505859375,
      "epoch": 4.358695652173913,
      "grad_norm": 8.268417438393083,
      "learning_rate": 1.936412279842705e-06,
      "loss": 0.0375,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 293880418.0,
      "step": 401
    },
    {
      "entropy": 0.363250732421875,
      "epoch": 4.369565217391305,
      "grad_norm": 3.471428859251875,
      "learning_rate": 1.912776576445488e-06,
      "loss": 0.0192,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 294617287.0,
      "step": 402
    },
    {
      "entropy": 0.36881256103515625,
      "epoch": 4.380434782608695,
      "grad_norm": 5.312144924698836,
      "learning_rate": 1.8892518426254363e-06,
      "loss": 0.0252,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 295355057.0,
      "step": 403
    },
    {
      "entropy": 0.3929443359375,
      "epoch": 4.391304347826087,
      "grad_norm": 1.9265461523647711,
      "learning_rate": 1.8658389239740094e-06,
      "loss": 0.0106,
      "mean_token_accuracy": 1.0,
      "num_tokens": 296072633.0,
      "step": 404
    },
    {
      "entropy": 0.373687744140625,
      "epoch": 4.4021739130434785,
      "grad_norm": 1.8705180392515277,
      "learning_rate": 1.8425386620634961e-06,
      "loss": 0.0071,
      "mean_token_accuracy": 1.0,
      "num_tokens": 296804907.0,
      "step": 405
    },
    {
      "entropy": 0.3707733154296875,
      "epoch": 4.413043478260869,
      "grad_norm": 3.1203717216743354,
      "learning_rate": 1.8193518944167625e-06,
      "loss": 0.0271,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 297532023.0,
      "step": 406
    },
    {
      "entropy": 0.373199462890625,
      "epoch": 4.423913043478261,
      "grad_norm": 6.427020191373413,
      "learning_rate": 1.7962794544771477e-06,
      "loss": 0.0355,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 298264142.0,
      "step": 407
    },
    {
      "entropy": 0.3828582763671875,
      "epoch": 4.434782608695652,
      "grad_norm": 2.652277339352154,
      "learning_rate": 1.773322171578512e-06,
      "loss": 0.0334,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 298987617.0,
      "step": 408
    },
    {
      "entropy": 0.383087158203125,
      "epoch": 4.445652173913043,
      "grad_norm": 3.668218658311816,
      "learning_rate": 1.7504808709154104e-06,
      "loss": 0.0441,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 299711878.0,
      "step": 409
    },
    {
      "entropy": 0.363861083984375,
      "epoch": 4.456521739130435,
      "grad_norm": 2.0558349578356285,
      "learning_rate": 1.727756373513449e-06,
      "loss": 0.0135,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 300441914.0,
      "step": 410
    },
    {
      "entropy": 0.371795654296875,
      "epoch": 4.467391304347826,
      "grad_norm": 2.2589611372906697,
      "learning_rate": 1.7051494961997623e-06,
      "loss": 0.0285,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 301168712.0,
      "step": 411
    },
    {
      "entropy": 0.400482177734375,
      "epoch": 4.478260869565218,
      "grad_norm": 0.9423512355403731,
      "learning_rate": 1.6826610515736618e-06,
      "loss": 0.0053,
      "mean_token_accuracy": 1.0,
      "num_tokens": 301878671.0,
      "step": 412
    },
    {
      "entropy": 0.3730926513671875,
      "epoch": 4.489130434782608,
      "grad_norm": 2.3291075781216324,
      "learning_rate": 1.660291847977415e-06,
      "loss": 0.0188,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 302592628.0,
      "step": 413
    },
    {
      "entropy": 0.3641357421875,
      "epoch": 4.5,
      "grad_norm": 2.987945974856435,
      "learning_rate": 1.6380426894672003e-06,
      "loss": 0.0274,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 303314359.0,
      "step": 414
    },
    {
      "entropy": 0.374237060546875,
      "epoch": 4.510869565217392,
      "grad_norm": 4.783000519073676,
      "learning_rate": 1.6159143757842005e-06,
      "loss": 0.0226,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 304045033.0,
      "step": 415
    },
    {
      "entropy": 0.3485260009765625,
      "epoch": 4.521739130434782,
      "grad_norm": 4.255513854923856,
      "learning_rate": 1.5939077023258547e-06,
      "loss": 0.0246,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 304813007.0,
      "step": 416
    },
    {
      "entropy": 0.3600616455078125,
      "epoch": 4.532608695652174,
      "grad_norm": 3.094602937828575,
      "learning_rate": 1.5720234601172767e-06,
      "loss": 0.0146,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 305573761.0,
      "step": 417
    },
    {
      "entropy": 0.373382568359375,
      "epoch": 4.543478260869565,
      "grad_norm": 1.6098914636676176,
      "learning_rate": 1.5502624357828118e-06,
      "loss": 0.0414,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 306324063.0,
      "step": 418
    },
    {
      "entropy": 0.383148193359375,
      "epoch": 4.554347826086957,
      "grad_norm": 5.253843920485766,
      "learning_rate": 1.5286254115177623e-06,
      "loss": 0.02,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 307033050.0,
      "step": 419
    },
    {
      "entropy": 0.358612060546875,
      "epoch": 4.565217391304348,
      "grad_norm": 2.871214698885423,
      "learning_rate": 1.5071131650602782e-06,
      "loss": 0.035,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 307788933.0,
      "step": 420
    },
    {
      "entropy": 0.388916015625,
      "epoch": 4.576086956521739,
      "grad_norm": 2.65514274750784,
      "learning_rate": 1.485726469663401e-06,
      "loss": 0.0152,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 308503241.0,
      "step": 421
    },
    {
      "entropy": 0.37237548828125,
      "epoch": 4.586956521739131,
      "grad_norm": 1.150911554459412,
      "learning_rate": 1.4644660940672628e-06,
      "loss": 0.0181,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 309228028.0,
      "step": 422
    },
    {
      "entropy": 0.357452392578125,
      "epoch": 4.5978260869565215,
      "grad_norm": 1.775356378180583,
      "learning_rate": 1.4433328024714583e-06,
      "loss": 0.0141,
      "mean_token_accuracy": 1.0,
      "num_tokens": 309986074.0,
      "step": 423
    },
    {
      "entropy": 0.3607635498046875,
      "epoch": 4.608695652173913,
      "grad_norm": 3.0321363200763254,
      "learning_rate": 1.422327354507575e-06,
      "loss": 0.0258,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 310712773.0,
      "step": 424
    },
    {
      "entropy": 0.366943359375,
      "epoch": 4.619565217391305,
      "grad_norm": 2.2214564073981533,
      "learning_rate": 1.4014505052118893e-06,
      "loss": 0.0243,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 311448501.0,
      "step": 425
    },
    {
      "entropy": 0.36785125732421875,
      "epoch": 4.630434782608695,
      "grad_norm": 1.6392598612435099,
      "learning_rate": 1.3807030049982284e-06,
      "loss": 0.0342,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 312158337.0,
      "step": 426
    },
    {
      "entropy": 0.37010955810546875,
      "epoch": 4.641304347826087,
      "grad_norm": 4.920318608904118,
      "learning_rate": 1.3600855996309937e-06,
      "loss": 0.0132,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 312879440.0,
      "step": 427
    },
    {
      "entropy": 0.364288330078125,
      "epoch": 4.6521739130434785,
      "grad_norm": 3.6284562605996746,
      "learning_rate": 1.339599030198351e-06,
      "loss": 0.0192,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 313612807.0,
      "step": 428
    },
    {
      "entropy": 0.35506439208984375,
      "epoch": 4.663043478260869,
      "grad_norm": 4.492237969140706,
      "learning_rate": 1.3192440330856005e-06,
      "loss": 0.0449,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 314358795.0,
      "step": 429
    },
    {
      "entropy": 0.3539276123046875,
      "epoch": 4.673913043478261,
      "grad_norm": 2.576170381425616,
      "learning_rate": 1.2990213399487078e-06,
      "loss": 0.024,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 315107001.0,
      "step": 430
    },
    {
      "entropy": 0.3652801513671875,
      "epoch": 4.684782608695652,
      "grad_norm": 2.1115163930581637,
      "learning_rate": 1.278931677687994e-06,
      "loss": 0.0204,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 315853022.0,
      "step": 431
    },
    {
      "entropy": 0.3787689208984375,
      "epoch": 4.695652173913043,
      "grad_norm": 4.168164186601893,
      "learning_rate": 1.2589757684220182e-06,
      "loss": 0.0256,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 316544318.0,
      "step": 432
    },
    {
      "entropy": 0.3879547119140625,
      "epoch": 4.706521739130435,
      "grad_norm": 3.65696607841437,
      "learning_rate": 1.239154329461615e-06,
      "loss": 0.0543,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 317265160.0,
      "step": 433
    },
    {
      "entropy": 0.35553741455078125,
      "epoch": 4.717391304347826,
      "grad_norm": 4.215093838345995,
      "learning_rate": 1.2194680732841125e-06,
      "loss": 0.0227,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 318003658.0,
      "step": 434
    },
    {
      "entropy": 0.36273193359375,
      "epoch": 4.728260869565218,
      "grad_norm": 3.351703649452139,
      "learning_rate": 1.1999177075077278e-06,
      "loss": 0.0272,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 318748244.0,
      "step": 435
    },
    {
      "entropy": 0.360687255859375,
      "epoch": 4.739130434782608,
      "grad_norm": 1.9104938421086841,
      "learning_rate": 1.1805039348661213e-06,
      "loss": 0.0183,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 319477545.0,
      "step": 436
    },
    {
      "entropy": 0.3697509765625,
      "epoch": 4.75,
      "grad_norm": 3.400106274550327,
      "learning_rate": 1.1612274531831463e-06,
      "loss": 0.0184,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 320224965.0,
      "step": 437
    },
    {
      "entropy": 0.3626861572265625,
      "epoch": 4.760869565217392,
      "grad_norm": 3.2503125559108534,
      "learning_rate": 1.1420889553477577e-06,
      "loss": 0.0236,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 320945109.0,
      "step": 438
    },
    {
      "entropy": 0.37467193603515625,
      "epoch": 4.771739130434782,
      "grad_norm": 2.9978748384378515,
      "learning_rate": 1.1230891292891173e-06,
      "loss": 0.0219,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 321674303.0,
      "step": 439
    },
    {
      "entropy": 0.386383056640625,
      "epoch": 4.782608695652174,
      "grad_norm": 3.6155406453304093,
      "learning_rate": 1.1042286579518556e-06,
      "loss": 0.0276,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 322381247.0,
      "step": 440
    },
    {
      "entropy": 0.35955047607421875,
      "epoch": 4.793478260869565,
      "grad_norm": 1.5794285314932865,
      "learning_rate": 1.0855082192715294e-06,
      "loss": 0.0102,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 323135912.0,
      "step": 441
    },
    {
      "entropy": 0.358795166015625,
      "epoch": 4.804347826086957,
      "grad_norm": 3.250342482828731,
      "learning_rate": 1.0669284861502517e-06,
      "loss": 0.0164,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 323876490.0,
      "step": 442
    },
    {
      "entropy": 0.3836669921875,
      "epoch": 4.815217391304348,
      "grad_norm": 1.3421438873245612,
      "learning_rate": 1.0484901264325026e-06,
      "loss": 0.0084,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 324595349.0,
      "step": 443
    },
    {
      "entropy": 0.3834228515625,
      "epoch": 4.826086956521739,
      "grad_norm": 2.753143161556586,
      "learning_rate": 1.0301938028811303e-06,
      "loss": 0.0152,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 325321090.0,
      "step": 444
    },
    {
      "entropy": 0.3758697509765625,
      "epoch": 4.836956521739131,
      "grad_norm": 3.1167410843910557,
      "learning_rate": 1.0120401731535213e-06,
      "loss": 0.0183,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 326056037.0,
      "step": 445
    },
    {
      "entropy": 0.3780670166015625,
      "epoch": 4.8478260869565215,
      "grad_norm": 1.8344689417812794,
      "learning_rate": 9.940298897779615e-07,
      "loss": 0.015,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 326789046.0,
      "step": 446
    },
    {
      "entropy": 0.3646240234375,
      "epoch": 4.858695652173913,
      "grad_norm": 3.154427482665691,
      "learning_rate": 9.761636001301872e-07,
      "loss": 0.0163,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 327535972.0,
      "step": 447
    },
    {
      "entropy": 0.3695526123046875,
      "epoch": 4.869565217391305,
      "grad_norm": 1.7071518115483264,
      "learning_rate": 9.58441946410108e-07,
      "loss": 0.0066,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 328278100.0,
      "step": 448
    },
    {
      "entropy": 0.364990234375,
      "epoch": 4.880434782608695,
      "grad_norm": 4.185737374642862,
      "learning_rate": 9.408655656187282e-07,
      "loss": 0.0163,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 329008451.0,
      "step": 449
    },
    {
      "entropy": 0.378997802734375,
      "epoch": 4.891304347826087,
      "grad_norm": 2.3882321132212843,
      "learning_rate": 9.234350895352479e-07,
      "loss": 0.0087,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 329752151.0,
      "step": 450
    },
    {
      "entropy": 0.355438232421875,
      "epoch": 4.9021739130434785,
      "grad_norm": 1.786105907385294,
      "learning_rate": 9.061511446943533e-07,
      "loss": 0.0167,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 330512184.0,
      "step": 451
    },
    {
      "entropy": 0.3662567138671875,
      "epoch": 4.913043478260869,
      "grad_norm": 3.08802060008647,
      "learning_rate": 8.890143523636968e-07,
      "loss": 0.0273,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 331251228.0,
      "step": 452
    },
    {
      "entropy": 0.375274658203125,
      "epoch": 4.923913043478261,
      "grad_norm": 1.37791383413314,
      "learning_rate": 8.720253285215685e-07,
      "loss": 0.0066,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 331965770.0,
      "step": 453
    },
    {
      "entropy": 0.35625457763671875,
      "epoch": 4.934782608695652,
      "grad_norm": 2.371252089164963,
      "learning_rate": 8.551846838347489e-07,
      "loss": 0.0164,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 332700398.0,
      "step": 454
    },
    {
      "entropy": 0.37933349609375,
      "epoch": 4.945652173913043,
      "grad_norm": 4.027690651546405,
      "learning_rate": 8.384930236365629e-07,
      "loss": 0.0245,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 333422817.0,
      "step": 455
    },
    {
      "entropy": 0.3536529541015625,
      "epoch": 4.956521739130435,
      "grad_norm": 2.3894193157020194,
      "learning_rate": 8.219509479051202e-07,
      "loss": 0.0099,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 334164567.0,
      "step": 456
    },
    {
      "entropy": 0.36215972900390625,
      "epoch": 4.967391304347826,
      "grad_norm": 0.8447764188937641,
      "learning_rate": 8.055590512417499e-07,
      "loss": 0.0047,
      "mean_token_accuracy": 1.0,
      "num_tokens": 334900847.0,
      "step": 457
    },
    {
      "entropy": 0.36322784423828125,
      "epoch": 4.978260869565218,
      "grad_norm": 1.83158133757884,
      "learning_rate": 7.893179228496261e-07,
      "loss": 0.0147,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 335643501.0,
      "step": 458
    },
    {
      "entropy": 0.372894287109375,
      "epoch": 4.989130434782608,
      "grad_norm": 5.445692097204378,
      "learning_rate": 7.732281465125907e-07,
      "loss": 0.0214,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 336387364.0,
      "step": 459
    },
    {
      "entropy": 0.3603668212890625,
      "epoch": 5.0,
      "grad_norm": 3.321334573638652,
      "learning_rate": 7.572903005741689e-07,
      "loss": 0.0149,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 337129221.0,
      "step": 460
    },
    {
      "entropy": 0.355072021484375,
      "epoch": 5.010869565217392,
      "grad_norm": 1.699739676893057,
      "learning_rate": 7.415049579167783e-07,
      "loss": 0.0089,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 337909980.0,
      "step": 461
    },
    {
      "entropy": 0.350311279296875,
      "epoch": 5.021739130434782,
      "grad_norm": 1.1037820547297916,
      "learning_rate": 7.258726859411435e-07,
      "loss": 0.0061,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 338660992.0,
      "step": 462
    },
    {
      "entropy": 0.3711090087890625,
      "epoch": 5.032608695652174,
      "grad_norm": 0.5039921979942839,
      "learning_rate": 7.103940465458936e-07,
      "loss": 0.0026,
      "mean_token_accuracy": 1.0,
      "num_tokens": 339373953.0,
      "step": 463
    },
    {
      "entropy": 0.36553955078125,
      "epoch": 5.043478260869565,
      "grad_norm": 1.4100209016105845,
      "learning_rate": 6.950695961073684e-07,
      "loss": 0.0045,
      "mean_token_accuracy": 1.0,
      "num_tokens": 340088173.0,
      "step": 464
    },
    {
      "entropy": 0.39159393310546875,
      "epoch": 5.054347826086956,
      "grad_norm": 3.180969862029292,
      "learning_rate": 6.79899885459619e-07,
      "loss": 0.0072,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 340800625.0,
      "step": 465
    },
    {
      "entropy": 0.35321044921875,
      "epoch": 5.065217391304348,
      "grad_norm": 1.837442656530531,
      "learning_rate": 6.64885459874608e-07,
      "loss": 0.006,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 341539526.0,
      "step": 466
    },
    {
      "entropy": 0.372589111328125,
      "epoch": 5.076086956521739,
      "grad_norm": 1.2066933794747425,
      "learning_rate": 6.500268590426107e-07,
      "loss": 0.003,
      "mean_token_accuracy": 1.0,
      "num_tokens": 342260667.0,
      "step": 467
    },
    {
      "entropy": 0.36456298828125,
      "epoch": 5.086956521739131,
      "grad_norm": 0.4557949778283912,
      "learning_rate": 6.353246170528149e-07,
      "loss": 0.0018,
      "mean_token_accuracy": 1.0,
      "num_tokens": 342987789.0,
      "step": 468
    },
    {
      "entropy": 0.350494384765625,
      "epoch": 5.0978260869565215,
      "grad_norm": 0.5227488154305694,
      "learning_rate": 6.207792623741249e-07,
      "loss": 0.002,
      "mean_token_accuracy": 1.0,
      "num_tokens": 343735732.0,
      "step": 469
    },
    {
      "entropy": 0.3638916015625,
      "epoch": 5.108695652173913,
      "grad_norm": 0.38679543048910536,
      "learning_rate": 6.063913178361614e-07,
      "loss": 0.0017,
      "mean_token_accuracy": 1.0,
      "num_tokens": 344471268.0,
      "step": 470
    },
    {
      "entropy": 0.3714752197265625,
      "epoch": 5.119565217391305,
      "grad_norm": 1.2897630223476029,
      "learning_rate": 5.921613006104765e-07,
      "loss": 0.021,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 345201713.0,
      "step": 471
    },
    {
      "entropy": 0.3707122802734375,
      "epoch": 5.130434782608695,
      "grad_norm": 0.3803090218816269,
      "learning_rate": 5.780897221919551e-07,
      "loss": 0.0013,
      "mean_token_accuracy": 1.0,
      "num_tokens": 345900900.0,
      "step": 472
    },
    {
      "entropy": 0.363250732421875,
      "epoch": 5.141304347826087,
      "grad_norm": 1.0368796772343087,
      "learning_rate": 5.641770883804365e-07,
      "loss": 0.0028,
      "mean_token_accuracy": 1.0,
      "num_tokens": 346619352.0,
      "step": 473
    },
    {
      "entropy": 0.35308837890625,
      "epoch": 5.1521739130434785,
      "grad_norm": 3.1504225196672926,
      "learning_rate": 5.504238992625277e-07,
      "loss": 0.0138,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 347352134.0,
      "step": 474
    },
    {
      "entropy": 0.3666839599609375,
      "epoch": 5.163043478260869,
      "grad_norm": 3.4644905190989017,
      "learning_rate": 5.368306491936326e-07,
      "loss": 0.009,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 348077396.0,
      "step": 475
    },
    {
      "entropy": 0.3609161376953125,
      "epoch": 5.173913043478261,
      "grad_norm": 1.3537193761971091,
      "learning_rate": 5.233978267801798e-07,
      "loss": 0.0028,
      "mean_token_accuracy": 1.0,
      "num_tokens": 348802883.0,
      "step": 476
    },
    {
      "entropy": 0.35092926025390625,
      "epoch": 5.184782608695652,
      "grad_norm": 0.45157190231571204,
      "learning_rate": 5.101259148620618e-07,
      "loss": 0.0015,
      "mean_token_accuracy": 1.0,
      "num_tokens": 349545943.0,
      "step": 477
    },
    {
      "entropy": 0.355377197265625,
      "epoch": 5.195652173913044,
      "grad_norm": 1.9029976126914352,
      "learning_rate": 4.970153904952768e-07,
      "loss": 0.0035,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 350280830.0,
      "step": 478
    },
    {
      "entropy": 0.3615264892578125,
      "epoch": 5.206521739130435,
      "grad_norm": 2.414591903650029,
      "learning_rate": 4.840667249347824e-07,
      "loss": 0.0252,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 351018286.0,
      "step": 479
    },
    {
      "entropy": 0.3625640869140625,
      "epoch": 5.217391304347826,
      "grad_norm": 3.261836125307713,
      "learning_rate": 4.7128038361755836e-07,
      "loss": 0.0062,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 351750165.0,
      "step": 480
    },
    {
      "entropy": 0.3788299560546875,
      "epoch": 5.228260869565218,
      "grad_norm": 1.080640268636726,
      "learning_rate": 4.586568261458729e-07,
      "loss": 0.0029,
      "mean_token_accuracy": 1.0,
      "num_tokens": 352462866.0,
      "step": 481
    },
    {
      "entropy": 0.37017822265625,
      "epoch": 5.239130434782608,
      "grad_norm": 0.3654695380438877,
      "learning_rate": 4.461965062707646e-07,
      "loss": 0.0017,
      "mean_token_accuracy": 1.0,
      "num_tokens": 353174975.0,
      "step": 482
    },
    {
      "entropy": 0.3549346923828125,
      "epoch": 5.25,
      "grad_norm": 0.5322499971961512,
      "learning_rate": 4.338998718757315e-07,
      "loss": 0.0022,
      "mean_token_accuracy": 1.0,
      "num_tokens": 353920314.0,
      "step": 483
    },
    {
      "entropy": 0.3407135009765625,
      "epoch": 5.260869565217392,
      "grad_norm": 0.5970002432453131,
      "learning_rate": 4.2176736496063406e-07,
      "loss": 0.002,
      "mean_token_accuracy": 1.0,
      "num_tokens": 354680052.0,
      "step": 484
    },
    {
      "entropy": 0.34832763671875,
      "epoch": 5.271739130434782,
      "grad_norm": 1.5047519214865979,
      "learning_rate": 4.0979942162580387e-07,
      "loss": 0.0096,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 355410889.0,
      "step": 485
    },
    {
      "entropy": 0.3751678466796875,
      "epoch": 5.282608695652174,
      "grad_norm": 2.108930154068242,
      "learning_rate": 3.979964720563728e-07,
      "loss": 0.0035,
      "mean_token_accuracy": 1.0,
      "num_tokens": 356127344.0,
      "step": 486
    },
    {
      "entropy": 0.3622894287109375,
      "epoch": 5.293478260869565,
      "grad_norm": 0.6161367023632971,
      "learning_rate": 3.863589405068047e-07,
      "loss": 0.0018,
      "mean_token_accuracy": 1.0,
      "num_tokens": 356841913.0,
      "step": 487
    },
    {
      "entropy": 0.353057861328125,
      "epoch": 5.304347826086957,
      "grad_norm": 2.0628175606506503,
      "learning_rate": 3.748872452856506e-07,
      "loss": 0.0194,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 357589822.0,
      "step": 488
    },
    {
      "entropy": 0.36480712890625,
      "epoch": 5.315217391304348,
      "grad_norm": 1.638181859971449,
      "learning_rate": 3.63581798740511e-07,
      "loss": 0.0082,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 358300933.0,
      "step": 489
    },
    {
      "entropy": 0.34520721435546875,
      "epoch": 5.326086956521739,
      "grad_norm": 1.3268117867018623,
      "learning_rate": 3.524430072432117e-07,
      "loss": 0.0023,
      "mean_token_accuracy": 1.0,
      "num_tokens": 359035551.0,
      "step": 490
    },
    {
      "entropy": 0.358642578125,
      "epoch": 5.336956521739131,
      "grad_norm": 0.8842392199112096,
      "learning_rate": 3.414712711752011e-07,
      "loss": 0.0014,
      "mean_token_accuracy": 1.0,
      "num_tokens": 359765198.0,
      "step": 491
    },
    {
      "entropy": 0.3520050048828125,
      "epoch": 5.3478260869565215,
      "grad_norm": 9.070407210630924,
      "learning_rate": 3.306669849131544e-07,
      "loss": 0.0232,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 360498816.0,
      "step": 492
    },
    {
      "entropy": 0.3590087890625,
      "epoch": 5.358695652173913,
      "grad_norm": 4.804209379118485,
      "learning_rate": 3.20030536814801e-07,
      "loss": 0.0171,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 361242952.0,
      "step": 493
    },
    {
      "entropy": 0.3523406982421875,
      "epoch": 5.369565217391305,
      "grad_norm": 3.8046124964301478,
      "learning_rate": 3.095623092049632e-07,
      "loss": 0.0092,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 361962971.0,
      "step": 494
    },
    {
      "entropy": 0.351531982421875,
      "epoch": 5.380434782608695,
      "grad_norm": 3.46095736951747,
      "learning_rate": 2.992626783618152e-07,
      "loss": 0.0067,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 362709739.0,
      "step": 495
    },
    {
      "entropy": 0.35242462158203125,
      "epoch": 5.391304347826087,
      "grad_norm": 1.168589348366573,
      "learning_rate": 2.891320145033566e-07,
      "loss": 0.0019,
      "mean_token_accuracy": 1.0,
      "num_tokens": 363445940.0,
      "step": 496
    },
    {
      "entropy": 0.3759918212890625,
      "epoch": 5.4021739130434785,
      "grad_norm": 1.0499409984624783,
      "learning_rate": 2.791706817741041e-07,
      "loss": 0.0021,
      "mean_token_accuracy": 1.0,
      "num_tokens": 364139721.0,
      "step": 497
    },
    {
      "entropy": 0.3530731201171875,
      "epoch": 5.413043478260869,
      "grad_norm": 0.8938049764212718,
      "learning_rate": 2.693790382320055e-07,
      "loss": 0.0191,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 364892995.0,
      "step": 498
    },
    {
      "entropy": 0.3458404541015625,
      "epoch": 5.423913043478261,
      "grad_norm": 0.40723822932865267,
      "learning_rate": 2.59757435835567e-07,
      "loss": 0.0016,
      "mean_token_accuracy": 1.0,
      "num_tokens": 365621337.0,
      "step": 499
    },
    {
      "entropy": 0.3453521728515625,
      "epoch": 5.434782608695652,
      "grad_norm": 0.3684337122829693,
      "learning_rate": 2.5030622043120237e-07,
      "loss": 0.0013,
      "mean_token_accuracy": 1.0,
      "num_tokens": 366361939.0,
      "step": 500
    },
    {
      "entropy": 0.3612823486328125,
      "epoch": 5.445652173913043,
      "grad_norm": 0.23050356999343577,
      "learning_rate": 2.41025731740801e-07,
      "loss": 0.0012,
      "mean_token_accuracy": 1.0,
      "num_tokens": 367096238.0,
      "step": 501
    },
    {
      "entropy": 0.34766387939453125,
      "epoch": 5.456521739130435,
      "grad_norm": 2.7767144362146685,
      "learning_rate": 2.319163033495192e-07,
      "loss": 0.006,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 367847218.0,
      "step": 502
    },
    {
      "entropy": 0.3604736328125,
      "epoch": 5.467391304347826,
      "grad_norm": 0.20660811376481075,
      "learning_rate": 2.2297826269378653e-07,
      "loss": 0.0009,
      "mean_token_accuracy": 1.0,
      "num_tokens": 368586679.0,
      "step": 503
    },
    {
      "entropy": 0.35402679443359375,
      "epoch": 5.478260869565218,
      "grad_norm": 0.3473876391880411,
      "learning_rate": 2.142119310495383e-07,
      "loss": 0.0013,
      "mean_token_accuracy": 1.0,
      "num_tokens": 369314933.0,
      "step": 504
    },
    {
      "entropy": 0.3407745361328125,
      "epoch": 5.489130434782608,
      "grad_norm": 2.3533400106778775,
      "learning_rate": 2.0561762352066638e-07,
      "loss": 0.0084,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 370071895.0,
      "step": 505
    },
    {
      "entropy": 0.33807373046875,
      "epoch": 5.5,
      "grad_norm": 0.2660600077029498,
      "learning_rate": 1.9719564902769272e-07,
      "loss": 0.0011,
      "mean_token_accuracy": 1.0,
      "num_tokens": 370831727.0,
      "step": 506
    },
    {
      "entropy": 0.3498382568359375,
      "epoch": 5.510869565217392,
      "grad_norm": 0.1886005407690053,
      "learning_rate": 1.889463102966671e-07,
      "loss": 0.0009,
      "mean_token_accuracy": 1.0,
      "num_tokens": 371547037.0,
      "step": 507
    },
    {
      "entropy": 0.358062744140625,
      "epoch": 5.521739130434782,
      "grad_norm": 2.6959584314765435,
      "learning_rate": 1.8086990384828195e-07,
      "loss": 0.0048,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 372262809.0,
      "step": 508
    },
    {
      "entropy": 0.3572235107421875,
      "epoch": 5.532608695652174,
      "grad_norm": 2.978091829628275,
      "learning_rate": 1.729667199872187e-07,
      "loss": 0.0064,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 372994057.0,
      "step": 509
    },
    {
      "entropy": 0.3749237060546875,
      "epoch": 5.543478260869565,
      "grad_norm": 0.21834831513206812,
      "learning_rate": 1.6523704279170773e-07,
      "loss": 0.0011,
      "mean_token_accuracy": 1.0,
      "num_tokens": 373723281.0,
      "step": 510
    },
    {
      "entropy": 0.35434722900390625,
      "epoch": 5.554347826086957,
      "grad_norm": 0.5002024321768829,
      "learning_rate": 1.5768115010332207e-07,
      "loss": 0.0013,
      "mean_token_accuracy": 1.0,
      "num_tokens": 374451767.0,
      "step": 511
    },
    {
      "entropy": 0.35546875,
      "epoch": 5.565217391304348,
      "grad_norm": 1.7162317554546762,
      "learning_rate": 1.5029931351698723e-07,
      "loss": 0.0031,
      "mean_token_accuracy": 1.0,
      "num_tokens": 375175448.0,
      "step": 512
    },
    {
      "entropy": 0.33746337890625,
      "epoch": 5.576086956521739,
      "grad_norm": 2.005528544265348,
      "learning_rate": 1.4309179837122045e-07,
      "loss": 0.0112,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 375934580.0,
      "step": 513
    },
    {
      "entropy": 0.35955810546875,
      "epoch": 5.586956521739131,
      "grad_norm": 1.1489329867525369,
      "learning_rate": 1.3605886373859234e-07,
      "loss": 0.0058,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 376650504.0,
      "step": 514
    },
    {
      "entropy": 0.3603363037109375,
      "epoch": 5.5978260869565215,
      "grad_norm": 2.4457672246045896,
      "learning_rate": 1.2920076241641376e-07,
      "loss": 0.0025,
      "mean_token_accuracy": 1.0,
      "num_tokens": 377382438.0,
      "step": 515
    },
    {
      "entropy": 0.4059295654296875,
      "epoch": 5.608695652173913,
      "grad_norm": 1.5472120674661438,
      "learning_rate": 1.22517740917652e-07,
      "loss": 0.0028,
      "mean_token_accuracy": 1.0,
      "num_tokens": 378090426.0,
      "step": 516
    },
    {
      "entropy": 0.35024261474609375,
      "epoch": 5.619565217391305,
      "grad_norm": 0.24697715767710587,
      "learning_rate": 1.1601003946206723e-07,
      "loss": 0.0011,
      "mean_token_accuracy": 1.0,
      "num_tokens": 378803504.0,
      "step": 517
    },
    {
      "entropy": 0.3438262939453125,
      "epoch": 5.630434782608695,
      "grad_norm": 1.8264968132121575,
      "learning_rate": 1.0967789196757839e-07,
      "loss": 0.0159,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 379546003.0,
      "step": 518
    },
    {
      "entropy": 0.3581390380859375,
      "epoch": 5.641304347826087,
      "grad_norm": 0.6778345076642374,
      "learning_rate": 1.0352152604185429e-07,
      "loss": 0.0013,
      "mean_token_accuracy": 1.0,
      "num_tokens": 380280105.0,
      "step": 519
    },
    {
      "entropy": 0.3485107421875,
      "epoch": 5.6521739130434785,
      "grad_norm": 1.9032214208406484,
      "learning_rate": 9.754116297413574e-08,
      "loss": 0.0176,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 381025175.0,
      "step": 520
    },
    {
      "entropy": 0.3483734130859375,
      "epoch": 5.663043478260869,
      "grad_norm": 0.36315377250186454,
      "learning_rate": 9.17370177272775e-08,
      "loss": 0.0015,
      "mean_token_accuracy": 1.0,
      "num_tokens": 381741025.0,
      "step": 521
    },
    {
      "entropy": 0.3701629638671875,
      "epoch": 5.673913043478261,
      "grad_norm": 0.6465118815954938,
      "learning_rate": 8.610929893002274e-08,
      "loss": 0.0017,
      "mean_token_accuracy": 1.0,
      "num_tokens": 382468617.0,
      "step": 522
    },
    {
      "entropy": 0.3520355224609375,
      "epoch": 5.684782608695652,
      "grad_norm": 0.9265999100096799,
      "learning_rate": 8.065820886950404e-08,
      "loss": 0.0029,
      "mean_token_accuracy": 1.0,
      "num_tokens": 383192801.0,
      "step": 523
    },
    {
      "entropy": 0.345855712890625,
      "epoch": 5.695652173913043,
      "grad_norm": 0.14931279215307522,
      "learning_rate": 7.538394348397316e-08,
      "loss": 0.0008,
      "mean_token_accuracy": 1.0,
      "num_tokens": 383952179.0,
      "step": 524
    },
    {
      "entropy": 0.35748291015625,
      "epoch": 5.706521739130435,
      "grad_norm": 0.4978763930920471,
      "learning_rate": 7.028669235575714e-08,
      "loss": 0.0017,
      "mean_token_accuracy": 1.0,
      "num_tokens": 384662978.0,
      "step": 525
    },
    {
      "entropy": 0.3525848388671875,
      "epoch": 5.717391304347826,
      "grad_norm": 0.8121703735187752,
      "learning_rate": 6.536663870444382e-08,
      "loss": 0.0014,
      "mean_token_accuracy": 1.0,
      "num_tokens": 385399893.0,
      "step": 526
    },
    {
      "entropy": 0.35456085205078125,
      "epoch": 5.728260869565218,
      "grad_norm": 2.7172493682306493,
      "learning_rate": 6.062395938029485e-08,
      "loss": 0.0302,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 386149439.0,
      "step": 527
    },
    {
      "entropy": 0.353759765625,
      "epoch": 5.739130434782608,
      "grad_norm": 3.230178765972762,
      "learning_rate": 5.605882485789138e-08,
      "loss": 0.0034,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 386873262.0,
      "step": 528
    },
    {
      "entropy": 0.34879302978515625,
      "epoch": 5.75,
      "grad_norm": 2.0138132554208483,
      "learning_rate": 5.167139923000553e-08,
      "loss": 0.0023,
      "mean_token_accuracy": 1.0,
      "num_tokens": 387616442.0,
      "step": 529
    },
    {
      "entropy": 0.353179931640625,
      "epoch": 5.760869565217392,
      "grad_norm": 4.1826280392384065,
      "learning_rate": 4.746184020170019e-08,
      "loss": 0.0092,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 388335322.0,
      "step": 530
    },
    {
      "entropy": 0.3495635986328125,
      "epoch": 5.771739130434782,
      "grad_norm": 0.31854935243297683,
      "learning_rate": 4.3430299084663006e-08,
      "loss": 0.001,
      "mean_token_accuracy": 1.0,
      "num_tokens": 389087300.0,
      "step": 531
    },
    {
      "entropy": 0.365753173828125,
      "epoch": 5.782608695652174,
      "grad_norm": 1.9443298383611591,
      "learning_rate": 3.957692079176623e-08,
      "loss": 0.0024,
      "mean_token_accuracy": 1.0,
      "num_tokens": 389788173.0,
      "step": 532
    },
    {
      "entropy": 0.34133148193359375,
      "epoch": 5.793478260869565,
      "grad_norm": 4.482819101160822,
      "learning_rate": 3.590184383185758e-08,
      "loss": 0.0224,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 390516916.0,
      "step": 533
    },
    {
      "entropy": 0.346893310546875,
      "epoch": 5.804347826086957,
      "grad_norm": 2.690601210318812,
      "learning_rate": 3.240520030478256e-08,
      "loss": 0.0033,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 391248873.0,
      "step": 534
    },
    {
      "entropy": 0.3567657470703125,
      "epoch": 5.815217391304348,
      "grad_norm": 0.24362015864273384,
      "learning_rate": 2.9087115896635486e-08,
      "loss": 0.0011,
      "mean_token_accuracy": 1.0,
      "num_tokens": 391997747.0,
      "step": 535
    },
    {
      "entropy": 0.3523406982421875,
      "epoch": 5.826086956521739,
      "grad_norm": 0.5788409666169593,
      "learning_rate": 2.5947709875240867e-08,
      "loss": 0.0016,
      "mean_token_accuracy": 1.0,
      "num_tokens": 392721499.0,
      "step": 536
    },
    {
      "entropy": 0.3548736572265625,
      "epoch": 5.836956521739131,
      "grad_norm": 0.2636108230212415,
      "learning_rate": 2.298709508586794e-08,
      "loss": 0.0012,
      "mean_token_accuracy": 1.0,
      "num_tokens": 393455984.0,
      "step": 537
    },
    {
      "entropy": 0.3408660888671875,
      "epoch": 5.8478260869565215,
      "grad_norm": 1.5686928995868579,
      "learning_rate": 2.0205377947174475e-08,
      "loss": 0.0034,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 394214615.0,
      "step": 538
    },
    {
      "entropy": 0.3413848876953125,
      "epoch": 5.858695652173913,
      "grad_norm": 0.635427172928073,
      "learning_rate": 1.760265844738096e-08,
      "loss": 0.0017,
      "mean_token_accuracy": 1.0,
      "num_tokens": 394950156.0,
      "step": 539
    },
    {
      "entropy": 0.35528564453125,
      "epoch": 5.869565217391305,
      "grad_norm": 1.243756785533982,
      "learning_rate": 1.5179030140675122e-08,
      "loss": 0.0174,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 395657620.0,
      "step": 540
    },
    {
      "entropy": 0.3495635986328125,
      "epoch": 5.880434782608695,
      "grad_norm": 4.230003971165574,
      "learning_rate": 1.2934580143851294e-08,
      "loss": 0.0132,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 396394880.0,
      "step": 541
    },
    {
      "entropy": 0.3722076416015625,
      "epoch": 5.891304347826087,
      "grad_norm": 0.24411135625405353,
      "learning_rate": 1.0869389133178477e-08,
      "loss": 0.0012,
      "mean_token_accuracy": 1.0,
      "num_tokens": 397121488.0,
      "step": 542
    },
    {
      "entropy": 0.36652374267578125,
      "epoch": 5.9021739130434785,
      "grad_norm": 2.006284880353907,
      "learning_rate": 8.983531341500984e-09,
      "loss": 0.0119,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 397861432.0,
      "step": 543
    },
    {
      "entropy": 0.33959197998046875,
      "epoch": 5.913043478260869,
      "grad_norm": 0.5332443916037677,
      "learning_rate": 7.277074555567809e-09,
      "loss": 0.0015,
      "mean_token_accuracy": 1.0,
      "num_tokens": 398616442.0,
      "step": 544
    },
    {
      "entropy": 0.343536376953125,
      "epoch": 5.923913043478261,
      "grad_norm": 2.3499621425266763,
      "learning_rate": 5.750080113598455e-09,
      "loss": 0.0217,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 399351231.0,
      "step": 545
    },
    {
      "entropy": 0.3535919189453125,
      "epoch": 5.934782608695652,
      "grad_norm": 0.18407612361099387,
      "learning_rate": 4.40260290307748e-09,
      "loss": 0.0009,
      "mean_token_accuracy": 1.0,
      "num_tokens": 400084417.0,
      "step": 546
    },
    {
      "entropy": 0.3697662353515625,
      "epoch": 5.945652173913043,
      "grad_norm": 0.18014799976439896,
      "learning_rate": 3.2346913587816275e-09,
      "loss": 0.0009,
      "mean_token_accuracy": 1.0,
      "num_tokens": 400777892.0,
      "step": 547
    },
    {
      "entropy": 0.34259033203125,
      "epoch": 5.956521739130435,
      "grad_norm": 1.4438781420557703,
      "learning_rate": 2.2463874610378912e-09,
      "loss": 0.0017,
      "mean_token_accuracy": 1.0,
      "num_tokens": 401514782.0,
      "step": 548
    },
    {
      "entropy": 0.3500518798828125,
      "epoch": 5.967391304347826,
      "grad_norm": 2.941548304415448,
      "learning_rate": 1.4377267342158274e-09,
      "loss": 0.013,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 402247154.0,
      "step": 549
    },
    {
      "entropy": 0.3481597900390625,
      "epoch": 5.978260869565218,
      "grad_norm": 0.21846102804783413,
      "learning_rate": 8.087382454502468e-10,
      "loss": 0.0009,
      "mean_token_accuracy": 1.0,
      "num_tokens": 402967073.0,
      "step": 550
    },
    {
      "entropy": 0.34527587890625,
      "epoch": 5.989130434782608,
      "grad_norm": 3.2977002368770676,
      "learning_rate": 3.594446035964927e-10,
      "loss": 0.0083,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 403721451.0,
      "step": 551
    },
    {
      "entropy": 0.34212493896484375,
      "epoch": 6.0,
      "grad_norm": 0.8538708077838639,
      "learning_rate": 8.986195841609313e-11,
      "loss": 0.0019,
      "mean_token_accuracy": 1.0,
      "num_tokens": 404465206.0,
      "step": 552
    },
    {
      "epoch": 6.0,
      "step": 552,
      "total_flos": 475877255544832.0,
      "train_loss": 0.4185584662269136,
      "train_runtime": 50190.9318,
      "train_samples_per_second": 2.227,
      "train_steps_per_second": 0.011
    }
  ],
  "logging_steps": 1,
  "max_steps": 552,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 6,
  "save_steps": 46,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 475877255544832.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}