PS_only_answer_Qwen3-4B-Bas…/trainer_state.json

{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 6.0,
  "eval_steps": 500,
  "global_step": 552,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 0.38946533203125,
      "epoch": 0.010869565217391304,
      "grad_norm": 315.643635386107,
      "learning_rate": 0.0,
      "loss": 8.9828,
      "mean_token_accuracy": 0.0,
      "num_tokens": 777725.0,
      "step": 1
    },
    {
      "entropy": 0.3969879150390625,
      "epoch": 0.021739130434782608,
      "grad_norm": 466.78434845227036,
      "learning_rate": 1.7857142857142858e-07,
      "loss": 8.9856,
      "mean_token_accuracy": 0.0,
      "num_tokens": 1534087.0,
      "step": 2
    },
    {
      "entropy": 0.413482666015625,
      "epoch": 0.03260869565217391,
      "grad_norm": 313.95762548019803,
      "learning_rate": 3.5714285714285716e-07,
      "loss": 8.9427,
      "mean_token_accuracy": 0.0,
      "num_tokens": 2251605.0,
      "step": 3
    },
    {
      "entropy": 0.41571044921875,
      "epoch": 0.043478260869565216,
      "grad_norm": 319.53406439843155,
      "learning_rate": 5.357142857142857e-07,
      "loss": 8.903,
      "mean_token_accuracy": 0.0026041667442768812,
      "num_tokens": 2984442.0,
      "step": 4
    },
    {
      "entropy": 0.405548095703125,
      "epoch": 0.05434782608695652,
      "grad_norm": 313.44431694364715,
      "learning_rate": 7.142857142857143e-07,
      "loss": 8.8277,
      "mean_token_accuracy": 0.0,
      "num_tokens": 3729226.0,
      "step": 5
    },
    {
      "entropy": 0.4132537841796875,
      "epoch": 0.06521739130434782,
      "grad_norm": 321.56745420532224,
      "learning_rate": 8.928571428571429e-07,
      "loss": 8.7825,
      "mean_token_accuracy": 0.0,
      "num_tokens": 4461570.0,
      "step": 6
    },
    {
      "entropy": 0.410247802734375,
      "epoch": 0.07608695652173914,
      "grad_norm": 343.7444495602832,
      "learning_rate": 1.0714285714285714e-06,
      "loss": 8.2399,
      "mean_token_accuracy": 0.0,
      "num_tokens": 5168135.0,
      "step": 7
    },
    {
      "entropy": 0.4090118408203125,
      "epoch": 0.08695652173913043,
      "grad_norm": 350.74293778993814,
      "learning_rate": 1.25e-06,
      "loss": 7.9816,
      "mean_token_accuracy": 0.0,
      "num_tokens": 5883180.0,
      "step": 8
    },
    {
      "entropy": 0.4286651611328125,
      "epoch": 0.09782608695652174,
      "grad_norm": 304.22034767032403,
      "learning_rate": 1.4285714285714286e-06,
      "loss": 6.3586,
      "mean_token_accuracy": 0.015625000465661287,
      "num_tokens": 6598581.0,
      "step": 9
    },
    {
      "entropy": 0.4028778076171875,
      "epoch": 0.10869565217391304,
      "grad_norm": 267.3370465675906,
      "learning_rate": 1.6071428571428574e-06,
      "loss": 5.9433,
      "mean_token_accuracy": 0.026041667442768812,
      "num_tokens": 7349958.0,
      "step": 10
    },
    {
      "entropy": 0.4029083251953125,
      "epoch": 0.11956521739130435,
      "grad_norm": 110.22632831891602,
      "learning_rate": 1.7857142857142859e-06,
      "loss": 4.3449,
      "mean_token_accuracy": 0.5000000149011612,
      "num_tokens": 8070384.0,
      "step": 11
    },
    {
      "entropy": 0.3999786376953125,
      "epoch": 0.13043478260869565,
      "grad_norm": 96.12255563587422,
      "learning_rate": 1.9642857142857144e-06,
      "loss": 4.1757,
      "mean_token_accuracy": 0.5000000149011612,
      "num_tokens": 8821388.0,
      "step": 12
    },
    {
      "entropy": 0.4141693115234375,
      "epoch": 0.14130434782608695,
      "grad_norm": 84.75229505370562,
      "learning_rate": 2.1428571428571427e-06,
      "loss": 3.9963,
      "mean_token_accuracy": 0.5104166818782687,
      "num_tokens": 9545729.0,
      "step": 13
    },
    {
      "entropy": 0.414337158203125,
      "epoch": 0.15217391304347827,
      "grad_norm": 79.29491018261649,
      "learning_rate": 2.321428571428572e-06,
      "loss": 3.8485,
      "mean_token_accuracy": 0.5338541825767606,
      "num_tokens": 10280763.0,
      "step": 14
    },
    {
      "entropy": 0.3937530517578125,
      "epoch": 0.16304347826086957,
      "grad_norm": 59.37725409329162,
      "learning_rate": 2.5e-06,
      "loss": 3.3497,
      "mean_token_accuracy": 0.5000000149011612,
      "num_tokens": 11017097.0,
      "step": 15
    },
    {
      "entropy": 0.4080810546875,
      "epoch": 0.17391304347826086,
      "grad_norm": 58.55009381834077,
      "learning_rate": 2.6785714285714285e-06,
      "loss": 3.315,
      "mean_token_accuracy": 0.4869791811797768,
      "num_tokens": 11745946.0,
      "step": 16
    },
    {
      "entropy": 0.417572021484375,
      "epoch": 0.18478260869565216,
      "grad_norm": 57.11032580738658,
      "learning_rate": 2.8571428571428573e-06,
      "loss": 3.2194,
      "mean_token_accuracy": 0.5182291821110994,
      "num_tokens": 12461650.0,
      "step": 17
    },
    {
      "entropy": 0.409423828125,
      "epoch": 0.1956521739130435,
      "grad_norm": 56.92011598393622,
      "learning_rate": 3.0357142857142856e-06,
      "loss": 3.1515,
      "mean_token_accuracy": 0.5364583493210375,
      "num_tokens": 13175466.0,
      "step": 18
    },
    {
      "entropy": 0.4128265380859375,
      "epoch": 0.20652173913043478,
      "grad_norm": 82.84902702230833,
      "learning_rate": 3.2142857142857147e-06,
      "loss": 3.1151,
      "mean_token_accuracy": 0.5104166818782687,
      "num_tokens": 13901333.0,
      "step": 19
    },
    {
      "entropy": 0.4176483154296875,
      "epoch": 0.21739130434782608,
      "grad_norm": 57.36928522902437,
      "learning_rate": 3.3928571428571435e-06,
      "loss": 3.0339,
      "mean_token_accuracy": 0.4973958481568843,
      "num_tokens": 14635121.0,
      "step": 20
    },
    {
      "entropy": 0.419403076171875,
      "epoch": 0.22826086956521738,
      "grad_norm": 58.28973817103156,
      "learning_rate": 3.5714285714285718e-06,
      "loss": 2.9731,
      "mean_token_accuracy": 0.4973958481568843,
      "num_tokens": 15366289.0,
      "step": 21
    },
    {
      "entropy": 0.39844512939453125,
      "epoch": 0.2391304347826087,
      "grad_norm": 55.521761130642105,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 2.9177,
      "mean_token_accuracy": 0.5651041835080832,
      "num_tokens": 16118565.0,
      "step": 22
    },
    {
      "entropy": 0.40087890625,
      "epoch": 0.25,
      "grad_norm": 57.50985910279277,
      "learning_rate": 3.928571428571429e-06,
      "loss": 2.9179,
      "mean_token_accuracy": 0.5182291821110994,
      "num_tokens": 16831343.0,
      "step": 23
    },
    {
      "entropy": 0.40374755859375,
      "epoch": 0.2608695652173913,
      "grad_norm": 59.65469650108433,
      "learning_rate": 4.107142857142857e-06,
      "loss": 2.899,
      "mean_token_accuracy": 0.5078125151339918,
      "num_tokens": 17574773.0,
      "step": 24
    },
    {
      "entropy": 0.416412353515625,
      "epoch": 0.2717391304347826,
      "grad_norm": 56.28687744193079,
      "learning_rate": 4.2857142857142855e-06,
      "loss": 2.8699,
      "mean_token_accuracy": 0.5286458490882069,
      "num_tokens": 18282777.0,
      "step": 25
    },
    {
      "entropy": 0.3895721435546875,
      "epoch": 0.2826086956521739,
      "grad_norm": 55.546499655137474,
      "learning_rate": 4.464285714285715e-06,
      "loss": 2.8334,
      "mean_token_accuracy": 0.570312516996637,
      "num_tokens": 19040487.0,
      "step": 26
    },
    {
      "entropy": 0.395233154296875,
      "epoch": 0.29347826086956524,
      "grad_norm": 55.51819257272041,
      "learning_rate": 4.642857142857144e-06,
      "loss": 2.7943,
      "mean_token_accuracy": 0.5416666828095913,
      "num_tokens": 19783607.0,
      "step": 27
    },
    {
      "entropy": 0.38818359375,
      "epoch": 0.30434782608695654,
      "grad_norm": 56.087230721745655,
      "learning_rate": 4.821428571428572e-06,
      "loss": 2.7788,
      "mean_token_accuracy": 0.5598958500195295,
      "num_tokens": 20541403.0,
      "step": 28
    },
    {
      "entropy": 0.4022979736328125,
      "epoch": 0.31521739130434784,
      "grad_norm": 56.61955054573848,
      "learning_rate": 5e-06,
      "loss": 2.7283,
      "mean_token_accuracy": 0.5598958500195295,
      "num_tokens": 21252538.0,
      "step": 29
    },
    {
      "entropy": 0.39056396484375,
      "epoch": 0.32608695652173914,
      "grad_norm": 55.79516193425899,
      "learning_rate": 4.999955069020792e-06,
      "loss": 2.7091,
      "mean_token_accuracy": 0.570312516996637,
      "num_tokens": 21991236.0,
      "step": 30
    },
    {
      "entropy": 0.394683837890625,
      "epoch": 0.33695652173913043,
      "grad_norm": 56.773801277733405,
      "learning_rate": 4.999820277698202e-06,
      "loss": 2.6712,
      "mean_token_accuracy": 0.5677083502523601,
      "num_tokens": 22694548.0,
      "step": 31
    },
    {
      "entropy": 0.3919830322265625,
      "epoch": 0.34782608695652173,
      "grad_norm": 57.00723092499082,
      "learning_rate": 4.999595630877275e-06,
      "loss": 2.647,
      "mean_token_accuracy": 0.5755208504851907,
      "num_tokens": 23430487.0,
      "step": 32
    },
    {
      "entropy": 0.38446044921875,
      "epoch": 0.358695652173913,
      "grad_norm": 56.184311802461124,
      "learning_rate": 4.999281136632893e-06,
      "loss": 2.6269,
      "mean_token_accuracy": 0.5651041835080832,
      "num_tokens": 24181244.0,
      "step": 33
    },
    {
      "entropy": 0.398712158203125,
      "epoch": 0.3695652173913043,
      "grad_norm": 57.46185165418103,
      "learning_rate": 4.9988768062694815e-06,
      "loss": 2.6133,
      "mean_token_accuracy": 0.5572916832752526,
      "num_tokens": 24915943.0,
      "step": 34
    },
    {
      "entropy": 0.38332366943359375,
      "epoch": 0.3804347826086957,
      "grad_norm": 56.896722164814896,
      "learning_rate": 4.998382654320609e-06,
      "loss": 2.6017,
      "mean_token_accuracy": 0.5364583493210375,
      "num_tokens": 25663630.0,
      "step": 35
    },
    {
      "entropy": 0.38348388671875,
      "epoch": 0.391304347826087,
      "grad_norm": 56.53521905724375,
      "learning_rate": 4.9977986985484614e-06,
      "loss": 2.5582,
      "mean_token_accuracy": 0.5729166837409139,
      "num_tokens": 26407773.0,
      "step": 36
    },
    {
      "entropy": 0.384765625,
      "epoch": 0.40217391304347827,
      "grad_norm": 57.03214318581047,
      "learning_rate": 4.997124959943201e-06,
      "loss": 2.5459,
      "mean_token_accuracy": 0.5677083502523601,
      "num_tokens": 27164106.0,
      "step": 37
    },
    {
      "entropy": 0.3913421630859375,
      "epoch": 0.41304347826086957,
      "grad_norm": 56.69669933694274,
      "learning_rate": 4.996361462722217e-06,
      "loss": 2.5119,
      "mean_token_accuracy": 0.5572916832752526,
      "num_tokens": 27897283.0,
      "step": 38
    },
    {
      "entropy": 0.39947509765625,
      "epoch": 0.42391304347826086,
      "grad_norm": 56.754603055860436,
      "learning_rate": 4.99550823432925e-06,
      "loss": 2.4726,
      "mean_token_accuracy": 0.5651041835080832,
      "num_tokens": 28610979.0,
      "step": 39
    },
    {
      "entropy": 0.3842926025390625,
      "epoch": 0.43478260869565216,
      "grad_norm": 57.39029180691094,
      "learning_rate": 4.994565305433411e-06,
      "loss": 2.4626,
      "mean_token_accuracy": 0.5651041835080832,
      "num_tokens": 29356474.0,
      "step": 40
    },
    {
      "entropy": 0.3857269287109375,
      "epoch": 0.44565217391304346,
      "grad_norm": 57.23256232582569,
      "learning_rate": 4.993532709928075e-06,
      "loss": 2.4114,
      "mean_token_accuracy": 0.5859375174622983,
      "num_tokens": 30082564.0,
      "step": 41
    },
    {
      "entropy": 0.39703369140625,
      "epoch": 0.45652173913043476,
      "grad_norm": 57.34625923283907,
      "learning_rate": 4.992410484929663e-06,
      "loss": 2.4157,
      "mean_token_accuracy": 0.5755208504851907,
      "num_tokens": 30818547.0,
      "step": 42
    },
    {
      "entropy": 0.4070892333984375,
      "epoch": 0.4673913043478261,
      "grad_norm": 57.581832612341415,
      "learning_rate": 4.99119867077631e-06,
      "loss": 2.3737,
      "mean_token_accuracy": 0.5963541844394058,
      "num_tokens": 31545398.0,
      "step": 43
    },
    {
      "entropy": 0.410247802734375,
      "epoch": 0.4782608695652174,
      "grad_norm": 57.52963140670775,
      "learning_rate": 4.9898973110264126e-06,
      "loss": 2.3489,
      "mean_token_accuracy": 0.5885416842065752,
      "num_tokens": 32256062.0,
      "step": 44
    },
    {
      "entropy": 0.3831024169921875,
      "epoch": 0.4891304347826087,
      "grad_norm": 58.50295822784848,
      "learning_rate": 4.9885064524570665e-06,
      "loss": 2.3822,
      "mean_token_accuracy": 0.5546875165309757,
      "num_tokens": 33011274.0,
      "step": 45
    },
    {
      "entropy": 0.387786865234375,
      "epoch": 0.5,
      "grad_norm": 57.461078678495696,
      "learning_rate": 4.98702614506238e-06,
      "loss": 2.3013,
      "mean_token_accuracy": 0.5859375174622983,
      "num_tokens": 33764119.0,
      "step": 46
    },
    {
      "entropy": 0.39434814453125,
      "epoch": 0.5108695652173914,
      "grad_norm": 57.65669720662995,
      "learning_rate": 4.985456442051683e-06,
      "loss": 2.3064,
      "mean_token_accuracy": 0.6145833497866988,
      "num_tokens": 34492076.0,
      "step": 47
    },
    {
      "entropy": 0.39788818359375,
      "epoch": 0.5217391304347826,
      "grad_norm": 58.0047952694818,
      "learning_rate": 4.983797399847609e-06,
      "loss": 2.259,
      "mean_token_accuracy": 0.869791672565043,
      "num_tokens": 35212738.0,
      "step": 48
    },
    {
      "entropy": 0.3929901123046875,
      "epoch": 0.532608695652174,
      "grad_norm": 57.56138162727952,
      "learning_rate": 4.982049078084072e-06,
      "loss": 2.239,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 35931476.0,
      "step": 49
    },
    {
      "entropy": 0.3962249755859375,
      "epoch": 0.5434782608695652,
      "grad_norm": 57.481087733842365,
      "learning_rate": 4.980211539604117e-06,
      "loss": 2.2211,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 36660301.0,
      "step": 50
    },
    {
      "entropy": 0.3934478759765625,
      "epoch": 0.5543478260869565,
      "grad_norm": 57.77093322812544,
      "learning_rate": 4.978284850457669e-06,
      "loss": 2.1951,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 37392344.0,
      "step": 51
    },
    {
      "entropy": 0.3903350830078125,
      "epoch": 0.5652173913043478,
      "grad_norm": 57.748538194220075,
      "learning_rate": 4.97626907989915e-06,
      "loss": 2.1652,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 38121957.0,
      "step": 52
    },
    {
      "entropy": 0.4018402099609375,
      "epoch": 0.5760869565217391,
      "grad_norm": 57.61172465771813,
      "learning_rate": 4.974164300384998e-06,
      "loss": 2.14,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 38823389.0,
      "step": 53
    },
    {
      "entropy": 0.3915863037109375,
      "epoch": 0.5869565217391305,
      "grad_norm": 57.6774242503473,
      "learning_rate": 4.9719705875710545e-06,
      "loss": 2.0807,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 39555613.0,
      "step": 54
    },
    {
      "entropy": 0.3885345458984375,
      "epoch": 0.5978260869565217,
      "grad_norm": 57.88204345608483,
      "learning_rate": 4.969688020309853e-06,
      "loss": 2.0618,
      "mean_token_accuracy": 0.9296875039581209,
      "num_tokens": 40303952.0,
      "step": 55
    },
    {
      "entropy": 0.410614013671875,
      "epoch": 0.6086956521739131,
      "grad_norm": 58.01594138084643,
      "learning_rate": 4.967316680647779e-06,
      "loss": 2.0438,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 41023712.0,
      "step": 56
    },
    {
      "entropy": 0.3904266357421875,
      "epoch": 0.6195652173913043,
      "grad_norm": 58.49945334868692,
      "learning_rate": 4.9648566538221224e-06,
      "loss": 2.0474,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 41770575.0,
      "step": 57
    },
    {
      "entropy": 0.4000396728515625,
      "epoch": 0.6304347826086957,
      "grad_norm": 58.67341186788747,
      "learning_rate": 4.962308028258014e-06,
      "loss": 2.0077,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 42465243.0,
      "step": 58
    },
    {
      "entropy": 0.39910888671875,
      "epoch": 0.6413043478260869,
      "grad_norm": 58.5594764016672,
      "learning_rate": 4.959670895565248e-06,
      "loss": 1.9572,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 43188215.0,
      "step": 59
    },
    {
      "entropy": 0.386444091796875,
      "epoch": 0.6521739130434783,
      "grad_norm": 57.848233697013754,
      "learning_rate": 4.95694535053499e-06,
      "loss": 1.9325,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 43909467.0,
      "step": 60
    },
    {
      "entropy": 0.38397216796875,
      "epoch": 0.6630434782608695,
      "grad_norm": 57.84209884026848,
      "learning_rate": 4.954131491136362e-06,
      "loss": 1.9175,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 44654466.0,
      "step": 61
    },
    {
      "entropy": 0.40081787109375,
      "epoch": 0.6739130434782609,
      "grad_norm": 58.09440920243954,
      "learning_rate": 4.9512294185129326e-06,
      "loss": 1.8774,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 45377893.0,
      "step": 62
    },
    {
      "entropy": 0.3874053955078125,
      "epoch": 0.6847826086956522,
      "grad_norm": 58.57868427319746,
      "learning_rate": 4.9482392369790735e-06,
      "loss": 1.8752,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 46095362.0,
      "step": 63
    },
    {
      "entropy": 0.3911285400390625,
      "epoch": 0.6956521739130435,
      "grad_norm": 58.328545216174106,
      "learning_rate": 4.9451610540162114e-06,
      "loss": 1.8454,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 46843674.0,
      "step": 64
    },
    {
      "entropy": 0.3958740234375,
      "epoch": 0.7065217391304348,
      "grad_norm": 58.00012476307398,
      "learning_rate": 4.941994980268967e-06,
      "loss": 1.8413,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 47576425.0,
      "step": 65
    },
    {
      "entropy": 0.3956756591796875,
      "epoch": 0.717391304347826,
      "grad_norm": 58.32704740629639,
      "learning_rate": 4.938741129541175e-06,
      "loss": 1.7893,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 48311238.0,
      "step": 66
    },
    {
      "entropy": 0.403472900390625,
      "epoch": 0.7282608695652174,
      "grad_norm": 57.109428595268916,
      "learning_rate": 4.935399618791793e-06,
      "loss": 1.7661,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 49031445.0,
      "step": 67
    },
    {
      "entropy": 0.3883514404296875,
      "epoch": 0.7391304347826086,
      "grad_norm": 57.0125417784067,
      "learning_rate": 4.931970568130704e-06,
      "loss": 1.7339,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 49768522.0,
      "step": 68
    },
    {
      "entropy": 0.3863525390625,
      "epoch": 0.75,
      "grad_norm": 57.245122921064386,
      "learning_rate": 4.92845410081439e-06,
      "loss": 1.7077,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 50503488.0,
      "step": 69
    },
    {
      "entropy": 0.3955078125,
      "epoch": 0.7608695652173914,
      "grad_norm": 56.7710399251759,
      "learning_rate": 4.924850343241508e-06,
      "loss": 1.6882,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 51237948.0,
      "step": 70
    },
    {
      "entropy": 0.395904541015625,
      "epoch": 0.7717391304347826,
      "grad_norm": 56.975107748095425,
      "learning_rate": 4.9211594249483395e-06,
      "loss": 1.6588,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 51960295.0,
      "step": 71
    },
    {
      "entropy": 0.38140869140625,
      "epoch": 0.782608695652174,
      "grad_norm": 57.399148712482464,
      "learning_rate": 4.917381478604147e-06,
      "loss": 1.6178,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 52706900.0,
      "step": 72
    },
    {
      "entropy": 0.3895111083984375,
      "epoch": 0.7934782608695652,
      "grad_norm": 57.16282426064597,
      "learning_rate": 4.9135166400063916e-06,
      "loss": 1.5986,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 53444785.0,
      "step": 73
    },
    {
      "entropy": 0.39483642578125,
      "epoch": 0.8043478260869565,
      "grad_norm": 57.26850879044647,
      "learning_rate": 4.909565048075859e-06,
      "loss": 1.5805,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 54173094.0,
      "step": 74
    },
    {
      "entropy": 0.391082763671875,
      "epoch": 0.8152173913043478,
      "grad_norm": 56.738903776997574,
      "learning_rate": 4.9055268448516665e-06,
      "loss": 1.5386,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 54896317.0,
      "step": 75
    },
    {
      "entropy": 0.3954010009765625,
      "epoch": 0.8260869565217391,
      "grad_norm": 56.93096480189401,
      "learning_rate": 4.901402175486154e-06,
      "loss": 1.5073,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 55622424.0,
      "step": 76
    },
    {
      "entropy": 0.386627197265625,
      "epoch": 0.8369565217391305,
      "grad_norm": 56.50777388776182,
      "learning_rate": 4.897191188239667e-06,
      "loss": 1.4758,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 56354361.0,
      "step": 77
    },
    {
      "entropy": 0.3958740234375,
      "epoch": 0.8478260869565217,
      "grad_norm": 56.71245596437233,
      "learning_rate": 4.892894034475232e-06,
      "loss": 1.4818,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 57090942.0,
      "step": 78
    },
    {
      "entropy": 0.380035400390625,
      "epoch": 0.8586956521739131,
      "grad_norm": 56.897666616507465,
      "learning_rate": 4.888510868653107e-06,
      "loss": 1.4682,
      "mean_token_accuracy": 0.8828125069849193,
      "num_tokens": 57854021.0,
      "step": 79
    },
    {
      "entropy": 0.3900909423828125,
      "epoch": 0.8695652173913043,
      "grad_norm": 56.93528543153485,
      "learning_rate": 4.884041848325241e-06,
      "loss": 1.4064,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 58637570.0,
      "step": 80
    },
    {
      "entropy": 0.39776611328125,
      "epoch": 0.8804347826086957,
      "grad_norm": 57.09984756718643,
      "learning_rate": 4.8794871341296e-06,
      "loss": 1.3578,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 59352644.0,
      "step": 81
    },
    {
      "entropy": 0.40985107421875,
      "epoch": 0.8913043478260869,
      "grad_norm": 57.55661263699298,
      "learning_rate": 4.8748468897843996e-06,
      "loss": 1.3686,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 60067123.0,
      "step": 82
    },
    {
      "entropy": 0.39247894287109375,
      "epoch": 0.9021739130434783,
      "grad_norm": 57.671265318167116,
      "learning_rate": 4.8701212820822165e-06,
      "loss": 1.3267,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 60813519.0,
      "step": 83
    },
    {
      "entropy": 0.4197235107421875,
      "epoch": 0.9130434782608695,
      "grad_norm": 56.86876309452332,
      "learning_rate": 4.865310480883998e-06,
      "loss": 1.3042,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 61524705.0,
      "step": 84
    },
    {
      "entropy": 0.39837646484375,
      "epoch": 0.9239130434782609,
      "grad_norm": 56.94340599275822,
      "learning_rate": 4.8604146591129485e-06,
      "loss": 1.2589,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 62254953.0,
      "step": 85
    },
    {
      "entropy": 0.3943328857421875,
      "epoch": 0.9347826086956522,
      "grad_norm": 56.69623505879839,
      "learning_rate": 4.855433992748322e-06,
      "loss": 1.2189,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 63013496.0,
      "step": 86
    },
    {
      "entropy": 0.4107208251953125,
      "epoch": 0.9456521739130435,
      "grad_norm": 56.0707887843425,
      "learning_rate": 4.850368660819092e-06,
      "loss": 1.1751,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 63758605.0,
      "step": 87
    },
    {
      "entropy": 0.3862762451171875,
      "epoch": 0.9565217391304348,
      "grad_norm": 57.63854504279739,
      "learning_rate": 4.845218845397519e-06,
      "loss": 1.2094,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 64520980.0,
      "step": 88
    },
    {
      "entropy": 0.3988037109375,
      "epoch": 0.967391304347826,
      "grad_norm": 58.611658207648105,
      "learning_rate": 4.8399847315926e-06,
      "loss": 1.2202,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 65225177.0,
      "step": 89
    },
    {
      "entropy": 0.4030609130859375,
      "epoch": 0.9782608695652174,
      "grad_norm": 56.448707103479244,
      "learning_rate": 4.8346665075434235e-06,
      "loss": 1.1079,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 65940322.0,
      "step": 90
    },
    {
      "entropy": 0.4158935546875,
      "epoch": 0.9891304347826086,
      "grad_norm": 58.24818581018997,
      "learning_rate": 4.8292643644123996e-06,
      "loss": 1.141,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 66645719.0,
      "step": 91
    },
    {
      "entropy": 0.38458251953125,
      "epoch": 1.0,
      "grad_norm": 56.3415338792209,
      "learning_rate": 4.823778496378394e-06,
      "loss": 1.0957,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 67397799.0,
      "step": 92
    },
    {
      "entropy": 0.3929443359375,
      "epoch": 1.0108695652173914,
      "grad_norm": 55.06150704025486,
      "learning_rate": 4.818209100629745e-06,
      "loss": 1.0537,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 68135704.0,
      "step": 93
    },
    {
      "entropy": 0.3841400146484375,
      "epoch": 1.0217391304347827,
      "grad_norm": 55.48876916222682,
      "learning_rate": 4.812556377357175e-06,
      "loss": 1.0417,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 68868367.0,
      "step": 94
    },
    {
      "entropy": 0.390960693359375,
      "epoch": 1.0326086956521738,
      "grad_norm": 55.19371442778147,
      "learning_rate": 4.806820529746598e-06,
      "loss": 1.0064,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 69606957.0,
      "step": 95
    },
    {
      "entropy": 0.3863677978515625,
      "epoch": 1.0434782608695652,
      "grad_norm": 55.00798494157057,
      "learning_rate": 4.8010017639718145e-06,
      "loss": 0.9932,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 70355586.0,
      "step": 96
    },
    {
      "entropy": 0.405914306640625,
      "epoch": 1.0543478260869565,
      "grad_norm": 54.37018087941317,
      "learning_rate": 4.795100289187099e-06,
      "loss": 0.9728,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 71080387.0,
      "step": 97
    },
    {
      "entropy": 0.3863067626953125,
      "epoch": 1.065217391304348,
      "grad_norm": 53.739649258553044,
      "learning_rate": 4.789116317519684e-06,
      "loss": 0.9376,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 71823619.0,
      "step": 98
    },
    {
      "entropy": 0.406005859375,
      "epoch": 1.0760869565217392,
      "grad_norm": 53.37846465297956,
      "learning_rate": 4.783050064062135e-06,
      "loss": 0.9112,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 72527331.0,
      "step": 99
    },
    {
      "entropy": 0.388946533203125,
      "epoch": 1.0869565217391304,
      "grad_norm": 53.51299448430431,
      "learning_rate": 4.776901746864618e-06,
      "loss": 0.8757,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 73256015.0,
      "step": 100
    },
    {
      "entropy": 0.39569091796875,
      "epoch": 1.0978260869565217,
      "grad_norm": 53.69473134240377,
      "learning_rate": 4.770671586927064e-06,
      "loss": 0.8857,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 73992128.0,
      "step": 101
    },
    {
      "entropy": 0.4204254150390625,
      "epoch": 1.108695652173913,
      "grad_norm": 52.53811145466824,
      "learning_rate": 4.7643598081912215e-06,
      "loss": 0.8358,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 74725894.0,
      "step": 102
    },
    {
      "entropy": 0.3995361328125,
      "epoch": 1.1195652173913044,
      "grad_norm": 51.80876872663676,
      "learning_rate": 4.757966637532609e-06,
      "loss": 0.8215,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 75444431.0,
      "step": 103
    },
    {
      "entropy": 0.38555908203125,
      "epoch": 1.1304347826086956,
      "grad_norm": 51.71046655164668,
      "learning_rate": 4.751492304752362e-06,
      "loss": 0.8212,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 76194859.0,
      "step": 104
    },
    {
      "entropy": 0.4120635986328125,
      "epoch": 1.141304347826087,
      "grad_norm": 50.769741236417616,
      "learning_rate": 4.74493704256897e-06,
      "loss": 0.7634,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 76900186.0,
      "step": 105
    },
    {
      "entropy": 0.3896026611328125,
      "epoch": 1.1521739130434783,
      "grad_norm": 50.02164286031468,
      "learning_rate": 4.738301086609911e-06,
      "loss": 0.7318,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 77644340.0,
      "step": 106
    },
    {
      "entropy": 0.408599853515625,
      "epoch": 1.1630434782608696,
      "grad_norm": 49.619594756826096,
      "learning_rate": 4.7315846754031844e-06,
      "loss": 0.7086,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 78364062.0,
      "step": 107
    },
    {
      "entropy": 0.4001007080078125,
      "epoch": 1.1739130434782608,
      "grad_norm": 48.889114109399365,
      "learning_rate": 4.724788050368737e-06,
      "loss": 0.6775,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 79109980.0,
      "step": 108
    },
    {
      "entropy": 0.3956146240234375,
      "epoch": 1.184782608695652,
      "grad_norm": 47.93176760757564,
      "learning_rate": 4.717911455809782e-06,
      "loss": 0.6935,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 79841399.0,
      "step": 109
    },
    {
      "entropy": 0.3987579345703125,
      "epoch": 1.1956521739130435,
      "grad_norm": 46.51860456548325,
      "learning_rate": 4.710955138904022e-06,
      "loss": 0.6537,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 80572496.0,
      "step": 110
    },
    {
      "entropy": 0.3870697021484375,
      "epoch": 1.2065217391304348,
      "grad_norm": 47.835546312409065,
      "learning_rate": 4.7039193496947624e-06,
      "loss": 0.6492,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 81292793.0,
      "step": 111
    },
    {
      "entropy": 0.3931732177734375,
      "epoch": 1.2173913043478262,
      "grad_norm": 44.69911173643149,
      "learning_rate": 4.69680434108192e-06,
      "loss": 0.6386,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 82038356.0,
      "step": 112
    },
    {
      "entropy": 0.3959197998046875,
      "epoch": 1.2282608695652173,
      "grad_norm": 44.353428069242305,
      "learning_rate": 4.6896103688129385e-06,
      "loss": 0.634,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 82737144.0,
      "step": 113
    },
    {
      "entropy": 0.4247894287109375,
      "epoch": 1.2391304347826086,
      "grad_norm": 44.41650086227885,
      "learning_rate": 4.682337691473593e-06,
      "loss": 0.6205,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 83462542.0,
      "step": 114
    },
    {
      "entropy": 0.39605712890625,
      "epoch": 1.25,
      "grad_norm": 41.9021594648732,
      "learning_rate": 4.674986570478696e-06,
      "loss": 0.57,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 84181869.0,
      "step": 115
    },
    {
      "entropy": 0.400604248046875,
      "epoch": 1.2608695652173914,
      "grad_norm": 40.94602213355257,
      "learning_rate": 4.667557270062697e-06,
      "loss": 0.5422,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 84919453.0,
      "step": 116
    },
    {
      "entropy": 0.40667724609375,
      "epoch": 1.2717391304347827,
      "grad_norm": 41.144463708071555,
      "learning_rate": 4.660050057270191e-06,
      "loss": 0.5445,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 85634603.0,
      "step": 117
    },
    {
      "entropy": 0.39067840576171875,
      "epoch": 1.2826086956521738,
      "grad_norm": 39.061011764035165,
      "learning_rate": 4.6524652019463164e-06,
      "loss": 0.5159,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 86360585.0,
      "step": 118
    },
    {
      "entropy": 0.398223876953125,
      "epoch": 1.2934782608695652,
      "grad_norm": 38.486999049855314,
      "learning_rate": 4.644802976727054e-06,
      "loss": 0.4944,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 87081747.0,
      "step": 119
    },
    {
      "entropy": 0.4083099365234375,
      "epoch": 1.3043478260869565,
      "grad_norm": 36.27038080304112,
      "learning_rate": 4.637063657029428e-06,
      "loss": 0.4882,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 87812474.0,
      "step": 120
    },
    {
      "entropy": 0.3939208984375,
      "epoch": 1.315217391304348,
      "grad_norm": 35.686780544863616,
      "learning_rate": 4.629247521041611e-06,
      "loss": 0.4605,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 88505296.0,
      "step": 121
    },
    {
      "entropy": 0.3960113525390625,
      "epoch": 1.3260869565217392,
      "grad_norm": 33.76764143506955,
      "learning_rate": 4.621354849712917e-06,
      "loss": 0.4501,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 89228902.0,
      "step": 122
    },
    {
      "entropy": 0.38787841796875,
      "epoch": 1.3369565217391304,
      "grad_norm": 33.98561398901751,
      "learning_rate": 4.613385926743706e-06,
      "loss": 0.4118,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 89966869.0,
      "step": 123
    },
    {
      "entropy": 0.3943328857421875,
      "epoch": 1.3478260869565217,
      "grad_norm": 31.93262286306142,
      "learning_rate": 4.605341038575188e-06,
      "loss": 0.4268,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 90694209.0,
      "step": 124
    },
    {
      "entropy": 0.395050048828125,
      "epoch": 1.358695652173913,
      "grad_norm": 31.219648586265514,
      "learning_rate": 4.597220474379125e-06,
      "loss": 0.4339,
      "mean_token_accuracy": 0.890625006519258,
      "num_tokens": 91412139.0,
      "step": 125
    },
    {
      "entropy": 0.386474609375,
      "epoch": 1.3695652173913042,
      "grad_norm": 30.235398328456498,
      "learning_rate": 4.5890245260474405e-06,
      "loss": 0.3833,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 92169703.0,
      "step": 126
    },
    {
      "entropy": 0.3856658935546875,
      "epoch": 1.3804347826086958,
      "grad_norm": 28.76011062369692,
      "learning_rate": 4.580753488181719e-06,
      "loss": 0.3522,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 92912510.0,
      "step": 127
    },
    {
      "entropy": 0.407562255859375,
      "epoch": 1.391304347826087,
      "grad_norm": 29.039638536942302,
      "learning_rate": 4.572407658082626e-06,
      "loss": 0.3569,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 93637311.0,
      "step": 128
    },
    {
      "entropy": 0.4102325439453125,
      "epoch": 1.4021739130434783,
      "grad_norm": 27.20765740692355,
      "learning_rate": 4.563987335739216e-06,
      "loss": 0.3539,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 94356050.0,
      "step": 129
    },
    {
      "entropy": 0.407196044921875,
      "epoch": 1.4130434782608696,
      "grad_norm": 27.648217205274445,
      "learning_rate": 4.555492823818151e-06,
      "loss": 0.3582,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 95083725.0,
      "step": 130
    },
    {
      "entropy": 0.4114990234375,
      "epoch": 1.4239130434782608,
      "grad_norm": 24.996579448423685,
      "learning_rate": 4.546924427652825e-06,
      "loss": 0.3305,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 95797836.0,
      "step": 131
    },
    {
      "entropy": 0.3891754150390625,
      "epoch": 1.434782608695652,
      "grad_norm": 24.416558559234403,
      "learning_rate": 4.5382824552323765e-06,
      "loss": 0.341,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 96528246.0,
      "step": 132
    },
    {
      "entropy": 0.3935394287109375,
      "epoch": 1.4456521739130435,
      "grad_norm": 22.96032344959286,
      "learning_rate": 4.529567217190637e-06,
      "loss": 0.2865,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 97250780.0,
      "step": 133
    },
    {
      "entropy": 0.39044189453125,
      "epoch": 1.4565217391304348,
      "grad_norm": 22.063495250788332,
      "learning_rate": 4.520779026794947e-06,
      "loss": 0.2811,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 98008622.0,
      "step": 134
    },
    {
      "entropy": 0.3992919921875,
      "epoch": 1.4673913043478262,
      "grad_norm": 19.914694498536324,
      "learning_rate": 4.511918199934907e-06,
      "loss": 0.2623,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 98750142.0,
      "step": 135
    },
    {
      "entropy": 0.400970458984375,
      "epoch": 1.4782608695652173,
      "grad_norm": 19.9981607643822,
      "learning_rate": 4.50298505511102e-06,
      "loss": 0.2602,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 99475178.0,
      "step": 136
    },
    {
      "entropy": 0.402740478515625,
      "epoch": 1.4891304347826086,
      "grad_norm": 26.798349878010242,
      "learning_rate": 4.4939799134232395e-06,
      "loss": 0.3641,
      "mean_token_accuracy": 0.8880208400078118,
      "num_tokens": 100215781.0,
      "step": 137
    },
    {
      "entropy": 0.394073486328125,
      "epoch": 1.5,
      "grad_norm": 17.121795915947885,
      "learning_rate": 4.484903098559435e-06,
      "loss": 0.2627,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 100926576.0,
      "step": 138
    },
    {
      "entropy": 0.4090118408203125,
      "epoch": 1.5108695652173914,
      "grad_norm": 19.211837170382395,
      "learning_rate": 4.475754936783749e-06,
      "loss": 0.25,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 101648693.0,
      "step": 139
    },
    {
      "entropy": 0.3933258056640625,
      "epoch": 1.5217391304347827,
      "grad_norm": 16.88852463061063,
      "learning_rate": 4.466535756924875e-06,
      "loss": 0.2667,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 102380247.0,
      "step": 140
    },
    {
      "entropy": 0.39617919921875,
      "epoch": 1.5326086956521738,
      "grad_norm": 14.61429561357618,
      "learning_rate": 4.457245890364236e-06,
      "loss": 0.2523,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 103098045.0,
      "step": 141
    },
    {
      "entropy": 0.3946075439453125,
      "epoch": 1.5434782608695652,
      "grad_norm": 16.208738096882165,
      "learning_rate": 4.447885671024072e-06,
      "loss": 0.2434,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 103832961.0,
      "step": 142
    },
    {
      "entropy": 0.3829803466796875,
      "epoch": 1.5543478260869565,
      "grad_norm": 13.0937866105472,
      "learning_rate": 4.438455435355442e-06,
      "loss": 0.2188,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 104586103.0,
      "step": 143
    },
    {
      "entropy": 0.39031982421875,
      "epoch": 1.5652173913043477,
      "grad_norm": 12.53669115491814,
      "learning_rate": 4.428955522326122e-06,
      "loss": 0.2311,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 105315169.0,
      "step": 144
    },
    {
      "entropy": 0.4092254638671875,
      "epoch": 1.5760869565217392,
      "grad_norm": 14.582640913447294,
      "learning_rate": 4.419386273408428e-06,
      "loss": 0.2274,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 106045340.0,
      "step": 145
    },
    {
      "entropy": 0.3966064453125,
      "epoch": 1.5869565217391304,
      "grad_norm": 15.047110312822326,
      "learning_rate": 4.4097480325669395e-06,
      "loss": 0.2306,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 106778473.0,
      "step": 146
    },
    {
      "entropy": 0.407928466796875,
      "epoch": 1.5978260869565217,
      "grad_norm": 10.515613362610097,
      "learning_rate": 4.400041146246137e-06,
      "loss": 0.2176,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 107468769.0,
      "step": 147
    },
    {
      "entropy": 0.379302978515625,
      "epoch": 1.608695652173913,
      "grad_norm": 11.083761187244953,
      "learning_rate": 4.390265963357944e-06,
      "loss": 0.2139,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 108243458.0,
      "step": 148
    },
    {
      "entropy": 0.394439697265625,
      "epoch": 1.6195652173913042,
      "grad_norm": 9.163872031516867,
      "learning_rate": 4.380422835269193e-06,
      "loss": 0.2015,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 109007236.0,
      "step": 149
    },
    {
      "entropy": 0.3931884765625,
      "epoch": 1.6304347826086958,
      "grad_norm": 9.461950682710798,
      "learning_rate": 4.370512115788992e-06,
      "loss": 0.2332,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 109750445.0,
      "step": 150
    },
    {
      "entropy": 0.4171295166015625,
      "epoch": 1.641304347826087,
      "grad_norm": 8.681378025989549,
      "learning_rate": 4.360534161156004e-06,
      "loss": 0.2153,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 110475771.0,
      "step": 151
    },
    {
      "entropy": 0.3850860595703125,
      "epoch": 1.6521739130434783,
      "grad_norm": 8.375375848549439,
      "learning_rate": 4.350489330025647e-06,
      "loss": 0.2012,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 111205566.0,
      "step": 152
    },
    {
      "entropy": 0.4016265869140625,
      "epoch": 1.6630434782608696,
      "grad_norm": 9.319299508931124,
      "learning_rate": 4.3403779834572e-06,
      "loss": 0.1853,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 111918245.0,
      "step": 153
    },
    {
      "entropy": 0.4125518798828125,
      "epoch": 1.6739130434782608,
      "grad_norm": 8.096770701590568,
      "learning_rate": 4.3302004849008264e-06,
      "loss": 0.1715,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 112673380.0,
      "step": 154
    },
    {
      "entropy": 0.392120361328125,
      "epoch": 1.6847826086956523,
      "grad_norm": 20.70014134332522,
      "learning_rate": 4.319957200184505e-06,
      "loss": 0.2539,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 113424643.0,
      "step": 155
    },
    {
      "entropy": 0.406463623046875,
      "epoch": 1.6956521739130435,
      "grad_norm": 18.637622807181174,
      "learning_rate": 4.309648497500886e-06,
      "loss": 0.1978,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 114148715.0,
      "step": 156
    },
    {
      "entropy": 0.3884735107421875,
      "epoch": 1.7065217391304348,
      "grad_norm": 16.929664848478993,
      "learning_rate": 4.2992747473940554e-06,
      "loss": 0.2263,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 114884454.0,
      "step": 157
    },
    {
      "entropy": 0.3905487060546875,
      "epoch": 1.7173913043478262,
      "grad_norm": 7.445339372986093,
      "learning_rate": 4.288836322746213e-06,
      "loss": 0.1731,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 115616184.0,
      "step": 158
    },
    {
      "entropy": 0.385711669921875,
      "epoch": 1.7282608695652173,
      "grad_norm": 11.433595838699802,
      "learning_rate": 4.278333598764271e-06,
      "loss": 0.1774,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 116370591.0,
      "step": 159
    },
    {
      "entropy": 0.391448974609375,
      "epoch": 1.7391304347826086,
      "grad_norm": 5.124658186662959,
      "learning_rate": 4.267766952966369e-06,
      "loss": 0.1923,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 117090130.0,
      "step": 160
    },
    {
      "entropy": 0.3936920166015625,
      "epoch": 1.75,
      "grad_norm": 9.710997526986844,
      "learning_rate": 4.2571367651683e-06,
      "loss": 0.1724,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 117829362.0,
      "step": 161
    },
    {
      "entropy": 0.3948211669921875,
      "epoch": 1.7608695652173914,
      "grad_norm": 7.637305083966493,
      "learning_rate": 4.246443417469861e-06,
      "loss": 0.1591,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 118568505.0,
      "step": 162
    },
    {
      "entropy": 0.3966827392578125,
      "epoch": 1.7717391304347827,
      "grad_norm": 6.352232777883701,
      "learning_rate": 4.23568729424112e-06,
      "loss": 0.1542,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 119304549.0,
      "step": 163
    },
    {
      "entropy": 0.4008941650390625,
      "epoch": 1.7826086956521738,
      "grad_norm": 7.845424672443954,
      "learning_rate": 4.224868782108595e-06,
      "loss": 0.1555,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 120022684.0,
      "step": 164
    },
    {
      "entropy": 0.3982391357421875,
      "epoch": 1.7934782608695652,
      "grad_norm": 5.867172323651043,
      "learning_rate": 4.213988269941362e-06,
      "loss": 0.1524,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 120753136.0,
      "step": 165
    },
    {
      "entropy": 0.3922882080078125,
      "epoch": 1.8043478260869565,
      "grad_norm": 11.143988416915391,
      "learning_rate": 4.203046148837073e-06,
      "loss": 0.2066,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 121483427.0,
      "step": 166
    },
    {
      "entropy": 0.389434814453125,
      "epoch": 1.8152173913043477,
      "grad_norm": 6.363251687617804,
      "learning_rate": 4.192042812107901e-06,
      "loss": 0.1562,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 122229408.0,
      "step": 167
    },
    {
      "entropy": 0.393035888671875,
      "epoch": 1.8260869565217392,
      "grad_norm": 11.98913412482353,
      "learning_rate": 4.1809786552664e-06,
      "loss": 0.2214,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 122989159.0,
      "step": 168
    },
    {
      "entropy": 0.4105987548828125,
      "epoch": 1.8369565217391304,
      "grad_norm": 11.221703577540584,
      "learning_rate": 4.169854076011293e-06,
      "loss": 0.2265,
      "mean_token_accuracy": 0.8776041739620268,
      "num_tokens": 123713700.0,
      "step": 169
    },
    {
      "entropy": 0.4217987060546875,
      "epoch": 1.8478260869565217,
      "grad_norm": 5.074182071128017,
      "learning_rate": 4.158669474213169e-06,
      "loss": 0.1886,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 124426341.0,
      "step": 170
    },
    {
      "entropy": 0.4173583984375,
      "epoch": 1.858695652173913,
      "grad_norm": 5.639166514825885,
      "learning_rate": 4.147425251900119e-06,
      "loss": 0.2014,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 125152598.0,
      "step": 171
    },
    {
      "entropy": 0.39801025390625,
      "epoch": 1.8695652173913042,
      "grad_norm": 5.107203100182791,
      "learning_rate": 4.136121813243277e-06,
      "loss": 0.1719,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 125908265.0,
      "step": 172
    },
    {
      "entropy": 0.4199066162109375,
      "epoch": 1.8804347826086958,
      "grad_norm": 5.069779240675701,
      "learning_rate": 4.124759564542295e-06,
      "loss": 0.1625,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 126640327.0,
      "step": 173
    },
    {
      "entropy": 0.3965911865234375,
      "epoch": 1.891304347826087,
      "grad_norm": 13.727793398048089,
      "learning_rate": 4.113338914210745e-06,
      "loss": 0.203,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 127360727.0,
      "step": 174
    },
    {
      "entropy": 0.3970794677734375,
      "epoch": 1.9021739130434783,
      "grad_norm": 6.561352666714209,
      "learning_rate": 4.101860272761426e-06,
      "loss": 0.2153,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 128101177.0,
      "step": 175
    },
    {
      "entropy": 0.4203033447265625,
      "epoch": 1.9130434782608696,
      "grad_norm": 8.420375880353408,
      "learning_rate": 4.09032405279162e-06,
      "loss": 0.1643,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 128840203.0,
      "step": 176
    },
    {
      "entropy": 0.4055023193359375,
      "epoch": 1.9239130434782608,
      "grad_norm": 6.3204971059695785,
      "learning_rate": 4.078730668968253e-06,
      "loss": 0.1516,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 129566856.0,
      "step": 177
    },
    {
      "entropy": 0.3990478515625,
      "epoch": 1.9347826086956523,
      "grad_norm": 10.82306154302578,
      "learning_rate": 4.067080538012996e-06,
      "loss": 0.2146,
      "mean_token_accuracy": 0.8828125069849193,
      "num_tokens": 130325186.0,
      "step": 178
    },
    {
      "entropy": 0.4362945556640625,
      "epoch": 1.9456521739130435,
      "grad_norm": 8.978370436920414,
      "learning_rate": 4.055374078687283e-06,
      "loss": 0.1976,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 131045097.0,
      "step": 179
    },
    {
      "entropy": 0.412994384765625,
      "epoch": 1.9565217391304348,
      "grad_norm": 6.463639006249827,
      "learning_rate": 4.0436117117772564e-06,
      "loss": 0.1883,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 131785066.0,
      "step": 180
    },
    {
      "entropy": 0.423187255859375,
      "epoch": 1.9673913043478262,
      "grad_norm": 10.264052102856658,
      "learning_rate": 4.031793860078649e-06,
      "loss": 0.1777,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 132494937.0,
      "step": 181
    },
    {
      "entropy": 0.4028778076171875,
      "epoch": 1.9782608695652173,
      "grad_norm": 10.489264387524804,
      "learning_rate": 4.019920948381579e-06,
      "loss": 0.1999,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 133241178.0,
      "step": 182
    },
    {
      "entropy": 0.4054107666015625,
      "epoch": 1.9891304347826086,
      "grad_norm": 4.905682460279962,
      "learning_rate": 4.007993403455285e-06,
      "loss": 0.1985,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 133988365.0,
      "step": 183
    },
    {
      "entropy": 0.41510009765625,
      "epoch": 2.0,
      "grad_norm": 4.353022530836253,
      "learning_rate": 3.996011654032785e-06,
      "loss": 0.1921,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 134713244.0,
      "step": 184
    },
    {
      "entropy": 0.4169464111328125,
      "epoch": 2.010869565217391,
      "grad_norm": 5.769114436850068,
      "learning_rate": 3.983976130795468e-06,
      "loss": 0.1789,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 135429481.0,
      "step": 185
    },
    {
      "entropy": 0.412628173828125,
      "epoch": 2.0217391304347827,
      "grad_norm": 2.313291486785006,
      "learning_rate": 3.971887266357607e-06,
      "loss": 0.1729,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 136149605.0,
      "step": 186
    },
    {
      "entropy": 0.406341552734375,
      "epoch": 2.032608695652174,
      "grad_norm": 6.075931611467659,
      "learning_rate": 3.959745495250818e-06,
      "loss": 0.1701,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 136875475.0,
      "step": 187
    },
    {
      "entropy": 0.411865234375,
      "epoch": 2.0434782608695654,
      "grad_norm": 6.5056695421407476,
      "learning_rate": 3.947551253908433e-06,
      "loss": 0.1444,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 137595493.0,
      "step": 188
    },
    {
      "entropy": 0.4134674072265625,
      "epoch": 2.0543478260869565,
      "grad_norm": 4.915324787269309,
      "learning_rate": 3.935304980649813e-06,
      "loss": 0.1624,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 138343578.0,
      "step": 189
    },
    {
      "entropy": 0.412139892578125,
      "epoch": 2.0652173913043477,
      "grad_norm": 4.529886616396211,
      "learning_rate": 3.9230071156646e-06,
      "loss": 0.152,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 139061827.0,
      "step": 190
    },
    {
      "entropy": 0.4214630126953125,
      "epoch": 2.0760869565217392,
      "grad_norm": 5.4683819077290945,
      "learning_rate": 3.910658100996884e-06,
      "loss": 0.1477,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 139806593.0,
      "step": 191
    },
    {
      "entropy": 0.40814208984375,
      "epoch": 2.0869565217391304,
      "grad_norm": 4.285677253218285,
      "learning_rate": 3.898258380529324e-06,
      "loss": 0.1691,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 140539525.0,
      "step": 192
    },
    {
      "entropy": 0.39483642578125,
      "epoch": 2.097826086956522,
      "grad_norm": 3.9403338732076167,
      "learning_rate": 3.885808399967186e-06,
      "loss": 0.1602,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 141295404.0,
      "step": 193
    },
    {
      "entropy": 0.4080047607421875,
      "epoch": 2.108695652173913,
      "grad_norm": 3.707685270723803,
      "learning_rate": 3.873308606822323e-06,
      "loss": 0.1715,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 142040002.0,
      "step": 194
    },
    {
      "entropy": 0.405914306640625,
      "epoch": 2.119565217391304,
      "grad_norm": 4.146025046981912,
      "learning_rate": 3.860759450397093e-06,
      "loss": 0.1544,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 142792108.0,
      "step": 195
    },
    {
      "entropy": 0.4055328369140625,
      "epoch": 2.130434782608696,
      "grad_norm": 5.17844498275304,
      "learning_rate": 3.848161381768204e-06,
      "loss": 0.1751,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 143549121.0,
      "step": 196
    },
    {
      "entropy": 0.3994293212890625,
      "epoch": 2.141304347826087,
      "grad_norm": 5.24512049385137,
      "learning_rate": 3.835514853770505e-06,
      "loss": 0.1532,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 144277257.0,
      "step": 197
    },
    {
      "entropy": 0.4094390869140625,
      "epoch": 2.1521739130434785,
      "grad_norm": 3.9042611182864757,
      "learning_rate": 3.822820320980703e-06,
      "loss": 0.1591,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 144989757.0,
      "step": 198
    },
    {
      "entropy": 0.4099884033203125,
      "epoch": 2.1630434782608696,
      "grad_norm": 3.280629385809772,
      "learning_rate": 3.810078239701033e-06,
      "loss": 0.1508,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 145735476.0,
      "step": 199
    },
    {
      "entropy": 0.3897857666015625,
      "epoch": 2.1739130434782608,
      "grad_norm": 6.806002762250026,
      "learning_rate": 3.797289067942842e-06,
      "loss": 0.16,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 146498169.0,
      "step": 200
    },
    {
      "entropy": 0.408172607421875,
      "epoch": 2.1847826086956523,
      "grad_norm": 2.4855365367303714,
      "learning_rate": 3.7844532654101407e-06,
      "loss": 0.1339,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 147239170.0,
      "step": 201
    },
    {
      "entropy": 0.4005279541015625,
      "epoch": 2.1956521739130435,
      "grad_norm": 9.975089070708748,
      "learning_rate": 3.7715712934830696e-06,
      "loss": 0.1807,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 147989958.0,
      "step": 202
    },
    {
      "entropy": 0.3972015380859375,
      "epoch": 2.2065217391304346,
      "grad_norm": 12.740804630724911,
      "learning_rate": 3.7586436152013196e-06,
      "loss": 0.1998,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 148733799.0,
      "step": 203
    },
    {
      "entropy": 0.3899993896484375,
      "epoch": 2.217391304347826,
      "grad_norm": 4.152261020848689,
      "learning_rate": 3.7456706952474853e-06,
      "loss": 0.1762,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 149480297.0,
      "step": 204
    },
    {
      "entropy": 0.401519775390625,
      "epoch": 2.2282608695652173,
      "grad_norm": 9.807236215121799,
      "learning_rate": 3.732652999930364e-06,
      "loss": 0.161,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 150208824.0,
      "step": 205
    },
    {
      "entropy": 0.407989501953125,
      "epoch": 2.239130434782609,
      "grad_norm": 10.15864873377184,
      "learning_rate": 3.7195909971681947e-06,
      "loss": 0.1719,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 150943893.0,
      "step": 206
    },
    {
      "entropy": 0.3966064453125,
      "epoch": 2.25,
      "grad_norm": 4.902006802880689,
      "learning_rate": 3.706485156471836e-06,
      "loss": 0.1476,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 151678114.0,
      "step": 207
    },
    {
      "entropy": 0.4072265625,
      "epoch": 2.260869565217391,
      "grad_norm": 8.51481090982365,
      "learning_rate": 3.693335948927893e-06,
      "loss": 0.1721,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 152414615.0,
      "step": 208
    },
    {
      "entropy": 0.404449462890625,
      "epoch": 2.2717391304347827,
      "grad_norm": 8.681787975025177,
      "learning_rate": 3.680143847181783e-06,
      "loss": 0.1797,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 153129775.0,
      "step": 209
    },
    {
      "entropy": 0.3983154296875,
      "epoch": 2.282608695652174,
      "grad_norm": 9.051566912726443,
      "learning_rate": 3.6669093254207444e-06,
      "loss": 0.1707,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 153881112.0,
      "step": 210
    },
    {
      "entropy": 0.40325927734375,
      "epoch": 2.2934782608695654,
      "grad_norm": 3.6759822867046665,
      "learning_rate": 3.6536328593567948e-06,
      "loss": 0.1646,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 154605280.0,
      "step": 211
    },
    {
      "entropy": 0.40203857421875,
      "epoch": 2.3043478260869565,
      "grad_norm": 4.496754931199338,
      "learning_rate": 3.6403149262096316e-06,
      "loss": 0.1655,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 155346540.0,
      "step": 212
    },
    {
      "entropy": 0.400146484375,
      "epoch": 2.3152173913043477,
      "grad_norm": 5.542954768278473,
      "learning_rate": 3.6269560046894766e-06,
      "loss": 0.1654,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 156096858.0,
      "step": 213
    },
    {
      "entropy": 0.40185546875,
      "epoch": 2.3260869565217392,
      "grad_norm": 9.552626615878669,
      "learning_rate": 3.613556574979869e-06,
      "loss": 0.2011,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 156809583.0,
      "step": 214
    },
    {
      "entropy": 0.4056549072265625,
      "epoch": 2.3369565217391304,
      "grad_norm": 3.762169721785948,
      "learning_rate": 3.6001171187204076e-06,
      "loss": 0.1636,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 157514098.0,
      "step": 215
    },
    {
      "entropy": 0.406219482421875,
      "epoch": 2.3478260869565215,
      "grad_norm": 1.9904575611221407,
      "learning_rate": 3.586638118989436e-06,
      "loss": 0.1631,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 158244881.0,
      "step": 216
    },
    {
      "entropy": 0.4279327392578125,
      "epoch": 2.358695652173913,
      "grad_norm": 8.27320606828588,
      "learning_rate": 3.573120060286679e-06,
      "loss": 0.179,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 158973009.0,
      "step": 217
    },
    {
      "entropy": 0.401336669921875,
      "epoch": 2.369565217391304,
      "grad_norm": 8.278884160255293,
      "learning_rate": 3.5595634285158288e-06,
      "loss": 0.1798,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 159710034.0,
      "step": 218
    },
    {
      "entropy": 0.406158447265625,
      "epoch": 2.380434782608696,
      "grad_norm": 7.2418624962689755,
      "learning_rate": 3.545968710967079e-06,
      "loss": 0.1613,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 160461608.0,
      "step": 219
    },
    {
      "entropy": 0.41265869140625,
      "epoch": 2.391304347826087,
      "grad_norm": 1.723663629365264,
      "learning_rate": 3.532336396299604e-06,
      "loss": 0.139,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 161169636.0,
      "step": 220
    },
    {
      "entropy": 0.4005889892578125,
      "epoch": 2.4021739130434785,
      "grad_norm": 4.530263246780662,
      "learning_rate": 3.5186669745240027e-06,
      "loss": 0.1439,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 161899629.0,
      "step": 221
    },
    {
      "entropy": 0.396881103515625,
      "epoch": 2.4130434782608696,
      "grad_norm": 5.6005363513107635,
      "learning_rate": 3.5049609369846797e-06,
      "loss": 0.1788,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 162641018.0,
      "step": 222
    },
    {
      "entropy": 0.3952484130859375,
      "epoch": 2.4239130434782608,
      "grad_norm": 6.192782867159037,
      "learning_rate": 3.4912187763421853e-06,
      "loss": 0.1669,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 163389332.0,
      "step": 223
    },
    {
      "entropy": 0.3959808349609375,
      "epoch": 2.4347826086956523,
      "grad_norm": 4.74498090216159,
      "learning_rate": 3.4774409865555064e-06,
      "loss": 0.1355,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 164132521.0,
      "step": 224
    },
    {
      "entropy": 0.41021728515625,
      "epoch": 2.4456521739130435,
      "grad_norm": 4.620570401871395,
      "learning_rate": 3.463628062864312e-06,
      "loss": 0.1912,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 164850463.0,
      "step": 225
    },
    {
      "entropy": 0.4015960693359375,
      "epoch": 2.4565217391304346,
      "grad_norm": 6.959310949827362,
      "learning_rate": 3.4497805017711522e-06,
      "loss": 0.1546,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 165566541.0,
      "step": 226
    },
    {
      "entropy": 0.4024505615234375,
      "epoch": 2.467391304347826,
      "grad_norm": 2.188629941374608,
      "learning_rate": 3.4358988010236104e-06,
      "loss": 0.1617,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 166287160.0,
      "step": 227
    },
    {
      "entropy": 0.41143798828125,
      "epoch": 2.4782608695652173,
      "grad_norm": 4.110694724406751,
      "learning_rate": 3.4219834595964135e-06,
      "loss": 0.165,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 167012634.0,
      "step": 228
    },
    {
      "entropy": 0.421875,
      "epoch": 2.489130434782609,
      "grad_norm": 2.377093151137986,
      "learning_rate": 3.408034977673493e-06,
      "loss": 0.1674,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 167720898.0,
      "step": 229
    },
    {
      "entropy": 0.4253692626953125,
      "epoch": 2.5,
      "grad_norm": 3.3816879905400317,
      "learning_rate": 3.3940538566300114e-06,
      "loss": 0.1514,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 168449203.0,
      "step": 230
    },
    {
      "entropy": 0.41724395751953125,
      "epoch": 2.5108695652173916,
      "grad_norm": 1.7485838277360384,
      "learning_rate": 3.3800405990143354e-06,
      "loss": 0.1567,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 169156495.0,
      "step": 231
    },
    {
      "entropy": 0.4176483154296875,
      "epoch": 2.5217391304347827,
      "grad_norm": 1.869869974700825,
      "learning_rate": 3.3659957085299734e-06,
      "loss": 0.1542,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 169890062.0,
      "step": 232
    },
    {
      "entropy": 0.3970489501953125,
      "epoch": 2.532608695652174,
      "grad_norm": 2.7367813583862377,
      "learning_rate": 3.3519196900174727e-06,
      "loss": 0.1511,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 170620478.0,
      "step": 233
    },
    {
      "entropy": 0.4011688232421875,
      "epoch": 2.5434782608695654,
      "grad_norm": 2.9150639183212865,
      "learning_rate": 3.337813049436268e-06,
      "loss": 0.1339,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 171340518.0,
      "step": 234
    },
    {
      "entropy": 0.421905517578125,
      "epoch": 2.5543478260869565,
      "grad_norm": 4.377629831457047,
      "learning_rate": 3.3236762938465005e-06,
      "loss": 0.1414,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 172062284.0,
      "step": 235
    },
    {
      "entropy": 0.4057159423828125,
      "epoch": 2.5652173913043477,
      "grad_norm": 9.197993174314156,
      "learning_rate": 3.3095099313907854e-06,
      "loss": 0.1493,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 172786427.0,
      "step": 236
    },
    {
      "entropy": 0.3982391357421875,
      "epoch": 2.5760869565217392,
      "grad_norm": 3.697476896791561,
      "learning_rate": 3.2953144712759546e-06,
      "loss": 0.1474,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 173529025.0,
      "step": 237
    },
    {
      "entropy": 0.393646240234375,
      "epoch": 2.5869565217391304,
      "grad_norm": 3.619109782771534,
      "learning_rate": 3.2810904237547452e-06,
      "loss": 0.1385,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 174276952.0,
      "step": 238
    },
    {
      "entropy": 0.4045867919921875,
      "epoch": 2.5978260869565215,
      "grad_norm": 6.719490352606606,
      "learning_rate": 3.2668383001074646e-06,
      "loss": 0.1703,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 175031272.0,
      "step": 239
    },
    {
      "entropy": 0.4186553955078125,
      "epoch": 2.608695652173913,
      "grad_norm": 3.4721668989113805,
      "learning_rate": 3.252558612623609e-06,
      "loss": 0.1562,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 175749554.0,
      "step": 240
    },
    {
      "entropy": 0.4042205810546875,
      "epoch": 2.619565217391304,
      "grad_norm": 2.663563667523105,
      "learning_rate": 3.2382518745834516e-06,
      "loss": 0.1285,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 176480814.0,
      "step": 241
    },
    {
      "entropy": 0.3988800048828125,
      "epoch": 2.630434782608696,
      "grad_norm": 3.768873800622193,
      "learning_rate": 3.2239186002395933e-06,
      "loss": 0.1535,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 177213446.0,
      "step": 242
    },
    {
      "entropy": 0.4304962158203125,
      "epoch": 2.641304347826087,
      "grad_norm": 2.4459953033513386,
      "learning_rate": 3.209559304798474e-06,
      "loss": 0.1506,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 177926767.0,
      "step": 243
    },
    {
      "entropy": 0.403533935546875,
      "epoch": 2.6521739130434785,
      "grad_norm": 1.7903123160287215,
      "learning_rate": 3.1951745044018584e-06,
      "loss": 0.1366,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 178645859.0,
      "step": 244
    },
    {
      "entropy": 0.4078216552734375,
      "epoch": 2.6630434782608696,
      "grad_norm": 2.354542757138832,
      "learning_rate": 3.18076471610828e-06,
      "loss": 0.1423,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 179364931.0,
      "step": 245
    },
    {
      "entropy": 0.4050445556640625,
      "epoch": 2.6739130434782608,
      "grad_norm": 3.286856071822348,
      "learning_rate": 3.1663304578744577e-06,
      "loss": 0.1549,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 180114016.0,
      "step": 246
    },
    {
      "entropy": 0.4292755126953125,
      "epoch": 2.6847826086956523,
      "grad_norm": 2.4974779713716897,
      "learning_rate": 3.151872248536676e-06,
      "loss": 0.1732,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 180829173.0,
      "step": 247
    },
    {
      "entropy": 0.39874267578125,
      "epoch": 2.6956521739130435,
      "grad_norm": 5.1207365153236335,
      "learning_rate": 3.1373906077921386e-06,
      "loss": 0.1481,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 181565615.0,
      "step": 248
    },
    {
      "entropy": 0.4068145751953125,
      "epoch": 2.7065217391304346,
      "grad_norm": 3.453160535712129,
      "learning_rate": 3.122886056180284e-06,
      "loss": 0.1467,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 182301212.0,
      "step": 249
    },
    {
      "entropy": 0.4075469970703125,
      "epoch": 2.717391304347826,
      "grad_norm": 3.6597937342938063,
      "learning_rate": 3.108359115064078e-06,
      "loss": 0.146,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 183021165.0,
      "step": 250
    },
    {
      "entropy": 0.400909423828125,
      "epoch": 2.7282608695652173,
      "grad_norm": 2.200283118715707,
      "learning_rate": 3.093810306611272e-06,
      "loss": 0.1508,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 183759965.0,
      "step": 251
    },
    {
      "entropy": 0.405609130859375,
      "epoch": 2.7391304347826084,
      "grad_norm": 2.4404200903959925,
      "learning_rate": 3.0792401537756344e-06,
      "loss": 0.144,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 184510253.0,
      "step": 252
    },
    {
      "entropy": 0.4005279541015625,
      "epoch": 2.75,
      "grad_norm": 5.494889903923188,
      "learning_rate": 3.064649180278152e-06,
      "loss": 0.1502,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 185245055.0,
      "step": 253
    },
    {
      "entropy": 0.4037933349609375,
      "epoch": 2.7608695652173916,
      "grad_norm": 5.942140106785852,
      "learning_rate": 3.050037910588206e-06,
      "loss": 0.1642,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 185982247.0,
      "step": 254
    },
    {
      "entropy": 0.4097900390625,
      "epoch": 2.7717391304347827,
      "grad_norm": 2.7926898587530453,
      "learning_rate": 3.0354068699047214e-06,
      "loss": 0.1503,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 186720366.0,
      "step": 255
    },
    {
      "entropy": 0.3978271484375,
      "epoch": 2.782608695652174,
      "grad_norm": 3.275170750672734,
      "learning_rate": 3.020756584137284e-06,
      "loss": 0.1518,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 187486715.0,
      "step": 256
    },
    {
      "entropy": 0.41058349609375,
      "epoch": 2.7934782608695654,
      "grad_norm": 3.0919088095258496,
      "learning_rate": 3.006087579887244e-06,
      "loss": 0.1426,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 188235436.0,
      "step": 257
    },
    {
      "entropy": 0.418212890625,
      "epoch": 2.8043478260869565,
      "grad_norm": 5.236866480807147,
      "learning_rate": 2.9914003844287803e-06,
      "loss": 0.1599,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 188968498.0,
      "step": 258
    },
    {
      "entropy": 0.3939208984375,
      "epoch": 2.8152173913043477,
      "grad_norm": 3.3049486656256835,
      "learning_rate": 2.976695525689952e-06,
      "loss": 0.1433,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 189723089.0,
      "step": 259
    },
    {
      "entropy": 0.3972320556640625,
      "epoch": 2.8260869565217392,
      "grad_norm": 1.9169570499657536,
      "learning_rate": 2.9619735322337213e-06,
      "loss": 0.1375,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 190453426.0,
      "step": 260
    },
    {
      "entropy": 0.4032440185546875,
      "epoch": 2.8369565217391304,
      "grad_norm": 4.141599612386916,
      "learning_rate": 2.9472349332389526e-06,
      "loss": 0.1334,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 191201163.0,
      "step": 261
    },
    {
      "entropy": 0.40655517578125,
      "epoch": 2.8478260869565215,
      "grad_norm": 4.252412854648407,
      "learning_rate": 2.9324802584813956e-06,
      "loss": 0.1572,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 191949698.0,
      "step": 262
    },
    {
      "entropy": 0.41622161865234375,
      "epoch": 2.858695652173913,
      "grad_norm": 3.8183054744167118,
      "learning_rate": 2.9177100383146366e-06,
      "loss": 0.1584,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 192663193.0,
      "step": 263
    },
    {
      "entropy": 0.396728515625,
      "epoch": 2.869565217391304,
      "grad_norm": 7.049926746082382,
      "learning_rate": 2.9029248036510406e-06,
      "loss": 0.1757,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 193415016.0,
      "step": 264
    },
    {
      "entropy": 0.4150390625,
      "epoch": 2.880434782608696,
      "grad_norm": 8.731644805647692,
      "learning_rate": 2.8881250859426644e-06,
      "loss": 0.148,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 194119329.0,
      "step": 265
    },
    {
      "entropy": 0.4008026123046875,
      "epoch": 2.891304347826087,
      "grad_norm": 6.541681958593302,
      "learning_rate": 2.873311417162155e-06,
      "loss": 0.1618,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 194853552.0,
      "step": 266
    },
    {
      "entropy": 0.414306640625,
      "epoch": 2.9021739130434785,
      "grad_norm": 2.3073791588153667,
      "learning_rate": 2.858484329783628e-06,
      "loss": 0.1708,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 195583993.0,
      "step": 267
    },
    {
      "entropy": 0.4116973876953125,
      "epoch": 2.9130434782608696,
      "grad_norm": 5.817223787505313,
      "learning_rate": 2.8436443567635254e-06,
      "loss": 0.1358,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 196314680.0,
      "step": 268
    },
    {
      "entropy": 0.41217041015625,
      "epoch": 2.9239130434782608,
      "grad_norm": 5.640439059855197,
      "learning_rate": 2.8287920315214647e-06,
      "loss": 0.1393,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 197041013.0,
      "step": 269
    },
    {
      "entropy": 0.4119110107421875,
      "epoch": 2.9347826086956523,
      "grad_norm": 3.1028346946776395,
      "learning_rate": 2.813927887921058e-06,
      "loss": 0.1395,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 197786660.0,
      "step": 270
    },
    {
      "entropy": 0.4027862548828125,
      "epoch": 2.9456521739130435,
      "grad_norm": 2.9788681452383483,
      "learning_rate": 2.7990524602507276e-06,
      "loss": 0.1303,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 198524868.0,
      "step": 271
    },
    {
      "entropy": 0.4171600341796875,
      "epoch": 2.9565217391304346,
      "grad_norm": 6.238755333023339,
      "learning_rate": 2.7841662832044976e-06,
      "loss": 0.1902,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 199230746.0,
      "step": 272
    },
    {
      "entropy": 0.4033966064453125,
      "epoch": 2.967391304347826,
      "grad_norm": 3.165163181824921,
      "learning_rate": 2.769269891862778e-06,
      "loss": 0.1495,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 199952480.0,
      "step": 273
    },
    {
      "entropy": 0.4026031494140625,
      "epoch": 2.9782608695652173,
      "grad_norm": 3.1940919119818387,
      "learning_rate": 2.7543638216731284e-06,
      "loss": 0.1556,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 200674955.0,
      "step": 274
    },
    {
      "entropy": 0.4068450927734375,
      "epoch": 2.9891304347826084,
      "grad_norm": 5.9148790688383865,
      "learning_rate": 2.739448608431013e-06,
      "loss": 0.155,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 201422157.0,
      "step": 275
    },
    {
      "entropy": 0.40570068359375,
      "epoch": 3.0,
      "grad_norm": 7.279301006588609,
      "learning_rate": 2.7245247882605398e-06,
      "loss": 0.1592,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 202165315.0,
      "step": 276
    },
    {
      "entropy": 0.4150390625,
      "epoch": 3.010869565217391,
      "grad_norm": 5.604684508070525,
      "learning_rate": 2.7095928975951912e-06,
      "loss": 0.1337,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 202891458.0,
      "step": 277
    },
    {
      "entropy": 0.4165191650390625,
      "epoch": 3.0217391304347827,
      "grad_norm": 3.1018675130468996,
      "learning_rate": 2.6946534731585446e-06,
      "loss": 0.1116,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 203611043.0,
      "step": 278
    },
    {
      "entropy": 0.409088134765625,
      "epoch": 3.032608695652174,
      "grad_norm": 2.730838512779126,
      "learning_rate": 2.6797070519449735e-06,
      "loss": 0.1231,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 204353714.0,
      "step": 279
    },
    {
      "entropy": 0.393646240234375,
      "epoch": 3.0434782608695654,
      "grad_norm": 7.551068920522778,
      "learning_rate": 2.664754171200351e-06,
      "loss": 0.1678,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 205086225.0,
      "step": 280
    },
    {
      "entropy": 0.3961029052734375,
      "epoch": 3.0543478260869565,
      "grad_norm": 6.767108429857885,
      "learning_rate": 2.649795368402735e-06,
      "loss": 0.1176,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 205807715.0,
      "step": 281
    },
    {
      "entropy": 0.4016571044921875,
      "epoch": 3.0652173913043477,
      "grad_norm": 3.9464572042391337,
      "learning_rate": 2.6348311812430532e-06,
      "loss": 0.1213,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 206532731.0,
      "step": 282
    },
    {
      "entropy": 0.40869140625,
      "epoch": 3.0760869565217392,
      "grad_norm": 1.892543892010217,
      "learning_rate": 2.6198621476057706e-06,
      "loss": 0.0875,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 207237339.0,
      "step": 283
    },
    {
      "entropy": 0.40496826171875,
      "epoch": 3.0869565217391304,
      "grad_norm": 4.394305286565118,
      "learning_rate": 2.6048888055495586e-06,
      "loss": 0.136,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 207989608.0,
      "step": 284
    },
    {
      "entropy": 0.38861083984375,
      "epoch": 3.097826086956522,
      "grad_norm": 4.726094636258799,
      "learning_rate": 2.589911693287954e-06,
      "loss": 0.1351,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 208728432.0,
      "step": 285
    },
    {
      "entropy": 0.403900146484375,
      "epoch": 3.108695652173913,
      "grad_norm": 10.463961073448969,
      "learning_rate": 2.5749313491700107e-06,
      "loss": 0.1001,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 209445393.0,
      "step": 286
    },
    {
      "entropy": 0.385833740234375,
      "epoch": 3.119565217391304,
      "grad_norm": 3.7871990594836724,
      "learning_rate": 2.559948311660955e-06,
      "loss": 0.1051,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 210188581.0,
      "step": 287
    },
    {
      "entropy": 0.394744873046875,
      "epoch": 3.130434782608696,
      "grad_norm": 5.611622338487799,
      "learning_rate": 2.5449631193228224e-06,
      "loss": 0.1253,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 210934203.0,
      "step": 288
    },
    {
      "entropy": 0.3961181640625,
      "epoch": 3.141304347826087,
      "grad_norm": 5.896216032937102,
      "learning_rate": 2.529976310795108e-06,
      "loss": 0.1268,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 211663826.0,
      "step": 289
    },
    {
      "entropy": 0.38653564453125,
      "epoch": 3.1521739130434785,
      "grad_norm": 5.718749568106374,
      "learning_rate": 2.5149884247753947e-06,
      "loss": 0.1212,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 212419393.0,
      "step": 290
    },
    {
      "entropy": 0.3963775634765625,
      "epoch": 3.1630434782608696,
      "grad_norm": 5.571228148016256,
      "learning_rate": 2.5e-06,
      "loss": 0.1155,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 213136423.0,
      "step": 291
    },
    {
      "entropy": 0.4161834716796875,
      "epoch": 3.1739130434782608,
      "grad_norm": 4.653400431287986,
      "learning_rate": 2.485011575224606e-06,
      "loss": 0.132,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 213860272.0,
      "step": 292
    },
    {
      "entropy": 0.404144287109375,
      "epoch": 3.1847826086956523,
      "grad_norm": 3.987271033718359,
      "learning_rate": 2.470023689204893e-06,
      "loss": 0.1026,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 214585378.0,
      "step": 293
    },
    {
      "entropy": 0.4113006591796875,
      "epoch": 3.1956521739130435,
      "grad_norm": 7.436804316985704,
      "learning_rate": 2.455036880677177e-06,
      "loss": 0.1224,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 215314317.0,
      "step": 294
    },
    {
      "entropy": 0.39739990234375,
      "epoch": 3.2065217391304346,
      "grad_norm": 9.104602657569707,
      "learning_rate": 2.440051688339046e-06,
      "loss": 0.1834,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 216042661.0,
      "step": 295
    },
    {
      "entropy": 0.40728759765625,
      "epoch": 3.217391304347826,
      "grad_norm": 8.870227877388434,
      "learning_rate": 2.42506865082999e-06,
      "loss": 0.1338,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 216739339.0,
      "step": 296
    },
    {
      "entropy": 0.4061126708984375,
      "epoch": 3.2282608695652173,
      "grad_norm": 6.441375100377325,
      "learning_rate": 2.4100883067120474e-06,
      "loss": 0.1246,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 217447362.0,
      "step": 297
    },
    {
      "entropy": 0.4034576416015625,
      "epoch": 3.239130434782609,
      "grad_norm": 2.7521266380961906,
      "learning_rate": 2.395111194450442e-06,
      "loss": 0.1429,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 218159550.0,
      "step": 298
    },
    {
      "entropy": 0.390777587890625,
      "epoch": 3.25,
      "grad_norm": 3.945047960105454,
      "learning_rate": 2.38013785239423e-06,
      "loss": 0.1169,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 218907185.0,
      "step": 299
    },
    {
      "entropy": 0.4088134765625,
      "epoch": 3.260869565217391,
      "grad_norm": 3.320365967701281,
      "learning_rate": 2.3651688187569476e-06,
      "loss": 0.1226,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 219629892.0,
      "step": 300
    },
    {
      "entropy": 0.3937225341796875,
      "epoch": 3.2717391304347827,
      "grad_norm": 2.1842459155475233,
      "learning_rate": 2.3502046315972657e-06,
      "loss": 0.1286,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 220371515.0,
      "step": 301
    },
    {
      "entropy": 0.3970184326171875,
      "epoch": 3.282608695652174,
      "grad_norm": 3.7997343625239206,
      "learning_rate": 2.3352458287996503e-06,
      "loss": 0.1047,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 221083509.0,
      "step": 302
    },
    {
      "entropy": 0.4143524169921875,
      "epoch": 3.2934782608695654,
      "grad_norm": 4.224738498455393,
      "learning_rate": 2.320292948055027e-06,
      "loss": 0.1078,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 221790221.0,
      "step": 303
    },
    {
      "entropy": 0.3903656005859375,
      "epoch": 3.3043478260869565,
      "grad_norm": 6.539975257639859,
      "learning_rate": 2.305346526841456e-06,
      "loss": 0.0974,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 222530911.0,
      "step": 304
    },
    {
      "entropy": 0.3883056640625,
      "epoch": 3.3152173913043477,
      "grad_norm": 3.0049401936233466,
      "learning_rate": 2.290407102404809e-06,
      "loss": 0.0973,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 223268218.0,
      "step": 305
    },
    {
      "entropy": 0.3857574462890625,
      "epoch": 3.3260869565217392,
      "grad_norm": 3.3444285539505976,
      "learning_rate": 2.2754752117394615e-06,
      "loss": 0.0845,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 224029981.0,
      "step": 306
    },
    {
      "entropy": 0.3935699462890625,
      "epoch": 3.3369565217391304,
      "grad_norm": 4.7387854490808134,
      "learning_rate": 2.260551391568988e-06,
      "loss": 0.1048,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 224764931.0,
      "step": 307
    },
    {
      "entropy": 0.397369384765625,
      "epoch": 3.3478260869565215,
      "grad_norm": 3.5520975674285205,
      "learning_rate": 2.245636178326872e-06,
      "loss": 0.0923,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 225480310.0,
      "step": 308
    },
    {
      "entropy": 0.378936767578125,
      "epoch": 3.358695652173913,
      "grad_norm": 3.8241276998864917,
      "learning_rate": 2.2307301081372228e-06,
      "loss": 0.0893,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 226234590.0,
      "step": 309
    },
    {
      "entropy": 0.383880615234375,
      "epoch": 3.369565217391304,
      "grad_norm": 5.325658456474894,
      "learning_rate": 2.215833716795503e-06,
      "loss": 0.1055,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 226970294.0,
      "step": 310
    },
    {
      "entropy": 0.3740386962890625,
      "epoch": 3.380434782608696,
      "grad_norm": 7.815662073085125,
      "learning_rate": 2.2009475397492736e-06,
      "loss": 0.1497,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 227710083.0,
      "step": 311
    },
    {
      "entropy": 0.38592529296875,
      "epoch": 3.391304347826087,
      "grad_norm": 4.333017858840753,
      "learning_rate": 2.186072112078943e-06,
      "loss": 0.1056,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 228441034.0,
      "step": 312
    },
    {
      "entropy": 0.384735107421875,
      "epoch": 3.4021739130434785,
      "grad_norm": 8.52187155878998,
      "learning_rate": 2.1712079684785365e-06,
      "loss": 0.1074,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 229150719.0,
      "step": 313
    },
    {
      "entropy": 0.3848114013671875,
      "epoch": 3.4130434782608696,
      "grad_norm": 5.97771821983754,
      "learning_rate": 2.1563556432364754e-06,
      "loss": 0.1003,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 229905738.0,
      "step": 314
    },
    {
      "entropy": 0.395233154296875,
      "epoch": 3.4239130434782608,
      "grad_norm": 7.847709191701014,
      "learning_rate": 2.1415156702163738e-06,
      "loss": 0.1204,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 230616921.0,
      "step": 315
    },
    {
      "entropy": 0.3847198486328125,
      "epoch": 3.4347826086956523,
      "grad_norm": 4.55863070785762,
      "learning_rate": 2.1266885828378454e-06,
      "loss": 0.1133,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 231359817.0,
      "step": 316
    },
    {
      "entropy": 0.409576416015625,
      "epoch": 3.4456521739130435,
      "grad_norm": 7.174195369986572,
      "learning_rate": 2.111874914057336e-06,
      "loss": 0.0915,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 232068027.0,
      "step": 317
    },
    {
      "entropy": 0.3960723876953125,
      "epoch": 3.4565217391304346,
      "grad_norm": 6.6880649916668,
      "learning_rate": 2.09707519634896e-06,
      "loss": 0.1093,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 232796890.0,
      "step": 318
    },
    {
      "entropy": 0.4066009521484375,
      "epoch": 3.467391304347826,
      "grad_norm": 4.6540011859869725,
      "learning_rate": 2.0822899616853643e-06,
      "loss": 0.0876,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 233512366.0,
      "step": 319
    },
    {
      "entropy": 0.3913116455078125,
      "epoch": 3.4782608695652173,
      "grad_norm": 2.851131079452605,
      "learning_rate": 2.0675197415186053e-06,
      "loss": 0.0973,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 234262329.0,
      "step": 320
    },
    {
      "entropy": 0.389068603515625,
      "epoch": 3.489130434782609,
      "grad_norm": 3.376358613822533,
      "learning_rate": 2.052765066761048e-06,
      "loss": 0.1197,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 234992618.0,
      "step": 321
    },
    {
      "entropy": 0.3954315185546875,
      "epoch": 3.5,
      "grad_norm": 4.970337204410292,
      "learning_rate": 2.0380264677662796e-06,
      "loss": 0.1003,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 235719995.0,
      "step": 322
    },
    {
      "entropy": 0.394256591796875,
      "epoch": 3.5108695652173916,
      "grad_norm": 4.876340841614384,
      "learning_rate": 2.023304474310049e-06,
      "loss": 0.1116,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 236466439.0,
      "step": 323
    },
    {
      "entropy": 0.3901519775390625,
      "epoch": 3.5217391304347827,
      "grad_norm": 3.32963982164202,
      "learning_rate": 2.0085996155712205e-06,
      "loss": 0.0969,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 237210401.0,
      "step": 324
    },
    {
      "entropy": 0.39257049560546875,
      "epoch": 3.532608695652174,
      "grad_norm": 3.417466208621038,
      "learning_rate": 1.993912420112756e-06,
      "loss": 0.091,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 237971302.0,
      "step": 325
    },
    {
      "entropy": 0.3885345458984375,
      "epoch": 3.5434782608695654,
      "grad_norm": 5.154678128537876,
      "learning_rate": 1.9792434158627163e-06,
      "loss": 0.1065,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 238706588.0,
      "step": 326
    },
    {
      "entropy": 0.399139404296875,
      "epoch": 3.5543478260869565,
      "grad_norm": 6.6680401433671435,
      "learning_rate": 1.96459313009528e-06,
      "loss": 0.1085,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 239434561.0,
      "step": 327
    },
    {
      "entropy": 0.409088134765625,
      "epoch": 3.5652173913043477,
      "grad_norm": 3.0539780273413775,
      "learning_rate": 1.9499620894117948e-06,
      "loss": 0.1162,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 240168109.0,
      "step": 328
    },
    {
      "entropy": 0.3950958251953125,
      "epoch": 3.5760869565217392,
      "grad_norm": 3.4864849448494417,
      "learning_rate": 1.9353508197218492e-06,
      "loss": 0.0997,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 240901031.0,
      "step": 329
    },
    {
      "entropy": 0.3845977783203125,
      "epoch": 3.5869565217391304,
      "grad_norm": 4.161481389743298,
      "learning_rate": 1.920759846224366e-06,
      "loss": 0.1413,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 241647113.0,
      "step": 330
    },
    {
      "entropy": 0.3903961181640625,
      "epoch": 3.5978260869565215,
      "grad_norm": 4.46072035809382,
      "learning_rate": 1.9061896933887287e-06,
      "loss": 0.0793,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 242384229.0,
      "step": 331
    },
    {
      "entropy": 0.3868255615234375,
      "epoch": 3.608695652173913,
      "grad_norm": 3.5616242777409703,
      "learning_rate": 1.8916408849359228e-06,
      "loss": 0.125,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 243104844.0,
      "step": 332
    },
    {
      "entropy": 0.405059814453125,
      "epoch": 3.619565217391304,
      "grad_norm": 4.829994711540939,
      "learning_rate": 1.877113943819717e-06,
      "loss": 0.1025,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 243823295.0,
      "step": 333
    },
    {
      "entropy": 0.3925018310546875,
      "epoch": 3.630434782608696,
      "grad_norm": 3.7319118019383413,
      "learning_rate": 1.8626093922078614e-06,
      "loss": 0.1036,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 244554740.0,
      "step": 334
    },
    {
      "entropy": 0.38494873046875,
      "epoch": 3.641304347826087,
      "grad_norm": 3.1093245908787397,
      "learning_rate": 1.8481277514633244e-06,
      "loss": 0.1205,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 245314996.0,
      "step": 335
    },
    {
      "entropy": 0.39208984375,
      "epoch": 3.6521739130434785,
      "grad_norm": 3.88733671640295,
      "learning_rate": 1.8336695421255436e-06,
      "loss": 0.1213,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 246051278.0,
      "step": 336
    },
    {
      "entropy": 0.38739013671875,
      "epoch": 3.6630434782608696,
      "grad_norm": 3.3213414900805827,
      "learning_rate": 1.819235283891721e-06,
      "loss": 0.0917,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 246788729.0,
      "step": 337
    },
    {
      "entropy": 0.39154052734375,
      "epoch": 3.6739130434782608,
      "grad_norm": 3.0335711218597323,
      "learning_rate": 1.8048254955981426e-06,
      "loss": 0.0858,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 247525757.0,
      "step": 338
    },
    {
      "entropy": 0.395904541015625,
      "epoch": 3.6847826086956523,
      "grad_norm": 2.0541522722269616,
      "learning_rate": 1.7904406952015258e-06,
      "loss": 0.073,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 248262278.0,
      "step": 339
    },
    {
      "entropy": 0.3845977783203125,
      "epoch": 3.6956521739130435,
      "grad_norm": 3.1179319596359174,
      "learning_rate": 1.7760813997604073e-06,
      "loss": 0.0839,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 249010605.0,
      "step": 340
    },
    {
      "entropy": 0.3895111083984375,
      "epoch": 3.7065217391304346,
      "grad_norm": 2.5136451135311644,
      "learning_rate": 1.761748125416549e-06,
      "loss": 0.0628,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 249754972.0,
      "step": 341
    },
    {
      "entropy": 0.3907012939453125,
      "epoch": 3.717391304347826,
      "grad_norm": 5.0444622876300675,
      "learning_rate": 1.7474413873763923e-06,
      "loss": 0.1076,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 250482210.0,
      "step": 342
    },
    {
      "entropy": 0.401214599609375,
      "epoch": 3.7282608695652173,
      "grad_norm": 3.4851262479255163,
      "learning_rate": 1.733161699892536e-06,
      "loss": 0.1057,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 251206312.0,
      "step": 343
    },
    {
      "entropy": 0.395751953125,
      "epoch": 3.7391304347826084,
      "grad_norm": 3.372368922998507,
      "learning_rate": 1.7189095762452552e-06,
      "loss": 0.0936,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 251940787.0,
      "step": 344
    },
    {
      "entropy": 0.38671875,
      "epoch": 3.75,
      "grad_norm": 3.5321367121230156,
      "learning_rate": 1.7046855287240463e-06,
      "loss": 0.0768,
      "mean_token_accuracy": 0.9713541683740914,
      "num_tokens": 252667326.0,
      "step": 345
    },
    {
      "entropy": 0.38818359375,
      "epoch": 3.7608695652173916,
      "grad_norm": 4.66617504109963,
      "learning_rate": 1.6904900686092152e-06,
      "loss": 0.0821,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 253409331.0,
      "step": 346
    },
    {
      "entropy": 0.389739990234375,
      "epoch": 3.7717391304347827,
      "grad_norm": 5.757137268130939,
      "learning_rate": 1.676323706153501e-06,
      "loss": 0.1385,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 254152233.0,
      "step": 347
    },
    {
      "entropy": 0.3840484619140625,
      "epoch": 3.782608695652174,
      "grad_norm": 5.87600161894552,
      "learning_rate": 1.6621869505637322e-06,
      "loss": 0.1167,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 254869902.0,
      "step": 348
    },
    {
      "entropy": 0.3921661376953125,
      "epoch": 3.7934782608695654,
      "grad_norm": 5.069938622447301,
      "learning_rate": 1.648080309982528e-06,
      "loss": 0.1032,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 255587572.0,
      "step": 349
    },
    {
      "entropy": 0.3853607177734375,
      "epoch": 3.8043478260869565,
      "grad_norm": 5.555739653687511,
      "learning_rate": 1.6340042914700276e-06,
      "loss": 0.088,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 256334110.0,
      "step": 350
    },
    {
      "entropy": 0.3942718505859375,
      "epoch": 3.8152173913043477,
      "grad_norm": 5.461538604824357,
      "learning_rate": 1.6199594009856662e-06,
      "loss": 0.1135,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 257063063.0,
      "step": 351
    },
    {
      "entropy": 0.3986053466796875,
      "epoch": 3.8260869565217392,
      "grad_norm": 3.5482250343137127,
      "learning_rate": 1.6059461433699888e-06,
      "loss": 0.0653,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 257787823.0,
      "step": 352
    },
    {
      "entropy": 0.398956298828125,
      "epoch": 3.8369565217391304,
      "grad_norm": 5.031430473954864,
      "learning_rate": 1.591965022326507e-06,
      "loss": 0.0863,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 258511897.0,
      "step": 353
    },
    {
      "entropy": 0.38787841796875,
      "epoch": 3.8478260869565215,
      "grad_norm": 4.469606613382448,
      "learning_rate": 1.5780165404035875e-06,
      "loss": 0.0656,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 259251524.0,
      "step": 354
    },
    {
      "entropy": 0.3858642578125,
      "epoch": 3.858695652173913,
      "grad_norm": 3.5929874184252526,
      "learning_rate": 1.5641011989763904e-06,
      "loss": 0.0823,
      "mean_token_accuracy": 0.9713541683740914,
      "num_tokens": 259990633.0,
      "step": 355
    },
    {
      "entropy": 0.3833770751953125,
      "epoch": 3.869565217391304,
      "grad_norm": 4.862978119884418,
      "learning_rate": 1.5502194982288488e-06,
      "loss": 0.0965,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 260716262.0,
      "step": 356
    },
    {
      "entropy": 0.392578125,
      "epoch": 3.880434782608696,
      "grad_norm": 5.048650430481591,
      "learning_rate": 1.5363719371356883e-06,
      "loss": 0.0769,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 261458207.0,
      "step": 357
    },
    {
      "entropy": 0.3880462646484375,
      "epoch": 3.891304347826087,
      "grad_norm": 3.916949122587971,
      "learning_rate": 1.522559013444494e-06,
      "loss": 0.0715,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 262187662.0,
      "step": 358
    },
    {
      "entropy": 0.405242919921875,
      "epoch": 3.9021739130434785,
      "grad_norm": 6.166867443980127,
      "learning_rate": 1.5087812236578158e-06,
      "loss": 0.0909,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 262910882.0,
      "step": 359
    },
    {
      "entropy": 0.3793792724609375,
      "epoch": 3.9130434782608696,
      "grad_norm": 5.260002408099854,
      "learning_rate": 1.4950390630153214e-06,
      "loss": 0.0977,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 263687774.0,
      "step": 360
    },
    {
      "entropy": 0.4049072265625,
      "epoch": 3.9239130434782608,
      "grad_norm": 3.305267463070128,
      "learning_rate": 1.4813330254759986e-06,
      "loss": 0.0763,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 264418788.0,
      "step": 361
    },
    {
      "entropy": 0.4032745361328125,
      "epoch": 3.9347826086956523,
      "grad_norm": 4.0590246614743215,
      "learning_rate": 1.4676636037003967e-06,
      "loss": 0.0737,
      "mean_token_accuracy": 0.9713541683740914,
      "num_tokens": 265155019.0,
      "step": 362
    },
    {
      "entropy": 0.3899383544921875,
      "epoch": 3.9456521739130435,
      "grad_norm": 7.996838986627961,
      "learning_rate": 1.4540312890329228e-06,
      "loss": 0.102,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 265897370.0,
      "step": 363
    },
    {
      "entropy": 0.403045654296875,
      "epoch": 3.9565217391304346,
      "grad_norm": 8.600760670932813,
      "learning_rate": 1.4404365714841717e-06,
      "loss": 0.0967,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 266629479.0,
      "step": 364
    },
    {
      "entropy": 0.38128662109375,
      "epoch": 3.967391304347826,
      "grad_norm": 6.524536690159693,
      "learning_rate": 1.426879939713322e-06,
      "loss": 0.085,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 267386177.0,
      "step": 365
    },
    {
      "entropy": 0.373504638671875,
      "epoch": 3.9782608695652173,
      "grad_norm": 5.472885448558323,
      "learning_rate": 1.4133618810105648e-06,
      "loss": 0.0875,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 268144890.0,
      "step": 366
    },
    {
      "entropy": 0.4026947021484375,
      "epoch": 3.9891304347826084,
      "grad_norm": 6.686429591827583,
      "learning_rate": 1.3998828812795933e-06,
      "loss": 0.079,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 268868996.0,
      "step": 367
    },
    {
      "entropy": 0.3988189697265625,
      "epoch": 4.0,
      "grad_norm": 5.5216569352144305,
      "learning_rate": 1.386443425020132e-06,
      "loss": 0.0688,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 269604313.0,
      "step": 368
    },
    {
      "entropy": 0.3936767578125,
      "epoch": 4.010869565217392,
      "grad_norm": 4.080001127001781,
      "learning_rate": 1.3730439953105242e-06,
      "loss": 0.0669,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 270340362.0,
      "step": 369
    },
    {
      "entropy": 0.3797454833984375,
      "epoch": 4.021739130434782,
      "grad_norm": 4.533371753592057,
      "learning_rate": 1.3596850737903688e-06,
      "loss": 0.0589,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 271068090.0,
      "step": 370
    },
    {
      "entropy": 0.3836669921875,
      "epoch": 4.032608695652174,
      "grad_norm": 5.2440365466956385,
      "learning_rate": 1.3463671406432059e-06,
      "loss": 0.061,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 271823613.0,
      "step": 371
    },
    {
      "entropy": 0.373626708984375,
      "epoch": 4.043478260869565,
      "grad_norm": 7.592355954289902,
      "learning_rate": 1.3330906745792567e-06,
      "loss": 0.0616,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 272584056.0,
      "step": 372
    },
    {
      "entropy": 0.3967437744140625,
      "epoch": 4.054347826086956,
      "grad_norm": 6.723486626781882,
      "learning_rate": 1.3198561528182182e-06,
      "loss": 0.052,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 273310463.0,
      "step": 373
    },
    {
      "entropy": 0.386932373046875,
      "epoch": 4.065217391304348,
      "grad_norm": 3.0009372239986805,
      "learning_rate": 1.306664051072108e-06,
      "loss": 0.0538,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 274049501.0,
      "step": 374
    },
    {
      "entropy": 0.3755035400390625,
      "epoch": 4.076086956521739,
      "grad_norm": 3.1126011166674004,
      "learning_rate": 1.2935148435281644e-06,
      "loss": 0.0412,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 274792270.0,
      "step": 375
    },
    {
      "entropy": 0.3892974853515625,
      "epoch": 4.086956521739131,
      "grad_norm": 6.079075841835932,
      "learning_rate": 1.2804090028318061e-06,
      "loss": 0.0681,
      "mean_token_accuracy": 0.9713541683740914,
      "num_tokens": 275525315.0,
      "step": 376
    },
    {
      "entropy": 0.3923492431640625,
      "epoch": 4.0978260869565215,
      "grad_norm": 5.095462449374978,
      "learning_rate": 1.2673470000696364e-06,
      "loss": 0.053,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 276256455.0,
      "step": 377
    },
    {
      "entropy": 0.384490966796875,
      "epoch": 4.108695652173913,
      "grad_norm": 5.216868023733835,
      "learning_rate": 1.2543293047525157e-06,
      "loss": 0.0689,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 276998211.0,
      "step": 378
    },
    {
      "entropy": 0.386962890625,
      "epoch": 4.119565217391305,
      "grad_norm": 6.962827716104999,
      "learning_rate": 1.2413563847986814e-06,
      "loss": 0.0436,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 277706989.0,
      "step": 379
    },
    {
      "entropy": 0.37872314453125,
      "epoch": 4.130434782608695,
      "grad_norm": 7.355764270307707,
      "learning_rate": 1.2284287065169312e-06,
      "loss": 0.057,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 278413603.0,
      "step": 380
    },
    {
      "entropy": 0.3719482421875,
      "epoch": 4.141304347826087,
      "grad_norm": 8.525992550674268,
      "learning_rate": 1.2155467345898604e-06,
      "loss": 0.0656,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 279161601.0,
      "step": 381
    },
    {
      "entropy": 0.37353515625,
      "epoch": 4.1521739130434785,
      "grad_norm": 5.7612876095317915,
      "learning_rate": 1.202710932057159e-06,
      "loss": 0.0474,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 279923911.0,
      "step": 382
    },
    {
      "entropy": 0.383056640625,
      "epoch": 4.163043478260869,
      "grad_norm": 4.0765784721916924,
      "learning_rate": 1.1899217602989685e-06,
      "loss": 0.0481,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 280628538.0,
      "step": 383
    },
    {
      "entropy": 0.36883544921875,
      "epoch": 4.173913043478261,
      "grad_norm": 3.752358495583688,
      "learning_rate": 1.1771796790192963e-06,
      "loss": 0.0304,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 281386515.0,
      "step": 384
    },
    {
      "entropy": 0.3914794921875,
      "epoch": 4.184782608695652,
      "grad_norm": 5.7388195291436555,
      "learning_rate": 1.1644851462294957e-06,
      "loss": 0.0452,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 282106058.0,
      "step": 385
    },
    {
      "entropy": 0.390350341796875,
      "epoch": 4.195652173913044,
      "grad_norm": 3.86099015072525,
      "learning_rate": 1.1518386182317965e-06,
      "loss": 0.0519,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 282842724.0,
      "step": 386
    },
    {
      "entropy": 0.3766326904296875,
      "epoch": 4.206521739130435,
      "grad_norm": 8.831967546852754,
      "learning_rate": 1.1392405496029077e-06,
      "loss": 0.0972,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 283581050.0,
      "step": 387
    },
    {
      "entropy": 0.38592529296875,
      "epoch": 4.217391304347826,
      "grad_norm": 4.583250764084364,
      "learning_rate": 1.1266913931776776e-06,
      "loss": 0.0481,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 284317442.0,
      "step": 388
    },
    {
      "entropy": 0.3984222412109375,
      "epoch": 4.228260869565218,
      "grad_norm": 5.445935322531694,
      "learning_rate": 1.1141916000328152e-06,
      "loss": 0.0638,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 285018593.0,
      "step": 389
    },
    {
      "entropy": 0.3805084228515625,
      "epoch": 4.239130434782608,
      "grad_norm": 6.663252472342893,
      "learning_rate": 1.1017416194706768e-06,
      "loss": 0.0353,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 285750722.0,
      "step": 390
    },
    {
      "entropy": 0.38018798828125,
      "epoch": 4.25,
      "grad_norm": 6.084707350488789,
      "learning_rate": 1.089341899003117e-06,
      "loss": 0.0595,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 286480737.0,
      "step": 391
    },
    {
      "entropy": 0.3816070556640625,
      "epoch": 4.260869565217392,
      "grad_norm": 6.210880045578815,
      "learning_rate": 1.0769928843354016e-06,
      "loss": 0.0522,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 287212069.0,
      "step": 392
    },
    {
      "entropy": 0.379425048828125,
      "epoch": 4.271739130434782,
      "grad_norm": 5.661521485153442,
      "learning_rate": 1.0646950193501871e-06,
      "loss": 0.0517,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 287943901.0,
      "step": 393
    },
    {
      "entropy": 0.39984130859375,
      "epoch": 4.282608695652174,
      "grad_norm": 5.591557202108121,
      "learning_rate": 1.0524487460915675e-06,
      "loss": 0.0416,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 288656541.0,
      "step": 394
    },
    {
      "entropy": 0.40142822265625,
      "epoch": 4.293478260869565,
      "grad_norm": 5.048165107031066,
      "learning_rate": 1.040254504749182e-06,
      "loss": 0.0421,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 289365793.0,
      "step": 395
    },
    {
      "entropy": 0.38134765625,
      "epoch": 4.304347826086957,
      "grad_norm": 4.996500446508621,
      "learning_rate": 1.028112733642393e-06,
      "loss": 0.0401,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 290122511.0,
      "step": 396
    },
    {
      "entropy": 0.3817901611328125,
      "epoch": 4.315217391304348,
      "grad_norm": 3.3915837053998628,
      "learning_rate": 1.0160238692045332e-06,
      "loss": 0.0314,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 290837689.0,
      "step": 397
    },
    {
      "entropy": 0.3774871826171875,
      "epoch": 4.326086956521739,
      "grad_norm": 4.289061601176133,
      "learning_rate": 1.003988345967216e-06,
      "loss": 0.0317,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 291569921.0,
      "step": 398
    },
    {
      "entropy": 0.3726654052734375,
      "epoch": 4.336956521739131,
      "grad_norm": 3.9990747731217833,
      "learning_rate": 9.920065965447167e-07,
      "loss": 0.032,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 292292637.0,
      "step": 399
    },
    {
      "entropy": 0.374267578125,
      "epoch": 4.3478260869565215,
      "grad_norm": 7.629998814553952,
      "learning_rate": 9.800790516184229e-07,
      "loss": 0.0593,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 293013524.0,
      "step": 400
    },
    {
      "entropy": 0.3775634765625,
      "epoch": 4.358695652173913,
      "grad_norm": 7.109841473097264,
      "learning_rate": 9.682061399213525e-07,
      "loss": 0.0426,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 293738418.0,
      "step": 401
    },
    {
      "entropy": 0.3914947509765625,
      "epoch": 4.369565217391305,
      "grad_norm": 7.860793707272442,
      "learning_rate": 9.56388288222744e-07,
      "loss": 0.0399,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 294462507.0,
      "step": 402
    },
    {
      "entropy": 0.36572265625,
      "epoch": 4.380434782608695,
      "grad_norm": 5.460846079314902,
      "learning_rate": 9.446259213127181e-07,
      "loss": 0.0284,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 295213122.0,
      "step": 403
    },
    {
      "entropy": 0.378662109375,
      "epoch": 4.391304347826087,
      "grad_norm": 5.21690940569491,
      "learning_rate": 9.329194619870047e-07,
      "loss": 0.0474,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 295955785.0,
      "step": 404
    },
    {
      "entropy": 0.3979949951171875,
      "epoch": 4.4021739130434785,
      "grad_norm": 3.760754554067246,
      "learning_rate": 9.212693310317481e-07,
      "loss": 0.0381,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 296686141.0,
      "step": 405
    },
    {
      "entropy": 0.3775634765625,
      "epoch": 4.413043478260869,
      "grad_norm": 7.911435670835044,
      "learning_rate": 9.096759472083813e-07,
      "loss": 0.0479,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 297402535.0,
      "step": 406
    },
    {
      "entropy": 0.381439208984375,
      "epoch": 4.423913043478261,
      "grad_norm": 7.605947492956598,
      "learning_rate": 8.981397272385739e-07,
      "loss": 0.0424,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 298141881.0,
      "step": 407
    },
    {
      "entropy": 0.3862457275390625,
      "epoch": 4.434782608695652,
      "grad_norm": 7.864092588989471,
      "learning_rate": 8.86661085789256e-07,
      "loss": 0.0413,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 298886718.0,
      "step": 408
    },
    {
      "entropy": 0.38067626953125,
      "epoch": 4.445652173913043,
      "grad_norm": 4.4958139827604855,
      "learning_rate": 8.752404354577052e-07,
      "loss": 0.0356,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 299646262.0,
      "step": 409
    },
    {
      "entropy": 0.3782958984375,
      "epoch": 4.456521739130435,
      "grad_norm": 2.6124888470582506,
      "learning_rate": 8.638781867567245e-07,
      "loss": 0.0384,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 300388639.0,
      "step": 410
    },
    {
      "entropy": 0.37445068359375,
      "epoch": 4.467391304347826,
      "grad_norm": 7.300475707667012,
      "learning_rate": 8.525747480998812e-07,
      "loss": 0.0454,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 301099196.0,
      "step": 411
    },
    {
      "entropy": 0.367767333984375,
      "epoch": 4.478260869565218,
      "grad_norm": 5.739325718711528,
      "learning_rate": 8.413305257868309e-07,
      "loss": 0.0326,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 301853509.0,
      "step": 412
    },
    {
      "entropy": 0.3911285400390625,
      "epoch": 4.489130434782608,
      "grad_norm": 5.6252941541756805,
      "learning_rate": 8.301459239887075e-07,
      "loss": 0.0344,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 302547819.0,
      "step": 413
    },
    {
      "entropy": 0.3660430908203125,
      "epoch": 4.5,
      "grad_norm": 6.49928614932279,
      "learning_rate": 8.190213447336001e-07,
      "loss": 0.042,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 303298133.0,
      "step": 414
    },
    {
      "entropy": 0.3774261474609375,
      "epoch": 4.510869565217392,
      "grad_norm": 7.871605482186986,
      "learning_rate": 8.079571878921002e-07,
      "loss": 0.0352,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 304028110.0,
      "step": 415
    },
    {
      "entropy": 0.3891754150390625,
      "epoch": 4.521739130434782,
      "grad_norm": 6.743800611794063,
      "learning_rate": 7.969538511629274e-07,
      "loss": 0.0427,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 304738623.0,
      "step": 416
    },
    {
      "entropy": 0.38916015625,
      "epoch": 4.532608695652174,
      "grad_norm": 4.760420843835492,
      "learning_rate": 7.860117300586384e-07,
      "loss": 0.0437,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 305455529.0,
      "step": 417
    },
    {
      "entropy": 0.3660125732421875,
      "epoch": 4.543478260869565,
      "grad_norm": 6.579626644811285,
      "learning_rate": 7.751312178914059e-07,
      "loss": 0.0389,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 306227061.0,
      "step": 418
    },
    {
      "entropy": 0.3847503662109375,
      "epoch": 4.554347826086957,
      "grad_norm": 7.38517568823645,
      "learning_rate": 7.643127057588811e-07,
      "loss": 0.0423,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 306946162.0,
      "step": 419
    },
    {
      "entropy": 0.370361328125,
      "epoch": 4.565217391304348,
      "grad_norm": 11.364608013138966,
      "learning_rate": 7.535565825301391e-07,
      "loss": 0.0498,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 307682683.0,
      "step": 420
    },
    {
      "entropy": 0.38720703125,
      "epoch": 4.576086956521739,
      "grad_norm": 8.226678323974008,
      "learning_rate": 7.428632348317005e-07,
      "loss": 0.061,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 308403966.0,
      "step": 421
    },
    {
      "entropy": 0.3850250244140625,
      "epoch": 4.586956521739131,
      "grad_norm": 5.68962542076413,
      "learning_rate": 7.322330470336314e-07,
      "loss": 0.0397,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 309112733.0,
      "step": 422
    },
    {
      "entropy": 0.384002685546875,
      "epoch": 4.5978260869565215,
      "grad_norm": 5.51803771759637,
      "learning_rate": 7.216664012357292e-07,
      "loss": 0.0523,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 309840224.0,
      "step": 423
    },
    {
      "entropy": 0.38006591796875,
      "epoch": 4.608695652173913,
      "grad_norm": 6.086603440878077,
      "learning_rate": 7.111636772537875e-07,
      "loss": 0.0535,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 310579355.0,
      "step": 424
    },
    {
      "entropy": 0.3850250244140625,
      "epoch": 4.619565217391305,
      "grad_norm": 3.437342501101162,
      "learning_rate": 7.007252526059446e-07,
      "loss": 0.0386,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 311300709.0,
      "step": 425
    },
    {
      "entropy": 0.3757171630859375,
      "epoch": 4.630434782608695,
      "grad_norm": 4.8027185997704605,
      "learning_rate": 6.903515024991142e-07,
      "loss": 0.0301,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 312044887.0,
      "step": 426
    },
    {
      "entropy": 0.3704071044921875,
      "epoch": 4.641304347826087,
      "grad_norm": 4.599459658123272,
      "learning_rate": 6.800427998154968e-07,
      "loss": 0.0385,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 312805804.0,
      "step": 427
    },
    {
      "entropy": 0.3767242431640625,
      "epoch": 4.6521739130434785,
      "grad_norm": 5.32771973874534,
      "learning_rate": 6.697995150991755e-07,
      "loss": 0.031,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 313546303.0,
      "step": 428
    },
    {
      "entropy": 0.3748321533203125,
      "epoch": 4.663043478260869,
      "grad_norm": 3.6758143831615966,
      "learning_rate": 6.596220165428002e-07,
      "loss": 0.0249,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 314287919.0,
      "step": 429
    },
    {
      "entropy": 0.3862152099609375,
      "epoch": 4.673913043478261,
      "grad_norm": 6.272681383981238,
      "learning_rate": 6.495106699743539e-07,
      "loss": 0.0299,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 315036747.0,
      "step": 430
    },
    {
      "entropy": 0.3760986328125,
      "epoch": 4.684782608695652,
      "grad_norm": 3.630730635908784,
      "learning_rate": 6.39465838843997e-07,
      "loss": 0.0342,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 315777121.0,
      "step": 431
    },
    {
      "entropy": 0.4048614501953125,
      "epoch": 4.695652173913043,
      "grad_norm": 8.480427776524593,
      "learning_rate": 6.294878842110091e-07,
      "loss": 0.0494,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 316491657.0,
      "step": 432
    },
    {
      "entropy": 0.39654541015625,
      "epoch": 4.706521739130435,
      "grad_norm": 3.4407268559139577,
      "learning_rate": 6.195771647308075e-07,
      "loss": 0.0193,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 317203117.0,
      "step": 433
    },
    {
      "entropy": 0.3867950439453125,
      "epoch": 4.717391304347826,
      "grad_norm": 3.248357853484041,
      "learning_rate": 6.097340366420562e-07,
      "loss": 0.0143,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 317932939.0,
      "step": 434
    },
    {
      "entropy": 0.37439727783203125,
      "epoch": 4.728260869565218,
      "grad_norm": 4.477221933717104,
      "learning_rate": 5.999588537538639e-07,
      "loss": 0.0218,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 318655131.0,
      "step": 435
    },
    {
      "entropy": 0.37628173828125,
      "epoch": 4.739130434782608,
      "grad_norm": 6.060150390946897,
      "learning_rate": 5.902519674330607e-07,
      "loss": 0.0481,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 319425916.0,
      "step": 436
    },
    {
      "entropy": 0.3719482421875,
      "epoch": 4.75,
      "grad_norm": 5.72356328501604,
      "learning_rate": 5.806137265915731e-07,
      "loss": 0.0285,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 320188164.0,
      "step": 437
    },
    {
      "entropy": 0.3760986328125,
      "epoch": 4.760869565217392,
      "grad_norm": 8.19296462388628,
      "learning_rate": 5.710444776738789e-07,
      "loss": 0.0333,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 320945078.0,
      "step": 438
    },
    {
      "entropy": 0.372772216796875,
      "epoch": 4.771739130434782,
      "grad_norm": 5.362656553586082,
      "learning_rate": 5.615445646445586e-07,
      "loss": 0.0361,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 321667110.0,
      "step": 439
    },
    {
      "entropy": 0.388885498046875,
      "epoch": 4.782608695652174,
      "grad_norm": 9.345055769503444,
      "learning_rate": 5.521143289759278e-07,
      "loss": 0.0158,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 322368132.0,
      "step": 440
    },
    {
      "entropy": 0.3825836181640625,
      "epoch": 4.793478260869565,
      "grad_norm": 6.391527171289805,
      "learning_rate": 5.427541096357647e-07,
      "loss": 0.0322,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 323081138.0,
      "step": 441
    },
    {
      "entropy": 0.364013671875,
      "epoch": 4.804347826086957,
      "grad_norm": 7.694770025095045,
      "learning_rate": 5.334642430751258e-07,
      "loss": 0.0297,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 323834782.0,
      "step": 442
    },
    {
      "entropy": 0.3699493408203125,
      "epoch": 4.815217391304348,
      "grad_norm": 6.544161577852223,
      "learning_rate": 5.242450632162513e-07,
      "loss": 0.0256,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 324572560.0,
      "step": 443
    },
    {
      "entropy": 0.37296295166015625,
      "epoch": 4.826086956521739,
      "grad_norm": 9.65133857590456,
      "learning_rate": 5.150969014405652e-07,
      "loss": 0.0485,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 325333579.0,
      "step": 444
    },
    {
      "entropy": 0.3911590576171875,
      "epoch": 4.836956521739131,
      "grad_norm": 8.969959955785471,
      "learning_rate": 5.060200865767606e-07,
      "loss": 0.0405,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 326043919.0,
      "step": 445
    },
    {
      "entropy": 0.378997802734375,
      "epoch": 4.8478260869565215,
      "grad_norm": 7.354771647897105,
      "learning_rate": 4.970149448889807e-07,
      "loss": 0.0508,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 326778355.0,
      "step": 446
    },
    {
      "entropy": 0.3750762939453125,
      "epoch": 4.858695652173913,
      "grad_norm": 6.58976833543129,
      "learning_rate": 4.880818000650936e-07,
      "loss": 0.0543,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 327526403.0,
      "step": 447
    },
    {
      "entropy": 0.3727874755859375,
      "epoch": 4.869565217391305,
      "grad_norm": 19.808833657341232,
      "learning_rate": 4.79220973205054e-07,
      "loss": 0.0294,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 328261381.0,
      "step": 448
    },
    {
      "entropy": 0.3670806884765625,
      "epoch": 4.880434782608695,
      "grad_norm": 5.7215994244551815,
      "learning_rate": 4.704327828093641e-07,
      "loss": 0.0215,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 328976161.0,
      "step": 449
    },
    {
      "entropy": 0.3717041015625,
      "epoch": 4.891304347826087,
      "grad_norm": 10.165203906032293,
      "learning_rate": 4.6171754476762395e-07,
      "loss": 0.0559,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 329743013.0,
      "step": 450
    },
    {
      "entropy": 0.392578125,
      "epoch": 4.9021739130434785,
      "grad_norm": 3.593480393163112,
      "learning_rate": 4.5307557234717663e-07,
      "loss": 0.0186,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 330461831.0,
      "step": 451
    },
    {
      "entropy": 0.3812255859375,
      "epoch": 4.913043478260869,
      "grad_norm": 4.695439916097243,
      "learning_rate": 4.445071761818484e-07,
      "loss": 0.0303,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 331179069.0,
      "step": 452
    },
    {
      "entropy": 0.370208740234375,
      "epoch": 4.923913043478261,
      "grad_norm": 6.883426813688249,
      "learning_rate": 4.3601266426078427e-07,
      "loss": 0.0333,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 331906230.0,
      "step": 453
    },
    {
      "entropy": 0.3802947998046875,
      "epoch": 4.934782608695652,
      "grad_norm": 5.400854748722967,
      "learning_rate": 4.2759234191737443e-07,
      "loss": 0.0316,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 332636933.0,
      "step": 454
    },
    {
      "entropy": 0.3697662353515625,
      "epoch": 4.945652173913043,
      "grad_norm": 5.213912870156649,
      "learning_rate": 4.1924651181828147e-07,
      "loss": 0.0281,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 333371219.0,
      "step": 455
    },
    {
      "entropy": 0.3785552978515625,
      "epoch": 4.956521739130435,
      "grad_norm": 4.143268657564966,
      "learning_rate": 4.109754739525601e-07,
      "loss": 0.0147,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 334098665.0,
      "step": 456
    },
    {
      "entropy": 0.36968994140625,
      "epoch": 4.967391304347826,
      "grad_norm": 3.122518665467233,
      "learning_rate": 4.0277952562087497e-07,
      "loss": 0.0206,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 334840357.0,
      "step": 457
    },
    {
      "entropy": 0.3862762451171875,
      "epoch": 4.978260869565218,
      "grad_norm": 7.373744837587512,
      "learning_rate": 3.946589614248131e-07,
      "loss": 0.0273,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 335587828.0,
      "step": 458
    },
    {
      "entropy": 0.3758392333984375,
      "epoch": 4.989130434782608,
      "grad_norm": 6.3544448755825576,
      "learning_rate": 3.8661407325629533e-07,
      "loss": 0.0206,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 336312631.0,
      "step": 459
    },
    {
      "entropy": 0.377777099609375,
      "epoch": 5.0,
      "grad_norm": 6.686174712470053,
      "learning_rate": 3.7864515028708445e-07,
      "loss": 0.0649,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 337051194.0,
      "step": 460
    },
    {
      "entropy": 0.3785247802734375,
      "epoch": 5.010869565217392,
      "grad_norm": 5.127036800539253,
      "learning_rate": 3.7075247895838914e-07,
      "loss": 0.0236,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 337793611.0,
      "step": 461
    },
    {
      "entropy": 0.3667144775390625,
      "epoch": 5.021739130434782,
      "grad_norm": 4.035675341817557,
      "learning_rate": 3.6293634297057176e-07,
      "loss": 0.0185,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 338527325.0,
      "step": 462
    },
    {
      "entropy": 0.378143310546875,
      "epoch": 5.032608695652174,
      "grad_norm": 3.3205714747985646,
      "learning_rate": 3.551970232729468e-07,
      "loss": 0.0097,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 339239042.0,
      "step": 463
    },
    {
      "entropy": 0.3852691650390625,
      "epoch": 5.043478260869565,
      "grad_norm": 4.247243091067865,
      "learning_rate": 3.475347980536842e-07,
      "loss": 0.0127,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 339964458.0,
      "step": 464
    },
    {
      "entropy": 0.371002197265625,
      "epoch": 5.054347826086956,
      "grad_norm": 2.2922950763770493,
      "learning_rate": 3.399499427298095e-07,
      "loss": 0.015,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 340698542.0,
      "step": 465
    },
    {
      "entropy": 0.375701904296875,
      "epoch": 5.065217391304348,
      "grad_norm": 3.7370274185298884,
      "learning_rate": 3.32442729937304e-07,
      "loss": 0.0118,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 341441821.0,
      "step": 466
    },
    {
      "entropy": 0.3763885498046875,
      "epoch": 5.076086956521739,
      "grad_norm": 4.019636391525289,
      "learning_rate": 3.2501342952130534e-07,
      "loss": 0.03,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 342182785.0,
      "step": 467
    },
    {
      "entropy": 0.367645263671875,
      "epoch": 5.086956521739131,
      "grad_norm": 4.795408146130876,
      "learning_rate": 3.1766230852640743e-07,
      "loss": 0.0269,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 342913563.0,
      "step": 468
    },
    {
      "entropy": 0.37298583984375,
      "epoch": 5.0978260869565215,
      "grad_norm": 1.5688769129074143,
      "learning_rate": 3.1038963118706246e-07,
      "loss": 0.0146,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 343644150.0,
      "step": 469
    },
    {
      "entropy": 0.3796844482421875,
      "epoch": 5.108695652173913,
      "grad_norm": 1.6917947530194153,
      "learning_rate": 3.031956589180807e-07,
      "loss": 0.0068,
      "mean_token_accuracy": 1.0,
      "num_tokens": 344386601.0,
      "step": 470
    },
    {
      "entropy": 0.3803558349609375,
      "epoch": 5.119565217391305,
      "grad_norm": 1.862802612596549,
      "learning_rate": 2.9608065030523824e-07,
      "loss": 0.007,
      "mean_token_accuracy": 1.0,
      "num_tokens": 345118883.0,
      "step": 471
    },
    {
      "entropy": 0.368377685546875,
      "epoch": 5.130434782608695,
      "grad_norm": 1.139375860971462,
      "learning_rate": 2.8904486109597757e-07,
      "loss": 0.0167,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 345867784.0,
      "step": 472
    },
    {
      "entropy": 0.363433837890625,
      "epoch": 5.141304347826087,
      "grad_norm": 6.942227527478803,
      "learning_rate": 2.8208854419021826e-07,
      "loss": 0.0357,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 346637121.0,
      "step": 473
    },
    {
      "entropy": 0.38062286376953125,
      "epoch": 5.1521739130434785,
      "grad_norm": 4.335503419548239,
      "learning_rate": 2.7521194963126387e-07,
      "loss": 0.025,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 347359602.0,
      "step": 474
    },
    {
      "entropy": 0.371612548828125,
      "epoch": 5.163043478260869,
      "grad_norm": 3.9399443935177225,
      "learning_rate": 2.684153245968163e-07,
      "loss": 0.0131,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 348109041.0,
      "step": 475
    },
    {
      "entropy": 0.3864898681640625,
      "epoch": 5.173913043478261,
      "grad_norm": 2.3952613835217367,
      "learning_rate": 2.616989133900899e-07,
      "loss": 0.0146,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 348838865.0,
      "step": 476
    },
    {
      "entropy": 0.3682098388671875,
      "epoch": 5.184782608695652,
      "grad_norm": 3.7068807253775096,
      "learning_rate": 2.550629574310309e-07,
      "loss": 0.0326,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 349590549.0,
      "step": 477
    },
    {
      "entropy": 0.3753204345703125,
      "epoch": 5.195652173913044,
      "grad_norm": 3.787963896258708,
      "learning_rate": 2.485076952476384e-07,
      "loss": 0.0144,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 350320409.0,
      "step": 478
    },
    {
      "entropy": 0.36794281005859375,
      "epoch": 5.206521739130435,
      "grad_norm": 1.0009742267108104,
      "learning_rate": 2.420333624673912e-07,
      "loss": 0.017,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 351063162.0,
      "step": 479
    },
    {
      "entropy": 0.3667449951171875,
      "epoch": 5.217391304347826,
      "grad_norm": 3.614556012044958,
      "learning_rate": 2.3564019180877918e-07,
      "loss": 0.05,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 351815664.0,
      "step": 480
    },
    {
      "entropy": 0.3610992431640625,
      "epoch": 5.228260869565218,
      "grad_norm": 5.446756544627854,
      "learning_rate": 2.2932841307293646e-07,
      "loss": 0.0284,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 352584415.0,
      "step": 481
    },
    {
      "entropy": 0.3705291748046875,
      "epoch": 5.239130434782608,
      "grad_norm": 1.140537964294587,
      "learning_rate": 2.230982531353823e-07,
      "loss": 0.0151,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 353315713.0,
      "step": 482
    },
    {
      "entropy": 0.379425048828125,
      "epoch": 5.25,
      "grad_norm": 3.0451456369118017,
      "learning_rate": 2.1694993593786574e-07,
      "loss": 0.0194,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 354064332.0,
      "step": 483
    },
    {
      "entropy": 0.373809814453125,
      "epoch": 5.260869565217392,
      "grad_norm": 3.8197569733725363,
      "learning_rate": 2.1088368248031703e-07,
      "loss": 0.0106,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 354798241.0,
      "step": 484
    },
    {
      "entropy": 0.386749267578125,
      "epoch": 5.271739130434782,
      "grad_norm": 2.8692151593765622,
      "learning_rate": 2.0489971081290194e-07,
      "loss": 0.0167,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 355539181.0,
      "step": 485
    },
    {
      "entropy": 0.3775787353515625,
      "epoch": 5.282608695652174,
      "grad_norm": 3.8370838973272083,
      "learning_rate": 1.989982360281864e-07,
      "loss": 0.0172,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 356250518.0,
      "step": 486
    },
    {
      "entropy": 0.3758087158203125,
      "epoch": 5.293478260869565,
      "grad_norm": 5.696750605713671,
      "learning_rate": 1.9317947025340234e-07,
      "loss": 0.0097,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 356999661.0,
      "step": 487
    },
    {
      "entropy": 0.3831329345703125,
      "epoch": 5.304347826086957,
      "grad_norm": 9.130996151645178,
      "learning_rate": 1.874436226428253e-07,
      "loss": 0.0241,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 357744194.0,
      "step": 488
    },
    {
      "entropy": 0.3705291748046875,
      "epoch": 5.315217391304348,
      "grad_norm": 5.347208205708303,
      "learning_rate": 1.817908993702555e-07,
      "loss": 0.0213,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 358456409.0,
      "step": 489
    },
    {
      "entropy": 0.3646240234375,
      "epoch": 5.326086956521739,
      "grad_norm": 4.493524443087298,
      "learning_rate": 1.7622150362160585e-07,
      "loss": 0.0186,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 359230574.0,
      "step": 490
    },
    {
      "entropy": 0.3732757568359375,
      "epoch": 5.336956521739131,
      "grad_norm": 5.3138965316657885,
      "learning_rate": 1.7073563558760055e-07,
      "loss": 0.0081,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 359970054.0,
      "step": 491
    },
    {
      "entropy": 0.3921661376953125,
      "epoch": 5.3478260869565215,
      "grad_norm": 6.218759707611456,
      "learning_rate": 1.653334924565772e-07,
      "loss": 0.0403,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 360662189.0,
      "step": 492
    },
    {
      "entropy": 0.3734130859375,
      "epoch": 5.358695652173913,
      "grad_norm": 9.782901302484328,
      "learning_rate": 1.600152684074005e-07,
      "loss": 0.0336,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 361365790.0,
      "step": 493
    },
    {
      "entropy": 0.36712646484375,
      "epoch": 5.369565217391305,
      "grad_norm": 4.831936027219829,
      "learning_rate": 1.547811546024816e-07,
      "loss": 0.0101,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 362110461.0,
      "step": 494
    },
    {
      "entropy": 0.3672332763671875,
      "epoch": 5.380434782608695,
      "grad_norm": 4.471201963532504,
      "learning_rate": 1.496313391809076e-07,
      "loss": 0.0289,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 362859225.0,
      "step": 495
    },
    {
      "entropy": 0.377105712890625,
      "epoch": 5.391304347826087,
      "grad_norm": 6.190191205851537,
      "learning_rate": 1.445660072516783e-07,
      "loss": 0.0272,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 363582577.0,
      "step": 496
    },
    {
      "entropy": 0.3760833740234375,
      "epoch": 5.4021739130434785,
      "grad_norm": 3.222860653811666,
      "learning_rate": 1.3958534088705206e-07,
      "loss": 0.0074,
      "mean_token_accuracy": 1.0,
      "num_tokens": 364314328.0,
      "step": 497
    },
    {
      "entropy": 0.361968994140625,
      "epoch": 5.413043478260869,
      "grad_norm": 3.6775745322609485,
      "learning_rate": 1.3468951911600275e-07,
      "loss": 0.0232,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 365050621.0,
      "step": 498
    },
    {
      "entropy": 0.378387451171875,
      "epoch": 5.423913043478261,
      "grad_norm": 2.80053356523673,
      "learning_rate": 1.298787179177835e-07,
      "loss": 0.0278,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 365762950.0,
      "step": 499
    },
    {
      "entropy": 0.367645263671875,
      "epoch": 5.434782608695652,
      "grad_norm": 3.470268377136215,
      "learning_rate": 1.2515311021560118e-07,
      "loss": 0.013,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 366523187.0,
      "step": 500
    },
    {
      "entropy": 0.3686676025390625,
      "epoch": 5.445652173913043,
      "grad_norm": 5.1956830706026045,
      "learning_rate": 1.205128658704005e-07,
      "loss": 0.0242,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 367248418.0,
      "step": 501
    },
    {
      "entropy": 0.3805084228515625,
      "epoch": 5.456521739130435,
      "grad_norm": 3.526615886659297,
      "learning_rate": 1.159581516747596e-07,
      "loss": 0.0095,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 367959364.0,
      "step": 502
    },
    {
      "entropy": 0.3662261962890625,
      "epoch": 5.467391304347826,
      "grad_norm": 1.2444291400096967,
      "learning_rate": 1.1148913134689326e-07,
      "loss": 0.0167,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 368698084.0,
      "step": 503
    },
    {
      "entropy": 0.38079833984375,
      "epoch": 5.478260869565218,
      "grad_norm": 4.834911466496846,
      "learning_rate": 1.0710596552476915e-07,
      "loss": 0.009,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 369437773.0,
      "step": 504
    },
    {
      "entropy": 0.37017822265625,
      "epoch": 5.489130434782608,
      "grad_norm": 6.244820060466591,
      "learning_rate": 1.0280881176033319e-07,
      "loss": 0.0249,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 370172959.0,
      "step": 505
    },
    {
      "entropy": 0.3790435791015625,
      "epoch": 5.5,
      "grad_norm": 4.304722276951579,
      "learning_rate": 9.859782451384636e-08,
      "loss": 0.0184,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 370911567.0,
      "step": 506
    },
    {
      "entropy": 0.398773193359375,
      "epoch": 5.510869565217392,
      "grad_norm": 4.623987880629705,
      "learning_rate": 9.447315514833356e-08,
      "loss": 0.0094,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 371605585.0,
      "step": 507
    },
    {
      "entropy": 0.39215087890625,
      "epoch": 5.521739130434782,
      "grad_norm": 2.6821390842791475,
      "learning_rate": 9.043495192414097e-08,
      "loss": 0.0207,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 372299696.0,
      "step": 508
    },
    {
      "entropy": 0.36907958984375,
      "epoch": 5.532608695652174,
      "grad_norm": 6.9109218817692675,
      "learning_rate": 8.648335999360935e-08,
      "loss": 0.0299,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 373034212.0,
      "step": 509
    },
    {
      "entropy": 0.373565673828125,
      "epoch": 5.543478260869565,
      "grad_norm": 1.197337776270463,
      "learning_rate": 8.261852139585386e-08,
      "loss": 0.0139,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 373767768.0,
      "step": 510
    },
    {
      "entropy": 0.37030029296875,
      "epoch": 5.554347826086957,
      "grad_norm": 4.071302573659214,
      "learning_rate": 7.884057505166103e-08,
      "loss": 0.0133,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 374534404.0,
      "step": 511
    },
    {
      "entropy": 0.3767852783203125,
      "epoch": 5.565217391304348,
      "grad_norm": 2.751048777904971,
      "learning_rate": 7.514965675849362e-08,
      "loss": 0.0118,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 375257436.0,
      "step": 512
    },
    {
      "entropy": 0.380401611328125,
      "epoch": 5.576086956521739,
      "grad_norm": 5.33000116999201,
      "learning_rate": 7.154589918561023e-08,
      "loss": 0.0148,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 375972319.0,
      "step": 513
    },
    {
      "entropy": 0.3785552978515625,
      "epoch": 5.586956521739131,
      "grad_norm": 1.1771272071084544,
      "learning_rate": 6.802943186929617e-08,
      "loss": 0.0287,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 376701929.0,
      "step": 514
    },
    {
      "entropy": 0.3926239013671875,
      "epoch": 5.5978260869565215,
      "grad_norm": 5.305796234754468,
      "learning_rate": 6.460038120820688e-08,
      "loss": 0.0275,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 377416499.0,
      "step": 515
    },
    {
      "entropy": 0.367767333984375,
      "epoch": 5.608695652173913,
      "grad_norm": 10.772263300234005,
      "learning_rate": 6.1258870458826e-08,
      "loss": 0.0192,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 378151819.0,
      "step": 516
    },
    {
      "entropy": 0.3921966552734375,
      "epoch": 5.619565217391305,
      "grad_norm": 1.4019493456902041,
      "learning_rate": 5.8005019731033617e-08,
      "loss": 0.016,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 378870635.0,
      "step": 517
    },
    {
      "entropy": 0.37044525146484375,
      "epoch": 5.630434782608695,
      "grad_norm": 7.645873668860417,
      "learning_rate": 5.4838945983789194e-08,
      "loss": 0.0287,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 379613235.0,
      "step": 518
    },
    {
      "entropy": 0.36968994140625,
      "epoch": 5.641304347826087,
      "grad_norm": 1.5380164733385269,
      "learning_rate": 5.1760763020927143e-08,
      "loss": 0.018,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 380331871.0,
      "step": 519
    },
    {
      "entropy": 0.369873046875,
      "epoch": 5.6521739130434785,
      "grad_norm": 20.936216781867728,
      "learning_rate": 4.877058148706787e-08,
      "loss": 0.0278,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 381075840.0,
      "step": 520
    },
    {
      "entropy": 0.36053466796875,
      "epoch": 5.663043478260869,
      "grad_norm": 3.8339675681752077,
      "learning_rate": 4.586850886363875e-08,
      "loss": 0.0186,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 381844276.0,
      "step": 521
    },
    {
      "entropy": 0.377410888671875,
      "epoch": 5.673913043478261,
      "grad_norm": 13.361494257590554,
      "learning_rate": 4.305464946501137e-08,
      "loss": 0.0223,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 382580967.0,
      "step": 522
    },
    {
      "entropy": 0.37903594970703125,
      "epoch": 5.684782608695652,
      "grad_norm": 1.19383413613819,
      "learning_rate": 4.032910443475202e-08,
      "loss": 0.0052,
      "mean_token_accuracy": 1.0,
      "num_tokens": 383323161.0,
      "step": 523
    },
    {
      "entropy": 0.3851165771484375,
      "epoch": 5.695652173913043,
      "grad_norm": 15.398305079856536,
      "learning_rate": 3.769197174198658e-08,
      "loss": 0.0276,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 384046832.0,
      "step": 524
    },
    {
      "entropy": 0.3723602294921875,
      "epoch": 5.706521739130435,
      "grad_norm": 1.3974593413645549,
      "learning_rate": 3.514334617787857e-08,
      "loss": 0.0162,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 384785911.0,
      "step": 525
    },
    {
      "entropy": 0.3810577392578125,
      "epoch": 5.717391304347826,
      "grad_norm": 5.4816344675794,
      "learning_rate": 3.268331935222191e-08,
      "loss": 0.0265,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 385520098.0,
      "step": 526
    },
    {
      "entropy": 0.3892059326171875,
      "epoch": 5.728260869565218,
      "grad_norm": 3.095750507325576,
      "learning_rate": 3.031197969014743e-08,
      "loss": 0.0201,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 386225764.0,
      "step": 527
    },
    {
      "entropy": 0.3793182373046875,
      "epoch": 5.739130434782608,
      "grad_norm": 1.1796065254973818,
      "learning_rate": 2.802941242894569e-08,
      "loss": 0.0049,
      "mean_token_accuracy": 1.0,
      "num_tokens": 386914432.0,
      "step": 528
    },
    {
      "entropy": 0.3787841796875,
      "epoch": 5.75,
      "grad_norm": 1.2771314438228154,
      "learning_rate": 2.5835699615002764e-08,
      "loss": 0.0048,
      "mean_token_accuracy": 1.0,
      "num_tokens": 387645408.0,
      "step": 529
    },
    {
      "entropy": 0.3675384521484375,
      "epoch": 5.760869565217392,
      "grad_norm": 6.330519690535689,
      "learning_rate": 2.3730920100850095e-08,
      "loss": 0.0116,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 388357543.0,
      "step": 530
    },
    {
      "entropy": 0.380340576171875,
      "epoch": 5.771739130434782,
      "grad_norm": 4.734152575582377,
      "learning_rate": 2.1715149542331503e-08,
      "loss": 0.0157,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 389093956.0,
      "step": 531
    },
    {
      "entropy": 0.37005615234375,
      "epoch": 5.782608695652174,
      "grad_norm": 1.33684214659071,
      "learning_rate": 1.9788460395883115e-08,
      "loss": 0.0159,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 389835614.0,
      "step": 532
    },
    {
      "entropy": 0.3731842041015625,
      "epoch": 5.793478260869565,
      "grad_norm": 5.147747211724481,
      "learning_rate": 1.795092191592879e-08,
      "loss": 0.0099,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 390566729.0,
      "step": 533
    },
    {
      "entropy": 0.3618316650390625,
      "epoch": 5.804347826086957,
      "grad_norm": 9.462001242372828,
      "learning_rate": 1.620260015239128e-08,
      "loss": 0.032,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 391330756.0,
      "step": 534
    },
    {
      "entropy": 0.374908447265625,
      "epoch": 5.815217391304348,
      "grad_norm": 1.2048366200406802,
      "learning_rate": 1.4543557948317743e-08,
      "loss": 0.016,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 392061193.0,
      "step": 535
    },
    {
      "entropy": 0.371063232421875,
      "epoch": 5.826086956521739,
      "grad_norm": 5.591500472770562,
      "learning_rate": 1.2973854937620433e-08,
      "loss": 0.0144,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 392797239.0,
      "step": 536
    },
    {
      "entropy": 0.3620452880859375,
      "epoch": 5.836956521739131,
      "grad_norm": 5.598785417194497,
      "learning_rate": 1.149354754293397e-08,
      "loss": 0.0156,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 393551768.0,
      "step": 537
    },
    {
      "entropy": 0.3774871826171875,
      "epoch": 5.8478260869565215,
      "grad_norm": 7.873152126583765,
      "learning_rate": 1.0102688973587238e-08,
      "loss": 0.0285,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 394268274.0,
      "step": 538
    },
    {
      "entropy": 0.3648834228515625,
      "epoch": 5.858695652173913,
      "grad_norm": 3.1789938959335253,
      "learning_rate": 8.80132922369048e-09,
      "loss": 0.0079,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 395007910.0,
      "step": 539
    },
    {
      "entropy": 0.385833740234375,
      "epoch": 5.869565217391305,
      "grad_norm": 2.6785155137317993,
      "learning_rate": 7.589515070337561e-09,
      "loss": 0.0229,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 395737042.0,
      "step": 540
    },
    {
      "entropy": 0.3609161376953125,
      "epoch": 5.880434782608695,
      "grad_norm": 1.1128186491473229,
      "learning_rate": 6.467290071925647e-09,
      "loss": 0.0155,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 396489808.0,
      "step": 541
    },
    {
      "entropy": 0.3814239501953125,
      "epoch": 5.891304347826087,
      "grad_norm": 11.628896334138837,
      "learning_rate": 5.4346945665892385e-09,
      "loss": 0.0281,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 397216049.0,
      "step": 542
    },
    {
      "entropy": 0.3866424560546875,
      "epoch": 5.9021739130434785,
      "grad_norm": 1.5833307571382729,
      "learning_rate": 4.491765670750492e-09,
      "loss": 0.0045,
      "mean_token_accuracy": 1.0,
      "num_tokens": 397935821.0,
      "step": 543
    },
    {
      "entropy": 0.38063812255859375,
      "epoch": 5.913043478260869,
      "grad_norm": 1.9257163250214753,
      "learning_rate": 3.6385372777839046e-09,
      "loss": 0.0151,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 398660420.0,
      "step": 544
    },
    {
      "entropy": 0.3614501953125,
      "epoch": 5.923913043478261,
      "grad_norm": 3.102398772646879,
      "learning_rate": 2.8750400567992274e-09,
      "loss": 0.0153,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 399411884.0,
      "step": 545
    },
    {
      "entropy": 0.37786102294921875,
      "epoch": 5.934782608695652,
      "grad_norm": 5.114789168936613,
      "learning_rate": 2.20130145153874e-09,
      "loss": 0.0304,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 400163283.0,
      "step": 546
    },
    {
      "entropy": 0.366943359375,
      "epoch": 5.945652173913043,
      "grad_norm": 7.762532426203621,
      "learning_rate": 1.6173456793908137e-09,
      "loss": 0.0273,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 400917589.0,
      "step": 547
    },
    {
      "entropy": 0.36713409423828125,
      "epoch": 5.956521739130435,
      "grad_norm": 5.6008587416157125,
      "learning_rate": 1.1231937305189456e-09,
      "loss": 0.0211,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 401657322.0,
      "step": 548
    },
    {
      "entropy": 0.3646392822265625,
      "epoch": 5.967391304347826,
      "grad_norm": 1.0873559012962295,
      "learning_rate": 7.188633671079137e-10,
      "loss": 0.0197,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 402419924.0,
      "step": 549
    },
    {
      "entropy": 0.38031768798828125,
      "epoch": 5.978260869565218,
      "grad_norm": 1.8644624605304743,
      "learning_rate": 4.043691227251234e-10,
      "loss": 0.0069,
      "mean_token_accuracy": 1.0,
      "num_tokens": 403131827.0,
      "step": 550
    },
    {
      "entropy": 0.39080810546875,
      "epoch": 5.989130434782608,
      "grad_norm": 2.7993747517323353,
      "learning_rate": 1.7972230179824636e-10,
      "loss": 0.0272,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 403837845.0,
      "step": 551
    },
    {
      "entropy": 0.36260223388671875,
      "epoch": 6.0,
      "grad_norm": 3.7855769289306065,
      "learning_rate": 4.4930979208046564e-11,
      "loss": 0.0089,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 404574499.0,
      "step": 552
    },
    {
      "epoch": 6.0,
      "step": 552,
      "total_flos": 476005550456832.0,
      "train_loss": 0.5980352387962646,
      "train_runtime": 50388.4536,
      "train_samples_per_second": 2.218,
      "train_steps_per_second": 0.011
    }
  ],
  "logging_steps": 1,
  "max_steps": 552,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 6,
  "save_steps": 46,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 476005550456832.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}