PS_only_answer_Qwen3-4B-Bas…/trainer_state.json

{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 6.0,
  "eval_steps": 500,
  "global_step": 552,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 0.412384033203125,
      "epoch": 0.010869565217391304,
      "grad_norm": 311.7725542169183,
      "learning_rate": 0.0,
      "loss": 8.9702,
      "mean_token_accuracy": 0.0,
      "num_tokens": 726143.0,
      "step": 1
    },
    {
      "entropy": 0.41571044921875,
      "epoch": 0.021739130434782608,
      "grad_norm": 315.4260603948831,
      "learning_rate": 3.5714285714285716e-07,
      "loss": 8.9438,
      "mean_token_accuracy": 0.0,
      "num_tokens": 1445728.0,
      "step": 2
    },
    {
      "entropy": 0.409820556640625,
      "epoch": 0.03260869565217391,
      "grad_norm": 312.76060742146115,
      "learning_rate": 7.142857142857143e-07,
      "loss": 8.9563,
      "mean_token_accuracy": 0.0,
      "num_tokens": 2188399.0,
      "step": 3
    },
    {
      "entropy": 0.3968658447265625,
      "epoch": 0.043478260869565216,
      "grad_norm": 322.6481935365132,
      "learning_rate": 1.0714285714285714e-06,
      "loss": 8.7515,
      "mean_token_accuracy": 0.0,
      "num_tokens": 2920910.0,
      "step": 4
    },
    {
      "entropy": 0.400482177734375,
      "epoch": 0.05434782608695652,
      "grad_norm": 341.8994715743894,
      "learning_rate": 1.4285714285714286e-06,
      "loss": 8.3126,
      "mean_token_accuracy": 0.0,
      "num_tokens": 3642400.0,
      "step": 5
    },
    {
      "entropy": 0.40633392333984375,
      "epoch": 0.06521739130434782,
      "grad_norm": 342.6069591082039,
      "learning_rate": 1.7857142857142859e-06,
      "loss": 8.1187,
      "mean_token_accuracy": 0.0,
      "num_tokens": 4367416.0,
      "step": 6
    },
    {
      "entropy": 0.413543701171875,
      "epoch": 0.07608695652173914,
      "grad_norm": 304.18993504766723,
      "learning_rate": 2.1428571428571427e-06,
      "loss": 6.1979,
      "mean_token_accuracy": 0.02343750069849193,
      "num_tokens": 5072024.0,
      "step": 7
    },
    {
      "entropy": 0.41204833984375,
      "epoch": 0.08695652173913043,
      "grad_norm": 222.54764726148275,
      "learning_rate": 2.5e-06,
      "loss": 5.495,
      "mean_token_accuracy": 0.07812500232830644,
      "num_tokens": 5824293.0,
      "step": 8
    },
    {
      "entropy": 0.396942138671875,
      "epoch": 0.09782608695652174,
      "grad_norm": 97.59108616884083,
      "learning_rate": 2.8571428571428573e-06,
      "loss": 4.2106,
      "mean_token_accuracy": 0.5026041816454381,
      "num_tokens": 6563117.0,
      "step": 9
    },
    {
      "entropy": 0.4151611328125,
      "epoch": 0.10869565217391304,
      "grad_norm": 85.49701985676649,
      "learning_rate": 3.2142857142857147e-06,
      "loss": 3.9986,
      "mean_token_accuracy": 0.5182291821110994,
      "num_tokens": 7280078.0,
      "step": 10
    },
    {
      "entropy": 0.3965911865234375,
      "epoch": 0.11956521739130435,
      "grad_norm": 75.3238563523619,
      "learning_rate": 3.5714285714285718e-06,
      "loss": 3.3855,
      "mean_token_accuracy": 0.5026041816454381,
      "num_tokens": 8023266.0,
      "step": 11
    },
    {
      "entropy": 0.406005859375,
      "epoch": 0.13043478260869565,
      "grad_norm": 61.98617573045517,
      "learning_rate": 3.928571428571429e-06,
      "loss": 3.3138,
      "mean_token_accuracy": 0.5156250153668225,
      "num_tokens": 8768888.0,
      "step": 12
    },
    {
      "entropy": 0.40728759765625,
      "epoch": 0.14130434782608695,
      "grad_norm": 57.75262488928828,
      "learning_rate": 4.2857142857142855e-06,
      "loss": 3.2361,
      "mean_token_accuracy": 0.5026041816454381,
      "num_tokens": 9498511.0,
      "step": 13
    },
    {
      "entropy": 0.394775390625,
      "epoch": 0.15217391304347827,
      "grad_norm": 56.875054224877836,
      "learning_rate": 4.642857142857144e-06,
      "loss": 3.1566,
      "mean_token_accuracy": 0.5338541825767606,
      "num_tokens": 10254078.0,
      "step": 14
    },
    {
      "entropy": 0.4022979736328125,
      "epoch": 0.16304347826086957,
      "grad_norm": 62.2102740379601,
      "learning_rate": 5e-06,
      "loss": 3.0277,
      "mean_token_accuracy": 0.5104166818782687,
      "num_tokens": 10971108.0,
      "step": 15
    },
    {
      "entropy": 0.421295166015625,
      "epoch": 0.17391304347826086,
      "grad_norm": 55.73740556587177,
      "learning_rate": 5.357142857142857e-06,
      "loss": 2.9476,
      "mean_token_accuracy": 0.5338541825767606,
      "num_tokens": 11694957.0,
      "step": 16
    },
    {
      "entropy": 0.4071807861328125,
      "epoch": 0.18478260869565216,
      "grad_norm": 56.79512101290158,
      "learning_rate": 5.7142857142857145e-06,
      "loss": 2.9402,
      "mean_token_accuracy": 0.5026041816454381,
      "num_tokens": 12420063.0,
      "step": 17
    },
    {
      "entropy": 0.414947509765625,
      "epoch": 0.1956521739130435,
      "grad_norm": 56.18600363430139,
      "learning_rate": 6.071428571428571e-06,
      "loss": 2.9001,
      "mean_token_accuracy": 0.5156250153668225,
      "num_tokens": 13149002.0,
      "step": 18
    },
    {
      "entropy": 0.3991546630859375,
      "epoch": 0.20652173913043478,
      "grad_norm": 55.23722490422725,
      "learning_rate": 6.4285714285714295e-06,
      "loss": 2.8646,
      "mean_token_accuracy": 0.5312500158324838,
      "num_tokens": 13877346.0,
      "step": 19
    },
    {
      "entropy": 0.4093017578125,
      "epoch": 0.21739130434782608,
      "grad_norm": 55.67124485729934,
      "learning_rate": 6.785714285714287e-06,
      "loss": 2.8153,
      "mean_token_accuracy": 0.5104166818782687,
      "num_tokens": 14574024.0,
      "step": 20
    },
    {
      "entropy": 0.40667724609375,
      "epoch": 0.22826086956521738,
      "grad_norm": 56.38076718883922,
      "learning_rate": 7.1428571428571436e-06,
      "loss": 2.7754,
      "mean_token_accuracy": 0.5156250153668225,
      "num_tokens": 15282047.0,
      "step": 21
    },
    {
      "entropy": 0.4005889892578125,
      "epoch": 0.2391304347826087,
      "grad_norm": 55.447913312977676,
      "learning_rate": 7.500000000000001e-06,
      "loss": 2.7169,
      "mean_token_accuracy": 0.5572916832752526,
      "num_tokens": 15994235.0,
      "step": 22
    },
    {
      "entropy": 0.3857879638671875,
      "epoch": 0.25,
      "grad_norm": 55.78645488742356,
      "learning_rate": 7.857142857142858e-06,
      "loss": 2.6665,
      "mean_token_accuracy": 0.591145850950852,
      "num_tokens": 16741870.0,
      "step": 23
    },
    {
      "entropy": 0.402313232421875,
      "epoch": 0.2608695652173913,
      "grad_norm": 57.29582835359725,
      "learning_rate": 8.214285714285714e-06,
      "loss": 2.6957,
      "mean_token_accuracy": 0.5546875165309757,
      "num_tokens": 17464577.0,
      "step": 24
    },
    {
      "entropy": 0.3870391845703125,
      "epoch": 0.2717391304347826,
      "grad_norm": 57.211150516939824,
      "learning_rate": 8.571428571428571e-06,
      "loss": 2.6415,
      "mean_token_accuracy": 0.5572916832752526,
      "num_tokens": 18206200.0,
      "step": 25
    },
    {
      "entropy": 0.393768310546875,
      "epoch": 0.2826086956521739,
      "grad_norm": 57.47552903784624,
      "learning_rate": 8.92857142857143e-06,
      "loss": 2.5877,
      "mean_token_accuracy": 0.5625000167638063,
      "num_tokens": 18918194.0,
      "step": 26
    },
    {
      "entropy": 0.41314697265625,
      "epoch": 0.29347826086956524,
      "grad_norm": 56.970944815184836,
      "learning_rate": 9.285714285714288e-06,
      "loss": 2.5527,
      "mean_token_accuracy": 0.570312516996637,
      "num_tokens": 19624906.0,
      "step": 27
    },
    {
      "entropy": 0.39019775390625,
      "epoch": 0.30434782608695654,
      "grad_norm": 57.278919425318,
      "learning_rate": 9.642857142857144e-06,
      "loss": 2.5145,
      "mean_token_accuracy": 0.5859375174622983,
      "num_tokens": 20365596.0,
      "step": 28
    },
    {
      "entropy": 0.388885498046875,
      "epoch": 0.31521739130434784,
      "grad_norm": 57.94540393487535,
      "learning_rate": 1e-05,
      "loss": 2.4732,
      "mean_token_accuracy": 0.5677083502523601,
      "num_tokens": 21102903.0,
      "step": 29
    },
    {
      "entropy": 0.3875274658203125,
      "epoch": 0.32608695652173914,
      "grad_norm": 57.719002893716514,
      "learning_rate": 9.999910138041584e-06,
      "loss": 2.4246,
      "mean_token_accuracy": 0.5729166837409139,
      "num_tokens": 21864666.0,
      "step": 30
    },
    {
      "entropy": 0.397064208984375,
      "epoch": 0.33695652173913043,
      "grad_norm": 58.53752025484375,
      "learning_rate": 9.999640555396404e-06,
      "loss": 2.3872,
      "mean_token_accuracy": 0.5494791830424219,
      "num_tokens": 22599616.0,
      "step": 31
    },
    {
      "entropy": 0.4019317626953125,
      "epoch": 0.34782608695652173,
      "grad_norm": 57.8561645490603,
      "learning_rate": 9.99919126175455e-06,
      "loss": 2.3378,
      "mean_token_accuracy": 0.5911458488553762,
      "num_tokens": 23314995.0,
      "step": 32
    },
    {
      "entropy": 0.385772705078125,
      "epoch": 0.358695652173913,
      "grad_norm": 58.89023645356944,
      "learning_rate": 9.998562273265786e-06,
      "loss": 2.2995,
      "mean_token_accuracy": 0.8515625069849193,
      "num_tokens": 24069275.0,
      "step": 33
    },
    {
      "entropy": 0.3910369873046875,
      "epoch": 0.3695652173913043,
      "grad_norm": 58.17642323180765,
      "learning_rate": 9.997753612538963e-06,
      "loss": 2.2021,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 24804979.0,
      "step": 34
    },
    {
      "entropy": 0.3809661865234375,
      "epoch": 0.3804347826086957,
      "grad_norm": 59.31524501610132,
      "learning_rate": 9.996765308641218e-06,
      "loss": 2.2007,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 25544768.0,
      "step": 35
    },
    {
      "entropy": 0.3924407958984375,
      "epoch": 0.391304347826087,
      "grad_norm": 58.7454531209861,
      "learning_rate": 9.995597397096923e-06,
      "loss": 2.1321,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 26275719.0,
      "step": 36
    },
    {
      "entropy": 0.3906707763671875,
      "epoch": 0.40217391304347827,
      "grad_norm": 58.600543384432264,
      "learning_rate": 9.994249919886402e-06,
      "loss": 2.0885,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 26985404.0,
      "step": 37
    },
    {
      "entropy": 0.3901824951171875,
      "epoch": 0.41304347826086957,
      "grad_norm": 58.675576065130905,
      "learning_rate": 9.992722925444434e-06,
      "loss": 2.0522,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 27740423.0,
      "step": 38
    },
    {
      "entropy": 0.4003448486328125,
      "epoch": 0.42391304347826086,
      "grad_norm": 59.01808623699215,
      "learning_rate": 9.9910164686585e-06,
      "loss": 2.0104,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 28451606.0,
      "step": 39
    },
    {
      "entropy": 0.3897705078125,
      "epoch": 0.43478260869565216,
      "grad_norm": 59.48597040354387,
      "learning_rate": 9.989130610866822e-06,
      "loss": 1.971,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 29194502.0,
      "step": 40
    },
    {
      "entropy": 0.41436767578125,
      "epoch": 0.44565217391304346,
      "grad_norm": 58.05699412098732,
      "learning_rate": 9.98706541985615e-06,
      "loss": 1.9006,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 29902712.0,
      "step": 41
    },
    {
      "entropy": 0.4010009765625,
      "epoch": 0.45652173913043476,
      "grad_norm": 58.833913062425076,
      "learning_rate": 9.984820969859326e-06,
      "loss": 1.8737,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 30631575.0,
      "step": 42
    },
    {
      "entropy": 0.41027069091796875,
      "epoch": 0.4673913043478261,
      "grad_norm": 60.490463930275865,
      "learning_rate": 9.98239734155262e-06,
      "loss": 1.8204,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 31347051.0,
      "step": 43
    },
    {
      "entropy": 0.3932647705078125,
      "epoch": 0.4782608695652174,
      "grad_norm": 57.95340395047529,
      "learning_rate": 9.979794622052825e-06,
      "loss": 1.7623,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 32097014.0,
      "step": 44
    },
    {
      "entropy": 0.390716552734375,
      "epoch": 0.4891304347826087,
      "grad_norm": 58.16551338291629,
      "learning_rate": 9.977012904914133e-06,
      "loss": 1.7116,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 32827303.0,
      "step": 45
    },
    {
      "entropy": 0.3954620361328125,
      "epoch": 0.5,
      "grad_norm": 58.56408689055765,
      "learning_rate": 9.97405229012476e-06,
      "loss": 1.6427,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 33554680.0,
      "step": 46
    },
    {
      "entropy": 0.3946533203125,
      "epoch": 0.5108695652173914,
      "grad_norm": 57.47262999236042,
      "learning_rate": 9.970912884103365e-06,
      "loss": 1.5718,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 34301124.0,
      "step": 47
    },
    {
      "entropy": 0.3899688720703125,
      "epoch": 0.5217391304347826,
      "grad_norm": 57.64883611395889,
      "learning_rate": 9.967594799695218e-06,
      "loss": 1.5603,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 35045086.0,
      "step": 48
    },
    {
      "entropy": 0.3919830322265625,
      "epoch": 0.532608695652174,
      "grad_norm": 57.02835671031337,
      "learning_rate": 9.964098156168143e-06,
      "loss": 1.4858,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 35805987.0,
      "step": 49
    },
    {
      "entropy": 0.3870086669921875,
      "epoch": 0.5434782608695652,
      "grad_norm": 57.09574664140399,
      "learning_rate": 9.960423079208235e-06,
      "loss": 1.4643,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 36541273.0,
      "step": 50
    },
    {
      "entropy": 0.3992919921875,
      "epoch": 0.5543478260869565,
      "grad_norm": 56.535536957542845,
      "learning_rate": 9.956569700915338e-06,
      "loss": 1.3823,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 37269246.0,
      "step": 51
    },
    {
      "entropy": 0.4100189208984375,
      "epoch": 0.5652173913043478,
      "grad_norm": 57.428740317453055,
      "learning_rate": 9.9525381597983e-06,
      "loss": 1.3494,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 38002794.0,
      "step": 52
    },
    {
      "entropy": 0.394744873046875,
      "epoch": 0.5760869565217391,
      "grad_norm": 56.47945854742855,
      "learning_rate": 9.948328600769996e-06,
      "loss": 1.2884,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 38735716.0,
      "step": 53
    },
    {
      "entropy": 0.38217926025390625,
      "epoch": 0.5869565217391305,
      "grad_norm": 57.27440568968869,
      "learning_rate": 9.943941175142109e-06,
      "loss": 1.2754,
      "mean_token_accuracy": 0.890625006519258,
      "num_tokens": 39481798.0,
      "step": 54
    },
    {
      "entropy": 0.38885498046875,
      "epoch": 0.5978260869565217,
      "grad_norm": 56.60227047024227,
      "learning_rate": 9.939376040619707e-06,
      "loss": 1.1703,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 40218914.0,
      "step": 55
    },
    {
      "entropy": 0.3859710693359375,
      "epoch": 0.6086956521739131,
      "grad_norm": 64.21199865298682,
      "learning_rate": 9.934633361295558e-06,
      "loss": 1.1478,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 40939529.0,
      "step": 56
    },
    {
      "entropy": 0.4045257568359375,
      "epoch": 0.6195652173913043,
      "grad_norm": 55.19308928831414,
      "learning_rate": 9.929713307644245e-06,
      "loss": 1.0914,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 41657980.0,
      "step": 57
    },
    {
      "entropy": 0.390289306640625,
      "epoch": 0.6304347826086957,
      "grad_norm": 54.92784826418092,
      "learning_rate": 9.924616056516027e-06,
      "loss": 1.0409,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 42389425.0,
      "step": 58
    },
    {
      "entropy": 0.3818359375,
      "epoch": 0.6413043478260869,
      "grad_norm": 54.34024978959367,
      "learning_rate": 9.919341791130496e-06,
      "loss": 1.0099,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 43149681.0,
      "step": 59
    },
    {
      "entropy": 0.3883819580078125,
      "epoch": 0.6521739130434783,
      "grad_norm": 53.90043611025087,
      "learning_rate": 9.91389070106998e-06,
      "loss": 0.9535,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 43885963.0,
      "step": 60
    },
    {
      "entropy": 0.3831787109375,
      "epoch": 0.6630434782608695,
      "grad_norm": 53.394424379799034,
      "learning_rate": 9.908262982272724e-06,
      "loss": 0.8798,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 44623414.0,
      "step": 61
    },
    {
      "entropy": 0.3872222900390625,
      "epoch": 0.6739130434782609,
      "grad_norm": 52.84893939981381,
      "learning_rate": 9.902458837025865e-06,
      "loss": 0.8434,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 45360442.0,
      "step": 62
    },
    {
      "entropy": 0.390167236328125,
      "epoch": 0.6847826086956522,
      "grad_norm": 51.405466511829054,
      "learning_rate": 9.896478473958147e-06,
      "loss": 0.8104,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 46096963.0,
      "step": 63
    },
    {
      "entropy": 0.3791656494140625,
      "epoch": 0.6956521739130435,
      "grad_norm": 67.0927313145099,
      "learning_rate": 9.890322108032423e-06,
      "loss": 0.7389,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 46845290.0,
      "step": 64
    },
    {
      "entropy": 0.386749267578125,
      "epoch": 0.7065217391304348,
      "grad_norm": 48.63910627913246,
      "learning_rate": 9.883989960537934e-06,
      "loss": 0.6886,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 47589657.0,
      "step": 65
    },
    {
      "entropy": 0.3870697021484375,
      "epoch": 0.717391304347826,
      "grad_norm": 50.765606142328465,
      "learning_rate": 9.87748225908235e-06,
      "loss": 0.7211,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 48316895.0,
      "step": 66
    },
    {
      "entropy": 0.40130615234375,
      "epoch": 0.7282608695652174,
      "grad_norm": 46.93217226797021,
      "learning_rate": 9.870799237583586e-06,
      "loss": 0.657,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 49040997.0,
      "step": 67
    },
    {
      "entropy": 0.3978118896484375,
      "epoch": 0.7391304347826086,
      "grad_norm": 45.25483846380179,
      "learning_rate": 9.863941136261409e-06,
      "loss": 0.6267,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 49775472.0,
      "step": 68
    },
    {
      "entropy": 0.387786865234375,
      "epoch": 0.75,
      "grad_norm": 41.803443238181266,
      "learning_rate": 9.85690820162878e-06,
      "loss": 0.5724,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 50502011.0,
      "step": 69
    },
    {
      "entropy": 0.39068603515625,
      "epoch": 0.7608695652173914,
      "grad_norm": 40.56912283677579,
      "learning_rate": 9.849700686483016e-06,
      "loss": 0.5347,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 51244016.0,
      "step": 70
    },
    {
      "entropy": 0.3915863037109375,
      "epoch": 0.7717391304347826,
      "grad_norm": 39.21733456880833,
      "learning_rate": 9.842318849896679e-06,
      "loss": 0.5257,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 51986918.0,
      "step": 71
    },
    {
      "entropy": 0.3866729736328125,
      "epoch": 0.782608695652174,
      "grad_norm": 34.28751014186158,
      "learning_rate": 9.834762957208293e-06,
      "loss": 0.477,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 52704587.0,
      "step": 72
    },
    {
      "entropy": 0.3971099853515625,
      "epoch": 0.7934782608695652,
      "grad_norm": 33.29412662908073,
      "learning_rate": 9.827033280012783e-06,
      "loss": 0.4618,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 53422257.0,
      "step": 73
    },
    {
      "entropy": 0.3890533447265625,
      "epoch": 0.8043478260869565,
      "grad_norm": 31.44495759790978,
      "learning_rate": 9.819130096151718e-06,
      "loss": 0.411,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 54168795.0,
      "step": 74
    },
    {
      "entropy": 0.3963165283203125,
      "epoch": 0.8152173913043478,
      "grad_norm": 29.559288018636927,
      "learning_rate": 9.811053689703333e-06,
      "loss": 0.3877,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 54897748.0,
      "step": 75
    },
    {
      "entropy": 0.400421142578125,
      "epoch": 0.8260869565217391,
      "grad_norm": 27.34154669506296,
      "learning_rate": 9.802804350972308e-06,
      "loss": 0.3715,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 55622508.0,
      "step": 76
    },
    {
      "entropy": 0.4033966064453125,
      "epoch": 0.8369565217391305,
      "grad_norm": 25.423348266789095,
      "learning_rate": 9.794382376479334e-06,
      "loss": 0.3309,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 56346582.0,
      "step": 77
    },
    {
      "entropy": 0.3929290771484375,
      "epoch": 0.8478260869565217,
      "grad_norm": 26.889050507878068,
      "learning_rate": 9.785788068950463e-06,
      "loss": 0.321,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 57086209.0,
      "step": 78
    },
    {
      "entropy": 0.3889007568359375,
      "epoch": 0.8586956521739131,
      "grad_norm": 21.534301856757317,
      "learning_rate": 9.777021737306214e-06,
      "loss": 0.3092,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 57825318.0,
      "step": 79
    },
    {
      "entropy": 0.38922119140625,
      "epoch": 0.8695652173913043,
      "grad_norm": 17.771010323469174,
      "learning_rate": 9.768083696650481e-06,
      "loss": 0.2772,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 58550947.0,
      "step": 80
    },
    {
      "entropy": 0.399383544921875,
      "epoch": 0.8804347826086957,
      "grad_norm": 17.152236136284305,
      "learning_rate": 9.7589742682592e-06,
      "loss": 0.2839,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 59292892.0,
      "step": 81
    },
    {
      "entropy": 0.393829345703125,
      "epoch": 0.8913043478260869,
      "grad_norm": 17.324033790860124,
      "learning_rate": 9.749693779568799e-06,
      "loss": 0.2434,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 60022347.0,
      "step": 82
    },
    {
      "entropy": 0.412628173828125,
      "epoch": 0.9021739130434783,
      "grad_norm": 19.341050641322628,
      "learning_rate": 9.740242564164433e-06,
      "loss": 0.2636,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 60745567.0,
      "step": 83
    },
    {
      "entropy": 0.3810272216796875,
      "epoch": 0.9130434782608695,
      "grad_norm": 14.66750201206825,
      "learning_rate": 9.730620961767996e-06,
      "loss": 0.2381,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 61522459.0,
      "step": 84
    },
    {
      "entropy": 0.4130096435546875,
      "epoch": 0.9239130434782609,
      "grad_norm": 10.55041055882742,
      "learning_rate": 9.720829318225897e-06,
      "loss": 0.2156,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 62253473.0,
      "step": 85
    },
    {
      "entropy": 0.4146881103515625,
      "epoch": 0.9347826086956522,
      "grad_norm": 11.70095763005275,
      "learning_rate": 9.710867985496644e-06,
      "loss": 0.2358,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 62989704.0,
      "step": 86
    },
    {
      "entropy": 0.401519775390625,
      "epoch": 0.9456521739130435,
      "grad_norm": 9.92662608159335,
      "learning_rate": 9.700737321638185e-06,
      "loss": 0.2072,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 63732055.0,
      "step": 87
    },
    {
      "entropy": 0.4189300537109375,
      "epoch": 0.9565217391304348,
      "grad_norm": 7.356221712520737,
      "learning_rate": 9.690437690795038e-06,
      "loss": 0.2098,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 64464164.0,
      "step": 88
    },
    {
      "entropy": 0.3980865478515625,
      "epoch": 0.967391304347826,
      "grad_norm": 12.134743314409956,
      "learning_rate": 9.6799694631852e-06,
      "loss": 0.1914,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 65220862.0,
      "step": 89
    },
    {
      "entropy": 0.3852996826171875,
      "epoch": 0.9782608695652174,
      "grad_norm": 7.31970523483199,
      "learning_rate": 9.669333015086847e-06,
      "loss": 0.2211,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 65979575.0,
      "step": 90
    },
    {
      "entropy": 0.425872802734375,
      "epoch": 0.9891304347826086,
      "grad_norm": 12.890322199986635,
      "learning_rate": 9.658528728824799e-06,
      "loss": 0.2363,
      "mean_token_accuracy": 0.8932291730307043,
      "num_tokens": 66703681.0,
      "step": 91
    },
    {
      "entropy": 0.4225921630859375,
      "epoch": 1.0,
      "grad_norm": 8.320474985782123,
      "learning_rate": 9.647556992756789e-06,
      "loss": 0.2212,
      "mean_token_accuracy": 0.8880208400078118,
      "num_tokens": 67438998.0,
      "step": 92
    },
    {
      "entropy": 0.422393798828125,
      "epoch": 1.0108695652173914,
      "grad_norm": 6.360465730114105,
      "learning_rate": 9.63641820125949e-06,
      "loss": 0.2223,
      "mean_token_accuracy": 0.8723958409391344,
      "num_tokens": 68175047.0,
      "step": 93
    },
    {
      "entropy": 0.4111785888671875,
      "epoch": 1.0217391304347827,
      "grad_norm": 4.811970086654688,
      "learning_rate": 9.62511275471435e-06,
      "loss": 0.2007,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 68902775.0,
      "step": 94
    },
    {
      "entropy": 0.4126129150390625,
      "epoch": 1.0326086956521738,
      "grad_norm": 5.476589541947667,
      "learning_rate": 9.613641059493197e-06,
      "loss": 0.1856,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 69658298.0,
      "step": 95
    },
    {
      "entropy": 0.4028167724609375,
      "epoch": 1.0434782608695652,
      "grad_norm": 5.6443975122309835,
      "learning_rate": 9.602003527943629e-06,
      "loss": 0.1608,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 70418741.0,
      "step": 96
    },
    {
      "entropy": 0.4215545654296875,
      "epoch": 1.0543478260869565,
      "grad_norm": 4.660188487633685,
      "learning_rate": 9.590200578374198e-06,
      "loss": 0.1531,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 71145148.0,
      "step": 97
    },
    {
      "entropy": 0.401947021484375,
      "epoch": 1.065217391304348,
      "grad_norm": 14.772172484225635,
      "learning_rate": 9.578232635039368e-06,
      "loss": 0.2538,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 71884186.0,
      "step": 98
    },
    {
      "entropy": 0.40232086181640625,
      "epoch": 1.0760869565217392,
      "grad_norm": 16.40391744222318,
      "learning_rate": 9.56610012812427e-06,
      "loss": 0.2106,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 72626955.0,
      "step": 99
    },
    {
      "entropy": 0.4156951904296875,
      "epoch": 1.0869565217391304,
      "grad_norm": 2.7376537868655797,
      "learning_rate": 9.553803493729237e-06,
      "loss": 0.1751,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 73360000.0,
      "step": 100
    },
    {
      "entropy": 0.4085235595703125,
      "epoch": 1.0978260869565217,
      "grad_norm": 18.4903268288829,
      "learning_rate": 9.541343173854128e-06,
      "loss": 0.2639,
      "mean_token_accuracy": 0.8697916744276881,
      "num_tokens": 74091140.0,
      "step": 101
    },
    {
      "entropy": 0.405670166015625,
      "epoch": 1.108695652173913,
      "grad_norm": 9.109209887240452,
      "learning_rate": 9.528719616382443e-06,
      "loss": 0.2078,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 74832896.0,
      "step": 102
    },
    {
      "entropy": 0.4192962646484375,
      "epoch": 1.1195652173913044,
      "grad_norm": 10.599044328911617,
      "learning_rate": 9.515933275065218e-06,
      "loss": 0.1907,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 75541674.0,
      "step": 103
    },
    {
      "entropy": 0.4142913818359375,
      "epoch": 1.1304347826086956,
      "grad_norm": 13.642967683999707,
      "learning_rate": 9.502984609504724e-06,
      "loss": 0.2306,
      "mean_token_accuracy": 0.890625006519258,
      "num_tokens": 76248288.0,
      "step": 104
    },
    {
      "entropy": 0.40887451171875,
      "epoch": 1.141304347826087,
      "grad_norm": 6.84772480178541,
      "learning_rate": 9.48987408513794e-06,
      "loss": 0.1995,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 76996286.0,
      "step": 105
    },
    {
      "entropy": 0.4087066650390625,
      "epoch": 1.1521739130434783,
      "grad_norm": 6.496047220644684,
      "learning_rate": 9.476602173219822e-06,
      "loss": 0.1942,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 77758596.0,
      "step": 106
    },
    {
      "entropy": 0.4204864501953125,
      "epoch": 1.1630434782608696,
      "grad_norm": 6.827472737583138,
      "learning_rate": 9.463169350806369e-06,
      "loss": 0.2031,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 78463223.0,
      "step": 107
    },
    {
      "entropy": 0.4056549072265625,
      "epoch": 1.1739130434782608,
      "grad_norm": 1.5233784632814626,
      "learning_rate": 9.449576100737474e-06,
      "loss": 0.1775,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 79221200.0,
      "step": 108
    },
    {
      "entropy": 0.42926025390625,
      "epoch": 1.184782608695652,
      "grad_norm": 1.5108748780251222,
      "learning_rate": 9.435822911619564e-06,
      "loss": 0.1868,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 79940743.0,
      "step": 109
    },
    {
      "entropy": 0.4319305419921875,
      "epoch": 1.1956521739130435,
      "grad_norm": 6.36012809294725,
      "learning_rate": 9.421910277808044e-06,
      "loss": 0.1788,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 80677409.0,
      "step": 110
    },
    {
      "entropy": 0.419342041015625,
      "epoch": 1.2065217391304348,
      "grad_norm": 1.8730766457450179,
      "learning_rate": 9.407838699389525e-06,
      "loss": 0.1838,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 81415735.0,
      "step": 111
    },
    {
      "entropy": 0.438995361328125,
      "epoch": 1.2173913043478262,
      "grad_norm": 9.197129767209665,
      "learning_rate": 9.39360868216384e-06,
      "loss": 0.18,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 82152127.0,
      "step": 112
    },
    {
      "entropy": 0.4631805419921875,
      "epoch": 1.2282608695652173,
      "grad_norm": 2.0870041777213193,
      "learning_rate": 9.379220737625877e-06,
      "loss": 0.1983,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 82853278.0,
      "step": 113
    },
    {
      "entropy": 0.447113037109375,
      "epoch": 1.2391304347826086,
      "grad_norm": 14.046012592660555,
      "learning_rate": 9.364675382947185e-06,
      "loss": 0.2429,
      "mean_token_accuracy": 0.8723958409391344,
      "num_tokens": 83585407.0,
      "step": 114
    },
    {
      "entropy": 0.4525604248046875,
      "epoch": 1.25,
      "grad_norm": 7.921369959329775,
      "learning_rate": 9.349973140957392e-06,
      "loss": 0.2043,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 84315422.0,
      "step": 115
    },
    {
      "entropy": 0.452423095703125,
      "epoch": 1.2608695652173914,
      "grad_norm": 5.792984162959005,
      "learning_rate": 9.335114540125393e-06,
      "loss": 0.1939,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 85046754.0,
      "step": 116
    },
    {
      "entropy": 0.4496307373046875,
      "epoch": 1.2717391304347827,
      "grad_norm": 9.293065786036365,
      "learning_rate": 9.320100114540382e-06,
      "loss": 0.2023,
      "mean_token_accuracy": 0.890625006519258,
      "num_tokens": 85778586.0,
      "step": 117
    },
    {
      "entropy": 0.4737548828125,
      "epoch": 1.2826086956521738,
      "grad_norm": 4.720567538806877,
      "learning_rate": 9.304930403892633e-06,
      "loss": 0.1861,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 86491226.0,
      "step": 118
    },
    {
      "entropy": 0.477691650390625,
      "epoch": 1.2934782608695652,
      "grad_norm": 5.337746374491254,
      "learning_rate": 9.289605953454108e-06,
      "loss": 0.2128,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 87200478.0,
      "step": 119
    },
    {
      "entropy": 0.4561920166015625,
      "epoch": 1.3043478260869565,
      "grad_norm": 7.6695579402959515,
      "learning_rate": 9.274127314058857e-06,
      "loss": 0.1997,
      "mean_token_accuracy": 0.8932291730307043,
      "num_tokens": 87957196.0,
      "step": 120
    },
    {
      "entropy": 0.453704833984375,
      "epoch": 1.315217391304348,
      "grad_norm": 3.9373800779191312,
      "learning_rate": 9.258495042083222e-06,
      "loss": 0.1884,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 88672374.0,
      "step": 121
    },
    {
      "entropy": 0.4441070556640625,
      "epoch": 1.3260869565217392,
      "grad_norm": 1.471122227444486,
      "learning_rate": 9.242709699425833e-06,
      "loss": 0.1573,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 89404606.0,
      "step": 122
    },
    {
      "entropy": 0.428253173828125,
      "epoch": 1.3369565217391304,
      "grad_norm": 10.86215189892307,
      "learning_rate": 9.226771853487411e-06,
      "loss": 0.2125,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 90127322.0,
      "step": 123
    },
    {
      "entropy": 0.4283294677734375,
      "epoch": 1.3478260869565217,
      "grad_norm": 9.520123043174825,
      "learning_rate": 9.210682077150375e-06,
      "loss": 0.2026,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 90848209.0,
      "step": 124
    },
    {
      "entropy": 0.43804931640625,
      "epoch": 1.358695652173913,
      "grad_norm": 3.3856900075453824,
      "learning_rate": 9.19444094875825e-06,
      "loss": 0.1767,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 91573103.0,
      "step": 125
    },
    {
      "entropy": 0.4550933837890625,
      "epoch": 1.3695652173913042,
      "grad_norm": 7.135938659453624,
      "learning_rate": 9.178049052094881e-06,
      "loss": 0.1808,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 92297192.0,
      "step": 126
    },
    {
      "entropy": 0.428314208984375,
      "epoch": 1.3804347826086958,
      "grad_norm": 4.556612393341481,
      "learning_rate": 9.161506976363438e-06,
      "loss": 0.1658,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 93047807.0,
      "step": 127
    },
    {
      "entropy": 0.438446044921875,
      "epoch": 1.391304347826087,
      "grad_norm": 5.194113063625536,
      "learning_rate": 9.144815316165251e-06,
      "loss": 0.1811,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 93790470.0,
      "step": 128
    },
    {
      "entropy": 0.4615631103515625,
      "epoch": 1.4021739130434783,
      "grad_norm": 7.799634045866311,
      "learning_rate": 9.127974671478432e-06,
      "loss": 0.1799,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 94520826.0,
      "step": 129
    },
    {
      "entropy": 0.4463348388671875,
      "epoch": 1.4130434782608696,
      "grad_norm": 3.3563676567127234,
      "learning_rate": 9.110985647636303e-06,
      "loss": 0.1767,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 95237220.0,
      "step": 130
    },
    {
      "entropy": 0.4608154296875,
      "epoch": 1.4239130434782608,
      "grad_norm": 6.086094366753819,
      "learning_rate": 9.09384885530565e-06,
      "loss": 0.1807,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 95976566.0,
      "step": 131
    },
    {
      "entropy": 0.4702911376953125,
      "epoch": 1.434782608695652,
      "grad_norm": 9.145646363583046,
      "learning_rate": 9.076564910464753e-06,
      "loss": 0.1831,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 96721403.0,
      "step": 132
    },
    {
      "entropy": 0.4621124267578125,
      "epoch": 1.4456521739130435,
      "grad_norm": 7.322592064270767,
      "learning_rate": 9.059134434381274e-06,
      "loss": 0.176,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 97480947.0,
      "step": 133
    },
    {
      "entropy": 0.4542083740234375,
      "epoch": 1.4565217391304348,
      "grad_norm": 2.9875027672046923,
      "learning_rate": 9.041558053589894e-06,
      "loss": 0.164,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 98223324.0,
      "step": 134
    },
    {
      "entropy": 0.4487457275390625,
      "epoch": 1.4673913043478262,
      "grad_norm": 2.9907518809751092,
      "learning_rate": 9.023836399869814e-06,
      "loss": 0.1636,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 98933881.0,
      "step": 135
    },
    {
      "entropy": 0.4431610107421875,
      "epoch": 1.4782608695652173,
      "grad_norm": 1.35961804196526,
      "learning_rate": 9.00597011022204e-06,
      "loss": 0.1651,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 99688194.0,
      "step": 136
    },
    {
      "entropy": 0.46734619140625,
      "epoch": 1.4891304347826086,
      "grad_norm": 1.760841195209723,
      "learning_rate": 8.987959826846479e-06,
      "loss": 0.1598,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 100382504.0,
      "step": 137
    },
    {
      "entropy": 0.4427337646484375,
      "epoch": 1.5,
      "grad_norm": 2.9503254119484623,
      "learning_rate": 8.96980619711887e-06,
      "loss": 0.1353,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 101132818.0,
      "step": 138
    },
    {
      "entropy": 0.4766693115234375,
      "epoch": 1.5108695652173914,
      "grad_norm": 4.594953382228698,
      "learning_rate": 8.951509873567498e-06,
      "loss": 0.1397,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 101862795.0,
      "step": 139
    },
    {
      "entropy": 0.4933624267578125,
      "epoch": 1.5217391304347827,
      "grad_norm": 6.883352867896313,
      "learning_rate": 8.93307151384975e-06,
      "loss": 0.1967,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 102573308.0,
      "step": 140
    },
    {
      "entropy": 0.5009002685546875,
      "epoch": 1.5326086956521738,
      "grad_norm": 1.9506987721019164,
      "learning_rate": 8.914491780728471e-06,
      "loss": 0.1761,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 103290214.0,
      "step": 141
    },
    {
      "entropy": 0.4989166259765625,
      "epoch": 1.5434782608695652,
      "grad_norm": 3.0415082475625046,
      "learning_rate": 8.895771342048145e-06,
      "loss": 0.1601,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 104061746.0,
      "step": 142
    },
    {
      "entropy": 0.5316009521484375,
      "epoch": 1.5543478260869565,
      "grad_norm": 5.978664502001635,
      "learning_rate": 8.876910870710885e-06,
      "loss": 0.1844,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 104780847.0,
      "step": 143
    },
    {
      "entropy": 0.5504150390625,
      "epoch": 1.5652173913043477,
      "grad_norm": 2.2416218521897884,
      "learning_rate": 8.857911044652244e-06,
      "loss": 0.1557,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 105517368.0,
      "step": 144
    },
    {
      "entropy": 0.5193023681640625,
      "epoch": 1.5760869565217392,
      "grad_norm": 2.1745129597982342,
      "learning_rate": 8.838772546816857e-06,
      "loss": 0.19,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 106238651.0,
      "step": 145
    },
    {
      "entropy": 0.474334716796875,
      "epoch": 1.5869565217391304,
      "grad_norm": 3.233606827462647,
      "learning_rate": 8.819496065133879e-06,
      "loss": 0.1756,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 106947418.0,
      "step": 146
    },
    {
      "entropy": 0.46954345703125,
      "epoch": 1.5978260869565217,
      "grad_norm": 1.6763733777241698,
      "learning_rate": 8.800082292492274e-06,
      "loss": 0.1684,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 107674909.0,
      "step": 147
    },
    {
      "entropy": 0.461761474609375,
      "epoch": 1.608695652173913,
      "grad_norm": 1.5922291899949113,
      "learning_rate": 8.780531926715888e-06,
      "loss": 0.1607,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 108414040.0,
      "step": 148
    },
    {
      "entropy": 0.4610748291015625,
      "epoch": 1.6195652173913042,
      "grad_norm": 2.3162740788777803,
      "learning_rate": 8.760845670538387e-06,
      "loss": 0.165,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 109135394.0,
      "step": 149
    },
    {
      "entropy": 0.4540863037109375,
      "epoch": 1.6304347826086958,
      "grad_norm": 4.23753424575008,
      "learning_rate": 8.741024231577983e-06,
      "loss": 0.1811,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 109879572.0,
      "step": 150
    },
    {
      "entropy": 0.4442138671875,
      "epoch": 1.641304347826087,
      "grad_norm": 3.2468998646322484,
      "learning_rate": 8.721068322312007e-06,
      "loss": 0.1419,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 110640489.0,
      "step": 151
    },
    {
      "entropy": 0.4481201171875,
      "epoch": 1.6521739130434783,
      "grad_norm": 10.139883051109544,
      "learning_rate": 8.700978660051293e-06,
      "loss": 0.1598,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 111380988.0,
      "step": 152
    },
    {
      "entropy": 0.433837890625,
      "epoch": 1.6630434782608696,
      "grad_norm": 7.761228655987252,
      "learning_rate": 8.6807559669144e-06,
      "loss": 0.1849,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 112122604.0,
      "step": 153
    },
    {
      "entropy": 0.4503021240234375,
      "epoch": 1.6739130434782608,
      "grad_norm": 1.828668956558359,
      "learning_rate": 8.660400969801653e-06,
      "loss": 0.2122,
      "mean_token_accuracy": 0.8750000074505806,
      "num_tokens": 112871432.0,
      "step": 154
    },
    {
      "entropy": 0.45343017578125,
      "epoch": 1.6847826086956523,
      "grad_norm": 2.126135379534876,
      "learning_rate": 8.63991440036901e-06,
      "loss": 0.1548,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 113611806.0,
      "step": 155
    },
    {
      "entropy": 0.493804931640625,
      "epoch": 1.6956521739130435,
      "grad_norm": 4.3389596600751466,
      "learning_rate": 8.619296995001773e-06,
      "loss": 0.1857,
      "mean_token_accuracy": 0.8932291730307043,
      "num_tokens": 114326342.0,
      "step": 156
    },
    {
      "entropy": 0.487945556640625,
      "epoch": 1.7065217391304348,
      "grad_norm": 4.8383623774149855,
      "learning_rate": 8.598549494788111e-06,
      "loss": 0.1842,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 115037802.0,
      "step": 157
    },
    {
      "entropy": 0.4819793701171875,
      "epoch": 1.7173913043478262,
      "grad_norm": 5.065484569306593,
      "learning_rate": 8.577672645492426e-06,
      "loss": 0.17,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 115767624.0,
      "step": 158
    },
    {
      "entropy": 0.4755401611328125,
      "epoch": 1.7282608695652173,
      "grad_norm": 2.285416542745465,
      "learning_rate": 8.556667197528543e-06,
      "loss": 0.1596,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 116489816.0,
      "step": 159
    },
    {
      "entropy": 0.467864990234375,
      "epoch": 1.7391304347826086,
      "grad_norm": 1.5003143432856856,
      "learning_rate": 8.535533905932739e-06,
      "loss": 0.1549,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 117260601.0,
      "step": 160
    },
    {
      "entropy": 0.4516754150390625,
      "epoch": 1.75,
      "grad_norm": 1.7823061949585672,
      "learning_rate": 8.5142735303366e-06,
      "loss": 0.1533,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 118022849.0,
      "step": 161
    },
    {
      "entropy": 0.44891357421875,
      "epoch": 1.7608695652173914,
      "grad_norm": 5.264720720114719,
      "learning_rate": 8.492886834939722e-06,
      "loss": 0.2148,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 118779763.0,
      "step": 162
    },
    {
      "entropy": 0.4542236328125,
      "epoch": 1.7717391304347827,
      "grad_norm": 4.962912298182255,
      "learning_rate": 8.47137458848224e-06,
      "loss": 0.2153,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 119501795.0,
      "step": 163
    },
    {
      "entropy": 0.4887542724609375,
      "epoch": 1.7826086956521738,
      "grad_norm": 10.388568518355575,
      "learning_rate": 8.44973756421719e-06,
      "loss": 0.2256,
      "mean_token_accuracy": 0.8958333395421505,
      "num_tokens": 120202817.0,
      "step": 164
    },
    {
      "entropy": 0.4947662353515625,
      "epoch": 1.7934782608695652,
      "grad_norm": 12.459311969405254,
      "learning_rate": 8.427976539882725e-06,
      "loss": 0.2365,
      "mean_token_accuracy": 0.8750000074505806,
      "num_tokens": 120915823.0,
      "step": 165
    },
    {
      "entropy": 0.4861602783203125,
      "epoch": 1.8043478260869565,
      "grad_norm": 9.531570725676541,
      "learning_rate": 8.406092297674146e-06,
      "loss": 0.2186,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 121669467.0,
      "step": 166
    },
    {
      "entropy": 0.4983367919921875,
      "epoch": 1.8152173913043477,
      "grad_norm": 0.9123087345029203,
      "learning_rate": 8.384085624215801e-06,
      "loss": 0.1702,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 122407245.0,
      "step": 167
    },
    {
      "entropy": 0.4939422607421875,
      "epoch": 1.8260869565217392,
      "grad_norm": 8.13903166375636,
      "learning_rate": 8.3619573105328e-06,
      "loss": 0.2061,
      "mean_token_accuracy": 0.8932291730307043,
      "num_tokens": 123168264.0,
      "step": 168
    },
    {
      "entropy": 0.518890380859375,
      "epoch": 1.8369565217391304,
      "grad_norm": 9.896083807719608,
      "learning_rate": 8.339708152022586e-06,
      "loss": 0.1967,
      "mean_token_accuracy": 0.8932291730307043,
      "num_tokens": 123878604.0,
      "step": 169
    },
    {
      "entropy": 0.5172882080078125,
      "epoch": 1.8478260869565217,
      "grad_norm": 8.399445357574287,
      "learning_rate": 8.317338948426338e-06,
      "loss": 0.2032,
      "mean_token_accuracy": 0.8750000074505806,
      "num_tokens": 124613040.0,
      "step": 170
    },
    {
      "entropy": 0.5319061279296875,
      "epoch": 1.858695652173913,
      "grad_norm": 2.3519721199725643,
      "learning_rate": 8.294850503800237e-06,
      "loss": 0.1941,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 125361088.0,
      "step": 171
    },
    {
      "entropy": 0.5432281494140625,
      "epoch": 1.8695652173913042,
      "grad_norm": 5.06819736789122,
      "learning_rate": 8.272243626486553e-06,
      "loss": 0.172,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 126096066.0,
      "step": 172
    },
    {
      "entropy": 0.5324554443359375,
      "epoch": 1.8804347826086958,
      "grad_norm": 5.962329649451884,
      "learning_rate": 8.24951912908459e-06,
      "loss": 0.1899,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 126810846.0,
      "step": 173
    },
    {
      "entropy": 0.5331573486328125,
      "epoch": 1.891304347826087,
      "grad_norm": 7.736043362137742,
      "learning_rate": 8.22667782842149e-06,
      "loss": 0.1784,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 127577698.0,
      "step": 174
    },
    {
      "entropy": 0.54498291015625,
      "epoch": 1.9021739130434783,
      "grad_norm": 5.301829358347619,
      "learning_rate": 8.203720545522852e-06,
      "loss": 0.1749,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 128296516.0,
      "step": 175
    },
    {
      "entropy": 0.5296783447265625,
      "epoch": 1.9130434782608696,
      "grad_norm": 1.0394130489239428,
      "learning_rate": 8.18064810558324e-06,
      "loss": 0.154,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 129013754.0,
      "step": 176
    },
    {
      "entropy": 0.495391845703125,
      "epoch": 1.9239130434782608,
      "grad_norm": 6.757494288903222,
      "learning_rate": 8.157461337936506e-06,
      "loss": 0.1874,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 129740915.0,
      "step": 177
    },
    {
      "entropy": 0.4972076416015625,
      "epoch": 1.9347826086956523,
      "grad_norm": 6.708183816209298,
      "learning_rate": 8.134161076025992e-06,
      "loss": 0.1731,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 130471618.0,
      "step": 178
    },
    {
      "entropy": 0.4832916259765625,
      "epoch": 1.9456521739130435,
      "grad_norm": 6.294960233719325,
      "learning_rate": 8.110748157374566e-06,
      "loss": 0.1783,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 131205904.0,
      "step": 179
    },
    {
      "entropy": 0.4949493408203125,
      "epoch": 1.9565217391304348,
      "grad_norm": 7.397526064076463,
      "learning_rate": 8.087223423554513e-06,
      "loss": 0.1994,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 131933350.0,
      "step": 180
    },
    {
      "entropy": 0.49066162109375,
      "epoch": 1.9673913043478262,
      "grad_norm": 6.030575983880446,
      "learning_rate": 8.063587720157298e-06,
      "loss": 0.1653,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 132675042.0,
      "step": 181
    },
    {
      "entropy": 0.5045166015625,
      "epoch": 1.9782608695652173,
      "grad_norm": 4.190012117944298,
      "learning_rate": 8.039841896763157e-06,
      "loss": 0.14,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 133422513.0,
      "step": 182
    },
    {
      "entropy": 0.489776611328125,
      "epoch": 1.9891304347826086,
      "grad_norm": 3.876908069413857,
      "learning_rate": 8.01598680691057e-06,
      "loss": 0.1791,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 134147316.0,
      "step": 183
    },
    {
      "entropy": 0.4915924072265625,
      "epoch": 2.0,
      "grad_norm": 4.569063569164726,
      "learning_rate": 7.99202330806557e-06,
      "loss": 0.1978,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 134885879.0,
      "step": 184
    },
    {
      "entropy": 0.4979400634765625,
      "epoch": 2.010869565217391,
      "grad_norm": 2.011761402318155,
      "learning_rate": 7.967952261590936e-06,
      "loss": 0.1633,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 135628296.0,
      "step": 185
    },
    {
      "entropy": 0.488739013671875,
      "epoch": 2.0217391304347827,
      "grad_norm": 1.5633584682073036,
      "learning_rate": 7.943774532715215e-06,
      "loss": 0.1485,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 136362010.0,
      "step": 186
    },
    {
      "entropy": 0.50390625,
      "epoch": 2.032608695652174,
      "grad_norm": 2.8660014327314394,
      "learning_rate": 7.919490990501636e-06,
      "loss": 0.1479,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 137073727.0,
      "step": 187
    },
    {
      "entropy": 0.509307861328125,
      "epoch": 2.0434782608695654,
      "grad_norm": 1.0845998433004236,
      "learning_rate": 7.895102507816866e-06,
      "loss": 0.1737,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 137799143.0,
      "step": 188
    },
    {
      "entropy": 0.48883056640625,
      "epoch": 2.0543478260869565,
      "grad_norm": 1.7419328904592353,
      "learning_rate": 7.870609961299627e-06,
      "loss": 0.1475,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 138533227.0,
      "step": 189
    },
    {
      "entropy": 0.4916534423828125,
      "epoch": 2.0652173913043477,
      "grad_norm": 2.291278146215755,
      "learning_rate": 7.8460142313292e-06,
      "loss": 0.1763,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 139276506.0,
      "step": 190
    },
    {
      "entropy": 0.493896484375,
      "epoch": 2.0760869565217392,
      "grad_norm": 1.6076810599316413,
      "learning_rate": 7.821316201993768e-06,
      "loss": 0.1564,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 140017470.0,
      "step": 191
    },
    {
      "entropy": 0.49066162109375,
      "epoch": 2.0869565217391304,
      "grad_norm": 4.475265978106575,
      "learning_rate": 7.796516761058649e-06,
      "loss": 0.1731,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 140748248.0,
      "step": 192
    },
    {
      "entropy": 0.493133544921875,
      "epoch": 2.097826086956522,
      "grad_norm": 4.312671156433616,
      "learning_rate": 7.771616799934372e-06,
      "loss": 0.1804,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 141478835.0,
      "step": 193
    },
    {
      "entropy": 0.499755859375,
      "epoch": 2.108695652173913,
      "grad_norm": 0.7483711192559422,
      "learning_rate": 7.746617213644646e-06,
      "loss": 0.1682,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 142221286.0,
      "step": 194
    },
    {
      "entropy": 0.501068115234375,
      "epoch": 2.119565217391304,
      "grad_norm": 4.2954692954010305,
      "learning_rate": 7.721518900794186e-06,
      "loss": 0.1854,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 142953568.0,
      "step": 195
    },
    {
      "entropy": 0.485595703125,
      "epoch": 2.130434782608696,
      "grad_norm": 4.671211381761794,
      "learning_rate": 7.696322763536408e-06,
      "loss": 0.1748,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 143702469.0,
      "step": 196
    },
    {
      "entropy": 0.4799041748046875,
      "epoch": 2.141304347826087,
      "grad_norm": 0.9836219862661417,
      "learning_rate": 7.67102970754101e-06,
      "loss": 0.1774,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 144471806.0,
      "step": 197
    },
    {
      "entropy": 0.5052490234375,
      "epoch": 2.1521739130434785,
      "grad_norm": 3.1192160130888555,
      "learning_rate": 7.645640641961407e-06,
      "loss": 0.1804,
      "mean_token_accuracy": 0.8932291730307043,
      "num_tokens": 145194287.0,
      "step": 198
    },
    {
      "entropy": 0.49761962890625,
      "epoch": 2.1630434782608696,
      "grad_norm": 3.445871727681119,
      "learning_rate": 7.620156479402066e-06,
      "loss": 0.1855,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 145943726.0,
      "step": 199
    },
    {
      "entropy": 0.515228271484375,
      "epoch": 2.1739130434782608,
      "grad_norm": 0.6667409314395262,
      "learning_rate": 7.594578135885684e-06,
      "loss": 0.1507,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 146673550.0,
      "step": 200
    },
    {
      "entropy": 0.4886322021484375,
      "epoch": 2.1847826086956523,
      "grad_norm": 3.3514963032660097,
      "learning_rate": 7.568906530820281e-06,
      "loss": 0.1814,
      "mean_token_accuracy": 0.8984375060535967,
      "num_tokens": 147425234.0,
      "step": 201
    },
    {
      "entropy": 0.493408203125,
      "epoch": 2.1956521739130435,
      "grad_norm": 2.7702350056752167,
      "learning_rate": 7.543142586966139e-06,
      "loss": 0.1569,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 148155094.0,
      "step": 202
    },
    {
      "entropy": 0.478668212890625,
      "epoch": 2.2065217391304346,
      "grad_norm": 1.5938734647861097,
      "learning_rate": 7.517287230402639e-06,
      "loss": 0.1746,
      "mean_token_accuracy": 0.9036458390764892,
      "num_tokens": 148897847.0,
      "step": 203
    },
    {
      "entropy": 0.47412109375,
      "epoch": 2.217391304347826,
      "grad_norm": 3.682760072143056,
      "learning_rate": 7.491341390494971e-06,
      "loss": 0.193,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 149650349.0,
      "step": 204
    },
    {
      "entropy": 0.4677886962890625,
      "epoch": 2.2282608695652173,
      "grad_norm": 4.007697554033263,
      "learning_rate": 7.465305999860728e-06,
      "loss": 0.161,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 150419100.0,
      "step": 205
    },
    {
      "entropy": 0.4760894775390625,
      "epoch": 2.239130434782609,
      "grad_norm": 1.9588555631544595,
      "learning_rate": 7.439181994336389e-06,
      "loss": 0.1704,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 151150398.0,
      "step": 206
    },
    {
      "entropy": 0.479400634765625,
      "epoch": 2.25,
      "grad_norm": 1.176329124399076,
      "learning_rate": 7.412970312943672e-06,
      "loss": 0.1584,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 151899017.0,
      "step": 207
    },
    {
      "entropy": 0.474853515625,
      "epoch": 2.260869565217391,
      "grad_norm": 0.7269940571297452,
      "learning_rate": 7.386671897855786e-06,
      "loss": 0.1383,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 152632926.0,
      "step": 208
    },
    {
      "entropy": 0.482818603515625,
      "epoch": 2.2717391304347827,
      "grad_norm": 1.1849435984619014,
      "learning_rate": 7.360287694363566e-06,
      "loss": 0.1324,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 153373866.0,
      "step": 209
    },
    {
      "entropy": 0.462158203125,
      "epoch": 2.282608695652174,
      "grad_norm": 4.955428834339278,
      "learning_rate": 7.333818650841489e-06,
      "loss": 0.1584,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 154085203.0,
      "step": 210
    },
    {
      "entropy": 0.460418701171875,
      "epoch": 2.2934782608695654,
      "grad_norm": 3.1530505699636286,
      "learning_rate": 7.3072657187135895e-06,
      "loss": 0.1393,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 154834346.0,
      "step": 211
    },
    {
      "entropy": 0.4654693603515625,
      "epoch": 2.3043478260869565,
      "grad_norm": 5.725042070911599,
      "learning_rate": 7.280629852419263e-06,
      "loss": 0.2428,
      "mean_token_accuracy": 0.8854166734963655,
      "num_tokens": 155578879.0,
      "step": 212
    },
    {
      "entropy": 0.4527587890625,
      "epoch": 2.3152173913043477,
      "grad_norm": 3.2517247782981533,
      "learning_rate": 7.253912009378953e-06,
      "loss": 0.1392,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 156291094.0,
      "step": 213
    },
    {
      "entropy": 0.448486328125,
      "epoch": 2.3260869565217392,
      "grad_norm": 1.0558389307984073,
      "learning_rate": 7.227113149959738e-06,
      "loss": 0.1729,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 157065259.0,
      "step": 214
    },
    {
      "entropy": 0.4589691162109375,
      "epoch": 2.3369565217391304,
      "grad_norm": 3.1628128566776557,
      "learning_rate": 7.200234237440815e-06,
      "loss": 0.1473,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 157804739.0,
      "step": 215
    },
    {
      "entropy": 0.4865875244140625,
      "epoch": 2.3478260869565215,
      "grad_norm": 2.4620741307336416,
      "learning_rate": 7.173276237978872e-06,
      "loss": 0.1364,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 158496874.0,
      "step": 216
    },
    {
      "entropy": 0.4752655029296875,
      "epoch": 2.358695652173913,
      "grad_norm": 6.2767622120404045,
      "learning_rate": 7.146240120573358e-06,
      "loss": 0.1596,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 159200475.0,
      "step": 217
    },
    {
      "entropy": 0.4763641357421875,
      "epoch": 2.369565217391304,
      "grad_norm": 6.830709876545856,
      "learning_rate": 7.1191268570316575e-06,
      "loss": 0.1668,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 159945146.0,
      "step": 218
    },
    {
      "entropy": 0.4749755859375,
      "epoch": 2.380434782608696,
      "grad_norm": 4.898026143838134,
      "learning_rate": 7.091937421934158e-06,
      "loss": 0.1858,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 160693910.0,
      "step": 219
    },
    {
      "entropy": 0.49066162109375,
      "epoch": 2.391304347826087,
      "grad_norm": 1.6154854645260395,
      "learning_rate": 7.064672792599208e-06,
      "loss": 0.1628,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 161417262.0,
      "step": 220
    },
    {
      "entropy": 0.48626708984375,
      "epoch": 2.4021739130434785,
      "grad_norm": 4.6457810029507325,
      "learning_rate": 7.037333949048005e-06,
      "loss": 0.1623,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 162149013.0,
      "step": 221
    },
    {
      "entropy": 0.4718017578125,
      "epoch": 2.4130434782608696,
      "grad_norm": 5.94973629009149,
      "learning_rate": 7.009921873969359e-06,
      "loss": 0.171,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 162885306.0,
      "step": 222
    },
    {
      "entropy": 0.494140625,
      "epoch": 2.4239130434782608,
      "grad_norm": 6.1544426423724286,
      "learning_rate": 6.9824375526843705e-06,
      "loss": 0.1756,
      "mean_token_accuracy": 0.9088541720993817,
      "num_tokens": 163597635.0,
      "step": 223
    },
    {
      "entropy": 0.480682373046875,
      "epoch": 2.4347826086956523,
      "grad_norm": 4.871091071402736,
      "learning_rate": 6.954881973111013e-06,
      "loss": 0.1874,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 164357872.0,
      "step": 224
    },
    {
      "entropy": 0.4827117919921875,
      "epoch": 2.4456521739130435,
      "grad_norm": 1.8804239604042254,
      "learning_rate": 6.927256125728624e-06,
      "loss": 0.1541,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 165083103.0,
      "step": 225
    },
    {
      "entropy": 0.49896240234375,
      "epoch": 2.4565217391304346,
      "grad_norm": 2.0963633913661566,
      "learning_rate": 6.8995610035423044e-06,
      "loss": 0.163,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 165794049.0,
      "step": 226
    },
    {
      "entropy": 0.4801025390625,
      "epoch": 2.467391304347826,
      "grad_norm": 3.302228600836905,
      "learning_rate": 6.871797602047221e-06,
      "loss": 0.154,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 166532769.0,
      "step": 227
    },
    {
      "entropy": 0.4969635009765625,
      "epoch": 2.4782608695652173,
      "grad_norm": 2.9066098431940808,
      "learning_rate": 6.843966919192827e-06,
      "loss": 0.1526,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 167272458.0,
      "step": 228
    },
    {
      "entropy": 0.48272705078125,
      "epoch": 2.489130434782609,
      "grad_norm": 0.7684434135811582,
      "learning_rate": 6.816069955346986e-06,
      "loss": 0.1633,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 168007644.0,
      "step": 229
    },
    {
      "entropy": 0.49456787109375,
      "epoch": 2.5,
      "grad_norm": 1.2436351266205883,
      "learning_rate": 6.788107713260023e-06,
      "loss": 0.1273,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 168746252.0,
      "step": 230
    },
    {
      "entropy": 0.5190887451171875,
      "epoch": 2.5108695652173916,
      "grad_norm": 3.218449799801032,
      "learning_rate": 6.760081198028671e-06,
      "loss": 0.1403,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 169440270.0,
      "step": 231
    },
    {
      "entropy": 0.51483154296875,
      "epoch": 2.5217391304347827,
      "grad_norm": 1.206287253408021,
      "learning_rate": 6.731991417059947e-06,
      "loss": 0.1658,
      "mean_token_accuracy": 0.9114583386108279,
      "num_tokens": 170134381.0,
      "step": 232
    },
    {
      "entropy": 0.4958038330078125,
      "epoch": 2.532608695652174,
      "grad_norm": 2.5426762765983533,
      "learning_rate": 6.703839380034945e-06,
      "loss": 0.1637,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 170868897.0,
      "step": 233
    },
    {
      "entropy": 0.504302978515625,
      "epoch": 2.5434782608695654,
      "grad_norm": 1.7587784249080798,
      "learning_rate": 6.675626098872536e-06,
      "loss": 0.1292,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 171602453.0,
      "step": 234
    },
    {
      "entropy": 0.50360107421875,
      "epoch": 2.5543478260869565,
      "grad_norm": 2.595301839408974,
      "learning_rate": 6.647352587693001e-06,
      "loss": 0.1623,
      "mean_token_accuracy": 0.901041672565043,
      "num_tokens": 172369089.0,
      "step": 235
    },
    {
      "entropy": 0.51690673828125,
      "epoch": 2.5652173913043477,
      "grad_norm": 4.113944280483122,
      "learning_rate": 6.619019862781571e-06,
      "loss": 0.1653,
      "mean_token_accuracy": 0.9140625051222742,
      "num_tokens": 173092121.0,
      "step": 236
    },
    {
      "entropy": 0.5264129638671875,
      "epoch": 2.5760869565217392,
      "grad_norm": 2.77268371858909,
      "learning_rate": 6.590628942551909e-06,
      "loss": 0.1608,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 173807004.0,
      "step": 237
    },
    {
      "entropy": 0.533966064453125,
      "epoch": 2.5869565217391304,
      "grad_norm": 1.6207325319244086,
      "learning_rate": 6.5621808475094904e-06,
      "loss": 0.1602,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 174536614.0,
      "step": 238
    },
    {
      "entropy": 0.5483245849609375,
      "epoch": 2.5978260869565215,
      "grad_norm": 4.09325968375707,
      "learning_rate": 6.533676600214929e-06,
      "loss": 0.156,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 175251184.0,
      "step": 239
    },
    {
      "entropy": 0.523773193359375,
      "epoch": 2.608695652173913,
      "grad_norm": 2.124312475910896,
      "learning_rate": 6.505117225247218e-06,
      "loss": 0.1528,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 175986504.0,
      "step": 240
    },
    {
      "entropy": 0.5486602783203125,
      "epoch": 2.619565217391304,
      "grad_norm": 2.02981768275945,
      "learning_rate": 6.476503749166903e-06,
      "loss": 0.1616,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 176705320.0,
      "step": 241
    },
    {
      "entropy": 0.5240631103515625,
      "epoch": 2.630434782608696,
      "grad_norm": 2.702796765747319,
      "learning_rate": 6.447837200479187e-06,
      "loss": 0.1405,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 177447920.0,
      "step": 242
    },
    {
      "entropy": 0.52191162109375,
      "epoch": 2.641304347826087,
      "grad_norm": 0.7634794821114382,
      "learning_rate": 6.419118609596948e-06,
      "loss": 0.1586,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 178166556.0,
      "step": 243
    },
    {
      "entropy": 0.5129241943359375,
      "epoch": 2.6521739130434785,
      "grad_norm": 1.4793164617181476,
      "learning_rate": 6.390349008803717e-06,
      "loss": 0.1525,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 178910525.0,
      "step": 244
    },
    {
      "entropy": 0.5019378662109375,
      "epoch": 2.6630434782608696,
      "grad_norm": 4.051710963504063,
      "learning_rate": 6.36152943221656e-06,
      "loss": 0.1406,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 179678961.0,
      "step": 245
    },
    {
      "entropy": 0.514190673828125,
      "epoch": 2.6739130434782608,
      "grad_norm": 0.9897985294122893,
      "learning_rate": 6.332660915748915e-06,
      "loss": 0.1477,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 180415652.0,
      "step": 246
    },
    {
      "entropy": 0.516510009765625,
      "epoch": 2.6847826086956523,
      "grad_norm": 3.817408067829971,
      "learning_rate": 6.303744497073352e-06,
      "loss": 0.1408,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 181157846.0,
      "step": 247
    },
    {
      "entropy": 0.52227783203125,
      "epoch": 2.6956521739130435,
      "grad_norm": 3.799785084067117,
      "learning_rate": 6.274781215584277e-06,
      "loss": 0.1547,
      "mean_token_accuracy": 0.9218750046566129,
      "num_tokens": 181881517.0,
      "step": 248
    },
    {
      "entropy": 0.515960693359375,
      "epoch": 2.7065217391304346,
      "grad_norm": 1.507697844781902,
      "learning_rate": 6.245772112360568e-06,
      "loss": 0.156,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 182620596.0,
      "step": 249
    },
    {
      "entropy": 0.5306243896484375,
      "epoch": 2.717391304347826,
      "grad_norm": 4.752792238554964,
      "learning_rate": 6.216718230128156e-06,
      "loss": 0.1576,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 183354783.0,
      "step": 250
    },
    {
      "entropy": 0.542877197265625,
      "epoch": 2.7282608695652173,
      "grad_norm": 5.4515241319319045,
      "learning_rate": 6.187620613222544e-06,
      "loss": 0.1758,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 184060449.0,
      "step": 251
    },
    {
      "entropy": 0.533355712890625,
      "epoch": 2.7391304347826084,
      "grad_norm": 2.6672684035967937,
      "learning_rate": 6.158480307551269e-06,
      "loss": 0.1508,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 184749117.0,
      "step": 252
    },
    {
      "entropy": 0.5334625244140625,
      "epoch": 2.75,
      "grad_norm": 2.3295496851054875,
      "learning_rate": 6.129298360556304e-06,
      "loss": 0.1371,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 185480093.0,
      "step": 253
    },
    {
      "entropy": 0.5131988525390625,
      "epoch": 2.7608695652173916,
      "grad_norm": 3.7824601270826648,
      "learning_rate": 6.100075821176412e-06,
      "loss": 0.1565,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 186192228.0,
      "step": 254
    },
    {
      "entropy": 0.51922607421875,
      "epoch": 2.7717391304347827,
      "grad_norm": 5.391917149981669,
      "learning_rate": 6.070813739809443e-06,
      "loss": 0.16,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 186928641.0,
      "step": 255
    },
    {
      "entropy": 0.51202392578125,
      "epoch": 2.782608695652174,
      "grad_norm": 0.724662411254881,
      "learning_rate": 6.041513168274568e-06,
      "loss": 0.1441,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 187670299.0,
      "step": 256
    },
    {
      "entropy": 0.5032501220703125,
      "epoch": 2.7934782608695654,
      "grad_norm": 1.3103793087117857,
      "learning_rate": 6.012175159774488e-06,
      "loss": 0.1416,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 188401414.0,
      "step": 257
    },
    {
      "entropy": 0.485321044921875,
      "epoch": 2.8043478260869565,
      "grad_norm": 0.8323847222253291,
      "learning_rate": 5.982800768857561e-06,
      "loss": 0.1428,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 189165441.0,
      "step": 258
    },
    {
      "entropy": 0.4893341064453125,
      "epoch": 2.8152173913043477,
      "grad_norm": 2.2496430942208208,
      "learning_rate": 5.953391051379904e-06,
      "loss": 0.1533,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 189895878.0,
      "step": 259
    },
    {
      "entropy": 0.4759674072265625,
      "epoch": 2.8260869565217392,
      "grad_norm": 1.9181187150890504,
      "learning_rate": 5.9239470644674425e-06,
      "loss": 0.185,
      "mean_token_accuracy": 0.9062500055879354,
      "num_tokens": 190631924.0,
      "step": 260
    },
    {
      "entropy": 0.466400146484375,
      "epoch": 2.8369565217391304,
      "grad_norm": 2.1187197760310936,
      "learning_rate": 5.894469866477905e-06,
      "loss": 0.1498,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 191386453.0,
      "step": 261
    },
    {
      "entropy": 0.479248046875,
      "epoch": 2.8478260869565215,
      "grad_norm": 3.1187559933739992,
      "learning_rate": 5.864960516962791e-06,
      "loss": 0.1456,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 192102959.0,
      "step": 262
    },
    {
      "entropy": 0.4675140380859375,
      "epoch": 2.858695652173913,
      "grad_norm": 2.5567012262951447,
      "learning_rate": 5.835420076629273e-06,
      "loss": 0.1334,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 192842595.0,
      "step": 263
    },
    {
      "entropy": 0.484619140625,
      "epoch": 2.869565217391304,
      "grad_norm": 1.2200705069880855,
      "learning_rate": 5.805849607302081e-06,
      "loss": 0.1454,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 193571727.0,
      "step": 264
    },
    {
      "entropy": 0.4631805419921875,
      "epoch": 2.880434782608696,
      "grad_norm": 1.2637870799204753,
      "learning_rate": 5.776250171885329e-06,
      "loss": 0.1059,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 194324493.0,
      "step": 265
    },
    {
      "entropy": 0.4783477783203125,
      "epoch": 2.891304347826087,
      "grad_norm": 0.9646069468062968,
      "learning_rate": 5.74662283432431e-06,
      "loss": 0.1646,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 195050734.0,
      "step": 266
    },
    {
      "entropy": 0.4779815673828125,
      "epoch": 2.9021739130434785,
      "grad_norm": 1.6054496616811964,
      "learning_rate": 5.716968659567256e-06,
      "loss": 0.1245,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 195770506.0,
      "step": 267
    },
    {
      "entropy": 0.475128173828125,
      "epoch": 2.9130434782608696,
      "grad_norm": 2.042998096208425,
      "learning_rate": 5.687288713527051e-06,
      "loss": 0.1624,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 196495105.0,
      "step": 268
    },
    {
      "entropy": 0.453460693359375,
      "epoch": 2.9239130434782608,
      "grad_norm": 1.3574496962557918,
      "learning_rate": 5.6575840630429295e-06,
      "loss": 0.117,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 197246569.0,
      "step": 269
    },
    {
      "entropy": 0.467010498046875,
      "epoch": 2.9347826086956523,
      "grad_norm": 2.4442188447820454,
      "learning_rate": 5.627855775842116e-06,
      "loss": 0.1447,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 197997968.0,
      "step": 270
    },
    {
      "entropy": 0.4571990966796875,
      "epoch": 2.9456521739130435,
      "grad_norm": 3.273142410440624,
      "learning_rate": 5.598104920501455e-06,
      "loss": 0.1432,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 198752274.0,
      "step": 271
    },
    {
      "entropy": 0.4535980224609375,
      "epoch": 2.9565217391304346,
      "grad_norm": 0.7568437765232974,
      "learning_rate": 5.568332566408995e-06,
      "loss": 0.125,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 199492007.0,
      "step": 272
    },
    {
      "entropy": 0.4499053955078125,
      "epoch": 2.967391304347826,
      "grad_norm": 1.2152277385723602,
      "learning_rate": 5.538539783725556e-06,
      "loss": 0.14,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 200254609.0,
      "step": 273
    },
    {
      "entropy": 0.46624755859375,
      "epoch": 2.9782608695652173,
      "grad_norm": 2.2425048748276666,
      "learning_rate": 5.508727643346257e-06,
      "loss": 0.145,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 200966512.0,
      "step": 274
    },
    {
      "entropy": 0.475830078125,
      "epoch": 2.9891304347826084,
      "grad_norm": 3.569725075518144,
      "learning_rate": 5.478897216862026e-06,
      "loss": 0.152,
      "mean_token_accuracy": 0.9296875041909516,
      "num_tokens": 201672530.0,
      "step": 275
    },
    {
      "entropy": 0.450531005859375,
      "epoch": 3.0,
      "grad_norm": 2.2316169808350987,
      "learning_rate": 5.4490495765210795e-06,
      "loss": 0.1287,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 202409184.0,
      "step": 276
    },
    {
      "entropy": 0.467315673828125,
      "epoch": 3.010869565217391,
      "grad_norm": 1.155452462721732,
      "learning_rate": 5.4191857951903825e-06,
      "loss": 0.1284,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 203125805.0,
      "step": 277
    },
    {
      "entropy": 0.46405029296875,
      "epoch": 3.0217391304347827,
      "grad_norm": 4.439719543855472,
      "learning_rate": 5.389306946317089e-06,
      "loss": 0.1365,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 203861806.0,
      "step": 278
    },
    {
      "entropy": 0.457916259765625,
      "epoch": 3.032608695652174,
      "grad_norm": 3.714546909571618,
      "learning_rate": 5.359414103889947e-06,
      "loss": 0.1367,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 204590036.0,
      "step": 279
    },
    {
      "entropy": 0.4607086181640625,
      "epoch": 3.0434782608695654,
      "grad_norm": 1.1013062347181983,
      "learning_rate": 5.329508342400702e-06,
      "loss": 0.1341,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 205319947.0,
      "step": 280
    },
    {
      "entropy": 0.4658355712890625,
      "epoch": 3.0543478260869565,
      "grad_norm": 1.0784206276204602,
      "learning_rate": 5.29959073680547e-06,
      "loss": 0.1137,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 206037330.0,
      "step": 281
    },
    {
      "entropy": 0.461151123046875,
      "epoch": 3.0652173913043477,
      "grad_norm": 1.0577676870964876,
      "learning_rate": 5.2696623624861065e-06,
      "loss": 0.1668,
      "mean_token_accuracy": 0.9166666716337204,
      "num_tokens": 206745367.0,
      "step": 282
    },
    {
      "entropy": 0.4409637451171875,
      "epoch": 3.0760869565217392,
      "grad_norm": 1.0134308211234975,
      "learning_rate": 5.239724295211541e-06,
      "loss": 0.1541,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 207489109.0,
      "step": 283
    },
    {
      "entropy": 0.442108154296875,
      "epoch": 3.0869565217391304,
      "grad_norm": 1.5007166042833657,
      "learning_rate": 5.209777611099117e-06,
      "loss": 0.1306,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 208209434.0,
      "step": 284
    },
    {
      "entropy": 0.471832275390625,
      "epoch": 3.097826086956522,
      "grad_norm": 0.9352996188921896,
      "learning_rate": 5.179823386575908e-06,
      "loss": 0.1378,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 208899690.0,
      "step": 285
    },
    {
      "entropy": 0.447113037109375,
      "epoch": 3.108695652173913,
      "grad_norm": 0.9348602734891125,
      "learning_rate": 5.1498626983400215e-06,
      "loss": 0.1239,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 209639104.0,
      "step": 286
    },
    {
      "entropy": 0.4783782958984375,
      "epoch": 3.119565217391304,
      "grad_norm": 0.9627188921229722,
      "learning_rate": 5.11989662332191e-06,
      "loss": 0.1165,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 210343933.0,
      "step": 287
    },
    {
      "entropy": 0.44903564453125,
      "epoch": 3.130434782608696,
      "grad_norm": 1.9013850037088589,
      "learning_rate": 5.089926238645645e-06,
      "loss": 0.105,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 211060021.0,
      "step": 288
    },
    {
      "entropy": 0.4605255126953125,
      "epoch": 3.141304347826087,
      "grad_norm": 5.360040551642716,
      "learning_rate": 5.059952621590216e-06,
      "loss": 0.1282,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 211787294.0,
      "step": 289
    },
    {
      "entropy": 0.4346771240234375,
      "epoch": 3.1521739130434785,
      "grad_norm": 1.2158843179184535,
      "learning_rate": 5.029976849550789e-06,
      "loss": 0.1079,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 212533603.0,
      "step": 290
    },
    {
      "entropy": 0.4268646240234375,
      "epoch": 3.1630434782608696,
      "grad_norm": 1.0590373459969298,
      "learning_rate": 5e-06,
      "loss": 0.1257,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 213286118.0,
      "step": 291
    },
    {
      "entropy": 0.4403076171875,
      "epoch": 3.1739130434782608,
      "grad_norm": 1.431545885630609,
      "learning_rate": 4.970023150449212e-06,
      "loss": 0.1217,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 214016417.0,
      "step": 292
    },
    {
      "entropy": 0.432830810546875,
      "epoch": 3.1847826086956523,
      "grad_norm": 3.1834509822913493,
      "learning_rate": 4.940047378409786e-06,
      "loss": 0.1467,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 214748358.0,
      "step": 293
    },
    {
      "entropy": 0.4382781982421875,
      "epoch": 3.1956521739130435,
      "grad_norm": 1.5969903853122367,
      "learning_rate": 4.910073761354354e-06,
      "loss": 0.0999,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 215487143.0,
      "step": 294
    },
    {
      "entropy": 0.43194580078125,
      "epoch": 3.2065217391304346,
      "grad_norm": 2.812090627874167,
      "learning_rate": 4.880103376678092e-06,
      "loss": 0.1534,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 216232375.0,
      "step": 295
    },
    {
      "entropy": 0.43426513671875,
      "epoch": 3.217391304347826,
      "grad_norm": 4.077098166197646,
      "learning_rate": 4.85013730165998e-06,
      "loss": 0.1514,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 216968342.0,
      "step": 296
    },
    {
      "entropy": 0.4470977783203125,
      "epoch": 3.2282608695652173,
      "grad_norm": 1.185093750333269,
      "learning_rate": 4.820176613424095e-06,
      "loss": 0.134,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 217678021.0,
      "step": 297
    },
    {
      "entropy": 0.462493896484375,
      "epoch": 3.239130434782609,
      "grad_norm": 1.1601141991281172,
      "learning_rate": 4.790222388900884e-06,
      "loss": 0.1547,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 218398180.0,
      "step": 298
    },
    {
      "entropy": 0.438262939453125,
      "epoch": 3.25,
      "grad_norm": 2.1855359868868356,
      "learning_rate": 4.76027570478846e-06,
      "loss": 0.1139,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 219135788.0,
      "step": 299
    },
    {
      "entropy": 0.459991455078125,
      "epoch": 3.260869565217391,
      "grad_norm": 0.9146850095898352,
      "learning_rate": 4.730337637513895e-06,
      "loss": 0.1061,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 219838303.0,
      "step": 300
    },
    {
      "entropy": 0.4428863525390625,
      "epoch": 3.2717391304347827,
      "grad_norm": 2.363470612035146,
      "learning_rate": 4.7004092631945315e-06,
      "loss": 0.1051,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 220583629.0,
      "step": 301
    },
    {
      "entropy": 0.4447021484375,
      "epoch": 3.282608695652174,
      "grad_norm": 1.7524086570706856,
      "learning_rate": 4.6704916575993005e-06,
      "loss": 0.1289,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 221302037.0,
      "step": 302
    },
    {
      "entropy": 0.41864013671875,
      "epoch": 3.2934782608695654,
      "grad_norm": 1.3140340185389734,
      "learning_rate": 4.640585896110054e-06,
      "loss": 0.0986,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 222066006.0,
      "step": 303
    },
    {
      "entropy": 0.4296112060546875,
      "epoch": 3.3043478260869565,
      "grad_norm": 1.0039768771579762,
      "learning_rate": 4.610693053682912e-06,
      "loss": 0.0892,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 222775073.0,
      "step": 304
    },
    {
      "entropy": 0.423919677734375,
      "epoch": 3.3152173913043477,
      "grad_norm": 1.540347595426879,
      "learning_rate": 4.580814204809618e-06,
      "loss": 0.1562,
      "mean_token_accuracy": 0.9322916707023978,
      "num_tokens": 223508480.0,
      "step": 305
    },
    {
      "entropy": 0.4127655029296875,
      "epoch": 3.3260869565217392,
      "grad_norm": 2.6405161415150284,
      "learning_rate": 4.550950423478923e-06,
      "loss": 0.1663,
      "mean_token_accuracy": 0.9244791711680591,
      "num_tokens": 224249166.0,
      "step": 306
    },
    {
      "entropy": 0.4346466064453125,
      "epoch": 3.3369565217391304,
      "grad_norm": 1.2725045055781443,
      "learning_rate": 4.521102783137976e-06,
      "loss": 0.1139,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 224964829.0,
      "step": 307
    },
    {
      "entropy": 0.4253082275390625,
      "epoch": 3.3478260869565215,
      "grad_norm": 3.542762099361581,
      "learning_rate": 4.491272356653744e-06,
      "loss": 0.141,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 225695450.0,
      "step": 308
    },
    {
      "entropy": 0.4312896728515625,
      "epoch": 3.358695652173913,
      "grad_norm": 1.4075476742479234,
      "learning_rate": 4.4614602162744455e-06,
      "loss": 0.1014,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 226428347.0,
      "step": 309
    },
    {
      "entropy": 0.41754150390625,
      "epoch": 3.369565217391304,
      "grad_norm": 2.955579810558144,
      "learning_rate": 4.431667433591006e-06,
      "loss": 0.1078,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 227165216.0,
      "step": 310
    },
    {
      "entropy": 0.4256134033203125,
      "epoch": 3.380434782608696,
      "grad_norm": 2.0858407788842475,
      "learning_rate": 4.401895079498547e-06,
      "loss": 0.1406,
      "mean_token_accuracy": 0.9270833376795053,
      "num_tokens": 227902986.0,
      "step": 311
    },
    {
      "entropy": 0.4481201171875,
      "epoch": 3.391304347826087,
      "grad_norm": 1.9313158281403922,
      "learning_rate": 4.372144224157886e-06,
      "loss": 0.1105,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 228620562.0,
      "step": 312
    },
    {
      "entropy": 0.4311676025390625,
      "epoch": 3.4021739130434785,
      "grad_norm": 2.3098132924113677,
      "learning_rate": 4.342415936957073e-06,
      "loss": 0.1017,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 229352836.0,
      "step": 313
    },
    {
      "entropy": 0.42828369140625,
      "epoch": 3.4130434782608696,
      "grad_norm": 2.0814386371937075,
      "learning_rate": 4.312711286472951e-06,
      "loss": 0.1224,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 230079952.0,
      "step": 314
    },
    {
      "entropy": 0.427947998046875,
      "epoch": 3.4239130434782608,
      "grad_norm": 1.9996110898701585,
      "learning_rate": 4.2830313404327475e-06,
      "loss": 0.1326,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 230812071.0,
      "step": 315
    },
    {
      "entropy": 0.4360504150390625,
      "epoch": 3.4347826086956523,
      "grad_norm": 3.1924366215239086,
      "learning_rate": 4.253377165675691e-06,
      "loss": 0.132,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 231535546.0,
      "step": 316
    },
    {
      "entropy": 0.4373779296875,
      "epoch": 3.4456521739130435,
      "grad_norm": 1.1512267668004963,
      "learning_rate": 4.223749828114672e-06,
      "loss": 0.1251,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 232259807.0,
      "step": 317
    },
    {
      "entropy": 0.418121337890625,
      "epoch": 3.4565217391304346,
      "grad_norm": 2.3382789115652955,
      "learning_rate": 4.19415039269792e-06,
      "loss": 0.1082,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 232989843.0,
      "step": 318
    },
    {
      "entropy": 0.42547607421875,
      "epoch": 3.467391304347826,
      "grad_norm": 1.4843742656761605,
      "learning_rate": 4.1645799233707286e-06,
      "loss": 0.1021,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 233716641.0,
      "step": 319
    },
    {
      "entropy": 0.4476776123046875,
      "epoch": 3.4782608695652173,
      "grad_norm": 2.116647698152539,
      "learning_rate": 4.1350394830372106e-06,
      "loss": 0.1043,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 234426600.0,
      "step": 320
    },
    {
      "entropy": 0.423126220703125,
      "epoch": 3.489130434782609,
      "grad_norm": 3.175513255501147,
      "learning_rate": 4.105530133522096e-06,
      "loss": 0.1362,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 235140557.0,
      "step": 321
    },
    {
      "entropy": 0.416778564453125,
      "epoch": 3.5,
      "grad_norm": 1.3681770945745146,
      "learning_rate": 4.076052935532559e-06,
      "loss": 0.1104,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 235862288.0,
      "step": 322
    },
    {
      "entropy": 0.421142578125,
      "epoch": 3.5108695652173916,
      "grad_norm": 1.2478012478313067,
      "learning_rate": 4.046608948620098e-06,
      "loss": 0.117,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 236592962.0,
      "step": 323
    },
    {
      "entropy": 0.4007110595703125,
      "epoch": 3.5217391304347827,
      "grad_norm": 1.2192218890006712,
      "learning_rate": 4.017199231142441e-06,
      "loss": 0.1004,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 237360936.0,
      "step": 324
    },
    {
      "entropy": 0.41045379638671875,
      "epoch": 3.532608695652174,
      "grad_norm": 1.782129018036765,
      "learning_rate": 3.987824840225512e-06,
      "loss": 0.0803,
      "mean_token_accuracy": 0.9713541683740914,
      "num_tokens": 238121690.0,
      "step": 325
    },
    {
      "entropy": 0.4217681884765625,
      "epoch": 3.5434782608695654,
      "grad_norm": 2.4783388062418332,
      "learning_rate": 3.9584868317254325e-06,
      "loss": 0.1193,
      "mean_token_accuracy": 0.9479166697710752,
      "num_tokens": 238871992.0,
      "step": 326
    },
    {
      "entropy": 0.435150146484375,
      "epoch": 3.5543478260869565,
      "grad_norm": 1.8035229623195796,
      "learning_rate": 3.92918626019056e-06,
      "loss": 0.121,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 239580979.0,
      "step": 327
    },
    {
      "entropy": 0.4100799560546875,
      "epoch": 3.5652173913043477,
      "grad_norm": 2.0452387325751045,
      "learning_rate": 3.8999241788235896e-06,
      "loss": 0.1131,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 240336862.0,
      "step": 328
    },
    {
      "entropy": 0.432373046875,
      "epoch": 3.5760869565217392,
      "grad_norm": 5.532766079853454,
      "learning_rate": 3.8707016394436985e-06,
      "loss": 0.1331,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 241051170.0,
      "step": 329
    },
    {
      "entropy": 0.4186859130859375,
      "epoch": 3.5869565217391304,
      "grad_norm": 5.186457994321307,
      "learning_rate": 3.841519692448732e-06,
      "loss": 0.1262,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 241775957.0,
      "step": 330
    },
    {
      "entropy": 0.4066925048828125,
      "epoch": 3.5978260869565215,
      "grad_norm": 5.253329751808193,
      "learning_rate": 3.8123793867774573e-06,
      "loss": 0.1277,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 242534003.0,
      "step": 331
    },
    {
      "entropy": 0.4134674072265625,
      "epoch": 3.608695652173913,
      "grad_norm": 1.338790746811853,
      "learning_rate": 3.7832817698718456e-06,
      "loss": 0.1026,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 243260702.0,
      "step": 332
    },
    {
      "entropy": 0.4235687255859375,
      "epoch": 3.619565217391304,
      "grad_norm": 3.6263541588041104,
      "learning_rate": 3.754227887639434e-06,
      "loss": 0.1103,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 243996430.0,
      "step": 333
    },
    {
      "entropy": 0.4259033203125,
      "epoch": 3.630434782608696,
      "grad_norm": 4.632569343348872,
      "learning_rate": 3.725218784415723e-06,
      "loss": 0.133,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 244706266.0,
      "step": 334
    },
    {
      "entropy": 0.4309539794921875,
      "epoch": 3.641304347826087,
      "grad_norm": 1.2559147962035235,
      "learning_rate": 3.6962555029266488e-06,
      "loss": 0.1052,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 245427369.0,
      "step": 335
    },
    {
      "entropy": 0.4288482666015625,
      "epoch": 3.6521739130434785,
      "grad_norm": 1.925762067019735,
      "learning_rate": 3.667339084251087e-06,
      "loss": 0.1156,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 246160736.0,
      "step": 336
    },
    {
      "entropy": 0.4231109619140625,
      "epoch": 3.6630434782608696,
      "grad_norm": 2.6379898072239394,
      "learning_rate": 3.638470567783442e-06,
      "loss": 0.1731,
      "mean_token_accuracy": 0.9192708381451666,
      "num_tokens": 246906724.0,
      "step": 337
    },
    {
      "entropy": 0.4250946044921875,
      "epoch": 3.6739130434782608,
      "grad_norm": 1.538309678267504,
      "learning_rate": 3.609650991196285e-06,
      "loss": 0.1129,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 247654930.0,
      "step": 338
    },
    {
      "entropy": 0.4392852783203125,
      "epoch": 3.6847826086956523,
      "grad_norm": 1.7628571400929238,
      "learning_rate": 3.5808813904030517e-06,
      "loss": 0.0932,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 248400951.0,
      "step": 339
    },
    {
      "entropy": 0.4522247314453125,
      "epoch": 3.6956521739130435,
      "grad_norm": 3.1097299849854645,
      "learning_rate": 3.5521627995208146e-06,
      "loss": 0.119,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 249092247.0,
      "step": 340
    },
    {
      "entropy": 0.4652099609375,
      "epoch": 3.7065217391304346,
      "grad_norm": 1.3341573412602434,
      "learning_rate": 3.523496250833098e-06,
      "loss": 0.1172,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 249813089.0,
      "step": 341
    },
    {
      "entropy": 0.440338134765625,
      "epoch": 3.717391304347826,
      "grad_norm": 2.7839958231301964,
      "learning_rate": 3.4948827747527846e-06,
      "loss": 0.109,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 250551587.0,
      "step": 342
    },
    {
      "entropy": 0.4490203857421875,
      "epoch": 3.7282608695652173,
      "grad_norm": 3.144055068640186,
      "learning_rate": 3.466323399785072e-06,
      "loss": 0.1046,
      "mean_token_accuracy": 0.9505208362825215,
      "num_tokens": 251296173.0,
      "step": 343
    },
    {
      "entropy": 0.442626953125,
      "epoch": 3.7391304347826084,
      "grad_norm": 1.589094697339438,
      "learning_rate": 3.4378191524905104e-06,
      "loss": 0.1255,
      "mean_token_accuracy": 0.9401041702367365,
      "num_tokens": 252025474.0,
      "step": 344
    },
    {
      "entropy": 0.4576416015625,
      "epoch": 3.75,
      "grad_norm": 1.3032490925083495,
      "learning_rate": 3.4093710574480926e-06,
      "loss": 0.088,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 252772894.0,
      "step": 345
    },
    {
      "entropy": 0.448028564453125,
      "epoch": 3.7608695652173916,
      "grad_norm": 1.3034449030267188,
      "learning_rate": 3.3809801372184305e-06,
      "loss": 0.1149,
      "mean_token_accuracy": 0.9427083367481828,
      "num_tokens": 253493038.0,
      "step": 346
    },
    {
      "entropy": 0.4547271728515625,
      "epoch": 3.7717391304347827,
      "grad_norm": 1.8757986316334996,
      "learning_rate": 3.352647412307002e-06,
      "loss": 0.1176,
      "mean_token_accuracy": 0.9375000037252903,
      "num_tokens": 254222232.0,
      "step": 347
    },
    {
      "entropy": 0.4619140625,
      "epoch": 3.782608695652174,
      "grad_norm": 1.6178080243839288,
      "learning_rate": 3.3243739011274645e-06,
      "loss": 0.1324,
      "mean_token_accuracy": 0.945312503259629,
      "num_tokens": 254929176.0,
      "step": 348
    },
    {
      "entropy": 0.4401397705078125,
      "epoch": 3.7934782608695654,
      "grad_norm": 1.6460935223968274,
      "learning_rate": 3.296160619965056e-06,
      "loss": 0.0854,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 255683841.0,
      "step": 349
    },
    {
      "entropy": 0.4356842041015625,
      "epoch": 3.8043478260869565,
      "grad_norm": 1.7742883836129426,
      "learning_rate": 3.2680085829400553e-06,
      "loss": 0.0949,
      "mean_token_accuracy": 0.9583333358168602,
      "num_tokens": 256424419.0,
      "step": 350
    },
    {
      "entropy": 0.452850341796875,
      "epoch": 3.8152173913043477,
      "grad_norm": 1.9461414981732725,
      "learning_rate": 3.2399188019713325e-06,
      "loss": 0.0863,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 257143278.0,
      "step": 351
    },
    {
      "entropy": 0.4462432861328125,
      "epoch": 3.8260869565217392,
      "grad_norm": 1.685998348101853,
      "learning_rate": 3.2118922867399776e-06,
      "loss": 0.0905,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 257869019.0,
      "step": 352
    },
    {
      "entropy": 0.437042236328125,
      "epoch": 3.8369565217391304,
      "grad_norm": 1.8024785110692811,
      "learning_rate": 3.183930044653014e-06,
      "loss": 0.0893,
      "mean_token_accuracy": 0.9609375023283064,
      "num_tokens": 258603966.0,
      "step": 353
    },
    {
      "entropy": 0.4339447021484375,
      "epoch": 3.8478260869565215,
      "grad_norm": 1.6394660744581913,
      "learning_rate": 3.156033080807175e-06,
      "loss": 0.0907,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 259336975.0,
      "step": 354
    },
    {
      "entropy": 0.4184722900390625,
      "epoch": 3.858695652173913,
      "grad_norm": 1.8722124602633707,
      "learning_rate": 3.128202397952781e-06,
      "loss": 0.088,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 260083901.0,
      "step": 355
    },
    {
      "entropy": 0.4140472412109375,
      "epoch": 3.869565217391304,
      "grad_norm": 2.3964462393985455,
      "learning_rate": 3.1004389964576976e-06,
      "loss": 0.0895,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 260826029.0,
      "step": 356
    },
    {
      "entropy": 0.406280517578125,
      "epoch": 3.880434782608696,
      "grad_norm": 3.0304238267752117,
      "learning_rate": 3.0727438742713766e-06,
      "loss": 0.1393,
      "mean_token_accuracy": 0.9348958372138441,
      "num_tokens": 261556380.0,
      "step": 357
    },
    {
      "entropy": 0.416473388671875,
      "epoch": 3.891304347826087,
      "grad_norm": 2.4609206217744815,
      "learning_rate": 3.045118026888988e-06,
      "loss": 0.0991,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 262300080.0,
      "step": 358
    },
    {
      "entropy": 0.3929595947265625,
      "epoch": 3.9021739130434785,
      "grad_norm": 2.382358141421754,
      "learning_rate": 3.0175624473156315e-06,
      "loss": 0.0734,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 263060113.0,
      "step": 359
    },
    {
      "entropy": 0.396087646484375,
      "epoch": 3.9130434782608696,
      "grad_norm": 1.8836281495819798,
      "learning_rate": 2.9900781260306427e-06,
      "loss": 0.0872,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 263799157.0,
      "step": 360
    },
    {
      "entropy": 0.4022064208984375,
      "epoch": 3.9239130434782608,
      "grad_norm": 2.3427306331934603,
      "learning_rate": 2.962666050951997e-06,
      "loss": 0.1029,
      "mean_token_accuracy": 0.955729169305414,
      "num_tokens": 264513699.0,
      "step": 361
    },
    {
      "entropy": 0.3871002197265625,
      "epoch": 3.9347826086956523,
      "grad_norm": 2.067926121033849,
      "learning_rate": 2.9353272074007933e-06,
      "loss": 0.1008,
      "mean_token_accuracy": 0.9713541683740914,
      "num_tokens": 265248327.0,
      "step": 362
    },
    {
      "entropy": 0.403656005859375,
      "epoch": 3.9456521739130435,
      "grad_norm": 2.209648870841767,
      "learning_rate": 2.9080625780658455e-06,
      "loss": 0.0716,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 265970746.0,
      "step": 363
    },
    {
      "entropy": 0.381805419921875,
      "epoch": 3.9565217391304346,
      "grad_norm": 2.8932089169983692,
      "learning_rate": 2.8808731429683433e-06,
      "loss": 0.0946,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 266712496.0,
      "step": 364
    },
    {
      "entropy": 0.389129638671875,
      "epoch": 3.967391304347826,
      "grad_norm": 2.123089080663753,
      "learning_rate": 2.853759879426644e-06,
      "loss": 0.0688,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 267448776.0,
      "step": 365
    },
    {
      "entropy": 0.3920135498046875,
      "epoch": 3.9782608695652173,
      "grad_norm": 2.440302001399459,
      "learning_rate": 2.8267237620211296e-06,
      "loss": 0.1044,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 268191430.0,
      "step": 366
    },
    {
      "entropy": 0.4004058837890625,
      "epoch": 3.9891304347826084,
      "grad_norm": 2.905001852536502,
      "learning_rate": 2.7997657625591866e-06,
      "loss": 0.09,
      "mean_token_accuracy": 0.9635416688397527,
      "num_tokens": 268935293.0,
      "step": 367
    },
    {
      "entropy": 0.3931884765625,
      "epoch": 4.0,
      "grad_norm": 2.6233442500087314,
      "learning_rate": 2.772886850040264e-06,
      "loss": 0.0636,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 269677150.0,
      "step": 368
    },
    {
      "entropy": 0.386810302734375,
      "epoch": 4.010869565217392,
      "grad_norm": 1.5856686915393858,
      "learning_rate": 2.7460879906210485e-06,
      "loss": 0.049,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 270457909.0,
      "step": 369
    },
    {
      "entropy": 0.3846588134765625,
      "epoch": 4.021739130434782,
      "grad_norm": 2.2250796737473832,
      "learning_rate": 2.7193701475807376e-06,
      "loss": 0.0545,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 271208921.0,
      "step": 370
    },
    {
      "entropy": 0.40142822265625,
      "epoch": 4.032608695652174,
      "grad_norm": 2.1443349002655894,
      "learning_rate": 2.6927342812864117e-06,
      "loss": 0.055,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 271921882.0,
      "step": 371
    },
    {
      "entropy": 0.3978118896484375,
      "epoch": 4.043478260869565,
      "grad_norm": 3.5940688629448148,
      "learning_rate": 2.6661813491585133e-06,
      "loss": 0.0538,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 272636102.0,
      "step": 372
    },
    {
      "entropy": 0.4162750244140625,
      "epoch": 4.054347826086956,
      "grad_norm": 2.73981085844784,
      "learning_rate": 2.6397123056364364e-06,
      "loss": 0.056,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 273348554.0,
      "step": 373
    },
    {
      "entropy": 0.38433837890625,
      "epoch": 4.065217391304348,
      "grad_norm": 1.8414025752492735,
      "learning_rate": 2.613328102144216e-06,
      "loss": 0.049,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 274087455.0,
      "step": 374
    },
    {
      "entropy": 0.3973846435546875,
      "epoch": 4.076086956521739,
      "grad_norm": 2.170512168434856,
      "learning_rate": 2.5870296870563287e-06,
      "loss": 0.0539,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 274808596.0,
      "step": 375
    },
    {
      "entropy": 0.3894500732421875,
      "epoch": 4.086956521739131,
      "grad_norm": 3.033084249336172,
      "learning_rate": 2.5608180056636123e-06,
      "loss": 0.0539,
      "mean_token_accuracy": 0.9661458353511989,
      "num_tokens": 275535718.0,
      "step": 376
    },
    {
      "entropy": 0.3780670166015625,
      "epoch": 4.0978260869565215,
      "grad_norm": 2.068730094514398,
      "learning_rate": 2.534694000139273e-06,
      "loss": 0.0428,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 276283661.0,
      "step": 377
    },
    {
      "entropy": 0.3880462646484375,
      "epoch": 4.108695652173913,
      "grad_norm": 3.9673151405847293,
      "learning_rate": 2.5086586095050314e-06,
      "loss": 0.0402,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 277019197.0,
      "step": 378
    },
    {
      "entropy": 0.394805908203125,
      "epoch": 4.119565217391305,
      "grad_norm": 2.5263731112023344,
      "learning_rate": 2.482712769597363e-06,
      "loss": 0.0717,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 277749642.0,
      "step": 379
    },
    {
      "entropy": 0.39227294921875,
      "epoch": 4.130434782608695,
      "grad_norm": 2.7006496249837135,
      "learning_rate": 2.4568574130338624e-06,
      "loss": 0.0559,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 278448829.0,
      "step": 380
    },
    {
      "entropy": 0.3828582763671875,
      "epoch": 4.141304347826087,
      "grad_norm": 6.60590633488198,
      "learning_rate": 2.4310934691797207e-06,
      "loss": 0.0836,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 279167281.0,
      "step": 381
    },
    {
      "entropy": 0.374725341796875,
      "epoch": 4.1521739130434785,
      "grad_norm": 4.990700708143387,
      "learning_rate": 2.405421864114318e-06,
      "loss": 0.0712,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 279900063.0,
      "step": 382
    },
    {
      "entropy": 0.3878631591796875,
      "epoch": 4.163043478260869,
      "grad_norm": 2.7514528515239434,
      "learning_rate": 2.379843520597937e-06,
      "loss": 0.0551,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 280625325.0,
      "step": 383
    },
    {
      "entropy": 0.3791656494140625,
      "epoch": 4.173913043478261,
      "grad_norm": 3.0494555652963045,
      "learning_rate": 2.3543593580385925e-06,
      "loss": 0.0708,
      "mean_token_accuracy": 0.9687500018626451,
      "num_tokens": 281350812.0,
      "step": 384
    },
    {
      "entropy": 0.37134552001953125,
      "epoch": 4.184782608695652,
      "grad_norm": 3.237014498838203,
      "learning_rate": 2.3289702924589914e-06,
      "loss": 0.0601,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 282093872.0,
      "step": 385
    },
    {
      "entropy": 0.3751983642578125,
      "epoch": 4.195652173913044,
      "grad_norm": 2.5795414349107793,
      "learning_rate": 2.303677236463593e-06,
      "loss": 0.0268,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 282828759.0,
      "step": 386
    },
    {
      "entropy": 0.3834075927734375,
      "epoch": 4.206521739130435,
      "grad_norm": 2.342645863299783,
      "learning_rate": 2.2784810992058155e-06,
      "loss": 0.0558,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 283566215.0,
      "step": 387
    },
    {
      "entropy": 0.38232421875,
      "epoch": 4.217391304347826,
      "grad_norm": 3.021603450530949,
      "learning_rate": 2.2533827863553552e-06,
      "loss": 0.08,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 284298094.0,
      "step": 388
    },
    {
      "entropy": 0.3993377685546875,
      "epoch": 4.228260869565218,
      "grad_norm": 2.00374150471889,
      "learning_rate": 2.2283832000656304e-06,
      "loss": 0.0443,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 285010795.0,
      "step": 389
    },
    {
      "entropy": 0.3911285400390625,
      "epoch": 4.239130434782608,
      "grad_norm": 2.140630272502325,
      "learning_rate": 2.2034832389413536e-06,
      "loss": 0.0528,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 285722904.0,
      "step": 390
    },
    {
      "entropy": 0.373443603515625,
      "epoch": 4.25,
      "grad_norm": 2.67605753076139,
      "learning_rate": 2.178683798006234e-06,
      "loss": 0.0659,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 286468243.0,
      "step": 391
    },
    {
      "entropy": 0.3634185791015625,
      "epoch": 4.260869565217392,
      "grad_norm": 3.2420180661583524,
      "learning_rate": 2.153985768670803e-06,
      "loss": 0.0695,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 287227981.0,
      "step": 392
    },
    {
      "entropy": 0.3707733154296875,
      "epoch": 4.271739130434782,
      "grad_norm": 3.1307470138063294,
      "learning_rate": 2.1293900387003742e-06,
      "loss": 0.0468,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 287958818.0,
      "step": 393
    },
    {
      "entropy": 0.3947296142578125,
      "epoch": 4.282608695652174,
      "grad_norm": 2.462935867532486,
      "learning_rate": 2.104897492183135e-06,
      "loss": 0.0548,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 288675273.0,
      "step": 394
    },
    {
      "entropy": 0.38623046875,
      "epoch": 4.293478260869565,
      "grad_norm": 1.9419631449467771,
      "learning_rate": 2.080509009498364e-06,
      "loss": 0.0426,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 289389842.0,
      "step": 395
    },
    {
      "entropy": 0.378875732421875,
      "epoch": 4.304347826086957,
      "grad_norm": 3.9098103503166124,
      "learning_rate": 2.056225467284786e-06,
      "loss": 0.0547,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 290137751.0,
      "step": 396
    },
    {
      "entropy": 0.3903045654296875,
      "epoch": 4.315217391304348,
      "grad_norm": 2.6641981161462245,
      "learning_rate": 2.0320477384090665e-06,
      "loss": 0.0597,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 290848862.0,
      "step": 397
    },
    {
      "entropy": 0.3706512451171875,
      "epoch": 4.326086956521739,
      "grad_norm": 5.662919180178369,
      "learning_rate": 2.007976691934432e-06,
      "loss": 0.0506,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 291583480.0,
      "step": 398
    },
    {
      "entropy": 0.378143310546875,
      "epoch": 4.336956521739131,
      "grad_norm": 2.1275547939222053,
      "learning_rate": 1.9840131930894334e-06,
      "loss": 0.037,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 292313127.0,
      "step": 399
    },
    {
      "entropy": 0.3697052001953125,
      "epoch": 4.3478260869565215,
      "grad_norm": 3.9876793874057914,
      "learning_rate": 1.9601581032368457e-06,
      "loss": 0.0648,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 293046745.0,
      "step": 400
    },
    {
      "entropy": 0.3769073486328125,
      "epoch": 4.358695652173913,
      "grad_norm": 4.314010031145394,
      "learning_rate": 1.936412279842705e-06,
      "loss": 0.089,
      "mean_token_accuracy": 0.9531250027939677,
      "num_tokens": 293790881.0,
      "step": 401
    },
    {
      "entropy": 0.3712615966796875,
      "epoch": 4.369565217391305,
      "grad_norm": 2.7361152914379434,
      "learning_rate": 1.912776576445488e-06,
      "loss": 0.0569,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 294510900.0,
      "step": 402
    },
    {
      "entropy": 0.3690948486328125,
      "epoch": 4.380434782608695,
      "grad_norm": 2.557668362664073,
      "learning_rate": 1.8892518426254363e-06,
      "loss": 0.0654,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 295257668.0,
      "step": 403
    },
    {
      "entropy": 0.3720855712890625,
      "epoch": 4.391304347826087,
      "grad_norm": 1.9087287965082336,
      "learning_rate": 1.8658389239740094e-06,
      "loss": 0.0404,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 295993869.0,
      "step": 404
    },
    {
      "entropy": 0.3924560546875,
      "epoch": 4.4021739130434785,
      "grad_norm": 2.1509699673085794,
      "learning_rate": 1.8425386620634961e-06,
      "loss": 0.0294,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 296687650.0,
      "step": 405
    },
    {
      "entropy": 0.3720703125,
      "epoch": 4.413043478260869,
      "grad_norm": 1.5449371800847165,
      "learning_rate": 1.8193518944167625e-06,
      "loss": 0.0317,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 297440924.0,
      "step": 406
    },
    {
      "entropy": 0.3636474609375,
      "epoch": 4.423913043478261,
      "grad_norm": 2.6098002473408317,
      "learning_rate": 1.7962794544771477e-06,
      "loss": 0.0614,
      "mean_token_accuracy": 0.9739583348855376,
      "num_tokens": 298169266.0,
      "step": 407
    },
    {
      "entropy": 0.363433837890625,
      "epoch": 4.434782608695652,
      "grad_norm": 3.477809716410087,
      "learning_rate": 1.773322171578512e-06,
      "loss": 0.0572,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 298909868.0,
      "step": 408
    },
    {
      "entropy": 0.373748779296875,
      "epoch": 4.445652173913043,
      "grad_norm": 2.631915731383746,
      "learning_rate": 1.7504808709154104e-06,
      "loss": 0.0374,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 299644167.0,
      "step": 409
    },
    {
      "entropy": 0.36124420166015625,
      "epoch": 4.456521739130435,
      "grad_norm": 2.649498793549601,
      "learning_rate": 1.727756373513449e-06,
      "loss": 0.0507,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 300395147.0,
      "step": 410
    },
    {
      "entropy": 0.3737030029296875,
      "epoch": 4.467391304347826,
      "grad_norm": 3.522184508837474,
      "learning_rate": 1.7051494961997623e-06,
      "loss": 0.0431,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 301134608.0,
      "step": 411
    },
    {
      "entropy": 0.3704681396484375,
      "epoch": 4.478260869565218,
      "grad_norm": 2.304231331547092,
      "learning_rate": 1.6826610515736618e-06,
      "loss": 0.0378,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 301862862.0,
      "step": 412
    },
    {
      "entropy": 0.3536224365234375,
      "epoch": 4.489130434782608,
      "grad_norm": 3.897215422054907,
      "learning_rate": 1.660291847977415e-06,
      "loss": 0.0474,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 302619824.0,
      "step": 413
    },
    {
      "entropy": 0.3563995361328125,
      "epoch": 4.5,
      "grad_norm": 3.109048834468093,
      "learning_rate": 1.6380426894672003e-06,
      "loss": 0.066,
      "mean_token_accuracy": 0.9765625013969839,
      "num_tokens": 303379656.0,
      "step": 414
    },
    {
      "entropy": 0.3651580810546875,
      "epoch": 4.510869565217392,
      "grad_norm": 2.2931797903303943,
      "learning_rate": 1.6159143757842005e-06,
      "loss": 0.0346,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 304094966.0,
      "step": 415
    },
    {
      "entropy": 0.37298583984375,
      "epoch": 4.521739130434782,
      "grad_norm": 2.644979758965052,
      "learning_rate": 1.5939077023258547e-06,
      "loss": 0.0272,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 304810738.0,
      "step": 416
    },
    {
      "entropy": 0.371124267578125,
      "epoch": 4.532608695652174,
      "grad_norm": 3.2781225821696856,
      "learning_rate": 1.5720234601172767e-06,
      "loss": 0.0534,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 305541986.0,
      "step": 417
    },
    {
      "entropy": 0.38482666015625,
      "epoch": 4.543478260869565,
      "grad_norm": 1.9297820824334895,
      "learning_rate": 1.5502624357828118e-06,
      "loss": 0.0229,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 306271210.0,
      "step": 418
    },
    {
      "entropy": 0.3677215576171875,
      "epoch": 4.554347826086957,
      "grad_norm": 1.948764173603972,
      "learning_rate": 1.5286254115177623e-06,
      "loss": 0.0317,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 306999696.0,
      "step": 419
    },
    {
      "entropy": 0.3634490966796875,
      "epoch": 4.565217391304348,
      "grad_norm": 4.344207948832546,
      "learning_rate": 1.5071131650602782e-06,
      "loss": 0.0745,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 307723377.0,
      "step": 420
    },
    {
      "entropy": 0.345489501953125,
      "epoch": 4.576086956521739,
      "grad_norm": 3.383970827697761,
      "learning_rate": 1.485726469663401e-06,
      "loss": 0.0503,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 308482509.0,
      "step": 421
    },
    {
      "entropy": 0.3665008544921875,
      "epoch": 4.586956521739131,
      "grad_norm": 2.5738762970135816,
      "learning_rate": 1.4644660940672628e-06,
      "loss": 0.033,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 309198433.0,
      "step": 422
    },
    {
      "entropy": 0.363067626953125,
      "epoch": 4.5978260869565215,
      "grad_norm": 6.247844901203594,
      "learning_rate": 1.4433328024714583e-06,
      "loss": 0.0508,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 309930367.0,
      "step": 423
    },
    {
      "entropy": 0.4074249267578125,
      "epoch": 4.608695652173913,
      "grad_norm": 3.485253996932741,
      "learning_rate": 1.422327354507575e-06,
      "loss": 0.0412,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 310638355.0,
      "step": 424
    },
    {
      "entropy": 0.3549652099609375,
      "epoch": 4.619565217391305,
      "grad_norm": 2.4591821717614804,
      "learning_rate": 1.4014505052118893e-06,
      "loss": 0.0442,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 311351433.0,
      "step": 425
    },
    {
      "entropy": 0.347564697265625,
      "epoch": 4.630434782608695,
      "grad_norm": 1.8073296207890521,
      "learning_rate": 1.3807030049982284e-06,
      "loss": 0.0192,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 312093932.0,
      "step": 426
    },
    {
      "entropy": 0.36181640625,
      "epoch": 4.641304347826087,
      "grad_norm": 3.1238811217757165,
      "learning_rate": 1.3600855996309937e-06,
      "loss": 0.0423,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 312828034.0,
      "step": 427
    },
    {
      "entropy": 0.3488616943359375,
      "epoch": 4.6521739130434785,
      "grad_norm": 3.314480066973349,
      "learning_rate": 1.339599030198351e-06,
      "loss": 0.0503,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 313573104.0,
      "step": 428
    },
    {
      "entropy": 0.35047149658203125,
      "epoch": 4.663043478260869,
      "grad_norm": 3.4582516910760353,
      "learning_rate": 1.3192440330856005e-06,
      "loss": 0.0372,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 314288954.0,
      "step": 429
    },
    {
      "entropy": 0.36621856689453125,
      "epoch": 4.673913043478261,
      "grad_norm": 2.2390111893046445,
      "learning_rate": 1.2990213399487078e-06,
      "loss": 0.0174,
      "mean_token_accuracy": 1.0,
      "num_tokens": 315016546.0,
      "step": 430
    },
    {
      "entropy": 0.3443756103515625,
      "epoch": 4.684782608695652,
      "grad_norm": 5.187278310572064,
      "learning_rate": 1.278931677687994e-06,
      "loss": 0.0377,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 315740730.0,
      "step": 431
    },
    {
      "entropy": 0.3368988037109375,
      "epoch": 4.695652173913043,
      "grad_norm": 4.3820342417888885,
      "learning_rate": 1.2589757684220182e-06,
      "loss": 0.0219,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 316500108.0,
      "step": 432
    },
    {
      "entropy": 0.3533782958984375,
      "epoch": 4.706521739130435,
      "grad_norm": 2.719277977045923,
      "learning_rate": 1.239154329461615e-06,
      "loss": 0.0341,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 317210907.0,
      "step": 433
    },
    {
      "entropy": 0.34835052490234375,
      "epoch": 4.717391304347826,
      "grad_norm": 3.733796444927739,
      "learning_rate": 1.2194680732841125e-06,
      "loss": 0.0541,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 317947822.0,
      "step": 434
    },
    {
      "entropy": 0.349700927734375,
      "epoch": 4.728260869565218,
      "grad_norm": 1.890234493546961,
      "learning_rate": 1.1999177075077278e-06,
      "loss": 0.0416,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 318697368.0,
      "step": 435
    },
    {
      "entropy": 0.3484649658203125,
      "epoch": 4.739130434782608,
      "grad_norm": 3.3917373209326387,
      "learning_rate": 1.1805039348661213e-06,
      "loss": 0.0399,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 319421191.0,
      "step": 436
    },
    {
      "entropy": 0.34470367431640625,
      "epoch": 4.75,
      "grad_norm": 2.2947816488362256,
      "learning_rate": 1.1612274531831463e-06,
      "loss": 0.024,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 320164371.0,
      "step": 437
    },
    {
      "entropy": 0.34635162353515625,
      "epoch": 4.760869565217392,
      "grad_norm": 2.574780839620083,
      "learning_rate": 1.1420889553477577e-06,
      "loss": 0.0229,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 320883251.0,
      "step": 438
    },
    {
      "entropy": 0.3436279296875,
      "epoch": 4.771739130434782,
      "grad_norm": 2.294227642055062,
      "learning_rate": 1.1230891292891173e-06,
      "loss": 0.0222,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 321635229.0,
      "step": 439
    },
    {
      "entropy": 0.35605621337890625,
      "epoch": 4.782608695652174,
      "grad_norm": 2.451839232434081,
      "learning_rate": 1.1042286579518556e-06,
      "loss": 0.0129,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 322336102.0,
      "step": 440
    },
    {
      "entropy": 0.33266448974609375,
      "epoch": 4.793478260869565,
      "grad_norm": 2.9024035152299783,
      "learning_rate": 1.0855082192715294e-06,
      "loss": 0.0319,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 323064845.0,
      "step": 441
    },
    {
      "entropy": 0.3340606689453125,
      "epoch": 4.804347826086957,
      "grad_norm": 5.62349703094266,
      "learning_rate": 1.0669284861502517e-06,
      "loss": 0.0369,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 323796802.0,
      "step": 442
    },
    {
      "entropy": 0.34098052978515625,
      "epoch": 4.815217391304348,
      "grad_norm": 2.7757967183318577,
      "learning_rate": 1.0484901264325026e-06,
      "loss": 0.0341,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 324545676.0,
      "step": 443
    },
    {
      "entropy": 0.340789794921875,
      "epoch": 4.826086956521739,
      "grad_norm": 4.894631489518,
      "learning_rate": 1.0301938028811303e-06,
      "loss": 0.048,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 325269428.0,
      "step": 444
    },
    {
      "entropy": 0.3436279296875,
      "epoch": 4.836956521739131,
      "grad_norm": 3.0560317910599193,
      "learning_rate": 1.0120401731535213e-06,
      "loss": 0.043,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 326003913.0,
      "step": 445
    },
    {
      "entropy": 0.33172607421875,
      "epoch": 4.8478260869565215,
      "grad_norm": 2.7997100674211923,
      "learning_rate": 9.940298897779615e-07,
      "loss": 0.026,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 326762544.0,
      "step": 446
    },
    {
      "entropy": 0.330780029296875,
      "epoch": 4.858695652173913,
      "grad_norm": 3.6055084206165375,
      "learning_rate": 9.761636001301872e-07,
      "loss": 0.0343,
      "mean_token_accuracy": 0.9843750009313226,
      "num_tokens": 327498085.0,
      "step": 447
    },
    {
      "entropy": 0.3481597900390625,
      "epoch": 4.869565217391305,
      "grad_norm": 2.699108073655578,
      "learning_rate": 9.58441946410108e-07,
      "loss": 0.0274,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 328205549.0,
      "step": 448
    },
    {
      "entropy": 0.3399200439453125,
      "epoch": 4.880434782608695,
      "grad_norm": 4.323719147973479,
      "learning_rate": 9.408655656187282e-07,
      "loss": 0.0786,
      "mean_token_accuracy": 0.9791666679084301,
      "num_tokens": 328942809.0,
      "step": 449
    },
    {
      "entropy": 0.35663604736328125,
      "epoch": 4.891304347826087,
      "grad_norm": 5.001186248744366,
      "learning_rate": 9.234350895352479e-07,
      "loss": 0.0419,
      "mean_token_accuracy": 0.9817708344198763,
      "num_tokens": 329669417.0,
      "step": 450
    },
    {
      "entropy": 0.3516082763671875,
      "epoch": 4.9021739130434785,
      "grad_norm": 2.8838423541330376,
      "learning_rate": 9.061511446943533e-07,
      "loss": 0.0196,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 330409361.0,
      "step": 451
    },
    {
      "entropy": 0.32869720458984375,
      "epoch": 4.913043478260869,
      "grad_norm": 4.265072061500612,
      "learning_rate": 8.890143523636968e-07,
      "loss": 0.0323,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 331164371.0,
      "step": 452
    },
    {
      "entropy": 0.33074951171875,
      "epoch": 4.923913043478261,
      "grad_norm": 3.006788831033785,
      "learning_rate": 8.720253285215685e-07,
      "loss": 0.0219,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 331899160.0,
      "step": 453
    },
    {
      "entropy": 0.3443756103515625,
      "epoch": 4.934782608695652,
      "grad_norm": 1.8956813954513703,
      "learning_rate": 8.551846838347489e-07,
      "loss": 0.0105,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 332632346.0,
      "step": 454
    },
    {
      "entropy": 0.359710693359375,
      "epoch": 4.945652173913043,
      "grad_norm": 2.603751643095715,
      "learning_rate": 8.384930236365629e-07,
      "loss": 0.0311,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 333325821.0,
      "step": 455
    },
    {
      "entropy": 0.338226318359375,
      "epoch": 4.956521739130435,
      "grad_norm": 4.222498984885915,
      "learning_rate": 8.219509479051202e-07,
      "loss": 0.0304,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 334062711.0,
      "step": 456
    },
    {
      "entropy": 0.34021759033203125,
      "epoch": 4.967391304347826,
      "grad_norm": 3.115151996685415,
      "learning_rate": 8.055590512417499e-07,
      "loss": 0.0286,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 334795083.0,
      "step": 457
    },
    {
      "entropy": 0.3409271240234375,
      "epoch": 4.978260869565218,
      "grad_norm": 2.667625032310286,
      "learning_rate": 7.893179228496261e-07,
      "loss": 0.0266,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 335515002.0,
      "step": 458
    },
    {
      "entropy": 0.3319091796875,
      "epoch": 4.989130434782608,
      "grad_norm": 1.7883042259347692,
      "learning_rate": 7.732281465125907e-07,
      "loss": 0.0105,
      "mean_token_accuracy": 1.0,
      "num_tokens": 336269380.0,
      "step": 459
    },
    {
      "entropy": 0.33264923095703125,
      "epoch": 5.0,
      "grad_norm": 2.703245362259696,
      "learning_rate": 7.572903005741689e-07,
      "loss": 0.0223,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 337013135.0,
      "step": 460
    },
    {
      "entropy": 0.3489990234375,
      "epoch": 5.010869565217392,
      "grad_norm": 1.7713836137255146,
      "learning_rate": 7.415049579167783e-07,
      "loss": 0.0084,
      "mean_token_accuracy": 1.0,
      "num_tokens": 337745275.0,
      "step": 461
    },
    {
      "entropy": 0.3424530029296875,
      "epoch": 5.021739130434782,
      "grad_norm": 2.1302145150571086,
      "learning_rate": 7.258726859411435e-07,
      "loss": 0.0128,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 338466385.0,
      "step": 462
    },
    {
      "entropy": 0.3275604248046875,
      "epoch": 5.032608695652174,
      "grad_norm": 2.265169571798317,
      "learning_rate": 7.103940465458936e-07,
      "loss": 0.0215,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 339217151.0,
      "step": 463
    },
    {
      "entropy": 0.33917236328125,
      "epoch": 5.043478260869565,
      "grad_norm": 3.6402866894010937,
      "learning_rate": 6.950695961073684e-07,
      "loss": 0.0109,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 339942207.0,
      "step": 464
    },
    {
      "entropy": 0.341217041015625,
      "epoch": 5.054347826086956,
      "grad_norm": 2.1025167883532734,
      "learning_rate": 6.79899885459619e-07,
      "loss": 0.0145,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 340676288.0,
      "step": 465
    },
    {
      "entropy": 0.34357452392578125,
      "epoch": 5.065217391304348,
      "grad_norm": 1.416606449769274,
      "learning_rate": 6.64885459874608e-07,
      "loss": 0.0156,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 341403976.0,
      "step": 466
    },
    {
      "entropy": 0.3319854736328125,
      "epoch": 5.076086956521739,
      "grad_norm": 4.602449384261549,
      "learning_rate": 6.500268590426107e-07,
      "loss": 0.028,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 342132950.0,
      "step": 467
    },
    {
      "entropy": 0.328857421875,
      "epoch": 5.086956521739131,
      "grad_norm": 2.0673769054764626,
      "learning_rate": 6.353246170528149e-07,
      "loss": 0.0248,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 342886594.0,
      "step": 468
    },
    {
      "entropy": 0.330169677734375,
      "epoch": 5.0978260869565215,
      "grad_norm": 2.364498860412741,
      "learning_rate": 6.207792623741249e-07,
      "loss": 0.0142,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 343622118.0,
      "step": 469
    },
    {
      "entropy": 0.332183837890625,
      "epoch": 5.108695652173913,
      "grad_norm": 1.9776579329662918,
      "learning_rate": 6.063913178361614e-07,
      "loss": 0.0359,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 344353362.0,
      "step": 470
    },
    {
      "entropy": 0.347137451171875,
      "epoch": 5.119565217391305,
      "grad_norm": 3.5047683953634645,
      "learning_rate": 5.921613006104765e-07,
      "loss": 0.0122,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 345064328.0,
      "step": 471
    },
    {
      "entropy": 0.33270263671875,
      "epoch": 5.130434782608695,
      "grad_norm": 1.5726378271809172,
      "learning_rate": 5.780897221919551e-07,
      "loss": 0.0046,
      "mean_token_accuracy": 1.0,
      "num_tokens": 345811479.0,
      "step": 472
    },
    {
      "entropy": 0.33620452880859375,
      "epoch": 5.141304347826087,
      "grad_norm": 2.7612655375343405,
      "learning_rate": 5.641770883804365e-07,
      "loss": 0.0103,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 346537980.0,
      "step": 473
    },
    {
      "entropy": 0.33274078369140625,
      "epoch": 5.1521739130434785,
      "grad_norm": 1.0105340278802728,
      "learning_rate": 5.504238992625277e-07,
      "loss": 0.0047,
      "mean_token_accuracy": 1.0,
      "num_tokens": 347251105.0,
      "step": 474
    },
    {
      "entropy": 0.3458404541015625,
      "epoch": 5.163043478260869,
      "grad_norm": 0.8913223509901397,
      "learning_rate": 5.368306491936326e-07,
      "loss": 0.0043,
      "mean_token_accuracy": 1.0,
      "num_tokens": 347966608.0,
      "step": 475
    },
    {
      "entropy": 0.3328857421875,
      "epoch": 5.173913043478261,
      "grad_norm": 1.6957522235175149,
      "learning_rate": 5.233978267801798e-07,
      "loss": 0.0105,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 348692017.0,
      "step": 476
    },
    {
      "entropy": 0.3230438232421875,
      "epoch": 5.184782608695652,
      "grad_norm": 1.6010097703397013,
      "learning_rate": 5.101259148620618e-07,
      "loss": 0.0104,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 349437232.0,
      "step": 477
    },
    {
      "entropy": 0.35536956787109375,
      "epoch": 5.195652173913044,
      "grad_norm": 4.968112593114737,
      "learning_rate": 4.970153904952768e-07,
      "loss": 0.0413,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 350177528.0,
      "step": 478
    },
    {
      "entropy": 0.3372650146484375,
      "epoch": 5.206521739130435,
      "grad_norm": 1.3062286039828581,
      "learning_rate": 4.840667249347824e-07,
      "loss": 0.0043,
      "mean_token_accuracy": 1.0,
      "num_tokens": 350884580.0,
      "step": 479
    },
    {
      "entropy": 0.32120513916015625,
      "epoch": 5.217391304347826,
      "grad_norm": 2.312183492908422,
      "learning_rate": 4.7128038361755836e-07,
      "loss": 0.0158,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 351622619.0,
      "step": 480
    },
    {
      "entropy": 0.31357574462890625,
      "epoch": 5.228260869565218,
      "grad_norm": 0.6048251774387916,
      "learning_rate": 4.586568261458729e-07,
      "loss": 0.0029,
      "mean_token_accuracy": 1.0,
      "num_tokens": 352374354.0,
      "step": 481
    },
    {
      "entropy": 0.3233184814453125,
      "epoch": 5.239130434782608,
      "grad_norm": 1.0418281487145225,
      "learning_rate": 4.461965062707646e-07,
      "loss": 0.0053,
      "mean_token_accuracy": 1.0,
      "num_tokens": 353104895.0,
      "step": 482
    },
    {
      "entropy": 0.31097412109375,
      "epoch": 5.25,
      "grad_norm": 3.664719242891464,
      "learning_rate": 4.338998718757315e-07,
      "loss": 0.0159,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 353850605.0,
      "step": 483
    },
    {
      "entropy": 0.31426239013671875,
      "epoch": 5.260869565217392,
      "grad_norm": 2.673228596998952,
      "learning_rate": 4.2176736496063406e-07,
      "loss": 0.008,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 354570521.0,
      "step": 484
    },
    {
      "entropy": 0.31041717529296875,
      "epoch": 5.271739130434782,
      "grad_norm": 1.233702912966819,
      "learning_rate": 4.0979942162580387e-07,
      "loss": 0.0038,
      "mean_token_accuracy": 1.0,
      "num_tokens": 355309430.0,
      "step": 485
    },
    {
      "entropy": 0.32379913330078125,
      "epoch": 5.282608695652174,
      "grad_norm": 2.702186349990588,
      "learning_rate": 3.979964720563728e-07,
      "loss": 0.0125,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 356029312.0,
      "step": 486
    },
    {
      "entropy": 0.30982208251953125,
      "epoch": 5.293478260869565,
      "grad_norm": 5.4363781227472785,
      "learning_rate": 3.863589405068047e-07,
      "loss": 0.0311,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 356781126.0,
      "step": 487
    },
    {
      "entropy": 0.33553314208984375,
      "epoch": 5.304347826086957,
      "grad_norm": 4.800609337992695,
      "learning_rate": 3.748872452856506e-07,
      "loss": 0.0173,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 357500859.0,
      "step": 488
    },
    {
      "entropy": 0.3165435791015625,
      "epoch": 5.315217391304348,
      "grad_norm": 5.496194394610277,
      "learning_rate": 3.63581798740511e-07,
      "loss": 0.0539,
      "mean_token_accuracy": 0.989583333954215,
      "num_tokens": 358239079.0,
      "step": 489
    },
    {
      "entropy": 0.3148345947265625,
      "epoch": 5.326086956521739,
      "grad_norm": 1.1983342347607513,
      "learning_rate": 3.524430072432117e-07,
      "loss": 0.0038,
      "mean_token_accuracy": 1.0,
      "num_tokens": 358961492.0,
      "step": 490
    },
    {
      "entropy": 0.30664825439453125,
      "epoch": 5.336956521739131,
      "grad_norm": 3.429739542037766,
      "learning_rate": 3.414712711752011e-07,
      "loss": 0.0291,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 359696522.0,
      "step": 491
    },
    {
      "entropy": 0.3170928955078125,
      "epoch": 5.3478260869565215,
      "grad_norm": 1.5182647319575882,
      "learning_rate": 3.306669849131544e-07,
      "loss": 0.0043,
      "mean_token_accuracy": 1.0,
      "num_tokens": 360457086.0,
      "step": 492
    },
    {
      "entropy": 0.32183837890625,
      "epoch": 5.358695652173913,
      "grad_norm": 5.549730535235497,
      "learning_rate": 3.20030536814801e-07,
      "loss": 0.0204,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 361189055.0,
      "step": 493
    },
    {
      "entropy": 0.3102874755859375,
      "epoch": 5.369565217391305,
      "grad_norm": 1.9664274331000644,
      "learning_rate": 3.095623092049632e-07,
      "loss": 0.0091,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 361917096.0,
      "step": 494
    },
    {
      "entropy": 0.34157562255859375,
      "epoch": 5.380434782608695,
      "grad_norm": 4.386361041052671,
      "learning_rate": 2.992626783618152e-07,
      "loss": 0.0267,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 362619678.0,
      "step": 495
    },
    {
      "entropy": 0.31482696533203125,
      "epoch": 5.391304347826087,
      "grad_norm": 3.02140953542798,
      "learning_rate": 2.891320145033566e-07,
      "loss": 0.0184,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 363342803.0,
      "step": 496
    },
    {
      "entropy": 0.32982635498046875,
      "epoch": 5.4021739130434785,
      "grad_norm": 3.5366061393761,
      "learning_rate": 2.791706817741041e-07,
      "loss": 0.031,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 364080987.0,
      "step": 497
    },
    {
      "entropy": 0.31476593017578125,
      "epoch": 5.413043478260869,
      "grad_norm": 0.7135172784998189,
      "learning_rate": 2.693790382320055e-07,
      "loss": 0.0026,
      "mean_token_accuracy": 1.0,
      "num_tokens": 364819484.0,
      "step": 498
    },
    {
      "entropy": 0.312408447265625,
      "epoch": 5.423913043478261,
      "grad_norm": 3.7988039144213794,
      "learning_rate": 2.59757435835567e-07,
      "loss": 0.0114,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 365545101.0,
      "step": 499
    },
    {
      "entropy": 0.30912017822265625,
      "epoch": 5.434782608695652,
      "grad_norm": 1.606823073683944,
      "learning_rate": 2.5030622043120237e-07,
      "loss": 0.0072,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 366303934.0,
      "step": 500
    },
    {
      "entropy": 0.32464599609375,
      "epoch": 5.445652173913043,
      "grad_norm": 3.301410106540454,
      "learning_rate": 2.41025731740801e-07,
      "loss": 0.0188,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 367028038.0,
      "step": 501
    },
    {
      "entropy": 0.32305145263671875,
      "epoch": 5.456521739130435,
      "grad_norm": 8.197890767517595,
      "learning_rate": 2.319163033495192e-07,
      "loss": 0.0506,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 367734521.0,
      "step": 502
    },
    {
      "entropy": 0.30431365966796875,
      "epoch": 5.467391304347826,
      "grad_norm": 4.728509410277253,
      "learning_rate": 2.2297826269378653e-07,
      "loss": 0.0129,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 368444763.0,
      "step": 503
    },
    {
      "entropy": 0.3051300048828125,
      "epoch": 5.478260869565218,
      "grad_norm": 1.5820740523593406,
      "learning_rate": 2.142119310495383e-07,
      "loss": 0.0036,
      "mean_token_accuracy": 1.0,
      "num_tokens": 369187288.0,
      "step": 504
    },
    {
      "entropy": 0.3279876708984375,
      "epoch": 5.489130434782608,
      "grad_norm": 1.9231166975438567,
      "learning_rate": 2.0561762352066638e-07,
      "loss": 0.0122,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 369890327.0,
      "step": 505
    },
    {
      "entropy": 0.305023193359375,
      "epoch": 5.5,
      "grad_norm": 1.9365811957769046,
      "learning_rate": 1.9719564902769272e-07,
      "loss": 0.0049,
      "mean_token_accuracy": 1.0,
      "num_tokens": 370614090.0,
      "step": 506
    },
    {
      "entropy": 0.32367706298828125,
      "epoch": 5.510869565217392,
      "grad_norm": 3.366992512517338,
      "learning_rate": 1.889463102966671e-07,
      "loss": 0.0236,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 371335426.0,
      "step": 507
    },
    {
      "entropy": 0.29561614990234375,
      "epoch": 5.521739130434782,
      "grad_norm": 0.9995630844094845,
      "learning_rate": 1.8086990384828195e-07,
      "loss": 0.0026,
      "mean_token_accuracy": 1.0,
      "num_tokens": 372073832.0,
      "step": 508
    },
    {
      "entropy": 0.33678436279296875,
      "epoch": 5.532608695652174,
      "grad_norm": 2.401163753328674,
      "learning_rate": 1.729667199872187e-07,
      "loss": 0.005,
      "mean_token_accuracy": 1.0,
      "num_tokens": 372764858.0,
      "step": 509
    },
    {
      "entropy": 0.3046112060546875,
      "epoch": 5.543478260869565,
      "grad_norm": 4.160275687967846,
      "learning_rate": 1.6523704279170773e-07,
      "loss": 0.0277,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 373528243.0,
      "step": 510
    },
    {
      "entropy": 0.3101348876953125,
      "epoch": 5.554347826086957,
      "grad_norm": 2.388238371947123,
      "learning_rate": 1.5768115010332207e-07,
      "loss": 0.015,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 374261342.0,
      "step": 511
    },
    {
      "entropy": 0.32279205322265625,
      "epoch": 5.565217391304348,
      "grad_norm": 4.067255939426545,
      "learning_rate": 1.5029931351698723e-07,
      "loss": 0.0298,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 374980283.0,
      "step": 512
    },
    {
      "entropy": 0.30754852294921875,
      "epoch": 5.576086956521739,
      "grad_norm": 0.7474628155455025,
      "learning_rate": 1.4309179837122045e-07,
      "loss": 0.0025,
      "mean_token_accuracy": 1.0,
      "num_tokens": 375695890.0,
      "step": 513
    },
    {
      "entropy": 0.31494140625,
      "epoch": 5.586956521739131,
      "grad_norm": 0.8030428398804811,
      "learning_rate": 1.3605886373859234e-07,
      "loss": 0.0031,
      "mean_token_accuracy": 1.0,
      "num_tokens": 376438743.0,
      "step": 514
    },
    {
      "entropy": 0.2979278564453125,
      "epoch": 5.5978260869565215,
      "grad_norm": 5.247466711825704,
      "learning_rate": 1.2920076241641376e-07,
      "loss": 0.0241,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 377179797.0,
      "step": 515
    },
    {
      "entropy": 0.3160400390625,
      "epoch": 5.608695652173913,
      "grad_norm": 2.380515902707691,
      "learning_rate": 1.22517740917652e-07,
      "loss": 0.0082,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 377897492.0,
      "step": 516
    },
    {
      "entropy": 0.30438995361328125,
      "epoch": 5.619565217391305,
      "grad_norm": 0.7128417531370974,
      "learning_rate": 1.1601003946206723e-07,
      "loss": 0.0031,
      "mean_token_accuracy": 1.0,
      "num_tokens": 378633915.0,
      "step": 517
    },
    {
      "entropy": 0.29946136474609375,
      "epoch": 5.630434782608695,
      "grad_norm": 1.5470426381717401,
      "learning_rate": 1.0967789196757839e-07,
      "loss": 0.0041,
      "mean_token_accuracy": 1.0,
      "num_tokens": 379377162.0,
      "step": 518
    },
    {
      "entropy": 0.29619598388671875,
      "epoch": 5.641304347826087,
      "grad_norm": 4.675800160206142,
      "learning_rate": 1.0352152604185429e-07,
      "loss": 0.0205,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 380123431.0,
      "step": 519
    },
    {
      "entropy": 0.3043212890625,
      "epoch": 5.6521739130434785,
      "grad_norm": 0.7727326452960375,
      "learning_rate": 9.754116297413574e-08,
      "loss": 0.0154,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 380859350.0,
      "step": 520
    },
    {
      "entropy": 0.30031585693359375,
      "epoch": 5.663043478260869,
      "grad_norm": 1.2535139064110554,
      "learning_rate": 9.17370177272775e-08,
      "loss": 0.0111,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 381608600.0,
      "step": 521
    },
    {
      "entropy": 0.30162811279296875,
      "epoch": 5.673913043478261,
      "grad_norm": 4.646937593438122,
      "learning_rate": 8.610929893002274e-08,
      "loss": 0.0211,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 382352662.0,
      "step": 522
    },
    {
      "entropy": 0.299072265625,
      "epoch": 5.684782608695652,
      "grad_norm": 3.9707431672135067,
      "learning_rate": 8.065820886950404e-08,
      "loss": 0.0228,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 383085142.0,
      "step": 523
    },
    {
      "entropy": 0.2974853515625,
      "epoch": 5.695652173913043,
      "grad_norm": 1.9394737476689408,
      "learning_rate": 7.538394348397316e-08,
      "loss": 0.0119,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 383819569.0,
      "step": 524
    },
    {
      "entropy": 0.30043792724609375,
      "epoch": 5.706521739130435,
      "grad_norm": 0.5436292444053226,
      "learning_rate": 7.028669235575714e-08,
      "loss": 0.0019,
      "mean_token_accuracy": 1.0,
      "num_tokens": 384568504.0,
      "step": 525
    },
    {
      "entropy": 0.3053741455078125,
      "epoch": 5.717391304347826,
      "grad_norm": 1.819301577637054,
      "learning_rate": 6.536663870444382e-08,
      "loss": 0.0137,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 385317753.0,
      "step": 526
    },
    {
      "entropy": 0.30858612060546875,
      "epoch": 5.728260869565218,
      "grad_norm": 0.4418371134578268,
      "learning_rate": 6.062395938029485e-08,
      "loss": 0.002,
      "mean_token_accuracy": 1.0,
      "num_tokens": 386053681.0,
      "step": 527
    },
    {
      "entropy": 0.30190277099609375,
      "epoch": 5.739130434782608,
      "grad_norm": 0.5349856203498066,
      "learning_rate": 5.605882485789138e-08,
      "loss": 0.0022,
      "mean_token_accuracy": 1.0,
      "num_tokens": 386783905.0,
      "step": 528
    },
    {
      "entropy": 0.30834197998046875,
      "epoch": 5.75,
      "grad_norm": 2.2388923330676636,
      "learning_rate": 5.167139923000553e-08,
      "loss": 0.0168,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 387520212.0,
      "step": 529
    },
    {
      "entropy": 0.31253814697265625,
      "epoch": 5.760869565217392,
      "grad_norm": 3.923423002440908,
      "learning_rate": 4.746184020170019e-08,
      "loss": 0.0253,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 388247937.0,
      "step": 530
    },
    {
      "entropy": 0.30231475830078125,
      "epoch": 5.771739130434782,
      "grad_norm": 4.730648792623746,
      "learning_rate": 4.3430299084663006e-08,
      "loss": 0.0273,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 388974293.0,
      "step": 531
    },
    {
      "entropy": 0.31288909912109375,
      "epoch": 5.782608695652174,
      "grad_norm": 2.37762709228154,
      "learning_rate": 3.957692079176623e-08,
      "loss": 0.0093,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 389700463.0,
      "step": 532
    },
    {
      "entropy": 0.29947662353515625,
      "epoch": 5.793478260869565,
      "grad_norm": 3.555711015129245,
      "learning_rate": 3.590184383185758e-08,
      "loss": 0.0196,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 390449769.0,
      "step": 533
    },
    {
      "entropy": 0.30896759033203125,
      "epoch": 5.804347826086957,
      "grad_norm": 2.1974917394678872,
      "learning_rate": 3.240520030478256e-08,
      "loss": 0.0047,
      "mean_token_accuracy": 1.0,
      "num_tokens": 391186837.0,
      "step": 534
    },
    {
      "entropy": 0.295654296875,
      "epoch": 5.815217391304348,
      "grad_norm": 2.9843284943568666,
      "learning_rate": 2.9087115896635486e-08,
      "loss": 0.0196,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 391951015.0,
      "step": 535
    },
    {
      "entropy": 0.31395721435546875,
      "epoch": 5.826086956521739,
      "grad_norm": 2.072596108534489,
      "learning_rate": 2.5947709875240867e-08,
      "loss": 0.0062,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 392670915.0,
      "step": 536
    },
    {
      "entropy": 0.30602264404296875,
      "epoch": 5.836956521739131,
      "grad_norm": 2.141226143996034,
      "learning_rate": 2.298709508586794e-08,
      "loss": 0.015,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 393404198.0,
      "step": 537
    },
    {
      "entropy": 0.30083465576171875,
      "epoch": 5.8478260869565215,
      "grad_norm": 3.384096104458362,
      "learning_rate": 2.0205377947174475e-08,
      "loss": 0.0151,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 394149480.0,
      "step": 538
    },
    {
      "entropy": 0.31475067138671875,
      "epoch": 5.858695652173913,
      "grad_norm": 4.578396495142119,
      "learning_rate": 1.760265844738096e-08,
      "loss": 0.0116,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 394866329.0,
      "step": 539
    },
    {
      "entropy": 0.3129119873046875,
      "epoch": 5.869565217391305,
      "grad_norm": 3.405899789071764,
      "learning_rate": 1.5179030140675122e-08,
      "loss": 0.0101,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 395586721.0,
      "step": 540
    },
    {
      "entropy": 0.30136871337890625,
      "epoch": 5.880434782608695,
      "grad_norm": 1.38250443340272,
      "learning_rate": 1.2934580143851294e-08,
      "loss": 0.0061,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 396363084.0,
      "step": 541
    },
    {
      "entropy": 0.30673980712890625,
      "epoch": 5.891304347826087,
      "grad_norm": 6.945611054117309,
      "learning_rate": 1.0869389133178477e-08,
      "loss": 0.0435,
      "mean_token_accuracy": 0.9869791674427688,
      "num_tokens": 397097769.0,
      "step": 542
    },
    {
      "entropy": 0.30867767333984375,
      "epoch": 5.9021739130434785,
      "grad_norm": 2.3705155111368663,
      "learning_rate": 8.983531341500984e-09,
      "loss": 0.0142,
      "mean_token_accuracy": 0.9947916669771075,
      "num_tokens": 397824750.0,
      "step": 543
    },
    {
      "entropy": 0.309967041015625,
      "epoch": 5.913043478260869,
      "grad_norm": 0.6684298252223798,
      "learning_rate": 7.277074555567809e-09,
      "loss": 0.0022,
      "mean_token_accuracy": 1.0,
      "num_tokens": 398543113.0,
      "step": 544
    },
    {
      "entropy": 0.31046295166015625,
      "epoch": 5.923913043478261,
      "grad_norm": 2.3773156671141455,
      "learning_rate": 5.750080113598455e-09,
      "loss": 0.0412,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 399263534.0,
      "step": 545
    },
    {
      "entropy": 0.29685211181640625,
      "epoch": 5.934782608695652,
      "grad_norm": 0.4910626084054221,
      "learning_rate": 4.40260290307748e-09,
      "loss": 0.0022,
      "mean_token_accuracy": 1.0,
      "num_tokens": 400002724.0,
      "step": 546
    },
    {
      "entropy": 0.32242584228515625,
      "epoch": 5.945652173913043,
      "grad_norm": 1.5787470551444018,
      "learning_rate": 3.2346913587816275e-09,
      "loss": 0.0055,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 400727669.0,
      "step": 547
    },
    {
      "entropy": 0.2908477783203125,
      "epoch": 5.956521739130435,
      "grad_norm": 2.619798026168208,
      "learning_rate": 2.2463874610378912e-09,
      "loss": 0.0051,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 401512385.0,
      "step": 548
    },
    {
      "entropy": 0.32970428466796875,
      "epoch": 5.967391304347826,
      "grad_norm": 4.681803901199764,
      "learning_rate": 1.4377267342158274e-09,
      "loss": 0.0255,
      "mean_token_accuracy": 0.9921875004656613,
      "num_tokens": 402255726.0,
      "step": 549
    },
    {
      "entropy": 0.31346893310546875,
      "epoch": 5.978260869565218,
      "grad_norm": 2.0228834218128657,
      "learning_rate": 8.087382454502468e-10,
      "loss": 0.005,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 402971417.0,
      "step": 550
    },
    {
      "entropy": 0.3007354736328125,
      "epoch": 5.989130434782608,
      "grad_norm": 0.5192073929796426,
      "learning_rate": 3.594446035964927e-10,
      "loss": 0.0021,
      "mean_token_accuracy": 1.0,
      "num_tokens": 403726280.0,
      "step": 551
    },
    {
      "entropy": 0.29541778564453125,
      "epoch": 6.0,
      "grad_norm": 2.595278022416467,
      "learning_rate": 8.986195841609313e-11,
      "loss": 0.0099,
      "mean_token_accuracy": 0.9973958334885538,
      "num_tokens": 404479766.0,
      "step": 552
    },
    {
      "epoch": 6.0,
      "step": 552,
      "total_flos": 475900034088960.0,
      "train_loss": 0.4346669979916086,
      "train_runtime": 96086.8853,
      "train_samples_per_second": 1.163,
      "train_steps_per_second": 0.006
    }
  ],
  "logging_steps": 1,
  "max_steps": 552,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 6,
  "save_steps": 46,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 475900034088960.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}