hin-deva-100mb-after-ppt-sh…/checkpoint-18000/trainer_state.json

{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.729106628242075,
  "eval_steps": 3000,
  "global_step": 18000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 4.81198468208313,
      "epoch": 0.0004803073967339097,
      "grad_norm": 15.3125,
      "learning_rate": 2e-06,
      "loss": 14.3995,
      "mean_token_accuracy": 0.0,
      "num_tokens": 10855.0,
      "step": 5
    },
    {
      "entropy": 4.828950214385986,
      "epoch": 0.0009606147934678194,
      "grad_norm": 16.0,
      "learning_rate": 4.5e-06,
      "loss": 14.4568,
      "mean_token_accuracy": 6.361323175951838e-05,
      "num_tokens": 24110.0,
      "step": 10
    },
    {
      "entropy": 4.885565328598022,
      "epoch": 0.001440922190201729,
      "grad_norm": 18.375,
      "learning_rate": 7e-06,
      "loss": 14.1468,
      "mean_token_accuracy": 0.0,
      "num_tokens": 35984.0,
      "step": 15
    },
    {
      "entropy": 5.113980484008789,
      "epoch": 0.0019212295869356388,
      "grad_norm": 25.5,
      "learning_rate": 9.5e-06,
      "loss": 13.5274,
      "mean_token_accuracy": 0.0,
      "num_tokens": 48152.0,
      "step": 20
    },
    {
      "entropy": 7.0846137523651125,
      "epoch": 0.0024015369836695487,
      "grad_norm": 18.875,
      "learning_rate": 1.2e-05,
      "loss": 11.983,
      "mean_token_accuracy": 5.9031875571236016e-05,
      "num_tokens": 59810.0,
      "step": 25
    },
    {
      "entropy": 10.311653995513916,
      "epoch": 0.002881844380403458,
      "grad_norm": 3.25,
      "learning_rate": 1.4500000000000002e-05,
      "loss": 10.8966,
      "mean_token_accuracy": 0.0035814862465485932,
      "num_tokens": 70852.0,
      "step": 30
    },
    {
      "entropy": 10.698549842834472,
      "epoch": 0.0033621517771373678,
      "grad_norm": 3.453125,
      "learning_rate": 1.7000000000000003e-05,
      "loss": 10.681,
      "mean_token_accuracy": 0.012990868836641311,
      "num_tokens": 83378.0,
      "step": 35
    },
    {
      "entropy": 10.70135440826416,
      "epoch": 0.0038424591738712775,
      "grad_norm": 2.890625,
      "learning_rate": 1.95e-05,
      "loss": 10.3702,
      "mean_token_accuracy": 0.015855902433395387,
      "num_tokens": 95505.0,
      "step": 40
    },
    {
      "entropy": 10.669420051574708,
      "epoch": 0.004322766570605188,
      "grad_norm": 2.609375,
      "learning_rate": 2.2e-05,
      "loss": 10.0399,
      "mean_token_accuracy": 0.019150405284017326,
      "num_tokens": 106812.0,
      "step": 45
    },
    {
      "entropy": 10.626140022277832,
      "epoch": 0.004803073967339097,
      "grad_norm": 2.171875,
      "learning_rate": 2.4500000000000003e-05,
      "loss": 9.8531,
      "mean_token_accuracy": 0.030371082201600074,
      "num_tokens": 118572.0,
      "step": 50
    },
    {
      "entropy": 10.630718421936034,
      "epoch": 0.005283381364073006,
      "grad_norm": 2.140625,
      "learning_rate": 2.7e-05,
      "loss": 9.7085,
      "mean_token_accuracy": 0.02918087989091873,
      "num_tokens": 130051.0,
      "step": 55
    },
    {
      "entropy": 10.632691478729248,
      "epoch": 0.005763688760806916,
      "grad_norm": 2.109375,
      "learning_rate": 2.95e-05,
      "loss": 9.6316,
      "mean_token_accuracy": 0.033551334962248804,
      "num_tokens": 141920.0,
      "step": 60
    },
    {
      "entropy": 10.621756076812744,
      "epoch": 0.006243996157540826,
      "grad_norm": 1.953125,
      "learning_rate": 3.2e-05,
      "loss": 9.4968,
      "mean_token_accuracy": 0.03377603869885206,
      "num_tokens": 152706.0,
      "step": 65
    },
    {
      "entropy": 10.59926996231079,
      "epoch": 0.0067243035542747355,
      "grad_norm": 2.0,
      "learning_rate": 3.4500000000000005e-05,
      "loss": 9.4671,
      "mean_token_accuracy": 0.030284658074378967,
      "num_tokens": 165253.0,
      "step": 70
    },
    {
      "entropy": 10.586241340637207,
      "epoch": 0.007204610951008645,
      "grad_norm": 1.9921875,
      "learning_rate": 3.7e-05,
      "loss": 9.3528,
      "mean_token_accuracy": 0.03066213186830282,
      "num_tokens": 176708.0,
      "step": 75
    },
    {
      "entropy": 10.572576808929444,
      "epoch": 0.007684918347742555,
      "grad_norm": 1.9921875,
      "learning_rate": 3.95e-05,
      "loss": 9.3119,
      "mean_token_accuracy": 0.02979854876175523,
      "num_tokens": 188240.0,
      "step": 80
    },
    {
      "entropy": 10.554954528808594,
      "epoch": 0.008165225744476465,
      "grad_norm": 1.96875,
      "learning_rate": 4.2000000000000004e-05,
      "loss": 9.1145,
      "mean_token_accuracy": 0.03125303704291582,
      "num_tokens": 198355.0,
      "step": 85
    },
    {
      "entropy": 10.53057928085327,
      "epoch": 0.008645533141210375,
      "grad_norm": 1.8515625,
      "learning_rate": 4.45e-05,
      "loss": 9.0646,
      "mean_token_accuracy": 0.02982727512717247,
      "num_tokens": 209497.0,
      "step": 90
    },
    {
      "entropy": 10.494773197174073,
      "epoch": 0.009125840537944284,
      "grad_norm": 1.9609375,
      "learning_rate": 4.7000000000000004e-05,
      "loss": 8.9936,
      "mean_token_accuracy": 0.02780488096177578,
      "num_tokens": 220859.0,
      "step": 95
    },
    {
      "entropy": 10.448780918121338,
      "epoch": 0.009606147934678195,
      "grad_norm": 1.78125,
      "learning_rate": 4.9500000000000004e-05,
      "loss": 8.9232,
      "mean_token_accuracy": 0.030998879671096803,
      "num_tokens": 231550.0,
      "step": 100
    },
    {
      "entropy": 10.376792049407959,
      "epoch": 0.010086455331412104,
      "grad_norm": 1.65625,
      "learning_rate": 5.2e-05,
      "loss": 8.7452,
      "mean_token_accuracy": 0.030790003202855586,
      "num_tokens": 244210.0,
      "step": 105
    },
    {
      "entropy": 10.282748031616212,
      "epoch": 0.010566762728146013,
      "grad_norm": 1.6953125,
      "learning_rate": 5.45e-05,
      "loss": 8.6175,
      "mean_token_accuracy": 0.040817446634173395,
      "num_tokens": 255745.0,
      "step": 110
    },
    {
      "entropy": 10.166150856018067,
      "epoch": 0.011047070124879923,
      "grad_norm": 1.4609375,
      "learning_rate": 5.7e-05,
      "loss": 8.5074,
      "mean_token_accuracy": 0.0365377115085721,
      "num_tokens": 266180.0,
      "step": 115
    },
    {
      "entropy": 10.028709888458252,
      "epoch": 0.011527377521613832,
      "grad_norm": 1.4140625,
      "learning_rate": 5.9499999999999996e-05,
      "loss": 8.3681,
      "mean_token_accuracy": 0.03765994198620319,
      "num_tokens": 277736.0,
      "step": 120
    },
    {
      "entropy": 9.827960968017578,
      "epoch": 0.012007684918347743,
      "grad_norm": 1.2734375,
      "learning_rate": 6.2e-05,
      "loss": 8.2429,
      "mean_token_accuracy": 0.035723325610160825,
      "num_tokens": 289069.0,
      "step": 125
    },
    {
      "entropy": 9.59237585067749,
      "epoch": 0.012487992315081652,
      "grad_norm": 1.1796875,
      "learning_rate": 6.450000000000001e-05,
      "loss": 8.0891,
      "mean_token_accuracy": 0.04738196656107903,
      "num_tokens": 300240.0,
      "step": 130
    },
    {
      "entropy": 9.368733978271484,
      "epoch": 0.012968299711815562,
      "grad_norm": 1.09375,
      "learning_rate": 6.7e-05,
      "loss": 8.0332,
      "mean_token_accuracy": 0.04018798861652613,
      "num_tokens": 311698.0,
      "step": 135
    },
    {
      "entropy": 9.110132884979247,
      "epoch": 0.013448607108549471,
      "grad_norm": 0.95703125,
      "learning_rate": 6.950000000000001e-05,
      "loss": 7.9056,
      "mean_token_accuracy": 0.0432288508862257,
      "num_tokens": 322844.0,
      "step": 140
    },
    {
      "entropy": 8.820003223419189,
      "epoch": 0.013928914505283382,
      "grad_norm": 0.98046875,
      "learning_rate": 7.2e-05,
      "loss": 7.8235,
      "mean_token_accuracy": 0.045638217404484746,
      "num_tokens": 335092.0,
      "step": 145
    },
    {
      "entropy": 8.585826587677001,
      "epoch": 0.01440922190201729,
      "grad_norm": 0.8359375,
      "learning_rate": 7.45e-05,
      "loss": 7.7332,
      "mean_token_accuracy": 0.04667803719639778,
      "num_tokens": 347033.0,
      "step": 150
    },
    {
      "entropy": 8.385289859771728,
      "epoch": 0.014889529298751201,
      "grad_norm": 0.9921875,
      "learning_rate": 7.7e-05,
      "loss": 7.6524,
      "mean_token_accuracy": 0.05755673125386238,
      "num_tokens": 358696.0,
      "step": 155
    },
    {
      "entropy": 8.231111812591553,
      "epoch": 0.01536983669548511,
      "grad_norm": 0.875,
      "learning_rate": 7.950000000000001e-05,
      "loss": 7.6369,
      "mean_token_accuracy": 0.05747554413974285,
      "num_tokens": 369390.0,
      "step": 160
    },
    {
      "entropy": 8.13049030303955,
      "epoch": 0.01585014409221902,
      "grad_norm": 0.921875,
      "learning_rate": 8.2e-05,
      "loss": 7.573,
      "mean_token_accuracy": 0.058345531672239305,
      "num_tokens": 380540.0,
      "step": 165
    },
    {
      "entropy": 8.037137985229492,
      "epoch": 0.01633045148895293,
      "grad_norm": 1.4375,
      "learning_rate": 8.450000000000001e-05,
      "loss": 7.5672,
      "mean_token_accuracy": 0.05862935781478882,
      "num_tokens": 391243.0,
      "step": 170
    },
    {
      "entropy": 7.971378183364868,
      "epoch": 0.01681075888568684,
      "grad_norm": 1.1328125,
      "learning_rate": 8.7e-05,
      "loss": 7.5403,
      "mean_token_accuracy": 0.06493047513067722,
      "num_tokens": 403336.0,
      "step": 175
    },
    {
      "entropy": 7.996695470809937,
      "epoch": 0.01729106628242075,
      "grad_norm": 1.7890625,
      "learning_rate": 8.95e-05,
      "loss": 7.4714,
      "mean_token_accuracy": 0.06883232817053794,
      "num_tokens": 413886.0,
      "step": 180
    },
    {
      "entropy": 7.944087362289428,
      "epoch": 0.01777137367915466,
      "grad_norm": 1.28125,
      "learning_rate": 9.2e-05,
      "loss": 7.5072,
      "mean_token_accuracy": 0.07003857865929604,
      "num_tokens": 425277.0,
      "step": 185
    },
    {
      "entropy": 7.903090763092041,
      "epoch": 0.01825168107588857,
      "grad_norm": 1.1484375,
      "learning_rate": 9.45e-05,
      "loss": 7.5901,
      "mean_token_accuracy": 0.07094852812588215,
      "num_tokens": 436868.0,
      "step": 190
    },
    {
      "entropy": 7.9524956226348875,
      "epoch": 0.018731988472622477,
      "grad_norm": 1.3671875,
      "learning_rate": 9.7e-05,
      "loss": 7.3956,
      "mean_token_accuracy": 0.0713607795536518,
      "num_tokens": 448349.0,
      "step": 195
    },
    {
      "entropy": 7.893163013458252,
      "epoch": 0.01921229586935639,
      "grad_norm": 1.078125,
      "learning_rate": 9.95e-05,
      "loss": 7.398,
      "mean_token_accuracy": 0.07450502514839172,
      "num_tokens": 459447.0,
      "step": 200
    },
    {
      "entropy": 7.827638578414917,
      "epoch": 0.0196926032660903,
      "grad_norm": 1.09375,
      "learning_rate": 0.000102,
      "loss": 7.3545,
      "mean_token_accuracy": 0.07836289256811142,
      "num_tokens": 470734.0,
      "step": 205
    },
    {
      "entropy": 7.920483875274658,
      "epoch": 0.020172910662824207,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00010449999999999999,
      "loss": 7.3929,
      "mean_token_accuracy": 0.07436848841607571,
      "num_tokens": 482015.0,
      "step": 210
    },
    {
      "entropy": 7.829608154296875,
      "epoch": 0.020653218059558116,
      "grad_norm": 1.09375,
      "learning_rate": 0.000107,
      "loss": 7.3388,
      "mean_token_accuracy": 0.0812894694507122,
      "num_tokens": 493339.0,
      "step": 215
    },
    {
      "entropy": 7.832039451599121,
      "epoch": 0.021133525456292025,
      "grad_norm": 1.09375,
      "learning_rate": 0.0001095,
      "loss": 7.2806,
      "mean_token_accuracy": 0.08215347118675709,
      "num_tokens": 504924.0,
      "step": 220
    },
    {
      "entropy": 7.841120386123658,
      "epoch": 0.021613832853025938,
      "grad_norm": 1.3828125,
      "learning_rate": 0.000112,
      "loss": 7.2586,
      "mean_token_accuracy": 0.07783420942723751,
      "num_tokens": 516603.0,
      "step": 225
    },
    {
      "entropy": 7.667848110198975,
      "epoch": 0.022094140249759846,
      "grad_norm": 1.234375,
      "learning_rate": 0.0001145,
      "loss": 7.1767,
      "mean_token_accuracy": 0.0903685748577118,
      "num_tokens": 528347.0,
      "step": 230
    },
    {
      "entropy": 7.665532779693604,
      "epoch": 0.022574447646493755,
      "grad_norm": 1.453125,
      "learning_rate": 0.00011700000000000001,
      "loss": 7.2657,
      "mean_token_accuracy": 0.08881851136684418,
      "num_tokens": 539328.0,
      "step": 235
    },
    {
      "entropy": 7.787159252166748,
      "epoch": 0.023054755043227664,
      "grad_norm": 1.375,
      "learning_rate": 0.00011949999999999999,
      "loss": 7.2264,
      "mean_token_accuracy": 0.09179538786411286,
      "num_tokens": 549297.0,
      "step": 240
    },
    {
      "entropy": 7.68054313659668,
      "epoch": 0.023535062439961577,
      "grad_norm": 1.40625,
      "learning_rate": 0.000122,
      "loss": 7.1925,
      "mean_token_accuracy": 0.0870781309902668,
      "num_tokens": 560306.0,
      "step": 245
    },
    {
      "entropy": 7.722461795806884,
      "epoch": 0.024015369836695485,
      "grad_norm": 3.09375,
      "learning_rate": 0.0001245,
      "loss": 7.2601,
      "mean_token_accuracy": 0.08716249391436577,
      "num_tokens": 571972.0,
      "step": 250
    },
    {
      "entropy": 7.669500827789307,
      "epoch": 0.024495677233429394,
      "grad_norm": 1.125,
      "learning_rate": 0.000127,
      "loss": 7.1479,
      "mean_token_accuracy": 0.09271593019366264,
      "num_tokens": 582962.0,
      "step": 255
    },
    {
      "entropy": 7.6647216796875,
      "epoch": 0.024975984630163303,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0001295,
      "loss": 7.1214,
      "mean_token_accuracy": 0.09072922170162201,
      "num_tokens": 597193.0,
      "step": 260
    },
    {
      "entropy": 7.66283483505249,
      "epoch": 0.025456292026897216,
      "grad_norm": 1.21875,
      "learning_rate": 0.000132,
      "loss": 7.1819,
      "mean_token_accuracy": 0.09304547160863877,
      "num_tokens": 608982.0,
      "step": 265
    },
    {
      "entropy": 7.661752843856812,
      "epoch": 0.025936599423631124,
      "grad_norm": 1.25,
      "learning_rate": 0.00013450000000000002,
      "loss": 7.2188,
      "mean_token_accuracy": 0.08966975659132004,
      "num_tokens": 619953.0,
      "step": 270
    },
    {
      "entropy": 7.643835210800171,
      "epoch": 0.026416906820365033,
      "grad_norm": 1.25,
      "learning_rate": 0.00013700000000000002,
      "loss": 7.1751,
      "mean_token_accuracy": 0.09371341913938522,
      "num_tokens": 631039.0,
      "step": 275
    },
    {
      "entropy": 7.632717418670654,
      "epoch": 0.026897214217098942,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0001395,
      "loss": 7.1656,
      "mean_token_accuracy": 0.09481634944677353,
      "num_tokens": 642656.0,
      "step": 280
    },
    {
      "entropy": 7.468483591079712,
      "epoch": 0.027377521613832854,
      "grad_norm": 1.46875,
      "learning_rate": 0.00014199999999999998,
      "loss": 7.0285,
      "mean_token_accuracy": 0.10727941244840622,
      "num_tokens": 653748.0,
      "step": 285
    },
    {
      "entropy": 7.516920471191407,
      "epoch": 0.027857829010566763,
      "grad_norm": 1.171875,
      "learning_rate": 0.0001445,
      "loss": 7.0029,
      "mean_token_accuracy": 0.09661566317081452,
      "num_tokens": 665618.0,
      "step": 290
    },
    {
      "entropy": 7.486124277114868,
      "epoch": 0.028338136407300672,
      "grad_norm": 1.0625,
      "learning_rate": 0.000147,
      "loss": 7.0287,
      "mean_token_accuracy": 0.09913064762949944,
      "num_tokens": 677329.0,
      "step": 295
    },
    {
      "entropy": 7.49315767288208,
      "epoch": 0.02881844380403458,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0001495,
      "loss": 6.9864,
      "mean_token_accuracy": 0.1033214770257473,
      "num_tokens": 688278.0,
      "step": 300
    },
    {
      "entropy": 7.431641435623169,
      "epoch": 0.029298751200768493,
      "grad_norm": 1.96875,
      "learning_rate": 0.000152,
      "loss": 7.046,
      "mean_token_accuracy": 0.10180941373109817,
      "num_tokens": 700739.0,
      "step": 305
    },
    {
      "entropy": 7.378959465026855,
      "epoch": 0.029779058597502402,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015450000000000001,
      "loss": 6.9858,
      "mean_token_accuracy": 0.104751455783844,
      "num_tokens": 712527.0,
      "step": 310
    },
    {
      "entropy": 7.4179362773895265,
      "epoch": 0.03025936599423631,
      "grad_norm": 1.390625,
      "learning_rate": 0.000157,
      "loss": 7.0113,
      "mean_token_accuracy": 0.09946026802062988,
      "num_tokens": 724514.0,
      "step": 315
    },
    {
      "entropy": 7.464642429351807,
      "epoch": 0.03073967339097022,
      "grad_norm": 1.3125,
      "learning_rate": 0.0001595,
      "loss": 6.958,
      "mean_token_accuracy": 0.10636739879846573,
      "num_tokens": 735679.0,
      "step": 320
    },
    {
      "entropy": 7.379268789291382,
      "epoch": 0.03121998078770413,
      "grad_norm": 1.234375,
      "learning_rate": 0.000162,
      "loss": 6.9502,
      "mean_token_accuracy": 0.10707954466342925,
      "num_tokens": 747896.0,
      "step": 325
    },
    {
      "entropy": 7.4328147888183596,
      "epoch": 0.03170028818443804,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00016450000000000001,
      "loss": 7.0008,
      "mean_token_accuracy": 0.10451544597744941,
      "num_tokens": 759081.0,
      "step": 330
    },
    {
      "entropy": 7.373377466201783,
      "epoch": 0.03218059558117195,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00016700000000000002,
      "loss": 6.9349,
      "mean_token_accuracy": 0.10051383301615716,
      "num_tokens": 770459.0,
      "step": 335
    },
    {
      "entropy": 7.3182484149932865,
      "epoch": 0.03266090297790586,
      "grad_norm": 2.25,
      "learning_rate": 0.00016950000000000003,
      "loss": 6.9097,
      "mean_token_accuracy": 0.10436427593231201,
      "num_tokens": 783960.0,
      "step": 340
    },
    {
      "entropy": 7.2723020076751705,
      "epoch": 0.03314121037463977,
      "grad_norm": 1.34375,
      "learning_rate": 0.00017199999999999998,
      "loss": 6.9998,
      "mean_token_accuracy": 0.1017355315387249,
      "num_tokens": 795425.0,
      "step": 345
    },
    {
      "entropy": 7.288401937484741,
      "epoch": 0.03362151777137368,
      "grad_norm": 1.5625,
      "learning_rate": 0.00017449999999999999,
      "loss": 6.9466,
      "mean_token_accuracy": 0.1032905712723732,
      "num_tokens": 807536.0,
      "step": 350
    },
    {
      "entropy": 7.429675006866455,
      "epoch": 0.034101825168107586,
      "grad_norm": 1.25,
      "learning_rate": 0.000177,
      "loss": 6.9955,
      "mean_token_accuracy": 0.09869879111647606,
      "num_tokens": 818801.0,
      "step": 355
    },
    {
      "entropy": 7.303883075714111,
      "epoch": 0.0345821325648415,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0001795,
      "loss": 6.8664,
      "mean_token_accuracy": 0.1042160525918007,
      "num_tokens": 831497.0,
      "step": 360
    },
    {
      "entropy": 7.275684547424317,
      "epoch": 0.03506243996157541,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000182,
      "loss": 6.8349,
      "mean_token_accuracy": 0.10631057769060134,
      "num_tokens": 842491.0,
      "step": 365
    },
    {
      "entropy": 7.303065443038941,
      "epoch": 0.03554274735830932,
      "grad_norm": 1.328125,
      "learning_rate": 0.0001845,
      "loss": 6.9059,
      "mean_token_accuracy": 0.09917943850159645,
      "num_tokens": 854560.0,
      "step": 370
    },
    {
      "entropy": 7.275861215591431,
      "epoch": 0.03602305475504323,
      "grad_norm": 1.3515625,
      "learning_rate": 0.000187,
      "loss": 6.8151,
      "mean_token_accuracy": 0.11120132729411125,
      "num_tokens": 866688.0,
      "step": 375
    },
    {
      "entropy": 7.233143997192383,
      "epoch": 0.03650336215177714,
      "grad_norm": 1.65625,
      "learning_rate": 0.0001895,
      "loss": 6.9205,
      "mean_token_accuracy": 0.09971508085727691,
      "num_tokens": 879484.0,
      "step": 380
    },
    {
      "entropy": 7.290747499465942,
      "epoch": 0.036983669548511046,
      "grad_norm": 1.2109375,
      "learning_rate": 0.000192,
      "loss": 6.9039,
      "mean_token_accuracy": 0.10731675177812576,
      "num_tokens": 890807.0,
      "step": 385
    },
    {
      "entropy": 7.2609399318695065,
      "epoch": 0.037463976945244955,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001945,
      "loss": 6.854,
      "mean_token_accuracy": 0.10835549905896187,
      "num_tokens": 901759.0,
      "step": 390
    },
    {
      "entropy": 7.174216985702515,
      "epoch": 0.037944284341978864,
      "grad_norm": 1.28125,
      "learning_rate": 0.00019700000000000002,
      "loss": 6.7707,
      "mean_token_accuracy": 0.1162538155913353,
      "num_tokens": 912212.0,
      "step": 395
    },
    {
      "entropy": 7.264402294158936,
      "epoch": 0.03842459173871278,
      "grad_norm": 1.171875,
      "learning_rate": 0.00019950000000000002,
      "loss": 6.8764,
      "mean_token_accuracy": 0.10775518119335174,
      "num_tokens": 923947.0,
      "step": 400
    },
    {
      "entropy": 7.194364166259765,
      "epoch": 0.03890489913544669,
      "grad_norm": 1.5703125,
      "learning_rate": 0.000202,
      "loss": 6.8149,
      "mean_token_accuracy": 0.1155998706817627,
      "num_tokens": 935732.0,
      "step": 405
    },
    {
      "entropy": 7.094007158279419,
      "epoch": 0.0393852065321806,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00020449999999999998,
      "loss": 6.7534,
      "mean_token_accuracy": 0.11219719424843788,
      "num_tokens": 948261.0,
      "step": 410
    },
    {
      "entropy": 7.198687505722046,
      "epoch": 0.039865513928914506,
      "grad_norm": 1.5390625,
      "learning_rate": 0.000207,
      "loss": 6.8682,
      "mean_token_accuracy": 0.11036199703812599,
      "num_tokens": 959574.0,
      "step": 415
    },
    {
      "entropy": 7.14764518737793,
      "epoch": 0.040345821325648415,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0002095,
      "loss": 6.9302,
      "mean_token_accuracy": 0.10567210242152214,
      "num_tokens": 970329.0,
      "step": 420
    },
    {
      "entropy": 7.284962558746338,
      "epoch": 0.040826128722382324,
      "grad_norm": 1.5078125,
      "learning_rate": 0.000212,
      "loss": 6.7852,
      "mean_token_accuracy": 0.11808342635631561,
      "num_tokens": 982037.0,
      "step": 425
    },
    {
      "entropy": 6.99963059425354,
      "epoch": 0.04130643611911623,
      "grad_norm": 1.15625,
      "learning_rate": 0.0002145,
      "loss": 6.7507,
      "mean_token_accuracy": 0.1121592566370964,
      "num_tokens": 994612.0,
      "step": 430
    },
    {
      "entropy": 7.1772722721099855,
      "epoch": 0.04178674351585014,
      "grad_norm": 1.203125,
      "learning_rate": 0.00021700000000000002,
      "loss": 6.8563,
      "mean_token_accuracy": 0.11890432462096215,
      "num_tokens": 1005960.0,
      "step": 435
    },
    {
      "entropy": 7.119032526016236,
      "epoch": 0.04226705091258405,
      "grad_norm": 1.234375,
      "learning_rate": 0.0002195,
      "loss": 6.726,
      "mean_token_accuracy": 0.11254842653870582,
      "num_tokens": 1017618.0,
      "step": 440
    },
    {
      "entropy": 7.120699787139893,
      "epoch": 0.042747358309317966,
      "grad_norm": 1.5234375,
      "learning_rate": 0.000222,
      "loss": 6.7617,
      "mean_token_accuracy": 0.11123086810112,
      "num_tokens": 1029307.0,
      "step": 445
    },
    {
      "entropy": 7.10453462600708,
      "epoch": 0.043227665706051875,
      "grad_norm": 1.21875,
      "learning_rate": 0.0002245,
      "loss": 6.7794,
      "mean_token_accuracy": 0.11213452070951462,
      "num_tokens": 1042027.0,
      "step": 450
    },
    {
      "entropy": 7.109935092926025,
      "epoch": 0.043707973102785784,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00022700000000000002,
      "loss": 6.7726,
      "mean_token_accuracy": 0.11005142331123352,
      "num_tokens": 1053125.0,
      "step": 455
    },
    {
      "entropy": 7.093224906921387,
      "epoch": 0.04418828049951969,
      "grad_norm": 1.578125,
      "learning_rate": 0.00022950000000000002,
      "loss": 6.7646,
      "mean_token_accuracy": 0.11863623559474945,
      "num_tokens": 1064908.0,
      "step": 460
    },
    {
      "entropy": 7.0393500328063965,
      "epoch": 0.0446685878962536,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00023200000000000003,
      "loss": 6.6415,
      "mean_token_accuracy": 0.12022090703248978,
      "num_tokens": 1076328.0,
      "step": 465
    },
    {
      "entropy": 7.159615230560303,
      "epoch": 0.04514889529298751,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00023449999999999998,
      "loss": 6.8668,
      "mean_token_accuracy": 0.10638144612312317,
      "num_tokens": 1088469.0,
      "step": 470
    },
    {
      "entropy": 6.9358738422393795,
      "epoch": 0.04562920268972142,
      "grad_norm": 1.375,
      "learning_rate": 0.000237,
      "loss": 6.6608,
      "mean_token_accuracy": 0.11796007007360458,
      "num_tokens": 1099408.0,
      "step": 475
    },
    {
      "entropy": 6.921041584014892,
      "epoch": 0.04610951008645533,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0002395,
      "loss": 6.596,
      "mean_token_accuracy": 0.12084084451198578,
      "num_tokens": 1111101.0,
      "step": 480
    },
    {
      "entropy": 6.980242967605591,
      "epoch": 0.046589817483189244,
      "grad_norm": 1.375,
      "learning_rate": 0.000242,
      "loss": 6.6189,
      "mean_token_accuracy": 0.11961494460701942,
      "num_tokens": 1122877.0,
      "step": 485
    },
    {
      "entropy": 6.998215103149414,
      "epoch": 0.04707012487992315,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0002445,
      "loss": 6.7183,
      "mean_token_accuracy": 0.1069619596004486,
      "num_tokens": 1133956.0,
      "step": 490
    },
    {
      "entropy": 6.955817556381225,
      "epoch": 0.04755043227665706,
      "grad_norm": 1.265625,
      "learning_rate": 0.000247,
      "loss": 6.6106,
      "mean_token_accuracy": 0.12115221694111825,
      "num_tokens": 1146101.0,
      "step": 495
    },
    {
      "entropy": 6.991823005676269,
      "epoch": 0.04803073967339097,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002495,
      "loss": 6.704,
      "mean_token_accuracy": 0.1240153320133686,
      "num_tokens": 1157432.0,
      "step": 500
    },
    {
      "entropy": 6.995119285583496,
      "epoch": 0.04851104707012488,
      "grad_norm": 1.1875,
      "learning_rate": 0.000252,
      "loss": 6.6931,
      "mean_token_accuracy": 0.12121785953640937,
      "num_tokens": 1167601.0,
      "step": 505
    },
    {
      "entropy": 6.925166416168213,
      "epoch": 0.04899135446685879,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0002545,
      "loss": 6.5948,
      "mean_token_accuracy": 0.11933866590261459,
      "num_tokens": 1178818.0,
      "step": 510
    },
    {
      "entropy": 7.102405261993408,
      "epoch": 0.0494716618635927,
      "grad_norm": 1.234375,
      "learning_rate": 0.000257,
      "loss": 6.8296,
      "mean_token_accuracy": 0.11879347264766693,
      "num_tokens": 1189977.0,
      "step": 515
    },
    {
      "entropy": 6.896050024032593,
      "epoch": 0.049951969260326606,
      "grad_norm": 1.09375,
      "learning_rate": 0.0002595,
      "loss": 6.6543,
      "mean_token_accuracy": 0.12233106046915054,
      "num_tokens": 1201039.0,
      "step": 520
    },
    {
      "entropy": 7.007365083694458,
      "epoch": 0.05043227665706052,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000262,
      "loss": 6.6791,
      "mean_token_accuracy": 0.12215208187699318,
      "num_tokens": 1212573.0,
      "step": 525
    },
    {
      "entropy": 7.002063369750976,
      "epoch": 0.05091258405379443,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00026450000000000003,
      "loss": 6.6208,
      "mean_token_accuracy": 0.1271028608083725,
      "num_tokens": 1223382.0,
      "step": 530
    },
    {
      "entropy": 6.9438478469848635,
      "epoch": 0.05139289145052834,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00026700000000000004,
      "loss": 6.6969,
      "mean_token_accuracy": 0.12958464100956918,
      "num_tokens": 1236501.0,
      "step": 535
    },
    {
      "entropy": 6.931712675094604,
      "epoch": 0.05187319884726225,
      "grad_norm": 1.203125,
      "learning_rate": 0.00026950000000000005,
      "loss": 6.687,
      "mean_token_accuracy": 0.12256318107247352,
      "num_tokens": 1246798.0,
      "step": 540
    },
    {
      "entropy": 6.9002622127532955,
      "epoch": 0.05235350624399616,
      "grad_norm": 1.40625,
      "learning_rate": 0.00027200000000000005,
      "loss": 6.6164,
      "mean_token_accuracy": 0.12228193208575248,
      "num_tokens": 1258182.0,
      "step": 545
    },
    {
      "entropy": 6.873838090896607,
      "epoch": 0.052833813640730067,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002745,
      "loss": 6.5781,
      "mean_token_accuracy": 0.11714496314525605,
      "num_tokens": 1270273.0,
      "step": 550
    },
    {
      "entropy": 6.869143629074097,
      "epoch": 0.053314121037463975,
      "grad_norm": 1.4296875,
      "learning_rate": 0.000277,
      "loss": 6.6336,
      "mean_token_accuracy": 0.11991709843277931,
      "num_tokens": 1281136.0,
      "step": 555
    },
    {
      "entropy": 6.914445209503174,
      "epoch": 0.053794428434197884,
      "grad_norm": 1.109375,
      "learning_rate": 0.0002795,
      "loss": 6.6257,
      "mean_token_accuracy": 0.12010404467582703,
      "num_tokens": 1294488.0,
      "step": 560
    },
    {
      "entropy": 6.732436418533325,
      "epoch": 0.05427473583093179,
      "grad_norm": 1.296875,
      "learning_rate": 0.00028199999999999997,
      "loss": 6.5262,
      "mean_token_accuracy": 0.12693093419075013,
      "num_tokens": 1304113.0,
      "step": 565
    },
    {
      "entropy": 6.927071809768677,
      "epoch": 0.05475504322766571,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0002845,
      "loss": 6.5843,
      "mean_token_accuracy": 0.12877818644046785,
      "num_tokens": 1315417.0,
      "step": 570
    },
    {
      "entropy": 6.783261919021607,
      "epoch": 0.05523535062439962,
      "grad_norm": 1.34375,
      "learning_rate": 0.000287,
      "loss": 6.5521,
      "mean_token_accuracy": 0.1234595388174057,
      "num_tokens": 1328084.0,
      "step": 575
    },
    {
      "entropy": 6.8645414352417,
      "epoch": 0.05571565802113353,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0002895,
      "loss": 6.6982,
      "mean_token_accuracy": 0.1229254849255085,
      "num_tokens": 1338696.0,
      "step": 580
    },
    {
      "entropy": 6.887264966964722,
      "epoch": 0.056195965417867436,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000292,
      "loss": 6.6333,
      "mean_token_accuracy": 0.12206205278635025,
      "num_tokens": 1350240.0,
      "step": 585
    },
    {
      "entropy": 6.901881551742553,
      "epoch": 0.056676272814601344,
      "grad_norm": 1.390625,
      "learning_rate": 0.0002945,
      "loss": 6.5792,
      "mean_token_accuracy": 0.12374859303236008,
      "num_tokens": 1361720.0,
      "step": 590
    },
    {
      "entropy": 6.646714115142823,
      "epoch": 0.05715658021133525,
      "grad_norm": 1.453125,
      "learning_rate": 0.000297,
      "loss": 6.5831,
      "mean_token_accuracy": 0.12852583453059196,
      "num_tokens": 1373286.0,
      "step": 595
    },
    {
      "entropy": 6.89121675491333,
      "epoch": 0.05763688760806916,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002995,
      "loss": 6.5332,
      "mean_token_accuracy": 0.12378557696938515,
      "num_tokens": 1384274.0,
      "step": 600
    },
    {
      "entropy": 6.707057476043701,
      "epoch": 0.05811719500480307,
      "grad_norm": 1.2734375,
      "learning_rate": 0.000302,
      "loss": 6.5674,
      "mean_token_accuracy": 0.1248041570186615,
      "num_tokens": 1395355.0,
      "step": 605
    },
    {
      "entropy": 6.787681436538696,
      "epoch": 0.05859750240153699,
      "grad_norm": 1.59375,
      "learning_rate": 0.0003045,
      "loss": 6.5071,
      "mean_token_accuracy": 0.1337241604924202,
      "num_tokens": 1406664.0,
      "step": 610
    },
    {
      "entropy": 6.907395648956299,
      "epoch": 0.059077809798270896,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000307,
      "loss": 6.6562,
      "mean_token_accuracy": 0.12113718539476395,
      "num_tokens": 1418450.0,
      "step": 615
    },
    {
      "entropy": 6.8045419216156,
      "epoch": 0.059558117195004805,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003095,
      "loss": 6.5466,
      "mean_token_accuracy": 0.12454390972852707,
      "num_tokens": 1430048.0,
      "step": 620
    },
    {
      "entropy": 6.808126592636109,
      "epoch": 0.060038424591738714,
      "grad_norm": 1.5703125,
      "learning_rate": 0.000312,
      "loss": 6.5911,
      "mean_token_accuracy": 0.12378140687942504,
      "num_tokens": 1441820.0,
      "step": 625
    },
    {
      "entropy": 6.753187370300293,
      "epoch": 0.06051873198847262,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003145,
      "loss": 6.445,
      "mean_token_accuracy": 0.13010460510849953,
      "num_tokens": 1453209.0,
      "step": 630
    },
    {
      "entropy": 6.6527941703796385,
      "epoch": 0.06099903938520653,
      "grad_norm": 1.3515625,
      "learning_rate": 0.000317,
      "loss": 6.4598,
      "mean_token_accuracy": 0.12725651860237122,
      "num_tokens": 1465423.0,
      "step": 635
    },
    {
      "entropy": 6.711978006362915,
      "epoch": 0.06147934678194044,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003195,
      "loss": 6.4541,
      "mean_token_accuracy": 0.13069155365228652,
      "num_tokens": 1476575.0,
      "step": 640
    },
    {
      "entropy": 6.659121417999268,
      "epoch": 0.06195965417867435,
      "grad_norm": 1.734375,
      "learning_rate": 0.000322,
      "loss": 6.4109,
      "mean_token_accuracy": 0.12579366862773894,
      "num_tokens": 1486932.0,
      "step": 645
    },
    {
      "entropy": 6.691300868988037,
      "epoch": 0.06243996157540826,
      "grad_norm": 1.140625,
      "learning_rate": 0.00032450000000000003,
      "loss": 6.4399,
      "mean_token_accuracy": 0.12854820042848586,
      "num_tokens": 1498494.0,
      "step": 650
    },
    {
      "entropy": 6.7037928104400635,
      "epoch": 0.06292026897214217,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00032700000000000003,
      "loss": 6.4936,
      "mean_token_accuracy": 0.12374913021922111,
      "num_tokens": 1509937.0,
      "step": 655
    },
    {
      "entropy": 6.782931184768676,
      "epoch": 0.06340057636887608,
      "grad_norm": 1.3125,
      "learning_rate": 0.00032950000000000004,
      "loss": 6.5147,
      "mean_token_accuracy": 0.13380258977413179,
      "num_tokens": 1519823.0,
      "step": 660
    },
    {
      "entropy": 6.726450872421265,
      "epoch": 0.06388088376560999,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00033200000000000005,
      "loss": 6.5528,
      "mean_token_accuracy": 0.12575417309999465,
      "num_tokens": 1529943.0,
      "step": 665
    },
    {
      "entropy": 6.611954069137573,
      "epoch": 0.0643611911623439,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00033450000000000005,
      "loss": 6.3767,
      "mean_token_accuracy": 0.13369367122650147,
      "num_tokens": 1540618.0,
      "step": 670
    },
    {
      "entropy": 6.685780334472656,
      "epoch": 0.06484149855907781,
      "grad_norm": 1.3515625,
      "learning_rate": 0.000337,
      "loss": 6.5048,
      "mean_token_accuracy": 0.1227756217122078,
      "num_tokens": 1553208.0,
      "step": 675
    },
    {
      "entropy": 6.6764894962310795,
      "epoch": 0.06532180595581172,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0003395,
      "loss": 6.4589,
      "mean_token_accuracy": 0.1339925467967987,
      "num_tokens": 1563975.0,
      "step": 680
    },
    {
      "entropy": 6.717716455459595,
      "epoch": 0.06580211335254563,
      "grad_norm": 1.28125,
      "learning_rate": 0.000342,
      "loss": 6.5252,
      "mean_token_accuracy": 0.12458744868636132,
      "num_tokens": 1575998.0,
      "step": 685
    },
    {
      "entropy": 6.6251349449157715,
      "epoch": 0.06628242074927954,
      "grad_norm": 1.125,
      "learning_rate": 0.00034449999999999997,
      "loss": 6.3994,
      "mean_token_accuracy": 0.13568611592054367,
      "num_tokens": 1586041.0,
      "step": 690
    },
    {
      "entropy": 6.637330770492554,
      "epoch": 0.06676272814601344,
      "grad_norm": 1.4375,
      "learning_rate": 0.000347,
      "loss": 6.4796,
      "mean_token_accuracy": 0.12872253656387328,
      "num_tokens": 1597531.0,
      "step": 695
    },
    {
      "entropy": 6.617096710205078,
      "epoch": 0.06724303554274735,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0003495,
      "loss": 6.4549,
      "mean_token_accuracy": 0.12859696000814438,
      "num_tokens": 1609255.0,
      "step": 700
    },
    {
      "entropy": 6.640483236312866,
      "epoch": 0.06772334293948126,
      "grad_norm": 1.265625,
      "learning_rate": 0.000352,
      "loss": 6.439,
      "mean_token_accuracy": 0.13394341096282006,
      "num_tokens": 1621098.0,
      "step": 705
    },
    {
      "entropy": 6.601499080657959,
      "epoch": 0.06820365033621517,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0003545,
      "loss": 6.3504,
      "mean_token_accuracy": 0.14078185856342315,
      "num_tokens": 1631941.0,
      "step": 710
    },
    {
      "entropy": 6.551211166381836,
      "epoch": 0.0686839577329491,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000357,
      "loss": 6.3471,
      "mean_token_accuracy": 0.13648251742124556,
      "num_tokens": 1643117.0,
      "step": 715
    },
    {
      "entropy": 6.5161905765533445,
      "epoch": 0.069164265129683,
      "grad_norm": 1.40625,
      "learning_rate": 0.0003595,
      "loss": 6.3952,
      "mean_token_accuracy": 0.13429828062653543,
      "num_tokens": 1653595.0,
      "step": 720
    },
    {
      "entropy": 6.614610481262207,
      "epoch": 0.06964457252641691,
      "grad_norm": 1.2734375,
      "learning_rate": 0.000362,
      "loss": 6.4168,
      "mean_token_accuracy": 0.13274685442447662,
      "num_tokens": 1664495.0,
      "step": 725
    },
    {
      "entropy": 6.5094832420349125,
      "epoch": 0.07012487992315082,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003645,
      "loss": 6.4047,
      "mean_token_accuracy": 0.136563728004694,
      "num_tokens": 1674923.0,
      "step": 730
    },
    {
      "entropy": 6.602942371368409,
      "epoch": 0.07060518731988473,
      "grad_norm": 1.234375,
      "learning_rate": 0.000367,
      "loss": 6.3045,
      "mean_token_accuracy": 0.13681301474571228,
      "num_tokens": 1685904.0,
      "step": 735
    },
    {
      "entropy": 6.596617603302002,
      "epoch": 0.07108549471661864,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003695,
      "loss": 6.5324,
      "mean_token_accuracy": 0.12432878389954567,
      "num_tokens": 1699133.0,
      "step": 740
    },
    {
      "entropy": 6.504991292953491,
      "epoch": 0.07156580211335255,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000372,
      "loss": 6.342,
      "mean_token_accuracy": 0.13271907046437265,
      "num_tokens": 1711559.0,
      "step": 745
    },
    {
      "entropy": 6.592547464370727,
      "epoch": 0.07204610951008646,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003745,
      "loss": 6.2575,
      "mean_token_accuracy": 0.14460937380790712,
      "num_tokens": 1722526.0,
      "step": 750
    },
    {
      "entropy": 6.4313709259033205,
      "epoch": 0.07252641690682037,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000377,
      "loss": 6.3265,
      "mean_token_accuracy": 0.1398925192654133,
      "num_tokens": 1734261.0,
      "step": 755
    },
    {
      "entropy": 6.5256377220153805,
      "epoch": 0.07300672430355427,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003795,
      "loss": 6.3105,
      "mean_token_accuracy": 0.14366703033447265,
      "num_tokens": 1745151.0,
      "step": 760
    },
    {
      "entropy": 6.631883907318115,
      "epoch": 0.07348703170028818,
      "grad_norm": 1.3203125,
      "learning_rate": 0.000382,
      "loss": 6.4547,
      "mean_token_accuracy": 0.1341322012245655,
      "num_tokens": 1755463.0,
      "step": 765
    },
    {
      "entropy": 6.584089756011963,
      "epoch": 0.07396733909702209,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0003845,
      "loss": 6.4178,
      "mean_token_accuracy": 0.1315837398171425,
      "num_tokens": 1767717.0,
      "step": 770
    },
    {
      "entropy": 6.3859930515289305,
      "epoch": 0.074447646493756,
      "grad_norm": 1.296875,
      "learning_rate": 0.00038700000000000003,
      "loss": 6.2619,
      "mean_token_accuracy": 0.14160886630415917,
      "num_tokens": 1779115.0,
      "step": 775
    },
    {
      "entropy": 6.3998737812042235,
      "epoch": 0.07492795389048991,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00038950000000000003,
      "loss": 6.213,
      "mean_token_accuracy": 0.1398429863154888,
      "num_tokens": 1789644.0,
      "step": 780
    },
    {
      "entropy": 6.540688323974609,
      "epoch": 0.07540826128722382,
      "grad_norm": 1.140625,
      "learning_rate": 0.00039200000000000004,
      "loss": 6.4251,
      "mean_token_accuracy": 0.13578777611255646,
      "num_tokens": 1800606.0,
      "step": 785
    },
    {
      "entropy": 6.513448238372803,
      "epoch": 0.07588856868395773,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00039450000000000005,
      "loss": 6.4264,
      "mean_token_accuracy": 0.12942690253257752,
      "num_tokens": 1812168.0,
      "step": 790
    },
    {
      "entropy": 6.5457319736480715,
      "epoch": 0.07636887608069164,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00039700000000000005,
      "loss": 6.3796,
      "mean_token_accuracy": 0.1303087830543518,
      "num_tokens": 1823830.0,
      "step": 795
    },
    {
      "entropy": 6.495282316207886,
      "epoch": 0.07684918347742556,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003995,
      "loss": 6.3456,
      "mean_token_accuracy": 0.13957973942160606,
      "num_tokens": 1835611.0,
      "step": 800
    },
    {
      "entropy": 6.467644214630127,
      "epoch": 0.07732949087415947,
      "grad_norm": 1.15625,
      "learning_rate": 0.000402,
      "loss": 6.4127,
      "mean_token_accuracy": 0.1334280975162983,
      "num_tokens": 1847036.0,
      "step": 805
    },
    {
      "entropy": 6.464094591140747,
      "epoch": 0.07780979827089338,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004045,
      "loss": 6.3528,
      "mean_token_accuracy": 0.13223012760281563,
      "num_tokens": 1857476.0,
      "step": 810
    },
    {
      "entropy": 6.50727949142456,
      "epoch": 0.07829010566762729,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00040699999999999997,
      "loss": 6.3773,
      "mean_token_accuracy": 0.1352442115545273,
      "num_tokens": 1869073.0,
      "step": 815
    },
    {
      "entropy": 6.384515810012817,
      "epoch": 0.0787704130643612,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004095,
      "loss": 6.2486,
      "mean_token_accuracy": 0.14026699736714363,
      "num_tokens": 1880439.0,
      "step": 820
    },
    {
      "entropy": 6.561717510223389,
      "epoch": 0.0792507204610951,
      "grad_norm": 1.328125,
      "learning_rate": 0.000412,
      "loss": 6.4116,
      "mean_token_accuracy": 0.134783523529768,
      "num_tokens": 1891600.0,
      "step": 825
    },
    {
      "entropy": 6.414502573013306,
      "epoch": 0.07973102785782901,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004145,
      "loss": 6.3783,
      "mean_token_accuracy": 0.13531816452741624,
      "num_tokens": 1903126.0,
      "step": 830
    },
    {
      "entropy": 6.5730548858642575,
      "epoch": 0.08021133525456292,
      "grad_norm": 1.296875,
      "learning_rate": 0.000417,
      "loss": 6.3467,
      "mean_token_accuracy": 0.14032403156161308,
      "num_tokens": 1913913.0,
      "step": 835
    },
    {
      "entropy": 6.344644355773926,
      "epoch": 0.08069164265129683,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004195,
      "loss": 6.2684,
      "mean_token_accuracy": 0.1382530964910984,
      "num_tokens": 1924961.0,
      "step": 840
    },
    {
      "entropy": 6.523792457580567,
      "epoch": 0.08117195004803074,
      "grad_norm": 1.2421875,
      "learning_rate": 0.000422,
      "loss": 6.3612,
      "mean_token_accuracy": 0.12942377403378486,
      "num_tokens": 1936773.0,
      "step": 845
    },
    {
      "entropy": 6.355926513671875,
      "epoch": 0.08165225744476465,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004245,
      "loss": 6.2783,
      "mean_token_accuracy": 0.13875910267233849,
      "num_tokens": 1948190.0,
      "step": 850
    },
    {
      "entropy": 6.331581449508667,
      "epoch": 0.08213256484149856,
      "grad_norm": 1.09375,
      "learning_rate": 0.000427,
      "loss": 6.2694,
      "mean_token_accuracy": 0.14160780385136604,
      "num_tokens": 1960038.0,
      "step": 855
    },
    {
      "entropy": 6.557125091552734,
      "epoch": 0.08261287223823247,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004295,
      "loss": 6.3489,
      "mean_token_accuracy": 0.14002878665924073,
      "num_tokens": 1970535.0,
      "step": 860
    },
    {
      "entropy": 6.411432456970215,
      "epoch": 0.08309317963496637,
      "grad_norm": 1.34375,
      "learning_rate": 0.000432,
      "loss": 6.3226,
      "mean_token_accuracy": 0.13546231836080552,
      "num_tokens": 1981386.0,
      "step": 865
    },
    {
      "entropy": 6.337710332870484,
      "epoch": 0.08357348703170028,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004345,
      "loss": 6.2428,
      "mean_token_accuracy": 0.1426716774702072,
      "num_tokens": 1993196.0,
      "step": 870
    },
    {
      "entropy": 6.432919025421143,
      "epoch": 0.08405379442843419,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000437,
      "loss": 6.2741,
      "mean_token_accuracy": 0.14658503904938697,
      "num_tokens": 2004756.0,
      "step": 875
    },
    {
      "entropy": 6.315603113174438,
      "epoch": 0.0845341018251681,
      "grad_norm": 1.25,
      "learning_rate": 0.0004395,
      "loss": 6.2347,
      "mean_token_accuracy": 0.14145326390862464,
      "num_tokens": 2016020.0,
      "step": 880
    },
    {
      "entropy": 6.380750274658203,
      "epoch": 0.08501440922190202,
      "grad_norm": 1.2265625,
      "learning_rate": 0.000442,
      "loss": 6.2819,
      "mean_token_accuracy": 0.14082487300038338,
      "num_tokens": 2027747.0,
      "step": 885
    },
    {
      "entropy": 6.4264098644256595,
      "epoch": 0.08549471661863593,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004445,
      "loss": 6.2553,
      "mean_token_accuracy": 0.13818828240036965,
      "num_tokens": 2038841.0,
      "step": 890
    },
    {
      "entropy": 6.385887289047242,
      "epoch": 0.08597502401536984,
      "grad_norm": 1.046875,
      "learning_rate": 0.000447,
      "loss": 6.3043,
      "mean_token_accuracy": 0.13402576446533204,
      "num_tokens": 2049905.0,
      "step": 895
    },
    {
      "entropy": 6.424469089508056,
      "epoch": 0.08645533141210375,
      "grad_norm": 1.234375,
      "learning_rate": 0.00044950000000000003,
      "loss": 6.3803,
      "mean_token_accuracy": 0.13485484719276428,
      "num_tokens": 2062492.0,
      "step": 900
    },
    {
      "entropy": 6.387258577346802,
      "epoch": 0.08693563880883766,
      "grad_norm": 1.21875,
      "learning_rate": 0.00045200000000000004,
      "loss": 6.31,
      "mean_token_accuracy": 0.1353304862976074,
      "num_tokens": 2073840.0,
      "step": 905
    },
    {
      "entropy": 6.3580629348754885,
      "epoch": 0.08741594620557157,
      "grad_norm": 1.328125,
      "learning_rate": 0.00045450000000000004,
      "loss": 6.221,
      "mean_token_accuracy": 0.14060378223657607,
      "num_tokens": 2085720.0,
      "step": 910
    },
    {
      "entropy": 6.353258228302002,
      "epoch": 0.08789625360230548,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00045700000000000005,
      "loss": 6.3039,
      "mean_token_accuracy": 0.1413162462413311,
      "num_tokens": 2096649.0,
      "step": 915
    },
    {
      "entropy": 6.436611890792847,
      "epoch": 0.08837656099903939,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00045950000000000006,
      "loss": 6.3061,
      "mean_token_accuracy": 0.14285610914230346,
      "num_tokens": 2109030.0,
      "step": 920
    },
    {
      "entropy": 6.35608320236206,
      "epoch": 0.0888568683957733,
      "grad_norm": 1.15625,
      "learning_rate": 0.000462,
      "loss": 6.2113,
      "mean_token_accuracy": 0.14488047659397124,
      "num_tokens": 2121384.0,
      "step": 925
    },
    {
      "entropy": 6.269479846954345,
      "epoch": 0.0893371757925072,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004645,
      "loss": 6.1635,
      "mean_token_accuracy": 0.147640460729599,
      "num_tokens": 2131377.0,
      "step": 930
    },
    {
      "entropy": 6.344134902954101,
      "epoch": 0.08981748318924111,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000467,
      "loss": 6.3531,
      "mean_token_accuracy": 0.1383367098867893,
      "num_tokens": 2142364.0,
      "step": 935
    },
    {
      "entropy": 6.356987571716308,
      "epoch": 0.09029779058597502,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004695,
      "loss": 6.2296,
      "mean_token_accuracy": 0.14149210676550866,
      "num_tokens": 2153040.0,
      "step": 940
    },
    {
      "entropy": 6.35843825340271,
      "epoch": 0.09077809798270893,
      "grad_norm": 1.015625,
      "learning_rate": 0.000472,
      "loss": 6.2728,
      "mean_token_accuracy": 0.14314480721950532,
      "num_tokens": 2165571.0,
      "step": 945
    },
    {
      "entropy": 6.3020600318908695,
      "epoch": 0.09125840537944284,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004745,
      "loss": 6.2423,
      "mean_token_accuracy": 0.14072795882821082,
      "num_tokens": 2177241.0,
      "step": 950
    },
    {
      "entropy": 6.329180097579956,
      "epoch": 0.09173871277617675,
      "grad_norm": 1.2109375,
      "learning_rate": 0.000477,
      "loss": 6.2801,
      "mean_token_accuracy": 0.1361616224050522,
      "num_tokens": 2187475.0,
      "step": 955
    },
    {
      "entropy": 6.315436792373657,
      "epoch": 0.09221902017291066,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004795,
      "loss": 6.3087,
      "mean_token_accuracy": 0.14151085540652275,
      "num_tokens": 2198185.0,
      "step": 960
    },
    {
      "entropy": 6.303459358215332,
      "epoch": 0.09269932756964457,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000482,
      "loss": 6.2346,
      "mean_token_accuracy": 0.14740882739424704,
      "num_tokens": 2210404.0,
      "step": 965
    },
    {
      "entropy": 6.370419549942016,
      "epoch": 0.09317963496637849,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004845,
      "loss": 6.2262,
      "mean_token_accuracy": 0.144054813683033,
      "num_tokens": 2222188.0,
      "step": 970
    },
    {
      "entropy": 6.290718269348145,
      "epoch": 0.0936599423631124,
      "grad_norm": 1.109375,
      "learning_rate": 0.000487,
      "loss": 6.2775,
      "mean_token_accuracy": 0.1421047918498516,
      "num_tokens": 2233418.0,
      "step": 975
    },
    {
      "entropy": 6.352431869506836,
      "epoch": 0.0941402497598463,
      "grad_norm": 1.125,
      "learning_rate": 0.0004895,
      "loss": 6.2415,
      "mean_token_accuracy": 0.14807373881340027,
      "num_tokens": 2245053.0,
      "step": 980
    },
    {
      "entropy": 6.250268840789795,
      "epoch": 0.09462055715658022,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000492,
      "loss": 6.2715,
      "mean_token_accuracy": 0.14363499581813813,
      "num_tokens": 2256375.0,
      "step": 985
    },
    {
      "entropy": 6.225133609771729,
      "epoch": 0.09510086455331412,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004945,
      "loss": 6.1142,
      "mean_token_accuracy": 0.1477846160531044,
      "num_tokens": 2267074.0,
      "step": 990
    },
    {
      "entropy": 6.191523456573487,
      "epoch": 0.09558117195004803,
      "grad_norm": 1.15625,
      "learning_rate": 0.000497,
      "loss": 6.1547,
      "mean_token_accuracy": 0.14838184416294098,
      "num_tokens": 2277168.0,
      "step": 995
    },
    {
      "entropy": 6.25091781616211,
      "epoch": 0.09606147934678194,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004995,
      "loss": 6.1381,
      "mean_token_accuracy": 0.14807945489883423,
      "num_tokens": 2288178.0,
      "step": 1000
    },
    {
      "entropy": 6.215264129638672,
      "epoch": 0.09654178674351585,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004999999983283737,
      "loss": 6.1686,
      "mean_token_accuracy": 0.1440332628786564,
      "num_tokens": 2299765.0,
      "step": 1005
    },
    {
      "entropy": 6.3124645233154295,
      "epoch": 0.09702209414024976,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004999999915373924,
      "loss": 6.2644,
      "mean_token_accuracy": 0.13689299449324607,
      "num_tokens": 2312047.0,
      "step": 1010
    },
    {
      "entropy": 6.30297064781189,
      "epoch": 0.09750240153698367,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004999999795225793,
      "loss": 6.2563,
      "mean_token_accuracy": 0.1363622300326824,
      "num_tokens": 2324118.0,
      "step": 1015
    },
    {
      "entropy": 6.299112796783447,
      "epoch": 0.09798270893371758,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004999999622839347,
      "loss": 6.2494,
      "mean_token_accuracy": 0.14326749965548516,
      "num_tokens": 2335171.0,
      "step": 1020
    },
    {
      "entropy": 6.283253812789917,
      "epoch": 0.09846301633045149,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004999999398214593,
      "loss": 6.1501,
      "mean_token_accuracy": 0.14212532341480255,
      "num_tokens": 2346338.0,
      "step": 1025
    },
    {
      "entropy": 6.212884902954102,
      "epoch": 0.0989433237271854,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004999999121351532,
      "loss": 6.1934,
      "mean_token_accuracy": 0.14963782876729964,
      "num_tokens": 2357185.0,
      "step": 1030
    },
    {
      "entropy": 6.190281915664673,
      "epoch": 0.0994236311239193,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004999998792250173,
      "loss": 6.1183,
      "mean_token_accuracy": 0.15685753300786018,
      "num_tokens": 2368494.0,
      "step": 1035
    },
    {
      "entropy": 6.289627552032471,
      "epoch": 0.09990393852065321,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004999998410910524,
      "loss": 6.3364,
      "mean_token_accuracy": 0.13329742476344109,
      "num_tokens": 2380800.0,
      "step": 1040
    },
    {
      "entropy": 6.3118733882904055,
      "epoch": 0.10038424591738712,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004999997977332592,
      "loss": 6.2551,
      "mean_token_accuracy": 0.13934137374162675,
      "num_tokens": 2391753.0,
      "step": 1045
    },
    {
      "entropy": 6.178606843948364,
      "epoch": 0.10086455331412104,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004999997491516389,
      "loss": 6.1391,
      "mean_token_accuracy": 0.1400229126214981,
      "num_tokens": 2403324.0,
      "step": 1050
    },
    {
      "entropy": 6.235824918746948,
      "epoch": 0.10134486071085495,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004999996953461925,
      "loss": 6.2482,
      "mean_token_accuracy": 0.13423383459448815,
      "num_tokens": 2414873.0,
      "step": 1055
    },
    {
      "entropy": 6.138184642791748,
      "epoch": 0.10182516810758886,
      "grad_norm": 1.0,
      "learning_rate": 0.0004999996363169212,
      "loss": 6.0208,
      "mean_token_accuracy": 0.15671658217906953,
      "num_tokens": 2425308.0,
      "step": 1060
    },
    {
      "entropy": 6.144180011749268,
      "epoch": 0.10230547550432277,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004999995720638266,
      "loss": 6.0654,
      "mean_token_accuracy": 0.1525282308459282,
      "num_tokens": 2436835.0,
      "step": 1065
    },
    {
      "entropy": 6.183439445495606,
      "epoch": 0.10278578290105668,
      "grad_norm": 1.140625,
      "learning_rate": 0.00049999950258691,
      "loss": 6.1921,
      "mean_token_accuracy": 0.1451313279569149,
      "num_tokens": 2446798.0,
      "step": 1070
    },
    {
      "entropy": 6.123720979690551,
      "epoch": 0.10326609029779059,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004999994278861731,
      "loss": 6.0747,
      "mean_token_accuracy": 0.15084402859210969,
      "num_tokens": 2457308.0,
      "step": 1075
    },
    {
      "entropy": 6.215669107437134,
      "epoch": 0.1037463976945245,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004999993479616175,
      "loss": 6.1309,
      "mean_token_accuracy": 0.13830516785383223,
      "num_tokens": 2468917.0,
      "step": 1080
    },
    {
      "entropy": 6.227848720550537,
      "epoch": 0.1042267050912584,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999992628132451,
      "loss": 6.1529,
      "mean_token_accuracy": 0.14558819606900214,
      "num_tokens": 2481363.0,
      "step": 1085
    },
    {
      "entropy": 6.175233983993531,
      "epoch": 0.10470701248799232,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999991724410582,
      "loss": 6.1551,
      "mean_token_accuracy": 0.14347582682967186,
      "num_tokens": 2493082.0,
      "step": 1090
    },
    {
      "entropy": 6.150361251831055,
      "epoch": 0.10518731988472622,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999990768450583,
      "loss": 6.106,
      "mean_token_accuracy": 0.1499667778611183,
      "num_tokens": 2503849.0,
      "step": 1095
    },
    {
      "entropy": 6.225272464752197,
      "epoch": 0.10566762728146013,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004999989760252482,
      "loss": 6.1511,
      "mean_token_accuracy": 0.14817013815045357,
      "num_tokens": 2514528.0,
      "step": 1100
    },
    {
      "entropy": 6.097928714752197,
      "epoch": 0.10614793467819404,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004999988699816299,
      "loss": 6.1427,
      "mean_token_accuracy": 0.14771459847688675,
      "num_tokens": 2524971.0,
      "step": 1105
    },
    {
      "entropy": 6.153327941894531,
      "epoch": 0.10662824207492795,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999987587142058,
      "loss": 6.057,
      "mean_token_accuracy": 0.14452041387557985,
      "num_tokens": 2535674.0,
      "step": 1110
    },
    {
      "entropy": 6.2696786403656,
      "epoch": 0.10710854947166186,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999986422229789,
      "loss": 6.2903,
      "mean_token_accuracy": 0.13996392711997033,
      "num_tokens": 2547108.0,
      "step": 1115
    },
    {
      "entropy": 6.155757236480713,
      "epoch": 0.10758885686839577,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999985205079514,
      "loss": 6.1047,
      "mean_token_accuracy": 0.1451355442404747,
      "num_tokens": 2559474.0,
      "step": 1120
    },
    {
      "entropy": 6.012842035293579,
      "epoch": 0.10806916426512968,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999983935691265,
      "loss": 5.9441,
      "mean_token_accuracy": 0.16244944632053376,
      "num_tokens": 2571264.0,
      "step": 1125
    },
    {
      "entropy": 6.159362649917602,
      "epoch": 0.10854947166186359,
      "grad_norm": 1.03125,
      "learning_rate": 0.000499998261406507,
      "loss": 6.1208,
      "mean_token_accuracy": 0.1507526934146881,
      "num_tokens": 2583731.0,
      "step": 1130
    },
    {
      "entropy": 6.268857860565186,
      "epoch": 0.10902977905859751,
      "grad_norm": 1.25,
      "learning_rate": 0.0004999981240200958,
      "loss": 6.1607,
      "mean_token_accuracy": 0.14638862013816833,
      "num_tokens": 2595497.0,
      "step": 1135
    },
    {
      "entropy": 6.053813219070435,
      "epoch": 0.10951008645533142,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004999979814098966,
      "loss": 6.1148,
      "mean_token_accuracy": 0.1516471363604069,
      "num_tokens": 2607358.0,
      "step": 1140
    },
    {
      "entropy": 6.1449603080749515,
      "epoch": 0.10999039385206533,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004999978335759121,
      "loss": 6.0354,
      "mean_token_accuracy": 0.15392047837376593,
      "num_tokens": 2618936.0,
      "step": 1145
    },
    {
      "entropy": 6.154958772659302,
      "epoch": 0.11047070124879924,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999976805181461,
      "loss": 6.1981,
      "mean_token_accuracy": 0.14167412593960763,
      "num_tokens": 2631840.0,
      "step": 1150
    },
    {
      "entropy": 6.140295743942261,
      "epoch": 0.11095100864553314,
      "grad_norm": 1.109375,
      "learning_rate": 0.000499997522236602,
      "loss": 6.1443,
      "mean_token_accuracy": 0.15361175835132598,
      "num_tokens": 2642412.0,
      "step": 1155
    },
    {
      "entropy": 6.160842370986939,
      "epoch": 0.11143131604226705,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004999973587312837,
      "loss": 6.1067,
      "mean_token_accuracy": 0.14919153451919556,
      "num_tokens": 2653890.0,
      "step": 1160
    },
    {
      "entropy": 6.146590614318848,
      "epoch": 0.11191162343900096,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004999971900021947,
      "loss": 6.163,
      "mean_token_accuracy": 0.15273661985993386,
      "num_tokens": 2664888.0,
      "step": 1165
    },
    {
      "entropy": 6.159024953842163,
      "epoch": 0.11239193083573487,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999970160493391,
      "loss": 6.0579,
      "mean_token_accuracy": 0.14569913148880004,
      "num_tokens": 2675550.0,
      "step": 1170
    },
    {
      "entropy": 6.02392611503601,
      "epoch": 0.11287223823246878,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999968368727209,
      "loss": 6.0724,
      "mean_token_accuracy": 0.15466973930597305,
      "num_tokens": 2688022.0,
      "step": 1175
    },
    {
      "entropy": 6.1862691879272464,
      "epoch": 0.11335254562920269,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0004999966524723442,
      "loss": 6.0632,
      "mean_token_accuracy": 0.14964798092842102,
      "num_tokens": 2698737.0,
      "step": 1180
    },
    {
      "entropy": 6.077165365219116,
      "epoch": 0.1138328530259366,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004999964628482135,
      "loss": 6.0344,
      "mean_token_accuracy": 0.15742302685976028,
      "num_tokens": 2709844.0,
      "step": 1185
    },
    {
      "entropy": 6.127112817764282,
      "epoch": 0.1143131604226705,
      "grad_norm": 1.0,
      "learning_rate": 0.0004999962680003328,
      "loss": 6.1035,
      "mean_token_accuracy": 0.1519095703959465,
      "num_tokens": 2720273.0,
      "step": 1190
    },
    {
      "entropy": 6.1255943775177,
      "epoch": 0.11479346781940442,
      "grad_norm": 1.078125,
      "learning_rate": 0.000499996067928707,
      "loss": 6.1124,
      "mean_token_accuracy": 0.14679019302129745,
      "num_tokens": 2731354.0,
      "step": 1195
    },
    {
      "entropy": 6.127178192138672,
      "epoch": 0.11527377521613832,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999958626333406,
      "loss": 6.1052,
      "mean_token_accuracy": 0.1527300015091896,
      "num_tokens": 2742966.0,
      "step": 1200
    },
    {
      "entropy": 6.03611798286438,
      "epoch": 0.11575408261287223,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999956521142383,
      "loss": 6.009,
      "mean_token_accuracy": 0.1586822062730789,
      "num_tokens": 2755010.0,
      "step": 1205
    },
    {
      "entropy": 6.0991308212280275,
      "epoch": 0.11623439000960614,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999954363714051,
      "loss": 6.0361,
      "mean_token_accuracy": 0.14981242269277573,
      "num_tokens": 2766176.0,
      "step": 1210
    },
    {
      "entropy": 6.185801792144775,
      "epoch": 0.11671469740634005,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999952154048459,
      "loss": 6.1829,
      "mean_token_accuracy": 0.15044604614377022,
      "num_tokens": 2777861.0,
      "step": 1215
    },
    {
      "entropy": 6.021704149246216,
      "epoch": 0.11719500480307397,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000499994989214566,
      "loss": 5.9954,
      "mean_token_accuracy": 0.1536705419421196,
      "num_tokens": 2788725.0,
      "step": 1220
    },
    {
      "entropy": 6.0181561470031735,
      "epoch": 0.11767531219980788,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004999947578005705,
      "loss": 6.0312,
      "mean_token_accuracy": 0.15193646997213364,
      "num_tokens": 2801613.0,
      "step": 1225
    },
    {
      "entropy": 6.218272686004639,
      "epoch": 0.11815561959654179,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004999945211628648,
      "loss": 6.0986,
      "mean_token_accuracy": 0.1493365317583084,
      "num_tokens": 2812474.0,
      "step": 1230
    },
    {
      "entropy": 5.971197032928467,
      "epoch": 0.1186359269932757,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999942793014544,
      "loss": 6.0103,
      "mean_token_accuracy": 0.15563429594039918,
      "num_tokens": 2823178.0,
      "step": 1235
    },
    {
      "entropy": 6.045905733108521,
      "epoch": 0.11911623439000961,
      "grad_norm": 0.9375,
      "learning_rate": 0.000499994032216345,
      "loss": 6.0211,
      "mean_token_accuracy": 0.15064174830913543,
      "num_tokens": 2836486.0,
      "step": 1240
    },
    {
      "entropy": 6.107371759414673,
      "epoch": 0.11959654178674352,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999937799075422,
      "loss": 6.0746,
      "mean_token_accuracy": 0.1570821538567543,
      "num_tokens": 2847902.0,
      "step": 1245
    },
    {
      "entropy": 5.903108596801758,
      "epoch": 0.12007684918347743,
      "grad_norm": 0.99609375,
      "learning_rate": 0.000499993522375052,
      "loss": 5.9739,
      "mean_token_accuracy": 0.15461545437574387,
      "num_tokens": 2859991.0,
      "step": 1250
    },
    {
      "entropy": 6.248143100738526,
      "epoch": 0.12055715658021134,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004999932596188802,
      "loss": 6.1545,
      "mean_token_accuracy": 0.14593613222241403,
      "num_tokens": 2870269.0,
      "step": 1255
    },
    {
      "entropy": 6.034249687194825,
      "epoch": 0.12103746397694524,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004999929916390331,
      "loss": 6.0279,
      "mean_token_accuracy": 0.14597706943750383,
      "num_tokens": 2882191.0,
      "step": 1260
    },
    {
      "entropy": 5.966269588470459,
      "epoch": 0.12151777137367915,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004999927184355169,
      "loss": 6.0372,
      "mean_token_accuracy": 0.14836430177092552,
      "num_tokens": 2892775.0,
      "step": 1265
    },
    {
      "entropy": 6.147925519943238,
      "epoch": 0.12199807877041306,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999924400083377,
      "loss": 6.0247,
      "mean_token_accuracy": 0.15831544399261474,
      "num_tokens": 2904750.0,
      "step": 1270
    },
    {
      "entropy": 6.081568050384521,
      "epoch": 0.12247838616714697,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999921563575022,
      "loss": 6.0988,
      "mean_token_accuracy": 0.14920950308442116,
      "num_tokens": 2916150.0,
      "step": 1275
    },
    {
      "entropy": 6.07696213722229,
      "epoch": 0.12295869356388088,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999918674830169,
      "loss": 6.0644,
      "mean_token_accuracy": 0.1496642827987671,
      "num_tokens": 2928452.0,
      "step": 1280
    },
    {
      "entropy": 6.035782670974731,
      "epoch": 0.12343900096061479,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999915733848886,
      "loss": 6.0442,
      "mean_token_accuracy": 0.1454036220908165,
      "num_tokens": 2940577.0,
      "step": 1285
    },
    {
      "entropy": 6.022758436203003,
      "epoch": 0.1239193083573487,
      "grad_norm": 1.0390625,
      "learning_rate": 0.000499991274063124,
      "loss": 6.0283,
      "mean_token_accuracy": 0.15150520876049994,
      "num_tokens": 2952302.0,
      "step": 1290
    },
    {
      "entropy": 6.0645428657531735,
      "epoch": 0.12439961575408261,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004999909695177301,
      "loss": 6.0669,
      "mean_token_accuracy": 0.15440516471862792,
      "num_tokens": 2964611.0,
      "step": 1295
    },
    {
      "entropy": 6.0961566925048825,
      "epoch": 0.12487992315081652,
      "grad_norm": 1.0078125,
      "learning_rate": 0.000499990659748714,
      "loss": 6.05,
      "mean_token_accuracy": 0.15006925463676452,
      "num_tokens": 2975668.0,
      "step": 1300
    },
    {
      "entropy": 6.146146440505982,
      "epoch": 0.12536023054755044,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999903447560828,
      "loss": 6.1198,
      "mean_token_accuracy": 0.14781473577022552,
      "num_tokens": 2987303.0,
      "step": 1305
    },
    {
      "entropy": 6.117984342575073,
      "epoch": 0.12584053794428435,
      "grad_norm": 0.9453125,
      "learning_rate": 0.0004999900245398439,
      "loss": 6.0166,
      "mean_token_accuracy": 0.16036698669195176,
      "num_tokens": 3000400.0,
      "step": 1310
    },
    {
      "entropy": 6.010946893692017,
      "epoch": 0.12632084534101826,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999896991000047,
      "loss": 5.9477,
      "mean_token_accuracy": 0.1495976448059082,
      "num_tokens": 3012336.0,
      "step": 1315
    },
    {
      "entropy": 6.054377698898316,
      "epoch": 0.12680115273775217,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999893684365729,
      "loss": 6.0047,
      "mean_token_accuracy": 0.15137309059500695,
      "num_tokens": 3023004.0,
      "step": 1320
    },
    {
      "entropy": 6.044629859924316,
      "epoch": 0.12728146013448607,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004999890325495559,
      "loss": 6.0922,
      "mean_token_accuracy": 0.147823116928339,
      "num_tokens": 3035147.0,
      "step": 1325
    },
    {
      "entropy": 6.072157478332519,
      "epoch": 0.12776176753121998,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999886914389617,
      "loss": 5.9177,
      "mean_token_accuracy": 0.1551705077290535,
      "num_tokens": 3045611.0,
      "step": 1330
    },
    {
      "entropy": 5.916638660430908,
      "epoch": 0.1282420749279539,
      "grad_norm": 0.92578125,
      "learning_rate": 0.0004999883451047981,
      "loss": 5.9296,
      "mean_token_accuracy": 0.1561925306916237,
      "num_tokens": 3056420.0,
      "step": 1335
    },
    {
      "entropy": 5.977782440185547,
      "epoch": 0.1287223823246878,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004999879935470733,
      "loss": 5.9227,
      "mean_token_accuracy": 0.15750788599252702,
      "num_tokens": 3068770.0,
      "step": 1340
    },
    {
      "entropy": 6.05616979598999,
      "epoch": 0.1292026897214217,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999876367657954,
      "loss": 6.0521,
      "mean_token_accuracy": 0.14580482840538025,
      "num_tokens": 3080806.0,
      "step": 1345
    },
    {
      "entropy": 6.143747854232788,
      "epoch": 0.12968299711815562,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999872747609725,
      "loss": 6.0742,
      "mean_token_accuracy": 0.1484417587518692,
      "num_tokens": 3091769.0,
      "step": 1350
    },
    {
      "entropy": 5.9879156112670895,
      "epoch": 0.13016330451488953,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004999869075326132,
      "loss": 5.9938,
      "mean_token_accuracy": 0.15191702395677567,
      "num_tokens": 3103121.0,
      "step": 1355
    },
    {
      "entropy": 6.010816240310669,
      "epoch": 0.13064361191162344,
      "grad_norm": 0.890625,
      "learning_rate": 0.000499986535080726,
      "loss": 5.9724,
      "mean_token_accuracy": 0.16233935654163362,
      "num_tokens": 3115606.0,
      "step": 1360
    },
    {
      "entropy": 6.026129817962646,
      "epoch": 0.13112391930835735,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0004999861574053196,
      "loss": 5.8723,
      "mean_token_accuracy": 0.16096271872520446,
      "num_tokens": 3127961.0,
      "step": 1365
    },
    {
      "entropy": 5.87260947227478,
      "epoch": 0.13160422670509125,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999857745064027,
      "loss": 5.8905,
      "mean_token_accuracy": 0.15895691215991975,
      "num_tokens": 3138316.0,
      "step": 1370
    },
    {
      "entropy": 5.953699588775635,
      "epoch": 0.13208453410182516,
      "grad_norm": 0.9296875,
      "learning_rate": 0.000499985386383984,
      "loss": 5.8671,
      "mean_token_accuracy": 0.15866711735725403,
      "num_tokens": 3150818.0,
      "step": 1375
    },
    {
      "entropy": 6.006815195083618,
      "epoch": 0.13256484149855907,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004999849930380729,
      "loss": 6.0195,
      "mean_token_accuracy": 0.1508159779012203,
      "num_tokens": 3162066.0,
      "step": 1380
    },
    {
      "entropy": 5.941660642623901,
      "epoch": 0.13304514889529298,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999845944686781,
      "loss": 5.9924,
      "mean_token_accuracy": 0.1508888617157936,
      "num_tokens": 3172209.0,
      "step": 1385
    },
    {
      "entropy": 5.954594707489013,
      "epoch": 0.1335254562920269,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004999841906758093,
      "loss": 5.8218,
      "mean_token_accuracy": 0.1675858825445175,
      "num_tokens": 3183248.0,
      "step": 1390
    },
    {
      "entropy": 5.94215030670166,
      "epoch": 0.1340057636887608,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999837816594757,
      "loss": 5.9139,
      "mean_token_accuracy": 0.15847276002168656,
      "num_tokens": 3194748.0,
      "step": 1395
    },
    {
      "entropy": 5.930553770065307,
      "epoch": 0.1344860710854947,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999833674196865,
      "loss": 5.8849,
      "mean_token_accuracy": 0.16950529664754868,
      "num_tokens": 3205669.0,
      "step": 1400
    },
    {
      "entropy": 5.932918214797974,
      "epoch": 0.13496637848222862,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999829479564518,
      "loss": 5.9807,
      "mean_token_accuracy": 0.14995542094111441,
      "num_tokens": 3216035.0,
      "step": 1405
    },
    {
      "entropy": 6.064324188232422,
      "epoch": 0.13544668587896252,
      "grad_norm": 1.109375,
      "learning_rate": 0.000499982523269781,
      "loss": 5.9647,
      "mean_token_accuracy": 0.15931690335273743,
      "num_tokens": 3227192.0,
      "step": 1410
    },
    {
      "entropy": 5.975619888305664,
      "epoch": 0.13592699327569643,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004999820933596842,
      "loss": 5.9871,
      "mean_token_accuracy": 0.15620121210813523,
      "num_tokens": 3240237.0,
      "step": 1415
    },
    {
      "entropy": 5.962911701202392,
      "epoch": 0.13640730067243034,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000499981658226171,
      "loss": 5.8734,
      "mean_token_accuracy": 0.16469697579741477,
      "num_tokens": 3251963.0,
      "step": 1420
    },
    {
      "entropy": 5.908741474151611,
      "epoch": 0.13688760806916425,
      "grad_norm": 1.0078125,
      "learning_rate": 0.000499981217869252,
      "loss": 5.9953,
      "mean_token_accuracy": 0.15814436972141266,
      "num_tokens": 3263101.0,
      "step": 1425
    },
    {
      "entropy": 5.985613679885864,
      "epoch": 0.1373679154658982,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000499980772288937,
      "loss": 5.8679,
      "mean_token_accuracy": 0.16649020761251448,
      "num_tokens": 3275100.0,
      "step": 1430
    },
    {
      "entropy": 5.945235109329223,
      "epoch": 0.1378482228626321,
      "grad_norm": 0.9140625,
      "learning_rate": 0.0004999803214852367,
      "loss": 5.9638,
      "mean_token_accuracy": 0.15565589517354966,
      "num_tokens": 3287025.0,
      "step": 1435
    },
    {
      "entropy": 6.04934253692627,
      "epoch": 0.138328530259366,
      "grad_norm": 0.91796875,
      "learning_rate": 0.0004999798654581613,
      "loss": 5.9662,
      "mean_token_accuracy": 0.15883919447660447,
      "num_tokens": 3299867.0,
      "step": 1440
    },
    {
      "entropy": 5.918570852279663,
      "epoch": 0.13880883765609991,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999794042077214,
      "loss": 5.9038,
      "mean_token_accuracy": 0.16191874593496322,
      "num_tokens": 3311183.0,
      "step": 1445
    },
    {
      "entropy": 5.952925539016723,
      "epoch": 0.13928914505283382,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004999789377339279,
      "loss": 5.9687,
      "mean_token_accuracy": 0.15641413480043412,
      "num_tokens": 3322247.0,
      "step": 1450
    },
    {
      "entropy": 5.962415742874145,
      "epoch": 0.13976945244956773,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999784660367915,
      "loss": 5.8826,
      "mean_token_accuracy": 0.1588966131210327,
      "num_tokens": 3333369.0,
      "step": 1455
    },
    {
      "entropy": 5.904612874984741,
      "epoch": 0.14024975984630164,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004999779891163231,
      "loss": 5.9113,
      "mean_token_accuracy": 0.16011089235544204,
      "num_tokens": 3345876.0,
      "step": 1460
    },
    {
      "entropy": 5.91278772354126,
      "epoch": 0.14073006724303555,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999775069725339,
      "loss": 5.8124,
      "mean_token_accuracy": 0.1629629462957382,
      "num_tokens": 3357323.0,
      "step": 1465
    },
    {
      "entropy": 5.912459039688111,
      "epoch": 0.14121037463976946,
      "grad_norm": 1.109375,
      "learning_rate": 0.000499977019605435,
      "loss": 5.897,
      "mean_token_accuracy": 0.15947655588388443,
      "num_tokens": 3367689.0,
      "step": 1470
    },
    {
      "entropy": 5.844752836227417,
      "epoch": 0.14169068203650337,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004999765270150378,
      "loss": 5.8568,
      "mean_token_accuracy": 0.15955205261707306,
      "num_tokens": 3379472.0,
      "step": 1475
    },
    {
      "entropy": 5.996302938461303,
      "epoch": 0.14217098943323728,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999760292013536,
      "loss": 5.8922,
      "mean_token_accuracy": 0.15859662368893623,
      "num_tokens": 3390929.0,
      "step": 1480
    },
    {
      "entropy": 5.99014687538147,
      "epoch": 0.14265129682997119,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999755261643941,
      "loss": 5.8976,
      "mean_token_accuracy": 0.16287715286016463,
      "num_tokens": 3401242.0,
      "step": 1485
    },
    {
      "entropy": 5.869934892654419,
      "epoch": 0.1431316042267051,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004999750179041709,
      "loss": 5.8878,
      "mean_token_accuracy": 0.16124220937490463,
      "num_tokens": 3411169.0,
      "step": 1490
    },
    {
      "entropy": 5.874157810211182,
      "epoch": 0.143611911623439,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004999745044206959,
      "loss": 5.7279,
      "mean_token_accuracy": 0.16647156924009324,
      "num_tokens": 3423265.0,
      "step": 1495
    },
    {
      "entropy": 5.832660913467407,
      "epoch": 0.1440922190201729,
      "grad_norm": 0.96484375,
      "learning_rate": 0.0004999739857139809,
      "loss": 5.8347,
      "mean_token_accuracy": 0.16908216327428818,
      "num_tokens": 3434793.0,
      "step": 1500
    },
    {
      "entropy": 5.757522106170654,
      "epoch": 0.14457252641690682,
      "grad_norm": 0.98828125,
      "learning_rate": 0.000499973461784038,
      "loss": 5.7679,
      "mean_token_accuracy": 0.17928926199674605,
      "num_tokens": 3445732.0,
      "step": 1505
    },
    {
      "entropy": 5.942258501052857,
      "epoch": 0.14505283381364073,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004999729326308792,
      "loss": 5.9516,
      "mean_token_accuracy": 0.15832037180662156,
      "num_tokens": 3457090.0,
      "step": 1510
    },
    {
      "entropy": 5.99946174621582,
      "epoch": 0.14553314121037464,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000499972398254517,
      "loss": 5.9388,
      "mean_token_accuracy": 0.15340567082166673,
      "num_tokens": 3468087.0,
      "step": 1515
    },
    {
      "entropy": 5.941799163818359,
      "epoch": 0.14601344860710855,
      "grad_norm": 1.0625,
      "learning_rate": 0.000499971858654964,
      "loss": 5.8778,
      "mean_token_accuracy": 0.1609287366271019,
      "num_tokens": 3478820.0,
      "step": 1520
    },
    {
      "entropy": 5.859274196624756,
      "epoch": 0.14649375600384246,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004999713138322321,
      "loss": 5.9021,
      "mean_token_accuracy": 0.15754427909851074,
      "num_tokens": 3489878.0,
      "step": 1525
    },
    {
      "entropy": 5.942076396942139,
      "epoch": 0.14697406340057637,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999707637863346,
      "loss": 5.8905,
      "mean_token_accuracy": 0.1585473045706749,
      "num_tokens": 3500944.0,
      "step": 1530
    },
    {
      "entropy": 5.8406360149383545,
      "epoch": 0.14745437079731027,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004999702085172838,
      "loss": 5.8719,
      "mean_token_accuracy": 0.16607238352298737,
      "num_tokens": 3511383.0,
      "step": 1535
    },
    {
      "entropy": 5.969763612747192,
      "epoch": 0.14793467819404418,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004999696480250929,
      "loss": 5.963,
      "mean_token_accuracy": 0.15430965945124625,
      "num_tokens": 3523300.0,
      "step": 1540
    },
    {
      "entropy": 5.970634698867798,
      "epoch": 0.1484149855907781,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004999690823097747,
      "loss": 5.8799,
      "mean_token_accuracy": 0.1521039791405201,
      "num_tokens": 3534371.0,
      "step": 1545
    },
    {
      "entropy": 5.841155576705932,
      "epoch": 0.148895292987512,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004999685113713426,
      "loss": 5.8552,
      "mean_token_accuracy": 0.16120514869689942,
      "num_tokens": 3544847.0,
      "step": 1550
    },
    {
      "entropy": 5.92685284614563,
      "epoch": 0.1493756003842459,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004999679352098096,
      "loss": 5.8223,
      "mean_token_accuracy": 0.16645588725805283,
      "num_tokens": 3555859.0,
      "step": 1555
    },
    {
      "entropy": 5.8343531608581545,
      "epoch": 0.14985590778097982,
      "grad_norm": 0.9375,
      "learning_rate": 0.0004999673538251891,
      "loss": 5.8389,
      "mean_token_accuracy": 0.15894080251455306,
      "num_tokens": 3568283.0,
      "step": 1560
    },
    {
      "entropy": 5.834793663024902,
      "epoch": 0.15033621517771373,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004999667672174947,
      "loss": 5.917,
      "mean_token_accuracy": 0.1583700641989708,
      "num_tokens": 3581442.0,
      "step": 1565
    },
    {
      "entropy": 6.0175745487213135,
      "epoch": 0.15081652257444764,
      "grad_norm": 1.015625,
      "learning_rate": 0.00049996617538674,
      "loss": 5.9571,
      "mean_token_accuracy": 0.15496992468833923,
      "num_tokens": 3594055.0,
      "step": 1570
    },
    {
      "entropy": 5.962413930892945,
      "epoch": 0.15129682997118155,
      "grad_norm": 1.0,
      "learning_rate": 0.0004999655783329386,
      "loss": 5.9187,
      "mean_token_accuracy": 0.15283605754375457,
      "num_tokens": 3605952.0,
      "step": 1575
    },
    {
      "entropy": 5.910793209075928,
      "epoch": 0.15177713736791545,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004999649760561046,
      "loss": 5.9577,
      "mean_token_accuracy": 0.158383572101593,
      "num_tokens": 3618544.0,
      "step": 1580
    },
    {
      "entropy": 5.908201408386231,
      "epoch": 0.15225744476464936,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999643685562519,
      "loss": 5.8929,
      "mean_token_accuracy": 0.16440413743257523,
      "num_tokens": 3630445.0,
      "step": 1585
    },
    {
      "entropy": 5.935053777694702,
      "epoch": 0.15273775216138327,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999637558333945,
      "loss": 5.8797,
      "mean_token_accuracy": 0.16155748218297958,
      "num_tokens": 3642516.0,
      "step": 1590
    },
    {
      "entropy": 5.843541431427002,
      "epoch": 0.15321805955811718,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999631378875467,
      "loss": 5.8175,
      "mean_token_accuracy": 0.16581382006406784,
      "num_tokens": 3654425.0,
      "step": 1595
    },
    {
      "entropy": 5.805763053894043,
      "epoch": 0.15369836695485112,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004999625147187228,
      "loss": 5.8228,
      "mean_token_accuracy": 0.16464165300130845,
      "num_tokens": 3666521.0,
      "step": 1600
    },
    {
      "entropy": 6.019205856323242,
      "epoch": 0.15417867435158503,
      "grad_norm": 0.94140625,
      "learning_rate": 0.0004999618863269373,
      "loss": 5.8806,
      "mean_token_accuracy": 0.15575164407491685,
      "num_tokens": 3679121.0,
      "step": 1605
    },
    {
      "entropy": 5.91282377243042,
      "epoch": 0.15465898174831894,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999612527122049,
      "loss": 5.8941,
      "mean_token_accuracy": 0.15461272597312928,
      "num_tokens": 3691095.0,
      "step": 1610
    },
    {
      "entropy": 5.826972103118896,
      "epoch": 0.15513928914505284,
      "grad_norm": 0.87109375,
      "learning_rate": 0.0004999606138745402,
      "loss": 5.8562,
      "mean_token_accuracy": 0.16407538801431656,
      "num_tokens": 3703426.0,
      "step": 1615
    },
    {
      "entropy": 5.967412042617798,
      "epoch": 0.15561959654178675,
      "grad_norm": 1.0,
      "learning_rate": 0.0004999599698139581,
      "loss": 5.9309,
      "mean_token_accuracy": 0.1637990355491638,
      "num_tokens": 3715429.0,
      "step": 1620
    },
    {
      "entropy": 5.932253503799439,
      "epoch": 0.15609990393852066,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999593205304734,
      "loss": 5.909,
      "mean_token_accuracy": 0.15584128946065903,
      "num_tokens": 3726327.0,
      "step": 1625
    },
    {
      "entropy": 5.9037374496459964,
      "epoch": 0.15658021133525457,
      "grad_norm": 1.0,
      "learning_rate": 0.0004999586660241012,
      "loss": 5.8582,
      "mean_token_accuracy": 0.1553866222500801,
      "num_tokens": 3736818.0,
      "step": 1630
    },
    {
      "entropy": 5.929326868057251,
      "epoch": 0.15706051873198848,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004999580062948569,
      "loss": 5.8583,
      "mean_token_accuracy": 0.16254822611808778,
      "num_tokens": 3747776.0,
      "step": 1635
    },
    {
      "entropy": 5.7625970363616945,
      "epoch": 0.1575408261287224,
      "grad_norm": 1.0,
      "learning_rate": 0.0004999573413427556,
      "loss": 5.7301,
      "mean_token_accuracy": 0.164338056743145,
      "num_tokens": 3758990.0,
      "step": 1640
    },
    {
      "entropy": 5.8398857593536375,
      "epoch": 0.1580211335254563,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004999566711678128,
      "loss": 5.7961,
      "mean_token_accuracy": 0.1605479434132576,
      "num_tokens": 3769686.0,
      "step": 1645
    },
    {
      "entropy": 5.867894649505615,
      "epoch": 0.1585014409221902,
      "grad_norm": 0.92578125,
      "learning_rate": 0.0004999559957700442,
      "loss": 5.8554,
      "mean_token_accuracy": 0.16354380249977113,
      "num_tokens": 3781815.0,
      "step": 1650
    },
    {
      "entropy": 5.88207426071167,
      "epoch": 0.15898174831892412,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004999553151494653,
      "loss": 5.9139,
      "mean_token_accuracy": 0.15942219495773316,
      "num_tokens": 3793392.0,
      "step": 1655
    },
    {
      "entropy": 5.860579538345337,
      "epoch": 0.15946205571565802,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999546293060919,
      "loss": 5.8298,
      "mean_token_accuracy": 0.16041782200336457,
      "num_tokens": 3804974.0,
      "step": 1660
    },
    {
      "entropy": 5.799793004989624,
      "epoch": 0.15994236311239193,
      "grad_norm": 0.953125,
      "learning_rate": 0.00049995393823994,
      "loss": 5.7028,
      "mean_token_accuracy": 0.17192372530698777,
      "num_tokens": 3817166.0,
      "step": 1665
    },
    {
      "entropy": 5.849306297302246,
      "epoch": 0.16042267050912584,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999532419510255,
      "loss": 5.8307,
      "mean_token_accuracy": 0.1580624461174011,
      "num_tokens": 3828151.0,
      "step": 1670
    },
    {
      "entropy": 5.847281789779663,
      "epoch": 0.16090297790585975,
      "grad_norm": 0.97265625,
      "learning_rate": 0.000499952540439365,
      "loss": 5.8283,
      "mean_token_accuracy": 0.16032543033361435,
      "num_tokens": 3839439.0,
      "step": 1675
    },
    {
      "entropy": 5.906755828857422,
      "epoch": 0.16138328530259366,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0004999518337049743,
      "loss": 5.8813,
      "mean_token_accuracy": 0.15963228195905685,
      "num_tokens": 3851694.0,
      "step": 1680
    },
    {
      "entropy": 5.831542205810547,
      "epoch": 0.16186359269932757,
      "grad_norm": 0.91015625,
      "learning_rate": 0.00049995112174787,
      "loss": 5.8589,
      "mean_token_accuracy": 0.15917099863290787,
      "num_tokens": 3863593.0,
      "step": 1685
    },
    {
      "entropy": 5.811672306060791,
      "epoch": 0.16234390009606148,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0004999504045680687,
      "loss": 5.7935,
      "mean_token_accuracy": 0.1701650395989418,
      "num_tokens": 3874588.0,
      "step": 1690
    },
    {
      "entropy": 5.894420862197876,
      "epoch": 0.1628242074927954,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999496821655869,
      "loss": 5.8753,
      "mean_token_accuracy": 0.16022350043058395,
      "num_tokens": 3884662.0,
      "step": 1695
    },
    {
      "entropy": 5.956241655349731,
      "epoch": 0.1633045148895293,
      "grad_norm": 0.890625,
      "learning_rate": 0.0004999489545404414,
      "loss": 5.9739,
      "mean_token_accuracy": 0.15092033073306083,
      "num_tokens": 3896569.0,
      "step": 1700
    },
    {
      "entropy": 5.943658018112183,
      "epoch": 0.1637848222862632,
      "grad_norm": 0.8984375,
      "learning_rate": 0.0004999482216926493,
      "loss": 5.8162,
      "mean_token_accuracy": 0.1632000833749771,
      "num_tokens": 3907691.0,
      "step": 1705
    },
    {
      "entropy": 5.843317651748658,
      "epoch": 0.1642651296829971,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999474836222273,
      "loss": 5.83,
      "mean_token_accuracy": 0.1665841408073902,
      "num_tokens": 3918794.0,
      "step": 1710
    },
    {
      "entropy": 5.834485340118408,
      "epoch": 0.16474543707973102,
      "grad_norm": 0.94140625,
      "learning_rate": 0.0004999467403291928,
      "loss": 5.8301,
      "mean_token_accuracy": 0.1692491739988327,
      "num_tokens": 3929773.0,
      "step": 1715
    },
    {
      "entropy": 5.874946594238281,
      "epoch": 0.16522574447646493,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999459918135628,
      "loss": 5.8498,
      "mean_token_accuracy": 0.16062923073768615,
      "num_tokens": 3940264.0,
      "step": 1720
    },
    {
      "entropy": 5.791439247131348,
      "epoch": 0.16570605187319884,
      "grad_norm": 1.0078125,
      "learning_rate": 0.000499945238075355,
      "loss": 5.7456,
      "mean_token_accuracy": 0.1693306788802147,
      "num_tokens": 3951500.0,
      "step": 1725
    },
    {
      "entropy": 5.851829910278321,
      "epoch": 0.16618635926993275,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999444791145865,
      "loss": 5.8145,
      "mean_token_accuracy": 0.16588351577520372,
      "num_tokens": 3963580.0,
      "step": 1730
    },
    {
      "entropy": 5.804158353805542,
      "epoch": 0.16666666666666666,
      "grad_norm": 0.9375,
      "learning_rate": 0.0004999437149312754,
      "loss": 5.7585,
      "mean_token_accuracy": 0.17176578491926192,
      "num_tokens": 3975994.0,
      "step": 1735
    },
    {
      "entropy": 5.836318635940552,
      "epoch": 0.16714697406340057,
      "grad_norm": 1.015625,
      "learning_rate": 0.000499942945525439,
      "loss": 5.7658,
      "mean_token_accuracy": 0.15896687656641006,
      "num_tokens": 3987897.0,
      "step": 1740
    },
    {
      "entropy": 5.888211059570312,
      "epoch": 0.16762728146013448,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999421708970954,
      "loss": 5.93,
      "mean_token_accuracy": 0.15537445321679116,
      "num_tokens": 3999829.0,
      "step": 1745
    },
    {
      "entropy": 5.7658594131469725,
      "epoch": 0.16810758885686838,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004999413910462625,
      "loss": 5.7591,
      "mean_token_accuracy": 0.16620118021965027,
      "num_tokens": 4010882.0,
      "step": 1750
    },
    {
      "entropy": 5.861884737014771,
      "epoch": 0.1685878962536023,
      "grad_norm": 0.9453125,
      "learning_rate": 0.0004999406059729586,
      "loss": 5.7469,
      "mean_token_accuracy": 0.17034892737865448,
      "num_tokens": 4021423.0,
      "step": 1755
    },
    {
      "entropy": 5.888075494766236,
      "epoch": 0.1690682036503362,
      "grad_norm": 0.921875,
      "learning_rate": 0.0004999398156772016,
      "loss": 5.8931,
      "mean_token_accuracy": 0.15374189764261245,
      "num_tokens": 4033590.0,
      "step": 1760
    },
    {
      "entropy": 5.721970653533935,
      "epoch": 0.16954851104707014,
      "grad_norm": 1.078125,
      "learning_rate": 0.00049993902015901,
      "loss": 5.7562,
      "mean_token_accuracy": 0.16655992865562438,
      "num_tokens": 4043978.0,
      "step": 1765
    },
    {
      "entropy": 5.931190156936646,
      "epoch": 0.17002881844380405,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999382194184023,
      "loss": 5.8756,
      "mean_token_accuracy": 0.16273052543401717,
      "num_tokens": 4054513.0,
      "step": 1770
    },
    {
      "entropy": 5.857993745803833,
      "epoch": 0.17050912584053796,
      "grad_norm": 0.9375,
      "learning_rate": 0.0004999374134553972,
      "loss": 5.8367,
      "mean_token_accuracy": 0.16276317089796066,
      "num_tokens": 4066019.0,
      "step": 1775
    },
    {
      "entropy": 5.841061735153199,
      "epoch": 0.17098943323727187,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004999366022700131,
      "loss": 5.7935,
      "mean_token_accuracy": 0.1673088401556015,
      "num_tokens": 4077688.0,
      "step": 1780
    },
    {
      "entropy": 5.860415935516357,
      "epoch": 0.17146974063400577,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004999357858622691,
      "loss": 5.8573,
      "mean_token_accuracy": 0.1664716601371765,
      "num_tokens": 4089803.0,
      "step": 1785
    },
    {
      "entropy": 5.8289069652557375,
      "epoch": 0.17195004803073968,
      "grad_norm": 0.91796875,
      "learning_rate": 0.0004999349642321842,
      "loss": 5.8073,
      "mean_token_accuracy": 0.16912547051906585,
      "num_tokens": 4101969.0,
      "step": 1790
    },
    {
      "entropy": 5.799117517471314,
      "epoch": 0.1724303554274736,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004999341373797772,
      "loss": 5.7955,
      "mean_token_accuracy": 0.15957102179527283,
      "num_tokens": 4113567.0,
      "step": 1795
    },
    {
      "entropy": 5.814974451065064,
      "epoch": 0.1729106628242075,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004999333053050675,
      "loss": 5.7575,
      "mean_token_accuracy": 0.1691056177020073,
      "num_tokens": 4125191.0,
      "step": 1800
    },
    {
      "entropy": 5.827954626083374,
      "epoch": 0.1733909702209414,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004999324680080744,
      "loss": 5.8004,
      "mean_token_accuracy": 0.16687883883714677,
      "num_tokens": 4135050.0,
      "step": 1805
    },
    {
      "entropy": 5.842863750457764,
      "epoch": 0.17387127761767532,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004999316254888172,
      "loss": 5.8736,
      "mean_token_accuracy": 0.1648238182067871,
      "num_tokens": 4146874.0,
      "step": 1810
    },
    {
      "entropy": 5.857775688171387,
      "epoch": 0.17435158501440923,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004999307777473157,
      "loss": 5.7974,
      "mean_token_accuracy": 0.16151650995016098,
      "num_tokens": 4158118.0,
      "step": 1815
    },
    {
      "entropy": 5.818978691101075,
      "epoch": 0.17483189241114314,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004999299247835893,
      "loss": 5.7561,
      "mean_token_accuracy": 0.17479462176561356,
      "num_tokens": 4169035.0,
      "step": 1820
    },
    {
      "entropy": 5.738432455062866,
      "epoch": 0.17531219980787704,
      "grad_norm": 1.03125,
      "learning_rate": 0.000499929066597658,
      "loss": 5.745,
      "mean_token_accuracy": 0.17148349434137344,
      "num_tokens": 4180314.0,
      "step": 1825
    },
    {
      "entropy": 5.883955717086792,
      "epoch": 0.17579250720461095,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999282031895418,
      "loss": 5.8239,
      "mean_token_accuracy": 0.16614590883255004,
      "num_tokens": 4192238.0,
      "step": 1830
    },
    {
      "entropy": 5.769097232818604,
      "epoch": 0.17627281460134486,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999273345592604,
      "loss": 5.756,
      "mean_token_accuracy": 0.16652164459228516,
      "num_tokens": 4203346.0,
      "step": 1835
    },
    {
      "entropy": 5.811061954498291,
      "epoch": 0.17675312199807877,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004999264607068343,
      "loss": 5.8159,
      "mean_token_accuracy": 0.17016567289829254,
      "num_tokens": 4213763.0,
      "step": 1840
    },
    {
      "entropy": 5.781940555572509,
      "epoch": 0.17723342939481268,
      "grad_norm": 0.90234375,
      "learning_rate": 0.0004999255816322837,
      "loss": 5.7699,
      "mean_token_accuracy": 0.16876950412988662,
      "num_tokens": 4225553.0,
      "step": 1845
    },
    {
      "entropy": 5.857665061950684,
      "epoch": 0.1777137367915466,
      "grad_norm": 0.99609375,
      "learning_rate": 0.000499924697335629,
      "loss": 5.702,
      "mean_token_accuracy": 0.17350574135780333,
      "num_tokens": 4236058.0,
      "step": 1850
    },
    {
      "entropy": 5.640166330337524,
      "epoch": 0.1781940441882805,
      "grad_norm": 0.92578125,
      "learning_rate": 0.0004999238078168906,
      "loss": 5.7763,
      "mean_token_accuracy": 0.17054813206195832,
      "num_tokens": 4248299.0,
      "step": 1855
    },
    {
      "entropy": 5.8273721694946286,
      "epoch": 0.1786743515850144,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0004999229130760894,
      "loss": 5.7052,
      "mean_token_accuracy": 0.17111807465553283,
      "num_tokens": 4259704.0,
      "step": 1860
    },
    {
      "entropy": 5.691127586364746,
      "epoch": 0.17915465898174832,
      "grad_norm": 1.0,
      "learning_rate": 0.000499922013113246,
      "loss": 5.587,
      "mean_token_accuracy": 0.18398697525262833,
      "num_tokens": 4270480.0,
      "step": 1865
    },
    {
      "entropy": 5.780127954483032,
      "epoch": 0.17963496637848222,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999211079283814,
      "loss": 5.8538,
      "mean_token_accuracy": 0.16719998568296432,
      "num_tokens": 4282104.0,
      "step": 1870
    },
    {
      "entropy": 5.849603605270386,
      "epoch": 0.18011527377521613,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004999201975215164,
      "loss": 5.8172,
      "mean_token_accuracy": 0.16666848957538605,
      "num_tokens": 4294251.0,
      "step": 1875
    },
    {
      "entropy": 5.757232236862182,
      "epoch": 0.18059558117195004,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0004999192818926725,
      "loss": 5.7017,
      "mean_token_accuracy": 0.16847867369651795,
      "num_tokens": 4305569.0,
      "step": 1880
    },
    {
      "entropy": 5.859993028640747,
      "epoch": 0.18107588856868395,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999183610418706,
      "loss": 5.8283,
      "mean_token_accuracy": 0.16413767859339715,
      "num_tokens": 4317845.0,
      "step": 1885
    },
    {
      "entropy": 5.76594557762146,
      "epoch": 0.18155619596541786,
      "grad_norm": 0.90625,
      "learning_rate": 0.0004999174349691322,
      "loss": 5.6959,
      "mean_token_accuracy": 0.17179392874240876,
      "num_tokens": 4329987.0,
      "step": 1890
    },
    {
      "entropy": 5.697657203674316,
      "epoch": 0.18203650336215177,
      "grad_norm": 0.88671875,
      "learning_rate": 0.0004999165036744788,
      "loss": 5.7257,
      "mean_token_accuracy": 0.16847490072250365,
      "num_tokens": 4341628.0,
      "step": 1895
    },
    {
      "entropy": 5.861244201660156,
      "epoch": 0.18251681075888568,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999155671579322,
      "loss": 5.7851,
      "mean_token_accuracy": 0.1615397110581398,
      "num_tokens": 4352379.0,
      "step": 1900
    },
    {
      "entropy": 5.6849024295806885,
      "epoch": 0.1829971181556196,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000499914625419514,
      "loss": 5.7181,
      "mean_token_accuracy": 0.171738800406456,
      "num_tokens": 4364800.0,
      "step": 1905
    },
    {
      "entropy": 5.776795959472656,
      "epoch": 0.1834774255523535,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004999136784592459,
      "loss": 5.7315,
      "mean_token_accuracy": 0.16872817426919937,
      "num_tokens": 4376048.0,
      "step": 1910
    },
    {
      "entropy": 5.730347061157227,
      "epoch": 0.1839577329490874,
      "grad_norm": 0.921875,
      "learning_rate": 0.0004999127262771502,
      "loss": 5.7297,
      "mean_token_accuracy": 0.16825871765613556,
      "num_tokens": 4388072.0,
      "step": 1915
    },
    {
      "entropy": 5.872533082962036,
      "epoch": 0.1844380403458213,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999117688732487,
      "loss": 5.8226,
      "mean_token_accuracy": 0.16391085535287858,
      "num_tokens": 4399843.0,
      "step": 1920
    },
    {
      "entropy": 5.713910245895386,
      "epoch": 0.18491834774255522,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999108062475638,
      "loss": 5.6757,
      "mean_token_accuracy": 0.17384760677814484,
      "num_tokens": 4411373.0,
      "step": 1925
    },
    {
      "entropy": 5.716005563735962,
      "epoch": 0.18539865513928913,
      "grad_norm": 1.03125,
      "learning_rate": 0.000499909838400118,
      "loss": 5.6614,
      "mean_token_accuracy": 0.173922398686409,
      "num_tokens": 4421857.0,
      "step": 1930
    },
    {
      "entropy": 5.820113229751587,
      "epoch": 0.18587896253602307,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999088653309334,
      "loss": 5.7618,
      "mean_token_accuracy": 0.1711716189980507,
      "num_tokens": 4432728.0,
      "step": 1935
    },
    {
      "entropy": 5.708466053009033,
      "epoch": 0.18635926993275698,
      "grad_norm": 0.9375,
      "learning_rate": 0.0004999078870400329,
      "loss": 5.693,
      "mean_token_accuracy": 0.17283684760332108,
      "num_tokens": 4444683.0,
      "step": 1940
    },
    {
      "entropy": 5.8614743709564205,
      "epoch": 0.18683957732949089,
      "grad_norm": 0.953125,
      "learning_rate": 0.0004999069035274391,
      "loss": 5.8215,
      "mean_token_accuracy": 0.16018551886081694,
      "num_tokens": 4456961.0,
      "step": 1945
    },
    {
      "entropy": 5.694478511810303,
      "epoch": 0.1873198847262248,
      "grad_norm": 0.9140625,
      "learning_rate": 0.0004999059147931747,
      "loss": 5.665,
      "mean_token_accuracy": 0.1762719616293907,
      "num_tokens": 4468424.0,
      "step": 1950
    },
    {
      "entropy": 5.791493558883667,
      "epoch": 0.1878001921229587,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0004999049208372629,
      "loss": 5.8694,
      "mean_token_accuracy": 0.15364666059613227,
      "num_tokens": 4479813.0,
      "step": 1955
    },
    {
      "entropy": 5.952554082870483,
      "epoch": 0.1882804995196926,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999039216597267,
      "loss": 5.862,
      "mean_token_accuracy": 0.16733278185129166,
      "num_tokens": 4491172.0,
      "step": 1960
    },
    {
      "entropy": 5.706536293029785,
      "epoch": 0.18876080691642652,
      "grad_norm": 0.92578125,
      "learning_rate": 0.0004999029172605892,
      "loss": 5.7439,
      "mean_token_accuracy": 0.1704375624656677,
      "num_tokens": 4503063.0,
      "step": 1965
    },
    {
      "entropy": 5.889812326431274,
      "epoch": 0.18924111431316043,
      "grad_norm": 0.91796875,
      "learning_rate": 0.0004999019076398738,
      "loss": 5.8177,
      "mean_token_accuracy": 0.15313875377178193,
      "num_tokens": 4514188.0,
      "step": 1970
    },
    {
      "entropy": 5.822384834289551,
      "epoch": 0.18972142170989434,
      "grad_norm": 0.95703125,
      "learning_rate": 0.000499900892797604,
      "loss": 5.7258,
      "mean_token_accuracy": 0.17310872822999954,
      "num_tokens": 4525293.0,
      "step": 1975
    },
    {
      "entropy": 5.80044903755188,
      "epoch": 0.19020172910662825,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004998998727338031,
      "loss": 5.8139,
      "mean_token_accuracy": 0.1692732721567154,
      "num_tokens": 4536589.0,
      "step": 1980
    },
    {
      "entropy": 5.689789342880249,
      "epoch": 0.19068203650336216,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004998988474484952,
      "loss": 5.5648,
      "mean_token_accuracy": 0.19031796902418135,
      "num_tokens": 4547594.0,
      "step": 1985
    },
    {
      "entropy": 5.717133808135986,
      "epoch": 0.19116234390009607,
      "grad_norm": 0.90625,
      "learning_rate": 0.0004998978169417038,
      "loss": 5.78,
      "mean_token_accuracy": 0.1743384450674057,
      "num_tokens": 4559850.0,
      "step": 1990
    },
    {
      "entropy": 5.791743421554566,
      "epoch": 0.19164265129682997,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004998967812134529,
      "loss": 5.7138,
      "mean_token_accuracy": 0.17110339552164078,
      "num_tokens": 4570727.0,
      "step": 1995
    },
    {
      "entropy": 5.610540056228638,
      "epoch": 0.19212295869356388,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004998957402637664,
      "loss": 5.6542,
      "mean_token_accuracy": 0.17157155871391297,
      "num_tokens": 4582248.0,
      "step": 2000
    },
    {
      "entropy": 5.801579093933105,
      "epoch": 0.1926032660902978,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004998946940926687,
      "loss": 5.6973,
      "mean_token_accuracy": 0.17121600955724717,
      "num_tokens": 4592604.0,
      "step": 2005
    },
    {
      "entropy": 5.661766576766968,
      "epoch": 0.1930835734870317,
      "grad_norm": 1.015625,
      "learning_rate": 0.000499893642700184,
      "loss": 5.7182,
      "mean_token_accuracy": 0.17020188719034196,
      "num_tokens": 4604398.0,
      "step": 2010
    },
    {
      "entropy": 5.790825366973877,
      "epoch": 0.1935638808837656,
      "grad_norm": 0.921875,
      "learning_rate": 0.0004998925860863368,
      "loss": 5.7931,
      "mean_token_accuracy": 0.1685462474822998,
      "num_tokens": 4616434.0,
      "step": 2015
    },
    {
      "entropy": 5.820285224914551,
      "epoch": 0.19404418828049952,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0004998915242511516,
      "loss": 5.7541,
      "mean_token_accuracy": 0.17625110745429992,
      "num_tokens": 4627577.0,
      "step": 2020
    },
    {
      "entropy": 5.7781401634216305,
      "epoch": 0.19452449567723343,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998904571946528,
      "loss": 5.817,
      "mean_token_accuracy": 0.16743545606732368,
      "num_tokens": 4639698.0,
      "step": 2025
    },
    {
      "entropy": 5.838766145706177,
      "epoch": 0.19500480307396734,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004998893849168655,
      "loss": 5.8269,
      "mean_token_accuracy": 0.16433341503143312,
      "num_tokens": 4650643.0,
      "step": 2030
    },
    {
      "entropy": 5.762656116485596,
      "epoch": 0.19548511047070125,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004998883074178144,
      "loss": 5.7427,
      "mean_token_accuracy": 0.16878412663936615,
      "num_tokens": 4662897.0,
      "step": 2035
    },
    {
      "entropy": 5.818380117416382,
      "epoch": 0.19596541786743515,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004998872246975247,
      "loss": 5.8217,
      "mean_token_accuracy": 0.1706990644335747,
      "num_tokens": 4673701.0,
      "step": 2040
    },
    {
      "entropy": 5.910197305679321,
      "epoch": 0.19644572526416906,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004998861367560213,
      "loss": 5.7826,
      "mean_token_accuracy": 0.16689348816871644,
      "num_tokens": 4685873.0,
      "step": 2045
    },
    {
      "entropy": 5.714930677413941,
      "epoch": 0.19692603266090297,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004998850435933296,
      "loss": 5.6724,
      "mean_token_accuracy": 0.17364383190870286,
      "num_tokens": 4697179.0,
      "step": 2050
    },
    {
      "entropy": 5.752671766281128,
      "epoch": 0.19740634005763688,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998839452094749,
      "loss": 5.7084,
      "mean_token_accuracy": 0.17288116365671158,
      "num_tokens": 4707752.0,
      "step": 2055
    },
    {
      "entropy": 5.625265073776245,
      "epoch": 0.1978866474543708,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004998828416044829,
      "loss": 5.58,
      "mean_token_accuracy": 0.17766032367944717,
      "num_tokens": 4718413.0,
      "step": 2060
    },
    {
      "entropy": 5.750666522979737,
      "epoch": 0.1983669548511047,
      "grad_norm": 1.03125,
      "learning_rate": 0.000499881732778379,
      "loss": 5.7696,
      "mean_token_accuracy": 0.16185117661952972,
      "num_tokens": 4730033.0,
      "step": 2065
    },
    {
      "entropy": 5.668474435806274,
      "epoch": 0.1988472622478386,
      "grad_norm": 0.91015625,
      "learning_rate": 0.000499880618731189,
      "loss": 5.6346,
      "mean_token_accuracy": 0.17201206237077712,
      "num_tokens": 4742084.0,
      "step": 2070
    },
    {
      "entropy": 5.801948118209839,
      "epoch": 0.19932756964457252,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004998794994629388,
      "loss": 5.8485,
      "mean_token_accuracy": 0.16415513008832933,
      "num_tokens": 4753885.0,
      "step": 2075
    },
    {
      "entropy": 5.755141353607177,
      "epoch": 0.19980787704130643,
      "grad_norm": 1.0,
      "learning_rate": 0.0004998783749736545,
      "loss": 5.6852,
      "mean_token_accuracy": 0.17273288518190383,
      "num_tokens": 4765686.0,
      "step": 2080
    },
    {
      "entropy": 5.7318039894104,
      "epoch": 0.20028818443804033,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004998772452633619,
      "loss": 5.7343,
      "mean_token_accuracy": 0.1667577311396599,
      "num_tokens": 4777157.0,
      "step": 2085
    },
    {
      "entropy": 5.734004545211792,
      "epoch": 0.20076849183477424,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004998761103320876,
      "loss": 5.6803,
      "mean_token_accuracy": 0.17569620162248611,
      "num_tokens": 4788583.0,
      "step": 2090
    },
    {
      "entropy": 5.81385350227356,
      "epoch": 0.20124879923150815,
      "grad_norm": 0.94140625,
      "learning_rate": 0.0004998749701798577,
      "loss": 5.795,
      "mean_token_accuracy": 0.164644692838192,
      "num_tokens": 4800749.0,
      "step": 2095
    },
    {
      "entropy": 5.652225208282471,
      "epoch": 0.2017291066282421,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004998738248066986,
      "loss": 5.7001,
      "mean_token_accuracy": 0.17118856757879258,
      "num_tokens": 4812488.0,
      "step": 2100
    },
    {
      "entropy": 5.816308832168579,
      "epoch": 0.202209414024976,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004998726742126372,
      "loss": 5.6902,
      "mean_token_accuracy": 0.17228334546089172,
      "num_tokens": 4823495.0,
      "step": 2105
    },
    {
      "entropy": 5.622010517120361,
      "epoch": 0.2026897214217099,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004998715183976999,
      "loss": 5.726,
      "mean_token_accuracy": 0.16997579634189605,
      "num_tokens": 4834450.0,
      "step": 2110
    },
    {
      "entropy": 5.763468551635742,
      "epoch": 0.20317002881844382,
      "grad_norm": 0.91796875,
      "learning_rate": 0.0004998703573619137,
      "loss": 5.6443,
      "mean_token_accuracy": 0.18120874017477034,
      "num_tokens": 4846826.0,
      "step": 2115
    },
    {
      "entropy": 5.804740762710571,
      "epoch": 0.20365033621517772,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0004998691911053056,
      "loss": 5.8366,
      "mean_token_accuracy": 0.15913107842206956,
      "num_tokens": 4859668.0,
      "step": 2120
    },
    {
      "entropy": 5.727064418792724,
      "epoch": 0.20413064361191163,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004998680196279026,
      "loss": 5.7049,
      "mean_token_accuracy": 0.17213667631149293,
      "num_tokens": 4871727.0,
      "step": 2125
    },
    {
      "entropy": 5.794467830657959,
      "epoch": 0.20461095100864554,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004998668429297319,
      "loss": 5.7674,
      "mean_token_accuracy": 0.17240212336182595,
      "num_tokens": 4882191.0,
      "step": 2130
    },
    {
      "entropy": 5.760322952270508,
      "epoch": 0.20509125840537945,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004998656610108208,
      "loss": 5.6971,
      "mean_token_accuracy": 0.1685373991727829,
      "num_tokens": 4892416.0,
      "step": 2135
    },
    {
      "entropy": 5.694274854660034,
      "epoch": 0.20557156580211336,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004998644738711969,
      "loss": 5.6674,
      "mean_token_accuracy": 0.1685459852218628,
      "num_tokens": 4903572.0,
      "step": 2140
    },
    {
      "entropy": 5.810105037689209,
      "epoch": 0.20605187319884727,
      "grad_norm": 0.875,
      "learning_rate": 0.0004998632815108874,
      "loss": 5.763,
      "mean_token_accuracy": 0.16395961344242097,
      "num_tokens": 4915417.0,
      "step": 2145
    },
    {
      "entropy": 5.73304591178894,
      "epoch": 0.20653218059558118,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004998620839299203,
      "loss": 5.6495,
      "mean_token_accuracy": 0.17259960770606994,
      "num_tokens": 4926943.0,
      "step": 2150
    },
    {
      "entropy": 5.6710865020751955,
      "epoch": 0.2070124879923151,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004998608811283233,
      "loss": 5.6095,
      "mean_token_accuracy": 0.17803010493516921,
      "num_tokens": 4937724.0,
      "step": 2155
    },
    {
      "entropy": 5.7808784484863285,
      "epoch": 0.207492795389049,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004998596731061244,
      "loss": 5.7756,
      "mean_token_accuracy": 0.16368448734283447,
      "num_tokens": 4949970.0,
      "step": 2160
    },
    {
      "entropy": 5.784394645690918,
      "epoch": 0.2079731027857829,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004998584598633516,
      "loss": 5.774,
      "mean_token_accuracy": 0.16977567672729493,
      "num_tokens": 4961389.0,
      "step": 2165
    },
    {
      "entropy": 5.7822630405426025,
      "epoch": 0.2084534101825168,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004998572414000329,
      "loss": 5.82,
      "mean_token_accuracy": 0.16696709543466567,
      "num_tokens": 4973888.0,
      "step": 2170
    },
    {
      "entropy": 5.75656681060791,
      "epoch": 0.20893371757925072,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004998560177161969,
      "loss": 5.7667,
      "mean_token_accuracy": 0.1604086473584175,
      "num_tokens": 4985423.0,
      "step": 2175
    },
    {
      "entropy": 5.70469822883606,
      "epoch": 0.20941402497598463,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004998547888118718,
      "loss": 5.726,
      "mean_token_accuracy": 0.16619897931814193,
      "num_tokens": 4997711.0,
      "step": 2180
    },
    {
      "entropy": 5.7725687503814695,
      "epoch": 0.20989433237271854,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004998535546870862,
      "loss": 5.7454,
      "mean_token_accuracy": 0.1679087519645691,
      "num_tokens": 5009633.0,
      "step": 2185
    },
    {
      "entropy": 5.739374876022339,
      "epoch": 0.21037463976945245,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004998523153418687,
      "loss": 5.6759,
      "mean_token_accuracy": 0.17375072985887527,
      "num_tokens": 5021523.0,
      "step": 2190
    },
    {
      "entropy": 5.785361337661743,
      "epoch": 0.21085494716618636,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004998510707762481,
      "loss": 5.7695,
      "mean_token_accuracy": 0.1699072614312172,
      "num_tokens": 5033513.0,
      "step": 2195
    },
    {
      "entropy": 5.7873194217681885,
      "epoch": 0.21133525456292027,
      "grad_norm": 0.90625,
      "learning_rate": 0.0004998498209902533,
      "loss": 5.7758,
      "mean_token_accuracy": 0.16922611892223358,
      "num_tokens": 5047055.0,
      "step": 2200
    },
    {
      "entropy": 5.707646226882934,
      "epoch": 0.21181556195965417,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004998485659839134,
      "loss": 5.6497,
      "mean_token_accuracy": 0.17682456970214844,
      "num_tokens": 5057613.0,
      "step": 2205
    },
    {
      "entropy": 5.753945970535279,
      "epoch": 0.21229586935638808,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004998473057572575,
      "loss": 5.7615,
      "mean_token_accuracy": 0.16833806186914443,
      "num_tokens": 5068886.0,
      "step": 2210
    },
    {
      "entropy": 5.742906093597412,
      "epoch": 0.212776176753122,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004998460403103146,
      "loss": 5.7494,
      "mean_token_accuracy": 0.16465574279427528,
      "num_tokens": 5079978.0,
      "step": 2215
    },
    {
      "entropy": 5.736083173751831,
      "epoch": 0.2132564841498559,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004998447696431146,
      "loss": 5.7159,
      "mean_token_accuracy": 0.17075446248054504,
      "num_tokens": 5091021.0,
      "step": 2220
    },
    {
      "entropy": 5.6740076541900635,
      "epoch": 0.2137367915465898,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004998434937556865,
      "loss": 5.5988,
      "mean_token_accuracy": 0.181574647128582,
      "num_tokens": 5101483.0,
      "step": 2225
    },
    {
      "entropy": 5.708674907684326,
      "epoch": 0.21421709894332372,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004998422126480602,
      "loss": 5.7447,
      "mean_token_accuracy": 0.16306292563676833,
      "num_tokens": 5113116.0,
      "step": 2230
    },
    {
      "entropy": 5.82704176902771,
      "epoch": 0.21469740634005763,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004998409263202653,
      "loss": 5.6819,
      "mean_token_accuracy": 0.1686948984861374,
      "num_tokens": 5124824.0,
      "step": 2235
    },
    {
      "entropy": 5.589908075332642,
      "epoch": 0.21517771373679154,
      "grad_norm": 1.0,
      "learning_rate": 0.0004998396347723318,
      "loss": 5.6335,
      "mean_token_accuracy": 0.16587817817926406,
      "num_tokens": 5137567.0,
      "step": 2240
    },
    {
      "entropy": 5.72907018661499,
      "epoch": 0.21565802113352545,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0004998383380042895,
      "loss": 5.6846,
      "mean_token_accuracy": 0.16729460805654525,
      "num_tokens": 5149016.0,
      "step": 2245
    },
    {
      "entropy": 5.6214783668518065,
      "epoch": 0.21613832853025935,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998370360161688,
      "loss": 5.5788,
      "mean_token_accuracy": 0.17212725132703782,
      "num_tokens": 5160356.0,
      "step": 2250
    },
    {
      "entropy": 5.79612250328064,
      "epoch": 0.21661863592699326,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004998357288079996,
      "loss": 5.7818,
      "mean_token_accuracy": 0.16184753328561782,
      "num_tokens": 5172100.0,
      "step": 2255
    },
    {
      "entropy": 5.740008592605591,
      "epoch": 0.21709894332372717,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004998344163798125,
      "loss": 5.7405,
      "mean_token_accuracy": 0.16320510655641557,
      "num_tokens": 5183984.0,
      "step": 2260
    },
    {
      "entropy": 5.707123565673828,
      "epoch": 0.21757925072046108,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004998330987316379,
      "loss": 5.7153,
      "mean_token_accuracy": 0.167342671751976,
      "num_tokens": 5195853.0,
      "step": 2265
    },
    {
      "entropy": 5.6320737361907955,
      "epoch": 0.21805955811719502,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004998317758635062,
      "loss": 5.5593,
      "mean_token_accuracy": 0.17451774328947067,
      "num_tokens": 5206995.0,
      "step": 2270
    },
    {
      "entropy": 5.515458297729492,
      "epoch": 0.21853986551392893,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004998304477754484,
      "loss": 5.5989,
      "mean_token_accuracy": 0.17679600268602372,
      "num_tokens": 5219291.0,
      "step": 2275
    },
    {
      "entropy": 5.740645408630371,
      "epoch": 0.21902017291066284,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004998291144674952,
      "loss": 5.6885,
      "mean_token_accuracy": 0.17223394364118577,
      "num_tokens": 5230856.0,
      "step": 2280
    },
    {
      "entropy": 5.601490020751953,
      "epoch": 0.21950048030739674,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004998277759396776,
      "loss": 5.5333,
      "mean_token_accuracy": 0.1814967930316925,
      "num_tokens": 5242871.0,
      "step": 2285
    },
    {
      "entropy": 5.656805944442749,
      "epoch": 0.21998078770413065,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004998264321920265,
      "loss": 5.64,
      "mean_token_accuracy": 0.17801354676485062,
      "num_tokens": 5253835.0,
      "step": 2290
    },
    {
      "entropy": 5.676252794265747,
      "epoch": 0.22046109510086456,
      "grad_norm": 0.890625,
      "learning_rate": 0.0004998250832245734,
      "loss": 5.6181,
      "mean_token_accuracy": 0.17702293545007705,
      "num_tokens": 5266195.0,
      "step": 2295
    },
    {
      "entropy": 5.641697740554809,
      "epoch": 0.22094140249759847,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998237290373494,
      "loss": 5.6002,
      "mean_token_accuracy": 0.1801271617412567,
      "num_tokens": 5277499.0,
      "step": 2300
    },
    {
      "entropy": 5.739913368225098,
      "epoch": 0.22142170989433238,
      "grad_norm": 0.96875,
      "learning_rate": 0.000499822369630386,
      "loss": 5.7231,
      "mean_token_accuracy": 0.1597047820687294,
      "num_tokens": 5288622.0,
      "step": 2305
    },
    {
      "entropy": 5.738846015930176,
      "epoch": 0.2219020172910663,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004998210050037148,
      "loss": 5.7816,
      "mean_token_accuracy": 0.16195343434810638,
      "num_tokens": 5299664.0,
      "step": 2310
    },
    {
      "entropy": 5.717037725448608,
      "epoch": 0.2223823246878002,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004998196351573674,
      "loss": 5.6552,
      "mean_token_accuracy": 0.17402878403663635,
      "num_tokens": 5311627.0,
      "step": 2315
    },
    {
      "entropy": 5.5637411117553714,
      "epoch": 0.2228626320845341,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004998182600913757,
      "loss": 5.5627,
      "mean_token_accuracy": 0.17947529554367064,
      "num_tokens": 5323000.0,
      "step": 2320
    },
    {
      "entropy": 5.704880237579346,
      "epoch": 0.22334293948126802,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004998168798057715,
      "loss": 5.5992,
      "mean_token_accuracy": 0.18110302537679673,
      "num_tokens": 5333811.0,
      "step": 2325
    },
    {
      "entropy": 5.615099573135376,
      "epoch": 0.22382324687800192,
      "grad_norm": 1.015625,
      "learning_rate": 0.000499815494300587,
      "loss": 5.5991,
      "mean_token_accuracy": 0.17574110478162766,
      "num_tokens": 5344762.0,
      "step": 2330
    },
    {
      "entropy": 5.721481513977051,
      "epoch": 0.22430355427473583,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004998141035758542,
      "loss": 5.6195,
      "mean_token_accuracy": 0.17343118488788606,
      "num_tokens": 5356112.0,
      "step": 2335
    },
    {
      "entropy": 5.655849504470825,
      "epoch": 0.22478386167146974,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004998127076316054,
      "loss": 5.7311,
      "mean_token_accuracy": 0.17190437763929367,
      "num_tokens": 5367339.0,
      "step": 2340
    },
    {
      "entropy": 5.674526071548462,
      "epoch": 0.22526416906820365,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004998113064678734,
      "loss": 5.6665,
      "mean_token_accuracy": 0.17564141601324082,
      "num_tokens": 5378627.0,
      "step": 2345
    },
    {
      "entropy": 5.726110649108887,
      "epoch": 0.22574447646493756,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004998099000846901,
      "loss": 5.7012,
      "mean_token_accuracy": 0.1681268870830536,
      "num_tokens": 5390209.0,
      "step": 2350
    },
    {
      "entropy": 5.734390020370483,
      "epoch": 0.22622478386167147,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004998084884820887,
      "loss": 5.6833,
      "mean_token_accuracy": 0.17136491537094117,
      "num_tokens": 5401578.0,
      "step": 2355
    },
    {
      "entropy": 5.615032052993774,
      "epoch": 0.22670509125840538,
      "grad_norm": 1.0,
      "learning_rate": 0.0004998070716601016,
      "loss": 5.5881,
      "mean_token_accuracy": 0.17977205514907837,
      "num_tokens": 5413831.0,
      "step": 2360
    },
    {
      "entropy": 5.722073316574097,
      "epoch": 0.2271853986551393,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998056496187618,
      "loss": 5.6496,
      "mean_token_accuracy": 0.1711253985762596,
      "num_tokens": 5425430.0,
      "step": 2365
    },
    {
      "entropy": 5.49839334487915,
      "epoch": 0.2276657060518732,
      "grad_norm": 1.0,
      "learning_rate": 0.0004998042223581025,
      "loss": 5.4985,
      "mean_token_accuracy": 0.1870403528213501,
      "num_tokens": 5435353.0,
      "step": 2370
    },
    {
      "entropy": 5.7514622688293455,
      "epoch": 0.2281460134486071,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004998027898781565,
      "loss": 5.6991,
      "mean_token_accuracy": 0.17083023190498353,
      "num_tokens": 5446925.0,
      "step": 2375
    },
    {
      "entropy": 5.589994049072265,
      "epoch": 0.228626320845341,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004998013521789574,
      "loss": 5.5899,
      "mean_token_accuracy": 0.1772562175989151,
      "num_tokens": 5456613.0,
      "step": 2380
    },
    {
      "entropy": 5.697564649581909,
      "epoch": 0.22910662824207492,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004997999092605384,
      "loss": 5.6209,
      "mean_token_accuracy": 0.17314212173223495,
      "num_tokens": 5467790.0,
      "step": 2385
    },
    {
      "entropy": 5.672542333602905,
      "epoch": 0.22958693563880883,
      "grad_norm": 1.0,
      "learning_rate": 0.000499798461122933,
      "loss": 5.6065,
      "mean_token_accuracy": 0.17598363608121873,
      "num_tokens": 5479166.0,
      "step": 2390
    },
    {
      "entropy": 5.594286203384399,
      "epoch": 0.23006724303554274,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004997970077661748,
      "loss": 5.5932,
      "mean_token_accuracy": 0.18340873271226882,
      "num_tokens": 5490186.0,
      "step": 2395
    },
    {
      "entropy": 5.690382814407348,
      "epoch": 0.23054755043227665,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004997955491902977,
      "loss": 5.5575,
      "mean_token_accuracy": 0.1718940794467926,
      "num_tokens": 5500416.0,
      "step": 2400
    },
    {
      "entropy": 5.582558584213257,
      "epoch": 0.23102785782901056,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004997940853953354,
      "loss": 5.6489,
      "mean_token_accuracy": 0.17370383739471434,
      "num_tokens": 5512189.0,
      "step": 2405
    },
    {
      "entropy": 5.628128719329834,
      "epoch": 0.23150816522574447,
      "grad_norm": 0.96484375,
      "learning_rate": 0.000499792616381322,
      "loss": 5.5142,
      "mean_token_accuracy": 0.1828036591410637,
      "num_tokens": 5523631.0,
      "step": 2410
    },
    {
      "entropy": 5.609222555160523,
      "epoch": 0.23198847262247838,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004997911421482914,
      "loss": 5.5763,
      "mean_token_accuracy": 0.1823565348982811,
      "num_tokens": 5535637.0,
      "step": 2415
    },
    {
      "entropy": 5.639013814926147,
      "epoch": 0.23246878001921228,
      "grad_norm": 1.0078125,
      "learning_rate": 0.000499789662696278,
      "loss": 5.5869,
      "mean_token_accuracy": 0.18035637438297272,
      "num_tokens": 5546470.0,
      "step": 2420
    },
    {
      "entropy": 5.694498586654663,
      "epoch": 0.2329490874159462,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0004997881780253162,
      "loss": 5.7456,
      "mean_token_accuracy": 0.1703657627105713,
      "num_tokens": 5558633.0,
      "step": 2425
    },
    {
      "entropy": 5.6558629989624025,
      "epoch": 0.2334293948126801,
      "grad_norm": 0.875,
      "learning_rate": 0.0004997866881354403,
      "loss": 5.6547,
      "mean_token_accuracy": 0.17033104449510575,
      "num_tokens": 5570427.0,
      "step": 2430
    },
    {
      "entropy": 5.6951744556427,
      "epoch": 0.23390970220941404,
      "grad_norm": 0.9765625,
      "learning_rate": 0.000499785193026685,
      "loss": 5.6383,
      "mean_token_accuracy": 0.17484120875597,
      "num_tokens": 5580991.0,
      "step": 2435
    },
    {
      "entropy": 5.701549911499024,
      "epoch": 0.23439000960614795,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004997836926990851,
      "loss": 5.6816,
      "mean_token_accuracy": 0.17114701271057128,
      "num_tokens": 5592777.0,
      "step": 2440
    },
    {
      "entropy": 5.602617788314819,
      "epoch": 0.23487031700288186,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004997821871526752,
      "loss": 5.5874,
      "mean_token_accuracy": 0.17974285781383514,
      "num_tokens": 5603326.0,
      "step": 2445
    },
    {
      "entropy": 5.631419324874878,
      "epoch": 0.23535062439961577,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004997806763874905,
      "loss": 5.5697,
      "mean_token_accuracy": 0.1791187435388565,
      "num_tokens": 5614504.0,
      "step": 2450
    },
    {
      "entropy": 5.617094326019287,
      "epoch": 0.23583093179634967,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004997791604035659,
      "loss": 5.6264,
      "mean_token_accuracy": 0.17776354700326918,
      "num_tokens": 5625150.0,
      "step": 2455
    },
    {
      "entropy": 5.6507199764251705,
      "epoch": 0.23631123919308358,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004997776392009366,
      "loss": 5.6458,
      "mean_token_accuracy": 0.169050732254982,
      "num_tokens": 5636815.0,
      "step": 2460
    },
    {
      "entropy": 5.706958866119384,
      "epoch": 0.2367915465898175,
      "grad_norm": 0.9453125,
      "learning_rate": 0.0004997761127796381,
      "loss": 5.6366,
      "mean_token_accuracy": 0.17092559188604356,
      "num_tokens": 5648272.0,
      "step": 2465
    },
    {
      "entropy": 5.628375577926636,
      "epoch": 0.2372718539865514,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004997745811397056,
      "loss": 5.5463,
      "mean_token_accuracy": 0.17801680713891982,
      "num_tokens": 5659227.0,
      "step": 2470
    },
    {
      "entropy": 5.6414820671081545,
      "epoch": 0.2377521613832853,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004997730442811748,
      "loss": 5.6796,
      "mean_token_accuracy": 0.17399391829967498,
      "num_tokens": 5670411.0,
      "step": 2475
    },
    {
      "entropy": 5.5770539283752445,
      "epoch": 0.23823246878001922,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004997715022040814,
      "loss": 5.5182,
      "mean_token_accuracy": 0.1782184734940529,
      "num_tokens": 5681570.0,
      "step": 2480
    },
    {
      "entropy": 5.523485231399536,
      "epoch": 0.23871277617675313,
      "grad_norm": 0.984375,
      "learning_rate": 0.000499769954908461,
      "loss": 5.5022,
      "mean_token_accuracy": 0.1887900114059448,
      "num_tokens": 5693021.0,
      "step": 2485
    },
    {
      "entropy": 5.659896421432495,
      "epoch": 0.23919308357348704,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004997684023943498,
      "loss": 5.5883,
      "mean_token_accuracy": 0.17428779155015944,
      "num_tokens": 5704043.0,
      "step": 2490
    },
    {
      "entropy": 5.5805792808532715,
      "epoch": 0.23967339097022095,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004997668446617837,
      "loss": 5.6675,
      "mean_token_accuracy": 0.16685750484466552,
      "num_tokens": 5715735.0,
      "step": 2495
    },
    {
      "entropy": 5.760880804061889,
      "epoch": 0.24015369836695485,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004997652817107989,
      "loss": 5.6294,
      "mean_token_accuracy": 0.17232899218797684,
      "num_tokens": 5725778.0,
      "step": 2500
    },
    {
      "entropy": 5.601306343078614,
      "epoch": 0.24063400576368876,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004997637135414315,
      "loss": 5.6628,
      "mean_token_accuracy": 0.17220552116632462,
      "num_tokens": 5737224.0,
      "step": 2505
    },
    {
      "entropy": 5.779234981536865,
      "epoch": 0.24111431316042267,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004997621401537183,
      "loss": 5.6855,
      "mean_token_accuracy": 0.17120948135852815,
      "num_tokens": 5749226.0,
      "step": 2510
    },
    {
      "entropy": 5.6741156578063965,
      "epoch": 0.24159462055715658,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004997605615476955,
      "loss": 5.6578,
      "mean_token_accuracy": 0.17114464193582535,
      "num_tokens": 5760282.0,
      "step": 2515
    },
    {
      "entropy": 5.539696168899536,
      "epoch": 0.2420749279538905,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0004997589777234,
      "loss": 5.5633,
      "mean_token_accuracy": 0.181555312871933,
      "num_tokens": 5771756.0,
      "step": 2520
    },
    {
      "entropy": 5.650804233551026,
      "epoch": 0.2425552353506244,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004997573886808684,
      "loss": 5.5835,
      "mean_token_accuracy": 0.16679947078227997,
      "num_tokens": 5783237.0,
      "step": 2525
    },
    {
      "entropy": 5.646309852600098,
      "epoch": 0.2430355427473583,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004997557944201375,
      "loss": 5.6814,
      "mean_token_accuracy": 0.17147036045789718,
      "num_tokens": 5794825.0,
      "step": 2530
    },
    {
      "entropy": 5.675209999084473,
      "epoch": 0.24351585014409222,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004997541949412445,
      "loss": 5.5712,
      "mean_token_accuracy": 0.18625136017799376,
      "num_tokens": 5805578.0,
      "step": 2535
    },
    {
      "entropy": 5.649836206436158,
      "epoch": 0.24399615754082613,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004997525902442266,
      "loss": 5.6738,
      "mean_token_accuracy": 0.16476511359214782,
      "num_tokens": 5818201.0,
      "step": 2540
    },
    {
      "entropy": 5.602812147140503,
      "epoch": 0.24447646493756003,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0004997509803291207,
      "loss": 5.5959,
      "mean_token_accuracy": 0.17587143927812576,
      "num_tokens": 5830319.0,
      "step": 2545
    },
    {
      "entropy": 5.5824614524841305,
      "epoch": 0.24495677233429394,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004997493651959647,
      "loss": 5.5428,
      "mean_token_accuracy": 0.17996817231178283,
      "num_tokens": 5840638.0,
      "step": 2550
    },
    {
      "entropy": 5.66239709854126,
      "epoch": 0.24543707973102785,
      "grad_norm": 0.90625,
      "learning_rate": 0.0004997477448447955,
      "loss": 5.5773,
      "mean_token_accuracy": 0.17367178648710252,
      "num_tokens": 5852472.0,
      "step": 2555
    },
    {
      "entropy": 5.678495073318482,
      "epoch": 0.24591738712776176,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004997461192756512,
      "loss": 5.6133,
      "mean_token_accuracy": 0.170744089782238,
      "num_tokens": 5863455.0,
      "step": 2560
    },
    {
      "entropy": 5.512450170516968,
      "epoch": 0.24639769452449567,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004997444884885694,
      "loss": 5.5251,
      "mean_token_accuracy": 0.17817995101213455,
      "num_tokens": 5873141.0,
      "step": 2565
    },
    {
      "entropy": 5.603986024856567,
      "epoch": 0.24687800192122958,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004997428524835879,
      "loss": 5.6316,
      "mean_token_accuracy": 0.17475323528051376,
      "num_tokens": 5884363.0,
      "step": 2570
    },
    {
      "entropy": 5.740997219085694,
      "epoch": 0.2473583093179635,
      "grad_norm": 0.96484375,
      "learning_rate": 0.0004997412112607446,
      "loss": 5.6721,
      "mean_token_accuracy": 0.17148932665586472,
      "num_tokens": 5895856.0,
      "step": 2575
    },
    {
      "entropy": 5.542859792709351,
      "epoch": 0.2478386167146974,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004997395648200778,
      "loss": 5.4922,
      "mean_token_accuracy": 0.17950474172830583,
      "num_tokens": 5906657.0,
      "step": 2580
    },
    {
      "entropy": 5.600370979309082,
      "epoch": 0.2483189241114313,
      "grad_norm": 0.8984375,
      "learning_rate": 0.0004997379131616257,
      "loss": 5.6226,
      "mean_token_accuracy": 0.1700095072388649,
      "num_tokens": 5919496.0,
      "step": 2585
    },
    {
      "entropy": 5.690901279449463,
      "epoch": 0.24879923150816521,
      "grad_norm": 0.9375,
      "learning_rate": 0.0004997362562854266,
      "loss": 5.6843,
      "mean_token_accuracy": 0.16776154488325118,
      "num_tokens": 5932593.0,
      "step": 2590
    },
    {
      "entropy": 5.619813919067383,
      "epoch": 0.24927953890489912,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004997345941915187,
      "loss": 5.6128,
      "mean_token_accuracy": 0.17226099967956543,
      "num_tokens": 5944080.0,
      "step": 2595
    },
    {
      "entropy": 5.602241802215576,
      "epoch": 0.24975984630163303,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004997329268799412,
      "loss": 5.5752,
      "mean_token_accuracy": 0.18460023701190947,
      "num_tokens": 5955703.0,
      "step": 2600
    },
    {
      "entropy": 5.62792739868164,
      "epoch": 0.25024015369836694,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004997312543507322,
      "loss": 5.6565,
      "mean_token_accuracy": 0.1714890867471695,
      "num_tokens": 5966979.0,
      "step": 2605
    },
    {
      "entropy": 5.672908306121826,
      "epoch": 0.2507204610951009,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004997295766039309,
      "loss": 5.545,
      "mean_token_accuracy": 0.17637500017881394,
      "num_tokens": 5978808.0,
      "step": 2610
    },
    {
      "entropy": 5.6401097774505615,
      "epoch": 0.25120076849183476,
      "grad_norm": 0.953125,
      "learning_rate": 0.0004997278936395761,
      "loss": 5.7288,
      "mean_token_accuracy": 0.16584430038928985,
      "num_tokens": 5992145.0,
      "step": 2615
    },
    {
      "entropy": 5.665263652801514,
      "epoch": 0.2516810758885687,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004997262054577071,
      "loss": 5.5694,
      "mean_token_accuracy": 0.17564088106155396,
      "num_tokens": 6003723.0,
      "step": 2620
    },
    {
      "entropy": 5.6567973613739015,
      "epoch": 0.2521613832853026,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004997245120583627,
      "loss": 5.6351,
      "mean_token_accuracy": 0.1769047811627388,
      "num_tokens": 6014064.0,
      "step": 2625
    },
    {
      "entropy": 5.53907151222229,
      "epoch": 0.2526416906820365,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004997228134415825,
      "loss": 5.5168,
      "mean_token_accuracy": 0.1834915667772293,
      "num_tokens": 6025455.0,
      "step": 2630
    },
    {
      "entropy": 5.6452476501464846,
      "epoch": 0.2531219980787704,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004997211096074059,
      "loss": 5.6231,
      "mean_token_accuracy": 0.16973316073417663,
      "num_tokens": 6037347.0,
      "step": 2635
    },
    {
      "entropy": 5.600665187835693,
      "epoch": 0.25360230547550433,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004997194005558722,
      "loss": 5.5304,
      "mean_token_accuracy": 0.18019532412290573,
      "num_tokens": 6049236.0,
      "step": 2640
    },
    {
      "entropy": 5.534391641616821,
      "epoch": 0.2540826128722382,
      "grad_norm": 0.96484375,
      "learning_rate": 0.0004997176862870216,
      "loss": 5.5339,
      "mean_token_accuracy": 0.1798613414168358,
      "num_tokens": 6060982.0,
      "step": 2645
    },
    {
      "entropy": 5.637931680679321,
      "epoch": 0.25456292026897215,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004997159668008933,
      "loss": 5.5514,
      "mean_token_accuracy": 0.17985030263662338,
      "num_tokens": 6070925.0,
      "step": 2650
    },
    {
      "entropy": 5.526381587982177,
      "epoch": 0.25504322766570603,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004997142420975277,
      "loss": 5.514,
      "mean_token_accuracy": 0.18175738006830217,
      "num_tokens": 6081279.0,
      "step": 2655
    },
    {
      "entropy": 5.5633796691894535,
      "epoch": 0.25552353506243997,
      "grad_norm": 0.91796875,
      "learning_rate": 0.0004997125121769647,
      "loss": 5.6108,
      "mean_token_accuracy": 0.17793446481227876,
      "num_tokens": 6091797.0,
      "step": 2660
    },
    {
      "entropy": 5.687921333312988,
      "epoch": 0.25600384245917385,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0004997107770392444,
      "loss": 5.6134,
      "mean_token_accuracy": 0.1804993599653244,
      "num_tokens": 6103435.0,
      "step": 2665
    },
    {
      "entropy": 5.648722791671753,
      "epoch": 0.2564841498559078,
      "grad_norm": 0.9375,
      "learning_rate": 0.000499709036684407,
      "loss": 5.6751,
      "mean_token_accuracy": 0.17587384432554246,
      "num_tokens": 6114531.0,
      "step": 2670
    },
    {
      "entropy": 5.569314622879029,
      "epoch": 0.25696445725264166,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004997072911124932,
      "loss": 5.5173,
      "mean_token_accuracy": 0.17945850938558577,
      "num_tokens": 6126110.0,
      "step": 2675
    },
    {
      "entropy": 5.670061159133911,
      "epoch": 0.2574447646493756,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004997055403235432,
      "loss": 5.6187,
      "mean_token_accuracy": 0.1766670301556587,
      "num_tokens": 6137114.0,
      "step": 2680
    },
    {
      "entropy": 5.62683253288269,
      "epoch": 0.2579250720461095,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004997037843175978,
      "loss": 5.5718,
      "mean_token_accuracy": 0.17658228576183319,
      "num_tokens": 6148696.0,
      "step": 2685
    },
    {
      "entropy": 5.59165620803833,
      "epoch": 0.2584053794428434,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004997020230946978,
      "loss": 5.568,
      "mean_token_accuracy": 0.1790614068508148,
      "num_tokens": 6160235.0,
      "step": 2690
    },
    {
      "entropy": 5.629477691650391,
      "epoch": 0.25888568683957736,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004997002566548841,
      "loss": 5.5586,
      "mean_token_accuracy": 0.17292713820934297,
      "num_tokens": 6172031.0,
      "step": 2695
    },
    {
      "entropy": 5.48054838180542,
      "epoch": 0.25936599423631124,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004996984849981976,
      "loss": 5.4233,
      "mean_token_accuracy": 0.1893267199397087,
      "num_tokens": 6183547.0,
      "step": 2700
    },
    {
      "entropy": 5.619540548324585,
      "epoch": 0.2598463016330452,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004996967081246794,
      "loss": 5.632,
      "mean_token_accuracy": 0.1678134724497795,
      "num_tokens": 6194768.0,
      "step": 2705
    },
    {
      "entropy": 5.6499683380126955,
      "epoch": 0.26032660902977905,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004996949260343711,
      "loss": 5.6314,
      "mean_token_accuracy": 0.1706198126077652,
      "num_tokens": 6206099.0,
      "step": 2710
    },
    {
      "entropy": 5.624089670181275,
      "epoch": 0.260806916426513,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004996931387273137,
      "loss": 5.6262,
      "mean_token_accuracy": 0.17660144418478013,
      "num_tokens": 6217530.0,
      "step": 2715
    },
    {
      "entropy": 5.713815212249756,
      "epoch": 0.2612872238232469,
      "grad_norm": 0.94140625,
      "learning_rate": 0.0004996913462035487,
      "loss": 5.6448,
      "mean_token_accuracy": 0.1767139658331871,
      "num_tokens": 6228564.0,
      "step": 2720
    },
    {
      "entropy": 5.539792156219482,
      "epoch": 0.2617675312199808,
      "grad_norm": 0.97265625,
      "learning_rate": 0.000499689548463118,
      "loss": 5.5174,
      "mean_token_accuracy": 0.17854675203561782,
      "num_tokens": 6239945.0,
      "step": 2725
    },
    {
      "entropy": 5.59919810295105,
      "epoch": 0.2622478386167147,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004996877455060631,
      "loss": 5.6312,
      "mean_token_accuracy": 0.17017472237348558,
      "num_tokens": 6251829.0,
      "step": 2730
    },
    {
      "entropy": 5.7330786228179935,
      "epoch": 0.2627281460134486,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004996859373324259,
      "loss": 5.7264,
      "mean_token_accuracy": 0.16224824339151384,
      "num_tokens": 6264823.0,
      "step": 2735
    },
    {
      "entropy": 5.5701476573944095,
      "epoch": 0.2632084534101825,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004996841239422485,
      "loss": 5.4065,
      "mean_token_accuracy": 0.18482713848352433,
      "num_tokens": 6276247.0,
      "step": 2740
    },
    {
      "entropy": 5.470470857620239,
      "epoch": 0.26368876080691644,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004996823053355729,
      "loss": 5.5321,
      "mean_token_accuracy": 0.18076382875442504,
      "num_tokens": 6287593.0,
      "step": 2745
    },
    {
      "entropy": 5.685536909103393,
      "epoch": 0.2641690682036503,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004996804815124413,
      "loss": 5.6897,
      "mean_token_accuracy": 0.16898608654737474,
      "num_tokens": 6299918.0,
      "step": 2750
    },
    {
      "entropy": 5.568260049819946,
      "epoch": 0.26464937560038426,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004996786524728962,
      "loss": 5.5287,
      "mean_token_accuracy": 0.18196363002061844,
      "num_tokens": 6311147.0,
      "step": 2755
    },
    {
      "entropy": 5.45229320526123,
      "epoch": 0.26512968299711814,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004996768182169797,
      "loss": 5.4564,
      "mean_token_accuracy": 0.18652137070894242,
      "num_tokens": 6323239.0,
      "step": 2760
    },
    {
      "entropy": 5.692247343063355,
      "epoch": 0.2656099903938521,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004996749787447349,
      "loss": 5.5567,
      "mean_token_accuracy": 0.17187336832284927,
      "num_tokens": 6334625.0,
      "step": 2765
    },
    {
      "entropy": 5.545494651794433,
      "epoch": 0.26609029779058596,
      "grad_norm": 1.046875,
      "learning_rate": 0.000499673134056204,
      "loss": 5.5938,
      "mean_token_accuracy": 0.17517421692609786,
      "num_tokens": 6346068.0,
      "step": 2770
    },
    {
      "entropy": 5.584152412414551,
      "epoch": 0.2665706051873199,
      "grad_norm": 1.125,
      "learning_rate": 0.0004996712841514303,
      "loss": 5.5716,
      "mean_token_accuracy": 0.17334717959165574,
      "num_tokens": 6357097.0,
      "step": 2775
    },
    {
      "entropy": 5.656313180923462,
      "epoch": 0.2670509125840538,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004996694290304563,
      "loss": 5.6313,
      "mean_token_accuracy": 0.16709280461072923,
      "num_tokens": 6367481.0,
      "step": 2780
    },
    {
      "entropy": 5.52793607711792,
      "epoch": 0.2675312199807877,
      "grad_norm": 1.0,
      "learning_rate": 0.0004996675686933255,
      "loss": 5.5381,
      "mean_token_accuracy": 0.18144787847995758,
      "num_tokens": 6378873.0,
      "step": 2785
    },
    {
      "entropy": 5.664049291610718,
      "epoch": 0.2680115273775216,
      "grad_norm": 0.953125,
      "learning_rate": 0.0004996657031400807,
      "loss": 5.5768,
      "mean_token_accuracy": 0.18006865531206132,
      "num_tokens": 6390651.0,
      "step": 2790
    },
    {
      "entropy": 5.478256464004517,
      "epoch": 0.26849183477425553,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004996638323707655,
      "loss": 5.446,
      "mean_token_accuracy": 0.1820421040058136,
      "num_tokens": 6401631.0,
      "step": 2795
    },
    {
      "entropy": 5.48651123046875,
      "epoch": 0.2689721421709894,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004996619563854232,
      "loss": 5.5308,
      "mean_token_accuracy": 0.1832943469285965,
      "num_tokens": 6413875.0,
      "step": 2800
    },
    {
      "entropy": 5.689049482345581,
      "epoch": 0.26945244956772335,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004996600751840974,
      "loss": 5.5579,
      "mean_token_accuracy": 0.1733505442738533,
      "num_tokens": 6425764.0,
      "step": 2805
    },
    {
      "entropy": 5.478516244888306,
      "epoch": 0.26993275696445723,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004996581887668317,
      "loss": 5.494,
      "mean_token_accuracy": 0.18221275955438615,
      "num_tokens": 6437911.0,
      "step": 2810
    },
    {
      "entropy": 5.534301519393921,
      "epoch": 0.27041306436119117,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00049965629713367,
      "loss": 5.4961,
      "mean_token_accuracy": 0.18141991049051284,
      "num_tokens": 6449942.0,
      "step": 2815
    },
    {
      "entropy": 5.604593276977539,
      "epoch": 0.27089337175792505,
      "grad_norm": 0.953125,
      "learning_rate": 0.0004996544002846561,
      "loss": 5.6208,
      "mean_token_accuracy": 0.17682201713323592,
      "num_tokens": 6461729.0,
      "step": 2820
    },
    {
      "entropy": 5.614752101898193,
      "epoch": 0.271373679154659,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004996524982198343,
      "loss": 5.5988,
      "mean_token_accuracy": 0.17795798033475876,
      "num_tokens": 6472046.0,
      "step": 2825
    },
    {
      "entropy": 5.600375080108643,
      "epoch": 0.27185398655139287,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004996505909392485,
      "loss": 5.5667,
      "mean_token_accuracy": 0.17373612523078918,
      "num_tokens": 6483308.0,
      "step": 2830
    },
    {
      "entropy": 5.429362010955811,
      "epoch": 0.2723342939481268,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004996486784429429,
      "loss": 5.4311,
      "mean_token_accuracy": 0.18428465574979783,
      "num_tokens": 6495093.0,
      "step": 2835
    },
    {
      "entropy": 5.5981306552886965,
      "epoch": 0.2728146013448607,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004996467607309622,
      "loss": 5.5307,
      "mean_token_accuracy": 0.17854470163583755,
      "num_tokens": 6505933.0,
      "step": 2840
    },
    {
      "entropy": 5.626583003997803,
      "epoch": 0.2732949087415946,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004996448378033507,
      "loss": 5.5893,
      "mean_token_accuracy": 0.17490534335374833,
      "num_tokens": 6517280.0,
      "step": 2845
    },
    {
      "entropy": 5.60156021118164,
      "epoch": 0.2737752161383285,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004996429096601532,
      "loss": 5.6315,
      "mean_token_accuracy": 0.17191672027111055,
      "num_tokens": 6528980.0,
      "step": 2850
    },
    {
      "entropy": 5.601687097549439,
      "epoch": 0.27425552353506244,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004996409763014144,
      "loss": 5.6235,
      "mean_token_accuracy": 0.17743158787488938,
      "num_tokens": 6540670.0,
      "step": 2855
    },
    {
      "entropy": 5.593181991577149,
      "epoch": 0.2747358309317964,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004996390377271791,
      "loss": 5.5855,
      "mean_token_accuracy": 0.18115401417016982,
      "num_tokens": 6551302.0,
      "step": 2860
    },
    {
      "entropy": 5.5507872104644775,
      "epoch": 0.27521613832853026,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004996370939374924,
      "loss": 5.5433,
      "mean_token_accuracy": 0.1738438919186592,
      "num_tokens": 6563177.0,
      "step": 2865
    },
    {
      "entropy": 5.72943229675293,
      "epoch": 0.2756964457252642,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004996351449323994,
      "loss": 5.6521,
      "mean_token_accuracy": 0.17468605786561966,
      "num_tokens": 6573323.0,
      "step": 2870
    },
    {
      "entropy": 5.5880653858184814,
      "epoch": 0.2761767531219981,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004996331907119455,
      "loss": 5.591,
      "mean_token_accuracy": 0.16756793707609177,
      "num_tokens": 6585382.0,
      "step": 2875
    },
    {
      "entropy": 5.474012231826782,
      "epoch": 0.276657060518732,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004996312312761758,
      "loss": 5.467,
      "mean_token_accuracy": 0.1900227263569832,
      "num_tokens": 6596629.0,
      "step": 2880
    },
    {
      "entropy": 5.6394744396209715,
      "epoch": 0.2771373679154659,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000499629266625136,
      "loss": 5.5734,
      "mean_token_accuracy": 0.17828488498926162,
      "num_tokens": 6608408.0,
      "step": 2885
    },
    {
      "entropy": 5.638094282150268,
      "epoch": 0.27761767531219983,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004996272967588715,
      "loss": 5.5989,
      "mean_token_accuracy": 0.1704651966691017,
      "num_tokens": 6619375.0,
      "step": 2890
    },
    {
      "entropy": 5.618940448760986,
      "epoch": 0.2780979827089337,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004996253216774283,
      "loss": 5.6398,
      "mean_token_accuracy": 0.17304042726755142,
      "num_tokens": 6631317.0,
      "step": 2895
    },
    {
      "entropy": 5.576578378677368,
      "epoch": 0.27857829010566765,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004996233413808521,
      "loss": 5.4904,
      "mean_token_accuracy": 0.18116467744112014,
      "num_tokens": 6642009.0,
      "step": 2900
    },
    {
      "entropy": 5.609902429580688,
      "epoch": 0.27905859750240153,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004996213558691889,
      "loss": 5.6478,
      "mean_token_accuracy": 0.1682332620024681,
      "num_tokens": 6654713.0,
      "step": 2905
    },
    {
      "entropy": 5.651772451400757,
      "epoch": 0.27953890489913547,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0004996193651424848,
      "loss": 5.6064,
      "mean_token_accuracy": 0.17700932323932647,
      "num_tokens": 6667157.0,
      "step": 2910
    },
    {
      "entropy": 5.575735330581665,
      "epoch": 0.28001921229586935,
      "grad_norm": 0.94140625,
      "learning_rate": 0.000499617369200786,
      "loss": 5.5599,
      "mean_token_accuracy": 0.18871267586946489,
      "num_tokens": 6679573.0,
      "step": 2915
    },
    {
      "entropy": 5.593114852905273,
      "epoch": 0.2804995196926033,
      "grad_norm": 0.859375,
      "learning_rate": 0.0004996153680441389,
      "loss": 5.624,
      "mean_token_accuracy": 0.17413021624088287,
      "num_tokens": 6691768.0,
      "step": 2920
    },
    {
      "entropy": 5.653490257263184,
      "epoch": 0.28097982708933716,
      "grad_norm": 1.015625,
      "learning_rate": 0.00049961336167259,
      "loss": 5.5864,
      "mean_token_accuracy": 0.17438612282276153,
      "num_tokens": 6701964.0,
      "step": 2925
    },
    {
      "entropy": 5.618965578079224,
      "epoch": 0.2814601344860711,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004996113500861857,
      "loss": 5.5759,
      "mean_token_accuracy": 0.1726679503917694,
      "num_tokens": 6713506.0,
      "step": 2930
    },
    {
      "entropy": 5.581022930145264,
      "epoch": 0.281940441882805,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004996093332849729,
      "loss": 5.593,
      "mean_token_accuracy": 0.1725487932562828,
      "num_tokens": 6724616.0,
      "step": 2935
    },
    {
      "entropy": 5.562248182296753,
      "epoch": 0.2824207492795389,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004996073112689983,
      "loss": 5.5803,
      "mean_token_accuracy": 0.17757243812084197,
      "num_tokens": 6735054.0,
      "step": 2940
    },
    {
      "entropy": 5.616918420791626,
      "epoch": 0.2829010566762728,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004996052840383088,
      "loss": 5.6325,
      "mean_token_accuracy": 0.17381539791822434,
      "num_tokens": 6746756.0,
      "step": 2945
    },
    {
      "entropy": 5.603857469558716,
      "epoch": 0.28338136407300674,
      "grad_norm": 0.89453125,
      "learning_rate": 0.0004996032515929516,
      "loss": 5.4992,
      "mean_token_accuracy": 0.1776091992855072,
      "num_tokens": 6759566.0,
      "step": 2950
    },
    {
      "entropy": 5.573670148849487,
      "epoch": 0.2838616714697406,
      "grad_norm": 1.0,
      "learning_rate": 0.0004996012139329738,
      "loss": 5.5225,
      "mean_token_accuracy": 0.17899418324232103,
      "num_tokens": 6771375.0,
      "step": 2955
    },
    {
      "entropy": 5.619125080108643,
      "epoch": 0.28434197886647455,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004995991710584228,
      "loss": 5.6311,
      "mean_token_accuracy": 0.16734524071216583,
      "num_tokens": 6783252.0,
      "step": 2960
    },
    {
      "entropy": 5.58878116607666,
      "epoch": 0.28482228626320844,
      "grad_norm": 0.953125,
      "learning_rate": 0.0004995971229693459,
      "loss": 5.5941,
      "mean_token_accuracy": 0.17340553402900696,
      "num_tokens": 6795525.0,
      "step": 2965
    },
    {
      "entropy": 5.610876131057739,
      "epoch": 0.28530259365994237,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0004995950696657909,
      "loss": 5.5353,
      "mean_token_accuracy": 0.17990380227565766,
      "num_tokens": 6807212.0,
      "step": 2970
    },
    {
      "entropy": 5.52398419380188,
      "epoch": 0.28578290105667625,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004995930111478051,
      "loss": 5.4712,
      "mean_token_accuracy": 0.1771505206823349,
      "num_tokens": 6819367.0,
      "step": 2975
    },
    {
      "entropy": 5.5713125705719,
      "epoch": 0.2862632084534102,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004995909474154365,
      "loss": 5.5531,
      "mean_token_accuracy": 0.17791730761528016,
      "num_tokens": 6830405.0,
      "step": 2980
    },
    {
      "entropy": 5.524326038360596,
      "epoch": 0.28674351585014407,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004995888784687331,
      "loss": 5.5413,
      "mean_token_accuracy": 0.18089909702539445,
      "num_tokens": 6841479.0,
      "step": 2985
    },
    {
      "entropy": 5.545838022232056,
      "epoch": 0.287223823246878,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004995868043077428,
      "loss": 5.5784,
      "mean_token_accuracy": 0.1739095240831375,
      "num_tokens": 6851585.0,
      "step": 2990
    },
    {
      "entropy": 5.605233526229858,
      "epoch": 0.2877041306436119,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004995847249325137,
      "loss": 5.5488,
      "mean_token_accuracy": 0.1776391088962555,
      "num_tokens": 6863176.0,
      "step": 2995
    },
    {
      "entropy": 5.596064901351928,
      "epoch": 0.2881844380403458,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004995826403430942,
      "loss": 5.595,
      "mean_token_accuracy": 0.17474860548973084,
      "num_tokens": 6874021.0,
      "step": 3000
    },
    {
      "epoch": 0.2881844380403458,
      "eval_entropy": 5.440896103871502,
      "eval_loss": 5.576871395111084,
      "eval_mean_token_accuracy": 0.18414354559419172,
      "eval_num_tokens": 6874021.0,
      "eval_runtime": 26.9459,
      "eval_samples_per_second": 1217.809,
      "eval_steps_per_second": 152.231,
      "step": 3000
    },
    {
      "entropy": 5.6302040100097654,
      "epoch": 0.2886647454370797,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004995805505395328,
      "loss": 5.5584,
      "mean_token_accuracy": 0.17477040886878967,
      "num_tokens": 6884999.0,
      "step": 3005
    },
    {
      "entropy": 5.559301853179932,
      "epoch": 0.28914505283381364,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004995784555218778,
      "loss": 5.548,
      "mean_token_accuracy": 0.17850742042064666,
      "num_tokens": 6897021.0,
      "step": 3010
    },
    {
      "entropy": 5.518660974502564,
      "epoch": 0.2896253602305475,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004995763552901779,
      "loss": 5.5449,
      "mean_token_accuracy": 0.17909058481454848,
      "num_tokens": 6908320.0,
      "step": 3015
    },
    {
      "entropy": 5.68627028465271,
      "epoch": 0.29010566762728146,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004995742498444818,
      "loss": 5.5342,
      "mean_token_accuracy": 0.18174685835838317,
      "num_tokens": 6919957.0,
      "step": 3020
    },
    {
      "entropy": 5.529996299743653,
      "epoch": 0.2905859750240154,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004995721391848387,
      "loss": 5.4942,
      "mean_token_accuracy": 0.17575003057718278,
      "num_tokens": 6930531.0,
      "step": 3025
    },
    {
      "entropy": 5.623160696029663,
      "epoch": 0.2910662824207493,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004995700233112972,
      "loss": 5.6325,
      "mean_token_accuracy": 0.17704310566186904,
      "num_tokens": 6942556.0,
      "step": 3030
    },
    {
      "entropy": 5.583187103271484,
      "epoch": 0.2915465898174832,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004995679022239066,
      "loss": 5.5762,
      "mean_token_accuracy": 0.17900587618350983,
      "num_tokens": 6954410.0,
      "step": 3035
    },
    {
      "entropy": 5.579293632507325,
      "epoch": 0.2920268972142171,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004995657759227162,
      "loss": 5.5857,
      "mean_token_accuracy": 0.17669540643692017,
      "num_tokens": 6964970.0,
      "step": 3040
    },
    {
      "entropy": 5.554018545150757,
      "epoch": 0.29250720461095103,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004995636444077751,
      "loss": 5.4673,
      "mean_token_accuracy": 0.1851392537355423,
      "num_tokens": 6976016.0,
      "step": 3045
    },
    {
      "entropy": 5.490430164337158,
      "epoch": 0.2929875120076849,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004995615076791333,
      "loss": 5.4999,
      "mean_token_accuracy": 0.1816742718219757,
      "num_tokens": 6987199.0,
      "step": 3050
    },
    {
      "entropy": 5.5644313335418705,
      "epoch": 0.29346781940441885,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004995593657368399,
      "loss": 5.5218,
      "mean_token_accuracy": 0.18650518208742142,
      "num_tokens": 6999174.0,
      "step": 3055
    },
    {
      "entropy": 5.557963037490845,
      "epoch": 0.29394812680115273,
      "grad_norm": 0.97265625,
      "learning_rate": 0.000499557218580945,
      "loss": 5.5884,
      "mean_token_accuracy": 0.17525261044502258,
      "num_tokens": 7012148.0,
      "step": 3060
    },
    {
      "entropy": 5.486077213287354,
      "epoch": 0.29442843419788667,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004995550662114981,
      "loss": 5.4609,
      "mean_token_accuracy": 0.18215615749359132,
      "num_tokens": 7023238.0,
      "step": 3065
    },
    {
      "entropy": 5.561151647567749,
      "epoch": 0.29490874159462055,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004995529086285495,
      "loss": 5.5521,
      "mean_token_accuracy": 0.17758539766073228,
      "num_tokens": 7034944.0,
      "step": 3070
    },
    {
      "entropy": 5.563313627243042,
      "epoch": 0.2953890489913545,
      "grad_norm": 1.015625,
      "learning_rate": 0.000499550745832149,
      "loss": 5.4154,
      "mean_token_accuracy": 0.18512072116136552,
      "num_tokens": 7046880.0,
      "step": 3075
    },
    {
      "entropy": 5.486554431915283,
      "epoch": 0.29586935638808837,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004995485778223471,
      "loss": 5.4866,
      "mean_token_accuracy": 0.1800946146249771,
      "num_tokens": 7057678.0,
      "step": 3080
    },
    {
      "entropy": 5.4739940643310545,
      "epoch": 0.2963496637848223,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004995464045991939,
      "loss": 5.4688,
      "mean_token_accuracy": 0.18641662895679473,
      "num_tokens": 7068336.0,
      "step": 3085
    },
    {
      "entropy": 5.588371753692627,
      "epoch": 0.2968299711815562,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00049954422616274,
      "loss": 5.5343,
      "mean_token_accuracy": 0.17594826519489287,
      "num_tokens": 7080341.0,
      "step": 3090
    },
    {
      "entropy": 5.6965454578399655,
      "epoch": 0.2973102785782901,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004995420425130359,
      "loss": 5.6866,
      "mean_token_accuracy": 0.17018966376781464,
      "num_tokens": 7090618.0,
      "step": 3095
    },
    {
      "entropy": 5.499913692474365,
      "epoch": 0.297790585975024,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004995398536501324,
      "loss": 5.4331,
      "mean_token_accuracy": 0.18785624653100969,
      "num_tokens": 7101843.0,
      "step": 3100
    },
    {
      "entropy": 5.4791899681091305,
      "epoch": 0.29827089337175794,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004995376595740801,
      "loss": 5.5056,
      "mean_token_accuracy": 0.18063082695007324,
      "num_tokens": 7112014.0,
      "step": 3105
    },
    {
      "entropy": 5.632973289489746,
      "epoch": 0.2987512007684918,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004995354602849302,
      "loss": 5.5822,
      "mean_token_accuracy": 0.17074308097362517,
      "num_tokens": 7123860.0,
      "step": 3110
    },
    {
      "entropy": 5.571376514434815,
      "epoch": 0.29923150816522576,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004995332557827337,
      "loss": 5.5564,
      "mean_token_accuracy": 0.17600722908973693,
      "num_tokens": 7135901.0,
      "step": 3115
    },
    {
      "entropy": 5.5778998851776125,
      "epoch": 0.29971181556195964,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004995310460675416,
      "loss": 5.5339,
      "mean_token_accuracy": 0.1845734417438507,
      "num_tokens": 7148743.0,
      "step": 3120
    },
    {
      "entropy": 5.589261770248413,
      "epoch": 0.3001921229586936,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004995288311394053,
      "loss": 5.5804,
      "mean_token_accuracy": 0.18021756410598755,
      "num_tokens": 7160731.0,
      "step": 3125
    },
    {
      "entropy": 5.574976587295533,
      "epoch": 0.30067243035542746,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004995266109983764,
      "loss": 5.5617,
      "mean_token_accuracy": 0.17890461087226867,
      "num_tokens": 7172861.0,
      "step": 3130
    },
    {
      "entropy": 5.5695881843566895,
      "epoch": 0.3011527377521614,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004995243856445062,
      "loss": 5.5087,
      "mean_token_accuracy": 0.17425711154937745,
      "num_tokens": 7183954.0,
      "step": 3135
    },
    {
      "entropy": 5.523225164413452,
      "epoch": 0.3016330451488953,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004995221550778466,
      "loss": 5.4793,
      "mean_token_accuracy": 0.1828732267022133,
      "num_tokens": 7195466.0,
      "step": 3140
    },
    {
      "entropy": 5.535993862152099,
      "epoch": 0.3021133525456292,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004995199192984491,
      "loss": 5.4733,
      "mean_token_accuracy": 0.18358256071805953,
      "num_tokens": 7207173.0,
      "step": 3145
    },
    {
      "entropy": 5.601380920410156,
      "epoch": 0.3025936599423631,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004995176783063657,
      "loss": 5.6094,
      "mean_token_accuracy": 0.17880836874246597,
      "num_tokens": 7220095.0,
      "step": 3150
    },
    {
      "entropy": 5.5713316917419435,
      "epoch": 0.30307396733909703,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004995154321016487,
      "loss": 5.5217,
      "mean_token_accuracy": 0.18463317751884462,
      "num_tokens": 7230664.0,
      "step": 3155
    },
    {
      "entropy": 5.5087896347045895,
      "epoch": 0.3035542747358309,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004995131806843499,
      "loss": 5.4837,
      "mean_token_accuracy": 0.18419086784124375,
      "num_tokens": 7241278.0,
      "step": 3160
    },
    {
      "entropy": 5.4533278465271,
      "epoch": 0.30403458213256485,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004995109240545218,
      "loss": 5.6281,
      "mean_token_accuracy": 0.1725993424654007,
      "num_tokens": 7252999.0,
      "step": 3165
    },
    {
      "entropy": 5.589286613464355,
      "epoch": 0.3045148895292987,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004995086622122167,
      "loss": 5.4738,
      "mean_token_accuracy": 0.17775996774435043,
      "num_tokens": 7263949.0,
      "step": 3170
    },
    {
      "entropy": 5.558937978744507,
      "epoch": 0.30499519692603266,
      "grad_norm": 1.0,
      "learning_rate": 0.0004995063951574871,
      "loss": 5.5219,
      "mean_token_accuracy": 0.18208030313253404,
      "num_tokens": 7275467.0,
      "step": 3175
    },
    {
      "entropy": 5.563764429092407,
      "epoch": 0.30547550432276654,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004995041228903856,
      "loss": 5.4858,
      "mean_token_accuracy": 0.18617523461580276,
      "num_tokens": 7285534.0,
      "step": 3180
    },
    {
      "entropy": 5.614857864379883,
      "epoch": 0.3059558117195005,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000499501845410965,
      "loss": 5.5985,
      "mean_token_accuracy": 0.18059034049510955,
      "num_tokens": 7297252.0,
      "step": 3185
    },
    {
      "entropy": 5.526304435729981,
      "epoch": 0.30643611911623436,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004994995627192781,
      "loss": 5.4686,
      "mean_token_accuracy": 0.18378556221723558,
      "num_tokens": 7308492.0,
      "step": 3190
    },
    {
      "entropy": 5.5130932331085205,
      "epoch": 0.3069164265129683,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004994972748153781,
      "loss": 5.5122,
      "mean_token_accuracy": 0.18087892532348632,
      "num_tokens": 7319703.0,
      "step": 3195
    },
    {
      "entropy": 5.598230838775635,
      "epoch": 0.30739673390970224,
      "grad_norm": 1.046875,
      "learning_rate": 0.000499494981699318,
      "loss": 5.4766,
      "mean_token_accuracy": 0.18629593551158904,
      "num_tokens": 7331022.0,
      "step": 3200
    },
    {
      "entropy": 5.5110736846923825,
      "epoch": 0.3078770413064361,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000499492683371151,
      "loss": 5.5125,
      "mean_token_accuracy": 0.18337176293134688,
      "num_tokens": 7342977.0,
      "step": 3205
    },
    {
      "entropy": 5.602800512313843,
      "epoch": 0.30835734870317005,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004994903798309306,
      "loss": 5.5087,
      "mean_token_accuracy": 0.17746395766735076,
      "num_tokens": 7353227.0,
      "step": 3210
    },
    {
      "entropy": 5.563166570663452,
      "epoch": 0.30883765609990393,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004994880710787102,
      "loss": 5.5743,
      "mean_token_accuracy": 0.1642255187034607,
      "num_tokens": 7364165.0,
      "step": 3215
    },
    {
      "entropy": 5.544680643081665,
      "epoch": 0.30931796349663787,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004994857571145432,
      "loss": 5.5023,
      "mean_token_accuracy": 0.18458254784345626,
      "num_tokens": 7374800.0,
      "step": 3220
    },
    {
      "entropy": 5.425434350967407,
      "epoch": 0.30979827089337175,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004994834379384837,
      "loss": 5.4565,
      "mean_token_accuracy": 0.18336665779352188,
      "num_tokens": 7386360.0,
      "step": 3225
    },
    {
      "entropy": 5.552868223190307,
      "epoch": 0.3102785782901057,
      "grad_norm": 1.0,
      "learning_rate": 0.0004994811135505851,
      "loss": 5.4698,
      "mean_token_accuracy": 0.18341365456581116,
      "num_tokens": 7397066.0,
      "step": 3230
    },
    {
      "entropy": 5.558938503265381,
      "epoch": 0.31075888568683957,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004994787839509018,
      "loss": 5.564,
      "mean_token_accuracy": 0.1713826075196266,
      "num_tokens": 7408349.0,
      "step": 3235
    },
    {
      "entropy": 5.5813216209411625,
      "epoch": 0.3112391930835735,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004994764491394876,
      "loss": 5.5886,
      "mean_token_accuracy": 0.17263369262218475,
      "num_tokens": 7420343.0,
      "step": 3240
    },
    {
      "entropy": 5.624362230300903,
      "epoch": 0.3117195004803074,
      "grad_norm": 0.921875,
      "learning_rate": 0.0004994741091163969,
      "loss": 5.4904,
      "mean_token_accuracy": 0.18449428975582122,
      "num_tokens": 7431683.0,
      "step": 3245
    },
    {
      "entropy": 5.41058030128479,
      "epoch": 0.3121998078770413,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000499471763881684,
      "loss": 5.4083,
      "mean_token_accuracy": 0.18659997135400772,
      "num_tokens": 7443327.0,
      "step": 3250
    },
    {
      "entropy": 5.545905923843383,
      "epoch": 0.3126801152737752,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004994694134354031,
      "loss": 5.517,
      "mean_token_accuracy": 0.18232496678829194,
      "num_tokens": 7454002.0,
      "step": 3255
    },
    {
      "entropy": 5.49485216140747,
      "epoch": 0.31316042267050914,
      "grad_norm": 1.078125,
      "learning_rate": 0.000499467057777609,
      "loss": 5.5092,
      "mean_token_accuracy": 0.18318750262260436,
      "num_tokens": 7464074.0,
      "step": 3260
    },
    {
      "entropy": 5.470322179794311,
      "epoch": 0.313640730067243,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004994646969083565,
      "loss": 5.434,
      "mean_token_accuracy": 0.1871152251958847,
      "num_tokens": 7475543.0,
      "step": 3265
    },
    {
      "entropy": 5.583432674407959,
      "epoch": 0.31412103746397696,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004994623308277002,
      "loss": 5.4947,
      "mean_token_accuracy": 0.18215811550617217,
      "num_tokens": 7486818.0,
      "step": 3270
    },
    {
      "entropy": 5.5460193157196045,
      "epoch": 0.31460134486071084,
      "grad_norm": 1.0078125,
      "learning_rate": 0.000499459959535695,
      "loss": 5.5431,
      "mean_token_accuracy": 0.17775923311710357,
      "num_tokens": 7499046.0,
      "step": 3275
    },
    {
      "entropy": 5.530418539047242,
      "epoch": 0.3150816522574448,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004994575830323962,
      "loss": 5.4758,
      "mean_token_accuracy": 0.1772423878312111,
      "num_tokens": 7509853.0,
      "step": 3280
    },
    {
      "entropy": 5.422787761688232,
      "epoch": 0.31556195965417866,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004994552013178586,
      "loss": 5.3345,
      "mean_token_accuracy": 0.1908559814095497,
      "num_tokens": 7521091.0,
      "step": 3285
    },
    {
      "entropy": 5.470391035079956,
      "epoch": 0.3160422670509126,
      "grad_norm": 1.078125,
      "learning_rate": 0.000499452814392138,
      "loss": 5.4638,
      "mean_token_accuracy": 0.19296756088733674,
      "num_tokens": 7531317.0,
      "step": 3290
    },
    {
      "entropy": 5.550863265991211,
      "epoch": 0.3165225744476465,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004994504222552894,
      "loss": 5.6115,
      "mean_token_accuracy": 0.17447966411709787,
      "num_tokens": 7542822.0,
      "step": 3295
    },
    {
      "entropy": 5.679572725296021,
      "epoch": 0.3170028818443804,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004994480249073684,
      "loss": 5.5371,
      "mean_token_accuracy": 0.17899394482374192,
      "num_tokens": 7552434.0,
      "step": 3300
    },
    {
      "entropy": 5.455837345123291,
      "epoch": 0.3174831892411143,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004994456223484308,
      "loss": 5.412,
      "mean_token_accuracy": 0.1847301483154297,
      "num_tokens": 7563895.0,
      "step": 3305
    },
    {
      "entropy": 5.356154918670654,
      "epoch": 0.31796349663784823,
      "grad_norm": 1.0,
      "learning_rate": 0.0004994432145785323,
      "loss": 5.4431,
      "mean_token_accuracy": 0.1852705791592598,
      "num_tokens": 7575391.0,
      "step": 3310
    },
    {
      "entropy": 5.603661298751831,
      "epoch": 0.3184438040345821,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004994408015977288,
      "loss": 5.5895,
      "mean_token_accuracy": 0.18396379053592682,
      "num_tokens": 7587119.0,
      "step": 3315
    },
    {
      "entropy": 5.5791820049285885,
      "epoch": 0.31892411143131605,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004994383834060764,
      "loss": 5.5529,
      "mean_token_accuracy": 0.17733592242002488,
      "num_tokens": 7598615.0,
      "step": 3320
    },
    {
      "entropy": 5.522308588027954,
      "epoch": 0.31940441882804993,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004994359600036311,
      "loss": 5.5022,
      "mean_token_accuracy": 0.18452920615673066,
      "num_tokens": 7610159.0,
      "step": 3325
    },
    {
      "entropy": 5.598204278945923,
      "epoch": 0.31988472622478387,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004994335313904493,
      "loss": 5.4916,
      "mean_token_accuracy": 0.18418505936861038,
      "num_tokens": 7620922.0,
      "step": 3330
    },
    {
      "entropy": 5.45703272819519,
      "epoch": 0.32036503362151775,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0004994310975665873,
      "loss": 5.4117,
      "mean_token_accuracy": 0.18754592537879944,
      "num_tokens": 7632343.0,
      "step": 3335
    },
    {
      "entropy": 5.619206094741822,
      "epoch": 0.3208453410182517,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004994286585321017,
      "loss": 5.6097,
      "mean_token_accuracy": 0.1694990485906601,
      "num_tokens": 7644748.0,
      "step": 3340
    },
    {
      "entropy": 5.595988607406616,
      "epoch": 0.32132564841498557,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000499426214287049,
      "loss": 5.5649,
      "mean_token_accuracy": 0.18684215247631072,
      "num_tokens": 7655449.0,
      "step": 3345
    },
    {
      "entropy": 5.522005844116211,
      "epoch": 0.3218059558117195,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004994237648314862,
      "loss": 5.5274,
      "mean_token_accuracy": 0.18205100297927856,
      "num_tokens": 7665623.0,
      "step": 3350
    },
    {
      "entropy": 5.492083740234375,
      "epoch": 0.3222862632084534,
      "grad_norm": 1.0,
      "learning_rate": 0.0004994213101654697,
      "loss": 5.4173,
      "mean_token_accuracy": 0.18764639347791673,
      "num_tokens": 7676860.0,
      "step": 3355
    },
    {
      "entropy": 5.5761909008026125,
      "epoch": 0.3227665706051873,
      "grad_norm": 1.015625,
      "learning_rate": 0.000499418850289057,
      "loss": 5.603,
      "mean_token_accuracy": 0.1757027193903923,
      "num_tokens": 7687778.0,
      "step": 3360
    },
    {
      "entropy": 5.565295886993408,
      "epoch": 0.32324687800192126,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004994163852023048,
      "loss": 5.4981,
      "mean_token_accuracy": 0.18085954636335372,
      "num_tokens": 7699154.0,
      "step": 3365
    },
    {
      "entropy": 5.525069093704223,
      "epoch": 0.32372718539865514,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004994139149052706,
      "loss": 5.5175,
      "mean_token_accuracy": 0.18480815589427949,
      "num_tokens": 7711010.0,
      "step": 3370
    },
    {
      "entropy": 5.576666164398193,
      "epoch": 0.3242074927953891,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004994114393980117,
      "loss": 5.538,
      "mean_token_accuracy": 0.17918068915605545,
      "num_tokens": 7721969.0,
      "step": 3375
    },
    {
      "entropy": 5.561730909347534,
      "epoch": 0.32468780019212296,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004994089586805856,
      "loss": 5.4863,
      "mean_token_accuracy": 0.1827893927693367,
      "num_tokens": 7733762.0,
      "step": 3380
    },
    {
      "entropy": 5.549566268920898,
      "epoch": 0.3251681075888569,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004994064727530496,
      "loss": 5.4963,
      "mean_token_accuracy": 0.17758472561836242,
      "num_tokens": 7744614.0,
      "step": 3385
    },
    {
      "entropy": 5.498316717147827,
      "epoch": 0.3256484149855908,
      "grad_norm": 1.0,
      "learning_rate": 0.0004994039816154618,
      "loss": 5.4339,
      "mean_token_accuracy": 0.18473347425460815,
      "num_tokens": 7755799.0,
      "step": 3390
    },
    {
      "entropy": 5.455300903320312,
      "epoch": 0.3261287223823247,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00049940148526788,
      "loss": 5.4848,
      "mean_token_accuracy": 0.18304541558027268,
      "num_tokens": 7768140.0,
      "step": 3395
    },
    {
      "entropy": 5.568225574493408,
      "epoch": 0.3266090297790586,
      "grad_norm": 1.125,
      "learning_rate": 0.0004993989837103618,
      "loss": 5.4898,
      "mean_token_accuracy": 0.1791609227657318,
      "num_tokens": 7778494.0,
      "step": 3400
    },
    {
      "entropy": 5.607134199142456,
      "epoch": 0.3270893371757925,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004993964769429657,
      "loss": 5.5675,
      "mean_token_accuracy": 0.18318891525268555,
      "num_tokens": 7789234.0,
      "step": 3405
    },
    {
      "entropy": 5.541140413284301,
      "epoch": 0.3275696445725264,
      "grad_norm": 0.9453125,
      "learning_rate": 0.0004993939649657498,
      "loss": 5.548,
      "mean_token_accuracy": 0.18319968730211258,
      "num_tokens": 7800602.0,
      "step": 3410
    },
    {
      "entropy": 5.469655227661133,
      "epoch": 0.32804995196926034,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004993914477787721,
      "loss": 5.3674,
      "mean_token_accuracy": 0.1912238970398903,
      "num_tokens": 7812803.0,
      "step": 3415
    },
    {
      "entropy": 5.625386571884155,
      "epoch": 0.3285302593659942,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004993889253820915,
      "loss": 5.6669,
      "mean_token_accuracy": 0.16849727183580399,
      "num_tokens": 7825432.0,
      "step": 3420
    },
    {
      "entropy": 5.567583656311035,
      "epoch": 0.32901056676272816,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004993863977757663,
      "loss": 5.4819,
      "mean_token_accuracy": 0.18198901265859604,
      "num_tokens": 7837258.0,
      "step": 3425
    },
    {
      "entropy": 5.42762131690979,
      "epoch": 0.32949087415946204,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004993838649598552,
      "loss": 5.3739,
      "mean_token_accuracy": 0.1897459015250206,
      "num_tokens": 7847573.0,
      "step": 3430
    },
    {
      "entropy": 5.551398038864136,
      "epoch": 0.329971181556196,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004993813269344171,
      "loss": 5.4969,
      "mean_token_accuracy": 0.17690201252698898,
      "num_tokens": 7857957.0,
      "step": 3435
    },
    {
      "entropy": 5.5013957023620605,
      "epoch": 0.33045148895292986,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004993787836995108,
      "loss": 5.4174,
      "mean_token_accuracy": 0.1926833838224411,
      "num_tokens": 7867996.0,
      "step": 3440
    },
    {
      "entropy": 5.446499681472778,
      "epoch": 0.3309317963496638,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004993762352551954,
      "loss": 5.4766,
      "mean_token_accuracy": 0.1805843397974968,
      "num_tokens": 7879245.0,
      "step": 3445
    },
    {
      "entropy": 5.61943678855896,
      "epoch": 0.3314121037463977,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004993736816015301,
      "loss": 5.5669,
      "mean_token_accuracy": 0.17582879960536957,
      "num_tokens": 7891186.0,
      "step": 3450
    },
    {
      "entropy": 5.609936046600342,
      "epoch": 0.3318924111431316,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004993711227385742,
      "loss": 5.5802,
      "mean_token_accuracy": 0.1823540985584259,
      "num_tokens": 7902231.0,
      "step": 3455
    },
    {
      "entropy": 5.523345851898194,
      "epoch": 0.3323727185398655,
      "grad_norm": 1.125,
      "learning_rate": 0.0004993685586663871,
      "loss": 5.5412,
      "mean_token_accuracy": 0.18139662891626357,
      "num_tokens": 7913364.0,
      "step": 3460
    },
    {
      "entropy": 5.735165405273437,
      "epoch": 0.33285302593659943,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004993659893850281,
      "loss": 5.7308,
      "mean_token_accuracy": 0.16727230101823806,
      "num_tokens": 7925217.0,
      "step": 3465
    },
    {
      "entropy": 5.506084823608399,
      "epoch": 0.3333333333333333,
      "grad_norm": 0.92578125,
      "learning_rate": 0.0004993634148945573,
      "loss": 5.4639,
      "mean_token_accuracy": 0.17894653379917144,
      "num_tokens": 7937636.0,
      "step": 3470
    },
    {
      "entropy": 5.5272363185882565,
      "epoch": 0.33381364073006725,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004993608351950341,
      "loss": 5.4896,
      "mean_token_accuracy": 0.17503666803240775,
      "num_tokens": 7948958.0,
      "step": 3475
    },
    {
      "entropy": 5.620566320419312,
      "epoch": 0.33429394812680113,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004993582502865185,
      "loss": 5.5323,
      "mean_token_accuracy": 0.18402974754571916,
      "num_tokens": 7960013.0,
      "step": 3480
    },
    {
      "entropy": 5.462809419631958,
      "epoch": 0.33477425552353507,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004993556601690706,
      "loss": 5.5416,
      "mean_token_accuracy": 0.17792800366878508,
      "num_tokens": 7971041.0,
      "step": 3485
    },
    {
      "entropy": 5.618744802474976,
      "epoch": 0.33525456292026895,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004993530648427505,
      "loss": 5.576,
      "mean_token_accuracy": 0.1723045140504837,
      "num_tokens": 7982752.0,
      "step": 3490
    },
    {
      "entropy": 5.599891996383667,
      "epoch": 0.3357348703170029,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004993504643076184,
      "loss": 5.4278,
      "mean_token_accuracy": 0.18250093311071397,
      "num_tokens": 7993681.0,
      "step": 3495
    },
    {
      "entropy": 5.470984411239624,
      "epoch": 0.33621517771373677,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004993478585637347,
      "loss": 5.4781,
      "mean_token_accuracy": 0.18258391320705414,
      "num_tokens": 8004727.0,
      "step": 3500
    },
    {
      "entropy": 5.505999660491943,
      "epoch": 0.3366954851104707,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004993452476111599,
      "loss": 5.4797,
      "mean_token_accuracy": 0.18967788219451903,
      "num_tokens": 8015423.0,
      "step": 3505
    },
    {
      "entropy": 5.512713193893433,
      "epoch": 0.3371757925072046,
      "grad_norm": 0.9140625,
      "learning_rate": 0.0004993426314499546,
      "loss": 5.4536,
      "mean_token_accuracy": 0.18748492896556854,
      "num_tokens": 8027911.0,
      "step": 3510
    },
    {
      "entropy": 5.572777605056762,
      "epoch": 0.3376560999039385,
      "grad_norm": 0.96484375,
      "learning_rate": 0.0004993400100801796,
      "loss": 5.4747,
      "mean_token_accuracy": 0.1818804770708084,
      "num_tokens": 8038831.0,
      "step": 3515
    },
    {
      "entropy": 5.392134952545166,
      "epoch": 0.3381364073006724,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004993373835018956,
      "loss": 5.3718,
      "mean_token_accuracy": 0.18957587629556655,
      "num_tokens": 8049906.0,
      "step": 3520
    },
    {
      "entropy": 5.393214273452759,
      "epoch": 0.33861671469740634,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004993347517151638,
      "loss": 5.469,
      "mean_token_accuracy": 0.18386447727680205,
      "num_tokens": 8061158.0,
      "step": 3525
    },
    {
      "entropy": 5.6083544254302975,
      "epoch": 0.3390970220941403,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004993321147200452,
      "loss": 5.4326,
      "mean_token_accuracy": 0.181746444106102,
      "num_tokens": 8071958.0,
      "step": 3530
    },
    {
      "entropy": 5.465584182739258,
      "epoch": 0.33957732949087416,
      "grad_norm": 0.99609375,
      "learning_rate": 0.000499329472516601,
      "loss": 5.4294,
      "mean_token_accuracy": 0.17608542144298553,
      "num_tokens": 8084068.0,
      "step": 3535
    },
    {
      "entropy": 5.410733461380005,
      "epoch": 0.3400576368876081,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004993268251048925,
      "loss": 5.3472,
      "mean_token_accuracy": 0.19578494429588317,
      "num_tokens": 8096132.0,
      "step": 3540
    },
    {
      "entropy": 5.503920364379883,
      "epoch": 0.340537944284342,
      "grad_norm": 1.0,
      "learning_rate": 0.0004993241724849814,
      "loss": 5.5102,
      "mean_token_accuracy": 0.18362511545419694,
      "num_tokens": 8107327.0,
      "step": 3545
    },
    {
      "entropy": 5.497963953018188,
      "epoch": 0.3410182516810759,
      "grad_norm": 1.015625,
      "learning_rate": 0.000499321514656929,
      "loss": 5.4779,
      "mean_token_accuracy": 0.18374822586774825,
      "num_tokens": 8118584.0,
      "step": 3550
    },
    {
      "entropy": 5.550964641571045,
      "epoch": 0.3414985590778098,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004993188516207972,
      "loss": 5.5337,
      "mean_token_accuracy": 0.1793607845902443,
      "num_tokens": 8130081.0,
      "step": 3555
    },
    {
      "entropy": 5.507245492935181,
      "epoch": 0.34197886647454373,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004993161833766478,
      "loss": 5.4932,
      "mean_token_accuracy": 0.1838148668408394,
      "num_tokens": 8141463.0,
      "step": 3560
    },
    {
      "entropy": 5.541257572174072,
      "epoch": 0.3424591738712776,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004993135099245426,
      "loss": 5.5042,
      "mean_token_accuracy": 0.17985130697488785,
      "num_tokens": 8153863.0,
      "step": 3565
    },
    {
      "entropy": 5.428792333602905,
      "epoch": 0.34293948126801155,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004993108312645438,
      "loss": 5.463,
      "mean_token_accuracy": 0.18102106750011443,
      "num_tokens": 8165695.0,
      "step": 3570
    },
    {
      "entropy": 5.5374926090240475,
      "epoch": 0.34341978866474543,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004993081473967135,
      "loss": 5.5119,
      "mean_token_accuracy": 0.18098655641078948,
      "num_tokens": 8176456.0,
      "step": 3575
    },
    {
      "entropy": 5.58543210029602,
      "epoch": 0.34390009606147937,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004993054583211143,
      "loss": 5.5092,
      "mean_token_accuracy": 0.1822955548763275,
      "num_tokens": 8189050.0,
      "step": 3580
    },
    {
      "entropy": 5.43015308380127,
      "epoch": 0.34438040345821325,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0004993027640378081,
      "loss": 5.4081,
      "mean_token_accuracy": 0.185765840113163,
      "num_tokens": 8200011.0,
      "step": 3585
    },
    {
      "entropy": 5.474026918411255,
      "epoch": 0.3448607108549472,
      "grad_norm": 1.0625,
      "learning_rate": 0.000499300064546858,
      "loss": 5.4183,
      "mean_token_accuracy": 0.1868817389011383,
      "num_tokens": 8211770.0,
      "step": 3590
    },
    {
      "entropy": 5.55191330909729,
      "epoch": 0.34534101825168106,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004992973598483264,
      "loss": 5.4638,
      "mean_token_accuracy": 0.18688549250364303,
      "num_tokens": 8223582.0,
      "step": 3595
    },
    {
      "entropy": 5.575275611877442,
      "epoch": 0.345821325648415,
      "grad_norm": 1.109375,
      "learning_rate": 0.000499294649942276,
      "loss": 5.5846,
      "mean_token_accuracy": 0.1825041502714157,
      "num_tokens": 8234336.0,
      "step": 3600
    },
    {
      "entropy": 5.547464847564697,
      "epoch": 0.3463016330451489,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004992919348287699,
      "loss": 5.4941,
      "mean_token_accuracy": 0.18366153985261918,
      "num_tokens": 8244605.0,
      "step": 3605
    },
    {
      "entropy": 5.5259942531585695,
      "epoch": 0.3467819404418828,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004992892145078711,
      "loss": 5.5254,
      "mean_token_accuracy": 0.17931086868047713,
      "num_tokens": 8255876.0,
      "step": 3610
    },
    {
      "entropy": 5.4697678565979,
      "epoch": 0.3472622478386167,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004992864889796427,
      "loss": 5.4174,
      "mean_token_accuracy": 0.18721913993358613,
      "num_tokens": 8266602.0,
      "step": 3615
    },
    {
      "entropy": 5.546818780899048,
      "epoch": 0.34774255523535064,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004992837582441481,
      "loss": 5.4216,
      "mean_token_accuracy": 0.18347607105970382,
      "num_tokens": 8279804.0,
      "step": 3620
    },
    {
      "entropy": 5.569514989852905,
      "epoch": 0.3482228626320845,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004992810223014506,
      "loss": 5.5242,
      "mean_token_accuracy": 0.1833881989121437,
      "num_tokens": 8291020.0,
      "step": 3625
    },
    {
      "entropy": 5.5203827857971195,
      "epoch": 0.34870317002881845,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004992782811516137,
      "loss": 5.4727,
      "mean_token_accuracy": 0.18729409873485564,
      "num_tokens": 8302192.0,
      "step": 3630
    },
    {
      "entropy": 5.496627855300903,
      "epoch": 0.34918347742555234,
      "grad_norm": 0.96484375,
      "learning_rate": 0.0004992755347947011,
      "loss": 5.4324,
      "mean_token_accuracy": 0.18265776634216307,
      "num_tokens": 8313649.0,
      "step": 3635
    },
    {
      "entropy": 5.44870662689209,
      "epoch": 0.34966378482228627,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004992727832307766,
      "loss": 5.4304,
      "mean_token_accuracy": 0.18587879687547684,
      "num_tokens": 8324694.0,
      "step": 3640
    },
    {
      "entropy": 5.604543972015381,
      "epoch": 0.35014409221902015,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004992700264599039,
      "loss": 5.594,
      "mean_token_accuracy": 0.1727964922785759,
      "num_tokens": 8336517.0,
      "step": 3645
    },
    {
      "entropy": 5.540855789184571,
      "epoch": 0.3506243996157541,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004992672644821473,
      "loss": 5.5425,
      "mean_token_accuracy": 0.1779757022857666,
      "num_tokens": 8349001.0,
      "step": 3650
    },
    {
      "entropy": 5.5626523971557615,
      "epoch": 0.35110470701248797,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004992644972975707,
      "loss": 5.4537,
      "mean_token_accuracy": 0.1864044651389122,
      "num_tokens": 8361230.0,
      "step": 3655
    },
    {
      "entropy": 5.394788694381714,
      "epoch": 0.3515850144092219,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004992617249062383,
      "loss": 5.3924,
      "mean_token_accuracy": 0.19216873198747636,
      "num_tokens": 8372159.0,
      "step": 3660
    },
    {
      "entropy": 5.543751049041748,
      "epoch": 0.3520653218059558,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004992589473082147,
      "loss": 5.5214,
      "mean_token_accuracy": 0.18608528524637222,
      "num_tokens": 8383228.0,
      "step": 3665
    },
    {
      "entropy": 5.509809923171997,
      "epoch": 0.3525456292026897,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004992561645035641,
      "loss": 5.4561,
      "mean_token_accuracy": 0.18168068826198577,
      "num_tokens": 8394582.0,
      "step": 3670
    },
    {
      "entropy": 5.514116191864014,
      "epoch": 0.3530259365994236,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004992533764923515,
      "loss": 5.4481,
      "mean_token_accuracy": 0.18126334249973297,
      "num_tokens": 8406784.0,
      "step": 3675
    },
    {
      "entropy": 5.483726072311401,
      "epoch": 0.35350624399615754,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004992505832746412,
      "loss": 5.4286,
      "mean_token_accuracy": 0.19101243019104003,
      "num_tokens": 8418405.0,
      "step": 3680
    },
    {
      "entropy": 5.5265562534332275,
      "epoch": 0.3539865513928914,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004992477848504983,
      "loss": 5.392,
      "mean_token_accuracy": 0.18716304898262023,
      "num_tokens": 8430432.0,
      "step": 3685
    },
    {
      "entropy": 5.479315328598022,
      "epoch": 0.35446685878962536,
      "grad_norm": 0.9375,
      "learning_rate": 0.0004992449812199877,
      "loss": 5.5635,
      "mean_token_accuracy": 0.17799893915653228,
      "num_tokens": 8442423.0,
      "step": 3690
    },
    {
      "entropy": 5.518668079376221,
      "epoch": 0.3549471661863593,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004992421723831745,
      "loss": 5.546,
      "mean_token_accuracy": 0.1842621758580208,
      "num_tokens": 8454951.0,
      "step": 3695
    },
    {
      "entropy": 5.520323848724365,
      "epoch": 0.3554274735830932,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004992393583401239,
      "loss": 5.4033,
      "mean_token_accuracy": 0.18851898312568666,
      "num_tokens": 8467758.0,
      "step": 3700
    },
    {
      "entropy": 5.475191354751587,
      "epoch": 0.3559077809798271,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004992365390909014,
      "loss": 5.4854,
      "mean_token_accuracy": 0.17992179691791535,
      "num_tokens": 8479728.0,
      "step": 3705
    },
    {
      "entropy": 5.535838651657104,
      "epoch": 0.356388088376561,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004992337146355721,
      "loss": 5.552,
      "mean_token_accuracy": 0.17727553099393845,
      "num_tokens": 8492099.0,
      "step": 3710
    },
    {
      "entropy": 5.610863542556762,
      "epoch": 0.35686839577329493,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004992308849742019,
      "loss": 5.4819,
      "mean_token_accuracy": 0.17355056405067443,
      "num_tokens": 8504657.0,
      "step": 3715
    },
    {
      "entropy": 5.48232364654541,
      "epoch": 0.3573487031700288,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004992280501068563,
      "loss": 5.4509,
      "mean_token_accuracy": 0.18914830237627028,
      "num_tokens": 8514728.0,
      "step": 3720
    },
    {
      "entropy": 5.528886175155639,
      "epoch": 0.35782901056676275,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004992252100336012,
      "loss": 5.581,
      "mean_token_accuracy": 0.1833130970597267,
      "num_tokens": 8525588.0,
      "step": 3725
    },
    {
      "entropy": 5.540911626815796,
      "epoch": 0.35830931796349663,
      "grad_norm": 1.125,
      "learning_rate": 0.0004992223647545027,
      "loss": 5.527,
      "mean_token_accuracy": 0.18297800421714783,
      "num_tokens": 8537468.0,
      "step": 3730
    },
    {
      "entropy": 5.5527503490448,
      "epoch": 0.35878962536023057,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004992195142696266,
      "loss": 5.438,
      "mean_token_accuracy": 0.18914629518985748,
      "num_tokens": 8548598.0,
      "step": 3735
    },
    {
      "entropy": 5.33068585395813,
      "epoch": 0.35926993275696445,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004992166585790391,
      "loss": 5.3396,
      "mean_token_accuracy": 0.19562919437885284,
      "num_tokens": 8560301.0,
      "step": 3740
    },
    {
      "entropy": 5.483434391021729,
      "epoch": 0.3597502401536984,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004992137976828067,
      "loss": 5.4516,
      "mean_token_accuracy": 0.18603197634220123,
      "num_tokens": 8571186.0,
      "step": 3745
    },
    {
      "entropy": 5.484015607833863,
      "epoch": 0.36023054755043227,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004992109315809955,
      "loss": 5.4383,
      "mean_token_accuracy": 0.18905191421508788,
      "num_tokens": 8580725.0,
      "step": 3750
    },
    {
      "entropy": 5.519361686706543,
      "epoch": 0.3607108549471662,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004992080602736725,
      "loss": 5.5532,
      "mean_token_accuracy": 0.1773756206035614,
      "num_tokens": 8594598.0,
      "step": 3755
    },
    {
      "entropy": 5.643574905395508,
      "epoch": 0.3611911623439001,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004992051837609039,
      "loss": 5.5404,
      "mean_token_accuracy": 0.17730522602796556,
      "num_tokens": 8606733.0,
      "step": 3760
    },
    {
      "entropy": 5.508514451980591,
      "epoch": 0.361671469740634,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004992023020427568,
      "loss": 5.4788,
      "mean_token_accuracy": 0.18672696501016617,
      "num_tokens": 8618863.0,
      "step": 3765
    },
    {
      "entropy": 5.3892511367797855,
      "epoch": 0.3621517771373679,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004991994151192979,
      "loss": 5.3304,
      "mean_token_accuracy": 0.18849435597658157,
      "num_tokens": 8629270.0,
      "step": 3770
    },
    {
      "entropy": 5.4767759323120115,
      "epoch": 0.36263208453410184,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004991965229905943,
      "loss": 5.5364,
      "mean_token_accuracy": 0.18494855612516403,
      "num_tokens": 8641363.0,
      "step": 3775
    },
    {
      "entropy": 5.6278270244598385,
      "epoch": 0.3631123919308357,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004991936256567133,
      "loss": 5.4992,
      "mean_token_accuracy": 0.18451761305332184,
      "num_tokens": 8653233.0,
      "step": 3780
    },
    {
      "entropy": 5.4851010799407955,
      "epoch": 0.36359269932756966,
      "grad_norm": 0.91015625,
      "learning_rate": 0.000499190723117722,
      "loss": 5.487,
      "mean_token_accuracy": 0.17836329340934753,
      "num_tokens": 8665192.0,
      "step": 3785
    },
    {
      "entropy": 5.579302835464477,
      "epoch": 0.36407300672430354,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004991878153736877,
      "loss": 5.5583,
      "mean_token_accuracy": 0.17446503937244415,
      "num_tokens": 8677669.0,
      "step": 3790
    },
    {
      "entropy": 5.419927787780762,
      "epoch": 0.3645533141210375,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004991849024246781,
      "loss": 5.3676,
      "mean_token_accuracy": 0.18973670154809952,
      "num_tokens": 8688002.0,
      "step": 3795
    },
    {
      "entropy": 5.438193988800049,
      "epoch": 0.36503362151777136,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004991819842707608,
      "loss": 5.4133,
      "mean_token_accuracy": 0.18962489068508148,
      "num_tokens": 8698396.0,
      "step": 3800
    },
    {
      "entropy": 5.543167686462402,
      "epoch": 0.3655139289145053,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004991790609120035,
      "loss": 5.4297,
      "mean_token_accuracy": 0.18700562715530394,
      "num_tokens": 8711135.0,
      "step": 3805
    },
    {
      "entropy": 5.469641494750976,
      "epoch": 0.3659942363112392,
      "grad_norm": 1.0390625,
      "learning_rate": 0.000499176132348474,
      "loss": 5.4735,
      "mean_token_accuracy": 0.1897922232747078,
      "num_tokens": 8723707.0,
      "step": 3810
    },
    {
      "entropy": 5.582857084274292,
      "epoch": 0.3664745437079731,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004991731985802405,
      "loss": 5.4338,
      "mean_token_accuracy": 0.18693850934505463,
      "num_tokens": 8734193.0,
      "step": 3815
    },
    {
      "entropy": 5.444149160385132,
      "epoch": 0.366954851104707,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004991702596073708,
      "loss": 5.4841,
      "mean_token_accuracy": 0.18134361505508423,
      "num_tokens": 8745619.0,
      "step": 3820
    },
    {
      "entropy": 5.426347923278809,
      "epoch": 0.36743515850144093,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004991673154299335,
      "loss": 5.4231,
      "mean_token_accuracy": 0.18122087568044662,
      "num_tokens": 8757331.0,
      "step": 3825
    },
    {
      "entropy": 5.515204238891601,
      "epoch": 0.3679154658981748,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004991643660479967,
      "loss": 5.428,
      "mean_token_accuracy": 0.1868494287133217,
      "num_tokens": 8768840.0,
      "step": 3830
    },
    {
      "entropy": 5.460073804855346,
      "epoch": 0.36839577329490875,
      "grad_norm": 1.0,
      "learning_rate": 0.0004991614114616289,
      "loss": 5.3818,
      "mean_token_accuracy": 0.18779707103967666,
      "num_tokens": 8781214.0,
      "step": 3835
    },
    {
      "entropy": 5.510246324539184,
      "epoch": 0.3688760806916426,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004991584516708988,
      "loss": 5.4477,
      "mean_token_accuracy": 0.18548956960439683,
      "num_tokens": 8791645.0,
      "step": 3840
    },
    {
      "entropy": 5.5942995071411135,
      "epoch": 0.36935638808837656,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004991554866758751,
      "loss": 5.6333,
      "mean_token_accuracy": 0.1739022307097912,
      "num_tokens": 8803286.0,
      "step": 3845
    },
    {
      "entropy": 5.493673467636109,
      "epoch": 0.36983669548511044,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004991525164766265,
      "loss": 5.4163,
      "mean_token_accuracy": 0.1872221603989601,
      "num_tokens": 8814207.0,
      "step": 3850
    },
    {
      "entropy": 5.503255462646484,
      "epoch": 0.3703170028818444,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004991495410732222,
      "loss": 5.4683,
      "mean_token_accuracy": 0.17725101560354234,
      "num_tokens": 8825540.0,
      "step": 3855
    },
    {
      "entropy": 5.5069482803344725,
      "epoch": 0.37079731027857826,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004991465604657311,
      "loss": 5.5937,
      "mean_token_accuracy": 0.17322031259536744,
      "num_tokens": 8838182.0,
      "step": 3860
    },
    {
      "entropy": 5.526088094711303,
      "epoch": 0.3712776176753122,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004991435746542224,
      "loss": 5.4654,
      "mean_token_accuracy": 0.18988653868436814,
      "num_tokens": 8850211.0,
      "step": 3865
    },
    {
      "entropy": 5.439452648162842,
      "epoch": 0.37175792507204614,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004991405836387655,
      "loss": 5.5032,
      "mean_token_accuracy": 0.18108827471733094,
      "num_tokens": 8862804.0,
      "step": 3870
    },
    {
      "entropy": 5.529762125015258,
      "epoch": 0.37223823246878,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004991375874194298,
      "loss": 5.4602,
      "mean_token_accuracy": 0.17960784435272217,
      "num_tokens": 8874112.0,
      "step": 3875
    },
    {
      "entropy": 5.469674205780029,
      "epoch": 0.37271853986551395,
      "grad_norm": 1.03125,
      "learning_rate": 0.000499134585996285,
      "loss": 5.477,
      "mean_token_accuracy": 0.18614101260900498,
      "num_tokens": 8885114.0,
      "step": 3880
    },
    {
      "entropy": 5.554774141311645,
      "epoch": 0.37319884726224783,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004991315793694004,
      "loss": 5.3691,
      "mean_token_accuracy": 0.18807282894849778,
      "num_tokens": 8895555.0,
      "step": 3885
    },
    {
      "entropy": 5.405085754394531,
      "epoch": 0.37367915465898177,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004991285675388463,
      "loss": 5.3765,
      "mean_token_accuracy": 0.19634046405553818,
      "num_tokens": 8906073.0,
      "step": 3890
    },
    {
      "entropy": 5.501630163192749,
      "epoch": 0.37415946205571565,
      "grad_norm": 1.125,
      "learning_rate": 0.0004991255505046922,
      "loss": 5.5188,
      "mean_token_accuracy": 0.1789945885539055,
      "num_tokens": 8916587.0,
      "step": 3895
    },
    {
      "entropy": 5.550557231903076,
      "epoch": 0.3746397694524496,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004991225282670083,
      "loss": 5.4113,
      "mean_token_accuracy": 0.1861289381980896,
      "num_tokens": 8927923.0,
      "step": 3900
    },
    {
      "entropy": 5.382868242263794,
      "epoch": 0.37512007684918347,
      "grad_norm": 1.078125,
      "learning_rate": 0.000499119500825865,
      "loss": 5.4579,
      "mean_token_accuracy": 0.18377629071474075,
      "num_tokens": 8939939.0,
      "step": 3905
    },
    {
      "entropy": 5.397466945648193,
      "epoch": 0.3756003842459174,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004991164681813323,
      "loss": 5.4378,
      "mean_token_accuracy": 0.19209783971309663,
      "num_tokens": 8951748.0,
      "step": 3910
    },
    {
      "entropy": 5.485667037963867,
      "epoch": 0.3760806916426513,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004991134303334807,
      "loss": 5.3588,
      "mean_token_accuracy": 0.19007459729909898,
      "num_tokens": 8962922.0,
      "step": 3915
    },
    {
      "entropy": 5.372178030014038,
      "epoch": 0.3765609990393852,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004991103872823807,
      "loss": 5.3442,
      "mean_token_accuracy": 0.19452154785394668,
      "num_tokens": 8974013.0,
      "step": 3920
    },
    {
      "entropy": 5.436591958999633,
      "epoch": 0.3770413064361191,
      "grad_norm": 1.015625,
      "learning_rate": 0.000499107339028103,
      "loss": 5.4262,
      "mean_token_accuracy": 0.18169266134500503,
      "num_tokens": 8986032.0,
      "step": 3925
    },
    {
      "entropy": 5.542058515548706,
      "epoch": 0.37752161383285304,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004991042855707184,
      "loss": 5.4187,
      "mean_token_accuracy": 0.1796349912881851,
      "num_tokens": 8996889.0,
      "step": 3930
    },
    {
      "entropy": 5.436617517471314,
      "epoch": 0.3780019212295869,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004991012269102977,
      "loss": 5.3992,
      "mean_token_accuracy": 0.18429471999406816,
      "num_tokens": 9007594.0,
      "step": 3935
    },
    {
      "entropy": 5.426474618911743,
      "epoch": 0.37848222862632086,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004990981630469119,
      "loss": 5.402,
      "mean_token_accuracy": 0.18193352967500687,
      "num_tokens": 9018097.0,
      "step": 3940
    },
    {
      "entropy": 5.5093968391418455,
      "epoch": 0.37896253602305474,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004990950939806323,
      "loss": 5.5113,
      "mean_token_accuracy": 0.18117111474275588,
      "num_tokens": 9029554.0,
      "step": 3945
    },
    {
      "entropy": 5.489337825775147,
      "epoch": 0.3794428434197887,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00049909201971153,
      "loss": 5.3772,
      "mean_token_accuracy": 0.1829820305109024,
      "num_tokens": 9042518.0,
      "step": 3950
    },
    {
      "entropy": 5.421378660202026,
      "epoch": 0.37992315081652256,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004990889402396763,
      "loss": 5.4316,
      "mean_token_accuracy": 0.18639881759881974,
      "num_tokens": 9054524.0,
      "step": 3955
    },
    {
      "entropy": 5.510490798950196,
      "epoch": 0.3804034582132565,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004990858555651431,
      "loss": 5.4016,
      "mean_token_accuracy": 0.18468015938997268,
      "num_tokens": 9065375.0,
      "step": 3960
    },
    {
      "entropy": 5.44808177947998,
      "epoch": 0.3808837656099904,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004990827656880015,
      "loss": 5.3509,
      "mean_token_accuracy": 0.1859322890639305,
      "num_tokens": 9076338.0,
      "step": 3965
    },
    {
      "entropy": 5.432799911499023,
      "epoch": 0.3813640730067243,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004990796706083235,
      "loss": 5.4011,
      "mean_token_accuracy": 0.18659975230693818,
      "num_tokens": 9088407.0,
      "step": 3970
    },
    {
      "entropy": 5.426470470428467,
      "epoch": 0.3818443804034582,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004990765703261809,
      "loss": 5.3649,
      "mean_token_accuracy": 0.18807975053787232,
      "num_tokens": 9099833.0,
      "step": 3975
    },
    {
      "entropy": 5.350304222106933,
      "epoch": 0.38232468780019213,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004990734648416458,
      "loss": 5.3388,
      "mean_token_accuracy": 0.189335997402668,
      "num_tokens": 9111126.0,
      "step": 3980
    },
    {
      "entropy": 5.505539417266846,
      "epoch": 0.382804995196926,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004990703541547901,
      "loss": 5.4548,
      "mean_token_accuracy": 0.1886373370885849,
      "num_tokens": 9121979.0,
      "step": 3985
    },
    {
      "entropy": 5.520917081832886,
      "epoch": 0.38328530259365995,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004990672382656863,
      "loss": 5.4535,
      "mean_token_accuracy": 0.18644375950098038,
      "num_tokens": 9132929.0,
      "step": 3990
    },
    {
      "entropy": 5.485851383209228,
      "epoch": 0.38376560999039383,
      "grad_norm": 1.0,
      "learning_rate": 0.0004990641171744064,
      "loss": 5.4111,
      "mean_token_accuracy": 0.1882080391049385,
      "num_tokens": 9143903.0,
      "step": 3995
    },
    {
      "entropy": 5.495297384262085,
      "epoch": 0.38424591738712777,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004990609908810231,
      "loss": 5.5045,
      "mean_token_accuracy": 0.18192221075296403,
      "num_tokens": 9154416.0,
      "step": 4000
    },
    {
      "entropy": 5.513756942749024,
      "epoch": 0.38472622478386165,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004990578593856089,
      "loss": 5.4805,
      "mean_token_accuracy": 0.18242392241954802,
      "num_tokens": 9165613.0,
      "step": 4005
    },
    {
      "entropy": 5.4664655208587645,
      "epoch": 0.3852065321805956,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004990547226882366,
      "loss": 5.433,
      "mean_token_accuracy": 0.18787842243909836,
      "num_tokens": 9177884.0,
      "step": 4010
    },
    {
      "entropy": 5.5449103832244875,
      "epoch": 0.38568683957732947,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004990515807889788,
      "loss": 5.5669,
      "mean_token_accuracy": 0.17467134743928908,
      "num_tokens": 9190041.0,
      "step": 4015
    },
    {
      "entropy": 5.556881046295166,
      "epoch": 0.3861671469740634,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004990484336879087,
      "loss": 5.4402,
      "mean_token_accuracy": 0.18740091025829314,
      "num_tokens": 9202390.0,
      "step": 4020
    },
    {
      "entropy": 5.409300327301025,
      "epoch": 0.3866474543707973,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004990452813850992,
      "loss": 5.4373,
      "mean_token_accuracy": 0.18635576069355012,
      "num_tokens": 9213437.0,
      "step": 4025
    },
    {
      "entropy": 5.554971408843994,
      "epoch": 0.3871277617675312,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004990421238806236,
      "loss": 5.517,
      "mean_token_accuracy": 0.17564513981342317,
      "num_tokens": 9226310.0,
      "step": 4030
    },
    {
      "entropy": 5.530429458618164,
      "epoch": 0.38760806916426516,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004990389611745551,
      "loss": 5.4495,
      "mean_token_accuracy": 0.1819504901766777,
      "num_tokens": 9236271.0,
      "step": 4035
    },
    {
      "entropy": 5.516104078292846,
      "epoch": 0.38808837656099904,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004990357932669672,
      "loss": 5.5245,
      "mean_token_accuracy": 0.18500009030103684,
      "num_tokens": 9247755.0,
      "step": 4040
    },
    {
      "entropy": 5.464123487472534,
      "epoch": 0.388568683957733,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004990326201579335,
      "loss": 5.361,
      "mean_token_accuracy": 0.19129124879837037,
      "num_tokens": 9259821.0,
      "step": 4045
    },
    {
      "entropy": 5.4668073654174805,
      "epoch": 0.38904899135446686,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004990294418475274,
      "loss": 5.4631,
      "mean_token_accuracy": 0.18641964942216874,
      "num_tokens": 9270663.0,
      "step": 4050
    },
    {
      "entropy": 5.465627670288086,
      "epoch": 0.3895292987512008,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004990262583358231,
      "loss": 5.4879,
      "mean_token_accuracy": 0.17998379915952684,
      "num_tokens": 9282588.0,
      "step": 4055
    },
    {
      "entropy": 5.510502290725708,
      "epoch": 0.3900096061479347,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004990230696228943,
      "loss": 5.4397,
      "mean_token_accuracy": 0.17829088270664215,
      "num_tokens": 9293368.0,
      "step": 4060
    },
    {
      "entropy": 5.477728748321534,
      "epoch": 0.3904899135446686,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004990198757088149,
      "loss": 5.5128,
      "mean_token_accuracy": 0.1811017781496048,
      "num_tokens": 9305962.0,
      "step": 4065
    },
    {
      "entropy": 5.508330774307251,
      "epoch": 0.3909702209414025,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004990166765936593,
      "loss": 5.393,
      "mean_token_accuracy": 0.19244694262742995,
      "num_tokens": 9317955.0,
      "step": 4070
    },
    {
      "entropy": 5.450256824493408,
      "epoch": 0.3914505283381364,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004990134722775016,
      "loss": 5.3934,
      "mean_token_accuracy": 0.19047792106866837,
      "num_tokens": 9329491.0,
      "step": 4075
    },
    {
      "entropy": 5.451663637161255,
      "epoch": 0.3919308357348703,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004990102627604162,
      "loss": 5.5273,
      "mean_token_accuracy": 0.19028781056404115,
      "num_tokens": 9341612.0,
      "step": 4080
    },
    {
      "entropy": 5.524235773086548,
      "epoch": 0.39241114313160425,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004990070480424778,
      "loss": 5.458,
      "mean_token_accuracy": 0.18043633103370665,
      "num_tokens": 9352302.0,
      "step": 4085
    },
    {
      "entropy": 5.440912199020386,
      "epoch": 0.3928914505283381,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004990038281237608,
      "loss": 5.3919,
      "mean_token_accuracy": 0.1852226436138153,
      "num_tokens": 9363303.0,
      "step": 4090
    },
    {
      "entropy": 5.433840227127075,
      "epoch": 0.39337175792507206,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004990006030043401,
      "loss": 5.3732,
      "mean_token_accuracy": 0.1849522888660431,
      "num_tokens": 9375878.0,
      "step": 4095
    },
    {
      "entropy": 5.470492124557495,
      "epoch": 0.39385206532180594,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004989973726842906,
      "loss": 5.4145,
      "mean_token_accuracy": 0.18103147149086,
      "num_tokens": 9388342.0,
      "step": 4100
    },
    {
      "entropy": 5.44459342956543,
      "epoch": 0.3943323727185399,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004989941371636872,
      "loss": 5.3549,
      "mean_token_accuracy": 0.1901955187320709,
      "num_tokens": 9399047.0,
      "step": 4105
    },
    {
      "entropy": 5.449139881134033,
      "epoch": 0.39481268011527376,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004989908964426051,
      "loss": 5.4342,
      "mean_token_accuracy": 0.18933464139699935,
      "num_tokens": 9410172.0,
      "step": 4110
    },
    {
      "entropy": 5.547493505477905,
      "epoch": 0.3952929875120077,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004989876505211194,
      "loss": 5.5794,
      "mean_token_accuracy": 0.17717085629701615,
      "num_tokens": 9422287.0,
      "step": 4115
    },
    {
      "entropy": 5.5754584789276125,
      "epoch": 0.3957732949087416,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004989843993993056,
      "loss": 5.44,
      "mean_token_accuracy": 0.18759053498506545,
      "num_tokens": 9433709.0,
      "step": 4120
    },
    {
      "entropy": 5.341240167617798,
      "epoch": 0.3962536023054755,
      "grad_norm": 1.125,
      "learning_rate": 0.0004989811430772392,
      "loss": 5.3199,
      "mean_token_accuracy": 0.189169280230999,
      "num_tokens": 9445138.0,
      "step": 4125
    },
    {
      "entropy": 5.4137170791625975,
      "epoch": 0.3967339097022094,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004989778815549957,
      "loss": 5.4579,
      "mean_token_accuracy": 0.1827932521700859,
      "num_tokens": 9455263.0,
      "step": 4130
    },
    {
      "entropy": 5.533003664016723,
      "epoch": 0.39721421709894333,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004989746148326508,
      "loss": 5.4184,
      "mean_token_accuracy": 0.18644048422574996,
      "num_tokens": 9465491.0,
      "step": 4135
    },
    {
      "entropy": 5.372505331039429,
      "epoch": 0.3976945244956772,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004989713429102805,
      "loss": 5.3821,
      "mean_token_accuracy": 0.1837732046842575,
      "num_tokens": 9477601.0,
      "step": 4140
    },
    {
      "entropy": 5.426533985137939,
      "epoch": 0.39817483189241115,
      "grad_norm": 1.0,
      "learning_rate": 0.0004989680657879607,
      "loss": 5.4426,
      "mean_token_accuracy": 0.18387902528047562,
      "num_tokens": 9489385.0,
      "step": 4145
    },
    {
      "entropy": 5.473710680007935,
      "epoch": 0.39865513928914503,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004989647834657675,
      "loss": 5.3249,
      "mean_token_accuracy": 0.19230013936758042,
      "num_tokens": 9501131.0,
      "step": 4150
    },
    {
      "entropy": 5.420683908462524,
      "epoch": 0.39913544668587897,
      "grad_norm": 0.96875,
      "learning_rate": 0.000498961495943777,
      "loss": 5.4614,
      "mean_token_accuracy": 0.18854968398809432,
      "num_tokens": 9513094.0,
      "step": 4155
    },
    {
      "entropy": 5.577786207199097,
      "epoch": 0.39961575408261285,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004989582032220656,
      "loss": 5.5832,
      "mean_token_accuracy": 0.17526223361492158,
      "num_tokens": 9524538.0,
      "step": 4160
    },
    {
      "entropy": 5.522935295104981,
      "epoch": 0.4000960614793468,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004989549053007096,
      "loss": 5.3961,
      "mean_token_accuracy": 0.19305580705404282,
      "num_tokens": 9535284.0,
      "step": 4165
    },
    {
      "entropy": 5.462124681472778,
      "epoch": 0.40057636887608067,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004989516021797858,
      "loss": 5.471,
      "mean_token_accuracy": 0.18390081077814102,
      "num_tokens": 9546472.0,
      "step": 4170
    },
    {
      "entropy": 5.499347305297851,
      "epoch": 0.4010566762728146,
      "grad_norm": 1.015625,
      "learning_rate": 0.000498948293859371,
      "loss": 5.4605,
      "mean_token_accuracy": 0.18212546557188034,
      "num_tokens": 9558358.0,
      "step": 4175
    },
    {
      "entropy": 5.496229076385498,
      "epoch": 0.4015369836695485,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004989449803395415,
      "loss": 5.4959,
      "mean_token_accuracy": 0.18471186012029647,
      "num_tokens": 9570653.0,
      "step": 4180
    },
    {
      "entropy": 5.556100845336914,
      "epoch": 0.4020172910662824,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004989416616203747,
      "loss": 5.4386,
      "mean_token_accuracy": 0.18714374899864197,
      "num_tokens": 9582150.0,
      "step": 4185
    },
    {
      "entropy": 5.4823558807373045,
      "epoch": 0.4024975984630163,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004989383377019476,
      "loss": 5.38,
      "mean_token_accuracy": 0.19184014648199083,
      "num_tokens": 9592462.0,
      "step": 4190
    },
    {
      "entropy": 5.375227689743042,
      "epoch": 0.40297790585975024,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004989350085843371,
      "loss": 5.374,
      "mean_token_accuracy": 0.18951477408409118,
      "num_tokens": 9604027.0,
      "step": 4195
    },
    {
      "entropy": 5.387249088287353,
      "epoch": 0.4034582132564842,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004989316742676207,
      "loss": 5.3733,
      "mean_token_accuracy": 0.19109322130680084,
      "num_tokens": 9616325.0,
      "step": 4200
    },
    {
      "entropy": 5.396379852294922,
      "epoch": 0.40393852065321806,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004989283347518757,
      "loss": 5.3338,
      "mean_token_accuracy": 0.18609212040901185,
      "num_tokens": 9628133.0,
      "step": 4205
    },
    {
      "entropy": 5.579652786254883,
      "epoch": 0.404418828049952,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004989249900371797,
      "loss": 5.5629,
      "mean_token_accuracy": 0.17861852645874024,
      "num_tokens": 9639686.0,
      "step": 4210
    },
    {
      "entropy": 5.429533529281616,
      "epoch": 0.4048991354466859,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004989216401236103,
      "loss": 5.4184,
      "mean_token_accuracy": 0.18496839255094527,
      "num_tokens": 9650222.0,
      "step": 4215
    },
    {
      "entropy": 5.367856836318969,
      "epoch": 0.4053794428434198,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004989182850112455,
      "loss": 5.3417,
      "mean_token_accuracy": 0.1997272178530693,
      "num_tokens": 9661792.0,
      "step": 4220
    },
    {
      "entropy": 5.516646957397461,
      "epoch": 0.4058597502401537,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004989149247001629,
      "loss": 5.4497,
      "mean_token_accuracy": 0.18383817970752717,
      "num_tokens": 9673000.0,
      "step": 4225
    },
    {
      "entropy": 5.532714462280273,
      "epoch": 0.40634005763688763,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004989115591904407,
      "loss": 5.3975,
      "mean_token_accuracy": 0.1901587262749672,
      "num_tokens": 9685253.0,
      "step": 4230
    },
    {
      "entropy": 5.391170501708984,
      "epoch": 0.4068203650336215,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004989081884821569,
      "loss": 5.4004,
      "mean_token_accuracy": 0.18320820480585098,
      "num_tokens": 9697245.0,
      "step": 4235
    },
    {
      "entropy": 5.450364589691162,
      "epoch": 0.40730067243035545,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004989048125753899,
      "loss": 5.4156,
      "mean_token_accuracy": 0.18504445552825927,
      "num_tokens": 9710095.0,
      "step": 4240
    },
    {
      "entropy": 5.407678937911987,
      "epoch": 0.40778097982708933,
      "grad_norm": 1.0625,
      "learning_rate": 0.000498901431470218,
      "loss": 5.2919,
      "mean_token_accuracy": 0.19396644979715347,
      "num_tokens": 9721488.0,
      "step": 4245
    },
    {
      "entropy": 5.2491998195648195,
      "epoch": 0.40826128722382327,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004988980451667198,
      "loss": 5.255,
      "mean_token_accuracy": 0.19170391261577607,
      "num_tokens": 9733280.0,
      "step": 4250
    },
    {
      "entropy": 5.455927753448487,
      "epoch": 0.40874159462055715,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004988946536649737,
      "loss": 5.3863,
      "mean_token_accuracy": 0.18661659061908722,
      "num_tokens": 9744514.0,
      "step": 4255
    },
    {
      "entropy": 5.413423871994018,
      "epoch": 0.4092219020172911,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004988912569650585,
      "loss": 5.3752,
      "mean_token_accuracy": 0.19112140834331512,
      "num_tokens": 9754931.0,
      "step": 4260
    },
    {
      "entropy": 5.389836359024048,
      "epoch": 0.40970220941402496,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004988878550670533,
      "loss": 5.3725,
      "mean_token_accuracy": 0.19297343790531157,
      "num_tokens": 9765635.0,
      "step": 4265
    },
    {
      "entropy": 5.508016872406006,
      "epoch": 0.4101825168107589,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004988844479710369,
      "loss": 5.4792,
      "mean_token_accuracy": 0.18072771430015563,
      "num_tokens": 9777512.0,
      "step": 4270
    },
    {
      "entropy": 5.541130542755127,
      "epoch": 0.4106628242074928,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004988810356770884,
      "loss": 5.4764,
      "mean_token_accuracy": 0.1744610548019409,
      "num_tokens": 9790128.0,
      "step": 4275
    },
    {
      "entropy": 5.451146841049194,
      "epoch": 0.4111431316042267,
      "grad_norm": 0.98046875,
      "learning_rate": 0.000498877618185287,
      "loss": 5.4112,
      "mean_token_accuracy": 0.19078320413827896,
      "num_tokens": 9802549.0,
      "step": 4280
    },
    {
      "entropy": 5.365971374511719,
      "epoch": 0.4116234390009606,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004988741954957121,
      "loss": 5.3574,
      "mean_token_accuracy": 0.18884203881025313,
      "num_tokens": 9813736.0,
      "step": 4285
    },
    {
      "entropy": 5.380771827697754,
      "epoch": 0.41210374639769454,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004988707676084432,
      "loss": 5.3584,
      "mean_token_accuracy": 0.19705824106931685,
      "num_tokens": 9823785.0,
      "step": 4290
    },
    {
      "entropy": 5.432324981689453,
      "epoch": 0.4125840537944284,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004988673345235597,
      "loss": 5.3197,
      "mean_token_accuracy": 0.1934140741825104,
      "num_tokens": 9834910.0,
      "step": 4295
    },
    {
      "entropy": 5.437625408172607,
      "epoch": 0.41306436119116235,
      "grad_norm": 1.0,
      "learning_rate": 0.0004988638962411416,
      "loss": 5.363,
      "mean_token_accuracy": 0.18818716257810592,
      "num_tokens": 9845593.0,
      "step": 4300
    },
    {
      "entropy": 5.392855072021485,
      "epoch": 0.41354466858789624,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004988604527612685,
      "loss": 5.2697,
      "mean_token_accuracy": 0.2009762555360794,
      "num_tokens": 9856763.0,
      "step": 4305
    },
    {
      "entropy": 5.503190565109253,
      "epoch": 0.4140249759846302,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004988570040840205,
      "loss": 5.4945,
      "mean_token_accuracy": 0.18051616251468658,
      "num_tokens": 9869528.0,
      "step": 4310
    },
    {
      "entropy": 5.407845735549927,
      "epoch": 0.41450528338136405,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004988535502094774,
      "loss": 5.3958,
      "mean_token_accuracy": 0.18804680705070495,
      "num_tokens": 9881170.0,
      "step": 4315
    },
    {
      "entropy": 5.461514711380005,
      "epoch": 0.414985590778098,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004988500911377198,
      "loss": 5.4803,
      "mean_token_accuracy": 0.18439086973667146,
      "num_tokens": 9893119.0,
      "step": 4320
    },
    {
      "entropy": 5.368999385833741,
      "epoch": 0.41546589817483187,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004988466268688276,
      "loss": 5.3154,
      "mean_token_accuracy": 0.19932861626148224,
      "num_tokens": 9905339.0,
      "step": 4325
    },
    {
      "entropy": 5.482837677001953,
      "epoch": 0.4159462055715658,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004988431574028814,
      "loss": 5.4002,
      "mean_token_accuracy": 0.19202394932508468,
      "num_tokens": 9917500.0,
      "step": 4330
    },
    {
      "entropy": 5.466025495529175,
      "epoch": 0.4164265129682997,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004988396827399618,
      "loss": 5.4808,
      "mean_token_accuracy": 0.18326758295297624,
      "num_tokens": 9929667.0,
      "step": 4335
    },
    {
      "entropy": 5.48503007888794,
      "epoch": 0.4169068203650336,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004988362028801495,
      "loss": 5.4048,
      "mean_token_accuracy": 0.18796583414077758,
      "num_tokens": 9941102.0,
      "step": 4340
    },
    {
      "entropy": 5.412125444412231,
      "epoch": 0.4173871277617675,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004988327178235253,
      "loss": 5.3058,
      "mean_token_accuracy": 0.1973835989832878,
      "num_tokens": 9951986.0,
      "step": 4345
    },
    {
      "entropy": 5.383547782897949,
      "epoch": 0.41786743515850144,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0004988292275701699,
      "loss": 5.3119,
      "mean_token_accuracy": 0.19086995273828505,
      "num_tokens": 9964486.0,
      "step": 4350
    },
    {
      "entropy": 5.406881952285767,
      "epoch": 0.4183477425552353,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004988257321201646,
      "loss": 5.4094,
      "mean_token_accuracy": 0.1860354095697403,
      "num_tokens": 9975909.0,
      "step": 4355
    },
    {
      "entropy": 5.473488092422485,
      "epoch": 0.41882804995196926,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004988222314735902,
      "loss": 5.4171,
      "mean_token_accuracy": 0.18617332428693772,
      "num_tokens": 9986951.0,
      "step": 4360
    },
    {
      "entropy": 5.517805814743042,
      "epoch": 0.41930835734870314,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004988187256305284,
      "loss": 5.5057,
      "mean_token_accuracy": 0.1791812226176262,
      "num_tokens": 9999234.0,
      "step": 4365
    },
    {
      "entropy": 5.405948638916016,
      "epoch": 0.4197886647454371,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004988152145910603,
      "loss": 5.3792,
      "mean_token_accuracy": 0.1959477871656418,
      "num_tokens": 10010178.0,
      "step": 4370
    },
    {
      "entropy": 5.391415548324585,
      "epoch": 0.420268972142171,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004988116983552675,
      "loss": 5.3218,
      "mean_token_accuracy": 0.18838354647159578,
      "num_tokens": 10021183.0,
      "step": 4375
    },
    {
      "entropy": 5.590651321411133,
      "epoch": 0.4207492795389049,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004988081769232317,
      "loss": 5.6204,
      "mean_token_accuracy": 0.17428677082061766,
      "num_tokens": 10033686.0,
      "step": 4380
    },
    {
      "entropy": 5.384156322479248,
      "epoch": 0.42122958693563883,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004988046502950346,
      "loss": 5.3079,
      "mean_token_accuracy": 0.187077134847641,
      "num_tokens": 10045923.0,
      "step": 4385
    },
    {
      "entropy": 5.270208120346069,
      "epoch": 0.4217098943323727,
      "grad_norm": 0.99609375,
      "learning_rate": 0.000498801118470758,
      "loss": 5.2402,
      "mean_token_accuracy": 0.19899773895740508,
      "num_tokens": 10057196.0,
      "step": 4390
    },
    {
      "entropy": 5.409784030914307,
      "epoch": 0.42219020172910665,
      "grad_norm": 1.109375,
      "learning_rate": 0.000498797581450484,
      "loss": 5.4295,
      "mean_token_accuracy": 0.18354050666093827,
      "num_tokens": 10069655.0,
      "step": 4395
    },
    {
      "entropy": 5.448616600036621,
      "epoch": 0.42267050912584053,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004987940392342948,
      "loss": 5.3095,
      "mean_token_accuracy": 0.19377071112394334,
      "num_tokens": 10080876.0,
      "step": 4400
    },
    {
      "entropy": 5.421027898788452,
      "epoch": 0.42315081652257447,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004987904918222726,
      "loss": 5.415,
      "mean_token_accuracy": 0.18513490557670592,
      "num_tokens": 10091986.0,
      "step": 4405
    },
    {
      "entropy": 5.5097509860992435,
      "epoch": 0.42363112391930835,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004987869392144996,
      "loss": 5.499,
      "mean_token_accuracy": 0.18492884635925294,
      "num_tokens": 10104027.0,
      "step": 4410
    },
    {
      "entropy": 5.425499534606933,
      "epoch": 0.4241114313160423,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004987833814110584,
      "loss": 5.3567,
      "mean_token_accuracy": 0.1865203857421875,
      "num_tokens": 10114665.0,
      "step": 4415
    },
    {
      "entropy": 5.385516119003296,
      "epoch": 0.42459173871277617,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004987798184120316,
      "loss": 5.3742,
      "mean_token_accuracy": 0.19014959633350373,
      "num_tokens": 10126032.0,
      "step": 4420
    },
    {
      "entropy": 5.512171411514283,
      "epoch": 0.4250720461095101,
      "grad_norm": 1.125,
      "learning_rate": 0.0004987762502175018,
      "loss": 5.4288,
      "mean_token_accuracy": 0.1829407036304474,
      "num_tokens": 10137256.0,
      "step": 4425
    },
    {
      "entropy": 5.3579336643219,
      "epoch": 0.425552353506244,
      "grad_norm": 1.09375,
      "learning_rate": 0.000498772676827552,
      "loss": 5.3117,
      "mean_token_accuracy": 0.1916539713740349,
      "num_tokens": 10149445.0,
      "step": 4430
    },
    {
      "entropy": 5.474416351318359,
      "epoch": 0.4260326609029779,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004987690982422652,
      "loss": 5.4495,
      "mean_token_accuracy": 0.18037094324827194,
      "num_tokens": 10161607.0,
      "step": 4435
    },
    {
      "entropy": 5.448618030548095,
      "epoch": 0.4265129682997118,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004987655144617243,
      "loss": 5.4681,
      "mean_token_accuracy": 0.18403236269950868,
      "num_tokens": 10173184.0,
      "step": 4440
    },
    {
      "entropy": 5.4251587867736815,
      "epoch": 0.42699327569644574,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004987619254860126,
      "loss": 5.328,
      "mean_token_accuracy": 0.19698531180620193,
      "num_tokens": 10184617.0,
      "step": 4445
    },
    {
      "entropy": 5.4672339916229244,
      "epoch": 0.4274735830931796,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004987583313152134,
      "loss": 5.3568,
      "mean_token_accuracy": 0.18906597346067427,
      "num_tokens": 10195608.0,
      "step": 4450
    },
    {
      "entropy": 5.386989736557007,
      "epoch": 0.42795389048991356,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004987547319494104,
      "loss": 5.4529,
      "mean_token_accuracy": 0.18423379063606263,
      "num_tokens": 10206763.0,
      "step": 4455
    },
    {
      "entropy": 5.486404466629028,
      "epoch": 0.42843419788664744,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004987511273886867,
      "loss": 5.3933,
      "mean_token_accuracy": 0.1908423647284508,
      "num_tokens": 10218714.0,
      "step": 4460
    },
    {
      "entropy": 5.427644729614258,
      "epoch": 0.4289145052833814,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004987475176331263,
      "loss": 5.415,
      "mean_token_accuracy": 0.18401106595993041,
      "num_tokens": 10229902.0,
      "step": 4465
    },
    {
      "entropy": 5.423227453231812,
      "epoch": 0.42939481268011526,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004987439026828129,
      "loss": 5.288,
      "mean_token_accuracy": 0.19139131158590317,
      "num_tokens": 10241578.0,
      "step": 4470
    },
    {
      "entropy": 5.324700498580933,
      "epoch": 0.4298751200768492,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004987402825378305,
      "loss": 5.2595,
      "mean_token_accuracy": 0.19443607479333877,
      "num_tokens": 10252109.0,
      "step": 4475
    },
    {
      "entropy": 5.429213285446167,
      "epoch": 0.4303554274735831,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004987366571982631,
      "loss": 5.4252,
      "mean_token_accuracy": 0.18883214443922042,
      "num_tokens": 10263357.0,
      "step": 4480
    },
    {
      "entropy": 5.487810945510864,
      "epoch": 0.430835734870317,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004987330266641948,
      "loss": 5.4308,
      "mean_token_accuracy": 0.18471152931451798,
      "num_tokens": 10275536.0,
      "step": 4485
    },
    {
      "entropy": 5.453687620162964,
      "epoch": 0.4313160422670509,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004987293909357101,
      "loss": 5.415,
      "mean_token_accuracy": 0.19442622363567352,
      "num_tokens": 10286901.0,
      "step": 4490
    },
    {
      "entropy": 5.365311050415039,
      "epoch": 0.43179634966378483,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004987257500128933,
      "loss": 5.3172,
      "mean_token_accuracy": 0.18610639423131942,
      "num_tokens": 10298961.0,
      "step": 4495
    },
    {
      "entropy": 5.462113523483277,
      "epoch": 0.4322766570605187,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004987221038958288,
      "loss": 5.4543,
      "mean_token_accuracy": 0.18748044222593307,
      "num_tokens": 10310911.0,
      "step": 4500
    },
    {
      "entropy": 5.510283613204956,
      "epoch": 0.43275696445725265,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004987184525846015,
      "loss": 5.4389,
      "mean_token_accuracy": 0.1841048017144203,
      "num_tokens": 10322267.0,
      "step": 4505
    },
    {
      "entropy": 5.411655378341675,
      "epoch": 0.4332372718539865,
      "grad_norm": 1.125,
      "learning_rate": 0.0004987147960792958,
      "loss": 5.459,
      "mean_token_accuracy": 0.18804670721292496,
      "num_tokens": 10335111.0,
      "step": 4510
    },
    {
      "entropy": 5.520284938812256,
      "epoch": 0.43371757925072046,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004987111343799971,
      "loss": 5.3974,
      "mean_token_accuracy": 0.1907435804605484,
      "num_tokens": 10345672.0,
      "step": 4515
    },
    {
      "entropy": 5.501500225067138,
      "epoch": 0.43419788664745435,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00049870746748679,
      "loss": 5.3725,
      "mean_token_accuracy": 0.1861974611878395,
      "num_tokens": 10357369.0,
      "step": 4520
    },
    {
      "entropy": 5.38987283706665,
      "epoch": 0.4346781940441883,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004987037953997598,
      "loss": 5.3935,
      "mean_token_accuracy": 0.18683493435382842,
      "num_tokens": 10368842.0,
      "step": 4525
    },
    {
      "entropy": 5.43892183303833,
      "epoch": 0.43515850144092216,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004987001181189918,
      "loss": 5.3539,
      "mean_token_accuracy": 0.18663013726472855,
      "num_tokens": 10380096.0,
      "step": 4530
    },
    {
      "entropy": 5.306481552124024,
      "epoch": 0.4356388088376561,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004986964356445713,
      "loss": 5.3772,
      "mean_token_accuracy": 0.19005681425333024,
      "num_tokens": 10391996.0,
      "step": 4535
    },
    {
      "entropy": 5.48760027885437,
      "epoch": 0.43611911623439004,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004986927479765837,
      "loss": 5.3288,
      "mean_token_accuracy": 0.18343985229730606,
      "num_tokens": 10403607.0,
      "step": 4540
    },
    {
      "entropy": 5.396467876434326,
      "epoch": 0.4365994236311239,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004986890551151148,
      "loss": 5.3604,
      "mean_token_accuracy": 0.184589384496212,
      "num_tokens": 10413580.0,
      "step": 4545
    },
    {
      "entropy": 5.349568462371826,
      "epoch": 0.43707973102785785,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004986853570602503,
      "loss": 5.3881,
      "mean_token_accuracy": 0.18719975054264068,
      "num_tokens": 10426456.0,
      "step": 4550
    },
    {
      "entropy": 5.520879220962525,
      "epoch": 0.43756003842459174,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004986816538120758,
      "loss": 5.4101,
      "mean_token_accuracy": 0.18188669979572297,
      "num_tokens": 10438869.0,
      "step": 4555
    },
    {
      "entropy": 5.397240781784058,
      "epoch": 0.43804034582132567,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004986779453706778,
      "loss": 5.4142,
      "mean_token_accuracy": 0.1816550999879837,
      "num_tokens": 10450672.0,
      "step": 4560
    },
    {
      "entropy": 5.4152685642242435,
      "epoch": 0.43852065321805955,
      "grad_norm": 1.125,
      "learning_rate": 0.0004986742317361419,
      "loss": 5.3271,
      "mean_token_accuracy": 0.19575155526399612,
      "num_tokens": 10461890.0,
      "step": 4565
    },
    {
      "entropy": 5.498744964599609,
      "epoch": 0.4390009606147935,
      "grad_norm": 1.125,
      "learning_rate": 0.0004986705129085546,
      "loss": 5.4613,
      "mean_token_accuracy": 0.17549378722906112,
      "num_tokens": 10473866.0,
      "step": 4570
    },
    {
      "entropy": 5.460689496994019,
      "epoch": 0.43948126801152737,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004986667888880021,
      "loss": 5.381,
      "mean_token_accuracy": 0.18632390201091767,
      "num_tokens": 10484889.0,
      "step": 4575
    },
    {
      "entropy": 5.412662744522095,
      "epoch": 0.4399615754082613,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004986630596745709,
      "loss": 5.4207,
      "mean_token_accuracy": 0.1880632683634758,
      "num_tokens": 10496108.0,
      "step": 4580
    },
    {
      "entropy": 5.389367771148682,
      "epoch": 0.4404418828049952,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004986593252683477,
      "loss": 5.363,
      "mean_token_accuracy": 0.18732869774103164,
      "num_tokens": 10505472.0,
      "step": 4585
    },
    {
      "entropy": 5.307269144058227,
      "epoch": 0.4409221902017291,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004986555856694191,
      "loss": 5.2773,
      "mean_token_accuracy": 0.19333918690681456,
      "num_tokens": 10516954.0,
      "step": 4590
    },
    {
      "entropy": 5.524228239059449,
      "epoch": 0.441402497598463,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004986518408778718,
      "loss": 5.3859,
      "mean_token_accuracy": 0.18945636600255966,
      "num_tokens": 10528166.0,
      "step": 4595
    },
    {
      "entropy": 5.38381519317627,
      "epoch": 0.44188280499519694,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004986480908937929,
      "loss": 5.3113,
      "mean_token_accuracy": 0.18772315680980683,
      "num_tokens": 10538112.0,
      "step": 4600
    },
    {
      "entropy": 5.444307518005371,
      "epoch": 0.4423631123919308,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004986443357172695,
      "loss": 5.4568,
      "mean_token_accuracy": 0.18497458845376968,
      "num_tokens": 10549888.0,
      "step": 4605
    },
    {
      "entropy": 5.58274884223938,
      "epoch": 0.44284341978866476,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004986405753483887,
      "loss": 5.5294,
      "mean_token_accuracy": 0.17502811402082444,
      "num_tokens": 10561710.0,
      "step": 4610
    },
    {
      "entropy": 5.410598850250244,
      "epoch": 0.44332372718539864,
      "grad_norm": 1.0,
      "learning_rate": 0.0004986368097872377,
      "loss": 5.379,
      "mean_token_accuracy": 0.18401092439889907,
      "num_tokens": 10574564.0,
      "step": 4615
    },
    {
      "entropy": 5.41968560218811,
      "epoch": 0.4438040345821326,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004986330390339042,
      "loss": 5.3586,
      "mean_token_accuracy": 0.18878330439329147,
      "num_tokens": 10586639.0,
      "step": 4620
    },
    {
      "entropy": 5.373893547058105,
      "epoch": 0.44428434197886646,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004986292630884755,
      "loss": 5.3645,
      "mean_token_accuracy": 0.18980913162231444,
      "num_tokens": 10598730.0,
      "step": 4625
    },
    {
      "entropy": 5.395772886276245,
      "epoch": 0.4447646493756004,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004986254819510393,
      "loss": 5.2863,
      "mean_token_accuracy": 0.2030077889561653,
      "num_tokens": 10610352.0,
      "step": 4630
    },
    {
      "entropy": 5.410120058059692,
      "epoch": 0.4452449567723343,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004986216956216835,
      "loss": 5.3544,
      "mean_token_accuracy": 0.18991922438144684,
      "num_tokens": 10621951.0,
      "step": 4635
    },
    {
      "entropy": 5.380520057678223,
      "epoch": 0.4457252641690682,
      "grad_norm": 1.125,
      "learning_rate": 0.000498617904100496,
      "loss": 5.3114,
      "mean_token_accuracy": 0.1913859009742737,
      "num_tokens": 10633207.0,
      "step": 4640
    },
    {
      "entropy": 5.473378133773804,
      "epoch": 0.4462055715658021,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004986141073875646,
      "loss": 5.4035,
      "mean_token_accuracy": 0.18385644257068634,
      "num_tokens": 10645853.0,
      "step": 4645
    },
    {
      "entropy": 5.330105209350586,
      "epoch": 0.44668587896253603,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004986103054829779,
      "loss": 5.3305,
      "mean_token_accuracy": 0.18985379487276077,
      "num_tokens": 10656892.0,
      "step": 4650
    },
    {
      "entropy": 5.424197340011597,
      "epoch": 0.4471661863592699,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004986064983868237,
      "loss": 5.3095,
      "mean_token_accuracy": 0.18436852544546128,
      "num_tokens": 10670110.0,
      "step": 4655
    },
    {
      "entropy": 5.429648303985596,
      "epoch": 0.44764649375600385,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004986026860991906,
      "loss": 5.4385,
      "mean_token_accuracy": 0.185771344602108,
      "num_tokens": 10681255.0,
      "step": 4660
    },
    {
      "entropy": 5.471052789688111,
      "epoch": 0.44812680115273773,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004985988686201672,
      "loss": 5.5041,
      "mean_token_accuracy": 0.1844386264681816,
      "num_tokens": 10692631.0,
      "step": 4665
    },
    {
      "entropy": 5.442734622955323,
      "epoch": 0.44860710854947167,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004985950459498419,
      "loss": 5.3372,
      "mean_token_accuracy": 0.19462240785360335,
      "num_tokens": 10704880.0,
      "step": 4670
    },
    {
      "entropy": 5.390188550949096,
      "epoch": 0.44908741594620555,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004985912180883037,
      "loss": 5.3095,
      "mean_token_accuracy": 0.19716786891222,
      "num_tokens": 10715561.0,
      "step": 4675
    },
    {
      "entropy": 5.376702499389649,
      "epoch": 0.4495677233429395,
      "grad_norm": 1.125,
      "learning_rate": 0.0004985873850356411,
      "loss": 5.3369,
      "mean_token_accuracy": 0.19014816135168075,
      "num_tokens": 10727232.0,
      "step": 4680
    },
    {
      "entropy": 5.387975978851318,
      "epoch": 0.45004803073967337,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004985835467919436,
      "loss": 5.3461,
      "mean_token_accuracy": 0.19422013461589813,
      "num_tokens": 10739404.0,
      "step": 4685
    },
    {
      "entropy": 5.369897413253784,
      "epoch": 0.4505283381364073,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004985797033572999,
      "loss": 5.3767,
      "mean_token_accuracy": 0.18446222841739654,
      "num_tokens": 10751948.0,
      "step": 4690
    },
    {
      "entropy": 5.362226104736328,
      "epoch": 0.4510086455331412,
      "grad_norm": 1.0,
      "learning_rate": 0.0004985758547317994,
      "loss": 5.3363,
      "mean_token_accuracy": 0.18433189690113067,
      "num_tokens": 10764611.0,
      "step": 4695
    },
    {
      "entropy": 5.447867727279663,
      "epoch": 0.4514889529298751,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004985720009155315,
      "loss": 5.3727,
      "mean_token_accuracy": 0.1841047078371048,
      "num_tokens": 10775954.0,
      "step": 4700
    },
    {
      "entropy": 5.409327983856201,
      "epoch": 0.45196926032660906,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004985681419085856,
      "loss": 5.3909,
      "mean_token_accuracy": 0.18282371312379836,
      "num_tokens": 10788723.0,
      "step": 4705
    },
    {
      "entropy": 5.421317195892334,
      "epoch": 0.45244956772334294,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004985642777110513,
      "loss": 5.3841,
      "mean_token_accuracy": 0.1885462448000908,
      "num_tokens": 10799879.0,
      "step": 4710
    },
    {
      "entropy": 5.3301918506622314,
      "epoch": 0.4529298751200769,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004985604083230183,
      "loss": 5.3231,
      "mean_token_accuracy": 0.18998679518699646,
      "num_tokens": 10811838.0,
      "step": 4715
    },
    {
      "entropy": 5.428510332107544,
      "epoch": 0.45341018251681076,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004985565337445765,
      "loss": 5.3434,
      "mean_token_accuracy": 0.19171882420778275,
      "num_tokens": 10822910.0,
      "step": 4720
    },
    {
      "entropy": 5.471314573287964,
      "epoch": 0.4538904899135447,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004985526539758158,
      "loss": 5.3992,
      "mean_token_accuracy": 0.18527638167142868,
      "num_tokens": 10835344.0,
      "step": 4725
    },
    {
      "entropy": 5.375976181030273,
      "epoch": 0.4543707973102786,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004985487690168263,
      "loss": 5.4034,
      "mean_token_accuracy": 0.19202104806900025,
      "num_tokens": 10846043.0,
      "step": 4730
    },
    {
      "entropy": 5.380132484436035,
      "epoch": 0.4548511047070125,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000498544878867698,
      "loss": 5.298,
      "mean_token_accuracy": 0.19829845130443574,
      "num_tokens": 10857783.0,
      "step": 4735
    },
    {
      "entropy": 5.434480476379394,
      "epoch": 0.4553314121037464,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004985409835285215,
      "loss": 5.373,
      "mean_token_accuracy": 0.19089124351739883,
      "num_tokens": 10870527.0,
      "step": 4740
    },
    {
      "entropy": 5.414768075942993,
      "epoch": 0.45581171950048033,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004985370829993873,
      "loss": 5.3646,
      "mean_token_accuracy": 0.19075230062007903,
      "num_tokens": 10882285.0,
      "step": 4745
    },
    {
      "entropy": 5.423041200637817,
      "epoch": 0.4562920268972142,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004985331772803857,
      "loss": 5.3874,
      "mean_token_accuracy": 0.19265468865633012,
      "num_tokens": 10895319.0,
      "step": 4750
    },
    {
      "entropy": 5.484057378768921,
      "epoch": 0.45677233429394815,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004985292663716074,
      "loss": 5.382,
      "mean_token_accuracy": 0.19183963984251023,
      "num_tokens": 10906253.0,
      "step": 4755
    },
    {
      "entropy": 5.229197072982788,
      "epoch": 0.457252641690682,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004985253502731435,
      "loss": 5.2575,
      "mean_token_accuracy": 0.19930023998022078,
      "num_tokens": 10918197.0,
      "step": 4760
    },
    {
      "entropy": 5.455323648452759,
      "epoch": 0.45773294908741596,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004985214289850845,
      "loss": 5.4579,
      "mean_token_accuracy": 0.17997599244117737,
      "num_tokens": 10930771.0,
      "step": 4765
    },
    {
      "entropy": 5.443937206268311,
      "epoch": 0.45821325648414984,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004985175025075217,
      "loss": 5.3491,
      "mean_token_accuracy": 0.18804308474063874,
      "num_tokens": 10942759.0,
      "step": 4770
    },
    {
      "entropy": 5.591840028762817,
      "epoch": 0.4586935638808838,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004985135708405462,
      "loss": 5.5609,
      "mean_token_accuracy": 0.17564835995435715,
      "num_tokens": 10953557.0,
      "step": 4775
    },
    {
      "entropy": 5.411443281173706,
      "epoch": 0.45917387127761766,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004985096339842493,
      "loss": 5.3321,
      "mean_token_accuracy": 0.19676847159862518,
      "num_tokens": 10963142.0,
      "step": 4780
    },
    {
      "entropy": 5.309838056564331,
      "epoch": 0.4596541786743516,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004985056919387224,
      "loss": 5.2856,
      "mean_token_accuracy": 0.19894758760929107,
      "num_tokens": 10974321.0,
      "step": 4785
    },
    {
      "entropy": 5.502527189254761,
      "epoch": 0.4601344860710855,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004985017447040569,
      "loss": 5.4874,
      "mean_token_accuracy": 0.18695860356092453,
      "num_tokens": 10985524.0,
      "step": 4790
    },
    {
      "entropy": 5.457700490951538,
      "epoch": 0.4606147934678194,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004984977922803447,
      "loss": 5.3727,
      "mean_token_accuracy": 0.1937094435095787,
      "num_tokens": 10997606.0,
      "step": 4795
    },
    {
      "entropy": 5.4323536396026615,
      "epoch": 0.4610951008645533,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004984938346676772,
      "loss": 5.3833,
      "mean_token_accuracy": 0.18257274031639098,
      "num_tokens": 11010692.0,
      "step": 4800
    },
    {
      "entropy": 5.40803747177124,
      "epoch": 0.46157540826128723,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004984898718661468,
      "loss": 5.3099,
      "mean_token_accuracy": 0.19199058413505554,
      "num_tokens": 11022517.0,
      "step": 4805
    },
    {
      "entropy": 5.350576591491699,
      "epoch": 0.4620557156580211,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004984859038758451,
      "loss": 5.3253,
      "mean_token_accuracy": 0.19188573807477952,
      "num_tokens": 11033141.0,
      "step": 4810
    },
    {
      "entropy": 5.32304048538208,
      "epoch": 0.46253602305475505,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004984819306968642,
      "loss": 5.3173,
      "mean_token_accuracy": 0.19185021072626113,
      "num_tokens": 11044619.0,
      "step": 4815
    },
    {
      "entropy": 5.495067167282104,
      "epoch": 0.46301633045148893,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004984779523292966,
      "loss": 5.3646,
      "mean_token_accuracy": 0.18967657685279846,
      "num_tokens": 11055934.0,
      "step": 4820
    },
    {
      "entropy": 5.383758926391602,
      "epoch": 0.46349663784822287,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004984739687732345,
      "loss": 5.2493,
      "mean_token_accuracy": 0.19513811767101288,
      "num_tokens": 11066203.0,
      "step": 4825
    },
    {
      "entropy": 5.187354946136475,
      "epoch": 0.46397694524495675,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004984699800287705,
      "loss": 5.1973,
      "mean_token_accuracy": 0.19977913796901703,
      "num_tokens": 11079664.0,
      "step": 4830
    },
    {
      "entropy": 5.341605234146118,
      "epoch": 0.4644572526416907,
      "grad_norm": 1.0,
      "learning_rate": 0.000498465986095997,
      "loss": 5.2652,
      "mean_token_accuracy": 0.19821466654539108,
      "num_tokens": 11091186.0,
      "step": 4835
    },
    {
      "entropy": 5.42094578742981,
      "epoch": 0.46493756003842457,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004984619869750069,
      "loss": 5.383,
      "mean_token_accuracy": 0.18526540249586104,
      "num_tokens": 11102710.0,
      "step": 4840
    },
    {
      "entropy": 5.292195415496826,
      "epoch": 0.4654178674351585,
      "grad_norm": 1.0625,
      "learning_rate": 0.000498457982665893,
      "loss": 5.2795,
      "mean_token_accuracy": 0.19302588403224946,
      "num_tokens": 11114746.0,
      "step": 4845
    },
    {
      "entropy": 5.397561931610108,
      "epoch": 0.4658981748318924,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004984539731687483,
      "loss": 5.3462,
      "mean_token_accuracy": 0.18983854949474335,
      "num_tokens": 11126572.0,
      "step": 4850
    },
    {
      "entropy": 5.380267095565796,
      "epoch": 0.4663784822286263,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004984499584836659,
      "loss": 5.2431,
      "mean_token_accuracy": 0.19321491122245787,
      "num_tokens": 11137830.0,
      "step": 4855
    },
    {
      "entropy": 5.32379674911499,
      "epoch": 0.4668587896253602,
      "grad_norm": 1.09375,
      "learning_rate": 0.000498445938610739,
      "loss": 5.281,
      "mean_token_accuracy": 0.19294328689575196,
      "num_tokens": 11148860.0,
      "step": 4860
    },
    {
      "entropy": 5.419743824005127,
      "epoch": 0.46733909702209414,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004984419135500608,
      "loss": 5.4081,
      "mean_token_accuracy": 0.17859717160463334,
      "num_tokens": 11161311.0,
      "step": 4865
    },
    {
      "entropy": 5.430191612243652,
      "epoch": 0.4678194044188281,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004984378833017249,
      "loss": 5.2942,
      "mean_token_accuracy": 0.19046030193567276,
      "num_tokens": 11173124.0,
      "step": 4870
    },
    {
      "entropy": 5.344765472412109,
      "epoch": 0.46829971181556196,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004984338478658248,
      "loss": 5.3783,
      "mean_token_accuracy": 0.19164984971284865,
      "num_tokens": 11184879.0,
      "step": 4875
    },
    {
      "entropy": 5.45609302520752,
      "epoch": 0.4687800192122959,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004984298072424542,
      "loss": 5.378,
      "mean_token_accuracy": 0.1874854624271393,
      "num_tokens": 11196243.0,
      "step": 4880
    },
    {
      "entropy": 5.339529609680175,
      "epoch": 0.4692603266090298,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000498425761431707,
      "loss": 5.2513,
      "mean_token_accuracy": 0.20040780752897264,
      "num_tokens": 11207485.0,
      "step": 4885
    },
    {
      "entropy": 5.312271356582642,
      "epoch": 0.4697406340057637,
      "grad_norm": 1.046875,
      "learning_rate": 0.000498421710433677,
      "loss": 5.279,
      "mean_token_accuracy": 0.19036460667848587,
      "num_tokens": 11219891.0,
      "step": 4890
    },
    {
      "entropy": 5.4914182186126705,
      "epoch": 0.4702209414024976,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004984176542484584,
      "loss": 5.388,
      "mean_token_accuracy": 0.18597144782543182,
      "num_tokens": 11231329.0,
      "step": 4895
    },
    {
      "entropy": 5.378525733947754,
      "epoch": 0.47070124879923153,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004984135928761452,
      "loss": 5.266,
      "mean_token_accuracy": 0.1995886370539665,
      "num_tokens": 11241367.0,
      "step": 4900
    },
    {
      "entropy": 5.358568334579468,
      "epoch": 0.4711815561959654,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004984095263168317,
      "loss": 5.3589,
      "mean_token_accuracy": 0.18466073721647264,
      "num_tokens": 11254532.0,
      "step": 4905
    },
    {
      "entropy": 5.4979103088378904,
      "epoch": 0.47166186359269935,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004984054545706124,
      "loss": 5.4398,
      "mean_token_accuracy": 0.18243181705474854,
      "num_tokens": 11265223.0,
      "step": 4910
    },
    {
      "entropy": 5.3696846008300785,
      "epoch": 0.47214217098943323,
      "grad_norm": 1.0390625,
      "learning_rate": 0.000498401377637582,
      "loss": 5.3635,
      "mean_token_accuracy": 0.18885526210069656,
      "num_tokens": 11278228.0,
      "step": 4915
    },
    {
      "entropy": 5.484466791152954,
      "epoch": 0.47262247838616717,
      "grad_norm": 1.03125,
      "learning_rate": 0.000498397295517835,
      "loss": 5.4846,
      "mean_token_accuracy": 0.1801117405295372,
      "num_tokens": 11289654.0,
      "step": 4920
    },
    {
      "entropy": 5.394139242172241,
      "epoch": 0.47310278578290105,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004983932082114659,
      "loss": 5.2357,
      "mean_token_accuracy": 0.19755308330059052,
      "num_tokens": 11301911.0,
      "step": 4925
    },
    {
      "entropy": 5.4873377799987795,
      "epoch": 0.473583093179635,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004983891157185699,
      "loss": 5.4364,
      "mean_token_accuracy": 0.18308536261320113,
      "num_tokens": 11312945.0,
      "step": 4930
    },
    {
      "entropy": 5.549541664123535,
      "epoch": 0.47406340057636887,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004983850180392421,
      "loss": 5.4774,
      "mean_token_accuracy": 0.18022425770759581,
      "num_tokens": 11324126.0,
      "step": 4935
    },
    {
      "entropy": 5.402717351913452,
      "epoch": 0.4745437079731028,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004983809151735775,
      "loss": 5.4133,
      "mean_token_accuracy": 0.18017226606607437,
      "num_tokens": 11336395.0,
      "step": 4940
    },
    {
      "entropy": 5.403596019744873,
      "epoch": 0.4750240153698367,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004983768071216713,
      "loss": 5.3135,
      "mean_token_accuracy": 0.1902969852089882,
      "num_tokens": 11347387.0,
      "step": 4945
    },
    {
      "entropy": 5.353836917877198,
      "epoch": 0.4755043227665706,
      "grad_norm": 1.25,
      "learning_rate": 0.0004983726938836189,
      "loss": 5.308,
      "mean_token_accuracy": 0.19681546241044998,
      "num_tokens": 11358467.0,
      "step": 4950
    },
    {
      "entropy": 5.486645841598511,
      "epoch": 0.4759846301633045,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004983685754595159,
      "loss": 5.4724,
      "mean_token_accuracy": 0.18010423183441163,
      "num_tokens": 11370322.0,
      "step": 4955
    },
    {
      "entropy": 5.333859491348266,
      "epoch": 0.47646493756003844,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004983644518494578,
      "loss": 5.2697,
      "mean_token_accuracy": 0.20096147507429124,
      "num_tokens": 11381719.0,
      "step": 4960
    },
    {
      "entropy": 5.328320550918579,
      "epoch": 0.4769452449567723,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004983603230535403,
      "loss": 5.2895,
      "mean_token_accuracy": 0.1948627695441246,
      "num_tokens": 11393561.0,
      "step": 4965
    },
    {
      "entropy": 5.460376167297364,
      "epoch": 0.47742555235350626,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004983561890718594,
      "loss": 5.3849,
      "mean_token_accuracy": 0.18933912962675095,
      "num_tokens": 11405411.0,
      "step": 4970
    },
    {
      "entropy": 5.5110303401947025,
      "epoch": 0.47790585975024014,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000498352049904511,
      "loss": 5.4771,
      "mean_token_accuracy": 0.17981591820716858,
      "num_tokens": 11417419.0,
      "step": 4975
    },
    {
      "entropy": 5.429950714111328,
      "epoch": 0.4783861671469741,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004983479055515914,
      "loss": 5.2844,
      "mean_token_accuracy": 0.18997065275907515,
      "num_tokens": 11428145.0,
      "step": 4980
    },
    {
      "entropy": 5.290281534194946,
      "epoch": 0.47886647454370795,
      "grad_norm": 1.0,
      "learning_rate": 0.0004983437560131964,
      "loss": 5.2422,
      "mean_token_accuracy": 0.1993091583251953,
      "num_tokens": 11439224.0,
      "step": 4985
    },
    {
      "entropy": 5.409195756912231,
      "epoch": 0.4793467819404419,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004983396012894228,
      "loss": 5.3477,
      "mean_token_accuracy": 0.18979695290327073,
      "num_tokens": 11451731.0,
      "step": 4990
    },
    {
      "entropy": 5.435146522521973,
      "epoch": 0.47982708933717577,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004983354413803666,
      "loss": 5.3375,
      "mean_token_accuracy": 0.1958609476685524,
      "num_tokens": 11463058.0,
      "step": 4995
    },
    {
      "entropy": 5.473912382125855,
      "epoch": 0.4803073967339097,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004983312762861248,
      "loss": 5.4305,
      "mean_token_accuracy": 0.18449530750513077,
      "num_tokens": 11472618.0,
      "step": 5000
    },
    {
      "entropy": 5.364778709411621,
      "epoch": 0.4807877041306436,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004983271060067939,
      "loss": 5.3246,
      "mean_token_accuracy": 0.18677808940410615,
      "num_tokens": 11483114.0,
      "step": 5005
    },
    {
      "entropy": 5.3417730808258055,
      "epoch": 0.4812680115273775,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004983229305424707,
      "loss": 5.2799,
      "mean_token_accuracy": 0.19405496269464492,
      "num_tokens": 11494281.0,
      "step": 5010
    },
    {
      "entropy": 5.351672601699829,
      "epoch": 0.4817483189241114,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004983187498932522,
      "loss": 5.3503,
      "mean_token_accuracy": 0.18800514042377472,
      "num_tokens": 11505962.0,
      "step": 5015
    },
    {
      "entropy": 5.4874766826629635,
      "epoch": 0.48222862632084534,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004983145640592354,
      "loss": 5.4492,
      "mean_token_accuracy": 0.18352760821580888,
      "num_tokens": 11517558.0,
      "step": 5020
    },
    {
      "entropy": 5.448751974105835,
      "epoch": 0.4827089337175792,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004983103730405176,
      "loss": 5.4179,
      "mean_token_accuracy": 0.18682138621807098,
      "num_tokens": 11529184.0,
      "step": 5025
    },
    {
      "entropy": 5.338459253311157,
      "epoch": 0.48318924111431316,
      "grad_norm": 1.09375,
      "learning_rate": 0.000498306176837196,
      "loss": 5.3335,
      "mean_token_accuracy": 0.18406548202037812,
      "num_tokens": 11540727.0,
      "step": 5030
    },
    {
      "entropy": 5.360374689102173,
      "epoch": 0.48366954851104704,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004983019754493681,
      "loss": 5.261,
      "mean_token_accuracy": 0.1907915487885475,
      "num_tokens": 11551510.0,
      "step": 5035
    },
    {
      "entropy": 5.47594895362854,
      "epoch": 0.484149855907781,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004982977688771314,
      "loss": 5.4187,
      "mean_token_accuracy": 0.18854755759239197,
      "num_tokens": 11563203.0,
      "step": 5040
    },
    {
      "entropy": 5.308377647399903,
      "epoch": 0.4846301633045149,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004982935571205835,
      "loss": 5.2718,
      "mean_token_accuracy": 0.19544857442379,
      "num_tokens": 11576013.0,
      "step": 5045
    },
    {
      "entropy": 5.291185140609741,
      "epoch": 0.4851104707012488,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004982893401798223,
      "loss": 5.2498,
      "mean_token_accuracy": 0.20830876976251603,
      "num_tokens": 11587535.0,
      "step": 5050
    },
    {
      "entropy": 5.403550291061402,
      "epoch": 0.48559077809798273,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004982851180549456,
      "loss": 5.2771,
      "mean_token_accuracy": 0.19294197112321854,
      "num_tokens": 11598487.0,
      "step": 5055
    },
    {
      "entropy": 5.25755033493042,
      "epoch": 0.4860710854947166,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004982808907460515,
      "loss": 5.1559,
      "mean_token_accuracy": 0.20932556241750716,
      "num_tokens": 11609457.0,
      "step": 5060
    },
    {
      "entropy": 5.265308237075805,
      "epoch": 0.48655139289145055,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004982766582532382,
      "loss": 5.2257,
      "mean_token_accuracy": 0.19795275181531907,
      "num_tokens": 11620251.0,
      "step": 5065
    },
    {
      "entropy": 5.307956266403198,
      "epoch": 0.48703170028818443,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004982724205766038,
      "loss": 5.2262,
      "mean_token_accuracy": 0.19880327582359314,
      "num_tokens": 11630956.0,
      "step": 5070
    },
    {
      "entropy": 5.348564767837525,
      "epoch": 0.48751200768491837,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004982681777162468,
      "loss": 5.2773,
      "mean_token_accuracy": 0.1949208691716194,
      "num_tokens": 11642560.0,
      "step": 5075
    },
    {
      "entropy": 5.300316572189331,
      "epoch": 0.48799231508165225,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004982639296722657,
      "loss": 5.2365,
      "mean_token_accuracy": 0.19546635299921036,
      "num_tokens": 11654050.0,
      "step": 5080
    },
    {
      "entropy": 5.333183813095093,
      "epoch": 0.4884726224783862,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004982596764447591,
      "loss": 5.4035,
      "mean_token_accuracy": 0.19310665130615234,
      "num_tokens": 11664947.0,
      "step": 5085
    },
    {
      "entropy": 5.469000768661499,
      "epoch": 0.48895292987512007,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004982554180338258,
      "loss": 5.3106,
      "mean_token_accuracy": 0.19500951319932938,
      "num_tokens": 11676927.0,
      "step": 5090
    },
    {
      "entropy": 5.502379417419434,
      "epoch": 0.489433237271854,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004982511544395646,
      "loss": 5.4242,
      "mean_token_accuracy": 0.18115128874778746,
      "num_tokens": 11688573.0,
      "step": 5095
    },
    {
      "entropy": 5.288805294036865,
      "epoch": 0.4899135446685879,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004982468856620745,
      "loss": 5.3128,
      "mean_token_accuracy": 0.18783441036939622,
      "num_tokens": 11698704.0,
      "step": 5100
    },
    {
      "entropy": 5.3273578643798825,
      "epoch": 0.4903938520653218,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004982426117014545,
      "loss": 5.2533,
      "mean_token_accuracy": 0.19392533451318741,
      "num_tokens": 11709466.0,
      "step": 5105
    },
    {
      "entropy": 5.3791663646698,
      "epoch": 0.4908741594620557,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004982383325578041,
      "loss": 5.3413,
      "mean_token_accuracy": 0.1898537114262581,
      "num_tokens": 11721120.0,
      "step": 5110
    },
    {
      "entropy": 5.4256843566894535,
      "epoch": 0.49135446685878964,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004982340482312226,
      "loss": 5.3358,
      "mean_token_accuracy": 0.18456312417984008,
      "num_tokens": 11732120.0,
      "step": 5115
    },
    {
      "entropy": 5.288364553451538,
      "epoch": 0.4918347742555235,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004982297587218092,
      "loss": 5.2294,
      "mean_token_accuracy": 0.1978309139609337,
      "num_tokens": 11743501.0,
      "step": 5120
    },
    {
      "entropy": 5.363348197937012,
      "epoch": 0.49231508165225746,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004982254640296637,
      "loss": 5.3152,
      "mean_token_accuracy": 0.1956743210554123,
      "num_tokens": 11755051.0,
      "step": 5125
    },
    {
      "entropy": 5.436681079864502,
      "epoch": 0.49279538904899134,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004982211641548857,
      "loss": 5.4609,
      "mean_token_accuracy": 0.1842927649617195,
      "num_tokens": 11767663.0,
      "step": 5130
    },
    {
      "entropy": 5.419048309326172,
      "epoch": 0.4932756964457253,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004982168590975752,
      "loss": 5.3034,
      "mean_token_accuracy": 0.19774986803531647,
      "num_tokens": 11778828.0,
      "step": 5135
    },
    {
      "entropy": 5.459513902664185,
      "epoch": 0.49375600384245916,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004982125488578321,
      "loss": 5.4794,
      "mean_token_accuracy": 0.18496931344270706,
      "num_tokens": 11790654.0,
      "step": 5140
    },
    {
      "entropy": 5.433895540237427,
      "epoch": 0.4942363112391931,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004982082334357563,
      "loss": 5.2837,
      "mean_token_accuracy": 0.1902835488319397,
      "num_tokens": 11801489.0,
      "step": 5145
    },
    {
      "entropy": 5.311564207077026,
      "epoch": 0.494716618635927,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004982039128314481,
      "loss": 5.2873,
      "mean_token_accuracy": 0.19224448949098588,
      "num_tokens": 11813818.0,
      "step": 5150
    },
    {
      "entropy": 5.333755207061768,
      "epoch": 0.4951969260326609,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004981995870450079,
      "loss": 5.2929,
      "mean_token_accuracy": 0.191859370470047,
      "num_tokens": 11824814.0,
      "step": 5155
    },
    {
      "entropy": 5.45896692276001,
      "epoch": 0.4956772334293948,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004981952560765361,
      "loss": 5.3373,
      "mean_token_accuracy": 0.18679553270339966,
      "num_tokens": 11836252.0,
      "step": 5160
    },
    {
      "entropy": 5.314207363128662,
      "epoch": 0.49615754082612873,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004981909199261331,
      "loss": 5.2629,
      "mean_token_accuracy": 0.19086166322231293,
      "num_tokens": 11847715.0,
      "step": 5165
    },
    {
      "entropy": 5.273135042190551,
      "epoch": 0.4966378482228626,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004981865785938998,
      "loss": 5.2629,
      "mean_token_accuracy": 0.19300127327442168,
      "num_tokens": 11860309.0,
      "step": 5170
    },
    {
      "entropy": 5.348716497421265,
      "epoch": 0.49711815561959655,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004981822320799367,
      "loss": 5.2577,
      "mean_token_accuracy": 0.1956932559609413,
      "num_tokens": 11872569.0,
      "step": 5175
    },
    {
      "entropy": 5.3287012577056885,
      "epoch": 0.49759846301633043,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004981778803843449,
      "loss": 5.2523,
      "mean_token_accuracy": 0.19481286704540252,
      "num_tokens": 11884778.0,
      "step": 5180
    },
    {
      "entropy": 5.390296173095703,
      "epoch": 0.49807877041306436,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004981735235072256,
      "loss": 5.3358,
      "mean_token_accuracy": 0.1911753833293915,
      "num_tokens": 11897324.0,
      "step": 5185
    },
    {
      "entropy": 5.467144203186035,
      "epoch": 0.49855907780979825,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004981691614486796,
      "loss": 5.366,
      "mean_token_accuracy": 0.18982964605093003,
      "num_tokens": 11909145.0,
      "step": 5190
    },
    {
      "entropy": 5.322554683685302,
      "epoch": 0.4990393852065322,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004981647942088084,
      "loss": 5.2697,
      "mean_token_accuracy": 0.20009808093309403,
      "num_tokens": 11921021.0,
      "step": 5195
    },
    {
      "entropy": 5.487699699401856,
      "epoch": 0.49951969260326606,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004981604217877135,
      "loss": 5.4279,
      "mean_token_accuracy": 0.1888749822974205,
      "num_tokens": 11932565.0,
      "step": 5200
    },
    {
      "entropy": 5.318529844284058,
      "epoch": 0.5,
      "grad_norm": 1.046875,
      "learning_rate": 0.000498156044185496,
      "loss": 5.3392,
      "mean_token_accuracy": 0.19370948225259782,
      "num_tokens": 11943225.0,
      "step": 5205
    },
    {
      "entropy": 5.364103078842163,
      "epoch": 0.5004803073967339,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004981516614022579,
      "loss": 5.3219,
      "mean_token_accuracy": 0.1932568922638893,
      "num_tokens": 11954821.0,
      "step": 5210
    },
    {
      "entropy": 5.446450281143188,
      "epoch": 0.5009606147934679,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004981472734381008,
      "loss": 5.2738,
      "mean_token_accuracy": 0.1951069414615631,
      "num_tokens": 11966090.0,
      "step": 5215
    },
    {
      "entropy": 5.353061962127685,
      "epoch": 0.5014409221902018,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004981428802931267,
      "loss": 5.3074,
      "mean_token_accuracy": 0.1921882688999176,
      "num_tokens": 11977410.0,
      "step": 5220
    },
    {
      "entropy": 5.339950656890869,
      "epoch": 0.5019212295869356,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004981384819674375,
      "loss": 5.2841,
      "mean_token_accuracy": 0.19126271605491638,
      "num_tokens": 11989119.0,
      "step": 5225
    },
    {
      "entropy": 5.432912015914917,
      "epoch": 0.5024015369836695,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004981340784611354,
      "loss": 5.3942,
      "mean_token_accuracy": 0.19018032401800156,
      "num_tokens": 12000165.0,
      "step": 5230
    },
    {
      "entropy": 5.395741987228393,
      "epoch": 0.5028818443804035,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004981296697743224,
      "loss": 5.3475,
      "mean_token_accuracy": 0.18768104463815688,
      "num_tokens": 12012118.0,
      "step": 5235
    },
    {
      "entropy": 5.430673694610595,
      "epoch": 0.5033621517771374,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004981252559071012,
      "loss": 5.4181,
      "mean_token_accuracy": 0.1866712138056755,
      "num_tokens": 12023432.0,
      "step": 5240
    },
    {
      "entropy": 5.427559089660645,
      "epoch": 0.5038424591738713,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004981208368595739,
      "loss": 5.2939,
      "mean_token_accuracy": 0.1980261042714119,
      "num_tokens": 12034323.0,
      "step": 5245
    },
    {
      "entropy": 5.264776802062988,
      "epoch": 0.5043227665706052,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004981164126318435,
      "loss": 5.3022,
      "mean_token_accuracy": 0.19116167575120926,
      "num_tokens": 12045532.0,
      "step": 5250
    },
    {
      "entropy": 5.449652862548828,
      "epoch": 0.5048030739673391,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004981119832240124,
      "loss": 5.3111,
      "mean_token_accuracy": 0.19520313441753387,
      "num_tokens": 12057346.0,
      "step": 5255
    },
    {
      "entropy": 5.301677227020264,
      "epoch": 0.505283381364073,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004981075486361837,
      "loss": 5.2825,
      "mean_token_accuracy": 0.19872631430625914,
      "num_tokens": 12068670.0,
      "step": 5260
    },
    {
      "entropy": 5.390146923065186,
      "epoch": 0.5057636887608069,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004981031088684601,
      "loss": 5.4028,
      "mean_token_accuracy": 0.18470921665430068,
      "num_tokens": 12079664.0,
      "step": 5265
    },
    {
      "entropy": 5.474726438522339,
      "epoch": 0.5062439961575408,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004980986639209448,
      "loss": 5.3285,
      "mean_token_accuracy": 0.1994831383228302,
      "num_tokens": 12089984.0,
      "step": 5270
    },
    {
      "entropy": 5.29730339050293,
      "epoch": 0.5067243035542748,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000498094213793741,
      "loss": 5.2835,
      "mean_token_accuracy": 0.1948940023779869,
      "num_tokens": 12101182.0,
      "step": 5275
    },
    {
      "entropy": 5.408280658721924,
      "epoch": 0.5072046109510087,
      "grad_norm": 1.125,
      "learning_rate": 0.000498089758486952,
      "loss": 5.353,
      "mean_token_accuracy": 0.18289182782173158,
      "num_tokens": 12112002.0,
      "step": 5280
    },
    {
      "entropy": 5.495666790008545,
      "epoch": 0.5076849183477425,
      "grad_norm": 1.0,
      "learning_rate": 0.0004980852980006812,
      "loss": 5.4392,
      "mean_token_accuracy": 0.1805154114961624,
      "num_tokens": 12124194.0,
      "step": 5285
    },
    {
      "entropy": 5.392632579803466,
      "epoch": 0.5081652257444764,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004980808323350323,
      "loss": 5.359,
      "mean_token_accuracy": 0.1960368499159813,
      "num_tokens": 12133966.0,
      "step": 5290
    },
    {
      "entropy": 5.391989612579346,
      "epoch": 0.5086455331412104,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004980763614901089,
      "loss": 5.2967,
      "mean_token_accuracy": 0.19686038345098494,
      "num_tokens": 12145643.0,
      "step": 5295
    },
    {
      "entropy": 5.379247760772705,
      "epoch": 0.5091258405379443,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004980718854660146,
      "loss": 5.3464,
      "mean_token_accuracy": 0.18789971768856048,
      "num_tokens": 12156804.0,
      "step": 5300
    },
    {
      "entropy": 5.400803756713867,
      "epoch": 0.5096061479346782,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004980674042628537,
      "loss": 5.2967,
      "mean_token_accuracy": 0.19052283465862274,
      "num_tokens": 12168700.0,
      "step": 5305
    },
    {
      "entropy": 5.401619243621826,
      "epoch": 0.5100864553314121,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00049806291788073,
      "loss": 5.3123,
      "mean_token_accuracy": 0.18629832863807677,
      "num_tokens": 12181050.0,
      "step": 5310
    },
    {
      "entropy": 5.469602966308594,
      "epoch": 0.510566762728146,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004980584263197477,
      "loss": 5.3949,
      "mean_token_accuracy": 0.1858072027564049,
      "num_tokens": 12192001.0,
      "step": 5315
    },
    {
      "entropy": 5.508568143844604,
      "epoch": 0.5110470701248799,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004980539295800111,
      "loss": 5.509,
      "mean_token_accuracy": 0.18043418526649474,
      "num_tokens": 12202436.0,
      "step": 5320
    },
    {
      "entropy": 5.362590551376343,
      "epoch": 0.5115273775216138,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004980494276616246,
      "loss": 5.3016,
      "mean_token_accuracy": 0.18966611623764038,
      "num_tokens": 12214454.0,
      "step": 5325
    },
    {
      "entropy": 5.349428033828735,
      "epoch": 0.5120076849183477,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004980449205646926,
      "loss": 5.3122,
      "mean_token_accuracy": 0.19553214311599731,
      "num_tokens": 12225924.0,
      "step": 5330
    },
    {
      "entropy": 5.415020084381103,
      "epoch": 0.5124879923150817,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00049804040828932,
      "loss": 5.3326,
      "mean_token_accuracy": 0.19512139409780502,
      "num_tokens": 12236456.0,
      "step": 5335
    },
    {
      "entropy": 5.421989011764526,
      "epoch": 0.5129682997118156,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004980358908356113,
      "loss": 5.3535,
      "mean_token_accuracy": 0.18762658089399337,
      "num_tokens": 12247719.0,
      "step": 5340
    },
    {
      "entropy": 5.350346803665161,
      "epoch": 0.5134486071085494,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004980313682036717,
      "loss": 5.381,
      "mean_token_accuracy": 0.1927213490009308,
      "num_tokens": 12259141.0,
      "step": 5345
    },
    {
      "entropy": 5.49134635925293,
      "epoch": 0.5139289145052833,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004980268403936058,
      "loss": 5.4456,
      "mean_token_accuracy": 0.18453603684902192,
      "num_tokens": 12269748.0,
      "step": 5350
    },
    {
      "entropy": 5.434391784667969,
      "epoch": 0.5144092219020173,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004980223074055189,
      "loss": 5.379,
      "mean_token_accuracy": 0.1960138276219368,
      "num_tokens": 12281456.0,
      "step": 5355
    },
    {
      "entropy": 5.409012746810913,
      "epoch": 0.5148895292987512,
      "grad_norm": 1.125,
      "learning_rate": 0.0004980177692395164,
      "loss": 5.3518,
      "mean_token_accuracy": 0.18338604271411896,
      "num_tokens": 12293763.0,
      "step": 5360
    },
    {
      "entropy": 5.351993417739868,
      "epoch": 0.5153698366954851,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004980132258957035,
      "loss": 5.2808,
      "mean_token_accuracy": 0.1969463735818863,
      "num_tokens": 12305398.0,
      "step": 5365
    },
    {
      "entropy": 5.274507617950439,
      "epoch": 0.515850144092219,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004980086773741856,
      "loss": 5.2796,
      "mean_token_accuracy": 0.19121709913015367,
      "num_tokens": 12316582.0,
      "step": 5370
    },
    {
      "entropy": 5.483122396469116,
      "epoch": 0.516330451488953,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004980041236750685,
      "loss": 5.3846,
      "mean_token_accuracy": 0.18809578120708464,
      "num_tokens": 12328463.0,
      "step": 5375
    },
    {
      "entropy": 5.445298194885254,
      "epoch": 0.5168107588856868,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004979995647984577,
      "loss": 5.3698,
      "mean_token_accuracy": 0.19524169117212295,
      "num_tokens": 12341040.0,
      "step": 5380
    },
    {
      "entropy": 5.2983297348022464,
      "epoch": 0.5172910662824207,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004979950007444593,
      "loss": 5.261,
      "mean_token_accuracy": 0.1934810236096382,
      "num_tokens": 12353024.0,
      "step": 5385
    },
    {
      "entropy": 5.358570623397827,
      "epoch": 0.5177713736791547,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004979904315131792,
      "loss": 5.2844,
      "mean_token_accuracy": 0.19403222799301148,
      "num_tokens": 12366100.0,
      "step": 5390
    },
    {
      "entropy": 5.293501186370849,
      "epoch": 0.5182516810758886,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004979858571047233,
      "loss": 5.2707,
      "mean_token_accuracy": 0.19768950045108796,
      "num_tokens": 12377829.0,
      "step": 5395
    },
    {
      "entropy": 5.466844320297241,
      "epoch": 0.5187319884726225,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004979812775191979,
      "loss": 5.4031,
      "mean_token_accuracy": 0.18979473859071733,
      "num_tokens": 12390830.0,
      "step": 5400
    },
    {
      "entropy": 5.328051805496216,
      "epoch": 0.5192122958693564,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004979766927567094,
      "loss": 5.2545,
      "mean_token_accuracy": 0.19470396041870117,
      "num_tokens": 12401642.0,
      "step": 5405
    },
    {
      "entropy": 5.3456236839294435,
      "epoch": 0.5196926032660903,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004979721028173643,
      "loss": 5.3476,
      "mean_token_accuracy": 0.1877232700586319,
      "num_tokens": 12411653.0,
      "step": 5410
    },
    {
      "entropy": 5.386164760589599,
      "epoch": 0.5201729106628242,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000497967507701269,
      "loss": 5.2486,
      "mean_token_accuracy": 0.20038487911224365,
      "num_tokens": 12422891.0,
      "step": 5415
    },
    {
      "entropy": 5.397801113128662,
      "epoch": 0.5206532180595581,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004979629074085303,
      "loss": 5.3408,
      "mean_token_accuracy": 0.19329493790864943,
      "num_tokens": 12434190.0,
      "step": 5420
    },
    {
      "entropy": 5.424389457702636,
      "epoch": 0.521133525456292,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004979583019392548,
      "loss": 5.3974,
      "mean_token_accuracy": 0.18989453911781312,
      "num_tokens": 12445796.0,
      "step": 5425
    },
    {
      "entropy": 5.483598613739014,
      "epoch": 0.521613832853026,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004979536912935497,
      "loss": 5.4639,
      "mean_token_accuracy": 0.18501935750246049,
      "num_tokens": 12456212.0,
      "step": 5430
    },
    {
      "entropy": 5.330318355560303,
      "epoch": 0.5220941402497599,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000497949075471522,
      "loss": 5.1899,
      "mean_token_accuracy": 0.19820088148117065,
      "num_tokens": 12467871.0,
      "step": 5435
    },
    {
      "entropy": 5.372925519943237,
      "epoch": 0.5225744476464937,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004979444544732786,
      "loss": 5.2819,
      "mean_token_accuracy": 0.1852207139134407,
      "num_tokens": 12478626.0,
      "step": 5440
    },
    {
      "entropy": 5.313206958770752,
      "epoch": 0.5230547550432276,
      "grad_norm": 1.015625,
      "learning_rate": 0.000497939828298927,
      "loss": 5.3741,
      "mean_token_accuracy": 0.19033849388360977,
      "num_tokens": 12491487.0,
      "step": 5445
    },
    {
      "entropy": 5.462804317474365,
      "epoch": 0.5235350624399616,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004979351969485747,
      "loss": 5.3383,
      "mean_token_accuracy": 0.18805173933506011,
      "num_tokens": 12503240.0,
      "step": 5450
    },
    {
      "entropy": 5.4243183612823485,
      "epoch": 0.5240153698366955,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004979305604223291,
      "loss": 5.2774,
      "mean_token_accuracy": 0.1903422147035599,
      "num_tokens": 12513860.0,
      "step": 5455
    },
    {
      "entropy": 5.313809871673584,
      "epoch": 0.5244956772334294,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004979259187202978,
      "loss": 5.352,
      "mean_token_accuracy": 0.1945337176322937,
      "num_tokens": 12525884.0,
      "step": 5460
    },
    {
      "entropy": 5.442373895645142,
      "epoch": 0.5249759846301633,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004979212718425887,
      "loss": 5.2672,
      "mean_token_accuracy": 0.1932208612561226,
      "num_tokens": 12536709.0,
      "step": 5465
    },
    {
      "entropy": 5.334468412399292,
      "epoch": 0.5254562920268973,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004979166197893096,
      "loss": 5.2663,
      "mean_token_accuracy": 0.19677013605833055,
      "num_tokens": 12549727.0,
      "step": 5470
    },
    {
      "entropy": 5.339883422851562,
      "epoch": 0.5259365994236311,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004979119625605683,
      "loss": 5.3345,
      "mean_token_accuracy": 0.18942939788103103,
      "num_tokens": 12562053.0,
      "step": 5475
    },
    {
      "entropy": 5.287409067153931,
      "epoch": 0.526416906820365,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004979073001564734,
      "loss": 5.2257,
      "mean_token_accuracy": 0.20170782059431075,
      "num_tokens": 12574096.0,
      "step": 5480
    },
    {
      "entropy": 5.40628571510315,
      "epoch": 0.5268972142170989,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004979026325771328,
      "loss": 5.4013,
      "mean_token_accuracy": 0.18865474164485932,
      "num_tokens": 12585416.0,
      "step": 5485
    },
    {
      "entropy": 5.369120025634766,
      "epoch": 0.5273775216138329,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004978979598226549,
      "loss": 5.2525,
      "mean_token_accuracy": 0.1964880034327507,
      "num_tokens": 12596861.0,
      "step": 5490
    },
    {
      "entropy": 5.307511520385742,
      "epoch": 0.5278578290105668,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004978932818931483,
      "loss": 5.2672,
      "mean_token_accuracy": 0.19722044318914414,
      "num_tokens": 12607761.0,
      "step": 5495
    },
    {
      "entropy": 5.4275431632995605,
      "epoch": 0.5283381364073007,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004978885987887216,
      "loss": 5.3898,
      "mean_token_accuracy": 0.19588741660118103,
      "num_tokens": 12619889.0,
      "step": 5500
    },
    {
      "entropy": 5.4371997833251955,
      "epoch": 0.5288184438040345,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004978839105094833,
      "loss": 5.3606,
      "mean_token_accuracy": 0.19224700778722764,
      "num_tokens": 12630604.0,
      "step": 5505
    },
    {
      "entropy": 5.222589921951294,
      "epoch": 0.5292987512007685,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004978792170555426,
      "loss": 5.2618,
      "mean_token_accuracy": 0.19633477181196213,
      "num_tokens": 12641172.0,
      "step": 5510
    },
    {
      "entropy": 5.292724561691284,
      "epoch": 0.5297790585975024,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004978745184270083,
      "loss": 5.1601,
      "mean_token_accuracy": 0.20660953521728515,
      "num_tokens": 12651731.0,
      "step": 5515
    },
    {
      "entropy": 5.392834901809692,
      "epoch": 0.5302593659942363,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004978698146239893,
      "loss": 5.2978,
      "mean_token_accuracy": 0.1936490774154663,
      "num_tokens": 12663050.0,
      "step": 5520
    },
    {
      "entropy": 5.409347009658814,
      "epoch": 0.5307396733909702,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004978651056465952,
      "loss": 5.3862,
      "mean_token_accuracy": 0.18999682515859603,
      "num_tokens": 12674732.0,
      "step": 5525
    },
    {
      "entropy": 5.332290983200073,
      "epoch": 0.5312199807877042,
      "grad_norm": 1.140625,
      "learning_rate": 0.000497860391494935,
      "loss": 5.2171,
      "mean_token_accuracy": 0.19382983297109604,
      "num_tokens": 12685981.0,
      "step": 5530
    },
    {
      "entropy": 5.412051010131836,
      "epoch": 0.531700288184438,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004978556721691183,
      "loss": 5.3525,
      "mean_token_accuracy": 0.19065555483102797,
      "num_tokens": 12697139.0,
      "step": 5535
    },
    {
      "entropy": 5.317591810226441,
      "epoch": 0.5321805955811719,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004978509476692547,
      "loss": 5.2966,
      "mean_token_accuracy": 0.18611351698637008,
      "num_tokens": 12708268.0,
      "step": 5540
    },
    {
      "entropy": 5.375318956375122,
      "epoch": 0.5326609029779059,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004978462179954538,
      "loss": 5.2958,
      "mean_token_accuracy": 0.18993753045797349,
      "num_tokens": 12720715.0,
      "step": 5545
    },
    {
      "entropy": 5.3367125511169435,
      "epoch": 0.5331412103746398,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004978414831478253,
      "loss": 5.269,
      "mean_token_accuracy": 0.19713337272405623,
      "num_tokens": 12732409.0,
      "step": 5550
    },
    {
      "entropy": 5.323969554901123,
      "epoch": 0.5336215177713737,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004978367431264794,
      "loss": 5.397,
      "mean_token_accuracy": 0.18209069669246675,
      "num_tokens": 12745174.0,
      "step": 5555
    },
    {
      "entropy": 5.410878992080688,
      "epoch": 0.5341018251681076,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004978319979315261,
      "loss": 5.3328,
      "mean_token_accuracy": 0.19573558866977692,
      "num_tokens": 12756116.0,
      "step": 5560
    },
    {
      "entropy": 5.376229763031006,
      "epoch": 0.5345821325648416,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004978272475630752,
      "loss": 5.2851,
      "mean_token_accuracy": 0.1916971653699875,
      "num_tokens": 12768183.0,
      "step": 5565
    },
    {
      "entropy": 5.264455699920655,
      "epoch": 0.5350624399615754,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004978224920212374,
      "loss": 5.2931,
      "mean_token_accuracy": 0.1934914067387581,
      "num_tokens": 12778537.0,
      "step": 5570
    },
    {
      "entropy": 5.313297891616822,
      "epoch": 0.5355427473583093,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004978177313061232,
      "loss": 5.3228,
      "mean_token_accuracy": 0.19088124930858613,
      "num_tokens": 12789691.0,
      "step": 5575
    },
    {
      "entropy": 5.473337554931641,
      "epoch": 0.5360230547550432,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004978129654178426,
      "loss": 5.3433,
      "mean_token_accuracy": 0.18791570216417314,
      "num_tokens": 12801438.0,
      "step": 5580
    },
    {
      "entropy": 5.4069455623626705,
      "epoch": 0.5365033621517772,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004978081943565067,
      "loss": 5.3061,
      "mean_token_accuracy": 0.18656288981437683,
      "num_tokens": 12812425.0,
      "step": 5585
    },
    {
      "entropy": 5.307536172866821,
      "epoch": 0.5369836695485111,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004978034181222261,
      "loss": 5.2769,
      "mean_token_accuracy": 0.18625542372465134,
      "num_tokens": 12824735.0,
      "step": 5590
    },
    {
      "entropy": 5.430880117416382,
      "epoch": 0.537463976945245,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004977986367151119,
      "loss": 5.3688,
      "mean_token_accuracy": 0.1952778786420822,
      "num_tokens": 12835454.0,
      "step": 5595
    },
    {
      "entropy": 5.434065580368042,
      "epoch": 0.5379442843419788,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004977938501352747,
      "loss": 5.4122,
      "mean_token_accuracy": 0.18514797538518907,
      "num_tokens": 12847086.0,
      "step": 5600
    },
    {
      "entropy": 5.385431623458862,
      "epoch": 0.5384245917387128,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004977890583828259,
      "loss": 5.3549,
      "mean_token_accuracy": 0.1888865575194359,
      "num_tokens": 12857713.0,
      "step": 5605
    },
    {
      "entropy": 5.36136646270752,
      "epoch": 0.5389048991354467,
      "grad_norm": 1.125,
      "learning_rate": 0.0004977842614578768,
      "loss": 5.3356,
      "mean_token_accuracy": 0.18914903849363326,
      "num_tokens": 12869967.0,
      "step": 5610
    },
    {
      "entropy": 5.433460998535156,
      "epoch": 0.5393852065321806,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004977794593605386,
      "loss": 5.3684,
      "mean_token_accuracy": 0.18960850983858107,
      "num_tokens": 12881230.0,
      "step": 5615
    },
    {
      "entropy": 5.352547121047974,
      "epoch": 0.5398655139289145,
      "grad_norm": 1.109375,
      "learning_rate": 0.000497774652090923,
      "loss": 5.3222,
      "mean_token_accuracy": 0.18944347649812698,
      "num_tokens": 12892376.0,
      "step": 5620
    },
    {
      "entropy": 5.436691570281982,
      "epoch": 0.5403458213256485,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004977698396491414,
      "loss": 5.3307,
      "mean_token_accuracy": 0.19240753799676896,
      "num_tokens": 12903709.0,
      "step": 5625
    },
    {
      "entropy": 5.2928542137146,
      "epoch": 0.5408261287223823,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004977650220353055,
      "loss": 5.1629,
      "mean_token_accuracy": 0.19530351608991622,
      "num_tokens": 12914958.0,
      "step": 5630
    },
    {
      "entropy": 5.280749416351318,
      "epoch": 0.5413064361191162,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004977601992495274,
      "loss": 5.2875,
      "mean_token_accuracy": 0.1923414632678032,
      "num_tokens": 12927418.0,
      "step": 5635
    },
    {
      "entropy": 5.413435602188111,
      "epoch": 0.5417867435158501,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004977553712919189,
      "loss": 5.3325,
      "mean_token_accuracy": 0.1892315372824669,
      "num_tokens": 12939874.0,
      "step": 5640
    },
    {
      "entropy": 5.463119792938232,
      "epoch": 0.5422670509125841,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004977505381625921,
      "loss": 5.3542,
      "mean_token_accuracy": 0.18793897628784179,
      "num_tokens": 12951113.0,
      "step": 5645
    },
    {
      "entropy": 5.333239316940308,
      "epoch": 0.542747358309318,
      "grad_norm": 1.0,
      "learning_rate": 0.0004977456998616593,
      "loss": 5.247,
      "mean_token_accuracy": 0.19487171471118928,
      "num_tokens": 12961940.0,
      "step": 5650
    },
    {
      "entropy": 5.247047281265258,
      "epoch": 0.5432276657060519,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004977408563892327,
      "loss": 5.2389,
      "mean_token_accuracy": 0.19528348445892335,
      "num_tokens": 12973938.0,
      "step": 5655
    },
    {
      "entropy": 5.355054330825806,
      "epoch": 0.5437079731027857,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004977360077454249,
      "loss": 5.2669,
      "mean_token_accuracy": 0.19261687248945236,
      "num_tokens": 12985400.0,
      "step": 5660
    },
    {
      "entropy": 5.381504774093628,
      "epoch": 0.5441882804995197,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004977311539303483,
      "loss": 5.2984,
      "mean_token_accuracy": 0.202898870408535,
      "num_tokens": 12996402.0,
      "step": 5665
    },
    {
      "entropy": 5.339759063720703,
      "epoch": 0.5446685878962536,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004977262949441158,
      "loss": 5.1882,
      "mean_token_accuracy": 0.20247950553894042,
      "num_tokens": 13006991.0,
      "step": 5670
    },
    {
      "entropy": 5.329454803466797,
      "epoch": 0.5451488952929875,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004977214307868399,
      "loss": 5.2909,
      "mean_token_accuracy": 0.19646303355693817,
      "num_tokens": 13016969.0,
      "step": 5675
    },
    {
      "entropy": 5.333616399765015,
      "epoch": 0.5456292026897214,
      "grad_norm": 1.265625,
      "learning_rate": 0.000497716561458634,
      "loss": 5.2395,
      "mean_token_accuracy": 0.1989587128162384,
      "num_tokens": 13027759.0,
      "step": 5680
    },
    {
      "entropy": 5.4932708740234375,
      "epoch": 0.5461095100864554,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004977116869596107,
      "loss": 5.4415,
      "mean_token_accuracy": 0.1860479310154915,
      "num_tokens": 13039881.0,
      "step": 5685
    },
    {
      "entropy": 5.399776601791382,
      "epoch": 0.5465898174831892,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004977068072898834,
      "loss": 5.3041,
      "mean_token_accuracy": 0.18947898745536804,
      "num_tokens": 13051443.0,
      "step": 5690
    },
    {
      "entropy": 5.3822290897369385,
      "epoch": 0.5470701248799231,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004977019224495652,
      "loss": 5.3697,
      "mean_token_accuracy": 0.18962922990322112,
      "num_tokens": 13063474.0,
      "step": 5695
    },
    {
      "entropy": 5.307476902008057,
      "epoch": 0.547550432276657,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004976970324387698,
      "loss": 5.234,
      "mean_token_accuracy": 0.20077043473720552,
      "num_tokens": 13074365.0,
      "step": 5700
    },
    {
      "entropy": 5.339881372451782,
      "epoch": 0.548030739673391,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004976921372576104,
      "loss": 5.3033,
      "mean_token_accuracy": 0.19367703795433044,
      "num_tokens": 13087354.0,
      "step": 5705
    },
    {
      "entropy": 5.32935528755188,
      "epoch": 0.5485110470701249,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004976872369062011,
      "loss": 5.2787,
      "mean_token_accuracy": 0.19071510583162307,
      "num_tokens": 13099306.0,
      "step": 5710
    },
    {
      "entropy": 5.4302033424377445,
      "epoch": 0.5489913544668588,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004976823313846552,
      "loss": 5.4164,
      "mean_token_accuracy": 0.19036435931921006,
      "num_tokens": 13111259.0,
      "step": 5715
    },
    {
      "entropy": 5.4693896770477295,
      "epoch": 0.5494716618635928,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004976774206930869,
      "loss": 5.3256,
      "mean_token_accuracy": 0.18587163984775543,
      "num_tokens": 13123589.0,
      "step": 5720
    },
    {
      "entropy": 5.253912925720215,
      "epoch": 0.5499519692603266,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004976725048316101,
      "loss": 5.322,
      "mean_token_accuracy": 0.19089159667491912,
      "num_tokens": 13136485.0,
      "step": 5725
    },
    {
      "entropy": 5.40102801322937,
      "epoch": 0.5504322766570605,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004976675838003388,
      "loss": 5.2997,
      "mean_token_accuracy": 0.19145811647176741,
      "num_tokens": 13148067.0,
      "step": 5730
    },
    {
      "entropy": 5.367999935150147,
      "epoch": 0.5509125840537944,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004976626575993877,
      "loss": 5.2818,
      "mean_token_accuracy": 0.18961854726076127,
      "num_tokens": 13159813.0,
      "step": 5735
    },
    {
      "entropy": 5.410087442398071,
      "epoch": 0.5513928914505284,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004976577262288705,
      "loss": 5.356,
      "mean_token_accuracy": 0.18928916603326798,
      "num_tokens": 13170828.0,
      "step": 5740
    },
    {
      "entropy": 5.265670728683472,
      "epoch": 0.5518731988472623,
      "grad_norm": 1.125,
      "learning_rate": 0.0004976527896889023,
      "loss": 5.181,
      "mean_token_accuracy": 0.20403801798820495,
      "num_tokens": 13181883.0,
      "step": 5745
    },
    {
      "entropy": 5.295314884185791,
      "epoch": 0.5523535062439962,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004976478479795974,
      "loss": 5.2557,
      "mean_token_accuracy": 0.1949864685535431,
      "num_tokens": 13193530.0,
      "step": 5750
    },
    {
      "entropy": 5.484155082702637,
      "epoch": 0.55283381364073,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004976429011010706,
      "loss": 5.4823,
      "mean_token_accuracy": 0.17912757843732835,
      "num_tokens": 13205822.0,
      "step": 5755
    },
    {
      "entropy": 5.3539347648620605,
      "epoch": 0.553314121037464,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004976379490534366,
      "loss": 5.2081,
      "mean_token_accuracy": 0.19992550164461137,
      "num_tokens": 13216698.0,
      "step": 5760
    },
    {
      "entropy": 5.291062736511231,
      "epoch": 0.5537944284341979,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004976329918368107,
      "loss": 5.2968,
      "mean_token_accuracy": 0.19075367897748946,
      "num_tokens": 13228389.0,
      "step": 5765
    },
    {
      "entropy": 5.433424997329712,
      "epoch": 0.5542747358309318,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004976280294513079,
      "loss": 5.3505,
      "mean_token_accuracy": 0.18287664502859116,
      "num_tokens": 13239628.0,
      "step": 5770
    },
    {
      "entropy": 5.404953861236573,
      "epoch": 0.5547550432276657,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004976230618970431,
      "loss": 5.352,
      "mean_token_accuracy": 0.19548004865646362,
      "num_tokens": 13251149.0,
      "step": 5775
    },
    {
      "entropy": 5.455016326904297,
      "epoch": 0.5552353506243997,
      "grad_norm": 1.0625,
      "learning_rate": 0.000497618089174132,
      "loss": 5.413,
      "mean_token_accuracy": 0.18660195618867875,
      "num_tokens": 13264846.0,
      "step": 5780
    },
    {
      "entropy": 5.248121690750122,
      "epoch": 0.5557156580211335,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004976131112826898,
      "loss": 5.1913,
      "mean_token_accuracy": 0.2054605171084404,
      "num_tokens": 13275409.0,
      "step": 5785
    },
    {
      "entropy": 5.259016036987305,
      "epoch": 0.5561959654178674,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004976081282228323,
      "loss": 5.1657,
      "mean_token_accuracy": 0.20358884781599046,
      "num_tokens": 13287173.0,
      "step": 5790
    },
    {
      "entropy": 5.411679124832153,
      "epoch": 0.5566762728146013,
      "grad_norm": 1.03125,
      "learning_rate": 0.000497603139994675,
      "loss": 5.2377,
      "mean_token_accuracy": 0.19680293649435043,
      "num_tokens": 13298225.0,
      "step": 5795
    },
    {
      "entropy": 5.2930761814117435,
      "epoch": 0.5571565802113353,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004975981465983338,
      "loss": 5.2468,
      "mean_token_accuracy": 0.19053254425525665,
      "num_tokens": 13309685.0,
      "step": 5800
    },
    {
      "entropy": 5.304633331298828,
      "epoch": 0.5576368876080692,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004975931480339246,
      "loss": 5.2554,
      "mean_token_accuracy": 0.19651708900928497,
      "num_tokens": 13320837.0,
      "step": 5805
    },
    {
      "entropy": 5.383905267715454,
      "epoch": 0.5581171950048031,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004975881443015635,
      "loss": 5.3718,
      "mean_token_accuracy": 0.19027461260557174,
      "num_tokens": 13333512.0,
      "step": 5810
    },
    {
      "entropy": 5.465289068222046,
      "epoch": 0.5585975024015369,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004975831354013667,
      "loss": 5.3829,
      "mean_token_accuracy": 0.19368760734796525,
      "num_tokens": 13345189.0,
      "step": 5815
    },
    {
      "entropy": 5.329316329956055,
      "epoch": 0.5590778097982709,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004975781213334503,
      "loss": 5.2472,
      "mean_token_accuracy": 0.20152513086795806,
      "num_tokens": 13356123.0,
      "step": 5820
    },
    {
      "entropy": 5.329442405700684,
      "epoch": 0.5595581171950048,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004975731020979309,
      "loss": 5.2949,
      "mean_token_accuracy": 0.19351785629987717,
      "num_tokens": 13366902.0,
      "step": 5825
    },
    {
      "entropy": 5.4559613227844235,
      "epoch": 0.5600384245917387,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004975680776949249,
      "loss": 5.3542,
      "mean_token_accuracy": 0.18989898711442948,
      "num_tokens": 13377567.0,
      "step": 5830
    },
    {
      "entropy": 5.390386629104614,
      "epoch": 0.5605187319884726,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004975630481245492,
      "loss": 5.2869,
      "mean_token_accuracy": 0.2009364992380142,
      "num_tokens": 13387297.0,
      "step": 5835
    },
    {
      "entropy": 5.348505544662475,
      "epoch": 0.5609990393852066,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004975580133869202,
      "loss": 5.3381,
      "mean_token_accuracy": 0.1932346299290657,
      "num_tokens": 13397723.0,
      "step": 5840
    },
    {
      "entropy": 5.408625984191895,
      "epoch": 0.5614793467819404,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004975529734821552,
      "loss": 5.3863,
      "mean_token_accuracy": 0.18635910749435425,
      "num_tokens": 13409875.0,
      "step": 5845
    },
    {
      "entropy": 5.352054500579834,
      "epoch": 0.5619596541786743,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004975479284103708,
      "loss": 5.2921,
      "mean_token_accuracy": 0.1954024314880371,
      "num_tokens": 13421338.0,
      "step": 5850
    },
    {
      "entropy": 5.418287992477417,
      "epoch": 0.5624399615754082,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004975428781716845,
      "loss": 5.3258,
      "mean_token_accuracy": 0.19152757823467254,
      "num_tokens": 13431373.0,
      "step": 5855
    },
    {
      "entropy": 5.360725784301758,
      "epoch": 0.5629202689721422,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004975378227662134,
      "loss": 5.3208,
      "mean_token_accuracy": 0.19721843004226686,
      "num_tokens": 13443158.0,
      "step": 5860
    },
    {
      "entropy": 5.44525113105774,
      "epoch": 0.5634005763688761,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004975327621940746,
      "loss": 5.3795,
      "mean_token_accuracy": 0.18757863938808442,
      "num_tokens": 13454559.0,
      "step": 5865
    },
    {
      "entropy": 5.453475904464722,
      "epoch": 0.56388088376561,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004975276964553861,
      "loss": 5.4604,
      "mean_token_accuracy": 0.1895272508263588,
      "num_tokens": 13466934.0,
      "step": 5870
    },
    {
      "entropy": 5.349884796142578,
      "epoch": 0.5643611911623438,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004975226255502651,
      "loss": 5.2124,
      "mean_token_accuracy": 0.20376883447170258,
      "num_tokens": 13477770.0,
      "step": 5875
    },
    {
      "entropy": 5.428862237930298,
      "epoch": 0.5648414985590778,
      "grad_norm": 1.125,
      "learning_rate": 0.0004975175494788297,
      "loss": 5.4214,
      "mean_token_accuracy": 0.1833633303642273,
      "num_tokens": 13490093.0,
      "step": 5880
    },
    {
      "entropy": 5.4273130893707275,
      "epoch": 0.5653218059558117,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004975124682411974,
      "loss": 5.2743,
      "mean_token_accuracy": 0.19006698280572892,
      "num_tokens": 13500663.0,
      "step": 5885
    },
    {
      "entropy": 5.404650068283081,
      "epoch": 0.5658021133525456,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004975073818374863,
      "loss": 5.3747,
      "mean_token_accuracy": 0.19194794446229935,
      "num_tokens": 13512369.0,
      "step": 5890
    },
    {
      "entropy": 5.352162408828735,
      "epoch": 0.5662824207492796,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004975022902678145,
      "loss": 5.2518,
      "mean_token_accuracy": 0.18981288820505143,
      "num_tokens": 13523181.0,
      "step": 5895
    },
    {
      "entropy": 5.307896852493286,
      "epoch": 0.5667627281460135,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004974971935323003,
      "loss": 5.2062,
      "mean_token_accuracy": 0.19488532990217208,
      "num_tokens": 13534113.0,
      "step": 5900
    },
    {
      "entropy": 5.3025891304016115,
      "epoch": 0.5672430355427474,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004974920916310619,
      "loss": 5.2425,
      "mean_token_accuracy": 0.19460777193307877,
      "num_tokens": 13545037.0,
      "step": 5905
    },
    {
      "entropy": 5.368872261047363,
      "epoch": 0.5677233429394812,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004974869845642178,
      "loss": 5.2926,
      "mean_token_accuracy": 0.19421349167823793,
      "num_tokens": 13555541.0,
      "step": 5910
    },
    {
      "entropy": 5.389457654953003,
      "epoch": 0.5682036503362152,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004974818723318866,
      "loss": 5.2973,
      "mean_token_accuracy": 0.19764145314693451,
      "num_tokens": 13566951.0,
      "step": 5915
    },
    {
      "entropy": 5.347638368606567,
      "epoch": 0.5686839577329491,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004974767549341868,
      "loss": 5.3505,
      "mean_token_accuracy": 0.18888978958129882,
      "num_tokens": 13578492.0,
      "step": 5920
    },
    {
      "entropy": 5.425949621200561,
      "epoch": 0.569164265129683,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004974716323712376,
      "loss": 5.2433,
      "mean_token_accuracy": 0.20290264040231704,
      "num_tokens": 13589183.0,
      "step": 5925
    },
    {
      "entropy": 5.37887659072876,
      "epoch": 0.5696445725264169,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004974665046431576,
      "loss": 5.3868,
      "mean_token_accuracy": 0.19258931577205657,
      "num_tokens": 13600588.0,
      "step": 5930
    },
    {
      "entropy": 5.309185123443603,
      "epoch": 0.5701248799231509,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004974613717500659,
      "loss": 5.2605,
      "mean_token_accuracy": 0.20295644104480742,
      "num_tokens": 13612107.0,
      "step": 5935
    },
    {
      "entropy": 5.485657453536987,
      "epoch": 0.5706051873198847,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004974562336920818,
      "loss": 5.4246,
      "mean_token_accuracy": 0.18908909112215042,
      "num_tokens": 13623973.0,
      "step": 5940
    },
    {
      "entropy": 5.3633698463439945,
      "epoch": 0.5710854947166186,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004974510904693245,
      "loss": 5.2372,
      "mean_token_accuracy": 0.19648284167051316,
      "num_tokens": 13634994.0,
      "step": 5945
    },
    {
      "entropy": 5.412157249450684,
      "epoch": 0.5715658021133525,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004974459420819134,
      "loss": 5.3895,
      "mean_token_accuracy": 0.19440043568611146,
      "num_tokens": 13646361.0,
      "step": 5950
    },
    {
      "entropy": 5.36341814994812,
      "epoch": 0.5720461095100865,
      "grad_norm": 1.125,
      "learning_rate": 0.000497440788529968,
      "loss": 5.2834,
      "mean_token_accuracy": 0.19329349249601363,
      "num_tokens": 13656975.0,
      "step": 5955
    },
    {
      "entropy": 5.428890562057495,
      "epoch": 0.5725264169068204,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004974356298136081,
      "loss": 5.3207,
      "mean_token_accuracy": 0.18961571753025055,
      "num_tokens": 13668434.0,
      "step": 5960
    },
    {
      "entropy": 5.403112125396729,
      "epoch": 0.5730067243035543,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004974304659329533,
      "loss": 5.301,
      "mean_token_accuracy": 0.1921529397368431,
      "num_tokens": 13679266.0,
      "step": 5965
    },
    {
      "entropy": 5.291449975967407,
      "epoch": 0.5734870317002881,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004974252968881236,
      "loss": 5.3247,
      "mean_token_accuracy": 0.18704658299684523,
      "num_tokens": 13690921.0,
      "step": 5970
    },
    {
      "entropy": 5.385117483139038,
      "epoch": 0.5739673390970221,
      "grad_norm": 1.078125,
      "learning_rate": 0.000497420122679239,
      "loss": 5.2579,
      "mean_token_accuracy": 0.19390686601400375,
      "num_tokens": 13702329.0,
      "step": 5975
    },
    {
      "entropy": 5.317170143127441,
      "epoch": 0.574447646493756,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004974149433064196,
      "loss": 5.2295,
      "mean_token_accuracy": 0.20150385797023773,
      "num_tokens": 13713356.0,
      "step": 5980
    },
    {
      "entropy": 5.237676763534546,
      "epoch": 0.5749279538904899,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004974097587697856,
      "loss": 5.2294,
      "mean_token_accuracy": 0.19473931789398194,
      "num_tokens": 13724718.0,
      "step": 5985
    },
    {
      "entropy": 5.28824028968811,
      "epoch": 0.5754082612872238,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004974045690694575,
      "loss": 5.2596,
      "mean_token_accuracy": 0.196784345805645,
      "num_tokens": 13736113.0,
      "step": 5990
    },
    {
      "entropy": 5.417406034469605,
      "epoch": 0.5758885686839578,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004973993742055557,
      "loss": 5.272,
      "mean_token_accuracy": 0.19672393202781677,
      "num_tokens": 13748322.0,
      "step": 5995
    },
    {
      "entropy": 5.3009929180145265,
      "epoch": 0.5763688760806917,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004973941741782007,
      "loss": 5.2743,
      "mean_token_accuracy": 0.18973211497068404,
      "num_tokens": 13759433.0,
      "step": 6000
    },
    {
      "epoch": 0.5763688760806917,
      "eval_entropy": 5.216975544093005,
      "eval_loss": 5.320178508758545,
      "eval_mean_token_accuracy": 0.1993778554485636,
      "eval_num_tokens": 13759433.0,
      "eval_runtime": 27.3927,
      "eval_samples_per_second": 1197.949,
      "eval_steps_per_second": 149.748,
      "step": 6000
    },
    {
      "entropy": 5.300173044204712,
      "epoch": 0.5768491834774255,
      "grad_norm": 1.125,
      "learning_rate": 0.0004973889689875135,
      "loss": 5.195,
      "mean_token_accuracy": 0.1984873592853546,
      "num_tokens": 13770181.0,
      "step": 6005
    },
    {
      "entropy": 5.272101497650146,
      "epoch": 0.5773294908741594,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004973837586336147,
      "loss": 5.2443,
      "mean_token_accuracy": 0.19233150780200958,
      "num_tokens": 13781792.0,
      "step": 6010
    },
    {
      "entropy": 5.360331630706787,
      "epoch": 0.5778097982708934,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004973785431166254,
      "loss": 5.3034,
      "mean_token_accuracy": 0.1883278176188469,
      "num_tokens": 13792101.0,
      "step": 6015
    },
    {
      "entropy": 5.372050094604492,
      "epoch": 0.5782901056676273,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004973733224366666,
      "loss": 5.2927,
      "mean_token_accuracy": 0.19648923128843307,
      "num_tokens": 13803640.0,
      "step": 6020
    },
    {
      "entropy": 5.3110956192016605,
      "epoch": 0.5787704130643612,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004973680965938597,
      "loss": 5.2097,
      "mean_token_accuracy": 0.1993360698223114,
      "num_tokens": 13815017.0,
      "step": 6025
    },
    {
      "entropy": 5.383702278137207,
      "epoch": 0.579250720461095,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004973628655883258,
      "loss": 5.4354,
      "mean_token_accuracy": 0.18790345638990402,
      "num_tokens": 13826119.0,
      "step": 6030
    },
    {
      "entropy": 5.362691211700439,
      "epoch": 0.579731027857829,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004973576294201865,
      "loss": 5.2425,
      "mean_token_accuracy": 0.193815678358078,
      "num_tokens": 13837869.0,
      "step": 6035
    },
    {
      "entropy": 5.532571697235108,
      "epoch": 0.5802113352545629,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004973523880895633,
      "loss": 5.4173,
      "mean_token_accuracy": 0.1810302734375,
      "num_tokens": 13849333.0,
      "step": 6040
    },
    {
      "entropy": 5.346681356430054,
      "epoch": 0.5806916426512968,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004973471415965779,
      "loss": 5.2732,
      "mean_token_accuracy": 0.19453433007001877,
      "num_tokens": 13860648.0,
      "step": 6045
    },
    {
      "entropy": 5.426644325256348,
      "epoch": 0.5811719500480308,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000497341889941352,
      "loss": 5.4282,
      "mean_token_accuracy": 0.18453214317560196,
      "num_tokens": 13872979.0,
      "step": 6050
    },
    {
      "entropy": 5.398784351348877,
      "epoch": 0.5816522574447647,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004973366331240078,
      "loss": 5.2973,
      "mean_token_accuracy": 0.19479347318410872,
      "num_tokens": 13884363.0,
      "step": 6055
    },
    {
      "entropy": 5.369167709350586,
      "epoch": 0.5821325648414986,
      "grad_norm": 1.0390625,
      "learning_rate": 0.000497331371144667,
      "loss": 5.2897,
      "mean_token_accuracy": 0.1914879024028778,
      "num_tokens": 13895424.0,
      "step": 6060
    },
    {
      "entropy": 5.348582983016968,
      "epoch": 0.5826128722382324,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004973261040034521,
      "loss": 5.4136,
      "mean_token_accuracy": 0.1861998423933983,
      "num_tokens": 13907319.0,
      "step": 6065
    },
    {
      "entropy": 5.298081350326538,
      "epoch": 0.5830931796349664,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004973208317004852,
      "loss": 5.2514,
      "mean_token_accuracy": 0.19497257471084595,
      "num_tokens": 13920013.0,
      "step": 6070
    },
    {
      "entropy": 5.347387409210205,
      "epoch": 0.5835734870317003,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004973155542358889,
      "loss": 5.2194,
      "mean_token_accuracy": 0.19683697521686555,
      "num_tokens": 13932033.0,
      "step": 6075
    },
    {
      "entropy": 5.275155830383301,
      "epoch": 0.5840537944284342,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004973102716097853,
      "loss": 5.2393,
      "mean_token_accuracy": 0.19724634289741516,
      "num_tokens": 13943324.0,
      "step": 6080
    },
    {
      "entropy": 5.339147853851318,
      "epoch": 0.5845341018251681,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004973049838222973,
      "loss": 5.3067,
      "mean_token_accuracy": 0.19921963214874266,
      "num_tokens": 13954291.0,
      "step": 6085
    },
    {
      "entropy": 5.465323781967163,
      "epoch": 0.5850144092219021,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004972996908735479,
      "loss": 5.414,
      "mean_token_accuracy": 0.1826832190155983,
      "num_tokens": 13966264.0,
      "step": 6090
    },
    {
      "entropy": 5.453038024902344,
      "epoch": 0.585494716618636,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004972943927636597,
      "loss": 5.2937,
      "mean_token_accuracy": 0.18843238651752472,
      "num_tokens": 13977785.0,
      "step": 6095
    },
    {
      "entropy": 5.289157247543335,
      "epoch": 0.5859750240153698,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004972890894927558,
      "loss": 5.2774,
      "mean_token_accuracy": 0.1957810938358307,
      "num_tokens": 13989704.0,
      "step": 6100
    },
    {
      "entropy": 5.3781982421875,
      "epoch": 0.5864553314121037,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004972837810609592,
      "loss": 5.2735,
      "mean_token_accuracy": 0.1950765624642372,
      "num_tokens": 14000565.0,
      "step": 6105
    },
    {
      "entropy": 5.25339150428772,
      "epoch": 0.5869356388088377,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004972784674683933,
      "loss": 5.1817,
      "mean_token_accuracy": 0.20146536976099014,
      "num_tokens": 14011521.0,
      "step": 6110
    },
    {
      "entropy": 5.334528207778931,
      "epoch": 0.5874159462055716,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004972731487151815,
      "loss": 5.2246,
      "mean_token_accuracy": 0.20138936042785643,
      "num_tokens": 14022966.0,
      "step": 6115
    },
    {
      "entropy": 5.453242635726928,
      "epoch": 0.5878962536023055,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004972678248014471,
      "loss": 5.3627,
      "mean_token_accuracy": 0.1907268077135086,
      "num_tokens": 14034905.0,
      "step": 6120
    },
    {
      "entropy": 5.245919466018677,
      "epoch": 0.5883765609990393,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004972624957273139,
      "loss": 5.2067,
      "mean_token_accuracy": 0.1968609645962715,
      "num_tokens": 14045816.0,
      "step": 6125
    },
    {
      "entropy": 5.300683164596558,
      "epoch": 0.5888568683957733,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004972571614929055,
      "loss": 5.1877,
      "mean_token_accuracy": 0.1941026657819748,
      "num_tokens": 14057316.0,
      "step": 6130
    },
    {
      "entropy": 5.375409936904907,
      "epoch": 0.5893371757925072,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004972518220983457,
      "loss": 5.308,
      "mean_token_accuracy": 0.18491660058498383,
      "num_tokens": 14067542.0,
      "step": 6135
    },
    {
      "entropy": 5.255684518814087,
      "epoch": 0.5898174831892411,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004972464775437586,
      "loss": 5.1798,
      "mean_token_accuracy": 0.19628757536411284,
      "num_tokens": 14079467.0,
      "step": 6140
    },
    {
      "entropy": 5.297601890563965,
      "epoch": 0.590297790585975,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004972411278292683,
      "loss": 5.1377,
      "mean_token_accuracy": 0.2022266536951065,
      "num_tokens": 14090695.0,
      "step": 6145
    },
    {
      "entropy": 5.310152339935303,
      "epoch": 0.590778097982709,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004972357729549988,
      "loss": 5.1883,
      "mean_token_accuracy": 0.20686898082494737,
      "num_tokens": 14101380.0,
      "step": 6150
    },
    {
      "entropy": 5.255633974075318,
      "epoch": 0.5912584053794429,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004972304129210746,
      "loss": 5.2317,
      "mean_token_accuracy": 0.19752228856086732,
      "num_tokens": 14112265.0,
      "step": 6155
    },
    {
      "entropy": 5.3430475234985355,
      "epoch": 0.5917387127761767,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004972250477276202,
      "loss": 5.2263,
      "mean_token_accuracy": 0.19471232295036317,
      "num_tokens": 14124294.0,
      "step": 6160
    },
    {
      "entropy": 5.320528650283814,
      "epoch": 0.5922190201729106,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004972196773747599,
      "loss": 5.2509,
      "mean_token_accuracy": 0.1957827016711235,
      "num_tokens": 14135230.0,
      "step": 6165
    },
    {
      "entropy": 5.363646554946899,
      "epoch": 0.5926993275696446,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004972143018626186,
      "loss": 5.3444,
      "mean_token_accuracy": 0.19247063994407654,
      "num_tokens": 14147576.0,
      "step": 6170
    },
    {
      "entropy": 5.2979090213775635,
      "epoch": 0.5931796349663785,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004972089211913211,
      "loss": 5.2239,
      "mean_token_accuracy": 0.20307936817407607,
      "num_tokens": 14158834.0,
      "step": 6175
    },
    {
      "entropy": 5.386188983917236,
      "epoch": 0.5936599423631124,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004972035353609923,
      "loss": 5.3616,
      "mean_token_accuracy": 0.1897743433713913,
      "num_tokens": 14170694.0,
      "step": 6180
    },
    {
      "entropy": 5.350439167022705,
      "epoch": 0.5941402497598463,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004971981443717572,
      "loss": 5.275,
      "mean_token_accuracy": 0.19451749473810195,
      "num_tokens": 14183184.0,
      "step": 6185
    },
    {
      "entropy": 5.413315868377685,
      "epoch": 0.5946205571565802,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004971927482237409,
      "loss": 5.3614,
      "mean_token_accuracy": 0.18740272670984268,
      "num_tokens": 14194761.0,
      "step": 6190
    },
    {
      "entropy": 5.309095239639282,
      "epoch": 0.5951008645533141,
      "grad_norm": 1.375,
      "learning_rate": 0.0004971873469170689,
      "loss": 5.1715,
      "mean_token_accuracy": 0.19937018156051636,
      "num_tokens": 14205820.0,
      "step": 6195
    },
    {
      "entropy": 5.198407316207886,
      "epoch": 0.595581171950048,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004971819404518664,
      "loss": 5.1875,
      "mean_token_accuracy": 0.20422977358102798,
      "num_tokens": 14217826.0,
      "step": 6200
    },
    {
      "entropy": 5.258822679519653,
      "epoch": 0.5960614793467819,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000497176528828259,
      "loss": 5.1531,
      "mean_token_accuracy": 0.20904283672571183,
      "num_tokens": 14228632.0,
      "step": 6205
    },
    {
      "entropy": 5.395007658004761,
      "epoch": 0.5965417867435159,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004971711120463722,
      "loss": 5.3763,
      "mean_token_accuracy": 0.1843624085187912,
      "num_tokens": 14240231.0,
      "step": 6210
    },
    {
      "entropy": 5.421968078613281,
      "epoch": 0.5970220941402498,
      "grad_norm": 1.140625,
      "learning_rate": 0.000497165690106332,
      "loss": 5.2243,
      "mean_token_accuracy": 0.19937607198953627,
      "num_tokens": 14251718.0,
      "step": 6215
    },
    {
      "entropy": 5.301095485687256,
      "epoch": 0.5975024015369836,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004971602630082642,
      "loss": 5.2678,
      "mean_token_accuracy": 0.20054133832454682,
      "num_tokens": 14263129.0,
      "step": 6220
    },
    {
      "entropy": 5.272244215011597,
      "epoch": 0.5979827089337176,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004971548307522947,
      "loss": 5.1874,
      "mean_token_accuracy": 0.195827853679657,
      "num_tokens": 14274465.0,
      "step": 6225
    },
    {
      "entropy": 5.465359544754028,
      "epoch": 0.5984630163304515,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004971493933385498,
      "loss": 5.3672,
      "mean_token_accuracy": 0.19250321239233018,
      "num_tokens": 14286190.0,
      "step": 6230
    },
    {
      "entropy": 5.372733306884766,
      "epoch": 0.5989433237271854,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004971439507671556,
      "loss": 5.3155,
      "mean_token_accuracy": 0.1895249903202057,
      "num_tokens": 14297638.0,
      "step": 6235
    },
    {
      "entropy": 5.272776174545288,
      "epoch": 0.5994236311239193,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004971385030382384,
      "loss": 5.261,
      "mean_token_accuracy": 0.19516938775777817,
      "num_tokens": 14309773.0,
      "step": 6240
    },
    {
      "entropy": 5.37848744392395,
      "epoch": 0.5999039385206533,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004971330501519248,
      "loss": 5.2141,
      "mean_token_accuracy": 0.1981222003698349,
      "num_tokens": 14320543.0,
      "step": 6245
    },
    {
      "entropy": 5.3494123935699465,
      "epoch": 0.6003842459173871,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004971275921083414,
      "loss": 5.2969,
      "mean_token_accuracy": 0.1915585696697235,
      "num_tokens": 14332076.0,
      "step": 6250
    },
    {
      "entropy": 5.2921350479125975,
      "epoch": 0.600864553314121,
      "grad_norm": 1.15625,
      "learning_rate": 0.000497122128907615,
      "loss": 5.2163,
      "mean_token_accuracy": 0.19611912965774536,
      "num_tokens": 14343768.0,
      "step": 6255
    },
    {
      "entropy": 5.304634475708008,
      "epoch": 0.6013448607108549,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004971166605498722,
      "loss": 5.259,
      "mean_token_accuracy": 0.1918262854218483,
      "num_tokens": 14357051.0,
      "step": 6260
    },
    {
      "entropy": 5.361700868606567,
      "epoch": 0.6018251681075889,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004971111870352401,
      "loss": 5.2776,
      "mean_token_accuracy": 0.19047526866197587,
      "num_tokens": 14368800.0,
      "step": 6265
    },
    {
      "entropy": 5.3359825134277346,
      "epoch": 0.6023054755043228,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004971057083638458,
      "loss": 5.2601,
      "mean_token_accuracy": 0.19838642477989196,
      "num_tokens": 14379617.0,
      "step": 6270
    },
    {
      "entropy": 5.304495000839234,
      "epoch": 0.6027857829010567,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004971002245358166,
      "loss": 5.2402,
      "mean_token_accuracy": 0.19964935183525084,
      "num_tokens": 14391454.0,
      "step": 6275
    },
    {
      "entropy": 5.369532489776612,
      "epoch": 0.6032660902977905,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004970947355512795,
      "loss": 5.2397,
      "mean_token_accuracy": 0.20377653539180757,
      "num_tokens": 14402379.0,
      "step": 6280
    },
    {
      "entropy": 5.291622447967529,
      "epoch": 0.6037463976945245,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004970892414103622,
      "loss": 5.2178,
      "mean_token_accuracy": 0.19688135832548143,
      "num_tokens": 14415040.0,
      "step": 6285
    },
    {
      "entropy": 5.331115865707398,
      "epoch": 0.6042267050912584,
      "grad_norm": 1.125,
      "learning_rate": 0.0004970837421131921,
      "loss": 5.3402,
      "mean_token_accuracy": 0.18655368387699128,
      "num_tokens": 14426677.0,
      "step": 6290
    },
    {
      "entropy": 5.365583896636963,
      "epoch": 0.6047070124879923,
      "grad_norm": 1.125,
      "learning_rate": 0.0004970782376598972,
      "loss": 5.2407,
      "mean_token_accuracy": 0.19816339612007142,
      "num_tokens": 14436676.0,
      "step": 6295
    },
    {
      "entropy": 5.344175672531128,
      "epoch": 0.6051873198847262,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004970727280506048,
      "loss": 5.2782,
      "mean_token_accuracy": 0.19335077702999115,
      "num_tokens": 14448294.0,
      "step": 6300
    },
    {
      "entropy": 5.324075174331665,
      "epoch": 0.6056676272814602,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004970672132854431,
      "loss": 5.2542,
      "mean_token_accuracy": 0.19286826699972154,
      "num_tokens": 14460642.0,
      "step": 6305
    },
    {
      "entropy": 5.305904293060303,
      "epoch": 0.6061479346781941,
      "grad_norm": 1.0,
      "learning_rate": 0.0004970616933645403,
      "loss": 5.1445,
      "mean_token_accuracy": 0.20802572518587112,
      "num_tokens": 14471370.0,
      "step": 6310
    },
    {
      "entropy": 5.404938650131226,
      "epoch": 0.6066282420749279,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004970561682880242,
      "loss": 5.3134,
      "mean_token_accuracy": 0.19435038715600966,
      "num_tokens": 14482358.0,
      "step": 6315
    },
    {
      "entropy": 5.315574312210083,
      "epoch": 0.6071085494716618,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004970506380560233,
      "loss": 5.3291,
      "mean_token_accuracy": 0.1953802764415741,
      "num_tokens": 14494413.0,
      "step": 6320
    },
    {
      "entropy": 5.382768726348877,
      "epoch": 0.6075888568683958,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004970451026686659,
      "loss": 5.2398,
      "mean_token_accuracy": 0.203892120718956,
      "num_tokens": 14506370.0,
      "step": 6325
    },
    {
      "entropy": 5.3352419376373295,
      "epoch": 0.6080691642651297,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004970395621260806,
      "loss": 5.2322,
      "mean_token_accuracy": 0.19640335738658904,
      "num_tokens": 14517198.0,
      "step": 6330
    },
    {
      "entropy": 5.415618896484375,
      "epoch": 0.6085494716618636,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000497034016428396,
      "loss": 5.3509,
      "mean_token_accuracy": 0.18669991344213485,
      "num_tokens": 14529434.0,
      "step": 6335
    },
    {
      "entropy": 5.267712688446045,
      "epoch": 0.6090297790585975,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004970284655757409,
      "loss": 5.234,
      "mean_token_accuracy": 0.1992996484041214,
      "num_tokens": 14540857.0,
      "step": 6340
    },
    {
      "entropy": 5.300823831558228,
      "epoch": 0.6095100864553314,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004970229095682439,
      "loss": 5.2642,
      "mean_token_accuracy": 0.1999596104025841,
      "num_tokens": 14552594.0,
      "step": 6345
    },
    {
      "entropy": 5.428168153762817,
      "epoch": 0.6099903938520653,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004970173484060344,
      "loss": 5.3089,
      "mean_token_accuracy": 0.18913527578115463,
      "num_tokens": 14563599.0,
      "step": 6350
    },
    {
      "entropy": 5.352987909317017,
      "epoch": 0.6104707012487992,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004970117820892414,
      "loss": 5.2652,
      "mean_token_accuracy": 0.19545669108629227,
      "num_tokens": 14575905.0,
      "step": 6355
    },
    {
      "entropy": 5.381795263290405,
      "epoch": 0.6109510086455331,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004970062106179939,
      "loss": 5.281,
      "mean_token_accuracy": 0.1997828796505928,
      "num_tokens": 14587800.0,
      "step": 6360
    },
    {
      "entropy": 5.3206565380096436,
      "epoch": 0.6114313160422671,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004970006339924214,
      "loss": 5.2193,
      "mean_token_accuracy": 0.20122889876365663,
      "num_tokens": 14600654.0,
      "step": 6365
    },
    {
      "entropy": 5.323697805404663,
      "epoch": 0.611911623439001,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004969950522126534,
      "loss": 5.2165,
      "mean_token_accuracy": 0.1956930086016655,
      "num_tokens": 14611985.0,
      "step": 6370
    },
    {
      "entropy": 5.253861331939698,
      "epoch": 0.6123919308357348,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004969894652788196,
      "loss": 5.2112,
      "mean_token_accuracy": 0.19875800609588623,
      "num_tokens": 14625004.0,
      "step": 6375
    },
    {
      "entropy": 5.403214597702027,
      "epoch": 0.6128722382324687,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004969838731910494,
      "loss": 5.2834,
      "mean_token_accuracy": 0.19371581822633743,
      "num_tokens": 14635381.0,
      "step": 6380
    },
    {
      "entropy": 5.254595232009888,
      "epoch": 0.6133525456292027,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004969782759494729,
      "loss": 5.2267,
      "mean_token_accuracy": 0.2021428868174553,
      "num_tokens": 14646582.0,
      "step": 6385
    },
    {
      "entropy": 5.305480861663819,
      "epoch": 0.6138328530259366,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00049697267355422,
      "loss": 5.2809,
      "mean_token_accuracy": 0.19987702816724778,
      "num_tokens": 14658024.0,
      "step": 6390
    },
    {
      "entropy": 5.461784887313843,
      "epoch": 0.6143131604226705,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004969670660054208,
      "loss": 5.3349,
      "mean_token_accuracy": 0.18528691679239273,
      "num_tokens": 14669933.0,
      "step": 6395
    },
    {
      "entropy": 5.338407850265503,
      "epoch": 0.6147934678194045,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004969614533032054,
      "loss": 5.2732,
      "mean_token_accuracy": 0.19340415596961974,
      "num_tokens": 14681331.0,
      "step": 6400
    },
    {
      "entropy": 5.253151512145996,
      "epoch": 0.6152737752161384,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004969558354477041,
      "loss": 5.1417,
      "mean_token_accuracy": 0.20471659004688264,
      "num_tokens": 14691361.0,
      "step": 6405
    },
    {
      "entropy": 5.294320201873779,
      "epoch": 0.6157540826128722,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004969502124390474,
      "loss": 5.2437,
      "mean_token_accuracy": 0.19678280949592591,
      "num_tokens": 14701791.0,
      "step": 6410
    },
    {
      "entropy": 5.343457746505737,
      "epoch": 0.6162343900096061,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004969445842773658,
      "loss": 5.2944,
      "mean_token_accuracy": 0.1905987396836281,
      "num_tokens": 14713672.0,
      "step": 6415
    },
    {
      "entropy": 5.280415821075439,
      "epoch": 0.6167146974063401,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00049693895096279,
      "loss": 5.134,
      "mean_token_accuracy": 0.20532522946596146,
      "num_tokens": 14724789.0,
      "step": 6420
    },
    {
      "entropy": 5.300199031829834,
      "epoch": 0.617195004803074,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004969333124954508,
      "loss": 5.2255,
      "mean_token_accuracy": 0.19219568222761155,
      "num_tokens": 14737212.0,
      "step": 6425
    },
    {
      "entropy": 5.260709667205811,
      "epoch": 0.6176753121998079,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004969276688754791,
      "loss": 5.2243,
      "mean_token_accuracy": 0.19760479480028154,
      "num_tokens": 14748387.0,
      "step": 6430
    },
    {
      "entropy": 5.331292247772216,
      "epoch": 0.6181556195965417,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004969220201030059,
      "loss": 5.2515,
      "mean_token_accuracy": 0.19721336513757706,
      "num_tokens": 14758477.0,
      "step": 6435
    },
    {
      "entropy": 5.393822145462036,
      "epoch": 0.6186359269932757,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004969163661781624,
      "loss": 5.3479,
      "mean_token_accuracy": 0.19438280314207076,
      "num_tokens": 14769650.0,
      "step": 6440
    },
    {
      "entropy": 5.244111680984497,
      "epoch": 0.6191162343900096,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004969107071010798,
      "loss": 5.1141,
      "mean_token_accuracy": 0.2060042515397072,
      "num_tokens": 14780988.0,
      "step": 6445
    },
    {
      "entropy": 5.328417253494263,
      "epoch": 0.6195965417867435,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004969050428718895,
      "loss": 5.2141,
      "mean_token_accuracy": 0.20170180201530458,
      "num_tokens": 14792458.0,
      "step": 6450
    },
    {
      "entropy": 5.370841217041016,
      "epoch": 0.6200768491834774,
      "grad_norm": 1.2890625,
      "learning_rate": 0.000496899373490723,
      "loss": 5.302,
      "mean_token_accuracy": 0.19348903000354767,
      "num_tokens": 14804772.0,
      "step": 6455
    },
    {
      "entropy": 5.38532247543335,
      "epoch": 0.6205571565802114,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000496893698957712,
      "loss": 5.2386,
      "mean_token_accuracy": 0.19131766855716706,
      "num_tokens": 14816126.0,
      "step": 6460
    },
    {
      "entropy": 5.34750804901123,
      "epoch": 0.6210374639769453,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004968880192729882,
      "loss": 5.3551,
      "mean_token_accuracy": 0.19073225259780885,
      "num_tokens": 14829376.0,
      "step": 6465
    },
    {
      "entropy": 5.3107569217681885,
      "epoch": 0.6215177713736791,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004968823344366835,
      "loss": 5.1864,
      "mean_token_accuracy": 0.20422402322292327,
      "num_tokens": 14841098.0,
      "step": 6470
    },
    {
      "entropy": 5.321711921691895,
      "epoch": 0.621998078770413,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004968766444489298,
      "loss": 5.1995,
      "mean_token_accuracy": 0.19894031435251236,
      "num_tokens": 14852690.0,
      "step": 6475
    },
    {
      "entropy": 5.283687448501587,
      "epoch": 0.622478386167147,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004968709493098593,
      "loss": 5.1839,
      "mean_token_accuracy": 0.199807707965374,
      "num_tokens": 14863327.0,
      "step": 6480
    },
    {
      "entropy": 5.36080002784729,
      "epoch": 0.6229586935638809,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004968652490196041,
      "loss": 5.3413,
      "mean_token_accuracy": 0.19556114822626114,
      "num_tokens": 14875213.0,
      "step": 6485
    },
    {
      "entropy": 5.360726022720337,
      "epoch": 0.6234390009606148,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004968595435782967,
      "loss": 5.26,
      "mean_token_accuracy": 0.20531406849622727,
      "num_tokens": 14886129.0,
      "step": 6490
    },
    {
      "entropy": 5.433628988265991,
      "epoch": 0.6239193083573487,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004968538329860695,
      "loss": 5.3958,
      "mean_token_accuracy": 0.18427062630653382,
      "num_tokens": 14897217.0,
      "step": 6495
    },
    {
      "entropy": 5.34465217590332,
      "epoch": 0.6243996157540826,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004968481172430549,
      "loss": 5.304,
      "mean_token_accuracy": 0.19546790570020675,
      "num_tokens": 14908438.0,
      "step": 6500
    },
    {
      "entropy": 5.292671966552734,
      "epoch": 0.6248799231508165,
      "grad_norm": 1.09375,
      "learning_rate": 0.000496842396349386,
      "loss": 5.1776,
      "mean_token_accuracy": 0.1998446449637413,
      "num_tokens": 14920472.0,
      "step": 6505
    },
    {
      "entropy": 5.301685905456543,
      "epoch": 0.6253602305475504,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004968366703051952,
      "loss": 5.2294,
      "mean_token_accuracy": 0.1975826621055603,
      "num_tokens": 14932075.0,
      "step": 6510
    },
    {
      "entropy": 5.327823829650879,
      "epoch": 0.6258405379442843,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004968309391106157,
      "loss": 5.2856,
      "mean_token_accuracy": 0.1950155645608902,
      "num_tokens": 14942971.0,
      "step": 6515
    },
    {
      "entropy": 5.307694292068481,
      "epoch": 0.6263208453410183,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004968252027657806,
      "loss": 5.1169,
      "mean_token_accuracy": 0.20416004061698914,
      "num_tokens": 14954288.0,
      "step": 6520
    },
    {
      "entropy": 5.208348560333252,
      "epoch": 0.6268011527377522,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004968194612708229,
      "loss": 5.1838,
      "mean_token_accuracy": 0.19983574450016023,
      "num_tokens": 14966017.0,
      "step": 6525
    },
    {
      "entropy": 5.391433906555176,
      "epoch": 0.627281460134486,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004968137146258759,
      "loss": 5.268,
      "mean_token_accuracy": 0.19897303581237794,
      "num_tokens": 14978022.0,
      "step": 6530
    },
    {
      "entropy": 5.215319442749023,
      "epoch": 0.6277617675312199,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004968079628310732,
      "loss": 5.178,
      "mean_token_accuracy": 0.20022727847099303,
      "num_tokens": 14990370.0,
      "step": 6535
    },
    {
      "entropy": 5.197961759567261,
      "epoch": 0.6282420749279539,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004968022058865482,
      "loss": 5.2013,
      "mean_token_accuracy": 0.20392390042543412,
      "num_tokens": 15001535.0,
      "step": 6540
    },
    {
      "entropy": 5.426657629013062,
      "epoch": 0.6287223823246878,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004967964437924346,
      "loss": 5.2742,
      "mean_token_accuracy": 0.19859713315963745,
      "num_tokens": 15012560.0,
      "step": 6545
    },
    {
      "entropy": 5.225249814987182,
      "epoch": 0.6292026897214217,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004967906765488662,
      "loss": 5.1805,
      "mean_token_accuracy": 0.20398483723402022,
      "num_tokens": 15024594.0,
      "step": 6550
    },
    {
      "entropy": 5.287734794616699,
      "epoch": 0.6296829971181557,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004967849041559769,
      "loss": 5.209,
      "mean_token_accuracy": 0.19682117998600007,
      "num_tokens": 15034735.0,
      "step": 6555
    },
    {
      "entropy": 5.371293401718139,
      "epoch": 0.6301633045148896,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004967791266139006,
      "loss": 5.3218,
      "mean_token_accuracy": 0.192607519030571,
      "num_tokens": 15046955.0,
      "step": 6560
    },
    {
      "entropy": 5.280347061157227,
      "epoch": 0.6306436119116234,
      "grad_norm": 1.125,
      "learning_rate": 0.0004967733439227716,
      "loss": 5.181,
      "mean_token_accuracy": 0.20368633568286895,
      "num_tokens": 15058250.0,
      "step": 6565
    },
    {
      "entropy": 5.304067659378052,
      "epoch": 0.6311239193083573,
      "grad_norm": 1.0703125,
      "learning_rate": 0.000496767556082724,
      "loss": 5.3101,
      "mean_token_accuracy": 0.19713823050260543,
      "num_tokens": 15069451.0,
      "step": 6570
    },
    {
      "entropy": 5.3541919708251955,
      "epoch": 0.6316042267050913,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004967617630938924,
      "loss": 5.2624,
      "mean_token_accuracy": 0.20069709718227385,
      "num_tokens": 15080920.0,
      "step": 6575
    },
    {
      "entropy": 5.265263462066651,
      "epoch": 0.6320845341018252,
      "grad_norm": 1.09375,
      "learning_rate": 0.000496755964956411,
      "loss": 5.1853,
      "mean_token_accuracy": 0.195594023168087,
      "num_tokens": 15091579.0,
      "step": 6580
    },
    {
      "entropy": 5.33905520439148,
      "epoch": 0.6325648414985591,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004967501616704147,
      "loss": 5.3058,
      "mean_token_accuracy": 0.19578456729650498,
      "num_tokens": 15103097.0,
      "step": 6585
    },
    {
      "entropy": 5.338488435745239,
      "epoch": 0.633045148895293,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000496744353236038,
      "loss": 5.2011,
      "mean_token_accuracy": 0.1994476333260536,
      "num_tokens": 15114646.0,
      "step": 6590
    },
    {
      "entropy": 5.396579837799072,
      "epoch": 0.633525456292027,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000496738539653416,
      "loss": 5.2462,
      "mean_token_accuracy": 0.19710550010204314,
      "num_tokens": 15126019.0,
      "step": 6595
    },
    {
      "entropy": 5.320884847640992,
      "epoch": 0.6340057636887608,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004967327209226835,
      "loss": 5.2417,
      "mean_token_accuracy": 0.20047877579927445,
      "num_tokens": 15136132.0,
      "step": 6600
    },
    {
      "entropy": 5.328518581390381,
      "epoch": 0.6344860710854947,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004967268970439755,
      "loss": 5.3295,
      "mean_token_accuracy": 0.19120048433542253,
      "num_tokens": 15149016.0,
      "step": 6605
    },
    {
      "entropy": 5.390049648284912,
      "epoch": 0.6349663784822286,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004967210680174274,
      "loss": 5.2831,
      "mean_token_accuracy": 0.1991571456193924,
      "num_tokens": 15160302.0,
      "step": 6610
    },
    {
      "entropy": 5.326699829101562,
      "epoch": 0.6354466858789626,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004967152338431745,
      "loss": 5.266,
      "mean_token_accuracy": 0.19298024773597716,
      "num_tokens": 15171770.0,
      "step": 6615
    },
    {
      "entropy": 5.307769346237182,
      "epoch": 0.6359269932756965,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004967093945213523,
      "loss": 5.1512,
      "mean_token_accuracy": 0.20107036381959914,
      "num_tokens": 15182283.0,
      "step": 6620
    },
    {
      "entropy": 5.251153898239136,
      "epoch": 0.6364073006724303,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004967035500520962,
      "loss": 5.2544,
      "mean_token_accuracy": 0.19852742105722426,
      "num_tokens": 15193917.0,
      "step": 6625
    },
    {
      "entropy": 5.439336967468262,
      "epoch": 0.6368876080691642,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004966977004355421,
      "loss": 5.3349,
      "mean_token_accuracy": 0.18941647708415985,
      "num_tokens": 15205854.0,
      "step": 6630
    },
    {
      "entropy": 5.270390892028809,
      "epoch": 0.6373679154658982,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004966918456718256,
      "loss": 5.1945,
      "mean_token_accuracy": 0.20114167034626007,
      "num_tokens": 15217884.0,
      "step": 6635
    },
    {
      "entropy": 5.367384433746338,
      "epoch": 0.6378482228626321,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004966859857610828,
      "loss": 5.3235,
      "mean_token_accuracy": 0.19650316685438157,
      "num_tokens": 15229493.0,
      "step": 6640
    },
    {
      "entropy": 5.309024906158447,
      "epoch": 0.638328530259366,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004966801207034497,
      "loss": 5.2748,
      "mean_token_accuracy": 0.1954337552189827,
      "num_tokens": 15241402.0,
      "step": 6645
    },
    {
      "entropy": 5.396312856674195,
      "epoch": 0.6388088376560999,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004966742504990624,
      "loss": 5.2793,
      "mean_token_accuracy": 0.19446442872285843,
      "num_tokens": 15252981.0,
      "step": 6650
    },
    {
      "entropy": 5.396939516067505,
      "epoch": 0.6392891450528339,
      "grad_norm": 1.125,
      "learning_rate": 0.0004966683751480572,
      "loss": 5.2068,
      "mean_token_accuracy": 0.20260323137044906,
      "num_tokens": 15264171.0,
      "step": 6655
    },
    {
      "entropy": 5.215060138702393,
      "epoch": 0.6397694524495677,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004966624946505706,
      "loss": 5.2122,
      "mean_token_accuracy": 0.2042062520980835,
      "num_tokens": 15275595.0,
      "step": 6660
    },
    {
      "entropy": 5.32531771659851,
      "epoch": 0.6402497598463016,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004966566090067391,
      "loss": 5.284,
      "mean_token_accuracy": 0.19337738156318665,
      "num_tokens": 15286074.0,
      "step": 6665
    },
    {
      "entropy": 5.371769189834595,
      "epoch": 0.6407300672430355,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004966507182166993,
      "loss": 5.2436,
      "mean_token_accuracy": 0.19362216591835021,
      "num_tokens": 15296230.0,
      "step": 6670
    },
    {
      "entropy": 5.315968751907349,
      "epoch": 0.6412103746397695,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000496644822280588,
      "loss": 5.2326,
      "mean_token_accuracy": 0.19759678691625596,
      "num_tokens": 15307428.0,
      "step": 6675
    },
    {
      "entropy": 5.394734859466553,
      "epoch": 0.6416906820365034,
      "grad_norm": 1.2265625,
      "learning_rate": 0.000496638921198542,
      "loss": 5.3513,
      "mean_token_accuracy": 0.18394145518541336,
      "num_tokens": 15318796.0,
      "step": 6680
    },
    {
      "entropy": 5.314431810379029,
      "epoch": 0.6421709894332372,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004966330149706984,
      "loss": 5.2571,
      "mean_token_accuracy": 0.19566282480955124,
      "num_tokens": 15330914.0,
      "step": 6685
    },
    {
      "entropy": 5.29867787361145,
      "epoch": 0.6426512968299711,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004966271035971944,
      "loss": 5.2047,
      "mean_token_accuracy": 0.19110651910305024,
      "num_tokens": 15341756.0,
      "step": 6690
    },
    {
      "entropy": 5.369540071487426,
      "epoch": 0.6431316042267051,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004966211870781671,
      "loss": 5.2993,
      "mean_token_accuracy": 0.19377565532922744,
      "num_tokens": 15353217.0,
      "step": 6695
    },
    {
      "entropy": 5.348928213119507,
      "epoch": 0.643611911623439,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000496615265413754,
      "loss": 5.2096,
      "mean_token_accuracy": 0.1918511837720871,
      "num_tokens": 15363813.0,
      "step": 6700
    },
    {
      "entropy": 5.329305982589721,
      "epoch": 0.6440922190201729,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004966093386040923,
      "loss": 5.2085,
      "mean_token_accuracy": 0.19547198563814164,
      "num_tokens": 15375223.0,
      "step": 6705
    },
    {
      "entropy": 5.3240186214447025,
      "epoch": 0.6445725264169068,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00049660340664932,
      "loss": 5.2076,
      "mean_token_accuracy": 0.19727633148431778,
      "num_tokens": 15385523.0,
      "step": 6710
    },
    {
      "entropy": 5.337905216217041,
      "epoch": 0.6450528338136408,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004965974695495746,
      "loss": 5.2756,
      "mean_token_accuracy": 0.1926635518670082,
      "num_tokens": 15397262.0,
      "step": 6715
    },
    {
      "entropy": 5.240037250518799,
      "epoch": 0.6455331412103746,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004965915273049938,
      "loss": 5.2106,
      "mean_token_accuracy": 0.19746471792459488,
      "num_tokens": 15409043.0,
      "step": 6720
    },
    {
      "entropy": 5.357408618927002,
      "epoch": 0.6460134486071085,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004965855799157158,
      "loss": 5.2057,
      "mean_token_accuracy": 0.19802628457546234,
      "num_tokens": 15420859.0,
      "step": 6725
    },
    {
      "entropy": 5.3712615966796875,
      "epoch": 0.6464937560038425,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004965796273818787,
      "loss": 5.2864,
      "mean_token_accuracy": 0.189888796210289,
      "num_tokens": 15433650.0,
      "step": 6730
    },
    {
      "entropy": 5.233816766738892,
      "epoch": 0.6469740634005764,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004965736697036206,
      "loss": 5.1634,
      "mean_token_accuracy": 0.2005162462592125,
      "num_tokens": 15445158.0,
      "step": 6735
    },
    {
      "entropy": 5.397826766967773,
      "epoch": 0.6474543707973103,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004965677068810798,
      "loss": 5.4198,
      "mean_token_accuracy": 0.18722799867391587,
      "num_tokens": 15456974.0,
      "step": 6740
    },
    {
      "entropy": 5.41676893234253,
      "epoch": 0.6479346781940442,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004965617389143947,
      "loss": 5.2898,
      "mean_token_accuracy": 0.19216358810663223,
      "num_tokens": 15467395.0,
      "step": 6745
    },
    {
      "entropy": 5.299721145629883,
      "epoch": 0.6484149855907781,
      "grad_norm": 1.40625,
      "learning_rate": 0.000496555765803704,
      "loss": 5.2777,
      "mean_token_accuracy": 0.19596335887908936,
      "num_tokens": 15479396.0,
      "step": 6750
    },
    {
      "entropy": 5.318911552429199,
      "epoch": 0.648895292987512,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004965497875491462,
      "loss": 5.2232,
      "mean_token_accuracy": 0.20304810851812363,
      "num_tokens": 15490992.0,
      "step": 6755
    },
    {
      "entropy": 5.438581037521362,
      "epoch": 0.6493756003842459,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004965438041508604,
      "loss": 5.3009,
      "mean_token_accuracy": 0.18606224209070205,
      "num_tokens": 15502413.0,
      "step": 6760
    },
    {
      "entropy": 5.337257432937622,
      "epoch": 0.6498559077809798,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004965378156089851,
      "loss": 5.2402,
      "mean_token_accuracy": 0.19228145480155945,
      "num_tokens": 15512588.0,
      "step": 6765
    },
    {
      "entropy": 5.320986652374268,
      "epoch": 0.6503362151777138,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004965318219236597,
      "loss": 5.2151,
      "mean_token_accuracy": 0.19258550703525543,
      "num_tokens": 15523252.0,
      "step": 6770
    },
    {
      "entropy": 5.275221490859986,
      "epoch": 0.6508165225744477,
      "grad_norm": 1.125,
      "learning_rate": 0.0004965258230950232,
      "loss": 5.3192,
      "mean_token_accuracy": 0.19502570629119872,
      "num_tokens": 15534975.0,
      "step": 6775
    },
    {
      "entropy": 5.3065108299255375,
      "epoch": 0.6512968299711815,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004965198191232148,
      "loss": 5.1863,
      "mean_token_accuracy": 0.2026347428560257,
      "num_tokens": 15545709.0,
      "step": 6780
    },
    {
      "entropy": 5.357606697082519,
      "epoch": 0.6517771373679154,
      "grad_norm": 1.109375,
      "learning_rate": 0.000496513810008374,
      "loss": 5.2888,
      "mean_token_accuracy": 0.2010987401008606,
      "num_tokens": 15557270.0,
      "step": 6785
    },
    {
      "entropy": 5.383016109466553,
      "epoch": 0.6522574447646494,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004965077957506403,
      "loss": 5.2384,
      "mean_token_accuracy": 0.1945773482322693,
      "num_tokens": 15569156.0,
      "step": 6790
    },
    {
      "entropy": 5.228867387771606,
      "epoch": 0.6527377521613833,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004965017763501533,
      "loss": 5.1821,
      "mean_token_accuracy": 0.20229731500148773,
      "num_tokens": 15579270.0,
      "step": 6795
    },
    {
      "entropy": 5.204952526092529,
      "epoch": 0.6532180595581172,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004964957518070529,
      "loss": 5.1436,
      "mean_token_accuracy": 0.2022804006934166,
      "num_tokens": 15589912.0,
      "step": 6800
    },
    {
      "entropy": 5.351508712768554,
      "epoch": 0.6536983669548511,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004964897221214788,
      "loss": 5.2636,
      "mean_token_accuracy": 0.1962052032351494,
      "num_tokens": 15601088.0,
      "step": 6805
    },
    {
      "entropy": 5.400100564956665,
      "epoch": 0.654178674351585,
      "grad_norm": 1.15625,
      "learning_rate": 0.000496483687293571,
      "loss": 5.2467,
      "mean_token_accuracy": 0.19797869324684142,
      "num_tokens": 15612520.0,
      "step": 6810
    },
    {
      "entropy": 5.225302648544312,
      "epoch": 0.6546589817483189,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004964776473234696,
      "loss": 5.1854,
      "mean_token_accuracy": 0.20556757897138594,
      "num_tokens": 15623991.0,
      "step": 6815
    },
    {
      "entropy": 5.196185064315796,
      "epoch": 0.6551392891450528,
      "grad_norm": 1.140625,
      "learning_rate": 0.000496471602211315,
      "loss": 5.11,
      "mean_token_accuracy": 0.2007066160440445,
      "num_tokens": 15635389.0,
      "step": 6820
    },
    {
      "entropy": 5.309195470809937,
      "epoch": 0.6556195965417867,
      "grad_norm": 1.25,
      "learning_rate": 0.0004964655519572475,
      "loss": 5.2207,
      "mean_token_accuracy": 0.20262846797704698,
      "num_tokens": 15646427.0,
      "step": 6825
    },
    {
      "entropy": 5.216340732574463,
      "epoch": 0.6560999039385207,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004964594965614072,
      "loss": 5.2179,
      "mean_token_accuracy": 0.192514306306839,
      "num_tokens": 15657518.0,
      "step": 6830
    },
    {
      "entropy": 5.357060527801513,
      "epoch": 0.6565802113352546,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004964534360239353,
      "loss": 5.2477,
      "mean_token_accuracy": 0.19148818552494049,
      "num_tokens": 15669775.0,
      "step": 6835
    },
    {
      "entropy": 5.3501969337463375,
      "epoch": 0.6570605187319885,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000496447370344972,
      "loss": 5.236,
      "mean_token_accuracy": 0.18657899051904678,
      "num_tokens": 15682566.0,
      "step": 6840
    },
    {
      "entropy": 5.258563375473022,
      "epoch": 0.6575408261287223,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004964412995246584,
      "loss": 5.2279,
      "mean_token_accuracy": 0.19911282062530516,
      "num_tokens": 15693168.0,
      "step": 6845
    },
    {
      "entropy": 5.332230424880981,
      "epoch": 0.6580211335254563,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004964352235631354,
      "loss": 5.2429,
      "mean_token_accuracy": 0.19526638984680175,
      "num_tokens": 15703879.0,
      "step": 6850
    },
    {
      "entropy": 5.370284652709961,
      "epoch": 0.6585014409221902,
      "grad_norm": 1.265625,
      "learning_rate": 0.000496429142460544,
      "loss": 5.2742,
      "mean_token_accuracy": 0.19143834859132766,
      "num_tokens": 15716015.0,
      "step": 6855
    },
    {
      "entropy": 5.361678266525269,
      "epoch": 0.6589817483189241,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004964230562170254,
      "loss": 5.2845,
      "mean_token_accuracy": 0.19869090169668197,
      "num_tokens": 15728254.0,
      "step": 6860
    },
    {
      "entropy": 5.305975437164307,
      "epoch": 0.659462055715658,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004964169648327209,
      "loss": 5.2485,
      "mean_token_accuracy": 0.1971095770597458,
      "num_tokens": 15738778.0,
      "step": 6865
    },
    {
      "entropy": 5.41188497543335,
      "epoch": 0.659942363112392,
      "grad_norm": 1.171875,
      "learning_rate": 0.000496410868307772,
      "loss": 5.2555,
      "mean_token_accuracy": 0.194293774664402,
      "num_tokens": 15750305.0,
      "step": 6870
    },
    {
      "entropy": 5.304081630706787,
      "epoch": 0.6604226705091258,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004964047666423203,
      "loss": 5.2242,
      "mean_token_accuracy": 0.19772389829158782,
      "num_tokens": 15761303.0,
      "step": 6875
    },
    {
      "entropy": 5.241645288467407,
      "epoch": 0.6609029779058597,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004963986598365072,
      "loss": 5.1887,
      "mean_token_accuracy": 0.20886375904083251,
      "num_tokens": 15773095.0,
      "step": 6880
    },
    {
      "entropy": 5.377842140197754,
      "epoch": 0.6613832853025937,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004963925478904746,
      "loss": 5.2658,
      "mean_token_accuracy": 0.19911141097545623,
      "num_tokens": 15784405.0,
      "step": 6885
    },
    {
      "entropy": 5.203935384750366,
      "epoch": 0.6618635926993276,
      "grad_norm": 1.125,
      "learning_rate": 0.0004963864308043645,
      "loss": 5.198,
      "mean_token_accuracy": 0.19471461623907088,
      "num_tokens": 15795178.0,
      "step": 6890
    },
    {
      "entropy": 5.240695381164551,
      "epoch": 0.6623439000960615,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004963803085783189,
      "loss": 5.1989,
      "mean_token_accuracy": 0.20192865282297134,
      "num_tokens": 15806205.0,
      "step": 6895
    },
    {
      "entropy": 5.311961603164673,
      "epoch": 0.6628242074927954,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004963741812124799,
      "loss": 5.1274,
      "mean_token_accuracy": 0.20400931388139726,
      "num_tokens": 15817474.0,
      "step": 6900
    },
    {
      "entropy": 5.277816581726074,
      "epoch": 0.6633045148895294,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004963680487069898,
      "loss": 5.2417,
      "mean_token_accuracy": 0.19115398675203324,
      "num_tokens": 15829728.0,
      "step": 6905
    },
    {
      "entropy": 5.356722640991211,
      "epoch": 0.6637848222862632,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004963619110619908,
      "loss": 5.3267,
      "mean_token_accuracy": 0.19444778561592102,
      "num_tokens": 15840082.0,
      "step": 6910
    },
    {
      "entropy": 5.332076549530029,
      "epoch": 0.6642651296829971,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004963557682776256,
      "loss": 5.2147,
      "mean_token_accuracy": 0.19637496322393416,
      "num_tokens": 15851450.0,
      "step": 6915
    },
    {
      "entropy": 5.394643926620484,
      "epoch": 0.664745437079731,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004963496203540368,
      "loss": 5.3604,
      "mean_token_accuracy": 0.18928576707839967,
      "num_tokens": 15864168.0,
      "step": 6920
    },
    {
      "entropy": 5.382654428482056,
      "epoch": 0.665225744476465,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004963434672913671,
      "loss": 5.3005,
      "mean_token_accuracy": 0.1974198803305626,
      "num_tokens": 15875634.0,
      "step": 6925
    },
    {
      "entropy": 5.406427907943725,
      "epoch": 0.6657060518731989,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004963373090897592,
      "loss": 5.304,
      "mean_token_accuracy": 0.19297229051589965,
      "num_tokens": 15888411.0,
      "step": 6930
    },
    {
      "entropy": 5.341877174377442,
      "epoch": 0.6661863592699327,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004963311457493563,
      "loss": 5.2933,
      "mean_token_accuracy": 0.19015721529722213,
      "num_tokens": 15901084.0,
      "step": 6935
    },
    {
      "entropy": 5.429636812210083,
      "epoch": 0.6666666666666666,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004963249772703015,
      "loss": 5.3105,
      "mean_token_accuracy": 0.1917794793844223,
      "num_tokens": 15912061.0,
      "step": 6940
    },
    {
      "entropy": 5.352426385879516,
      "epoch": 0.6671469740634006,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004963188036527378,
      "loss": 5.3612,
      "mean_token_accuracy": 0.1935911074280739,
      "num_tokens": 15925439.0,
      "step": 6945
    },
    {
      "entropy": 5.256782197952271,
      "epoch": 0.6676272814601345,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004963126248968087,
      "loss": 5.0929,
      "mean_token_accuracy": 0.2068867191672325,
      "num_tokens": 15937762.0,
      "step": 6950
    },
    {
      "entropy": 5.249649286270142,
      "epoch": 0.6681075888568684,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004963064410026577,
      "loss": 5.1521,
      "mean_token_accuracy": 0.20011164397001266,
      "num_tokens": 15948656.0,
      "step": 6955
    },
    {
      "entropy": 5.343927001953125,
      "epoch": 0.6685878962536023,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004963002519704281,
      "loss": 5.2221,
      "mean_token_accuracy": 0.19271822571754454,
      "num_tokens": 15960376.0,
      "step": 6960
    },
    {
      "entropy": 5.325286912918091,
      "epoch": 0.6690682036503363,
      "grad_norm": 1.3125,
      "learning_rate": 0.000496294057800264,
      "loss": 5.2315,
      "mean_token_accuracy": 0.19581420868635177,
      "num_tokens": 15971913.0,
      "step": 6965
    },
    {
      "entropy": 5.3356259822845455,
      "epoch": 0.6695485110470701,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004962878584923089,
      "loss": 5.2895,
      "mean_token_accuracy": 0.18817632645368576,
      "num_tokens": 15984775.0,
      "step": 6970
    },
    {
      "entropy": 5.344109296798706,
      "epoch": 0.670028818443804,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004962816540467068,
      "loss": 5.2166,
      "mean_token_accuracy": 0.19363451302051543,
      "num_tokens": 15996717.0,
      "step": 6975
    },
    {
      "entropy": 5.3354270458221436,
      "epoch": 0.6705091258405379,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004962754444636017,
      "loss": 5.2025,
      "mean_token_accuracy": 0.20301510095596315,
      "num_tokens": 16007964.0,
      "step": 6980
    },
    {
      "entropy": 5.232488775253296,
      "epoch": 0.6709894332372719,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000496269229743138,
      "loss": 5.2268,
      "mean_token_accuracy": 0.19161542654037475,
      "num_tokens": 16019185.0,
      "step": 6985
    },
    {
      "entropy": 5.335939073562622,
      "epoch": 0.6714697406340058,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004962630098854597,
      "loss": 5.2341,
      "mean_token_accuracy": 0.2045590490102768,
      "num_tokens": 16029983.0,
      "step": 6990
    },
    {
      "entropy": 5.36190619468689,
      "epoch": 0.6719500480307397,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004962567848907113,
      "loss": 5.1731,
      "mean_token_accuracy": 0.1986493170261383,
      "num_tokens": 16040574.0,
      "step": 6995
    },
    {
      "entropy": 5.364934206008911,
      "epoch": 0.6724303554274735,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004962505547590374,
      "loss": 5.3243,
      "mean_token_accuracy": 0.19473587423563005,
      "num_tokens": 16052037.0,
      "step": 7000
    },
    {
      "entropy": 5.329007911682129,
      "epoch": 0.6729106628242075,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004962443194905826,
      "loss": 5.2961,
      "mean_token_accuracy": 0.19470866173505783,
      "num_tokens": 16063413.0,
      "step": 7005
    },
    {
      "entropy": 5.34464545249939,
      "epoch": 0.6733909702209414,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004962380790854916,
      "loss": 5.186,
      "mean_token_accuracy": 0.1919792741537094,
      "num_tokens": 16074373.0,
      "step": 7010
    },
    {
      "entropy": 5.395242977142334,
      "epoch": 0.6738712776176753,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004962318335439094,
      "loss": 5.3215,
      "mean_token_accuracy": 0.1902454525232315,
      "num_tokens": 16086575.0,
      "step": 7015
    },
    {
      "entropy": 5.374180316925049,
      "epoch": 0.6743515850144092,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004962255828659809,
      "loss": 5.1814,
      "mean_token_accuracy": 0.19680528789758683,
      "num_tokens": 16098529.0,
      "step": 7020
    },
    {
      "entropy": 5.237930870056152,
      "epoch": 0.6748318924111432,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004962193270518513,
      "loss": 5.2299,
      "mean_token_accuracy": 0.20323789566755296,
      "num_tokens": 16110085.0,
      "step": 7025
    },
    {
      "entropy": 5.248058891296386,
      "epoch": 0.675312199807877,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004962130661016659,
      "loss": 5.1142,
      "mean_token_accuracy": 0.20192392021417618,
      "num_tokens": 16120249.0,
      "step": 7030
    },
    {
      "entropy": 5.408255577087402,
      "epoch": 0.6757925072046109,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004962068000155699,
      "loss": 5.4028,
      "mean_token_accuracy": 0.18510753959417342,
      "num_tokens": 16132645.0,
      "step": 7035
    },
    {
      "entropy": 5.360714340209961,
      "epoch": 0.6762728146013448,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004962005287937088,
      "loss": 5.2683,
      "mean_token_accuracy": 0.19801645576953888,
      "num_tokens": 16143808.0,
      "step": 7040
    },
    {
      "entropy": 5.2652663230896,
      "epoch": 0.6767531219980788,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004961942524362283,
      "loss": 5.2683,
      "mean_token_accuracy": 0.199874410033226,
      "num_tokens": 16154309.0,
      "step": 7045
    },
    {
      "entropy": 5.331776762008667,
      "epoch": 0.6772334293948127,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004961879709432741,
      "loss": 5.2157,
      "mean_token_accuracy": 0.19288192838430404,
      "num_tokens": 16164654.0,
      "step": 7050
    },
    {
      "entropy": 5.368539190292358,
      "epoch": 0.6777137367915466,
      "grad_norm": 1.2890625,
      "learning_rate": 0.000496181684314992,
      "loss": 5.2722,
      "mean_token_accuracy": 0.1937314122915268,
      "num_tokens": 16177837.0,
      "step": 7055
    },
    {
      "entropy": 5.267057132720947,
      "epoch": 0.6781940441882806,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004961753925515279,
      "loss": 5.1551,
      "mean_token_accuracy": 0.20363912582397461,
      "num_tokens": 16189073.0,
      "step": 7060
    },
    {
      "entropy": 5.379831266403198,
      "epoch": 0.6786743515850144,
      "grad_norm": 1.34375,
      "learning_rate": 0.000496169095653028,
      "loss": 5.3474,
      "mean_token_accuracy": 0.19800200462341308,
      "num_tokens": 16200371.0,
      "step": 7065
    },
    {
      "entropy": 5.303866577148438,
      "epoch": 0.6791546589817483,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004961627936196384,
      "loss": 5.1378,
      "mean_token_accuracy": 0.19792077392339708,
      "num_tokens": 16210526.0,
      "step": 7070
    },
    {
      "entropy": 5.324541854858398,
      "epoch": 0.6796349663784822,
      "grad_norm": 1.25,
      "learning_rate": 0.0004961564864515055,
      "loss": 5.2485,
      "mean_token_accuracy": 0.19714123010635376,
      "num_tokens": 16221687.0,
      "step": 7075
    },
    {
      "entropy": 5.198392057418824,
      "epoch": 0.6801152737752162,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004961501741487757,
      "loss": 5.1228,
      "mean_token_accuracy": 0.207232241332531,
      "num_tokens": 16233828.0,
      "step": 7080
    },
    {
      "entropy": 5.265508413314819,
      "epoch": 0.6805955811719501,
      "grad_norm": 1.25,
      "learning_rate": 0.0004961438567115955,
      "loss": 5.1098,
      "mean_token_accuracy": 0.20777646452188492,
      "num_tokens": 16243900.0,
      "step": 7085
    },
    {
      "entropy": 5.29700231552124,
      "epoch": 0.681075888568684,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004961375341401116,
      "loss": 5.2056,
      "mean_token_accuracy": 0.19741868525743483,
      "num_tokens": 16256347.0,
      "step": 7090
    },
    {
      "entropy": 5.292010688781739,
      "epoch": 0.6815561959654178,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004961312064344708,
      "loss": 5.1188,
      "mean_token_accuracy": 0.20195768475532533,
      "num_tokens": 16267743.0,
      "step": 7095
    },
    {
      "entropy": 5.1783538341522215,
      "epoch": 0.6820365033621518,
      "grad_norm": 1.3125,
      "learning_rate": 0.00049612487359482,
      "loss": 5.1529,
      "mean_token_accuracy": 0.20347070544958115,
      "num_tokens": 16278280.0,
      "step": 7100
    },
    {
      "entropy": 5.204392337799073,
      "epoch": 0.6825168107588857,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004961185356213062,
      "loss": 5.1439,
      "mean_token_accuracy": 0.20720461010932922,
      "num_tokens": 16288568.0,
      "step": 7105
    },
    {
      "entropy": 5.255360317230225,
      "epoch": 0.6829971181556196,
      "grad_norm": 1.125,
      "learning_rate": 0.0004961121925140767,
      "loss": 5.2192,
      "mean_token_accuracy": 0.20132138431072236,
      "num_tokens": 16300730.0,
      "step": 7110
    },
    {
      "entropy": 5.277251672744751,
      "epoch": 0.6834774255523535,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004961058442732786,
      "loss": 5.2216,
      "mean_token_accuracy": 0.19964685887098313,
      "num_tokens": 16311789.0,
      "step": 7115
    },
    {
      "entropy": 5.32997989654541,
      "epoch": 0.6839577329490875,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004960994908990594,
      "loss": 5.1993,
      "mean_token_accuracy": 0.1934235706925392,
      "num_tokens": 16324439.0,
      "step": 7120
    },
    {
      "entropy": 5.3754744052886965,
      "epoch": 0.6844380403458213,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004960931323915665,
      "loss": 5.3411,
      "mean_token_accuracy": 0.20248763710260392,
      "num_tokens": 16335344.0,
      "step": 7125
    },
    {
      "entropy": 5.296399450302124,
      "epoch": 0.6849183477425552,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004960867687509475,
      "loss": 5.1806,
      "mean_token_accuracy": 0.2043926537036896,
      "num_tokens": 16349018.0,
      "step": 7130
    },
    {
      "entropy": 5.313053369522095,
      "epoch": 0.6853986551392891,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004960803999773504,
      "loss": 5.2619,
      "mean_token_accuracy": 0.1975033849477768,
      "num_tokens": 16360137.0,
      "step": 7135
    },
    {
      "entropy": 5.3848051071167,
      "epoch": 0.6858789625360231,
      "grad_norm": 1.25,
      "learning_rate": 0.0004960740260709228,
      "loss": 5.2692,
      "mean_token_accuracy": 0.19346715658903121,
      "num_tokens": 16372277.0,
      "step": 7140
    },
    {
      "entropy": 5.36100664138794,
      "epoch": 0.686359269932757,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004960676470318128,
      "loss": 5.2727,
      "mean_token_accuracy": 0.19226655662059783,
      "num_tokens": 16383440.0,
      "step": 7145
    },
    {
      "entropy": 5.314020681381225,
      "epoch": 0.6868395773294909,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004960612628601683,
      "loss": 5.228,
      "mean_token_accuracy": 0.19899825602769852,
      "num_tokens": 16394330.0,
      "step": 7150
    },
    {
      "entropy": 5.215233564376831,
      "epoch": 0.6873198847262247,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004960548735561379,
      "loss": 5.15,
      "mean_token_accuracy": 0.20503795742988587,
      "num_tokens": 16405734.0,
      "step": 7155
    },
    {
      "entropy": 5.318601846694946,
      "epoch": 0.6878001921229587,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004960484791198697,
      "loss": 5.1957,
      "mean_token_accuracy": 0.1932004436850548,
      "num_tokens": 16416025.0,
      "step": 7160
    },
    {
      "entropy": 5.244638299942016,
      "epoch": 0.6882804995196926,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004960420795515121,
      "loss": 5.1858,
      "mean_token_accuracy": 0.19369462579488755,
      "num_tokens": 16427416.0,
      "step": 7165
    },
    {
      "entropy": 5.237499618530274,
      "epoch": 0.6887608069164265,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004960356748512138,
      "loss": 5.185,
      "mean_token_accuracy": 0.20407173335552214,
      "num_tokens": 16438073.0,
      "step": 7170
    },
    {
      "entropy": 5.274411201477051,
      "epoch": 0.6892411143131604,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004960292650191236,
      "loss": 5.1486,
      "mean_token_accuracy": 0.1983790621161461,
      "num_tokens": 16449994.0,
      "step": 7175
    },
    {
      "entropy": 5.2747314929962155,
      "epoch": 0.6897214217098944,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004960228500553899,
      "loss": 5.1435,
      "mean_token_accuracy": 0.21412984877824784,
      "num_tokens": 16460355.0,
      "step": 7180
    },
    {
      "entropy": 5.401017570495606,
      "epoch": 0.6902017291066282,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004960164299601623,
      "loss": 5.2192,
      "mean_token_accuracy": 0.19781634211540222,
      "num_tokens": 16472274.0,
      "step": 7185
    },
    {
      "entropy": 5.366089820861816,
      "epoch": 0.6906820365033621,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004960100047335892,
      "loss": 5.2644,
      "mean_token_accuracy": 0.19702471643686295,
      "num_tokens": 16482959.0,
      "step": 7190
    },
    {
      "entropy": 5.314202547073364,
      "epoch": 0.691162343900096,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004960035743758202,
      "loss": 5.2786,
      "mean_token_accuracy": 0.1941748395562172,
      "num_tokens": 16494533.0,
      "step": 7195
    },
    {
      "entropy": 5.2420876026153564,
      "epoch": 0.69164265129683,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004959971388870044,
      "loss": 5.1539,
      "mean_token_accuracy": 0.20189982801675796,
      "num_tokens": 16506124.0,
      "step": 7200
    },
    {
      "entropy": 5.253983736038208,
      "epoch": 0.6921229586935639,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004959906982672912,
      "loss": 5.1791,
      "mean_token_accuracy": 0.19119898676872255,
      "num_tokens": 16517867.0,
      "step": 7205
    },
    {
      "entropy": 5.217931318283081,
      "epoch": 0.6926032660902978,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004959842525168302,
      "loss": 5.11,
      "mean_token_accuracy": 0.20074271708726882,
      "num_tokens": 16529075.0,
      "step": 7210
    },
    {
      "entropy": 5.294466924667359,
      "epoch": 0.6930835734870316,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004959778016357712,
      "loss": 5.1452,
      "mean_token_accuracy": 0.20483478754758835,
      "num_tokens": 16540326.0,
      "step": 7215
    },
    {
      "entropy": 5.280926847457886,
      "epoch": 0.6935638808837656,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004959713456242637,
      "loss": 5.2002,
      "mean_token_accuracy": 0.1991882160305977,
      "num_tokens": 16551570.0,
      "step": 7220
    },
    {
      "entropy": 5.373426103591919,
      "epoch": 0.6940441882804995,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004959648844824576,
      "loss": 5.2523,
      "mean_token_accuracy": 0.19577774852514268,
      "num_tokens": 16562636.0,
      "step": 7225
    },
    {
      "entropy": 5.285389518737793,
      "epoch": 0.6945244956772334,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004959584182105032,
      "loss": 5.1307,
      "mean_token_accuracy": 0.2037241354584694,
      "num_tokens": 16573867.0,
      "step": 7230
    },
    {
      "entropy": 5.235301113128662,
      "epoch": 0.6950048030739674,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004959519468085504,
      "loss": 5.1263,
      "mean_token_accuracy": 0.20582810789346695,
      "num_tokens": 16584533.0,
      "step": 7235
    },
    {
      "entropy": 5.211501741409302,
      "epoch": 0.6954851104707013,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004959454702767494,
      "loss": 5.3437,
      "mean_token_accuracy": 0.20351918488740922,
      "num_tokens": 16596562.0,
      "step": 7240
    },
    {
      "entropy": 5.31222095489502,
      "epoch": 0.6959654178674352,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004959389886152507,
      "loss": 5.1793,
      "mean_token_accuracy": 0.21050842702388764,
      "num_tokens": 16607508.0,
      "step": 7245
    },
    {
      "entropy": 5.342617702484131,
      "epoch": 0.696445725264169,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004959325018242048,
      "loss": 5.2606,
      "mean_token_accuracy": 0.19728082418441772,
      "num_tokens": 16617737.0,
      "step": 7250
    },
    {
      "entropy": 5.327224397659302,
      "epoch": 0.696926032660903,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004959260099037622,
      "loss": 5.2593,
      "mean_token_accuracy": 0.19428612291812897,
      "num_tokens": 16628518.0,
      "step": 7255
    },
    {
      "entropy": 5.318410634994507,
      "epoch": 0.6974063400576369,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004959195128540737,
      "loss": 5.2864,
      "mean_token_accuracy": 0.18943870663642884,
      "num_tokens": 16639644.0,
      "step": 7260
    },
    {
      "entropy": 5.433784484863281,
      "epoch": 0.6978866474543708,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00049591301067529,
      "loss": 5.3405,
      "mean_token_accuracy": 0.18801091760396957,
      "num_tokens": 16650882.0,
      "step": 7265
    },
    {
      "entropy": 5.336638355255127,
      "epoch": 0.6983669548511047,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004959065033675623,
      "loss": 5.2265,
      "mean_token_accuracy": 0.19460077136754989,
      "num_tokens": 16662464.0,
      "step": 7270
    },
    {
      "entropy": 5.355379629135132,
      "epoch": 0.6988472622478387,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004958999909310414,
      "loss": 5.2623,
      "mean_token_accuracy": 0.19179683029651642,
      "num_tokens": 16673718.0,
      "step": 7275
    },
    {
      "entropy": 5.290545892715454,
      "epoch": 0.6993275696445725,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004958934733658788,
      "loss": 5.1873,
      "mean_token_accuracy": 0.19871881008148193,
      "num_tokens": 16684957.0,
      "step": 7280
    },
    {
      "entropy": 5.306415462493897,
      "epoch": 0.6998078770413064,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004958869506722256,
      "loss": 5.2294,
      "mean_token_accuracy": 0.19656572341918946,
      "num_tokens": 16695782.0,
      "step": 7285
    },
    {
      "entropy": 5.280803632736206,
      "epoch": 0.7002881844380403,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004958804228502332,
      "loss": 5.1363,
      "mean_token_accuracy": 0.20514173954725265,
      "num_tokens": 16707448.0,
      "step": 7290
    },
    {
      "entropy": 5.23841404914856,
      "epoch": 0.7007684918347743,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004958738899000534,
      "loss": 5.1653,
      "mean_token_accuracy": 0.19584250301122666,
      "num_tokens": 16718074.0,
      "step": 7295
    },
    {
      "entropy": 5.29450945854187,
      "epoch": 0.7012487992315082,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004958673518218377,
      "loss": 5.2046,
      "mean_token_accuracy": 0.20462729632854462,
      "num_tokens": 16728656.0,
      "step": 7300
    },
    {
      "entropy": 5.307183456420899,
      "epoch": 0.7017291066282421,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004958608086157379,
      "loss": 5.2517,
      "mean_token_accuracy": 0.19895842373371125,
      "num_tokens": 16740703.0,
      "step": 7305
    },
    {
      "entropy": 5.321242046356201,
      "epoch": 0.7022094140249759,
      "grad_norm": 1.125,
      "learning_rate": 0.000495854260281906,
      "loss": 5.1298,
      "mean_token_accuracy": 0.2080679327249527,
      "num_tokens": 16753320.0,
      "step": 7310
    },
    {
      "entropy": 5.1749231815338135,
      "epoch": 0.7026897214217099,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004958477068204941,
      "loss": 5.2007,
      "mean_token_accuracy": 0.20202370434999467,
      "num_tokens": 16764889.0,
      "step": 7315
    },
    {
      "entropy": 5.385407257080078,
      "epoch": 0.7031700288184438,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000495841148231654,
      "loss": 5.2381,
      "mean_token_accuracy": 0.2000655323266983,
      "num_tokens": 16776301.0,
      "step": 7320
    },
    {
      "entropy": 5.351953983306885,
      "epoch": 0.7036503362151777,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004958345845155383,
      "loss": 5.2239,
      "mean_token_accuracy": 0.20341352075338365,
      "num_tokens": 16786935.0,
      "step": 7325
    },
    {
      "entropy": 5.241073179244995,
      "epoch": 0.7041306436119116,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004958280156722992,
      "loss": 5.2238,
      "mean_token_accuracy": 0.1962451696395874,
      "num_tokens": 16799335.0,
      "step": 7330
    },
    {
      "entropy": 5.23271107673645,
      "epoch": 0.7046109510086456,
      "grad_norm": 1.125,
      "learning_rate": 0.0004958214417020894,
      "loss": 5.1471,
      "mean_token_accuracy": 0.20265070348978043,
      "num_tokens": 16811376.0,
      "step": 7335
    },
    {
      "entropy": 5.326413011550903,
      "epoch": 0.7050912584053795,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004958148626050614,
      "loss": 5.2133,
      "mean_token_accuracy": 0.19387653321027756,
      "num_tokens": 16822859.0,
      "step": 7340
    },
    {
      "entropy": 5.298766660690307,
      "epoch": 0.7055715658021133,
      "grad_norm": 1.3984375,
      "learning_rate": 0.000495808278381368,
      "loss": 5.2019,
      "mean_token_accuracy": 0.1966390699148178,
      "num_tokens": 16833831.0,
      "step": 7345
    },
    {
      "entropy": 5.3197509288787845,
      "epoch": 0.7060518731988472,
      "grad_norm": 1.125,
      "learning_rate": 0.000495801689031162,
      "loss": 5.234,
      "mean_token_accuracy": 0.2002715587615967,
      "num_tokens": 16846827.0,
      "step": 7350
    },
    {
      "entropy": 5.338577556610107,
      "epoch": 0.7065321805955812,
      "grad_norm": 1.25,
      "learning_rate": 0.0004957950945545965,
      "loss": 5.2022,
      "mean_token_accuracy": 0.20344888269901276,
      "num_tokens": 16858166.0,
      "step": 7355
    },
    {
      "entropy": 5.377301120758057,
      "epoch": 0.7070124879923151,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004957884949518246,
      "loss": 5.3351,
      "mean_token_accuracy": 0.1826968491077423,
      "num_tokens": 16870201.0,
      "step": 7360
    },
    {
      "entropy": 5.329647397994995,
      "epoch": 0.707492795389049,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004957818902229992,
      "loss": 5.2073,
      "mean_token_accuracy": 0.19947872757911683,
      "num_tokens": 16880891.0,
      "step": 7365
    },
    {
      "entropy": 5.316723299026489,
      "epoch": 0.7079731027857828,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004957752803682741,
      "loss": 5.2801,
      "mean_token_accuracy": 0.19825806319713593,
      "num_tokens": 16893498.0,
      "step": 7370
    },
    {
      "entropy": 5.346575832366943,
      "epoch": 0.7084534101825168,
      "grad_norm": 1.375,
      "learning_rate": 0.0004957686653878024,
      "loss": 5.2538,
      "mean_token_accuracy": 0.1996032789349556,
      "num_tokens": 16904959.0,
      "step": 7375
    },
    {
      "entropy": 5.391040182113647,
      "epoch": 0.7089337175792507,
      "grad_norm": 1.34375,
      "learning_rate": 0.000495762045281738,
      "loss": 5.2735,
      "mean_token_accuracy": 0.19459239691495894,
      "num_tokens": 16916547.0,
      "step": 7380
    },
    {
      "entropy": 5.243378686904907,
      "epoch": 0.7094140249759846,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004957554200502344,
      "loss": 5.2145,
      "mean_token_accuracy": 0.1971280872821808,
      "num_tokens": 16928580.0,
      "step": 7385
    },
    {
      "entropy": 5.325099229812622,
      "epoch": 0.7098943323727186,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004957487896934454,
      "loss": 5.232,
      "mean_token_accuracy": 0.19476460963487624,
      "num_tokens": 16941247.0,
      "step": 7390
    },
    {
      "entropy": 5.422113227844238,
      "epoch": 0.7103746397694525,
      "grad_norm": 1.15625,
      "learning_rate": 0.000495742154211525,
      "loss": 5.2508,
      "mean_token_accuracy": 0.19776693880558013,
      "num_tokens": 16951119.0,
      "step": 7395
    },
    {
      "entropy": 5.253897190093994,
      "epoch": 0.7108549471661864,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004957355136046272,
      "loss": 5.1788,
      "mean_token_accuracy": 0.20065926164388656,
      "num_tokens": 16962608.0,
      "step": 7400
    },
    {
      "entropy": 5.298086404800415,
      "epoch": 0.7113352545629202,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004957288678729064,
      "loss": 5.2149,
      "mean_token_accuracy": 0.19710940271615982,
      "num_tokens": 16973291.0,
      "step": 7405
    },
    {
      "entropy": 5.391532135009766,
      "epoch": 0.7118155619596542,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004957222170165166,
      "loss": 5.2282,
      "mean_token_accuracy": 0.1964917078614235,
      "num_tokens": 16984895.0,
      "step": 7410
    },
    {
      "entropy": 5.302619600296021,
      "epoch": 0.7122958693563881,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004957155610356124,
      "loss": 5.2556,
      "mean_token_accuracy": 0.19016777127981185,
      "num_tokens": 16997109.0,
      "step": 7415
    },
    {
      "entropy": 5.284333562850952,
      "epoch": 0.712776176753122,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004957088999303481,
      "loss": 5.1909,
      "mean_token_accuracy": 0.19305464029312133,
      "num_tokens": 17008640.0,
      "step": 7420
    },
    {
      "entropy": 5.3054125785827635,
      "epoch": 0.7132564841498559,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004957022337008787,
      "loss": 5.1643,
      "mean_token_accuracy": 0.2041031762957573,
      "num_tokens": 17018924.0,
      "step": 7425
    },
    {
      "entropy": 5.2749724864959715,
      "epoch": 0.7137367915465899,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004956955623473587,
      "loss": 5.2059,
      "mean_token_accuracy": 0.19430594891309738,
      "num_tokens": 17029932.0,
      "step": 7430
    },
    {
      "entropy": 5.317395496368408,
      "epoch": 0.7142170989433237,
      "grad_norm": 1.296875,
      "learning_rate": 0.000495688885869943,
      "loss": 5.2942,
      "mean_token_accuracy": 0.19469617754220964,
      "num_tokens": 17042164.0,
      "step": 7435
    },
    {
      "entropy": 5.349671697616577,
      "epoch": 0.7146974063400576,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004956822042687868,
      "loss": 5.2677,
      "mean_token_accuracy": 0.1921522706747055,
      "num_tokens": 17054729.0,
      "step": 7440
    },
    {
      "entropy": 5.250608634948731,
      "epoch": 0.7151777137367915,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004956755175440451,
      "loss": 5.1269,
      "mean_token_accuracy": 0.21212284564971923,
      "num_tokens": 17066537.0,
      "step": 7445
    },
    {
      "entropy": 5.282503080368042,
      "epoch": 0.7156580211335255,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004956688256958731,
      "loss": 5.1974,
      "mean_token_accuracy": 0.200366573035717,
      "num_tokens": 17077787.0,
      "step": 7450
    },
    {
      "entropy": 5.301390218734741,
      "epoch": 0.7161383285302594,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004956621287244262,
      "loss": 5.2218,
      "mean_token_accuracy": 0.1973409503698349,
      "num_tokens": 17089555.0,
      "step": 7455
    },
    {
      "entropy": 5.344415140151978,
      "epoch": 0.7166186359269933,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004956554266298599,
      "loss": 5.1796,
      "mean_token_accuracy": 0.2040402039885521,
      "num_tokens": 17099911.0,
      "step": 7460
    },
    {
      "entropy": 5.202849531173706,
      "epoch": 0.7170989433237271,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004956487194123298,
      "loss": 5.1746,
      "mean_token_accuracy": 0.2012821167707443,
      "num_tokens": 17110880.0,
      "step": 7465
    },
    {
      "entropy": 5.285581064224243,
      "epoch": 0.7175792507204611,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004956420070719918,
      "loss": 5.1395,
      "mean_token_accuracy": 0.20026769638061523,
      "num_tokens": 17122272.0,
      "step": 7470
    },
    {
      "entropy": 5.362657308578491,
      "epoch": 0.718059558117195,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004956352896090014,
      "loss": 5.274,
      "mean_token_accuracy": 0.19526351988315582,
      "num_tokens": 17133995.0,
      "step": 7475
    },
    {
      "entropy": 5.318215322494507,
      "epoch": 0.7185398655139289,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004956285670235147,
      "loss": 5.1494,
      "mean_token_accuracy": 0.20162675380706788,
      "num_tokens": 17145970.0,
      "step": 7480
    },
    {
      "entropy": 5.310476064682007,
      "epoch": 0.7190201729106628,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004956218393156879,
      "loss": 5.3381,
      "mean_token_accuracy": 0.1912968397140503,
      "num_tokens": 17157747.0,
      "step": 7485
    },
    {
      "entropy": 5.311709976196289,
      "epoch": 0.7195004803073968,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004956151064856772,
      "loss": 5.2701,
      "mean_token_accuracy": 0.20224885493516923,
      "num_tokens": 17168357.0,
      "step": 7490
    },
    {
      "entropy": 5.349070930480957,
      "epoch": 0.7199807877041307,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004956083685336386,
      "loss": 5.2336,
      "mean_token_accuracy": 0.20705265551805496,
      "num_tokens": 17179871.0,
      "step": 7495
    },
    {
      "entropy": 5.332374906539917,
      "epoch": 0.7204610951008645,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004956016254597289,
      "loss": 5.1764,
      "mean_token_accuracy": 0.20444130003452302,
      "num_tokens": 17190456.0,
      "step": 7500
    },
    {
      "entropy": 5.290010213851929,
      "epoch": 0.7209414024975984,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004955948772641044,
      "loss": 5.2627,
      "mean_token_accuracy": 0.19260406792163848,
      "num_tokens": 17201623.0,
      "step": 7505
    },
    {
      "entropy": 5.2717503070831295,
      "epoch": 0.7214217098943324,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000495588123946922,
      "loss": 5.1584,
      "mean_token_accuracy": 0.2030091643333435,
      "num_tokens": 17212891.0,
      "step": 7510
    },
    {
      "entropy": 5.332910203933716,
      "epoch": 0.7219020172910663,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004955813655083384,
      "loss": 5.2124,
      "mean_token_accuracy": 0.19683704823255538,
      "num_tokens": 17223983.0,
      "step": 7515
    },
    {
      "entropy": 5.344393396377564,
      "epoch": 0.7223823246878002,
      "grad_norm": 1.25,
      "learning_rate": 0.0004955746019485104,
      "loss": 5.2591,
      "mean_token_accuracy": 0.20013708472251893,
      "num_tokens": 17233701.0,
      "step": 7520
    },
    {
      "entropy": 5.320908880233764,
      "epoch": 0.722862632084534,
      "grad_norm": 1.09375,
      "learning_rate": 0.000495567833267595,
      "loss": 5.2505,
      "mean_token_accuracy": 0.19587977081537247,
      "num_tokens": 17245958.0,
      "step": 7525
    },
    {
      "entropy": 5.409331274032593,
      "epoch": 0.723342939481268,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004955610594657496,
      "loss": 5.2579,
      "mean_token_accuracy": 0.18650022745132447,
      "num_tokens": 17257687.0,
      "step": 7530
    },
    {
      "entropy": 5.327173328399658,
      "epoch": 0.7238232468780019,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004955542805431313,
      "loss": 5.287,
      "mean_token_accuracy": 0.19946179389953614,
      "num_tokens": 17270247.0,
      "step": 7535
    },
    {
      "entropy": 5.272875452041626,
      "epoch": 0.7243035542747358,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004955474964998976,
      "loss": 5.2117,
      "mean_token_accuracy": 0.20549824982881545,
      "num_tokens": 17281920.0,
      "step": 7540
    },
    {
      "entropy": 5.4193642139434814,
      "epoch": 0.7247838616714697,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004955407073362058,
      "loss": 5.3923,
      "mean_token_accuracy": 0.1859695628285408,
      "num_tokens": 17293602.0,
      "step": 7545
    },
    {
      "entropy": 5.421948957443237,
      "epoch": 0.7252641690682037,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004955339130522136,
      "loss": 5.1722,
      "mean_token_accuracy": 0.19999373257160186,
      "num_tokens": 17304484.0,
      "step": 7550
    },
    {
      "entropy": 5.196074771881103,
      "epoch": 0.7257444764649376,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000495527113648079,
      "loss": 5.1102,
      "mean_token_accuracy": 0.2052151992917061,
      "num_tokens": 17314953.0,
      "step": 7555
    },
    {
      "entropy": 5.263898038864136,
      "epoch": 0.7262247838616714,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004955203091239596,
      "loss": 5.2313,
      "mean_token_accuracy": 0.19495706707239152,
      "num_tokens": 17326813.0,
      "step": 7560
    },
    {
      "entropy": 5.3781215190887455,
      "epoch": 0.7267050912584054,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004955134994800134,
      "loss": 5.3161,
      "mean_token_accuracy": 0.1874473437666893,
      "num_tokens": 17337968.0,
      "step": 7565
    },
    {
      "entropy": 5.309977293014526,
      "epoch": 0.7271853986551393,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004955066847163984,
      "loss": 5.2156,
      "mean_token_accuracy": 0.1947050377726555,
      "num_tokens": 17350406.0,
      "step": 7570
    },
    {
      "entropy": 5.217679643630982,
      "epoch": 0.7276657060518732,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004954998648332731,
      "loss": 5.1128,
      "mean_token_accuracy": 0.20684792548418046,
      "num_tokens": 17361888.0,
      "step": 7575
    },
    {
      "entropy": 5.307045364379883,
      "epoch": 0.7281460134486071,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004954930398307956,
      "loss": 5.2392,
      "mean_token_accuracy": 0.196373288333416,
      "num_tokens": 17374047.0,
      "step": 7580
    },
    {
      "entropy": 5.35437798500061,
      "epoch": 0.7286263208453411,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004954862097091245,
      "loss": 5.2254,
      "mean_token_accuracy": 0.18948904722929,
      "num_tokens": 17386175.0,
      "step": 7585
    },
    {
      "entropy": 5.318008661270142,
      "epoch": 0.729106628242075,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004954793744684184,
      "loss": 5.2641,
      "mean_token_accuracy": 0.20655235201120375,
      "num_tokens": 17398168.0,
      "step": 7590
    },
    {
      "entropy": 5.230118227005005,
      "epoch": 0.7295869356388088,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004954725341088358,
      "loss": 5.1178,
      "mean_token_accuracy": 0.2040240153670311,
      "num_tokens": 17408825.0,
      "step": 7595
    },
    {
      "entropy": 5.2700879096984865,
      "epoch": 0.7300672430355427,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004954656886305356,
      "loss": 5.2158,
      "mean_token_accuracy": 0.1991657391190529,
      "num_tokens": 17419813.0,
      "step": 7600
    },
    {
      "entropy": 5.354073095321655,
      "epoch": 0.7305475504322767,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004954588380336768,
      "loss": 5.2669,
      "mean_token_accuracy": 0.1913167342543602,
      "num_tokens": 17431134.0,
      "step": 7605
    },
    {
      "entropy": 5.251888942718506,
      "epoch": 0.7310278578290106,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004954519823184184,
      "loss": 5.1767,
      "mean_token_accuracy": 0.200624917447567,
      "num_tokens": 17442614.0,
      "step": 7610
    },
    {
      "entropy": 5.315543699264526,
      "epoch": 0.7315081652257445,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004954451214849196,
      "loss": 5.1714,
      "mean_token_accuracy": 0.19947559833526612,
      "num_tokens": 17454615.0,
      "step": 7615
    },
    {
      "entropy": 5.376033115386963,
      "epoch": 0.7319884726224783,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004954382555333397,
      "loss": 5.2185,
      "mean_token_accuracy": 0.1976114273071289,
      "num_tokens": 17467025.0,
      "step": 7620
    },
    {
      "entropy": 5.226950979232788,
      "epoch": 0.7324687800192123,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000495431384463838,
      "loss": 5.1785,
      "mean_token_accuracy": 0.20502081364393235,
      "num_tokens": 17477681.0,
      "step": 7625
    },
    {
      "entropy": 5.305552339553833,
      "epoch": 0.7329490874159462,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004954245082765741,
      "loss": 5.2359,
      "mean_token_accuracy": 0.1983788013458252,
      "num_tokens": 17489814.0,
      "step": 7630
    },
    {
      "entropy": 5.342312955856324,
      "epoch": 0.7334293948126801,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004954176269717077,
      "loss": 5.231,
      "mean_token_accuracy": 0.19795534610748292,
      "num_tokens": 17501701.0,
      "step": 7635
    },
    {
      "entropy": 5.281050443649292,
      "epoch": 0.733909702209414,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004954107405493984,
      "loss": 5.1416,
      "mean_token_accuracy": 0.203464774787426,
      "num_tokens": 17513585.0,
      "step": 7640
    },
    {
      "entropy": 5.367125082015991,
      "epoch": 0.734390009606148,
      "grad_norm": 1.25,
      "learning_rate": 0.0004954038490098064,
      "loss": 5.2764,
      "mean_token_accuracy": 0.20417422205209732,
      "num_tokens": 17525557.0,
      "step": 7645
    },
    {
      "entropy": 5.269024848937988,
      "epoch": 0.7348703170028819,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004953969523530914,
      "loss": 5.1457,
      "mean_token_accuracy": 0.195808245241642,
      "num_tokens": 17538312.0,
      "step": 7650
    },
    {
      "entropy": 5.354407835006714,
      "epoch": 0.7353506243996157,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004953900505794136,
      "loss": 5.2732,
      "mean_token_accuracy": 0.1993303641676903,
      "num_tokens": 17550248.0,
      "step": 7655
    },
    {
      "entropy": 5.282435178756714,
      "epoch": 0.7358309317963496,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004953831436889332,
      "loss": 5.1346,
      "mean_token_accuracy": 0.19791701585054397,
      "num_tokens": 17560624.0,
      "step": 7660
    },
    {
      "entropy": 5.303052854537964,
      "epoch": 0.7363112391930836,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004953762316818106,
      "loss": 5.1963,
      "mean_token_accuracy": 0.19871004968881606,
      "num_tokens": 17572439.0,
      "step": 7665
    },
    {
      "entropy": 5.351328325271607,
      "epoch": 0.7367915465898175,
      "grad_norm": 1.125,
      "learning_rate": 0.0004953693145582064,
      "loss": 5.2461,
      "mean_token_accuracy": 0.18978616893291472,
      "num_tokens": 17583120.0,
      "step": 7670
    },
    {
      "entropy": 5.191801738739014,
      "epoch": 0.7372718539865514,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000495362392318281,
      "loss": 5.0753,
      "mean_token_accuracy": 0.2021123856306076,
      "num_tokens": 17593677.0,
      "step": 7675
    },
    {
      "entropy": 5.268652153015137,
      "epoch": 0.7377521613832853,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004953554649621951,
      "loss": 5.2193,
      "mean_token_accuracy": 0.19628288149833678,
      "num_tokens": 17605180.0,
      "step": 7680
    },
    {
      "entropy": 5.3253484725952145,
      "epoch": 0.7382324687800192,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004953485324901098,
      "loss": 5.1844,
      "mean_token_accuracy": 0.20035452097654344,
      "num_tokens": 17617459.0,
      "step": 7685
    },
    {
      "entropy": 5.265099334716797,
      "epoch": 0.7387127761767531,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004953415949021857,
      "loss": 5.185,
      "mean_token_accuracy": 0.19952280819416046,
      "num_tokens": 17628024.0,
      "step": 7690
    },
    {
      "entropy": 5.240673971176148,
      "epoch": 0.739193083573487,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004953346521985843,
      "loss": 5.2044,
      "mean_token_accuracy": 0.19829180389642714,
      "num_tokens": 17639833.0,
      "step": 7695
    },
    {
      "entropy": 5.402639627456665,
      "epoch": 0.7396733909702209,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004953277043794663,
      "loss": 5.2946,
      "mean_token_accuracy": 0.18773587048053741,
      "num_tokens": 17651057.0,
      "step": 7700
    },
    {
      "entropy": 5.30786247253418,
      "epoch": 0.7401536983669549,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004953207514449933,
      "loss": 5.1709,
      "mean_token_accuracy": 0.20614788979291915,
      "num_tokens": 17662288.0,
      "step": 7705
    },
    {
      "entropy": 5.260968112945557,
      "epoch": 0.7406340057636888,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004953137933953267,
      "loss": 5.1842,
      "mean_token_accuracy": 0.1984902873635292,
      "num_tokens": 17673885.0,
      "step": 7710
    },
    {
      "entropy": 5.276099634170532,
      "epoch": 0.7411143131604226,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000495306830230628,
      "loss": 5.2038,
      "mean_token_accuracy": 0.20187791883945466,
      "num_tokens": 17685030.0,
      "step": 7715
    },
    {
      "entropy": 5.298851442337036,
      "epoch": 0.7415946205571565,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004952998619510589,
      "loss": 5.1554,
      "mean_token_accuracy": 0.20665809214115144,
      "num_tokens": 17696624.0,
      "step": 7720
    },
    {
      "entropy": 5.264416313171386,
      "epoch": 0.7420749279538905,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004952928885567811,
      "loss": 5.1403,
      "mean_token_accuracy": 0.20183341205120087,
      "num_tokens": 17707386.0,
      "step": 7725
    },
    {
      "entropy": 5.397011804580688,
      "epoch": 0.7425552353506244,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004952859100479566,
      "loss": 5.3804,
      "mean_token_accuracy": 0.18951933234930038,
      "num_tokens": 17718605.0,
      "step": 7730
    },
    {
      "entropy": 5.272250413894653,
      "epoch": 0.7430355427473583,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004952789264247474,
      "loss": 5.1757,
      "mean_token_accuracy": 0.1989718645811081,
      "num_tokens": 17730275.0,
      "step": 7735
    },
    {
      "entropy": 5.323815870285034,
      "epoch": 0.7435158501440923,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004952719376873156,
      "loss": 5.2921,
      "mean_token_accuracy": 0.19190367460250854,
      "num_tokens": 17741390.0,
      "step": 7740
    },
    {
      "entropy": 5.308934831619263,
      "epoch": 0.7439961575408262,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004952649438358234,
      "loss": 5.1731,
      "mean_token_accuracy": 0.20842925161123277,
      "num_tokens": 17752354.0,
      "step": 7745
    },
    {
      "entropy": 5.308169984817505,
      "epoch": 0.74447646493756,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004952579448704334,
      "loss": 5.1631,
      "mean_token_accuracy": 0.20139929056167602,
      "num_tokens": 17762839.0,
      "step": 7750
    },
    {
      "entropy": 5.350342273712158,
      "epoch": 0.7449567723342939,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000495250940791308,
      "loss": 5.2605,
      "mean_token_accuracy": 0.19137903451919555,
      "num_tokens": 17775800.0,
      "step": 7755
    },
    {
      "entropy": 5.306150579452515,
      "epoch": 0.7454370797310279,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004952439315986096,
      "loss": 5.1811,
      "mean_token_accuracy": 0.19805798083543777,
      "num_tokens": 17787804.0,
      "step": 7760
    },
    {
      "entropy": 5.341886854171753,
      "epoch": 0.7459173871277618,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004952369172925012,
      "loss": 5.2853,
      "mean_token_accuracy": 0.1993953987956047,
      "num_tokens": 17800291.0,
      "step": 7765
    },
    {
      "entropy": 5.292854881286621,
      "epoch": 0.7463976945244957,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004952298978731454,
      "loss": 5.147,
      "mean_token_accuracy": 0.20547049790620803,
      "num_tokens": 17811548.0,
      "step": 7770
    },
    {
      "entropy": 5.28916335105896,
      "epoch": 0.7468780019212296,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004952228733407055,
      "loss": 5.1011,
      "mean_token_accuracy": 0.20431289821863174,
      "num_tokens": 17822589.0,
      "step": 7775
    },
    {
      "entropy": 5.175790548324585,
      "epoch": 0.7473583093179635,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004952158436953444,
      "loss": 5.1236,
      "mean_token_accuracy": 0.20223413705825805,
      "num_tokens": 17834203.0,
      "step": 7780
    },
    {
      "entropy": 5.22423152923584,
      "epoch": 0.7478386167146974,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004952088089372252,
      "loss": 5.2105,
      "mean_token_accuracy": 0.19397516399621964,
      "num_tokens": 17846238.0,
      "step": 7785
    },
    {
      "entropy": 5.331250286102295,
      "epoch": 0.7483189241114313,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004952017690665114,
      "loss": 5.1324,
      "mean_token_accuracy": 0.2026346132159233,
      "num_tokens": 17857640.0,
      "step": 7790
    },
    {
      "entropy": 5.280352592468262,
      "epoch": 0.7487992315081652,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004951947240833664,
      "loss": 5.1374,
      "mean_token_accuracy": 0.20421989113092423,
      "num_tokens": 17868755.0,
      "step": 7795
    },
    {
      "entropy": 5.23347110748291,
      "epoch": 0.7492795389048992,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004951876739879537,
      "loss": 5.2158,
      "mean_token_accuracy": 0.1939207211136818,
      "num_tokens": 17881078.0,
      "step": 7800
    },
    {
      "entropy": 5.29048261642456,
      "epoch": 0.7497598463016331,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004951806187804371,
      "loss": 5.1629,
      "mean_token_accuracy": 0.19929923862218857,
      "num_tokens": 17893888.0,
      "step": 7805
    },
    {
      "entropy": 5.296859693527222,
      "epoch": 0.7502401536983669,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004951735584609804,
      "loss": 5.2196,
      "mean_token_accuracy": 0.19920673221349716,
      "num_tokens": 17904443.0,
      "step": 7810
    },
    {
      "entropy": 5.286273050308227,
      "epoch": 0.7507204610951008,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004951664930297474,
      "loss": 5.217,
      "mean_token_accuracy": 0.20082310885190963,
      "num_tokens": 17918090.0,
      "step": 7815
    },
    {
      "entropy": 5.227938318252564,
      "epoch": 0.7512007684918348,
      "grad_norm": 1.1875,
      "learning_rate": 0.000495159422486902,
      "loss": 5.161,
      "mean_token_accuracy": 0.20609356909990312,
      "num_tokens": 17929233.0,
      "step": 7820
    },
    {
      "entropy": 5.242263078689575,
      "epoch": 0.7516810758885687,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004951523468326088,
      "loss": 5.1965,
      "mean_token_accuracy": 0.19512112885713578,
      "num_tokens": 17940580.0,
      "step": 7825
    },
    {
      "entropy": 5.342494058609009,
      "epoch": 0.7521613832853026,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004951452660670317,
      "loss": 5.278,
      "mean_token_accuracy": 0.18720510900020598,
      "num_tokens": 17953993.0,
      "step": 7830
    },
    {
      "entropy": 5.285890769958496,
      "epoch": 0.7526416906820365,
      "grad_norm": 1.125,
      "learning_rate": 0.0004951381801903352,
      "loss": 5.11,
      "mean_token_accuracy": 0.20024892687797546,
      "num_tokens": 17966033.0,
      "step": 7835
    },
    {
      "entropy": 5.114803695678711,
      "epoch": 0.7531219980787704,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004951310892026839,
      "loss": 5.0968,
      "mean_token_accuracy": 0.2095889687538147,
      "num_tokens": 17977943.0,
      "step": 7840
    },
    {
      "entropy": 5.293044853210449,
      "epoch": 0.7536023054755043,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004951239931042424,
      "loss": 5.1698,
      "mean_token_accuracy": 0.20413365513086318,
      "num_tokens": 17990135.0,
      "step": 7845
    },
    {
      "entropy": 5.279680919647217,
      "epoch": 0.7540826128722382,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004951168918951753,
      "loss": 5.2056,
      "mean_token_accuracy": 0.20387261509895324,
      "num_tokens": 18002126.0,
      "step": 7850
    },
    {
      "entropy": 5.190751075744629,
      "epoch": 0.7545629202689721,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004951097855756476,
      "loss": 5.0763,
      "mean_token_accuracy": 0.20258077830076218,
      "num_tokens": 18013147.0,
      "step": 7855
    },
    {
      "entropy": 5.328785943984985,
      "epoch": 0.7550432276657061,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004951026741458243,
      "loss": 5.1906,
      "mean_token_accuracy": 0.19995464086532594,
      "num_tokens": 18025146.0,
      "step": 7860
    },
    {
      "entropy": 5.261568832397461,
      "epoch": 0.75552353506244,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004950955576058705,
      "loss": 5.1556,
      "mean_token_accuracy": 0.19386046081781388,
      "num_tokens": 18036412.0,
      "step": 7865
    },
    {
      "entropy": 5.259433937072754,
      "epoch": 0.7560038424591738,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004950884359559513,
      "loss": 5.2224,
      "mean_token_accuracy": 0.20132519155740738,
      "num_tokens": 18048041.0,
      "step": 7870
    },
    {
      "entropy": 5.339427757263183,
      "epoch": 0.7564841498559077,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004950813091962324,
      "loss": 5.277,
      "mean_token_accuracy": 0.19186609387397766,
      "num_tokens": 18060163.0,
      "step": 7875
    },
    {
      "entropy": 5.334090280532837,
      "epoch": 0.7569644572526417,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004950741773268788,
      "loss": 5.1936,
      "mean_token_accuracy": 0.1961333230137825,
      "num_tokens": 18071628.0,
      "step": 7880
    },
    {
      "entropy": 5.1901530742645265,
      "epoch": 0.7574447646493756,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004950670403480562,
      "loss": 5.0997,
      "mean_token_accuracy": 0.20009191036224366,
      "num_tokens": 18082979.0,
      "step": 7885
    },
    {
      "entropy": 5.252532863616944,
      "epoch": 0.7579250720461095,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004950598982599306,
      "loss": 5.1792,
      "mean_token_accuracy": 0.20101021528244017,
      "num_tokens": 18093889.0,
      "step": 7890
    },
    {
      "entropy": 5.262256002426147,
      "epoch": 0.7584053794428435,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004950527510626675,
      "loss": 5.2165,
      "mean_token_accuracy": 0.19798852652311325,
      "num_tokens": 18105559.0,
      "step": 7895
    },
    {
      "entropy": 5.3081278800964355,
      "epoch": 0.7588856868395774,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004950455987564329,
      "loss": 5.2965,
      "mean_token_accuracy": 0.19645372927188873,
      "num_tokens": 18116316.0,
      "step": 7900
    },
    {
      "entropy": 5.334239339828491,
      "epoch": 0.7593659942363112,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004950384413413931,
      "loss": 5.1851,
      "mean_token_accuracy": 0.19774624109268188,
      "num_tokens": 18126851.0,
      "step": 7905
    },
    {
      "entropy": 5.322545146942138,
      "epoch": 0.7598463016330451,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004950312788177139,
      "loss": 5.277,
      "mean_token_accuracy": 0.19229816943407058,
      "num_tokens": 18139571.0,
      "step": 7910
    },
    {
      "entropy": 5.347561597824097,
      "epoch": 0.7603266090297791,
      "grad_norm": 1.125,
      "learning_rate": 0.0004950241111855618,
      "loss": 5.2449,
      "mean_token_accuracy": 0.19438967555761338,
      "num_tokens": 18150680.0,
      "step": 7915
    },
    {
      "entropy": 5.285850143432617,
      "epoch": 0.760806916426513,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004950169384451031,
      "loss": 5.1977,
      "mean_token_accuracy": 0.20325633138418198,
      "num_tokens": 18161911.0,
      "step": 7920
    },
    {
      "entropy": 5.3055215835571286,
      "epoch": 0.7612872238232469,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004950097605965045,
      "loss": 5.1865,
      "mean_token_accuracy": 0.20584756135940552,
      "num_tokens": 18172714.0,
      "step": 7925
    },
    {
      "entropy": 5.3049579620361325,
      "epoch": 0.7617675312199808,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004950025776399326,
      "loss": 5.1777,
      "mean_token_accuracy": 0.20212606489658355,
      "num_tokens": 18184250.0,
      "step": 7930
    },
    {
      "entropy": 5.343746089935303,
      "epoch": 0.7622478386167147,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000494995389575554,
      "loss": 5.298,
      "mean_token_accuracy": 0.19154924601316453,
      "num_tokens": 18195299.0,
      "step": 7935
    },
    {
      "entropy": 5.377411794662476,
      "epoch": 0.7627281460134486,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004949881964035357,
      "loss": 5.3633,
      "mean_token_accuracy": 0.1878654807806015,
      "num_tokens": 18206863.0,
      "step": 7940
    },
    {
      "entropy": 5.3593430519104,
      "epoch": 0.7632084534101825,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004949809981240448,
      "loss": 5.2789,
      "mean_token_accuracy": 0.19559144079685212,
      "num_tokens": 18219643.0,
      "step": 7945
    },
    {
      "entropy": 5.277910900115967,
      "epoch": 0.7636887608069164,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004949737947372483,
      "loss": 5.1325,
      "mean_token_accuracy": 0.20357694774866103,
      "num_tokens": 18230461.0,
      "step": 7950
    },
    {
      "entropy": 5.320190668106079,
      "epoch": 0.7641690682036504,
      "grad_norm": 2.125,
      "learning_rate": 0.0004949665862433134,
      "loss": 5.2868,
      "mean_token_accuracy": 0.19289156794548035,
      "num_tokens": 18243768.0,
      "step": 7955
    },
    {
      "entropy": 5.296690511703491,
      "epoch": 0.7646493756003843,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004949593726424077,
      "loss": 5.1664,
      "mean_token_accuracy": 0.2003849595785141,
      "num_tokens": 18255322.0,
      "step": 7960
    },
    {
      "entropy": 5.291482019424438,
      "epoch": 0.7651296829971181,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004949521539346985,
      "loss": 5.2128,
      "mean_token_accuracy": 0.20742505341768264,
      "num_tokens": 18267262.0,
      "step": 7965
    },
    {
      "entropy": 5.294230127334595,
      "epoch": 0.765609990393852,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004949449301203533,
      "loss": 5.1096,
      "mean_token_accuracy": 0.20100534409284593,
      "num_tokens": 18277332.0,
      "step": 7970
    },
    {
      "entropy": 5.269995260238647,
      "epoch": 0.766090297790586,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004949377011995399,
      "loss": 5.2462,
      "mean_token_accuracy": 0.20773502439260483,
      "num_tokens": 18289547.0,
      "step": 7975
    },
    {
      "entropy": 5.273986148834228,
      "epoch": 0.7665706051873199,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004949304671724263,
      "loss": 5.1432,
      "mean_token_accuracy": 0.20398979485034943,
      "num_tokens": 18302097.0,
      "step": 7980
    },
    {
      "entropy": 5.271750497817993,
      "epoch": 0.7670509125840538,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004949232280391802,
      "loss": 5.2367,
      "mean_token_accuracy": 0.19723534286022187,
      "num_tokens": 18314151.0,
      "step": 7985
    },
    {
      "entropy": 5.288878488540649,
      "epoch": 0.7675312199807877,
      "grad_norm": 1.25,
      "learning_rate": 0.0004949159837999698,
      "loss": 5.17,
      "mean_token_accuracy": 0.19713514000177385,
      "num_tokens": 18326085.0,
      "step": 7990
    },
    {
      "entropy": 5.297585439682007,
      "epoch": 0.7680115273775217,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004949087344549633,
      "loss": 5.1623,
      "mean_token_accuracy": 0.19341499507427215,
      "num_tokens": 18338158.0,
      "step": 7995
    },
    {
      "entropy": 5.30235710144043,
      "epoch": 0.7684918347742555,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000494901480004329,
      "loss": 5.1809,
      "mean_token_accuracy": 0.20551337599754332,
      "num_tokens": 18349418.0,
      "step": 8000
    },
    {
      "entropy": 5.301124715805054,
      "epoch": 0.7689721421709894,
      "grad_norm": 1.25,
      "learning_rate": 0.0004948942204482351,
      "loss": 5.1761,
      "mean_token_accuracy": 0.20214684456586837,
      "num_tokens": 18361964.0,
      "step": 8005
    },
    {
      "entropy": 5.219300603866577,
      "epoch": 0.7694524495677233,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004948869557868506,
      "loss": 5.0979,
      "mean_token_accuracy": 0.21326844096183778,
      "num_tokens": 18373108.0,
      "step": 8010
    },
    {
      "entropy": 5.1787127494812015,
      "epoch": 0.7699327569644573,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004948796860203439,
      "loss": 5.123,
      "mean_token_accuracy": 0.20177519619464873,
      "num_tokens": 18385310.0,
      "step": 8015
    },
    {
      "entropy": 5.337287092208863,
      "epoch": 0.7704130643611912,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004948724111488838,
      "loss": 5.2967,
      "mean_token_accuracy": 0.19337289929389953,
      "num_tokens": 18396132.0,
      "step": 8020
    },
    {
      "entropy": 5.4783307075500485,
      "epoch": 0.770893371757925,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004948651311726391,
      "loss": 5.4042,
      "mean_token_accuracy": 0.18754971623420716,
      "num_tokens": 18409930.0,
      "step": 8025
    },
    {
      "entropy": 5.384222173690796,
      "epoch": 0.7713736791546589,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004948578460917789,
      "loss": 5.2773,
      "mean_token_accuracy": 0.19422808140516282,
      "num_tokens": 18421204.0,
      "step": 8030
    },
    {
      "entropy": 5.340588712692261,
      "epoch": 0.7718539865513929,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004948505559064725,
      "loss": 5.1639,
      "mean_token_accuracy": 0.20545457750558854,
      "num_tokens": 18433194.0,
      "step": 8035
    },
    {
      "entropy": 5.259980058670044,
      "epoch": 0.7723342939481268,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004948432606168889,
      "loss": 5.1246,
      "mean_token_accuracy": 0.20445887744426727,
      "num_tokens": 18445282.0,
      "step": 8040
    },
    {
      "entropy": 5.232318782806397,
      "epoch": 0.7728146013448607,
      "grad_norm": 1.25,
      "learning_rate": 0.0004948359602231976,
      "loss": 5.1841,
      "mean_token_accuracy": 0.20268695801496506,
      "num_tokens": 18456264.0,
      "step": 8045
    },
    {
      "entropy": 5.2557531833648685,
      "epoch": 0.7732949087415946,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004948286547255681,
      "loss": 5.12,
      "mean_token_accuracy": 0.20428049117326735,
      "num_tokens": 18467573.0,
      "step": 8050
    },
    {
      "entropy": 5.278136920928955,
      "epoch": 0.7737752161383286,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00049482134412417,
      "loss": 5.0755,
      "mean_token_accuracy": 0.2096497043967247,
      "num_tokens": 18478333.0,
      "step": 8055
    },
    {
      "entropy": 5.19740858078003,
      "epoch": 0.7742555235350624,
      "grad_norm": 1.3828125,
      "learning_rate": 0.000494814028419173,
      "loss": 5.1055,
      "mean_token_accuracy": 0.20423219799995423,
      "num_tokens": 18489106.0,
      "step": 8060
    },
    {
      "entropy": 5.313218450546264,
      "epoch": 0.7747358309317963,
      "grad_norm": 1.1875,
      "learning_rate": 0.000494806707610747,
      "loss": 5.2388,
      "mean_token_accuracy": 0.1978022873401642,
      "num_tokens": 18500090.0,
      "step": 8065
    },
    {
      "entropy": 5.315935182571411,
      "epoch": 0.7752161383285303,
      "grad_norm": 1.2578125,
      "learning_rate": 0.000494799381699062,
      "loss": 5.1933,
      "mean_token_accuracy": 0.20687556862831116,
      "num_tokens": 18510305.0,
      "step": 8070
    },
    {
      "entropy": 5.306492900848388,
      "epoch": 0.7756964457252642,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004947920506842879,
      "loss": 5.1982,
      "mean_token_accuracy": 0.1990632399916649,
      "num_tokens": 18523048.0,
      "step": 8075
    },
    {
      "entropy": 5.279481077194214,
      "epoch": 0.7761767531219981,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004947847145665951,
      "loss": 5.1368,
      "mean_token_accuracy": 0.2043842852115631,
      "num_tokens": 18534145.0,
      "step": 8080
    },
    {
      "entropy": 5.309163236618042,
      "epoch": 0.776657060518732,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004947773733461539,
      "loss": 5.18,
      "mean_token_accuracy": 0.20123105943202974,
      "num_tokens": 18545045.0,
      "step": 8085
    },
    {
      "entropy": 5.278306007385254,
      "epoch": 0.777137367915466,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004947700270231347,
      "loss": 5.1526,
      "mean_token_accuracy": 0.2032118022441864,
      "num_tokens": 18557531.0,
      "step": 8090
    },
    {
      "entropy": 5.23764853477478,
      "epoch": 0.7776176753121998,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004947626755977079,
      "loss": 5.1887,
      "mean_token_accuracy": 0.19730121344327928,
      "num_tokens": 18569127.0,
      "step": 8095
    },
    {
      "entropy": 5.3856611251831055,
      "epoch": 0.7780979827089337,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004947553190700444,
      "loss": 5.2255,
      "mean_token_accuracy": 0.20432638376951218,
      "num_tokens": 18580606.0,
      "step": 8100
    },
    {
      "entropy": 5.353847932815552,
      "epoch": 0.7785782901056676,
      "grad_norm": 1.2109375,
      "learning_rate": 0.000494747957440315,
      "loss": 5.3448,
      "mean_token_accuracy": 0.1883766993880272,
      "num_tokens": 18592330.0,
      "step": 8105
    },
    {
      "entropy": 5.406799602508545,
      "epoch": 0.7790585975024016,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004947405907086905,
      "loss": 5.3101,
      "mean_token_accuracy": 0.1930047556757927,
      "num_tokens": 18604721.0,
      "step": 8110
    },
    {
      "entropy": 5.2951795101165775,
      "epoch": 0.7795389048991355,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004947332188753419,
      "loss": 5.1811,
      "mean_token_accuracy": 0.2039830431342125,
      "num_tokens": 18616814.0,
      "step": 8115
    },
    {
      "entropy": 5.2599467754364015,
      "epoch": 0.7800192122958693,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004947258419404405,
      "loss": 5.1832,
      "mean_token_accuracy": 0.19927904903888702,
      "num_tokens": 18628224.0,
      "step": 8120
    },
    {
      "entropy": 5.2949143409729,
      "epoch": 0.7804995196926032,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004947184599041576,
      "loss": 5.2286,
      "mean_token_accuracy": 0.19865068048238754,
      "num_tokens": 18639777.0,
      "step": 8125
    },
    {
      "entropy": 5.241250896453858,
      "epoch": 0.7809798270893372,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004947110727666644,
      "loss": 5.1412,
      "mean_token_accuracy": 0.2019078940153122,
      "num_tokens": 18651044.0,
      "step": 8130
    },
    {
      "entropy": 5.28899393081665,
      "epoch": 0.7814601344860711,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004947036805281325,
      "loss": 5.2099,
      "mean_token_accuracy": 0.2031030997633934,
      "num_tokens": 18663142.0,
      "step": 8135
    },
    {
      "entropy": 5.4257384777069095,
      "epoch": 0.781940441882805,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004946962831887336,
      "loss": 5.2878,
      "mean_token_accuracy": 0.1936602771282196,
      "num_tokens": 18674079.0,
      "step": 8140
    },
    {
      "entropy": 5.335578870773316,
      "epoch": 0.7824207492795389,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004946888807486393,
      "loss": 5.272,
      "mean_token_accuracy": 0.1942149966955185,
      "num_tokens": 18685744.0,
      "step": 8145
    },
    {
      "entropy": 5.229654836654663,
      "epoch": 0.7829010566762729,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004946814732080214,
      "loss": 5.1577,
      "mean_token_accuracy": 0.19906039535999298,
      "num_tokens": 18697049.0,
      "step": 8150
    },
    {
      "entropy": 5.2480401515960695,
      "epoch": 0.7833813640730067,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004946740605670523,
      "loss": 5.171,
      "mean_token_accuracy": 0.20052818953990936,
      "num_tokens": 18708765.0,
      "step": 8155
    },
    {
      "entropy": 5.28274884223938,
      "epoch": 0.7838616714697406,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004946666428259037,
      "loss": 5.1497,
      "mean_token_accuracy": 0.20465652495622635,
      "num_tokens": 18719819.0,
      "step": 8160
    },
    {
      "entropy": 5.361910057067871,
      "epoch": 0.7843419788664745,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004946592199847478,
      "loss": 5.2101,
      "mean_token_accuracy": 0.19702319502830506,
      "num_tokens": 18730668.0,
      "step": 8165
    },
    {
      "entropy": 5.166529130935669,
      "epoch": 0.7848222862632085,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004946517920437571,
      "loss": 5.0232,
      "mean_token_accuracy": 0.205000402033329,
      "num_tokens": 18741991.0,
      "step": 8170
    },
    {
      "entropy": 5.288968944549561,
      "epoch": 0.7853025936599424,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004946443590031041,
      "loss": 5.2402,
      "mean_token_accuracy": 0.1971651256084442,
      "num_tokens": 18753919.0,
      "step": 8175
    },
    {
      "entropy": 5.322829055786133,
      "epoch": 0.7857829010566763,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004946369208629613,
      "loss": 5.136,
      "mean_token_accuracy": 0.20793365240097045,
      "num_tokens": 18764342.0,
      "step": 8180
    },
    {
      "entropy": 5.140931224822998,
      "epoch": 0.7862632084534101,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004946294776235013,
      "loss": 5.1578,
      "mean_token_accuracy": 0.2009105786681175,
      "num_tokens": 18776044.0,
      "step": 8185
    },
    {
      "entropy": 5.405412912368774,
      "epoch": 0.7867435158501441,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004946220292848971,
      "loss": 5.2153,
      "mean_token_accuracy": 0.20181388556957244,
      "num_tokens": 18787354.0,
      "step": 8190
    },
    {
      "entropy": 5.33922643661499,
      "epoch": 0.787223823246878,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004946145758473214,
      "loss": 5.1366,
      "mean_token_accuracy": 0.20076511055231094,
      "num_tokens": 18797845.0,
      "step": 8195
    },
    {
      "entropy": 5.270247936248779,
      "epoch": 0.7877041306436119,
      "grad_norm": 1.25,
      "learning_rate": 0.0004946071173109475,
      "loss": 5.2099,
      "mean_token_accuracy": 0.19680924713611603,
      "num_tokens": 18809253.0,
      "step": 8200
    },
    {
      "entropy": 5.210458469390869,
      "epoch": 0.7881844380403458,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004945996536759484,
      "loss": 5.0893,
      "mean_token_accuracy": 0.20848129391670228,
      "num_tokens": 18819768.0,
      "step": 8205
    },
    {
      "entropy": 5.4275593757629395,
      "epoch": 0.7886647454370798,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004945921849424974,
      "loss": 5.3408,
      "mean_token_accuracy": 0.19263991117477416,
      "num_tokens": 18831151.0,
      "step": 8210
    },
    {
      "entropy": 5.344443464279175,
      "epoch": 0.7891450528338136,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004945847111107679,
      "loss": 5.113,
      "mean_token_accuracy": 0.20607621520757674,
      "num_tokens": 18842133.0,
      "step": 8215
    },
    {
      "entropy": 5.285537433624268,
      "epoch": 0.7896253602305475,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004945772321809334,
      "loss": 5.2747,
      "mean_token_accuracy": 0.19406631737947463,
      "num_tokens": 18853295.0,
      "step": 8220
    },
    {
      "entropy": 5.242657232284546,
      "epoch": 0.7901056676272814,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004945697481531677,
      "loss": 5.2147,
      "mean_token_accuracy": 0.20358818471431733,
      "num_tokens": 18865802.0,
      "step": 8225
    },
    {
      "entropy": 5.291993951797485,
      "epoch": 0.7905859750240154,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004945622590276443,
      "loss": 5.1269,
      "mean_token_accuracy": 0.21141389459371568,
      "num_tokens": 18877693.0,
      "step": 8230
    },
    {
      "entropy": 5.316649341583252,
      "epoch": 0.7910662824207493,
      "grad_norm": 1.25,
      "learning_rate": 0.0004945547648045373,
      "loss": 5.1811,
      "mean_token_accuracy": 0.20542819797992706,
      "num_tokens": 18888549.0,
      "step": 8235
    },
    {
      "entropy": 5.251237916946411,
      "epoch": 0.7915465898174832,
      "grad_norm": 1.5,
      "learning_rate": 0.0004945472654840206,
      "loss": 5.1278,
      "mean_token_accuracy": 0.20496677309274675,
      "num_tokens": 18899132.0,
      "step": 8240
    },
    {
      "entropy": 5.192249727249146,
      "epoch": 0.7920268972142172,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004945397610662683,
      "loss": 5.1362,
      "mean_token_accuracy": 0.1992405891418457,
      "num_tokens": 18911774.0,
      "step": 8245
    },
    {
      "entropy": 5.370453500747681,
      "epoch": 0.792507204610951,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004945322515514547,
      "loss": 5.2096,
      "mean_token_accuracy": 0.20203327834606172,
      "num_tokens": 18922806.0,
      "step": 8250
    },
    {
      "entropy": 5.284592056274414,
      "epoch": 0.7929875120076849,
      "grad_norm": 1.203125,
      "learning_rate": 0.000494524736939754,
      "loss": 5.1768,
      "mean_token_accuracy": 0.20510386675596237,
      "num_tokens": 18934861.0,
      "step": 8255
    },
    {
      "entropy": 5.287734031677246,
      "epoch": 0.7934678194044188,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004945172172313408,
      "loss": 5.1468,
      "mean_token_accuracy": 0.20960791260004044,
      "num_tokens": 18944269.0,
      "step": 8260
    },
    {
      "entropy": 5.277343654632569,
      "epoch": 0.7939481268011528,
      "grad_norm": 1.625,
      "learning_rate": 0.0004945096924263896,
      "loss": 5.2071,
      "mean_token_accuracy": 0.19710262566804887,
      "num_tokens": 18957197.0,
      "step": 8265
    },
    {
      "entropy": 5.340837478637695,
      "epoch": 0.7944284341978867,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004945021625250753,
      "loss": 5.1948,
      "mean_token_accuracy": 0.19287520945072173,
      "num_tokens": 18968254.0,
      "step": 8270
    },
    {
      "entropy": 5.223880767822266,
      "epoch": 0.7949087415946205,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004944946275275724,
      "loss": 5.115,
      "mean_token_accuracy": 0.2050468847155571,
      "num_tokens": 18979372.0,
      "step": 8275
    },
    {
      "entropy": 5.223621273040772,
      "epoch": 0.7953890489913544,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004944870874340561,
      "loss": 5.1239,
      "mean_token_accuracy": 0.20524471253156662,
      "num_tokens": 18991075.0,
      "step": 8280
    },
    {
      "entropy": 5.2544965744018555,
      "epoch": 0.7958693563880884,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004944795422447013,
      "loss": 5.0548,
      "mean_token_accuracy": 0.20748359262943267,
      "num_tokens": 19002324.0,
      "step": 8285
    },
    {
      "entropy": 5.34930009841919,
      "epoch": 0.7963496637848223,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004944719919596835,
      "loss": 5.2493,
      "mean_token_accuracy": 0.1979260191321373,
      "num_tokens": 19014406.0,
      "step": 8290
    },
    {
      "entropy": 5.200772380828857,
      "epoch": 0.7968299711815562,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004944644365791776,
      "loss": 5.1136,
      "mean_token_accuracy": 0.20155889242887498,
      "num_tokens": 19025984.0,
      "step": 8295
    },
    {
      "entropy": 5.297162580490112,
      "epoch": 0.7973102785782901,
      "grad_norm": 1.296875,
      "learning_rate": 0.000494456876103359,
      "loss": 5.2354,
      "mean_token_accuracy": 0.20328541100025177,
      "num_tokens": 19036189.0,
      "step": 8300
    },
    {
      "entropy": 5.296557950973511,
      "epoch": 0.7977905859750241,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004944493105324035,
      "loss": 5.207,
      "mean_token_accuracy": 0.19707799553871155,
      "num_tokens": 19047587.0,
      "step": 8305
    },
    {
      "entropy": 5.326691627502441,
      "epoch": 0.7982708933717579,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004944417398664866,
      "loss": 5.2014,
      "mean_token_accuracy": 0.1997044637799263,
      "num_tokens": 19058467.0,
      "step": 8310
    },
    {
      "entropy": 5.3209089756011965,
      "epoch": 0.7987512007684918,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004944341641057843,
      "loss": 5.2646,
      "mean_token_accuracy": 0.19579226821660994,
      "num_tokens": 19070235.0,
      "step": 8315
    },
    {
      "entropy": 5.347403049468994,
      "epoch": 0.7992315081652257,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004944265832504721,
      "loss": 5.2227,
      "mean_token_accuracy": 0.19858405888080596,
      "num_tokens": 19082005.0,
      "step": 8320
    },
    {
      "entropy": 5.348876476287842,
      "epoch": 0.7997118155619597,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004944189973007262,
      "loss": 5.2395,
      "mean_token_accuracy": 0.1973268657922745,
      "num_tokens": 19092922.0,
      "step": 8325
    },
    {
      "entropy": 5.313145542144776,
      "epoch": 0.8001921229586936,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004944114062567229,
      "loss": 5.2259,
      "mean_token_accuracy": 0.19848893135786055,
      "num_tokens": 19104832.0,
      "step": 8330
    },
    {
      "entropy": 5.300992155075074,
      "epoch": 0.8006724303554275,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004944038101186381,
      "loss": 5.2693,
      "mean_token_accuracy": 0.20075047612190247,
      "num_tokens": 19116261.0,
      "step": 8335
    },
    {
      "entropy": 5.354841804504394,
      "epoch": 0.8011527377521613,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004943962088866483,
      "loss": 5.2437,
      "mean_token_accuracy": 0.19408100843429565,
      "num_tokens": 19127195.0,
      "step": 8340
    },
    {
      "entropy": 5.398009014129639,
      "epoch": 0.8016330451488953,
      "grad_norm": 1.25,
      "learning_rate": 0.0004943886025609301,
      "loss": 5.2731,
      "mean_token_accuracy": 0.19554793536663057,
      "num_tokens": 19138164.0,
      "step": 8345
    },
    {
      "entropy": 5.338754367828369,
      "epoch": 0.8021133525456292,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00049438099114166,
      "loss": 5.2362,
      "mean_token_accuracy": 0.19320564866065978,
      "num_tokens": 19149153.0,
      "step": 8350
    },
    {
      "entropy": 5.311693477630615,
      "epoch": 0.8025936599423631,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004943733746290147,
      "loss": 5.2499,
      "mean_token_accuracy": 0.19263479709625245,
      "num_tokens": 19161023.0,
      "step": 8355
    },
    {
      "entropy": 5.233406496047974,
      "epoch": 0.803073967339097,
      "grad_norm": 1.28125,
      "learning_rate": 0.000494365753023171,
      "loss": 5.1045,
      "mean_token_accuracy": 0.21303804814815522,
      "num_tokens": 19172466.0,
      "step": 8360
    },
    {
      "entropy": 5.315703201293945,
      "epoch": 0.803554274735831,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004943581263243059,
      "loss": 5.1847,
      "mean_token_accuracy": 0.20322347730398177,
      "num_tokens": 19183684.0,
      "step": 8365
    },
    {
      "entropy": 5.203450679779053,
      "epoch": 0.8040345821325648,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004943504945325965,
      "loss": 5.0808,
      "mean_token_accuracy": 0.20951220840215684,
      "num_tokens": 19194479.0,
      "step": 8370
    },
    {
      "entropy": 5.310950231552124,
      "epoch": 0.8045148895292987,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004943428576482198,
      "loss": 5.1797,
      "mean_token_accuracy": 0.19598036706447602,
      "num_tokens": 19206323.0,
      "step": 8375
    },
    {
      "entropy": 5.409931755065918,
      "epoch": 0.8049951969260326,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004943352156713535,
      "loss": 5.2646,
      "mean_token_accuracy": 0.19424921572208403,
      "num_tokens": 19218849.0,
      "step": 8380
    },
    {
      "entropy": 5.2228189468383786,
      "epoch": 0.8054755043227666,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004943275686021747,
      "loss": 5.0933,
      "mean_token_accuracy": 0.2045307993888855,
      "num_tokens": 19229603.0,
      "step": 8385
    },
    {
      "entropy": 5.316561031341553,
      "epoch": 0.8059558117195005,
      "grad_norm": 1.21875,
      "learning_rate": 0.000494319916440861,
      "loss": 5.2698,
      "mean_token_accuracy": 0.19353571087121962,
      "num_tokens": 19241318.0,
      "step": 8390
    },
    {
      "entropy": 5.331172943115234,
      "epoch": 0.8064361191162344,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004943122591875901,
      "loss": 5.1608,
      "mean_token_accuracy": 0.201753132045269,
      "num_tokens": 19252640.0,
      "step": 8395
    },
    {
      "entropy": 5.2201464653015135,
      "epoch": 0.8069164265129684,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004943045968425398,
      "loss": 5.1455,
      "mean_token_accuracy": 0.20201311111450196,
      "num_tokens": 19262971.0,
      "step": 8400
    },
    {
      "entropy": 5.3145428657531735,
      "epoch": 0.8073967339097022,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004942969294058878,
      "loss": 5.2328,
      "mean_token_accuracy": 0.1995360553264618,
      "num_tokens": 19274426.0,
      "step": 8405
    },
    {
      "entropy": 5.307784461975098,
      "epoch": 0.8078770413064361,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004942892568778125,
      "loss": 5.1895,
      "mean_token_accuracy": 0.20282406657934188,
      "num_tokens": 19286806.0,
      "step": 8410
    },
    {
      "entropy": 5.257102823257446,
      "epoch": 0.80835734870317,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004942815792584917,
      "loss": 5.164,
      "mean_token_accuracy": 0.20003714710474013,
      "num_tokens": 19297997.0,
      "step": 8415
    },
    {
      "entropy": 5.2559874057769775,
      "epoch": 0.808837656099904,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004942738965481038,
      "loss": 5.1548,
      "mean_token_accuracy": 0.2016161561012268,
      "num_tokens": 19309789.0,
      "step": 8420
    },
    {
      "entropy": 5.270598459243774,
      "epoch": 0.8093179634966379,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004942662087468272,
      "loss": 5.1497,
      "mean_token_accuracy": 0.2061583325266838,
      "num_tokens": 19320688.0,
      "step": 8425
    },
    {
      "entropy": 5.307732200622558,
      "epoch": 0.8097982708933718,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004942585158548402,
      "loss": 5.1946,
      "mean_token_accuracy": 0.2020473822951317,
      "num_tokens": 19331670.0,
      "step": 8430
    },
    {
      "entropy": 5.252246427536011,
      "epoch": 0.8102785782901056,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004942508178723214,
      "loss": 5.1434,
      "mean_token_accuracy": 0.19983597844839096,
      "num_tokens": 19343578.0,
      "step": 8435
    },
    {
      "entropy": 5.280768489837646,
      "epoch": 0.8107588856868396,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004942431147994499,
      "loss": 5.1919,
      "mean_token_accuracy": 0.20007235407829285,
      "num_tokens": 19354875.0,
      "step": 8440
    },
    {
      "entropy": 5.264632368087769,
      "epoch": 0.8112391930835735,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004942354066364042,
      "loss": 5.1298,
      "mean_token_accuracy": 0.20225782990455626,
      "num_tokens": 19366353.0,
      "step": 8445
    },
    {
      "entropy": 5.154706716537476,
      "epoch": 0.8117195004803074,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004942276933833634,
      "loss": 5.0671,
      "mean_token_accuracy": 0.2101285368204117,
      "num_tokens": 19377534.0,
      "step": 8450
    },
    {
      "entropy": 5.28000054359436,
      "epoch": 0.8121998078770413,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004942199750405064,
      "loss": 5.2018,
      "mean_token_accuracy": 0.19314154237508774,
      "num_tokens": 19388188.0,
      "step": 8455
    },
    {
      "entropy": 5.197183513641358,
      "epoch": 0.8126801152737753,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004942122516080127,
      "loss": 5.0585,
      "mean_token_accuracy": 0.21394696682691575,
      "num_tokens": 19399910.0,
      "step": 8460
    },
    {
      "entropy": 5.321963691711426,
      "epoch": 0.8131604226705091,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004942045230860614,
      "loss": 5.2039,
      "mean_token_accuracy": 0.20521147847175597,
      "num_tokens": 19411715.0,
      "step": 8465
    },
    {
      "entropy": 5.375604724884033,
      "epoch": 0.813640730067243,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004941967894748319,
      "loss": 5.2942,
      "mean_token_accuracy": 0.19328842014074327,
      "num_tokens": 19423275.0,
      "step": 8470
    },
    {
      "entropy": 5.287278127670288,
      "epoch": 0.8141210374639769,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004941890507745039,
      "loss": 5.221,
      "mean_token_accuracy": 0.1964712470769882,
      "num_tokens": 19436035.0,
      "step": 8475
    },
    {
      "entropy": 5.246680879592896,
      "epoch": 0.8146013448607109,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004941813069852569,
      "loss": 5.1855,
      "mean_token_accuracy": 0.19806223958730698,
      "num_tokens": 19447755.0,
      "step": 8480
    },
    {
      "entropy": 5.337065172195435,
      "epoch": 0.8150816522574448,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004941735581072708,
      "loss": 5.1272,
      "mean_token_accuracy": 0.20841425210237502,
      "num_tokens": 19459044.0,
      "step": 8485
    },
    {
      "entropy": 5.253565120697021,
      "epoch": 0.8155619596541787,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004941658041407255,
      "loss": 5.1429,
      "mean_token_accuracy": 0.20152915716171266,
      "num_tokens": 19471486.0,
      "step": 8490
    },
    {
      "entropy": 5.191393518447876,
      "epoch": 0.8160422670509125,
      "grad_norm": 1.296875,
      "learning_rate": 0.000494158045085801,
      "loss": 5.0798,
      "mean_token_accuracy": 0.2094142973423004,
      "num_tokens": 19482428.0,
      "step": 8495
    },
    {
      "entropy": 5.303775215148926,
      "epoch": 0.8165225744476465,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004941502809426776,
      "loss": 5.2344,
      "mean_token_accuracy": 0.20312505811452866,
      "num_tokens": 19494616.0,
      "step": 8500
    },
    {
      "entropy": 5.311273241043091,
      "epoch": 0.8170028818443804,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004941425117115354,
      "loss": 5.1312,
      "mean_token_accuracy": 0.19991155862808227,
      "num_tokens": 19504953.0,
      "step": 8505
    },
    {
      "entropy": 5.307030820846558,
      "epoch": 0.8174831892411143,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004941347373925547,
      "loss": 5.2125,
      "mean_token_accuracy": 0.20029536336660386,
      "num_tokens": 19517408.0,
      "step": 8510
    },
    {
      "entropy": 5.188129425048828,
      "epoch": 0.8179634966378482,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004941269579859161,
      "loss": 5.1463,
      "mean_token_accuracy": 0.20623117536306382,
      "num_tokens": 19529190.0,
      "step": 8515
    },
    {
      "entropy": 5.283451843261719,
      "epoch": 0.8184438040345822,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004941191734918002,
      "loss": 5.1822,
      "mean_token_accuracy": 0.19969442188739778,
      "num_tokens": 19540278.0,
      "step": 8520
    },
    {
      "entropy": 5.270493650436402,
      "epoch": 0.818924111431316,
      "grad_norm": 1.15625,
      "learning_rate": 0.000494111383910388,
      "loss": 5.1628,
      "mean_token_accuracy": 0.2021285906434059,
      "num_tokens": 19551224.0,
      "step": 8525
    },
    {
      "entropy": 5.344288444519043,
      "epoch": 0.8194044188280499,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004941035892418597,
      "loss": 5.2,
      "mean_token_accuracy": 0.19705056995153428,
      "num_tokens": 19564386.0,
      "step": 8530
    },
    {
      "entropy": 5.330119323730469,
      "epoch": 0.8198847262247838,
      "grad_norm": 1.125,
      "learning_rate": 0.0004940957894863968,
      "loss": 5.1846,
      "mean_token_accuracy": 0.20080768764019014,
      "num_tokens": 19576170.0,
      "step": 8535
    },
    {
      "entropy": 5.294156408309936,
      "epoch": 0.8203650336215178,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004940879846441804,
      "loss": 5.1453,
      "mean_token_accuracy": 0.20027249306440353,
      "num_tokens": 19587220.0,
      "step": 8540
    },
    {
      "entropy": 5.254690933227539,
      "epoch": 0.8208453410182517,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004940801747153914,
      "loss": 5.152,
      "mean_token_accuracy": 0.20080652981996536,
      "num_tokens": 19598649.0,
      "step": 8545
    },
    {
      "entropy": 5.252722549438476,
      "epoch": 0.8213256484149856,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004940723597002113,
      "loss": 5.2088,
      "mean_token_accuracy": 0.1964610293507576,
      "num_tokens": 19610243.0,
      "step": 8550
    },
    {
      "entropy": 5.271253156661987,
      "epoch": 0.8218059558117194,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004940645395988216,
      "loss": 5.2269,
      "mean_token_accuracy": 0.1978047624230385,
      "num_tokens": 19621467.0,
      "step": 8555
    },
    {
      "entropy": 5.397564172744751,
      "epoch": 0.8222862632084534,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004940567144114036,
      "loss": 5.3089,
      "mean_token_accuracy": 0.18792566508054734,
      "num_tokens": 19633367.0,
      "step": 8560
    },
    {
      "entropy": 5.240535068511963,
      "epoch": 0.8227665706051873,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004940488841381393,
      "loss": 5.1488,
      "mean_token_accuracy": 0.20554967522621154,
      "num_tokens": 19643144.0,
      "step": 8565
    },
    {
      "entropy": 5.280447959899902,
      "epoch": 0.8232468780019212,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004940410487792103,
      "loss": 5.238,
      "mean_token_accuracy": 0.19904158860445023,
      "num_tokens": 19654501.0,
      "step": 8570
    },
    {
      "entropy": 5.359654140472412,
      "epoch": 0.8237271853986552,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004940332083347986,
      "loss": 5.1943,
      "mean_token_accuracy": 0.195090389251709,
      "num_tokens": 19665382.0,
      "step": 8575
    },
    {
      "entropy": 5.263187026977539,
      "epoch": 0.8242074927953891,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004940253628050861,
      "loss": 5.0497,
      "mean_token_accuracy": 0.2040240526199341,
      "num_tokens": 19677222.0,
      "step": 8580
    },
    {
      "entropy": 5.184061717987061,
      "epoch": 0.824687800192123,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004940175121902552,
      "loss": 5.1351,
      "mean_token_accuracy": 0.2033315122127533,
      "num_tokens": 19688550.0,
      "step": 8585
    },
    {
      "entropy": 5.364740371704102,
      "epoch": 0.8251681075888568,
      "grad_norm": 1.3203125,
      "learning_rate": 0.000494009656490488,
      "loss": 5.2543,
      "mean_token_accuracy": 0.19725525230169297,
      "num_tokens": 19700125.0,
      "step": 8590
    },
    {
      "entropy": 5.361681652069092,
      "epoch": 0.8256484149855908,
      "grad_norm": 1.125,
      "learning_rate": 0.0004940017957059668,
      "loss": 5.2424,
      "mean_token_accuracy": 0.19780150651931763,
      "num_tokens": 19711969.0,
      "step": 8595
    },
    {
      "entropy": 5.24332218170166,
      "epoch": 0.8261287223823247,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004939939298368742,
      "loss": 5.1943,
      "mean_token_accuracy": 0.20086236745119096,
      "num_tokens": 19723813.0,
      "step": 8600
    },
    {
      "entropy": 5.300223016738892,
      "epoch": 0.8266090297790586,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004939860588833929,
      "loss": 5.2175,
      "mean_token_accuracy": 0.1928972378373146,
      "num_tokens": 19735539.0,
      "step": 8605
    },
    {
      "entropy": 5.409295749664307,
      "epoch": 0.8270893371757925,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004939781828457055,
      "loss": 5.3039,
      "mean_token_accuracy": 0.19560184627771376,
      "num_tokens": 19747106.0,
      "step": 8610
    },
    {
      "entropy": 5.279783630371094,
      "epoch": 0.8275696445725265,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000493970301723995,
      "loss": 5.2012,
      "mean_token_accuracy": 0.21216825842857362,
      "num_tokens": 19760156.0,
      "step": 8615
    },
    {
      "entropy": 5.249637460708618,
      "epoch": 0.8280499519692603,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004939624155184443,
      "loss": 5.0916,
      "mean_token_accuracy": 0.20376598685979844,
      "num_tokens": 19771256.0,
      "step": 8620
    },
    {
      "entropy": 5.247362232208252,
      "epoch": 0.8285302593659942,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004939545242292365,
      "loss": 5.0985,
      "mean_token_accuracy": 0.20896128118038176,
      "num_tokens": 19781332.0,
      "step": 8625
    },
    {
      "entropy": 5.298260116577149,
      "epoch": 0.8290105667627281,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004939466278565547,
      "loss": 5.2686,
      "mean_token_accuracy": 0.19464389234781265,
      "num_tokens": 19793573.0,
      "step": 8630
    },
    {
      "entropy": 5.274344348907471,
      "epoch": 0.8294908741594621,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004939387264005825,
      "loss": 5.1697,
      "mean_token_accuracy": 0.20536390393972398,
      "num_tokens": 19803421.0,
      "step": 8635
    },
    {
      "entropy": 5.219406032562256,
      "epoch": 0.829971181556196,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004939308198615031,
      "loss": 5.0333,
      "mean_token_accuracy": 0.21232510209083558,
      "num_tokens": 19814440.0,
      "step": 8640
    },
    {
      "entropy": 5.218847370147705,
      "epoch": 0.8304514889529299,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004939229082395001,
      "loss": 5.1656,
      "mean_token_accuracy": 0.203065949678421,
      "num_tokens": 19825721.0,
      "step": 8645
    },
    {
      "entropy": 5.23597731590271,
      "epoch": 0.8309317963496637,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004939149915347573,
      "loss": 5.118,
      "mean_token_accuracy": 0.20436252951622008,
      "num_tokens": 19837273.0,
      "step": 8650
    },
    {
      "entropy": 5.303889560699463,
      "epoch": 0.8314121037463977,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004939070697474585,
      "loss": 5.1542,
      "mean_token_accuracy": 0.20653810799121858,
      "num_tokens": 19849436.0,
      "step": 8655
    },
    {
      "entropy": 5.191540098190307,
      "epoch": 0.8318924111431316,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004938991428777875,
      "loss": 5.024,
      "mean_token_accuracy": 0.21526659429073333,
      "num_tokens": 19860222.0,
      "step": 8660
    },
    {
      "entropy": 5.258981561660766,
      "epoch": 0.8323727185398655,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004938912109259284,
      "loss": 5.1197,
      "mean_token_accuracy": 0.20716548562049866,
      "num_tokens": 19870934.0,
      "step": 8665
    },
    {
      "entropy": 5.302361869812012,
      "epoch": 0.8328530259365994,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004938832738920654,
      "loss": 5.1999,
      "mean_token_accuracy": 0.19550460278987886,
      "num_tokens": 19882149.0,
      "step": 8670
    },
    {
      "entropy": 5.235181427001953,
      "epoch": 0.8333333333333334,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004938753317763826,
      "loss": 5.1105,
      "mean_token_accuracy": 0.20328403115272523,
      "num_tokens": 19893276.0,
      "step": 8675
    },
    {
      "entropy": 5.312360382080078,
      "epoch": 0.8338136407300673,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004938673845790646,
      "loss": 5.285,
      "mean_token_accuracy": 0.193190498650074,
      "num_tokens": 19904723.0,
      "step": 8680
    },
    {
      "entropy": 5.3193567276000975,
      "epoch": 0.8342939481268011,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004938594323002957,
      "loss": 5.1907,
      "mean_token_accuracy": 0.1986311361193657,
      "num_tokens": 19915226.0,
      "step": 8685
    },
    {
      "entropy": 5.285708665847778,
      "epoch": 0.834774255523535,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004938514749402609,
      "loss": 5.2077,
      "mean_token_accuracy": 0.19915120750665666,
      "num_tokens": 19927911.0,
      "step": 8690
    },
    {
      "entropy": 5.2792503356933596,
      "epoch": 0.835254562920269,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004938435124991447,
      "loss": 5.2415,
      "mean_token_accuracy": 0.2002886116504669,
      "num_tokens": 19940356.0,
      "step": 8695
    },
    {
      "entropy": 5.316353034973145,
      "epoch": 0.8357348703170029,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004938355449771318,
      "loss": 5.2102,
      "mean_token_accuracy": 0.1947380557656288,
      "num_tokens": 19951108.0,
      "step": 8700
    },
    {
      "entropy": 5.217819595336914,
      "epoch": 0.8362151777137368,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004938275723744075,
      "loss": 5.1384,
      "mean_token_accuracy": 0.20654254257678986,
      "num_tokens": 19962427.0,
      "step": 8705
    },
    {
      "entropy": 5.329318904876709,
      "epoch": 0.8366954851104706,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004938195946911567,
      "loss": 5.2467,
      "mean_token_accuracy": 0.1941828101873398,
      "num_tokens": 19973476.0,
      "step": 8710
    },
    {
      "entropy": 5.303026580810547,
      "epoch": 0.8371757925072046,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004938116119275645,
      "loss": 5.1976,
      "mean_token_accuracy": 0.20169365853071214,
      "num_tokens": 19984034.0,
      "step": 8715
    },
    {
      "entropy": 5.358089828491211,
      "epoch": 0.8376560999039385,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004938036240838166,
      "loss": 5.2273,
      "mean_token_accuracy": 0.19537217020988465,
      "num_tokens": 19996035.0,
      "step": 8720
    },
    {
      "entropy": 5.276670169830322,
      "epoch": 0.8381364073006724,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004937956311600983,
      "loss": 5.1475,
      "mean_token_accuracy": 0.20285791158676147,
      "num_tokens": 20007259.0,
      "step": 8725
    },
    {
      "entropy": 5.261865663528442,
      "epoch": 0.8386167146974063,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004937876331565951,
      "loss": 5.1463,
      "mean_token_accuracy": 0.19915680289268495,
      "num_tokens": 20018673.0,
      "step": 8730
    },
    {
      "entropy": 5.294298076629639,
      "epoch": 0.8390970220941403,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004937796300734926,
      "loss": 5.1975,
      "mean_token_accuracy": 0.20387612730264665,
      "num_tokens": 20030767.0,
      "step": 8735
    },
    {
      "entropy": 5.3252601146698,
      "epoch": 0.8395773294908742,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004937716219109769,
      "loss": 5.2188,
      "mean_token_accuracy": 0.19471233934164048,
      "num_tokens": 20041268.0,
      "step": 8740
    },
    {
      "entropy": 5.241558361053467,
      "epoch": 0.840057636887608,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004937636086692336,
      "loss": 5.0847,
      "mean_token_accuracy": 0.21300528049468995,
      "num_tokens": 20052285.0,
      "step": 8745
    },
    {
      "entropy": 5.35512056350708,
      "epoch": 0.840537944284342,
      "grad_norm": 1.3671875,
      "learning_rate": 0.000493755590348449,
      "loss": 5.2941,
      "mean_token_accuracy": 0.19627934098243713,
      "num_tokens": 20065113.0,
      "step": 8750
    },
    {
      "entropy": 5.437167024612426,
      "epoch": 0.8410182516810759,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004937475669488091,
      "loss": 5.2709,
      "mean_token_accuracy": 0.1977367326617241,
      "num_tokens": 20076151.0,
      "step": 8755
    },
    {
      "entropy": 5.263547420501709,
      "epoch": 0.8414985590778098,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004937395384705004,
      "loss": 5.2141,
      "mean_token_accuracy": 0.19887446761131286,
      "num_tokens": 20088195.0,
      "step": 8760
    },
    {
      "entropy": 5.211323404312134,
      "epoch": 0.8419788664745437,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004937315049137089,
      "loss": 5.0603,
      "mean_token_accuracy": 0.21020377576351165,
      "num_tokens": 20098576.0,
      "step": 8765
    },
    {
      "entropy": 5.343924474716187,
      "epoch": 0.8424591738712777,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004937234662786216,
      "loss": 5.2761,
      "mean_token_accuracy": 0.19456166923046112,
      "num_tokens": 20110176.0,
      "step": 8770
    },
    {
      "entropy": 5.3267858028411865,
      "epoch": 0.8429394812680115,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004937154225654246,
      "loss": 5.18,
      "mean_token_accuracy": 0.20727563351392747,
      "num_tokens": 20121713.0,
      "step": 8775
    },
    {
      "entropy": 5.364311075210571,
      "epoch": 0.8434197886647454,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004937073737743051,
      "loss": 5.2787,
      "mean_token_accuracy": 0.19634425789117813,
      "num_tokens": 20134126.0,
      "step": 8780
    },
    {
      "entropy": 5.2509232521057125,
      "epoch": 0.8439000960614793,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004936993199054499,
      "loss": 5.1719,
      "mean_token_accuracy": 0.20614974945783615,
      "num_tokens": 20144791.0,
      "step": 8785
    },
    {
      "entropy": 5.353460693359375,
      "epoch": 0.8443804034582133,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004936912609590458,
      "loss": 5.3211,
      "mean_token_accuracy": 0.19727177768945695,
      "num_tokens": 20157214.0,
      "step": 8790
    },
    {
      "entropy": 5.415266323089599,
      "epoch": 0.8448607108549472,
      "grad_norm": 1.203125,
      "learning_rate": 0.00049368319693528,
      "loss": 5.3047,
      "mean_token_accuracy": 0.18851037174463273,
      "num_tokens": 20168952.0,
      "step": 8795
    },
    {
      "entropy": 5.313450288772583,
      "epoch": 0.8453410182516811,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004936751278343397,
      "loss": 5.1884,
      "mean_token_accuracy": 0.1982526332139969,
      "num_tokens": 20181829.0,
      "step": 8800
    },
    {
      "entropy": 5.392148017883301,
      "epoch": 0.845821325648415,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004936670536564123,
      "loss": 5.3346,
      "mean_token_accuracy": 0.18645845502614974,
      "num_tokens": 20193362.0,
      "step": 8805
    },
    {
      "entropy": 5.310501289367676,
      "epoch": 0.8463016330451489,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004936589744016853,
      "loss": 5.2495,
      "mean_token_accuracy": 0.1979646310210228,
      "num_tokens": 20205159.0,
      "step": 8810
    },
    {
      "entropy": 5.309202194213867,
      "epoch": 0.8467819404418828,
      "grad_norm": 1.265625,
      "learning_rate": 0.000493650890070346,
      "loss": 5.134,
      "mean_token_accuracy": 0.21007836610078812,
      "num_tokens": 20217075.0,
      "step": 8815
    },
    {
      "entropy": 5.284643697738647,
      "epoch": 0.8472622478386167,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004936428006625824,
      "loss": 5.145,
      "mean_token_accuracy": 0.20609464943408967,
      "num_tokens": 20227901.0,
      "step": 8820
    },
    {
      "entropy": 5.279466247558593,
      "epoch": 0.8477425552353506,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004936347061785823,
      "loss": 5.1655,
      "mean_token_accuracy": 0.20799711346626282,
      "num_tokens": 20239945.0,
      "step": 8825
    },
    {
      "entropy": 5.381019020080567,
      "epoch": 0.8482228626320846,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004936266066185334,
      "loss": 5.2448,
      "mean_token_accuracy": 0.19857099950313567,
      "num_tokens": 20251503.0,
      "step": 8830
    },
    {
      "entropy": 5.273257160186768,
      "epoch": 0.8487031700288185,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004936185019826239,
      "loss": 5.1679,
      "mean_token_accuracy": 0.20055765956640242,
      "num_tokens": 20263044.0,
      "step": 8835
    },
    {
      "entropy": 5.303754806518555,
      "epoch": 0.8491834774255523,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004936103922710419,
      "loss": 5.1429,
      "mean_token_accuracy": 0.20382609218358994,
      "num_tokens": 20273563.0,
      "step": 8840
    },
    {
      "entropy": 5.319860410690308,
      "epoch": 0.8496637848222862,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004936022774839759,
      "loss": 5.1983,
      "mean_token_accuracy": 0.20010559260845184,
      "num_tokens": 20285482.0,
      "step": 8845
    },
    {
      "entropy": 5.3607221126556395,
      "epoch": 0.8501440922190202,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004935941576216141,
      "loss": 5.4022,
      "mean_token_accuracy": 0.19553606808185578,
      "num_tokens": 20296666.0,
      "step": 8850
    },
    {
      "entropy": 5.242348289489746,
      "epoch": 0.8506243996157541,
      "grad_norm": 1.15625,
      "learning_rate": 0.000493586032684145,
      "loss": 5.0657,
      "mean_token_accuracy": 0.20746321827173234,
      "num_tokens": 20308978.0,
      "step": 8855
    },
    {
      "entropy": 5.249849462509156,
      "epoch": 0.851104707012488,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004935779026717573,
      "loss": 5.1432,
      "mean_token_accuracy": 0.20203766077756882,
      "num_tokens": 20321488.0,
      "step": 8860
    },
    {
      "entropy": 5.2123401165008545,
      "epoch": 0.8515850144092219,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004935697675846396,
      "loss": 4.9968,
      "mean_token_accuracy": 0.21457493007183076,
      "num_tokens": 20332938.0,
      "step": 8865
    },
    {
      "entropy": 5.208367538452149,
      "epoch": 0.8520653218059558,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004935616274229811,
      "loss": 5.0981,
      "mean_token_accuracy": 0.21241182535886766,
      "num_tokens": 20342986.0,
      "step": 8870
    },
    {
      "entropy": 5.260292434692383,
      "epoch": 0.8525456292026897,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004935534821869705,
      "loss": 5.1548,
      "mean_token_accuracy": 0.19940277189016342,
      "num_tokens": 20355791.0,
      "step": 8875
    },
    {
      "entropy": 5.18192982673645,
      "epoch": 0.8530259365994236,
      "grad_norm": 1.125,
      "learning_rate": 0.0004935453318767971,
      "loss": 5.0285,
      "mean_token_accuracy": 0.21193305552005767,
      "num_tokens": 20367080.0,
      "step": 8880
    },
    {
      "entropy": 5.33548674583435,
      "epoch": 0.8535062439961575,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00049353717649265,
      "loss": 5.1438,
      "mean_token_accuracy": 0.2096237510442734,
      "num_tokens": 20376697.0,
      "step": 8885
    },
    {
      "entropy": 5.283786773681641,
      "epoch": 0.8539865513928915,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004935290160347185,
      "loss": 5.1626,
      "mean_token_accuracy": 0.20003535747528076,
      "num_tokens": 20387430.0,
      "step": 8890
    },
    {
      "entropy": 5.23840708732605,
      "epoch": 0.8544668587896254,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004935208505031922,
      "loss": 5.1485,
      "mean_token_accuracy": 0.20197722762823106,
      "num_tokens": 20398488.0,
      "step": 8895
    },
    {
      "entropy": 5.174388408660889,
      "epoch": 0.8549471661863592,
      "grad_norm": 2.046875,
      "learning_rate": 0.0004935126798982606,
      "loss": 5.1712,
      "mean_token_accuracy": 0.19997829645872117,
      "num_tokens": 20410316.0,
      "step": 8900
    },
    {
      "entropy": 5.2989085674285885,
      "epoch": 0.8554274735830932,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004935045042201135,
      "loss": 5.0965,
      "mean_token_accuracy": 0.2099878177046776,
      "num_tokens": 20421645.0,
      "step": 8905
    },
    {
      "entropy": 5.297290563583374,
      "epoch": 0.8559077809798271,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004934963234689407,
      "loss": 5.2136,
      "mean_token_accuracy": 0.19259357154369355,
      "num_tokens": 20433397.0,
      "step": 8910
    },
    {
      "entropy": 5.210119295120239,
      "epoch": 0.856388088376561,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000493488137644932,
      "loss": 5.1128,
      "mean_token_accuracy": 0.2082274630665779,
      "num_tokens": 20446218.0,
      "step": 8915
    },
    {
      "entropy": 5.327347612380981,
      "epoch": 0.8568683957732949,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004934799467482774,
      "loss": 5.2096,
      "mean_token_accuracy": 0.2002415493130684,
      "num_tokens": 20457265.0,
      "step": 8920
    },
    {
      "entropy": 5.317370796203614,
      "epoch": 0.8573487031700289,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004934717507791673,
      "loss": 5.2003,
      "mean_token_accuracy": 0.19859042763710022,
      "num_tokens": 20468748.0,
      "step": 8925
    },
    {
      "entropy": 5.320759439468384,
      "epoch": 0.8578290105667628,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004934635497377919,
      "loss": 5.2082,
      "mean_token_accuracy": 0.19929444640874863,
      "num_tokens": 20481416.0,
      "step": 8930
    },
    {
      "entropy": 5.236276292800904,
      "epoch": 0.8583093179634966,
      "grad_norm": 1.375,
      "learning_rate": 0.0004934553436243415,
      "loss": 5.1091,
      "mean_token_accuracy": 0.20469743758440018,
      "num_tokens": 20493063.0,
      "step": 8935
    },
    {
      "entropy": 5.221277904510498,
      "epoch": 0.8587896253602305,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004934471324390067,
      "loss": 5.1152,
      "mean_token_accuracy": 0.2038355737924576,
      "num_tokens": 20504000.0,
      "step": 8940
    },
    {
      "entropy": 5.267146587371826,
      "epoch": 0.8592699327569645,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004934389161819783,
      "loss": 5.2179,
      "mean_token_accuracy": 0.20483950674533843,
      "num_tokens": 20516419.0,
      "step": 8945
    },
    {
      "entropy": 5.273205709457398,
      "epoch": 0.8597502401536984,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004934306948534467,
      "loss": 5.1552,
      "mean_token_accuracy": 0.19798202067613602,
      "num_tokens": 20527385.0,
      "step": 8950
    },
    {
      "entropy": 5.291792201995849,
      "epoch": 0.8602305475504323,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004934224684536031,
      "loss": 5.1449,
      "mean_token_accuracy": 0.2052535355091095,
      "num_tokens": 20538051.0,
      "step": 8955
    },
    {
      "entropy": 5.321442127227783,
      "epoch": 0.8607108549471661,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004934142369826382,
      "loss": 5.1746,
      "mean_token_accuracy": 0.19756327718496322,
      "num_tokens": 20550321.0,
      "step": 8960
    },
    {
      "entropy": 5.309886932373047,
      "epoch": 0.8611911623439001,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004934060004407434,
      "loss": 5.1616,
      "mean_token_accuracy": 0.2022399291396141,
      "num_tokens": 20561229.0,
      "step": 8965
    },
    {
      "entropy": 5.2354882717132565,
      "epoch": 0.861671469740634,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004933977588281099,
      "loss": 5.1065,
      "mean_token_accuracy": 0.20714430809020995,
      "num_tokens": 20572040.0,
      "step": 8970
    },
    {
      "entropy": 5.225004816055298,
      "epoch": 0.8621517771373679,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004933895121449288,
      "loss": 5.1445,
      "mean_token_accuracy": 0.20627815425395965,
      "num_tokens": 20583110.0,
      "step": 8975
    },
    {
      "entropy": 5.25708327293396,
      "epoch": 0.8626320845341018,
      "grad_norm": 1.125,
      "learning_rate": 0.0004933812603913917,
      "loss": 5.1451,
      "mean_token_accuracy": 0.20151159167289734,
      "num_tokens": 20593647.0,
      "step": 8980
    },
    {
      "entropy": 5.185816431045533,
      "epoch": 0.8631123919308358,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004933730035676903,
      "loss": 5.0209,
      "mean_token_accuracy": 0.21777433753013611,
      "num_tokens": 20604428.0,
      "step": 8985
    },
    {
      "entropy": 5.165512609481811,
      "epoch": 0.8635926993275697,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004933647416740161,
      "loss": 5.0746,
      "mean_token_accuracy": 0.21601256728172302,
      "num_tokens": 20615811.0,
      "step": 8990
    },
    {
      "entropy": 5.30065655708313,
      "epoch": 0.8640730067243035,
      "grad_norm": 1.2265625,
      "learning_rate": 0.000493356474710561,
      "loss": 5.1769,
      "mean_token_accuracy": 0.20163519084453582,
      "num_tokens": 20627679.0,
      "step": 8995
    },
    {
      "entropy": 5.325274658203125,
      "epoch": 0.8645533141210374,
      "grad_norm": 1.2265625,
      "learning_rate": 0.000493348202677517,
      "loss": 5.2067,
      "mean_token_accuracy": 0.20573359727859497,
      "num_tokens": 20638879.0,
      "step": 9000
    },
    {
      "epoch": 0.8645533141210374,
      "eval_entropy": 5.134741041033748,
      "eval_loss": 5.199076175689697,
      "eval_mean_token_accuracy": 0.20850473279537574,
      "eval_num_tokens": 20638879.0,
      "eval_runtime": 26.7295,
      "eval_samples_per_second": 1227.669,
      "eval_steps_per_second": 153.463,
      "step": 9000
    },
    {
      "entropy": 5.26629228591919,
      "epoch": 0.8650336215177714,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004933399255750761,
      "loss": 5.1956,
      "mean_token_accuracy": 0.20548682659864426,
      "num_tokens": 20649729.0,
      "step": 9005
    },
    {
      "entropy": 5.366102600097657,
      "epoch": 0.8655139289145053,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004933316434034304,
      "loss": 5.2311,
      "mean_token_accuracy": 0.20523984879255294,
      "num_tokens": 20660473.0,
      "step": 9010
    },
    {
      "entropy": 5.326435089111328,
      "epoch": 0.8659942363112392,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004933233561627723,
      "loss": 5.1972,
      "mean_token_accuracy": 0.2020814150571823,
      "num_tokens": 20671776.0,
      "step": 9015
    },
    {
      "entropy": 5.251844644546509,
      "epoch": 0.866474543707973,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004933150638532942,
      "loss": 5.1605,
      "mean_token_accuracy": 0.2062242418527603,
      "num_tokens": 20684147.0,
      "step": 9020
    },
    {
      "entropy": 5.3002519607543945,
      "epoch": 0.866954851104707,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004933067664751885,
      "loss": 5.1469,
      "mean_token_accuracy": 0.20623468309640886,
      "num_tokens": 20695248.0,
      "step": 9025
    },
    {
      "entropy": 5.244437265396118,
      "epoch": 0.8674351585014409,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000493298464028648,
      "loss": 5.168,
      "mean_token_accuracy": 0.2045750394463539,
      "num_tokens": 20707772.0,
      "step": 9030
    },
    {
      "entropy": 5.263054895401001,
      "epoch": 0.8679154658981748,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004932901565138653,
      "loss": 5.1264,
      "mean_token_accuracy": 0.1987837016582489,
      "num_tokens": 20718813.0,
      "step": 9035
    },
    {
      "entropy": 5.2314427375793455,
      "epoch": 0.8683957732949087,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004932818439310334,
      "loss": 5.1175,
      "mean_token_accuracy": 0.2132244125008583,
      "num_tokens": 20730939.0,
      "step": 9040
    },
    {
      "entropy": 5.376590538024902,
      "epoch": 0.8688760806916427,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004932735262803452,
      "loss": 5.2384,
      "mean_token_accuracy": 0.1961486503481865,
      "num_tokens": 20742990.0,
      "step": 9045
    },
    {
      "entropy": 5.2218879699707035,
      "epoch": 0.8693563880883766,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004932652035619939,
      "loss": 5.0787,
      "mean_token_accuracy": 0.2043047398328781,
      "num_tokens": 20754076.0,
      "step": 9050
    },
    {
      "entropy": 5.269600582122803,
      "epoch": 0.8698366954851104,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004932568757761727,
      "loss": 5.1352,
      "mean_token_accuracy": 0.20455852448940276,
      "num_tokens": 20765538.0,
      "step": 9055
    },
    {
      "entropy": 5.2922038555145265,
      "epoch": 0.8703170028818443,
      "grad_norm": 1.25,
      "learning_rate": 0.0004932485429230748,
      "loss": 5.1899,
      "mean_token_accuracy": 0.19730205535888673,
      "num_tokens": 20776359.0,
      "step": 9060
    },
    {
      "entropy": 5.234628915786743,
      "epoch": 0.8707973102785783,
      "grad_norm": 1.078125,
      "learning_rate": 0.000493240205002894,
      "loss": 5.1682,
      "mean_token_accuracy": 0.2084574043750763,
      "num_tokens": 20787581.0,
      "step": 9065
    },
    {
      "entropy": 5.34184308052063,
      "epoch": 0.8712776176753122,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004932318620158235,
      "loss": 5.2041,
      "mean_token_accuracy": 0.19864192605018616,
      "num_tokens": 20799904.0,
      "step": 9070
    },
    {
      "entropy": 5.319941759109497,
      "epoch": 0.8717579250720461,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004932235139620574,
      "loss": 5.1384,
      "mean_token_accuracy": 0.20746065229177474,
      "num_tokens": 20810238.0,
      "step": 9075
    },
    {
      "entropy": 5.2344482898712155,
      "epoch": 0.8722382324687801,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004932151608417892,
      "loss": 5.0957,
      "mean_token_accuracy": 0.20455455929040908,
      "num_tokens": 20821349.0,
      "step": 9080
    },
    {
      "entropy": 5.202734899520874,
      "epoch": 0.872718539865514,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004932068026552127,
      "loss": 5.1513,
      "mean_token_accuracy": 0.20545032173395156,
      "num_tokens": 20834788.0,
      "step": 9085
    },
    {
      "entropy": 5.319971227645874,
      "epoch": 0.8731988472622478,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004931984394025224,
      "loss": 5.2178,
      "mean_token_accuracy": 0.20217667371034623,
      "num_tokens": 20845571.0,
      "step": 9090
    },
    {
      "entropy": 5.311048793792724,
      "epoch": 0.8736791546589817,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004931900710839123,
      "loss": 5.1952,
      "mean_token_accuracy": 0.19956784099340438,
      "num_tokens": 20857209.0,
      "step": 9095
    },
    {
      "entropy": 5.329868745803833,
      "epoch": 0.8741594620557157,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004931816976995766,
      "loss": 5.2614,
      "mean_token_accuracy": 0.19563933461904526,
      "num_tokens": 20870624.0,
      "step": 9100
    },
    {
      "entropy": 5.286147880554199,
      "epoch": 0.8746397694524496,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004931733192497097,
      "loss": 5.1638,
      "mean_token_accuracy": 0.20552606284618377,
      "num_tokens": 20881769.0,
      "step": 9105
    },
    {
      "entropy": 5.256227636337281,
      "epoch": 0.8751200768491835,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004931649357345062,
      "loss": 5.1336,
      "mean_token_accuracy": 0.19931492060422898,
      "num_tokens": 20892817.0,
      "step": 9110
    },
    {
      "entropy": 5.266511297225952,
      "epoch": 0.8756003842459174,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004931565471541606,
      "loss": 5.0994,
      "mean_token_accuracy": 0.20882656574249267,
      "num_tokens": 20903042.0,
      "step": 9115
    },
    {
      "entropy": 5.197468280792236,
      "epoch": 0.8760806916426513,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004931481535088679,
      "loss": 5.0548,
      "mean_token_accuracy": 0.2176084190607071,
      "num_tokens": 20914684.0,
      "step": 9120
    },
    {
      "entropy": 5.21255669593811,
      "epoch": 0.8765609990393852,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004931397547988229,
      "loss": 5.1169,
      "mean_token_accuracy": 0.21571636497974395,
      "num_tokens": 20926585.0,
      "step": 9125
    },
    {
      "entropy": 5.315608882904053,
      "epoch": 0.8770413064361191,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004931313510242204,
      "loss": 5.1677,
      "mean_token_accuracy": 0.2050992101430893,
      "num_tokens": 20939729.0,
      "step": 9130
    },
    {
      "entropy": 5.231499481201172,
      "epoch": 0.877521613832853,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004931229421852557,
      "loss": 5.103,
      "mean_token_accuracy": 0.2057361498475075,
      "num_tokens": 20951697.0,
      "step": 9135
    },
    {
      "entropy": 5.321991300582885,
      "epoch": 0.878001921229587,
      "grad_norm": 1.2265625,
      "learning_rate": 0.000493114528282124,
      "loss": 5.2363,
      "mean_token_accuracy": 0.20253994166851044,
      "num_tokens": 20962729.0,
      "step": 9140
    },
    {
      "entropy": 5.2189311504364015,
      "epoch": 0.8784822286263209,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004931061093150206,
      "loss": 5.0919,
      "mean_token_accuracy": 0.20677362531423568,
      "num_tokens": 20973331.0,
      "step": 9145
    },
    {
      "entropy": 5.188636112213135,
      "epoch": 0.8789625360230547,
      "grad_norm": 1.125,
      "learning_rate": 0.0004930976852841409,
      "loss": 5.0942,
      "mean_token_accuracy": 0.20331761091947556,
      "num_tokens": 20985609.0,
      "step": 9150
    },
    {
      "entropy": 5.212237691879272,
      "epoch": 0.8794428434197886,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004930892561896806,
      "loss": 5.1191,
      "mean_token_accuracy": 0.19904601573944092,
      "num_tokens": 20997231.0,
      "step": 9155
    },
    {
      "entropy": 5.302338361740112,
      "epoch": 0.8799231508165226,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004930808220318354,
      "loss": 5.1304,
      "mean_token_accuracy": 0.20466675609350204,
      "num_tokens": 21008511.0,
      "step": 9160
    },
    {
      "entropy": 5.251391744613647,
      "epoch": 0.8804034582132565,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004930723828108012,
      "loss": 5.07,
      "mean_token_accuracy": 0.20593566447496414,
      "num_tokens": 21019108.0,
      "step": 9165
    },
    {
      "entropy": 5.1970141410827635,
      "epoch": 0.8808837656099904,
      "grad_norm": 1.765625,
      "learning_rate": 0.0004930639385267736,
      "loss": 5.1312,
      "mean_token_accuracy": 0.20703590363264085,
      "num_tokens": 21030621.0,
      "step": 9170
    },
    {
      "entropy": 5.254196977615356,
      "epoch": 0.8813640730067243,
      "grad_norm": 1.25,
      "learning_rate": 0.000493055489179949,
      "loss": 5.106,
      "mean_token_accuracy": 0.20593850463628768,
      "num_tokens": 21041778.0,
      "step": 9175
    },
    {
      "entropy": 5.293916034698486,
      "epoch": 0.8818443804034583,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004930470347705234,
      "loss": 5.1213,
      "mean_token_accuracy": 0.20545565485954284,
      "num_tokens": 21054257.0,
      "step": 9180
    },
    {
      "entropy": 5.25820026397705,
      "epoch": 0.8823246878001921,
      "grad_norm": 1.265625,
      "learning_rate": 0.000493038575298693,
      "loss": 5.1774,
      "mean_token_accuracy": 0.1998462751507759,
      "num_tokens": 21066378.0,
      "step": 9185
    },
    {
      "entropy": 5.217289543151855,
      "epoch": 0.882804995196926,
      "grad_norm": 1.25,
      "learning_rate": 0.0004930301107646545,
      "loss": 5.1022,
      "mean_token_accuracy": 0.20249929428100585,
      "num_tokens": 21078913.0,
      "step": 9190
    },
    {
      "entropy": 5.315297651290893,
      "epoch": 0.8832853025936599,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004930216411686042,
      "loss": 5.1549,
      "mean_token_accuracy": 0.1985946238040924,
      "num_tokens": 21090500.0,
      "step": 9195
    },
    {
      "entropy": 5.2111443996429445,
      "epoch": 0.8837656099903939,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004930131665107387,
      "loss": 5.1334,
      "mean_token_accuracy": 0.2010358154773712,
      "num_tokens": 21102793.0,
      "step": 9200
    },
    {
      "entropy": 5.382960557937622,
      "epoch": 0.8842459173871278,
      "grad_norm": 1.1875,
      "learning_rate": 0.000493004686791255,
      "loss": 5.2304,
      "mean_token_accuracy": 0.19272204041481017,
      "num_tokens": 21114504.0,
      "step": 9205
    },
    {
      "entropy": 5.27924222946167,
      "epoch": 0.8847262247838616,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004929962020103496,
      "loss": 5.1007,
      "mean_token_accuracy": 0.20397736132144928,
      "num_tokens": 21126733.0,
      "step": 9210
    },
    {
      "entropy": 5.19653902053833,
      "epoch": 0.8852065321805955,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004929877121682198,
      "loss": 5.0931,
      "mean_token_accuracy": 0.20474224388599396,
      "num_tokens": 21138045.0,
      "step": 9215
    },
    {
      "entropy": 5.260480785369873,
      "epoch": 0.8856868395773295,
      "grad_norm": 1.125,
      "learning_rate": 0.0004929792172650627,
      "loss": 5.1796,
      "mean_token_accuracy": 0.19880712181329727,
      "num_tokens": 21151562.0,
      "step": 9220
    },
    {
      "entropy": 5.315613460540772,
      "epoch": 0.8861671469740634,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004929707173010753,
      "loss": 5.1299,
      "mean_token_accuracy": 0.2056412249803543,
      "num_tokens": 21162943.0,
      "step": 9225
    },
    {
      "entropy": 5.241054391860962,
      "epoch": 0.8866474543707973,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004929622122764552,
      "loss": 5.1699,
      "mean_token_accuracy": 0.2012902170419693,
      "num_tokens": 21174392.0,
      "step": 9230
    },
    {
      "entropy": 5.1802393913269045,
      "epoch": 0.8871277617675313,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004929537021913997,
      "loss": 5.008,
      "mean_token_accuracy": 0.21468252092599868,
      "num_tokens": 21185372.0,
      "step": 9235
    },
    {
      "entropy": 5.236097574234009,
      "epoch": 0.8876080691642652,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004929451870461064,
      "loss": 5.1562,
      "mean_token_accuracy": 0.20373494178056717,
      "num_tokens": 21197044.0,
      "step": 9240
    },
    {
      "entropy": 5.191161966323852,
      "epoch": 0.888088376560999,
      "grad_norm": 1.125,
      "learning_rate": 0.0004929366668407731,
      "loss": 5.1047,
      "mean_token_accuracy": 0.20978552401065825,
      "num_tokens": 21207729.0,
      "step": 9245
    },
    {
      "entropy": 5.312554979324341,
      "epoch": 0.8885686839577329,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004929281415755974,
      "loss": 5.1436,
      "mean_token_accuracy": 0.20457518696784974,
      "num_tokens": 21218909.0,
      "step": 9250
    },
    {
      "entropy": 5.344946384429932,
      "epoch": 0.8890489913544669,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004929196112507775,
      "loss": 5.2498,
      "mean_token_accuracy": 0.19993363320827484,
      "num_tokens": 21230543.0,
      "step": 9255
    },
    {
      "entropy": 5.270783472061157,
      "epoch": 0.8895292987512008,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004929110758665112,
      "loss": 5.1876,
      "mean_token_accuracy": 0.1981159120798111,
      "num_tokens": 21242064.0,
      "step": 9260
    },
    {
      "entropy": 5.326478481292725,
      "epoch": 0.8900096061479347,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004929025354229969,
      "loss": 5.2097,
      "mean_token_accuracy": 0.2005533829331398,
      "num_tokens": 21254321.0,
      "step": 9265
    },
    {
      "entropy": 5.180127668380737,
      "epoch": 0.8904899135446686,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004928939899204326,
      "loss": 5.0312,
      "mean_token_accuracy": 0.20711840987205504,
      "num_tokens": 21264741.0,
      "step": 9270
    },
    {
      "entropy": 5.250730323791504,
      "epoch": 0.8909702209414025,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000492885439359017,
      "loss": 5.1329,
      "mean_token_accuracy": 0.20080725252628326,
      "num_tokens": 21276834.0,
      "step": 9275
    },
    {
      "entropy": 5.236090469360351,
      "epoch": 0.8914505283381364,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004928768837389485,
      "loss": 5.0918,
      "mean_token_accuracy": 0.20890207290649415,
      "num_tokens": 21287108.0,
      "step": 9280
    },
    {
      "entropy": 5.248825597763061,
      "epoch": 0.8919308357348703,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004928683230604257,
      "loss": 5.1298,
      "mean_token_accuracy": 0.20136982649564744,
      "num_tokens": 21299942.0,
      "step": 9285
    },
    {
      "entropy": 5.365978527069092,
      "epoch": 0.8924111431316042,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004928597573236474,
      "loss": 5.2691,
      "mean_token_accuracy": 0.2037052556872368,
      "num_tokens": 21311243.0,
      "step": 9290
    },
    {
      "entropy": 5.274964046478272,
      "epoch": 0.8928914505283382,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004928511865288123,
      "loss": 5.1035,
      "mean_token_accuracy": 0.2068115308880806,
      "num_tokens": 21322291.0,
      "step": 9295
    },
    {
      "entropy": 5.258368492126465,
      "epoch": 0.8933717579250721,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004928426106761197,
      "loss": 5.1982,
      "mean_token_accuracy": 0.20522145330905914,
      "num_tokens": 21333257.0,
      "step": 9300
    },
    {
      "entropy": 5.194037771224975,
      "epoch": 0.8938520653218059,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004928340297657685,
      "loss": 5.1119,
      "mean_token_accuracy": 0.20364685207605362,
      "num_tokens": 21345848.0,
      "step": 9305
    },
    {
      "entropy": 5.306222867965698,
      "epoch": 0.8943323727185398,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004928254437979578,
      "loss": 5.1371,
      "mean_token_accuracy": 0.2047370731830597,
      "num_tokens": 21357693.0,
      "step": 9310
    },
    {
      "entropy": 5.277711868286133,
      "epoch": 0.8948126801152738,
      "grad_norm": 1.25,
      "learning_rate": 0.0004928168527728873,
      "loss": 5.229,
      "mean_token_accuracy": 0.20137819200754165,
      "num_tokens": 21369653.0,
      "step": 9315
    },
    {
      "entropy": 5.314446830749512,
      "epoch": 0.8952929875120077,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004928082566907562,
      "loss": 5.1813,
      "mean_token_accuracy": 0.20231199115514756,
      "num_tokens": 21383924.0,
      "step": 9320
    },
    {
      "entropy": 5.318646097183228,
      "epoch": 0.8957732949087416,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004927996555517642,
      "loss": 5.156,
      "mean_token_accuracy": 0.1997460052371025,
      "num_tokens": 21395963.0,
      "step": 9325
    },
    {
      "entropy": 5.2909129619598385,
      "epoch": 0.8962536023054755,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004927910493561109,
      "loss": 5.1562,
      "mean_token_accuracy": 0.20208995938301086,
      "num_tokens": 21408200.0,
      "step": 9330
    },
    {
      "entropy": 5.299256086349487,
      "epoch": 0.8967339097022095,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000492782438103996,
      "loss": 5.26,
      "mean_token_accuracy": 0.1976392984390259,
      "num_tokens": 21419963.0,
      "step": 9335
    },
    {
      "entropy": 5.280540561676025,
      "epoch": 0.8972142170989433,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004927738217956197,
      "loss": 5.2154,
      "mean_token_accuracy": 0.20124684274196625,
      "num_tokens": 21431824.0,
      "step": 9340
    },
    {
      "entropy": 5.220011901855469,
      "epoch": 0.8976945244956772,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004927652004311819,
      "loss": 4.9671,
      "mean_token_accuracy": 0.21261375546455383,
      "num_tokens": 21442354.0,
      "step": 9345
    },
    {
      "entropy": 5.272494840621948,
      "epoch": 0.8981748318924111,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004927565740108828,
      "loss": 5.1539,
      "mean_token_accuracy": 0.19939538985490798,
      "num_tokens": 21453734.0,
      "step": 9350
    },
    {
      "entropy": 5.264281797409057,
      "epoch": 0.8986551392891451,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004927479425349226,
      "loss": 5.1664,
      "mean_token_accuracy": 0.20830067843198777,
      "num_tokens": 21465471.0,
      "step": 9355
    },
    {
      "entropy": 5.347072267532349,
      "epoch": 0.899135446685879,
      "grad_norm": 1.125,
      "learning_rate": 0.0004927393060035018,
      "loss": 5.3012,
      "mean_token_accuracy": 0.19275195002555848,
      "num_tokens": 21477775.0,
      "step": 9360
    },
    {
      "entropy": 5.256478118896484,
      "epoch": 0.8996157540826129,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004927306644168207,
      "loss": 5.0715,
      "mean_token_accuracy": 0.2134536847472191,
      "num_tokens": 21489319.0,
      "step": 9365
    },
    {
      "entropy": 5.3430397510528564,
      "epoch": 0.9000960614793467,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004927220177750803,
      "loss": 5.2993,
      "mean_token_accuracy": 0.20141739547252654,
      "num_tokens": 21499742.0,
      "step": 9370
    },
    {
      "entropy": 5.2615800380706785,
      "epoch": 0.9005763688760807,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004927133660784811,
      "loss": 5.0778,
      "mean_token_accuracy": 0.20828621387481688,
      "num_tokens": 21511063.0,
      "step": 9375
    },
    {
      "entropy": 5.2883483409881595,
      "epoch": 0.9010566762728146,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004927047093272241,
      "loss": 5.0993,
      "mean_token_accuracy": 0.2080937907099724,
      "num_tokens": 21522500.0,
      "step": 9380
    },
    {
      "entropy": 5.292206716537476,
      "epoch": 0.9015369836695485,
      "grad_norm": 1.109375,
      "learning_rate": 0.00049269604752151,
      "loss": 5.183,
      "mean_token_accuracy": 0.19954841285943986,
      "num_tokens": 21533578.0,
      "step": 9385
    },
    {
      "entropy": 5.2589469909667965,
      "epoch": 0.9020172910662824,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004926873806615403,
      "loss": 5.1761,
      "mean_token_accuracy": 0.2022814229130745,
      "num_tokens": 21544296.0,
      "step": 9390
    },
    {
      "entropy": 5.285726165771484,
      "epoch": 0.9024975984630164,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004926787087475158,
      "loss": 5.2485,
      "mean_token_accuracy": 0.19234858453273773,
      "num_tokens": 21555386.0,
      "step": 9395
    },
    {
      "entropy": 5.2691357135772705,
      "epoch": 0.9029779058597502,
      "grad_norm": 1.125,
      "learning_rate": 0.0004926700317796382,
      "loss": 5.0119,
      "mean_token_accuracy": 0.2185451105237007,
      "num_tokens": 21566527.0,
      "step": 9400
    },
    {
      "entropy": 5.316603708267212,
      "epoch": 0.9034582132564841,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004926613497581088,
      "loss": 5.1657,
      "mean_token_accuracy": 0.19770514070987702,
      "num_tokens": 21576870.0,
      "step": 9405
    },
    {
      "entropy": 5.246594953536987,
      "epoch": 0.9039385206532181,
      "grad_norm": 1.375,
      "learning_rate": 0.0004926526626831292,
      "loss": 5.1326,
      "mean_token_accuracy": 0.20468196123838425,
      "num_tokens": 21588113.0,
      "step": 9410
    },
    {
      "entropy": 5.279461526870728,
      "epoch": 0.904418828049952,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004926439705549011,
      "loss": 5.1535,
      "mean_token_accuracy": 0.2016696736216545,
      "num_tokens": 21599307.0,
      "step": 9415
    },
    {
      "entropy": 5.25780029296875,
      "epoch": 0.9048991354466859,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004926352733736262,
      "loss": 5.1166,
      "mean_token_accuracy": 0.2065201461315155,
      "num_tokens": 21609961.0,
      "step": 9420
    },
    {
      "entropy": 5.2240455627441404,
      "epoch": 0.9053794428434198,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004926265711395065,
      "loss": 5.1391,
      "mean_token_accuracy": 0.2021078497171402,
      "num_tokens": 21622222.0,
      "step": 9425
    },
    {
      "entropy": 5.2489923477172855,
      "epoch": 0.9058597502401537,
      "grad_norm": 1.265625,
      "learning_rate": 0.000492617863852744,
      "loss": 5.1228,
      "mean_token_accuracy": 0.21097581535577775,
      "num_tokens": 21632843.0,
      "step": 9430
    },
    {
      "entropy": 5.273687887191772,
      "epoch": 0.9063400576368876,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004926091515135409,
      "loss": 5.1694,
      "mean_token_accuracy": 0.20245194882154466,
      "num_tokens": 21645387.0,
      "step": 9435
    },
    {
      "entropy": 5.272740983963013,
      "epoch": 0.9068203650336215,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004926004341220995,
      "loss": 5.1151,
      "mean_token_accuracy": 0.20472093671560287,
      "num_tokens": 21656787.0,
      "step": 9440
    },
    {
      "entropy": 5.286762046813965,
      "epoch": 0.9073006724303554,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004925917116786222,
      "loss": 5.1467,
      "mean_token_accuracy": 0.202509106695652,
      "num_tokens": 21667800.0,
      "step": 9445
    },
    {
      "entropy": 5.323235177993775,
      "epoch": 0.9077809798270894,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004925829841833114,
      "loss": 5.2022,
      "mean_token_accuracy": 0.1957914039492607,
      "num_tokens": 21679297.0,
      "step": 9450
    },
    {
      "entropy": 5.2604146003723145,
      "epoch": 0.9082612872238233,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004925742516363699,
      "loss": 5.2104,
      "mean_token_accuracy": 0.19677306711673737,
      "num_tokens": 21692956.0,
      "step": 9455
    },
    {
      "entropy": 5.239795923233032,
      "epoch": 0.9087415946205571,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004925655140380002,
      "loss": 4.9955,
      "mean_token_accuracy": 0.20952331125736237,
      "num_tokens": 21704852.0,
      "step": 9460
    },
    {
      "entropy": 5.240779304504395,
      "epoch": 0.909221902017291,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004925567713884054,
      "loss": 5.1345,
      "mean_token_accuracy": 0.20403669029474258,
      "num_tokens": 21715886.0,
      "step": 9465
    },
    {
      "entropy": 5.256079244613647,
      "epoch": 0.909702209414025,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004925480236877884,
      "loss": 5.126,
      "mean_token_accuracy": 0.20910231918096542,
      "num_tokens": 21727157.0,
      "step": 9470
    },
    {
      "entropy": 5.261584663391114,
      "epoch": 0.9101825168107589,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004925392709363522,
      "loss": 5.1387,
      "mean_token_accuracy": 0.20324090272188186,
      "num_tokens": 21738232.0,
      "step": 9475
    },
    {
      "entropy": 5.268222141265869,
      "epoch": 0.9106628242074928,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004925305131343001,
      "loss": 5.1774,
      "mean_token_accuracy": 0.20176736861467362,
      "num_tokens": 21749029.0,
      "step": 9480
    },
    {
      "entropy": 5.357953786849976,
      "epoch": 0.9111431316042267,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004925217502818355,
      "loss": 5.1727,
      "mean_token_accuracy": 0.1988372653722763,
      "num_tokens": 21761243.0,
      "step": 9485
    },
    {
      "entropy": 5.250569820404053,
      "epoch": 0.9116234390009607,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004925129823791616,
      "loss": 5.1391,
      "mean_token_accuracy": 0.20034718960523606,
      "num_tokens": 21772623.0,
      "step": 9490
    },
    {
      "entropy": 5.282710075378418,
      "epoch": 0.9121037463976945,
      "grad_norm": 1.125,
      "learning_rate": 0.0004925042094264822,
      "loss": 5.1644,
      "mean_token_accuracy": 0.20180542021989822,
      "num_tokens": 21782611.0,
      "step": 9495
    },
    {
      "entropy": 5.176083374023437,
      "epoch": 0.9125840537944284,
      "grad_norm": 1.2578125,
      "learning_rate": 0.000492495431424001,
      "loss": 5.0361,
      "mean_token_accuracy": 0.210744047164917,
      "num_tokens": 21793946.0,
      "step": 9500
    },
    {
      "entropy": 5.317784595489502,
      "epoch": 0.9130643611911623,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004924866483719216,
      "loss": 5.2217,
      "mean_token_accuracy": 0.18893510699272156,
      "num_tokens": 21803878.0,
      "step": 9505
    },
    {
      "entropy": 5.291093206405639,
      "epoch": 0.9135446685878963,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004924778602704481,
      "loss": 5.1693,
      "mean_token_accuracy": 0.20558474063873292,
      "num_tokens": 21815187.0,
      "step": 9510
    },
    {
      "entropy": 5.253582382202149,
      "epoch": 0.9140249759846302,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004924690671197845,
      "loss": 5.1219,
      "mean_token_accuracy": 0.21276892423629762,
      "num_tokens": 21825597.0,
      "step": 9515
    },
    {
      "entropy": 5.222238779067993,
      "epoch": 0.914505283381364,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004924602689201348,
      "loss": 5.1079,
      "mean_token_accuracy": 0.2087915927171707,
      "num_tokens": 21837110.0,
      "step": 9520
    },
    {
      "entropy": 5.478323316574096,
      "epoch": 0.9149855907780979,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004924514656717034,
      "loss": 5.3741,
      "mean_token_accuracy": 0.19211723804473876,
      "num_tokens": 21847754.0,
      "step": 9525
    },
    {
      "entropy": 5.294663047790527,
      "epoch": 0.9154658981748319,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004924426573746948,
      "loss": 5.1594,
      "mean_token_accuracy": 0.20195448100566865,
      "num_tokens": 21859162.0,
      "step": 9530
    },
    {
      "entropy": 5.239957857131958,
      "epoch": 0.9159462055715658,
      "grad_norm": 1.125,
      "learning_rate": 0.0004924338440293131,
      "loss": 5.1104,
      "mean_token_accuracy": 0.20837367475032806,
      "num_tokens": 21870826.0,
      "step": 9535
    },
    {
      "entropy": 5.256366109848022,
      "epoch": 0.9164265129682997,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004924250256357635,
      "loss": 5.1534,
      "mean_token_accuracy": 0.19792882353067398,
      "num_tokens": 21882003.0,
      "step": 9540
    },
    {
      "entropy": 5.215576648712158,
      "epoch": 0.9169068203650336,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004924162021942502,
      "loss": 5.097,
      "mean_token_accuracy": 0.2071886330842972,
      "num_tokens": 21894132.0,
      "step": 9545
    },
    {
      "entropy": 5.181234216690063,
      "epoch": 0.9173871277617676,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004924073737049784,
      "loss": 5.1089,
      "mean_token_accuracy": 0.21016984134912492,
      "num_tokens": 21904951.0,
      "step": 9550
    },
    {
      "entropy": 5.26510066986084,
      "epoch": 0.9178674351585014,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004923985401681528,
      "loss": 5.1376,
      "mean_token_accuracy": 0.20959776937961577,
      "num_tokens": 21917100.0,
      "step": 9555
    },
    {
      "entropy": 5.28123664855957,
      "epoch": 0.9183477425552353,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004923897015839788,
      "loss": 5.1579,
      "mean_token_accuracy": 0.1991439864039421,
      "num_tokens": 21927541.0,
      "step": 9560
    },
    {
      "entropy": 5.2830277442932125,
      "epoch": 0.9188280499519692,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004923808579526613,
      "loss": 5.0914,
      "mean_token_accuracy": 0.20503710806369782,
      "num_tokens": 21938723.0,
      "step": 9565
    },
    {
      "entropy": 5.24866738319397,
      "epoch": 0.9193083573487032,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004923720092744059,
      "loss": 5.0354,
      "mean_token_accuracy": 0.21492197811603547,
      "num_tokens": 21950424.0,
      "step": 9570
    },
    {
      "entropy": 5.25103907585144,
      "epoch": 0.9197886647454371,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004923631555494179,
      "loss": 5.1937,
      "mean_token_accuracy": 0.2016189157962799,
      "num_tokens": 21961030.0,
      "step": 9575
    },
    {
      "entropy": 5.231373453140259,
      "epoch": 0.920268972142171,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004923542967779028,
      "loss": 5.0957,
      "mean_token_accuracy": 0.20799438655376434,
      "num_tokens": 21971625.0,
      "step": 9580
    },
    {
      "entropy": 5.300740003585815,
      "epoch": 0.920749279538905,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004923454329600664,
      "loss": 5.1185,
      "mean_token_accuracy": 0.20712572187185288,
      "num_tokens": 21983733.0,
      "step": 9585
    },
    {
      "entropy": 5.19854097366333,
      "epoch": 0.9212295869356388,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004923365640961143,
      "loss": 5.0651,
      "mean_token_accuracy": 0.21446898579597473,
      "num_tokens": 21995621.0,
      "step": 9590
    },
    {
      "entropy": 5.249282026290894,
      "epoch": 0.9217098943323727,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004923276901862526,
      "loss": 5.1486,
      "mean_token_accuracy": 0.20122848600149154,
      "num_tokens": 22007325.0,
      "step": 9595
    },
    {
      "entropy": 5.247177934646606,
      "epoch": 0.9221902017291066,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004923188112306874,
      "loss": 5.1148,
      "mean_token_accuracy": 0.2028706982731819,
      "num_tokens": 22017733.0,
      "step": 9600
    },
    {
      "entropy": 5.297493267059326,
      "epoch": 0.9226705091258406,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004923099272296246,
      "loss": 5.227,
      "mean_token_accuracy": 0.1984498158097267,
      "num_tokens": 22030451.0,
      "step": 9605
    },
    {
      "entropy": 5.293121433258056,
      "epoch": 0.9231508165225745,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004923010381832706,
      "loss": 5.1655,
      "mean_token_accuracy": 0.1920482635498047,
      "num_tokens": 22042626.0,
      "step": 9610
    },
    {
      "entropy": 5.263902759552002,
      "epoch": 0.9236311239193083,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004922921440918318,
      "loss": 5.1479,
      "mean_token_accuracy": 0.20066307634115219,
      "num_tokens": 22053314.0,
      "step": 9615
    },
    {
      "entropy": 5.3540332317352295,
      "epoch": 0.9241114313160422,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004922832449555144,
      "loss": 5.2321,
      "mean_token_accuracy": 0.19173655807971954,
      "num_tokens": 22064395.0,
      "step": 9620
    },
    {
      "entropy": 5.229344749450684,
      "epoch": 0.9245917387127762,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004922743407745255,
      "loss": 5.123,
      "mean_token_accuracy": 0.20057824850082398,
      "num_tokens": 22075960.0,
      "step": 9625
    },
    {
      "entropy": 5.272555780410767,
      "epoch": 0.9250720461095101,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004922654315490714,
      "loss": 5.1871,
      "mean_token_accuracy": 0.20159071534872056,
      "num_tokens": 22086034.0,
      "step": 9630
    },
    {
      "entropy": 5.249064683914185,
      "epoch": 0.925552353506244,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004922565172793593,
      "loss": 5.2023,
      "mean_token_accuracy": 0.20035000890493393,
      "num_tokens": 22096184.0,
      "step": 9635
    },
    {
      "entropy": 5.262630033493042,
      "epoch": 0.9260326609029779,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004922475979655958,
      "loss": 5.1593,
      "mean_token_accuracy": 0.2061972975730896,
      "num_tokens": 22108795.0,
      "step": 9640
    },
    {
      "entropy": 5.240458583831787,
      "epoch": 0.9265129682997119,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004922386736079883,
      "loss": 5.1362,
      "mean_token_accuracy": 0.20278566032648088,
      "num_tokens": 22119608.0,
      "step": 9645
    },
    {
      "entropy": 5.239983415603637,
      "epoch": 0.9269932756964457,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004922297442067438,
      "loss": 5.1009,
      "mean_token_accuracy": 0.21008216142654418,
      "num_tokens": 22131621.0,
      "step": 9650
    },
    {
      "entropy": 5.303403711318969,
      "epoch": 0.9274735830931796,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004922208097620697,
      "loss": 5.0679,
      "mean_token_accuracy": 0.20454230904579163,
      "num_tokens": 22142745.0,
      "step": 9655
    },
    {
      "entropy": 5.2560042381286625,
      "epoch": 0.9279538904899135,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004922118702741735,
      "loss": 5.2697,
      "mean_token_accuracy": 0.19514112025499344,
      "num_tokens": 22155457.0,
      "step": 9660
    },
    {
      "entropy": 5.320225811004638,
      "epoch": 0.9284341978866475,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004922029257432625,
      "loss": 5.1395,
      "mean_token_accuracy": 0.2117284744977951,
      "num_tokens": 22165955.0,
      "step": 9665
    },
    {
      "entropy": 5.256221914291382,
      "epoch": 0.9289145052833814,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004921939761695446,
      "loss": 5.0865,
      "mean_token_accuracy": 0.2021948665380478,
      "num_tokens": 22178142.0,
      "step": 9670
    },
    {
      "entropy": 5.171184015274048,
      "epoch": 0.9293948126801153,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004921850215532275,
      "loss": 5.0653,
      "mean_token_accuracy": 0.21012310534715653,
      "num_tokens": 22190315.0,
      "step": 9675
    },
    {
      "entropy": 5.2543559074401855,
      "epoch": 0.9298751200768491,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004921760618945192,
      "loss": 5.1284,
      "mean_token_accuracy": 0.20433304756879805,
      "num_tokens": 22201785.0,
      "step": 9680
    },
    {
      "entropy": 5.295661354064942,
      "epoch": 0.9303554274735831,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004921670971936276,
      "loss": 5.0781,
      "mean_token_accuracy": 0.20774878412485123,
      "num_tokens": 22212471.0,
      "step": 9685
    },
    {
      "entropy": 5.277561855316162,
      "epoch": 0.930835734870317,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004921581274507607,
      "loss": 5.1692,
      "mean_token_accuracy": 0.20450907647609712,
      "num_tokens": 22223188.0,
      "step": 9690
    },
    {
      "entropy": 5.20819878578186,
      "epoch": 0.9313160422670509,
      "grad_norm": 1.328125,
      "learning_rate": 0.000492149152666127,
      "loss": 5.1741,
      "mean_token_accuracy": 0.2045721873641014,
      "num_tokens": 22233978.0,
      "step": 9695
    },
    {
      "entropy": 5.227841567993164,
      "epoch": 0.9317963496637848,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004921401728399348,
      "loss": 5.1147,
      "mean_token_accuracy": 0.21509994715452194,
      "num_tokens": 22244713.0,
      "step": 9700
    },
    {
      "entropy": 5.259960889816284,
      "epoch": 0.9322766570605188,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004921311879723926,
      "loss": 5.1705,
      "mean_token_accuracy": 0.20220176130533218,
      "num_tokens": 22256192.0,
      "step": 9705
    },
    {
      "entropy": 5.332875108718872,
      "epoch": 0.9327569644572526,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004921221980637088,
      "loss": 5.1401,
      "mean_token_accuracy": 0.20141558051109315,
      "num_tokens": 22268294.0,
      "step": 9710
    },
    {
      "entropy": 5.3014007091522215,
      "epoch": 0.9332372718539865,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004921132031140925,
      "loss": 5.1616,
      "mean_token_accuracy": 0.20787308365106583,
      "num_tokens": 22278952.0,
      "step": 9715
    },
    {
      "entropy": 5.249713897705078,
      "epoch": 0.9337175792507204,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004921042031237521,
      "loss": 5.1181,
      "mean_token_accuracy": 0.1999865725636482,
      "num_tokens": 22291057.0,
      "step": 9720
    },
    {
      "entropy": 5.333038187026977,
      "epoch": 0.9341978866474544,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004920951980928969,
      "loss": 5.2022,
      "mean_token_accuracy": 0.20720864981412887,
      "num_tokens": 22302479.0,
      "step": 9725
    },
    {
      "entropy": 5.381272459030152,
      "epoch": 0.9346781940441883,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004920861880217359,
      "loss": 5.27,
      "mean_token_accuracy": 0.19498737156391144,
      "num_tokens": 22315116.0,
      "step": 9730
    },
    {
      "entropy": 5.309507656097412,
      "epoch": 0.9351585014409222,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004920771729104781,
      "loss": 5.1831,
      "mean_token_accuracy": 0.20069352984428407,
      "num_tokens": 22327548.0,
      "step": 9735
    },
    {
      "entropy": 5.204008626937866,
      "epoch": 0.9356388088376562,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004920681527593329,
      "loss": 5.0612,
      "mean_token_accuracy": 0.20920901447534562,
      "num_tokens": 22339154.0,
      "step": 9740
    },
    {
      "entropy": 5.256301832199097,
      "epoch": 0.93611911623439,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004920591275685098,
      "loss": 5.1518,
      "mean_token_accuracy": 0.20383056104183198,
      "num_tokens": 22350781.0,
      "step": 9745
    },
    {
      "entropy": 5.336814022064209,
      "epoch": 0.9365994236311239,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004920500973382184,
      "loss": 5.1758,
      "mean_token_accuracy": 0.20595642030239106,
      "num_tokens": 22361990.0,
      "step": 9750
    },
    {
      "entropy": 5.223576879501342,
      "epoch": 0.9370797310278578,
      "grad_norm": 1.25,
      "learning_rate": 0.0004920410620686682,
      "loss": 5.0488,
      "mean_token_accuracy": 0.21444960832595825,
      "num_tokens": 22372973.0,
      "step": 9755
    },
    {
      "entropy": 5.18360276222229,
      "epoch": 0.9375600384245918,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004920320217600689,
      "loss": 5.0665,
      "mean_token_accuracy": 0.21210620701313018,
      "num_tokens": 22384369.0,
      "step": 9760
    },
    {
      "entropy": 5.320396280288696,
      "epoch": 0.9380403458213257,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004920229764126306,
      "loss": 5.1679,
      "mean_token_accuracy": 0.2056802451610565,
      "num_tokens": 22395792.0,
      "step": 9765
    },
    {
      "entropy": 5.2880340099334715,
      "epoch": 0.9385206532180596,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004920139260265632,
      "loss": 5.1575,
      "mean_token_accuracy": 0.19827589392662048,
      "num_tokens": 22408182.0,
      "step": 9770
    },
    {
      "entropy": 5.341842079162598,
      "epoch": 0.9390009606147934,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004920048706020769,
      "loss": 5.2885,
      "mean_token_accuracy": 0.19330597370862962,
      "num_tokens": 22419774.0,
      "step": 9775
    },
    {
      "entropy": 5.187641191482544,
      "epoch": 0.9394812680115274,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004919958101393817,
      "loss": 4.9989,
      "mean_token_accuracy": 0.21211641579866408,
      "num_tokens": 22430210.0,
      "step": 9780
    },
    {
      "entropy": 5.290931463241577,
      "epoch": 0.9399615754082613,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004919867446386883,
      "loss": 5.153,
      "mean_token_accuracy": 0.20970916748046875,
      "num_tokens": 22442444.0,
      "step": 9785
    },
    {
      "entropy": 5.184951877593994,
      "epoch": 0.9404418828049952,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000491977674100207,
      "loss": 5.1207,
      "mean_token_accuracy": 0.2109922468662262,
      "num_tokens": 22455521.0,
      "step": 9790
    },
    {
      "entropy": 5.312680387496949,
      "epoch": 0.9409221902017291,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004919685985241483,
      "loss": 5.1845,
      "mean_token_accuracy": 0.20736344754695893,
      "num_tokens": 22466997.0,
      "step": 9795
    },
    {
      "entropy": 5.291236543655396,
      "epoch": 0.9414024975984631,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000491959517910723,
      "loss": 5.0996,
      "mean_token_accuracy": 0.21323858797550202,
      "num_tokens": 22477851.0,
      "step": 9800
    },
    {
      "entropy": 5.2509393215179445,
      "epoch": 0.9418828049951969,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004919504322601421,
      "loss": 5.193,
      "mean_token_accuracy": 0.205467090010643,
      "num_tokens": 22489319.0,
      "step": 9805
    },
    {
      "entropy": 5.174720096588135,
      "epoch": 0.9423631123919308,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004919413415726162,
      "loss": 5.0491,
      "mean_token_accuracy": 0.21085420697927476,
      "num_tokens": 22500847.0,
      "step": 9810
    },
    {
      "entropy": 5.309349250793457,
      "epoch": 0.9428434197886647,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004919322458483566,
      "loss": 5.1415,
      "mean_token_accuracy": 0.20241572856903076,
      "num_tokens": 22512719.0,
      "step": 9815
    },
    {
      "entropy": 5.222389364242554,
      "epoch": 0.9433237271853987,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004919231450875745,
      "loss": 5.0661,
      "mean_token_accuracy": 0.21022214293479918,
      "num_tokens": 22522984.0,
      "step": 9820
    },
    {
      "entropy": 5.2375284194946286,
      "epoch": 0.9438040345821326,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004919140392904809,
      "loss": 5.1092,
      "mean_token_accuracy": 0.21000211089849471,
      "num_tokens": 22534816.0,
      "step": 9825
    },
    {
      "entropy": 5.230174970626831,
      "epoch": 0.9442843419788665,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004919049284572875,
      "loss": 5.0975,
      "mean_token_accuracy": 0.20355214923620224,
      "num_tokens": 22545753.0,
      "step": 9830
    },
    {
      "entropy": 5.301757907867431,
      "epoch": 0.9447646493756003,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004918958125882058,
      "loss": 5.1963,
      "mean_token_accuracy": 0.1956578239798546,
      "num_tokens": 22557237.0,
      "step": 9835
    },
    {
      "entropy": 5.310576248168945,
      "epoch": 0.9452449567723343,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004918866916834474,
      "loss": 5.1236,
      "mean_token_accuracy": 0.20908855646848679,
      "num_tokens": 22568909.0,
      "step": 9840
    },
    {
      "entropy": 5.315052127838134,
      "epoch": 0.9457252641690682,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004918775657432239,
      "loss": 5.2595,
      "mean_token_accuracy": 0.19276428669691087,
      "num_tokens": 22582162.0,
      "step": 9845
    },
    {
      "entropy": 5.258047676086425,
      "epoch": 0.9462055715658021,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004918684347677474,
      "loss": 5.0962,
      "mean_token_accuracy": 0.20234745740890503,
      "num_tokens": 22592405.0,
      "step": 9850
    },
    {
      "entropy": 5.273072290420532,
      "epoch": 0.946685878962536,
      "grad_norm": 1.25,
      "learning_rate": 0.0004918592987572298,
      "loss": 5.1377,
      "mean_token_accuracy": 0.20278570502996446,
      "num_tokens": 22603588.0,
      "step": 9855
    },
    {
      "entropy": 5.321579885482788,
      "epoch": 0.94716618635927,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004918501577118832,
      "loss": 5.2008,
      "mean_token_accuracy": 0.2043844997882843,
      "num_tokens": 22614995.0,
      "step": 9860
    },
    {
      "entropy": 5.288969469070435,
      "epoch": 0.9476464937560038,
      "grad_norm": 1.171875,
      "learning_rate": 0.00049184101163192,
      "loss": 5.1545,
      "mean_token_accuracy": 0.20031799376010895,
      "num_tokens": 22627556.0,
      "step": 9865
    },
    {
      "entropy": 5.311606693267822,
      "epoch": 0.9481268011527377,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004918318605175522,
      "loss": 5.1448,
      "mean_token_accuracy": 0.20381494760513305,
      "num_tokens": 22638339.0,
      "step": 9870
    },
    {
      "entropy": 5.309900140762329,
      "epoch": 0.9486071085494716,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004918227043689924,
      "loss": 5.1063,
      "mean_token_accuracy": 0.2075771450996399,
      "num_tokens": 22648922.0,
      "step": 9875
    },
    {
      "entropy": 5.18968620300293,
      "epoch": 0.9490874159462056,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004918135431864534,
      "loss": 5.1583,
      "mean_token_accuracy": 0.20583543330430984,
      "num_tokens": 22662006.0,
      "step": 9880
    },
    {
      "entropy": 5.232013797760009,
      "epoch": 0.9495677233429395,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004918043769701478,
      "loss": 5.0866,
      "mean_token_accuracy": 0.2079631954431534,
      "num_tokens": 22674649.0,
      "step": 9885
    },
    {
      "entropy": 5.360668706893921,
      "epoch": 0.9500480307396734,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004917952057202882,
      "loss": 5.2037,
      "mean_token_accuracy": 0.1974567338824272,
      "num_tokens": 22685971.0,
      "step": 9890
    },
    {
      "entropy": 5.22627215385437,
      "epoch": 0.9505283381364072,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004917860294370877,
      "loss": 5.0656,
      "mean_token_accuracy": 0.2093571364879608,
      "num_tokens": 22696174.0,
      "step": 9895
    },
    {
      "entropy": 5.31975827217102,
      "epoch": 0.9510086455331412,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004917768481207593,
      "loss": 5.1813,
      "mean_token_accuracy": 0.20513910204172134,
      "num_tokens": 22706983.0,
      "step": 9900
    },
    {
      "entropy": 5.248136568069458,
      "epoch": 0.9514889529298751,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004917676617715162,
      "loss": 5.1088,
      "mean_token_accuracy": 0.206376151740551,
      "num_tokens": 22718251.0,
      "step": 9905
    },
    {
      "entropy": 5.161273384094239,
      "epoch": 0.951969260326609,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004917584703895717,
      "loss": 5.0842,
      "mean_token_accuracy": 0.2124750316143036,
      "num_tokens": 22730071.0,
      "step": 9910
    },
    {
      "entropy": 5.238349151611328,
      "epoch": 0.952449567723343,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004917492739751391,
      "loss": 5.1473,
      "mean_token_accuracy": 0.20351121425628663,
      "num_tokens": 22742027.0,
      "step": 9915
    },
    {
      "entropy": 5.210487508773804,
      "epoch": 0.9529298751200769,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000491740072528432,
      "loss": 5.0373,
      "mean_token_accuracy": 0.21686818301677704,
      "num_tokens": 22752946.0,
      "step": 9920
    },
    {
      "entropy": 5.287168884277344,
      "epoch": 0.9534101825168108,
      "grad_norm": 1.15625,
      "learning_rate": 0.000491730866049664,
      "loss": 5.108,
      "mean_token_accuracy": 0.20497333854436875,
      "num_tokens": 22763944.0,
      "step": 9925
    },
    {
      "entropy": 5.225655937194825,
      "epoch": 0.9538904899135446,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004917216545390489,
      "loss": 5.0843,
      "mean_token_accuracy": 0.20906523764133453,
      "num_tokens": 22774414.0,
      "step": 9930
    },
    {
      "entropy": 5.186794948577881,
      "epoch": 0.9543707973102786,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004917124379968004,
      "loss": 5.0443,
      "mean_token_accuracy": 0.21451948434114457,
      "num_tokens": 22785533.0,
      "step": 9935
    },
    {
      "entropy": 5.153272867202759,
      "epoch": 0.9548511047070125,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004917032164231327,
      "loss": 4.9939,
      "mean_token_accuracy": 0.21023591607809067,
      "num_tokens": 22795809.0,
      "step": 9940
    },
    {
      "entropy": 5.244364500045776,
      "epoch": 0.9553314121037464,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004916939898182598,
      "loss": 5.2216,
      "mean_token_accuracy": 0.20205324590206147,
      "num_tokens": 22807705.0,
      "step": 9945
    },
    {
      "entropy": 5.34041018486023,
      "epoch": 0.9558117195004803,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004916847581823958,
      "loss": 5.1064,
      "mean_token_accuracy": 0.20732269585132598,
      "num_tokens": 22818852.0,
      "step": 9950
    },
    {
      "entropy": 5.187279415130615,
      "epoch": 0.9562920268972143,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004916755215157552,
      "loss": 5.0225,
      "mean_token_accuracy": 0.21118980795145034,
      "num_tokens": 22829146.0,
      "step": 9955
    },
    {
      "entropy": 5.152674341201783,
      "epoch": 0.9567723342939481,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004916662798185524,
      "loss": 5.107,
      "mean_token_accuracy": 0.21148771941661834,
      "num_tokens": 22840088.0,
      "step": 9960
    },
    {
      "entropy": 5.259473514556885,
      "epoch": 0.957252641690682,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004916570330910019,
      "loss": 5.1244,
      "mean_token_accuracy": 0.20842421650886536,
      "num_tokens": 22852470.0,
      "step": 9965
    },
    {
      "entropy": 5.29966549873352,
      "epoch": 0.9577329490874159,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004916477813333185,
      "loss": 5.1655,
      "mean_token_accuracy": 0.19774912297725677,
      "num_tokens": 22863673.0,
      "step": 9970
    },
    {
      "entropy": 5.227234315872193,
      "epoch": 0.9582132564841499,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004916385245457168,
      "loss": 5.1421,
      "mean_token_accuracy": 0.2026590123772621,
      "num_tokens": 22874888.0,
      "step": 9975
    },
    {
      "entropy": 5.2691041946411135,
      "epoch": 0.9586935638808838,
      "grad_norm": 1.4765625,
      "learning_rate": 0.000491629262728412,
      "loss": 5.1591,
      "mean_token_accuracy": 0.19835399985313415,
      "num_tokens": 22886811.0,
      "step": 9980
    },
    {
      "entropy": 5.282389736175537,
      "epoch": 0.9591738712776177,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004916199958816188,
      "loss": 5.1101,
      "mean_token_accuracy": 0.20272685140371322,
      "num_tokens": 22898777.0,
      "step": 9985
    },
    {
      "entropy": 5.259513235092163,
      "epoch": 0.9596541786743515,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004916107240055527,
      "loss": 5.0984,
      "mean_token_accuracy": 0.20606767982244492,
      "num_tokens": 22910804.0,
      "step": 9990
    },
    {
      "entropy": 5.3379199504852295,
      "epoch": 0.9601344860710855,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004916014471004287,
      "loss": 5.2127,
      "mean_token_accuracy": 0.20945288687944413,
      "num_tokens": 22922002.0,
      "step": 9995
    },
    {
      "entropy": 5.268113040924073,
      "epoch": 0.9606147934678194,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004915921651664622,
      "loss": 5.1176,
      "mean_token_accuracy": 0.20583815425634383,
      "num_tokens": 22933471.0,
      "step": 10000
    },
    {
      "entropy": 5.167844009399414,
      "epoch": 0.9610951008645533,
      "grad_norm": 1.2421875,
      "learning_rate": 0.000491582878203869,
      "loss": 5.0343,
      "mean_token_accuracy": 0.21021876633167266,
      "num_tokens": 22945303.0,
      "step": 10005
    },
    {
      "entropy": 5.2859704971313475,
      "epoch": 0.9615754082612872,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004915735862128643,
      "loss": 5.1734,
      "mean_token_accuracy": 0.1960235893726349,
      "num_tokens": 22956620.0,
      "step": 10010
    },
    {
      "entropy": 5.301449775695801,
      "epoch": 0.9620557156580212,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004915642891936641,
      "loss": 5.1695,
      "mean_token_accuracy": 0.20270660370588303,
      "num_tokens": 22968941.0,
      "step": 10015
    },
    {
      "entropy": 5.263174438476563,
      "epoch": 0.962536023054755,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004915549871464841,
      "loss": 5.1471,
      "mean_token_accuracy": 0.2005195811390877,
      "num_tokens": 22980222.0,
      "step": 10020
    },
    {
      "entropy": 5.377077054977417,
      "epoch": 0.9630163304514889,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004915456800715403,
      "loss": 5.1674,
      "mean_token_accuracy": 0.19867794066667557,
      "num_tokens": 22991156.0,
      "step": 10025
    },
    {
      "entropy": 5.341533660888672,
      "epoch": 0.9634966378482228,
      "grad_norm": 1.3671875,
      "learning_rate": 0.000491536367969049,
      "loss": 5.2939,
      "mean_token_accuracy": 0.19976369738578797,
      "num_tokens": 23002939.0,
      "step": 10030
    },
    {
      "entropy": 5.351443099975586,
      "epoch": 0.9639769452449568,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004915270508392261,
      "loss": 5.1535,
      "mean_token_accuracy": 0.20271336436271667,
      "num_tokens": 23015590.0,
      "step": 10035
    },
    {
      "entropy": 5.186623668670654,
      "epoch": 0.9644572526416907,
      "grad_norm": 1.2578125,
      "learning_rate": 0.000491517728682288,
      "loss": 5.0173,
      "mean_token_accuracy": 0.21069204956293106,
      "num_tokens": 23026387.0,
      "step": 10040
    },
    {
      "entropy": 5.1746241569519045,
      "epoch": 0.9649375600384246,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004915084014984512,
      "loss": 5.0882,
      "mean_token_accuracy": 0.21177269369363785,
      "num_tokens": 23037475.0,
      "step": 10045
    },
    {
      "entropy": 5.21121768951416,
      "epoch": 0.9654178674351584,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004914990692879322,
      "loss": 5.0636,
      "mean_token_accuracy": 0.21139880418777465,
      "num_tokens": 23049305.0,
      "step": 10050
    },
    {
      "entropy": 5.226834392547607,
      "epoch": 0.9658981748318924,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004914897320509478,
      "loss": 5.0927,
      "mean_token_accuracy": 0.208532877266407,
      "num_tokens": 23061765.0,
      "step": 10055
    },
    {
      "entropy": 5.257470321655274,
      "epoch": 0.9663784822286263,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004914803897877146,
      "loss": 5.0923,
      "mean_token_accuracy": 0.20083025693893433,
      "num_tokens": 23072355.0,
      "step": 10060
    },
    {
      "entropy": 5.321026134490967,
      "epoch": 0.9668587896253602,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004914710424984495,
      "loss": 5.1071,
      "mean_token_accuracy": 0.19924261420965195,
      "num_tokens": 23085583.0,
      "step": 10065
    },
    {
      "entropy": 5.320055437088013,
      "epoch": 0.9673390970220941,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004914616901833696,
      "loss": 5.1466,
      "mean_token_accuracy": 0.2025774121284485,
      "num_tokens": 23095942.0,
      "step": 10070
    },
    {
      "entropy": 5.203504228591919,
      "epoch": 0.9678194044188281,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000491452332842692,
      "loss": 5.0852,
      "mean_token_accuracy": 0.21284036785364152,
      "num_tokens": 23106540.0,
      "step": 10075
    },
    {
      "entropy": 5.239231157302856,
      "epoch": 0.968299711815562,
      "grad_norm": 1.390625,
      "learning_rate": 0.000491442970476634,
      "loss": 5.1603,
      "mean_token_accuracy": 0.20696305185556413,
      "num_tokens": 23118006.0,
      "step": 10080
    },
    {
      "entropy": 5.230704307556152,
      "epoch": 0.9687800192122958,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004914336030854129,
      "loss": 5.0625,
      "mean_token_accuracy": 0.2126757651567459,
      "num_tokens": 23129103.0,
      "step": 10085
    },
    {
      "entropy": 5.221098470687866,
      "epoch": 0.9692603266090298,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004914242306692461,
      "loss": 5.0595,
      "mean_token_accuracy": 0.21233255714178084,
      "num_tokens": 23140009.0,
      "step": 10090
    },
    {
      "entropy": 5.2262026309967045,
      "epoch": 0.9697406340057637,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004914148532283516,
      "loss": 5.123,
      "mean_token_accuracy": 0.2098432034254074,
      "num_tokens": 23150982.0,
      "step": 10095
    },
    {
      "entropy": 5.3084290504455565,
      "epoch": 0.9702209414024976,
      "grad_norm": 1.25,
      "learning_rate": 0.0004914054707629466,
      "loss": 5.1217,
      "mean_token_accuracy": 0.203516785800457,
      "num_tokens": 23161834.0,
      "step": 10100
    },
    {
      "entropy": 5.321819496154785,
      "epoch": 0.9707012487992315,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004913960832732493,
      "loss": 5.2516,
      "mean_token_accuracy": 0.1973107188940048,
      "num_tokens": 23173355.0,
      "step": 10105
    },
    {
      "entropy": 5.291294431686401,
      "epoch": 0.9711815561959655,
      "grad_norm": 1.84375,
      "learning_rate": 0.0004913866907594774,
      "loss": 5.183,
      "mean_token_accuracy": 0.20283153355121614,
      "num_tokens": 23185075.0,
      "step": 10110
    },
    {
      "entropy": 5.235888957977295,
      "epoch": 0.9716618635926993,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004913772932218491,
      "loss": 5.1614,
      "mean_token_accuracy": 0.21172062009572984,
      "num_tokens": 23195590.0,
      "step": 10115
    },
    {
      "entropy": 5.287680578231812,
      "epoch": 0.9721421709894332,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004913678906605825,
      "loss": 5.1168,
      "mean_token_accuracy": 0.20626269578933715,
      "num_tokens": 23207668.0,
      "step": 10120
    },
    {
      "entropy": 5.210545921325684,
      "epoch": 0.9726224783861671,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004913584830758961,
      "loss": 5.1037,
      "mean_token_accuracy": 0.2144807457923889,
      "num_tokens": 23218497.0,
      "step": 10125
    },
    {
      "entropy": 5.295179796218872,
      "epoch": 0.9731027857829011,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004913490704680081,
      "loss": 5.1883,
      "mean_token_accuracy": 0.19650790989398956,
      "num_tokens": 23230575.0,
      "step": 10130
    },
    {
      "entropy": 5.3129924774169925,
      "epoch": 0.973583093179635,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004913396528371371,
      "loss": 5.1775,
      "mean_token_accuracy": 0.2083025798201561,
      "num_tokens": 23242348.0,
      "step": 10135
    },
    {
      "entropy": 5.318413543701172,
      "epoch": 0.9740634005763689,
      "grad_norm": 1.25,
      "learning_rate": 0.0004913302301835018,
      "loss": 5.1449,
      "mean_token_accuracy": 0.20831867009401323,
      "num_tokens": 23253297.0,
      "step": 10140
    },
    {
      "entropy": 5.209083795547485,
      "epoch": 0.9745437079731027,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000491320802507321,
      "loss": 5.0829,
      "mean_token_accuracy": 0.2160535603761673,
      "num_tokens": 23265830.0,
      "step": 10145
    },
    {
      "entropy": 5.241401433944702,
      "epoch": 0.9750240153698367,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004913113698088133,
      "loss": 5.1587,
      "mean_token_accuracy": 0.2019126072525978,
      "num_tokens": 23275591.0,
      "step": 10150
    },
    {
      "entropy": 5.27093539237976,
      "epoch": 0.9755043227665706,
      "grad_norm": 1.3203125,
      "learning_rate": 0.000491301932088198,
      "loss": 5.0606,
      "mean_token_accuracy": 0.20884221643209458,
      "num_tokens": 23286685.0,
      "step": 10155
    },
    {
      "entropy": 5.236410522460938,
      "epoch": 0.9759846301633045,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004912924893456942,
      "loss": 5.0771,
      "mean_token_accuracy": 0.21038100719451905,
      "num_tokens": 23298776.0,
      "step": 10160
    },
    {
      "entropy": 5.189069700241089,
      "epoch": 0.9764649375600384,
      "grad_norm": 1.3515625,
      "learning_rate": 0.000491283041581521,
      "loss": 5.0817,
      "mean_token_accuracy": 0.2063506156206131,
      "num_tokens": 23310498.0,
      "step": 10165
    },
    {
      "entropy": 5.217845678329468,
      "epoch": 0.9769452449567724,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004912735887958978,
      "loss": 5.1382,
      "mean_token_accuracy": 0.20284378677606582,
      "num_tokens": 23321089.0,
      "step": 10170
    },
    {
      "entropy": 5.288270330429077,
      "epoch": 0.9774255523535063,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004912641309890441,
      "loss": 5.1083,
      "mean_token_accuracy": 0.20696865767240524,
      "num_tokens": 23332142.0,
      "step": 10175
    },
    {
      "entropy": 5.252698373794556,
      "epoch": 0.9779058597502401,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004912546681611794,
      "loss": 5.0731,
      "mean_token_accuracy": 0.21283762007951737,
      "num_tokens": 23343014.0,
      "step": 10180
    },
    {
      "entropy": 5.207805871963501,
      "epoch": 0.978386167146974,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004912452003125234,
      "loss": 5.0497,
      "mean_token_accuracy": 0.2128495082259178,
      "num_tokens": 23354611.0,
      "step": 10185
    },
    {
      "entropy": 5.191194486618042,
      "epoch": 0.978866474543708,
      "grad_norm": 1.40625,
      "learning_rate": 0.000491235727443296,
      "loss": 5.0971,
      "mean_token_accuracy": 0.200925113260746,
      "num_tokens": 23365608.0,
      "step": 10190
    },
    {
      "entropy": 5.283109283447265,
      "epoch": 0.9793467819404419,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004912262495537171,
      "loss": 5.1403,
      "mean_token_accuracy": 0.20711569488048553,
      "num_tokens": 23377884.0,
      "step": 10195
    },
    {
      "entropy": 5.176312112808228,
      "epoch": 0.9798270893371758,
      "grad_norm": 2.828125,
      "learning_rate": 0.0004912167666440068,
      "loss": 5.0456,
      "mean_token_accuracy": 0.21011523604393006,
      "num_tokens": 23389553.0,
      "step": 10200
    },
    {
      "entropy": 5.18413896560669,
      "epoch": 0.9803073967339097,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004912072787143852,
      "loss": 5.0395,
      "mean_token_accuracy": 0.20854321867227554,
      "num_tokens": 23401079.0,
      "step": 10205
    },
    {
      "entropy": 5.191148519515991,
      "epoch": 0.9807877041306436,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004911977857650725,
      "loss": 5.0952,
      "mean_token_accuracy": 0.20658079236745835,
      "num_tokens": 23412886.0,
      "step": 10210
    },
    {
      "entropy": 5.287184333801269,
      "epoch": 0.9812680115273775,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004911882877962893,
      "loss": 5.1568,
      "mean_token_accuracy": 0.2016318693757057,
      "num_tokens": 23424758.0,
      "step": 10215
    },
    {
      "entropy": 5.213660001754761,
      "epoch": 0.9817483189241114,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004911787848082559,
      "loss": 5.0263,
      "mean_token_accuracy": 0.2168577641248703,
      "num_tokens": 23435552.0,
      "step": 10220
    },
    {
      "entropy": 5.178222560882569,
      "epoch": 0.9822286263208453,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004911692768011931,
      "loss": 5.0387,
      "mean_token_accuracy": 0.21100341975688935,
      "num_tokens": 23446584.0,
      "step": 10225
    },
    {
      "entropy": 5.319640445709228,
      "epoch": 0.9827089337175793,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004911597637753217,
      "loss": 5.2566,
      "mean_token_accuracy": 0.19432248920202255,
      "num_tokens": 23458452.0,
      "step": 10230
    },
    {
      "entropy": 5.280249691009521,
      "epoch": 0.9831892411143132,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004911502457308623,
      "loss": 5.1235,
      "mean_token_accuracy": 0.1981524184346199,
      "num_tokens": 23470310.0,
      "step": 10235
    },
    {
      "entropy": 5.322625064849854,
      "epoch": 0.983669548511047,
      "grad_norm": 1.2421875,
      "learning_rate": 0.000491140722668036,
      "loss": 5.1723,
      "mean_token_accuracy": 0.20412614494562148,
      "num_tokens": 23481166.0,
      "step": 10240
    },
    {
      "entropy": 5.271013641357422,
      "epoch": 0.984149855907781,
      "grad_norm": 1.203125,
      "learning_rate": 0.000491131194587064,
      "loss": 5.1469,
      "mean_token_accuracy": 0.207887963950634,
      "num_tokens": 23493134.0,
      "step": 10245
    },
    {
      "entropy": 5.145558023452759,
      "epoch": 0.9846301633045149,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004911216614881675,
      "loss": 5.0461,
      "mean_token_accuracy": 0.21059294939041137,
      "num_tokens": 23504983.0,
      "step": 10250
    },
    {
      "entropy": 5.310237264633178,
      "epoch": 0.9851104707012488,
      "grad_norm": 1.25,
      "learning_rate": 0.0004911121233715677,
      "loss": 5.1215,
      "mean_token_accuracy": 0.2087342619895935,
      "num_tokens": 23516119.0,
      "step": 10255
    },
    {
      "entropy": 5.301252555847168,
      "epoch": 0.9855907780979827,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004911025802374861,
      "loss": 5.1551,
      "mean_token_accuracy": 0.2059706538915634,
      "num_tokens": 23528242.0,
      "step": 10260
    },
    {
      "entropy": 5.182842016220093,
      "epoch": 0.9860710854947167,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004910930320861442,
      "loss": 5.0482,
      "mean_token_accuracy": 0.21699930280447005,
      "num_tokens": 23539738.0,
      "step": 10265
    },
    {
      "entropy": 5.0920305252075195,
      "epoch": 0.9865513928914506,
      "grad_norm": 2.046875,
      "learning_rate": 0.0004910834789177639,
      "loss": 5.0687,
      "mean_token_accuracy": 0.2103741407394409,
      "num_tokens": 23551228.0,
      "step": 10270
    },
    {
      "entropy": 5.33592963218689,
      "epoch": 0.9870317002881844,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004910739207325668,
      "loss": 5.1207,
      "mean_token_accuracy": 0.2097514569759369,
      "num_tokens": 23563084.0,
      "step": 10275
    },
    {
      "entropy": 5.250389766693115,
      "epoch": 0.9875120076849183,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004910643575307749,
      "loss": 5.0891,
      "mean_token_accuracy": 0.2097397819161415,
      "num_tokens": 23574328.0,
      "step": 10280
    },
    {
      "entropy": 5.176170492172242,
      "epoch": 0.9879923150816523,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004910547893126102,
      "loss": 5.0627,
      "mean_token_accuracy": 0.21138110905885696,
      "num_tokens": 23585230.0,
      "step": 10285
    },
    {
      "entropy": 5.22738127708435,
      "epoch": 0.9884726224783862,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004910452160782948,
      "loss": 5.1049,
      "mean_token_accuracy": 0.20212821811437606,
      "num_tokens": 23596951.0,
      "step": 10290
    },
    {
      "entropy": 5.28731255531311,
      "epoch": 0.9889529298751201,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000491035637828051,
      "loss": 5.1244,
      "mean_token_accuracy": 0.21019872575998305,
      "num_tokens": 23607759.0,
      "step": 10295
    },
    {
      "entropy": 5.2878436088562015,
      "epoch": 0.989433237271854,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004910260545621012,
      "loss": 5.1489,
      "mean_token_accuracy": 0.20213536471128463,
      "num_tokens": 23619631.0,
      "step": 10300
    },
    {
      "entropy": 5.243245649337768,
      "epoch": 0.9899135446685879,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004910164662806679,
      "loss": 5.1312,
      "mean_token_accuracy": 0.20988930463790895,
      "num_tokens": 23630601.0,
      "step": 10305
    },
    {
      "entropy": 5.271698808670044,
      "epoch": 0.9903938520653218,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004910068729839736,
      "loss": 5.0656,
      "mean_token_accuracy": 0.21258559077978134,
      "num_tokens": 23641330.0,
      "step": 10310
    },
    {
      "entropy": 5.2771772861480715,
      "epoch": 0.9908741594620557,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004909972746722413,
      "loss": 5.1537,
      "mean_token_accuracy": 0.2006964460015297,
      "num_tokens": 23651492.0,
      "step": 10315
    },
    {
      "entropy": 5.199603843688965,
      "epoch": 0.9913544668587896,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004909876713456935,
      "loss": 5.0443,
      "mean_token_accuracy": 0.2088362917304039,
      "num_tokens": 23661773.0,
      "step": 10320
    },
    {
      "entropy": 5.239661455154419,
      "epoch": 0.9918347742555236,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004909780630045534,
      "loss": 5.0905,
      "mean_token_accuracy": 0.20916487127542496,
      "num_tokens": 23673534.0,
      "step": 10325
    },
    {
      "entropy": 5.266284799575805,
      "epoch": 0.9923150816522575,
      "grad_norm": 1.2109375,
      "learning_rate": 0.000490968449649044,
      "loss": 5.1886,
      "mean_token_accuracy": 0.20307926088571548,
      "num_tokens": 23684892.0,
      "step": 10330
    },
    {
      "entropy": 5.284223937988282,
      "epoch": 0.9927953890489913,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004909588312793884,
      "loss": 5.1518,
      "mean_token_accuracy": 0.2053588092327118,
      "num_tokens": 23696076.0,
      "step": 10335
    },
    {
      "entropy": 5.283962202072144,
      "epoch": 0.9932756964457252,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004909492078958101,
      "loss": 5.1537,
      "mean_token_accuracy": 0.20028176456689833,
      "num_tokens": 23707795.0,
      "step": 10340
    },
    {
      "entropy": 5.249281978607177,
      "epoch": 0.9937560038424592,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004909395794985324,
      "loss": 5.057,
      "mean_token_accuracy": 0.2048047587275505,
      "num_tokens": 23720802.0,
      "step": 10345
    },
    {
      "entropy": 5.25334734916687,
      "epoch": 0.9942363112391931,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004909299460877788,
      "loss": 5.0896,
      "mean_token_accuracy": 0.20352237075567245,
      "num_tokens": 23732854.0,
      "step": 10350
    },
    {
      "entropy": 5.2786060810089115,
      "epoch": 0.994716618635927,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004909203076637732,
      "loss": 5.1659,
      "mean_token_accuracy": 0.2006428435444832,
      "num_tokens": 23743593.0,
      "step": 10355
    },
    {
      "entropy": 5.3259721279144285,
      "epoch": 0.9951969260326609,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004909106642267392,
      "loss": 5.1651,
      "mean_token_accuracy": 0.20107742697000502,
      "num_tokens": 23755447.0,
      "step": 10360
    },
    {
      "entropy": 5.273270559310913,
      "epoch": 0.9956772334293948,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004909010157769006,
      "loss": 5.1412,
      "mean_token_accuracy": 0.20289405286312104,
      "num_tokens": 23767181.0,
      "step": 10365
    },
    {
      "entropy": 5.343906021118164,
      "epoch": 0.9961575408261287,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004908913623144814,
      "loss": 5.2162,
      "mean_token_accuracy": 0.1965470626950264,
      "num_tokens": 23776356.0,
      "step": 10370
    },
    {
      "entropy": 5.270178937911988,
      "epoch": 0.9966378482228626,
      "grad_norm": 1.4609375,
      "learning_rate": 0.000490881703839706,
      "loss": 5.1747,
      "mean_token_accuracy": 0.20546858310699462,
      "num_tokens": 23787965.0,
      "step": 10375
    },
    {
      "entropy": 5.23285551071167,
      "epoch": 0.9971181556195965,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004908720403527984,
      "loss": 5.0634,
      "mean_token_accuracy": 0.21320411562919617,
      "num_tokens": 23800327.0,
      "step": 10380
    },
    {
      "entropy": 5.2099464416503904,
      "epoch": 0.9975984630163305,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000490862371853983,
      "loss": 5.0535,
      "mean_token_accuracy": 0.20708101391792297,
      "num_tokens": 23812845.0,
      "step": 10385
    },
    {
      "entropy": 5.323228597640991,
      "epoch": 0.9980787704130644,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004908526983434844,
      "loss": 5.2069,
      "mean_token_accuracy": 0.19844041019678116,
      "num_tokens": 23824831.0,
      "step": 10390
    },
    {
      "entropy": 5.255801010131836,
      "epoch": 0.9985590778097982,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000490843019821527,
      "loss": 5.0732,
      "mean_token_accuracy": 0.20827420055866241,
      "num_tokens": 23836697.0,
      "step": 10395
    },
    {
      "entropy": 5.204647493362427,
      "epoch": 0.9990393852065321,
      "grad_norm": 1.25,
      "learning_rate": 0.0004908333362883358,
      "loss": 5.0994,
      "mean_token_accuracy": 0.20774794071912767,
      "num_tokens": 23847112.0,
      "step": 10400
    },
    {
      "entropy": 5.334963607788086,
      "epoch": 0.9995196926032661,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004908236477441353,
      "loss": 5.193,
      "mean_token_accuracy": 0.2045993834733963,
      "num_tokens": 23858185.0,
      "step": 10405
    },
    {
      "entropy": 5.197092485427857,
      "epoch": 1.0,
      "grad_norm": 1.75,
      "learning_rate": 0.0004908139541891505,
      "loss": 4.9697,
      "mean_token_accuracy": 0.21775645166635513,
      "num_tokens": 23868536.0,
      "step": 10410
    },
    {
      "entropy": 5.299159669876099,
      "epoch": 1.0004803073967339,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004908042556236066,
      "loss": 5.0114,
      "mean_token_accuracy": 0.21747902780771255,
      "num_tokens": 23880283.0,
      "step": 10415
    },
    {
      "entropy": 5.265295839309692,
      "epoch": 1.0009606147934678,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004907945520477286,
      "loss": 5.0792,
      "mean_token_accuracy": 0.20754191726446153,
      "num_tokens": 23892413.0,
      "step": 10420
    },
    {
      "entropy": 5.34681248664856,
      "epoch": 1.0014409221902016,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004907848434617419,
      "loss": 5.1832,
      "mean_token_accuracy": 0.19456289261579512,
      "num_tokens": 23903977.0,
      "step": 10425
    },
    {
      "entropy": 5.302938079833984,
      "epoch": 1.0019212295869357,
      "grad_norm": 1.3828125,
      "learning_rate": 0.000490775129865872,
      "loss": 5.1463,
      "mean_token_accuracy": 0.2010764569044113,
      "num_tokens": 23915153.0,
      "step": 10430
    },
    {
      "entropy": 5.225161218643189,
      "epoch": 1.0024015369836696,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004907654112603442,
      "loss": 5.0186,
      "mean_token_accuracy": 0.2120182618498802,
      "num_tokens": 23926043.0,
      "step": 10435
    },
    {
      "entropy": 5.143458271026612,
      "epoch": 1.0028818443804035,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004907556876453843,
      "loss": 4.9208,
      "mean_token_accuracy": 0.2206213116645813,
      "num_tokens": 23936658.0,
      "step": 10440
    },
    {
      "entropy": 5.225710868835449,
      "epoch": 1.0033621517771374,
      "grad_norm": 1.3515625,
      "learning_rate": 0.000490745959021218,
      "loss": 5.0434,
      "mean_token_accuracy": 0.20257661491632462,
      "num_tokens": 23947676.0,
      "step": 10445
    },
    {
      "entropy": 5.27921199798584,
      "epoch": 1.0038424591738713,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004907362253880711,
      "loss": 5.0296,
      "mean_token_accuracy": 0.2058090642094612,
      "num_tokens": 23959130.0,
      "step": 10450
    },
    {
      "entropy": 5.305146789550781,
      "epoch": 1.0043227665706052,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004907264867461697,
      "loss": 5.1168,
      "mean_token_accuracy": 0.20227408558130264,
      "num_tokens": 23969905.0,
      "step": 10455
    },
    {
      "entropy": 5.156929969787598,
      "epoch": 1.004803073967339,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004907167430957399,
      "loss": 5.005,
      "mean_token_accuracy": 0.2087326243519783,
      "num_tokens": 23982016.0,
      "step": 10460
    },
    {
      "entropy": 5.258314514160157,
      "epoch": 1.005283381364073,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004907069944370077,
      "loss": 5.1583,
      "mean_token_accuracy": 0.20535677224397658,
      "num_tokens": 23994200.0,
      "step": 10465
    },
    {
      "entropy": 5.350189876556397,
      "epoch": 1.005763688760807,
      "grad_norm": 1.375,
      "learning_rate": 0.0004906972407701998,
      "loss": 5.0445,
      "mean_token_accuracy": 0.21789115369319917,
      "num_tokens": 24004695.0,
      "step": 10470
    },
    {
      "entropy": 5.15443787574768,
      "epoch": 1.006243996157541,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004906874820955423,
      "loss": 4.9954,
      "mean_token_accuracy": 0.21623784005641938,
      "num_tokens": 24015922.0,
      "step": 10475
    },
    {
      "entropy": 5.146531486511231,
      "epoch": 1.0067243035542748,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004906777184132621,
      "loss": 4.9992,
      "mean_token_accuracy": 0.21183741688728333,
      "num_tokens": 24026759.0,
      "step": 10480
    },
    {
      "entropy": 5.300349760055542,
      "epoch": 1.0072046109510087,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004906679497235856,
      "loss": 5.0743,
      "mean_token_accuracy": 0.19960159063339233,
      "num_tokens": 24037988.0,
      "step": 10485
    },
    {
      "entropy": 5.296932697296143,
      "epoch": 1.0076849183477425,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004906581760267397,
      "loss": 5.1147,
      "mean_token_accuracy": 0.2084190621972084,
      "num_tokens": 24050837.0,
      "step": 10490
    },
    {
      "entropy": 5.258708572387695,
      "epoch": 1.0081652257444764,
      "grad_norm": 1.375,
      "learning_rate": 0.0004906483973229513,
      "loss": 4.9916,
      "mean_token_accuracy": 0.2128538578748703,
      "num_tokens": 24063085.0,
      "step": 10495
    },
    {
      "entropy": 5.162822246551514,
      "epoch": 1.0086455331412103,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004906386136124476,
      "loss": 5.0433,
      "mean_token_accuracy": 0.21004260182380677,
      "num_tokens": 24074082.0,
      "step": 10500
    },
    {
      "entropy": 5.3224996566772464,
      "epoch": 1.0091258405379442,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004906288248954554,
      "loss": 5.0928,
      "mean_token_accuracy": 0.20969793498516082,
      "num_tokens": 24085050.0,
      "step": 10505
    },
    {
      "entropy": 5.235025644302368,
      "epoch": 1.0096061479346783,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004906190311722023,
      "loss": 5.0543,
      "mean_token_accuracy": 0.21070992648601533,
      "num_tokens": 24095523.0,
      "step": 10510
    },
    {
      "entropy": 5.172921419143677,
      "epoch": 1.0100864553314122,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004906092324429155,
      "loss": 5.0162,
      "mean_token_accuracy": 0.20338939726352692,
      "num_tokens": 24107157.0,
      "step": 10515
    },
    {
      "entropy": 5.295492935180664,
      "epoch": 1.010566762728146,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004905994287078227,
      "loss": 5.0377,
      "mean_token_accuracy": 0.21216456443071366,
      "num_tokens": 24118668.0,
      "step": 10520
    },
    {
      "entropy": 5.215558815002441,
      "epoch": 1.01104707012488,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004905896199671512,
      "loss": 5.087,
      "mean_token_accuracy": 0.20571289211511612,
      "num_tokens": 24129563.0,
      "step": 10525
    },
    {
      "entropy": 5.31974778175354,
      "epoch": 1.0115273775216138,
      "grad_norm": 1.2109375,
      "learning_rate": 0.000490579806221129,
      "loss": 5.0963,
      "mean_token_accuracy": 0.20234022289514542,
      "num_tokens": 24139965.0,
      "step": 10530
    },
    {
      "entropy": 5.339018249511719,
      "epoch": 1.0120076849183477,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004905699874699838,
      "loss": 5.0927,
      "mean_token_accuracy": 0.2037150517106056,
      "num_tokens": 24152109.0,
      "step": 10535
    },
    {
      "entropy": 5.20176329612732,
      "epoch": 1.0124879923150816,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004905601637139436,
      "loss": 5.0382,
      "mean_token_accuracy": 0.2062271788716316,
      "num_tokens": 24162558.0,
      "step": 10540
    },
    {
      "entropy": 5.153134155273437,
      "epoch": 1.0129682997118155,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004905503349532365,
      "loss": 4.951,
      "mean_token_accuracy": 0.2199328899383545,
      "num_tokens": 24173963.0,
      "step": 10545
    },
    {
      "entropy": 5.1954326152801515,
      "epoch": 1.0134486071085496,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004905405011880906,
      "loss": 4.9813,
      "mean_token_accuracy": 0.2153230667114258,
      "num_tokens": 24184369.0,
      "step": 10550
    },
    {
      "entropy": 5.316426420211792,
      "epoch": 1.0139289145052834,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004905306624187343,
      "loss": 5.1457,
      "mean_token_accuracy": 0.20428456813097,
      "num_tokens": 24194692.0,
      "step": 10555
    },
    {
      "entropy": 5.306823635101319,
      "epoch": 1.0144092219020173,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004905208186453961,
      "loss": 5.0775,
      "mean_token_accuracy": 0.20443981587886811,
      "num_tokens": 24205363.0,
      "step": 10560
    },
    {
      "entropy": 5.286128664016724,
      "epoch": 1.0148895292987512,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004905109698683044,
      "loss": 5.0921,
      "mean_token_accuracy": 0.20271058976650239,
      "num_tokens": 24216678.0,
      "step": 10565
    },
    {
      "entropy": 5.180634689331055,
      "epoch": 1.015369836695485,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004905011160876878,
      "loss": 4.9789,
      "mean_token_accuracy": 0.20550620704889297,
      "num_tokens": 24227541.0,
      "step": 10570
    },
    {
      "entropy": 5.23009238243103,
      "epoch": 1.015850144092219,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004904912573037753,
      "loss": 4.9955,
      "mean_token_accuracy": 0.2097481057047844,
      "num_tokens": 24238118.0,
      "step": 10575
    },
    {
      "entropy": 5.300039005279541,
      "epoch": 1.0163304514889528,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004904813935167957,
      "loss": 5.124,
      "mean_token_accuracy": 0.20036156624555587,
      "num_tokens": 24250044.0,
      "step": 10580
    },
    {
      "entropy": 5.260974168777466,
      "epoch": 1.0168107588856867,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004904715247269779,
      "loss": 5.1359,
      "mean_token_accuracy": 0.19710972905158997,
      "num_tokens": 24262805.0,
      "step": 10585
    },
    {
      "entropy": 5.25907940864563,
      "epoch": 1.0172910662824208,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004904616509345514,
      "loss": 5.0512,
      "mean_token_accuracy": 0.19826420694589614,
      "num_tokens": 24274287.0,
      "step": 10590
    },
    {
      "entropy": 5.131495952606201,
      "epoch": 1.0177713736791547,
      "grad_norm": 1.5,
      "learning_rate": 0.0004904517721397449,
      "loss": 4.9545,
      "mean_token_accuracy": 0.2095574140548706,
      "num_tokens": 24284839.0,
      "step": 10595
    },
    {
      "entropy": 5.185259437561035,
      "epoch": 1.0182516810758886,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004904418883427881,
      "loss": 5.0363,
      "mean_token_accuracy": 0.20771684646606445,
      "num_tokens": 24295812.0,
      "step": 10600
    },
    {
      "entropy": 5.253675317764282,
      "epoch": 1.0187319884726225,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004904319995439104,
      "loss": 5.0144,
      "mean_token_accuracy": 0.21546317189931868,
      "num_tokens": 24306365.0,
      "step": 10605
    },
    {
      "entropy": 5.241600894927979,
      "epoch": 1.0192122958693564,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004904221057433412,
      "loss": 5.0161,
      "mean_token_accuracy": 0.20605212748050689,
      "num_tokens": 24317557.0,
      "step": 10610
    },
    {
      "entropy": 5.208569526672363,
      "epoch": 1.0196926032660902,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004904122069413105,
      "loss": 4.9752,
      "mean_token_accuracy": 0.21478671878576278,
      "num_tokens": 24328874.0,
      "step": 10615
    },
    {
      "entropy": 5.325365495681763,
      "epoch": 1.0201729106628241,
      "grad_norm": 1.2734375,
      "learning_rate": 0.000490402303138048,
      "loss": 5.1671,
      "mean_token_accuracy": 0.2036365568637848,
      "num_tokens": 24340918.0,
      "step": 10620
    },
    {
      "entropy": 5.296480655670166,
      "epoch": 1.0206532180595582,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004903923943337836,
      "loss": 5.09,
      "mean_token_accuracy": 0.20379555076360703,
      "num_tokens": 24352642.0,
      "step": 10625
    },
    {
      "entropy": 5.210208606719971,
      "epoch": 1.021133525456292,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004903824805287475,
      "loss": 4.9669,
      "mean_token_accuracy": 0.21470995843410492,
      "num_tokens": 24364874.0,
      "step": 10630
    },
    {
      "entropy": 5.171673250198364,
      "epoch": 1.021613832853026,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004903725617231696,
      "loss": 5.0951,
      "mean_token_accuracy": 0.21187301725149155,
      "num_tokens": 24376566.0,
      "step": 10635
    },
    {
      "entropy": 5.203986120223999,
      "epoch": 1.0220941402497599,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004903626379172805,
      "loss": 4.9178,
      "mean_token_accuracy": 0.21737915873527527,
      "num_tokens": 24387283.0,
      "step": 10640
    },
    {
      "entropy": 5.284794282913208,
      "epoch": 1.0225744476464937,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004903527091113102,
      "loss": 5.123,
      "mean_token_accuracy": 0.2050114780664444,
      "num_tokens": 24397970.0,
      "step": 10645
    },
    {
      "entropy": 5.227866220474243,
      "epoch": 1.0230547550432276,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004903427753054897,
      "loss": 5.0674,
      "mean_token_accuracy": 0.2044738933444023,
      "num_tokens": 24411223.0,
      "step": 10650
    },
    {
      "entropy": 5.2655031204223635,
      "epoch": 1.0235350624399615,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004903328365000492,
      "loss": 5.0926,
      "mean_token_accuracy": 0.20762381106615066,
      "num_tokens": 24422117.0,
      "step": 10655
    },
    {
      "entropy": 5.236895370483398,
      "epoch": 1.0240153698366954,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004903228926952199,
      "loss": 5.0426,
      "mean_token_accuracy": 0.20284196585416794,
      "num_tokens": 24434142.0,
      "step": 10660
    },
    {
      "entropy": 5.223333692550659,
      "epoch": 1.0244956772334295,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004903129438912322,
      "loss": 4.9533,
      "mean_token_accuracy": 0.2077935144305229,
      "num_tokens": 24445295.0,
      "step": 10665
    },
    {
      "entropy": 5.216018962860107,
      "epoch": 1.0249759846301634,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004903029900883174,
      "loss": 5.0294,
      "mean_token_accuracy": 0.21322072446346282,
      "num_tokens": 24456092.0,
      "step": 10670
    },
    {
      "entropy": 5.246077156066894,
      "epoch": 1.0254562920268973,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004902930312867063,
      "loss": 5.1249,
      "mean_token_accuracy": 0.20178017616271973,
      "num_tokens": 24467653.0,
      "step": 10675
    },
    {
      "entropy": 5.290040493011475,
      "epoch": 1.0259365994236311,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004902830674866306,
      "loss": 5.0763,
      "mean_token_accuracy": 0.20854619145393372,
      "num_tokens": 24479164.0,
      "step": 10680
    },
    {
      "entropy": 5.184268283843994,
      "epoch": 1.026416906820365,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004902730986883211,
      "loss": 4.9426,
      "mean_token_accuracy": 0.21813494712114334,
      "num_tokens": 24489785.0,
      "step": 10685
    },
    {
      "entropy": 5.223792457580567,
      "epoch": 1.026897214217099,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004902631248920096,
      "loss": 5.0399,
      "mean_token_accuracy": 0.20972464382648467,
      "num_tokens": 24500158.0,
      "step": 10690
    },
    {
      "entropy": 5.308423471450806,
      "epoch": 1.0273775216138328,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004902531460979274,
      "loss": 5.1518,
      "mean_token_accuracy": 0.20060888230800628,
      "num_tokens": 24512851.0,
      "step": 10695
    },
    {
      "entropy": 5.2649911403656,
      "epoch": 1.0278578290105667,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004902431623063065,
      "loss": 5.0938,
      "mean_token_accuracy": 0.20821331739425658,
      "num_tokens": 24524016.0,
      "step": 10700
    },
    {
      "entropy": 5.1589634895324705,
      "epoch": 1.0283381364073008,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004902331735173785,
      "loss": 4.979,
      "mean_token_accuracy": 0.2058223605155945,
      "num_tokens": 24536348.0,
      "step": 10705
    },
    {
      "entropy": 5.149962663650513,
      "epoch": 1.0288184438040346,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004902231797313752,
      "loss": 5.0329,
      "mean_token_accuracy": 0.2095619484782219,
      "num_tokens": 24548718.0,
      "step": 10710
    },
    {
      "entropy": 5.180563497543335,
      "epoch": 1.0292987512007685,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004902131809485288,
      "loss": 4.9461,
      "mean_token_accuracy": 0.21883852481842042,
      "num_tokens": 24560567.0,
      "step": 10715
    },
    {
      "entropy": 5.216690635681152,
      "epoch": 1.0297790585975024,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004902031771690713,
      "loss": 4.973,
      "mean_token_accuracy": 0.21082175374031067,
      "num_tokens": 24572610.0,
      "step": 10720
    },
    {
      "entropy": 5.22666974067688,
      "epoch": 1.0302593659942363,
      "grad_norm": 1.25,
      "learning_rate": 0.0004901931683932352,
      "loss": 5.0303,
      "mean_token_accuracy": 0.21025995314121246,
      "num_tokens": 24584738.0,
      "step": 10725
    },
    {
      "entropy": 5.256303358078003,
      "epoch": 1.0307396733909702,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004901831546212526,
      "loss": 5.081,
      "mean_token_accuracy": 0.20822075754404068,
      "num_tokens": 24596603.0,
      "step": 10730
    },
    {
      "entropy": 5.166937351226807,
      "epoch": 1.031219980787704,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004901731358533562,
      "loss": 4.9585,
      "mean_token_accuracy": 0.21120154708623887,
      "num_tokens": 24607061.0,
      "step": 10735
    },
    {
      "entropy": 5.163893556594848,
      "epoch": 1.031700288184438,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004901631120897785,
      "loss": 5.0366,
      "mean_token_accuracy": 0.21032600998878478,
      "num_tokens": 24619177.0,
      "step": 10740
    },
    {
      "entropy": 5.19158706665039,
      "epoch": 1.032180595581172,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004901530833307522,
      "loss": 4.9629,
      "mean_token_accuracy": 0.2108414351940155,
      "num_tokens": 24631336.0,
      "step": 10745
    },
    {
      "entropy": 5.147015523910523,
      "epoch": 1.032660902977906,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004901430495765103,
      "loss": 4.9281,
      "mean_token_accuracy": 0.22001660764217376,
      "num_tokens": 24641743.0,
      "step": 10750
    },
    {
      "entropy": 5.218332290649414,
      "epoch": 1.0331412103746398,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004901330108272855,
      "loss": 4.9683,
      "mean_token_accuracy": 0.21641426235437394,
      "num_tokens": 24652318.0,
      "step": 10755
    },
    {
      "entropy": 5.181002473831176,
      "epoch": 1.0336215177713737,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004901229670833111,
      "loss": 4.9866,
      "mean_token_accuracy": 0.21016779094934462,
      "num_tokens": 24664129.0,
      "step": 10760
    },
    {
      "entropy": 5.25865159034729,
      "epoch": 1.0341018251681076,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004901129183448201,
      "loss": 5.0585,
      "mean_token_accuracy": 0.20536702275276184,
      "num_tokens": 24674921.0,
      "step": 10765
    },
    {
      "entropy": 5.233693790435791,
      "epoch": 1.0345821325648414,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004901028646120459,
      "loss": 5.0129,
      "mean_token_accuracy": 0.20729674845933915,
      "num_tokens": 24686052.0,
      "step": 10770
    },
    {
      "entropy": 5.181743049621582,
      "epoch": 1.0350624399615753,
      "grad_norm": 1.265625,
      "learning_rate": 0.000490092805885222,
      "loss": 5.0101,
      "mean_token_accuracy": 0.20977197587490082,
      "num_tokens": 24698625.0,
      "step": 10775
    },
    {
      "entropy": 5.177609062194824,
      "epoch": 1.0355427473583094,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004900827421645816,
      "loss": 4.9688,
      "mean_token_accuracy": 0.2193769931793213,
      "num_tokens": 24709322.0,
      "step": 10780
    },
    {
      "entropy": 5.15111927986145,
      "epoch": 1.0360230547550433,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004900726734503589,
      "loss": 4.9438,
      "mean_token_accuracy": 0.21662437915802002,
      "num_tokens": 24719512.0,
      "step": 10785
    },
    {
      "entropy": 5.16123480796814,
      "epoch": 1.0365033621517772,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004900625997427872,
      "loss": 4.9806,
      "mean_token_accuracy": 0.21338418126106262,
      "num_tokens": 24729947.0,
      "step": 10790
    },
    {
      "entropy": 5.135127162933349,
      "epoch": 1.036983669548511,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004900525210421006,
      "loss": 4.9767,
      "mean_token_accuracy": 0.21927962452173233,
      "num_tokens": 24741423.0,
      "step": 10795
    },
    {
      "entropy": 5.223546314239502,
      "epoch": 1.037463976945245,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004900424373485329,
      "loss": 5.014,
      "mean_token_accuracy": 0.20575396567583085,
      "num_tokens": 24753403.0,
      "step": 10800
    },
    {
      "entropy": 5.266994619369507,
      "epoch": 1.0379442843419788,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004900323486623185,
      "loss": 5.1261,
      "mean_token_accuracy": 0.20268698483705522,
      "num_tokens": 24763660.0,
      "step": 10805
    },
    {
      "entropy": 5.23413200378418,
      "epoch": 1.0384245917387127,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004900222549836914,
      "loss": 5.0232,
      "mean_token_accuracy": 0.21380564272403718,
      "num_tokens": 24775061.0,
      "step": 10810
    },
    {
      "entropy": 5.259318685531616,
      "epoch": 1.0389048991354466,
      "grad_norm": 1.15625,
      "learning_rate": 0.000490012156312886,
      "loss": 5.0158,
      "mean_token_accuracy": 0.20518611520528793,
      "num_tokens": 24785248.0,
      "step": 10815
    },
    {
      "entropy": 5.128819990158081,
      "epoch": 1.0393852065321807,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004900020526501369,
      "loss": 4.9191,
      "mean_token_accuracy": 0.21387154012918472,
      "num_tokens": 24797024.0,
      "step": 10820
    },
    {
      "entropy": 5.312929439544678,
      "epoch": 1.0398655139289146,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004899919439956785,
      "loss": 5.1953,
      "mean_token_accuracy": 0.20268491804599761,
      "num_tokens": 24808500.0,
      "step": 10825
    },
    {
      "entropy": 5.34240870475769,
      "epoch": 1.0403458213256485,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004899818303497455,
      "loss": 5.1314,
      "mean_token_accuracy": 0.2014186292886734,
      "num_tokens": 24818805.0,
      "step": 10830
    },
    {
      "entropy": 5.268064880371094,
      "epoch": 1.0408261287223823,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0004899717117125728,
      "loss": 5.0649,
      "mean_token_accuracy": 0.20589411109685898,
      "num_tokens": 24829247.0,
      "step": 10835
    },
    {
      "entropy": 5.1017598628997805,
      "epoch": 1.0413064361191162,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004899615880843953,
      "loss": 5.0078,
      "mean_token_accuracy": 0.21258261501789094,
      "num_tokens": 24840139.0,
      "step": 10840
    },
    {
      "entropy": 5.246176147460938,
      "epoch": 1.04178674351585,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004899514594654481,
      "loss": 5.1039,
      "mean_token_accuracy": 0.20273203402757645,
      "num_tokens": 24851734.0,
      "step": 10845
    },
    {
      "entropy": 5.264043140411377,
      "epoch": 1.042267050912584,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004899413258559662,
      "loss": 5.0466,
      "mean_token_accuracy": 0.21014518439769744,
      "num_tokens": 24863424.0,
      "step": 10850
    },
    {
      "entropy": 5.277558660507202,
      "epoch": 1.0427473583093179,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004899311872561849,
      "loss": 5.0636,
      "mean_token_accuracy": 0.20547475218772887,
      "num_tokens": 24875086.0,
      "step": 10855
    },
    {
      "entropy": 5.196067905426025,
      "epoch": 1.043227665706052,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004899210436663398,
      "loss": 4.9935,
      "mean_token_accuracy": 0.21280764788389206,
      "num_tokens": 24888408.0,
      "step": 10860
    },
    {
      "entropy": 5.165633726119995,
      "epoch": 1.0437079731027858,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004899108950866661,
      "loss": 4.9365,
      "mean_token_accuracy": 0.21639619767665863,
      "num_tokens": 24900357.0,
      "step": 10865
    },
    {
      "entropy": 5.252479410171508,
      "epoch": 1.0441882804995197,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004899007415173997,
      "loss": 5.0378,
      "mean_token_accuracy": 0.2107843890786171,
      "num_tokens": 24910790.0,
      "step": 10870
    },
    {
      "entropy": 5.1988269805908205,
      "epoch": 1.0446685878962536,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004898905829587762,
      "loss": 5.013,
      "mean_token_accuracy": 0.20995523184537887,
      "num_tokens": 24922124.0,
      "step": 10875
    },
    {
      "entropy": 5.104007339477539,
      "epoch": 1.0451488952929875,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004898804194110313,
      "loss": 4.9304,
      "mean_token_accuracy": 0.21980289071798326,
      "num_tokens": 24933591.0,
      "step": 10880
    },
    {
      "entropy": 5.195203590393066,
      "epoch": 1.0456292026897214,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004898702508744012,
      "loss": 4.9496,
      "mean_token_accuracy": 0.21639021039009093,
      "num_tokens": 24944708.0,
      "step": 10885
    },
    {
      "entropy": 5.157971286773682,
      "epoch": 1.0461095100864553,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004898600773491221,
      "loss": 4.9176,
      "mean_token_accuracy": 0.21461566239595414,
      "num_tokens": 24955966.0,
      "step": 10890
    },
    {
      "entropy": 5.254655361175537,
      "epoch": 1.0465898174831891,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004898498988354297,
      "loss": 5.0325,
      "mean_token_accuracy": 0.21173021644353868,
      "num_tokens": 24967292.0,
      "step": 10895
    },
    {
      "entropy": 5.230365228652954,
      "epoch": 1.0470701248799232,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004898397153335608,
      "loss": 5.0959,
      "mean_token_accuracy": 0.20530790984630584,
      "num_tokens": 24977407.0,
      "step": 10900
    },
    {
      "entropy": 5.294993305206299,
      "epoch": 1.0475504322766571,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004898295268437517,
      "loss": 5.1541,
      "mean_token_accuracy": 0.20490354150533677,
      "num_tokens": 24988804.0,
      "step": 10905
    },
    {
      "entropy": 5.229137849807739,
      "epoch": 1.048030739673391,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004898193333662388,
      "loss": 5.0796,
      "mean_token_accuracy": 0.20612839758396148,
      "num_tokens": 25000297.0,
      "step": 10910
    },
    {
      "entropy": 5.225936555862427,
      "epoch": 1.0485110470701249,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004898091349012588,
      "loss": 5.0167,
      "mean_token_accuracy": 0.20787729918956757,
      "num_tokens": 25012135.0,
      "step": 10915
    },
    {
      "entropy": 5.138573503494262,
      "epoch": 1.0489913544668588,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004897989314490486,
      "loss": 4.9946,
      "mean_token_accuracy": 0.21607837826013565,
      "num_tokens": 25023572.0,
      "step": 10920
    },
    {
      "entropy": 5.2005609512329105,
      "epoch": 1.0494716618635926,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004897887230098451,
      "loss": 5.0626,
      "mean_token_accuracy": 0.20565639436244965,
      "num_tokens": 25035015.0,
      "step": 10925
    },
    {
      "entropy": 5.209970331192016,
      "epoch": 1.0499519692603265,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004897785095838852,
      "loss": 4.9928,
      "mean_token_accuracy": 0.2115662842988968,
      "num_tokens": 25045931.0,
      "step": 10930
    },
    {
      "entropy": 5.248309993743897,
      "epoch": 1.0504322766570606,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004897682911714061,
      "loss": 5.0403,
      "mean_token_accuracy": 0.2143391728401184,
      "num_tokens": 25056767.0,
      "step": 10935
    },
    {
      "entropy": 5.159217071533203,
      "epoch": 1.0509125840537945,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000489758067772645,
      "loss": 4.9852,
      "mean_token_accuracy": 0.21812189370393753,
      "num_tokens": 25068731.0,
      "step": 10940
    },
    {
      "entropy": 5.239347696304321,
      "epoch": 1.0513928914505284,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004897478393878392,
      "loss": 5.0752,
      "mean_token_accuracy": 0.20207206010818482,
      "num_tokens": 25081268.0,
      "step": 10945
    },
    {
      "entropy": 5.1585955142974855,
      "epoch": 1.0518731988472623,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004897376060172264,
      "loss": 4.9696,
      "mean_token_accuracy": 0.2180320918560028,
      "num_tokens": 25093105.0,
      "step": 10950
    },
    {
      "entropy": 5.193137502670288,
      "epoch": 1.0523535062439962,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004897273676610438,
      "loss": 4.9759,
      "mean_token_accuracy": 0.21481747329235076,
      "num_tokens": 25103766.0,
      "step": 10955
    },
    {
      "entropy": 5.226558351516724,
      "epoch": 1.05283381364073,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004897171243195295,
      "loss": 5.1226,
      "mean_token_accuracy": 0.21184030324220657,
      "num_tokens": 25115675.0,
      "step": 10960
    },
    {
      "entropy": 5.209109592437744,
      "epoch": 1.053314121037464,
      "grad_norm": 1.109375,
      "learning_rate": 0.000489706875992921,
      "loss": 4.991,
      "mean_token_accuracy": 0.21007043421268462,
      "num_tokens": 25127907.0,
      "step": 10965
    },
    {
      "entropy": 5.1817710399627686,
      "epoch": 1.0537944284341978,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004896966226814565,
      "loss": 5.0141,
      "mean_token_accuracy": 0.2095083549618721,
      "num_tokens": 25139675.0,
      "step": 10970
    },
    {
      "entropy": 5.254951429367066,
      "epoch": 1.054274735830932,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004896863643853739,
      "loss": 5.1364,
      "mean_token_accuracy": 0.20798720717430114,
      "num_tokens": 25150960.0,
      "step": 10975
    },
    {
      "entropy": 5.297211503982544,
      "epoch": 1.0547550432276658,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004896761011049114,
      "loss": 5.1038,
      "mean_token_accuracy": 0.20611060559749603,
      "num_tokens": 25163676.0,
      "step": 10980
    },
    {
      "entropy": 5.181599044799805,
      "epoch": 1.0552353506243997,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004896658328403074,
      "loss": 5.0374,
      "mean_token_accuracy": 0.20499148815870286,
      "num_tokens": 25174317.0,
      "step": 10985
    },
    {
      "entropy": 5.152895545959472,
      "epoch": 1.0557156580211335,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004896555595918001,
      "loss": 5.0424,
      "mean_token_accuracy": 0.20741064995527267,
      "num_tokens": 25186585.0,
      "step": 10990
    },
    {
      "entropy": 5.254479122161865,
      "epoch": 1.0561959654178674,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004896452813596281,
      "loss": 5.064,
      "mean_token_accuracy": 0.20580837428569793,
      "num_tokens": 25199014.0,
      "step": 10995
    },
    {
      "entropy": 5.286199140548706,
      "epoch": 1.0566762728146013,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004896349981440301,
      "loss": 5.1538,
      "mean_token_accuracy": 0.20260929614305495,
      "num_tokens": 25210544.0,
      "step": 11000
    },
    {
      "entropy": 5.2207067012786865,
      "epoch": 1.0571565802113352,
      "grad_norm": 1.25,
      "learning_rate": 0.0004896247099452447,
      "loss": 5.025,
      "mean_token_accuracy": 0.21664920300245286,
      "num_tokens": 25221583.0,
      "step": 11005
    },
    {
      "entropy": 5.203857946395874,
      "epoch": 1.057636887608069,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004896144167635108,
      "loss": 5.0237,
      "mean_token_accuracy": 0.21649594753980636,
      "num_tokens": 25231724.0,
      "step": 11010
    },
    {
      "entropy": 5.265408086776733,
      "epoch": 1.0581171950048032,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004896041185990675,
      "loss": 5.1366,
      "mean_token_accuracy": 0.2034787967801094,
      "num_tokens": 25243021.0,
      "step": 11015
    },
    {
      "entropy": 5.302087926864624,
      "epoch": 1.058597502401537,
      "grad_norm": 1.25,
      "learning_rate": 0.0004895938154521538,
      "loss": 5.0813,
      "mean_token_accuracy": 0.20792468786239623,
      "num_tokens": 25254189.0,
      "step": 11020
    },
    {
      "entropy": 5.238738918304444,
      "epoch": 1.059077809798271,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004895835073230089,
      "loss": 5.1264,
      "mean_token_accuracy": 0.20500208884477616,
      "num_tokens": 25265556.0,
      "step": 11025
    },
    {
      "entropy": 5.12807183265686,
      "epoch": 1.0595581171950048,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004895731942118722,
      "loss": 4.9421,
      "mean_token_accuracy": 0.2060550183057785,
      "num_tokens": 25276789.0,
      "step": 11030
    },
    {
      "entropy": 5.241643381118775,
      "epoch": 1.0600384245917387,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004895628761189829,
      "loss": 5.1203,
      "mean_token_accuracy": 0.2057103246450424,
      "num_tokens": 25288505.0,
      "step": 11035
    },
    {
      "entropy": 5.179819774627686,
      "epoch": 1.0605187319884726,
      "grad_norm": 1.25,
      "learning_rate": 0.0004895525530445809,
      "loss": 4.9773,
      "mean_token_accuracy": 0.22087481170892714,
      "num_tokens": 25301490.0,
      "step": 11040
    },
    {
      "entropy": 5.209347820281982,
      "epoch": 1.0609990393852065,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004895422249889057,
      "loss": 5.0721,
      "mean_token_accuracy": 0.20252202302217484,
      "num_tokens": 25313303.0,
      "step": 11045
    },
    {
      "entropy": 5.27926664352417,
      "epoch": 1.0614793467819403,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004895318919521971,
      "loss": 5.1309,
      "mean_token_accuracy": 0.19722591042518617,
      "num_tokens": 25324379.0,
      "step": 11050
    },
    {
      "entropy": 5.209228229522705,
      "epoch": 1.0619596541786744,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004895215539346949,
      "loss": 4.9702,
      "mean_token_accuracy": 0.21044884771108627,
      "num_tokens": 25335834.0,
      "step": 11055
    },
    {
      "entropy": 5.195343494415283,
      "epoch": 1.0624399615754083,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004895112109366393,
      "loss": 5.0312,
      "mean_token_accuracy": 0.2079668939113617,
      "num_tokens": 25347591.0,
      "step": 11060
    },
    {
      "entropy": 5.194220972061157,
      "epoch": 1.0629202689721422,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004895008629582703,
      "loss": 5.0066,
      "mean_token_accuracy": 0.21342374235391617,
      "num_tokens": 25358483.0,
      "step": 11065
    },
    {
      "entropy": 5.19577956199646,
      "epoch": 1.063400576368876,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004894905099998283,
      "loss": 5.0158,
      "mean_token_accuracy": 0.20696393847465516,
      "num_tokens": 25369434.0,
      "step": 11070
    },
    {
      "entropy": 5.223496198654175,
      "epoch": 1.06388088376561,
      "grad_norm": 1.125,
      "learning_rate": 0.0004894801520615535,
      "loss": 5.0318,
      "mean_token_accuracy": 0.21212296783924103,
      "num_tokens": 25381007.0,
      "step": 11075
    },
    {
      "entropy": 5.193694734573365,
      "epoch": 1.0643611911623438,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004894697891436863,
      "loss": 5.0148,
      "mean_token_accuracy": 0.20833683609962464,
      "num_tokens": 25393809.0,
      "step": 11080
    },
    {
      "entropy": 5.198791122436523,
      "epoch": 1.0648414985590777,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004894594212464676,
      "loss": 5.0451,
      "mean_token_accuracy": 0.21562531143426894,
      "num_tokens": 25404967.0,
      "step": 11085
    },
    {
      "entropy": 5.2563148021698,
      "epoch": 1.0653218059558118,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004894490483701381,
      "loss": 5.0122,
      "mean_token_accuracy": 0.21502433270215987,
      "num_tokens": 25417092.0,
      "step": 11090
    },
    {
      "entropy": 5.2914710521698,
      "epoch": 1.0658021133525457,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004894386705149382,
      "loss": 5.1036,
      "mean_token_accuracy": 0.2005739152431488,
      "num_tokens": 25428425.0,
      "step": 11095
    },
    {
      "entropy": 5.151738977432251,
      "epoch": 1.0662824207492796,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004894282876811093,
      "loss": 4.9347,
      "mean_token_accuracy": 0.21947899460792542,
      "num_tokens": 25440134.0,
      "step": 11100
    },
    {
      "entropy": 5.143119049072266,
      "epoch": 1.0667627281460135,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004894178998688921,
      "loss": 5.0003,
      "mean_token_accuracy": 0.21364154070615768,
      "num_tokens": 25452222.0,
      "step": 11105
    },
    {
      "entropy": 5.19956374168396,
      "epoch": 1.0672430355427474,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004894075070785281,
      "loss": 5.0462,
      "mean_token_accuracy": 0.2120614990592003,
      "num_tokens": 25464541.0,
      "step": 11110
    },
    {
      "entropy": 5.293523740768433,
      "epoch": 1.0677233429394812,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004893971093102585,
      "loss": 5.0531,
      "mean_token_accuracy": 0.19972920715808867,
      "num_tokens": 25476537.0,
      "step": 11115
    },
    {
      "entropy": 5.360321044921875,
      "epoch": 1.0682036503362151,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004893867065643245,
      "loss": 5.1091,
      "mean_token_accuracy": 0.20334839224815368,
      "num_tokens": 25486737.0,
      "step": 11120
    },
    {
      "entropy": 5.192300510406494,
      "epoch": 1.068683957732949,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004893762988409678,
      "loss": 5.0534,
      "mean_token_accuracy": 0.20364596098661422,
      "num_tokens": 25497278.0,
      "step": 11125
    },
    {
      "entropy": 5.208005428314209,
      "epoch": 1.069164265129683,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004893658861404301,
      "loss": 5.0304,
      "mean_token_accuracy": 0.2047014966607094,
      "num_tokens": 25508716.0,
      "step": 11130
    },
    {
      "entropy": 5.282382202148438,
      "epoch": 1.069644572526417,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004893554684629529,
      "loss": 5.1053,
      "mean_token_accuracy": 0.20216587483882903,
      "num_tokens": 25519439.0,
      "step": 11135
    },
    {
      "entropy": 5.184592771530151,
      "epoch": 1.0701248799231509,
      "grad_norm": 1.921875,
      "learning_rate": 0.0004893450458087784,
      "loss": 4.9136,
      "mean_token_accuracy": 0.2212449848651886,
      "num_tokens": 25530911.0,
      "step": 11140
    },
    {
      "entropy": 5.250302124023437,
      "epoch": 1.0706051873198847,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004893346181781483,
      "loss": 5.149,
      "mean_token_accuracy": 0.1957184687256813,
      "num_tokens": 25542452.0,
      "step": 11145
    },
    {
      "entropy": 5.269041585922241,
      "epoch": 1.0710854947166186,
      "grad_norm": 1.25,
      "learning_rate": 0.0004893241855713048,
      "loss": 5.0786,
      "mean_token_accuracy": 0.19805409461259843,
      "num_tokens": 25554105.0,
      "step": 11150
    },
    {
      "entropy": 5.312788391113282,
      "epoch": 1.0715658021133525,
      "grad_norm": 1.125,
      "learning_rate": 0.0004893137479884903,
      "loss": 5.1134,
      "mean_token_accuracy": 0.20513837188482284,
      "num_tokens": 25564806.0,
      "step": 11155
    },
    {
      "entropy": 5.186615085601806,
      "epoch": 1.0720461095100864,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004893033054299468,
      "loss": 5.0038,
      "mean_token_accuracy": 0.21586932092905045,
      "num_tokens": 25575664.0,
      "step": 11160
    },
    {
      "entropy": 5.158471345901489,
      "epoch": 1.0725264169068203,
      "grad_norm": 1.2890625,
      "learning_rate": 0.000489292857895917,
      "loss": 4.9254,
      "mean_token_accuracy": 0.21706438809633255,
      "num_tokens": 25586227.0,
      "step": 11165
    },
    {
      "entropy": 5.24803352355957,
      "epoch": 1.0730067243035544,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004892824053866432,
      "loss": 5.1114,
      "mean_token_accuracy": 0.20555976331233977,
      "num_tokens": 25597475.0,
      "step": 11170
    },
    {
      "entropy": 5.169841670989991,
      "epoch": 1.0734870317002883,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004892719479023683,
      "loss": 4.9757,
      "mean_token_accuracy": 0.220069320499897,
      "num_tokens": 25608098.0,
      "step": 11175
    },
    {
      "entropy": 5.268892574310303,
      "epoch": 1.0739673390970221,
      "grad_norm": 1.2421875,
      "learning_rate": 0.000489261485443335,
      "loss": 5.101,
      "mean_token_accuracy": 0.20311392694711686,
      "num_tokens": 25620053.0,
      "step": 11180
    },
    {
      "entropy": 5.293476009368897,
      "epoch": 1.074447646493756,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004892510180097863,
      "loss": 5.0365,
      "mean_token_accuracy": 0.2041410133242607,
      "num_tokens": 25630534.0,
      "step": 11185
    },
    {
      "entropy": 5.236781454086303,
      "epoch": 1.07492795389049,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004892405456019651,
      "loss": 5.0553,
      "mean_token_accuracy": 0.20958582758903505,
      "num_tokens": 25641413.0,
      "step": 11190
    },
    {
      "entropy": 5.12468638420105,
      "epoch": 1.0754082612872238,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004892300682201147,
      "loss": 4.9719,
      "mean_token_accuracy": 0.21782579123973847,
      "num_tokens": 25652081.0,
      "step": 11195
    },
    {
      "entropy": 5.232947635650635,
      "epoch": 1.0758885686839577,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004892195858644782,
      "loss": 5.0749,
      "mean_token_accuracy": 0.21364531815052032,
      "num_tokens": 25664282.0,
      "step": 11200
    },
    {
      "entropy": 5.29130368232727,
      "epoch": 1.0763688760806915,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000489209098535299,
      "loss": 5.1488,
      "mean_token_accuracy": 0.2104579210281372,
      "num_tokens": 25675310.0,
      "step": 11205
    },
    {
      "entropy": 5.364002227783203,
      "epoch": 1.0768491834774256,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004891986062328205,
      "loss": 5.125,
      "mean_token_accuracy": 0.21008958518505097,
      "num_tokens": 25686895.0,
      "step": 11210
    },
    {
      "entropy": 5.1909034729003904,
      "epoch": 1.0773294908741595,
      "grad_norm": 1.25,
      "learning_rate": 0.0004891881089572865,
      "loss": 4.9291,
      "mean_token_accuracy": 0.21216631978750228,
      "num_tokens": 25697778.0,
      "step": 11215
    },
    {
      "entropy": 5.194598817825318,
      "epoch": 1.0778097982708934,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004891776067089406,
      "loss": 5.0898,
      "mean_token_accuracy": 0.20165782868862153,
      "num_tokens": 25708602.0,
      "step": 11220
    },
    {
      "entropy": 5.248305320739746,
      "epoch": 1.0782901056676273,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004891670994880266,
      "loss": 4.9873,
      "mean_token_accuracy": 0.21111140102148057,
      "num_tokens": 25719671.0,
      "step": 11225
    },
    {
      "entropy": 5.291704702377319,
      "epoch": 1.0787704130643612,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004891565872947888,
      "loss": 5.1287,
      "mean_token_accuracy": 0.2033605992794037,
      "num_tokens": 25731797.0,
      "step": 11230
    },
    {
      "entropy": 5.131606006622315,
      "epoch": 1.079250720461095,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004891460701294706,
      "loss": 4.9989,
      "mean_token_accuracy": 0.2117511048913002,
      "num_tokens": 25743984.0,
      "step": 11235
    },
    {
      "entropy": 5.14411768913269,
      "epoch": 1.079731027857829,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004891355479923167,
      "loss": 5.0089,
      "mean_token_accuracy": 0.21176680326461791,
      "num_tokens": 25755252.0,
      "step": 11240
    },
    {
      "entropy": 5.19481086730957,
      "epoch": 1.080211335254563,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004891250208835712,
      "loss": 4.9358,
      "mean_token_accuracy": 0.21151957362890245,
      "num_tokens": 25765715.0,
      "step": 11245
    },
    {
      "entropy": 5.282035970687867,
      "epoch": 1.080691642651297,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004891144888034784,
      "loss": 5.062,
      "mean_token_accuracy": 0.2050844192504883,
      "num_tokens": 25777866.0,
      "step": 11250
    },
    {
      "entropy": 5.208021640777588,
      "epoch": 1.0811719500480308,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004891039517522832,
      "loss": 4.9757,
      "mean_token_accuracy": 0.21298900246620178,
      "num_tokens": 25791199.0,
      "step": 11255
    },
    {
      "entropy": 5.092755365371704,
      "epoch": 1.0816522574447647,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004890934097302299,
      "loss": 4.9385,
      "mean_token_accuracy": 0.2256488636136055,
      "num_tokens": 25802979.0,
      "step": 11260
    },
    {
      "entropy": 5.082042789459228,
      "epoch": 1.0821325648414986,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004890828627375632,
      "loss": 4.9459,
      "mean_token_accuracy": 0.2113230675458908,
      "num_tokens": 25814696.0,
      "step": 11265
    },
    {
      "entropy": 5.222199535369873,
      "epoch": 1.0826128722382324,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004890723107745283,
      "loss": 5.0634,
      "mean_token_accuracy": 0.20086456686258317,
      "num_tokens": 25825376.0,
      "step": 11270
    },
    {
      "entropy": 5.239181756973267,
      "epoch": 1.0830931796349663,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004890617538413699,
      "loss": 5.0172,
      "mean_token_accuracy": 0.21430771350860595,
      "num_tokens": 25835491.0,
      "step": 11275
    },
    {
      "entropy": 5.273404932022094,
      "epoch": 1.0835734870317002,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004890511919383333,
      "loss": 5.0797,
      "mean_token_accuracy": 0.20752860009670257,
      "num_tokens": 25848154.0,
      "step": 11280
    },
    {
      "entropy": 5.189536762237549,
      "epoch": 1.084053794428434,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004890406250656636,
      "loss": 5.0563,
      "mean_token_accuracy": 0.20726050287485123,
      "num_tokens": 25859471.0,
      "step": 11285
    },
    {
      "entropy": 5.1854105472564695,
      "epoch": 1.0845341018251682,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004890300532236062,
      "loss": 4.9667,
      "mean_token_accuracy": 0.21461206972599028,
      "num_tokens": 25869460.0,
      "step": 11290
    },
    {
      "entropy": 5.1921216487884525,
      "epoch": 1.085014409221902,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004890194764124064,
      "loss": 4.9847,
      "mean_token_accuracy": 0.21348736435174942,
      "num_tokens": 25881892.0,
      "step": 11295
    },
    {
      "entropy": 5.274989652633667,
      "epoch": 1.085494716618636,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004890088946323099,
      "loss": 5.1136,
      "mean_token_accuracy": 0.20064806640148164,
      "num_tokens": 25893774.0,
      "step": 11300
    },
    {
      "entropy": 5.141970014572143,
      "epoch": 1.0859750240153698,
      "grad_norm": 1.375,
      "learning_rate": 0.0004889983078835623,
      "loss": 4.924,
      "mean_token_accuracy": 0.21487925201654434,
      "num_tokens": 25904758.0,
      "step": 11305
    },
    {
      "entropy": 5.145872449874878,
      "epoch": 1.0864553314121037,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004889877161664096,
      "loss": 5.0486,
      "mean_token_accuracy": 0.20480419993400573,
      "num_tokens": 25917013.0,
      "step": 11310
    },
    {
      "entropy": 5.349794626235962,
      "epoch": 1.0869356388088376,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004889771194810974,
      "loss": 5.1048,
      "mean_token_accuracy": 0.2101388841867447,
      "num_tokens": 25927780.0,
      "step": 11315
    },
    {
      "entropy": 5.162079620361328,
      "epoch": 1.0874159462055715,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004889665178278719,
      "loss": 4.99,
      "mean_token_accuracy": 0.21398296654224397,
      "num_tokens": 25939339.0,
      "step": 11320
    },
    {
      "entropy": 5.184692430496216,
      "epoch": 1.0878962536023056,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004889559112069792,
      "loss": 4.9803,
      "mean_token_accuracy": 0.21223179250955582,
      "num_tokens": 25950440.0,
      "step": 11325
    },
    {
      "entropy": 5.23531174659729,
      "epoch": 1.0883765609990395,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004889452996186657,
      "loss": 5.0247,
      "mean_token_accuracy": 0.20834243446588516,
      "num_tokens": 25962849.0,
      "step": 11330
    },
    {
      "entropy": 5.221828603744507,
      "epoch": 1.0888568683957733,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004889346830631774,
      "loss": 5.0695,
      "mean_token_accuracy": 0.20499206930398942,
      "num_tokens": 25973616.0,
      "step": 11335
    },
    {
      "entropy": 5.175124979019165,
      "epoch": 1.0893371757925072,
      "grad_norm": 1.2421875,
      "learning_rate": 0.000488924061540761,
      "loss": 4.9543,
      "mean_token_accuracy": 0.21570177525281906,
      "num_tokens": 25984727.0,
      "step": 11340
    },
    {
      "entropy": 5.218035411834717,
      "epoch": 1.089817483189241,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004889134350516633,
      "loss": 5.069,
      "mean_token_accuracy": 0.20992496013641357,
      "num_tokens": 25996431.0,
      "step": 11345
    },
    {
      "entropy": 5.199566984176636,
      "epoch": 1.090297790585975,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004889028035961308,
      "loss": 5.0212,
      "mean_token_accuracy": 0.20875319093465805,
      "num_tokens": 26008936.0,
      "step": 11350
    },
    {
      "entropy": 5.28378643989563,
      "epoch": 1.0907780979827089,
      "grad_norm": 1.25,
      "learning_rate": 0.0004888921671744103,
      "loss": 5.0843,
      "mean_token_accuracy": 0.20148587226867676,
      "num_tokens": 26019308.0,
      "step": 11355
    },
    {
      "entropy": 5.234175491333008,
      "epoch": 1.0912584053794427,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004888815257867488,
      "loss": 4.9794,
      "mean_token_accuracy": 0.21648937463760376,
      "num_tokens": 26030705.0,
      "step": 11360
    },
    {
      "entropy": 5.227200984954834,
      "epoch": 1.0917387127761768,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004888708794333934,
      "loss": 5.0079,
      "mean_token_accuracy": 0.21071529090404512,
      "num_tokens": 26042759.0,
      "step": 11365
    },
    {
      "entropy": 5.233187103271485,
      "epoch": 1.0922190201729107,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004888602281145913,
      "loss": 5.0673,
      "mean_token_accuracy": 0.20930221676826477,
      "num_tokens": 26054719.0,
      "step": 11370
    },
    {
      "entropy": 5.210502481460571,
      "epoch": 1.0926993275696446,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004888495718305897,
      "loss": 5.0531,
      "mean_token_accuracy": 0.20732715278863906,
      "num_tokens": 26065765.0,
      "step": 11375
    },
    {
      "entropy": 5.092276668548584,
      "epoch": 1.0931796349663785,
      "grad_norm": 1.1875,
      "learning_rate": 0.000488838910581636,
      "loss": 4.9681,
      "mean_token_accuracy": 0.21723177582025527,
      "num_tokens": 26077719.0,
      "step": 11380
    },
    {
      "entropy": 5.271825551986694,
      "epoch": 1.0936599423631124,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004888282443679777,
      "loss": 5.1021,
      "mean_token_accuracy": 0.1978613868355751,
      "num_tokens": 26089924.0,
      "step": 11385
    },
    {
      "entropy": 5.389468097686768,
      "epoch": 1.0941402497598463,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004888175731898627,
      "loss": 5.1585,
      "mean_token_accuracy": 0.20117444396018982,
      "num_tokens": 26100312.0,
      "step": 11390
    },
    {
      "entropy": 5.196537494659424,
      "epoch": 1.0946205571565801,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004888068970475384,
      "loss": 5.0671,
      "mean_token_accuracy": 0.21175539195537568,
      "num_tokens": 26111932.0,
      "step": 11395
    },
    {
      "entropy": 5.233985948562622,
      "epoch": 1.0951008645533142,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004887962159412529,
      "loss": 4.9669,
      "mean_token_accuracy": 0.2145277202129364,
      "num_tokens": 26123989.0,
      "step": 11400
    },
    {
      "entropy": 5.24011116027832,
      "epoch": 1.0955811719500481,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004887855298712541,
      "loss": 5.0822,
      "mean_token_accuracy": 0.2078133523464203,
      "num_tokens": 26135589.0,
      "step": 11405
    },
    {
      "entropy": 5.1291491985321045,
      "epoch": 1.096061479346782,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00048877483883779,
      "loss": 4.9785,
      "mean_token_accuracy": 0.21442267745733262,
      "num_tokens": 26147069.0,
      "step": 11410
    },
    {
      "entropy": 5.19802622795105,
      "epoch": 1.0965417867435159,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004887641428411091,
      "loss": 5.0536,
      "mean_token_accuracy": 0.2031223937869072,
      "num_tokens": 26159331.0,
      "step": 11415
    },
    {
      "entropy": 5.239735078811646,
      "epoch": 1.0970220941402498,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0004887534418814595,
      "loss": 5.0489,
      "mean_token_accuracy": 0.21215286552906037,
      "num_tokens": 26169863.0,
      "step": 11420
    },
    {
      "entropy": 5.201609802246094,
      "epoch": 1.0975024015369836,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004887427359590897,
      "loss": 5.018,
      "mean_token_accuracy": 0.20545354038476943,
      "num_tokens": 26182888.0,
      "step": 11425
    },
    {
      "entropy": 5.196053218841553,
      "epoch": 1.0979827089337175,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004887320250742482,
      "loss": 5.0074,
      "mean_token_accuracy": 0.21169717162847518,
      "num_tokens": 26194979.0,
      "step": 11430
    },
    {
      "entropy": 5.163520240783692,
      "epoch": 1.0984630163304514,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004887213092271838,
      "loss": 5.0171,
      "mean_token_accuracy": 0.218392214179039,
      "num_tokens": 26207309.0,
      "step": 11435
    },
    {
      "entropy": 5.180823183059692,
      "epoch": 1.0989433237271853,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004887105884181451,
      "loss": 5.0562,
      "mean_token_accuracy": 0.20584176182746888,
      "num_tokens": 26219231.0,
      "step": 11440
    },
    {
      "entropy": 5.28138575553894,
      "epoch": 1.0994236311239194,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0004886998626473813,
      "loss": 5.0914,
      "mean_token_accuracy": 0.2082364484667778,
      "num_tokens": 26229355.0,
      "step": 11445
    },
    {
      "entropy": 5.259874248504639,
      "epoch": 1.0999039385206533,
      "grad_norm": 1.25,
      "learning_rate": 0.0004886891319151411,
      "loss": 4.9917,
      "mean_token_accuracy": 0.21067868769168854,
      "num_tokens": 26239069.0,
      "step": 11450
    },
    {
      "entropy": 5.232890796661377,
      "epoch": 1.1003842459173871,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004886783962216738,
      "loss": 5.1051,
      "mean_token_accuracy": 0.20159524232149123,
      "num_tokens": 26250403.0,
      "step": 11455
    },
    {
      "entropy": 5.2542445182800295,
      "epoch": 1.100864553314121,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004886676555672287,
      "loss": 5.0155,
      "mean_token_accuracy": 0.20787968933582307,
      "num_tokens": 26262926.0,
      "step": 11460
    },
    {
      "entropy": 5.3055487155914305,
      "epoch": 1.101344860710855,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004886569099520551,
      "loss": 5.1355,
      "mean_token_accuracy": 0.2017137423157692,
      "num_tokens": 26274030.0,
      "step": 11465
    },
    {
      "entropy": 5.146465301513672,
      "epoch": 1.1018251681075888,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004886461593764024,
      "loss": 5.0465,
      "mean_token_accuracy": 0.21580926030874253,
      "num_tokens": 26284799.0,
      "step": 11470
    },
    {
      "entropy": 5.112147951126099,
      "epoch": 1.1023054755043227,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004886354038405204,
      "loss": 4.9238,
      "mean_token_accuracy": 0.22144615203142165,
      "num_tokens": 26295154.0,
      "step": 11475
    },
    {
      "entropy": 5.2879190921783445,
      "epoch": 1.1027857829010568,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004886246433446586,
      "loss": 5.0586,
      "mean_token_accuracy": 0.20436291843652726,
      "num_tokens": 26306181.0,
      "step": 11480
    },
    {
      "entropy": 5.296609544754029,
      "epoch": 1.1032660902977907,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004886138778890669,
      "loss": 5.1495,
      "mean_token_accuracy": 0.19853242188692094,
      "num_tokens": 26318674.0,
      "step": 11485
    },
    {
      "entropy": 5.262785196304321,
      "epoch": 1.1037463976945245,
      "grad_norm": 1.25,
      "learning_rate": 0.0004886031074739953,
      "loss": 5.0698,
      "mean_token_accuracy": 0.2011367380619049,
      "num_tokens": 26330257.0,
      "step": 11490
    },
    {
      "entropy": 5.268162727355957,
      "epoch": 1.1042267050912584,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004885923320996938,
      "loss": 5.0199,
      "mean_token_accuracy": 0.20887107402086258,
      "num_tokens": 26342035.0,
      "step": 11495
    },
    {
      "entropy": 5.2100663661956785,
      "epoch": 1.1047070124879923,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004885815517664127,
      "loss": 5.0453,
      "mean_token_accuracy": 0.20797477215528487,
      "num_tokens": 26352703.0,
      "step": 11500
    },
    {
      "entropy": 5.280159616470337,
      "epoch": 1.1051873198847262,
      "grad_norm": 1.3046875,
      "learning_rate": 0.000488570766474402,
      "loss": 5.0525,
      "mean_token_accuracy": 0.2123723268508911,
      "num_tokens": 26362324.0,
      "step": 11505
    },
    {
      "entropy": 5.240962123870849,
      "epoch": 1.10566762728146,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004885599762239124,
      "loss": 5.0814,
      "mean_token_accuracy": 0.20114895701408386,
      "num_tokens": 26373540.0,
      "step": 11510
    },
    {
      "entropy": 5.198315954208374,
      "epoch": 1.106147934678194,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004885491810151943,
      "loss": 5.0311,
      "mean_token_accuracy": 0.21315819025039673,
      "num_tokens": 26384259.0,
      "step": 11515
    },
    {
      "entropy": 5.164407539367676,
      "epoch": 1.106628242074928,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004885383808484982,
      "loss": 5.0093,
      "mean_token_accuracy": 0.2147809937596321,
      "num_tokens": 26395193.0,
      "step": 11520
    },
    {
      "entropy": 5.166898584365844,
      "epoch": 1.107108549471662,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004885275757240751,
      "loss": 4.9888,
      "mean_token_accuracy": 0.21306061148643493,
      "num_tokens": 26408556.0,
      "step": 11525
    },
    {
      "entropy": 5.181211996078491,
      "epoch": 1.1075888568683958,
      "grad_norm": 1.25,
      "learning_rate": 0.0004885167656421757,
      "loss": 5.0399,
      "mean_token_accuracy": 0.21158163398504257,
      "num_tokens": 26420066.0,
      "step": 11530
    },
    {
      "entropy": 5.251511573791504,
      "epoch": 1.1080691642651297,
      "grad_norm": 1.34375,
      "learning_rate": 0.000488505950603051,
      "loss": 5.0044,
      "mean_token_accuracy": 0.21201496720314025,
      "num_tokens": 26432533.0,
      "step": 11535
    },
    {
      "entropy": 5.220172452926636,
      "epoch": 1.1085494716618636,
      "grad_norm": 1.4296875,
      "learning_rate": 0.000488495130606952,
      "loss": 5.0101,
      "mean_token_accuracy": 0.20595130324363708,
      "num_tokens": 26443878.0,
      "step": 11540
    },
    {
      "entropy": 5.173053646087647,
      "epoch": 1.1090297790585975,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004884843056541302,
      "loss": 5.0053,
      "mean_token_accuracy": 0.20983056724071503,
      "num_tokens": 26455111.0,
      "step": 11545
    },
    {
      "entropy": 5.2253295421600345,
      "epoch": 1.1095100864553313,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004884734757448367,
      "loss": 5.0401,
      "mean_token_accuracy": 0.2117287129163742,
      "num_tokens": 26466577.0,
      "step": 11550
    },
    {
      "entropy": 5.212938976287842,
      "epoch": 1.1099903938520654,
      "grad_norm": 1.2578125,
      "learning_rate": 0.000488462640879323,
      "loss": 4.9652,
      "mean_token_accuracy": 0.21090029329061508,
      "num_tokens": 26479637.0,
      "step": 11555
    },
    {
      "entropy": 5.146299743652344,
      "epoch": 1.1104707012487993,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004884518010578405,
      "loss": 5.0053,
      "mean_token_accuracy": 0.2093895897269249,
      "num_tokens": 26489923.0,
      "step": 11560
    },
    {
      "entropy": 5.262247848510742,
      "epoch": 1.1109510086455332,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004884409562806411,
      "loss": 5.107,
      "mean_token_accuracy": 0.2048266798257828,
      "num_tokens": 26501236.0,
      "step": 11565
    },
    {
      "entropy": 5.210489082336426,
      "epoch": 1.111431316042267,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004884301065479765,
      "loss": 4.9631,
      "mean_token_accuracy": 0.2114759638905525,
      "num_tokens": 26511509.0,
      "step": 11570
    },
    {
      "entropy": 5.148941612243652,
      "epoch": 1.111911623439001,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004884192518600986,
      "loss": 4.9407,
      "mean_token_accuracy": 0.2189345121383667,
      "num_tokens": 26520931.0,
      "step": 11575
    },
    {
      "entropy": 5.10898380279541,
      "epoch": 1.1123919308357348,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004884083922172593,
      "loss": 4.9487,
      "mean_token_accuracy": 0.2212027356028557,
      "num_tokens": 26531333.0,
      "step": 11580
    },
    {
      "entropy": 5.150489377975464,
      "epoch": 1.1128722382324687,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004883975276197108,
      "loss": 5.0245,
      "mean_token_accuracy": 0.2141410857439041,
      "num_tokens": 26543696.0,
      "step": 11585
    },
    {
      "entropy": 5.21362886428833,
      "epoch": 1.1133525456292026,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004883866580677055,
      "loss": 4.9893,
      "mean_token_accuracy": 0.21139197200536727,
      "num_tokens": 26556292.0,
      "step": 11590
    },
    {
      "entropy": 5.244434595108032,
      "epoch": 1.1138328530259365,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004883757835614956,
      "loss": 5.0254,
      "mean_token_accuracy": 0.2002588540315628,
      "num_tokens": 26568023.0,
      "step": 11595
    },
    {
      "entropy": 5.1676887512207035,
      "epoch": 1.1143131604226706,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004883649041013335,
      "loss": 5.0,
      "mean_token_accuracy": 0.20850686728954315,
      "num_tokens": 26579469.0,
      "step": 11600
    },
    {
      "entropy": 5.249563598632813,
      "epoch": 1.1147934678194045,
      "grad_norm": 1.453125,
      "learning_rate": 0.000488354019687472,
      "loss": 5.0175,
      "mean_token_accuracy": 0.20751053243875503,
      "num_tokens": 26591592.0,
      "step": 11605
    },
    {
      "entropy": 5.24787974357605,
      "epoch": 1.1152737752161384,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004883431303201636,
      "loss": 5.0213,
      "mean_token_accuracy": 0.2119702085852623,
      "num_tokens": 26604075.0,
      "step": 11610
    },
    {
      "entropy": 5.092301654815674,
      "epoch": 1.1157540826128722,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004883322359996613,
      "loss": 4.9402,
      "mean_token_accuracy": 0.21203264445066453,
      "num_tokens": 26616448.0,
      "step": 11615
    },
    {
      "entropy": 5.232432794570923,
      "epoch": 1.1162343900096061,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004883213367262179,
      "loss": 5.014,
      "mean_token_accuracy": 0.21606809943914412,
      "num_tokens": 26628749.0,
      "step": 11620
    },
    {
      "entropy": 5.1754385471344,
      "epoch": 1.11671469740634,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004883104325000866,
      "loss": 4.9661,
      "mean_token_accuracy": 0.21770241409540175,
      "num_tokens": 26640163.0,
      "step": 11625
    },
    {
      "entropy": 5.214389657974243,
      "epoch": 1.1171950048030739,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004882995233215203,
      "loss": 5.0279,
      "mean_token_accuracy": 0.21030279397964477,
      "num_tokens": 26650729.0,
      "step": 11630
    },
    {
      "entropy": 5.1765196323394775,
      "epoch": 1.117675312199808,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004882886091907726,
      "loss": 5.0681,
      "mean_token_accuracy": 0.20886261761188507,
      "num_tokens": 26661995.0,
      "step": 11635
    },
    {
      "entropy": 5.166051578521729,
      "epoch": 1.1181556195965419,
      "grad_norm": 1.1875,
      "learning_rate": 0.00048827769010809666,
      "loss": 4.9625,
      "mean_token_accuracy": 0.21373932361602782,
      "num_tokens": 26673224.0,
      "step": 11640
    },
    {
      "entropy": 5.2252014636993405,
      "epoch": 1.1186359269932757,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00048826676607374606,
      "loss": 4.9973,
      "mean_token_accuracy": 0.20560778081417083,
      "num_tokens": 26686331.0,
      "step": 11645
    },
    {
      "entropy": 5.253619718551636,
      "epoch": 1.1191162343900096,
      "grad_norm": 1.296875,
      "learning_rate": 0.00048825583708797434,
      "loss": 5.0623,
      "mean_token_accuracy": 0.2126183569431305,
      "num_tokens": 26696816.0,
      "step": 11650
    },
    {
      "entropy": 5.149569368362426,
      "epoch": 1.1195965417867435,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004882449031510354,
      "loss": 5.0084,
      "mean_token_accuracy": 0.21252903193235398,
      "num_tokens": 26708126.0,
      "step": 11655
    },
    {
      "entropy": 5.2515003204345705,
      "epoch": 1.1200768491834774,
      "grad_norm": 1.15625,
      "learning_rate": 0.000488233964263183,
      "loss": 5.1267,
      "mean_token_accuracy": 0.20479959100484849,
      "num_tokens": 26718951.0,
      "step": 11660
    },
    {
      "entropy": 5.24708366394043,
      "epoch": 1.1205571565802113,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00048822302042467115,
      "loss": 5.0769,
      "mean_token_accuracy": 0.20536175221204758,
      "num_tokens": 26730550.0,
      "step": 11665
    },
    {
      "entropy": 5.11295714378357,
      "epoch": 1.1210374639769451,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004882120716357539,
      "loss": 4.9113,
      "mean_token_accuracy": 0.21777141392230986,
      "num_tokens": 26741485.0,
      "step": 11670
    },
    {
      "entropy": 5.075635814666748,
      "epoch": 1.1215177713736793,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004882011178966854,
      "loss": 4.9079,
      "mean_token_accuracy": 0.2191823497414589,
      "num_tokens": 26753947.0,
      "step": 11675
    },
    {
      "entropy": 5.206958436965943,
      "epoch": 1.1219980787704131,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004881901592077201,
      "loss": 4.9939,
      "mean_token_accuracy": 0.2158915787935257,
      "num_tokens": 26764921.0,
      "step": 11680
    },
    {
      "entropy": 5.221724176406861,
      "epoch": 1.122478386167147,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004881791955691123,
      "loss": 4.9439,
      "mean_token_accuracy": 0.21361148059368135,
      "num_tokens": 26777384.0,
      "step": 11685
    },
    {
      "entropy": 5.2075098037719725,
      "epoch": 1.122958693563881,
      "grad_norm": 1.296875,
      "learning_rate": 0.00048816822698111655,
      "loss": 5.07,
      "mean_token_accuracy": 0.20504006147384643,
      "num_tokens": 26789916.0,
      "step": 11690
    },
    {
      "entropy": 5.194676733016967,
      "epoch": 1.1234390009606148,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00048815725344398766,
      "loss": 4.9768,
      "mean_token_accuracy": 0.2126043662428856,
      "num_tokens": 26801167.0,
      "step": 11695
    },
    {
      "entropy": 5.290380001068115,
      "epoch": 1.1239193083573487,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00048814627495798017,
      "loss": 5.0949,
      "mean_token_accuracy": 0.20276835262775422,
      "num_tokens": 26813235.0,
      "step": 11700
    },
    {
      "entropy": 5.283368635177612,
      "epoch": 1.1243996157540825,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004881352915233492,
      "loss": 5.0815,
      "mean_token_accuracy": 0.2050356462597847,
      "num_tokens": 26824758.0,
      "step": 11705
    },
    {
      "entropy": 5.222380495071411,
      "epoch": 1.1248799231508164,
      "grad_norm": 1.171875,
      "learning_rate": 0.00048812430314034956,
      "loss": 5.0459,
      "mean_token_accuracy": 0.20643949508666992,
      "num_tokens": 26836877.0,
      "step": 11710
    },
    {
      "entropy": 5.146471929550171,
      "epoch": 1.1253602305475505,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004881133098092365,
      "loss": 4.8847,
      "mean_token_accuracy": 0.22436288893222808,
      "num_tokens": 26848394.0,
      "step": 11715
    },
    {
      "entropy": 5.169895315170288,
      "epoch": 1.1258405379442844,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004881023115302652,
      "loss": 5.0248,
      "mean_token_accuracy": 0.20842950493097306,
      "num_tokens": 26859064.0,
      "step": 11720
    },
    {
      "entropy": 5.259196662902832,
      "epoch": 1.1263208453410183,
      "grad_norm": 1.296875,
      "learning_rate": 0.000488091308303691,
      "loss": 5.1436,
      "mean_token_accuracy": 0.19910948574543,
      "num_tokens": 26870401.0,
      "step": 11725
    },
    {
      "entropy": 5.256836318969727,
      "epoch": 1.1268011527377522,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004880803001297694,
      "loss": 5.0458,
      "mean_token_accuracy": 0.21228888928890227,
      "num_tokens": 26881767.0,
      "step": 11730
    },
    {
      "entropy": 5.177135944366455,
      "epoch": 1.127281460134486,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004880692870087559,
      "loss": 4.9447,
      "mean_token_accuracy": 0.21096309274435043,
      "num_tokens": 26892854.0,
      "step": 11735
    },
    {
      "entropy": 5.290387105941773,
      "epoch": 1.12776176753122,
      "grad_norm": 1.328125,
      "learning_rate": 0.00048805826894090626,
      "loss": 5.1022,
      "mean_token_accuracy": 0.2025263249874115,
      "num_tokens": 26905079.0,
      "step": 11740
    },
    {
      "entropy": 5.267297887802124,
      "epoch": 1.1282420749279538,
      "grad_norm": 1.25,
      "learning_rate": 0.00048804724592647626,
      "loss": 5.1096,
      "mean_token_accuracy": 0.205536325275898,
      "num_tokens": 26915640.0,
      "step": 11745
    },
    {
      "entropy": 5.2140075206756595,
      "epoch": 1.1287223823246877,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004880362179657218,
      "loss": 5.0008,
      "mean_token_accuracy": 0.2080523982644081,
      "num_tokens": 26927039.0,
      "step": 11750
    },
    {
      "entropy": 5.185867214202881,
      "epoch": 1.1292026897214218,
      "grad_norm": 1.296875,
      "learning_rate": 0.00048802518505889904,
      "loss": 4.9986,
      "mean_token_accuracy": 0.21176180839538575,
      "num_tokens": 26939368.0,
      "step": 11755
    },
    {
      "entropy": 5.182089567184448,
      "epoch": 1.1296829971181557,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00048801414720626404,
      "loss": 5.1614,
      "mean_token_accuracy": 0.19189264625310898,
      "num_tokens": 26952051.0,
      "step": 11760
    },
    {
      "entropy": 5.198432683944702,
      "epoch": 1.1301633045148896,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00048800310440807294,
      "loss": 4.9895,
      "mean_token_accuracy": 0.20608253926038742,
      "num_tokens": 26963680.0,
      "step": 11765
    },
    {
      "entropy": 5.098900985717774,
      "epoch": 1.1306436119116234,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004879920566645823,
      "loss": 4.8958,
      "mean_token_accuracy": 0.22000947147607802,
      "num_tokens": 26973899.0,
      "step": 11770
    },
    {
      "entropy": 5.164202928543091,
      "epoch": 1.1311239193083573,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004879810039760486,
      "loss": 5.0344,
      "mean_token_accuracy": 0.20242914706468582,
      "num_tokens": 26985692.0,
      "step": 11775
    },
    {
      "entropy": 5.224712562561035,
      "epoch": 1.1316042267050912,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004879699463427284,
      "loss": 4.9784,
      "mean_token_accuracy": 0.21051635444164277,
      "num_tokens": 26996354.0,
      "step": 11780
    },
    {
      "entropy": 5.236588096618652,
      "epoch": 1.132084534101825,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004879588837648785,
      "loss": 5.0068,
      "mean_token_accuracy": 0.20998671054840087,
      "num_tokens": 27007925.0,
      "step": 11785
    },
    {
      "entropy": 5.186428022384644,
      "epoch": 1.1325648414985592,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00048794781624275554,
      "loss": 4.975,
      "mean_token_accuracy": 0.2176157593727112,
      "num_tokens": 27019222.0,
      "step": 11790
    },
    {
      "entropy": 5.125696468353271,
      "epoch": 1.133045148895293,
      "grad_norm": 1.203125,
      "learning_rate": 0.00048793674377661664,
      "loss": 4.9674,
      "mean_token_accuracy": 0.21915102750062943,
      "num_tokens": 27029973.0,
      "step": 11795
    },
    {
      "entropy": 5.233280372619629,
      "epoch": 1.133525456292027,
      "grad_norm": 1.328125,
      "learning_rate": 0.00048792566636671886,
      "loss": 5.1306,
      "mean_token_accuracy": 0.2096991240978241,
      "num_tokens": 27042002.0,
      "step": 11800
    },
    {
      "entropy": 5.178752517700195,
      "epoch": 1.1340057636887608,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004879145840133194,
      "loss": 5.0308,
      "mean_token_accuracy": 0.21618867963552474,
      "num_tokens": 27052770.0,
      "step": 11805
    },
    {
      "entropy": 5.270467710494995,
      "epoch": 1.1344860710854947,
      "grad_norm": 1.75,
      "learning_rate": 0.0004879034967166755,
      "loss": 5.0632,
      "mean_token_accuracy": 0.20635210424661637,
      "num_tokens": 27063375.0,
      "step": 11810
    },
    {
      "entropy": 5.201555490493774,
      "epoch": 1.1349663784822286,
      "grad_norm": 2.015625,
      "learning_rate": 0.0004878924044770446,
      "loss": 5.0013,
      "mean_token_accuracy": 0.20745259374380112,
      "num_tokens": 27075908.0,
      "step": 11815
    },
    {
      "entropy": 5.1736366748809814,
      "epoch": 1.1354466858789625,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004878813072946843,
      "loss": 5.0447,
      "mean_token_accuracy": 0.21043994426727294,
      "num_tokens": 27087590.0,
      "step": 11820
    },
    {
      "entropy": 5.225687408447266,
      "epoch": 1.1359269932756964,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00048787020516985203,
      "loss": 4.9593,
      "mean_token_accuracy": 0.218149633705616,
      "num_tokens": 27098076.0,
      "step": 11825
    },
    {
      "entropy": 5.2235795021057125,
      "epoch": 1.1364073006724302,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00048785909810280576,
      "loss": 4.9734,
      "mean_token_accuracy": 0.2160875007510185,
      "num_tokens": 27109851.0,
      "step": 11830
    },
    {
      "entropy": 5.222425508499145,
      "epoch": 1.1368876080691643,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004878479860938033,
      "loss": 4.9228,
      "mean_token_accuracy": 0.21766222417354583,
      "num_tokens": 27121288.0,
      "step": 11835
    },
    {
      "entropy": 5.195209598541259,
      "epoch": 1.1373679154658982,
      "grad_norm": 1.265625,
      "learning_rate": 0.00048783686914310266,
      "loss": 5.0172,
      "mean_token_accuracy": 0.21215075105428696,
      "num_tokens": 27133877.0,
      "step": 11840
    },
    {
      "entropy": 5.063023233413697,
      "epoch": 1.137848222862632,
      "grad_norm": 1.5,
      "learning_rate": 0.0004878257472509619,
      "loss": 4.8351,
      "mean_token_accuracy": 0.22125699520111083,
      "num_tokens": 27145616.0,
      "step": 11845
    },
    {
      "entropy": 5.107744407653809,
      "epoch": 1.138328530259366,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004878146204176392,
      "loss": 4.9853,
      "mean_token_accuracy": 0.20994766801595688,
      "num_tokens": 27157182.0,
      "step": 11850
    },
    {
      "entropy": 5.2036010265350345,
      "epoch": 1.1388088376560999,
      "grad_norm": 1.3125,
      "learning_rate": 0.000487803488643393,
      "loss": 4.9386,
      "mean_token_accuracy": 0.2160127192735672,
      "num_tokens": 27167609.0,
      "step": 11855
    },
    {
      "entropy": 5.24319167137146,
      "epoch": 1.1392891450528337,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00048779235192848166,
      "loss": 5.1012,
      "mean_token_accuracy": 0.2044668361544609,
      "num_tokens": 27180043.0,
      "step": 11860
    },
    {
      "entropy": 5.169292831420899,
      "epoch": 1.1397694524495678,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004877812102731638,
      "loss": 4.8945,
      "mean_token_accuracy": 0.22032397091388703,
      "num_tokens": 27191870.0,
      "step": 11865
    },
    {
      "entropy": 5.157991981506347,
      "epoch": 1.1402497598463017,
      "grad_norm": 1.265625,
      "learning_rate": 0.00048777006367769804,
      "loss": 5.0222,
      "mean_token_accuracy": 0.213824962079525,
      "num_tokens": 27203291.0,
      "step": 11870
    },
    {
      "entropy": 5.2055253982543945,
      "epoch": 1.1407300672430356,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004877589121423432,
      "loss": 5.041,
      "mean_token_accuracy": 0.21266603320837021,
      "num_tokens": 27214607.0,
      "step": 11875
    },
    {
      "entropy": 5.185617160797119,
      "epoch": 1.1412103746397695,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004877477556673582,
      "loss": 4.9066,
      "mean_token_accuracy": 0.21550966054201126,
      "num_tokens": 27224658.0,
      "step": 11880
    },
    {
      "entropy": 5.1661797046661375,
      "epoch": 1.1416906820365034,
      "grad_norm": 1.203125,
      "learning_rate": 0.000487736594253002,
      "loss": 5.0204,
      "mean_token_accuracy": 0.20654748678207396,
      "num_tokens": 27235306.0,
      "step": 11885
    },
    {
      "entropy": 5.276842164993286,
      "epoch": 1.1421709894332372,
      "grad_norm": 1.46875,
      "learning_rate": 0.00048772542789953384,
      "loss": 5.0314,
      "mean_token_accuracy": 0.20629957020282746,
      "num_tokens": 27246679.0,
      "step": 11890
    },
    {
      "entropy": 5.28350601196289,
      "epoch": 1.1426512968299711,
      "grad_norm": 1.1875,
      "learning_rate": 0.00048771425660721284,
      "loss": 5.065,
      "mean_token_accuracy": 0.20193494856357574,
      "num_tokens": 27257799.0,
      "step": 11895
    },
    {
      "entropy": 5.124622106552124,
      "epoch": 1.143131604226705,
      "grad_norm": 1.265625,
      "learning_rate": 0.00048770308037629853,
      "loss": 5.0324,
      "mean_token_accuracy": 0.2094832718372345,
      "num_tokens": 27268651.0,
      "step": 11900
    },
    {
      "entropy": 5.176864957809448,
      "epoch": 1.143611911623439,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004876918992070502,
      "loss": 5.0004,
      "mean_token_accuracy": 0.2177245572209358,
      "num_tokens": 27280655.0,
      "step": 11905
    },
    {
      "entropy": 5.243468952178955,
      "epoch": 1.144092219020173,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004876807130997276,
      "loss": 5.0788,
      "mean_token_accuracy": 0.20621824115514756,
      "num_tokens": 27292664.0,
      "step": 11910
    },
    {
      "entropy": 5.224751567840576,
      "epoch": 1.1445725264169069,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004876695220545903,
      "loss": 5.0655,
      "mean_token_accuracy": 0.20803812742233277,
      "num_tokens": 27306143.0,
      "step": 11915
    },
    {
      "entropy": 5.201717710494995,
      "epoch": 1.1450528338136408,
      "grad_norm": 1.265625,
      "learning_rate": 0.00048765832607189824,
      "loss": 4.9712,
      "mean_token_accuracy": 0.2136443629860878,
      "num_tokens": 27316926.0,
      "step": 11920
    },
    {
      "entropy": 5.28920431137085,
      "epoch": 1.1455331412103746,
      "grad_norm": 1.640625,
      "learning_rate": 0.00048764712515191136,
      "loss": 5.0737,
      "mean_token_accuracy": 0.2188516676425934,
      "num_tokens": 27327472.0,
      "step": 11925
    },
    {
      "entropy": 5.269708442687988,
      "epoch": 1.1460134486071085,
      "grad_norm": 1.25,
      "learning_rate": 0.00048763591929488966,
      "loss": 5.045,
      "mean_token_accuracy": 0.21446569710969926,
      "num_tokens": 27338388.0,
      "step": 11930
    },
    {
      "entropy": 5.159726858139038,
      "epoch": 1.1464937560038424,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004876247085010933,
      "loss": 4.9518,
      "mean_token_accuracy": 0.2131276786327362,
      "num_tokens": 27349879.0,
      "step": 11935
    },
    {
      "entropy": 5.11401858329773,
      "epoch": 1.1469740634005763,
      "grad_norm": 1.375,
      "learning_rate": 0.00048761349277078253,
      "loss": 4.9533,
      "mean_token_accuracy": 0.2188461974263191,
      "num_tokens": 27361226.0,
      "step": 11940
    },
    {
      "entropy": 5.213291311264038,
      "epoch": 1.1474543707973104,
      "grad_norm": 1.359375,
      "learning_rate": 0.00048760227210421775,
      "loss": 4.9345,
      "mean_token_accuracy": 0.2213941693305969,
      "num_tokens": 27373512.0,
      "step": 11945
    },
    {
      "entropy": 5.145865774154663,
      "epoch": 1.1479346781940443,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004875910465016596,
      "loss": 5.0049,
      "mean_token_accuracy": 0.21635116934776305,
      "num_tokens": 27384950.0,
      "step": 11950
    },
    {
      "entropy": 5.295030307769776,
      "epoch": 1.1484149855907781,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004875798159633686,
      "loss": 5.0487,
      "mean_token_accuracy": 0.20899975001811982,
      "num_tokens": 27395877.0,
      "step": 11955
    },
    {
      "entropy": 5.202318477630615,
      "epoch": 1.148895292987512,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004875685804896055,
      "loss": 5.0986,
      "mean_token_accuracy": 0.21304885745048524,
      "num_tokens": 27407783.0,
      "step": 11960
    },
    {
      "entropy": 5.181471586227417,
      "epoch": 1.149375600384246,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004875573400806312,
      "loss": 4.9887,
      "mean_token_accuracy": 0.21124700605869293,
      "num_tokens": 27420598.0,
      "step": 11965
    },
    {
      "entropy": 5.237709093093872,
      "epoch": 1.1498559077809798,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00048754609473670654,
      "loss": 5.0651,
      "mean_token_accuracy": 0.21090197712182998,
      "num_tokens": 27431961.0,
      "step": 11970
    },
    {
      "entropy": 5.21086540222168,
      "epoch": 1.1503362151777137,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004875348444580927,
      "loss": 4.9156,
      "mean_token_accuracy": 0.22040790617465972,
      "num_tokens": 27444010.0,
      "step": 11975
    },
    {
      "entropy": 5.2328328609466555,
      "epoch": 1.1508165225744476,
      "grad_norm": 1.171875,
      "learning_rate": 0.000487523589245051,
      "loss": 4.9771,
      "mean_token_accuracy": 0.2139630988240242,
      "num_tokens": 27455576.0,
      "step": 11980
    },
    {
      "entropy": 5.184505844116211,
      "epoch": 1.1512968299711814,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004875123290978425,
      "loss": 5.0403,
      "mean_token_accuracy": 0.20502331107854843,
      "num_tokens": 27468957.0,
      "step": 11985
    },
    {
      "entropy": 5.2058931350708,
      "epoch": 1.1517771373679155,
      "grad_norm": 1.171875,
      "learning_rate": 0.00048750106401672876,
      "loss": 4.9986,
      "mean_token_accuracy": 0.21766173243522643,
      "num_tokens": 27479992.0,
      "step": 11990
    },
    {
      "entropy": 5.238912153244018,
      "epoch": 1.1522574447646494,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00048748979400197134,
      "loss": 5.0967,
      "mean_token_accuracy": 0.20631994754076005,
      "num_tokens": 27490878.0,
      "step": 11995
    },
    {
      "entropy": 5.145661306381226,
      "epoch": 1.1527377521613833,
      "grad_norm": 1.125,
      "learning_rate": 0.00048747851905383183,
      "loss": 4.9302,
      "mean_token_accuracy": 0.21805770546197892,
      "num_tokens": 27502009.0,
      "step": 12000
    },
    {
      "epoch": 1.1527377521613833,
      "eval_entropy": 5.072871884969547,
      "eval_loss": 5.132204532623291,
      "eval_mean_token_accuracy": 0.21277229704311537,
      "eval_num_tokens": 27502009.0,
      "eval_runtime": 26.6332,
      "eval_samples_per_second": 1232.108,
      "eval_steps_per_second": 154.018,
      "step": 12000
    },
    {
      "entropy": 5.252287817001343,
      "epoch": 1.1532180595581172,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004874672391725721,
      "loss": 5.1089,
      "mean_token_accuracy": 0.20380218029022218,
      "num_tokens": 27513376.0,
      "step": 12005
    },
    {
      "entropy": 5.117784070968628,
      "epoch": 1.153698366954851,
      "grad_norm": 1.25,
      "learning_rate": 0.0004874559543584539,
      "loss": 4.9715,
      "mean_token_accuracy": 0.2118404433131218,
      "num_tokens": 27525166.0,
      "step": 12010
    },
    {
      "entropy": 5.092162704467773,
      "epoch": 1.154178674351585,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004874446646117394,
      "loss": 4.8865,
      "mean_token_accuracy": 0.226571424305439,
      "num_tokens": 27535994.0,
      "step": 12015
    },
    {
      "entropy": 5.154507493972778,
      "epoch": 1.154658981748319,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004874333699326906,
      "loss": 4.9842,
      "mean_token_accuracy": 0.213858063519001,
      "num_tokens": 27546883.0,
      "step": 12020
    },
    {
      "entropy": 5.312671184539795,
      "epoch": 1.155139289145053,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004874220703215697,
      "loss": 5.0903,
      "mean_token_accuracy": 0.20375553965568544,
      "num_tokens": 27558840.0,
      "step": 12025
    },
    {
      "entropy": 5.188431692123413,
      "epoch": 1.1556195965417868,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004874107657786391,
      "loss": 5.0142,
      "mean_token_accuracy": 0.2109085887670517,
      "num_tokens": 27569776.0,
      "step": 12030
    },
    {
      "entropy": 5.199657583236695,
      "epoch": 1.1560999039385207,
      "grad_norm": 2.171875,
      "learning_rate": 0.00048739945630416124,
      "loss": 4.9845,
      "mean_token_accuracy": 0.20919086486101152,
      "num_tokens": 27580097.0,
      "step": 12035
    },
    {
      "entropy": 5.2678807258605955,
      "epoch": 1.1565802113352546,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004873881418983987,
      "loss": 5.1066,
      "mean_token_accuracy": 0.21011823117733003,
      "num_tokens": 27592035.0,
      "step": 12040
    },
    {
      "entropy": 5.2372087955474855,
      "epoch": 1.1570605187319885,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004873768225616141,
      "loss": 5.0383,
      "mean_token_accuracy": 0.21346299797296525,
      "num_tokens": 27604409.0,
      "step": 12045
    },
    {
      "entropy": 5.251517963409424,
      "epoch": 1.1575408261287223,
      "grad_norm": 1.21875,
      "learning_rate": 0.00048736549829407047,
      "loss": 4.9845,
      "mean_token_accuracy": 0.21415583789348602,
      "num_tokens": 27615019.0,
      "step": 12050
    },
    {
      "entropy": 5.244622087478637,
      "epoch": 1.1580211335254562,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004873541690960305,
      "loss": 5.1,
      "mean_token_accuracy": 0.2044678211212158,
      "num_tokens": 27627924.0,
      "step": 12055
    },
    {
      "entropy": 5.12835431098938,
      "epoch": 1.15850144092219,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004873428349677573,
      "loss": 4.925,
      "mean_token_accuracy": 0.21388751715421678,
      "num_tokens": 27639188.0,
      "step": 12060
    },
    {
      "entropy": 5.273781251907349,
      "epoch": 1.1589817483189242,
      "grad_norm": 1.4375,
      "learning_rate": 0.000487331495909514,
      "loss": 5.1448,
      "mean_token_accuracy": 0.2023579403758049,
      "num_tokens": 27652621.0,
      "step": 12065
    },
    {
      "entropy": 5.239981460571289,
      "epoch": 1.159462055715658,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00048732015192156383,
      "loss": 5.0773,
      "mean_token_accuracy": 0.20497591197490692,
      "num_tokens": 27665726.0,
      "step": 12070
    },
    {
      "entropy": 5.234362506866455,
      "epoch": 1.159942363112392,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00048730880300417015,
      "loss": 5.0152,
      "mean_token_accuracy": 0.20888158231973647,
      "num_tokens": 27676984.0,
      "step": 12075
    },
    {
      "entropy": 5.258095026016235,
      "epoch": 1.1604226705091258,
      "grad_norm": 1.15625,
      "learning_rate": 0.00048729744915759657,
      "loss": 5.0926,
      "mean_token_accuracy": 0.20860619992017745,
      "num_tokens": 27688812.0,
      "step": 12080
    },
    {
      "entropy": 5.133250331878662,
      "epoch": 1.1609029779058597,
      "grad_norm": 1.25,
      "learning_rate": 0.00048728609038210655,
      "loss": 4.8731,
      "mean_token_accuracy": 0.21741154789924622,
      "num_tokens": 27699152.0,
      "step": 12085
    },
    {
      "entropy": 5.181648588180542,
      "epoch": 1.1613832853025936,
      "grad_norm": 1.203125,
      "learning_rate": 0.00048727472667796395,
      "loss": 5.063,
      "mean_token_accuracy": 0.20912941545248032,
      "num_tokens": 27710347.0,
      "step": 12090
    },
    {
      "entropy": 5.160825157165528,
      "epoch": 1.1618635926993275,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004872633580454325,
      "loss": 4.9654,
      "mean_token_accuracy": 0.21775319874286653,
      "num_tokens": 27721112.0,
      "step": 12095
    },
    {
      "entropy": 5.271908760070801,
      "epoch": 1.1623439000960616,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00048725198448477616,
      "loss": 5.0553,
      "mean_token_accuracy": 0.20950192213058472,
      "num_tokens": 27731766.0,
      "step": 12100
    },
    {
      "entropy": 5.173818635940552,
      "epoch": 1.1628242074927955,
      "grad_norm": 1.25,
      "learning_rate": 0.00048724060599625893,
      "loss": 4.9923,
      "mean_token_accuracy": 0.2151247590780258,
      "num_tokens": 27743718.0,
      "step": 12105
    },
    {
      "entropy": 5.192879867553711,
      "epoch": 1.1633045148895294,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00048722922258014506,
      "loss": 5.0514,
      "mean_token_accuracy": 0.20927377343177794,
      "num_tokens": 27754999.0,
      "step": 12110
    },
    {
      "entropy": 5.269402647018433,
      "epoch": 1.1637848222862632,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004872178342366989,
      "loss": 5.1583,
      "mean_token_accuracy": 0.20009388625621796,
      "num_tokens": 27767684.0,
      "step": 12115
    },
    {
      "entropy": 5.148327445983886,
      "epoch": 1.1642651296829971,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00048720644096618475,
      "loss": 5.0272,
      "mean_token_accuracy": 0.21265908777713777,
      "num_tokens": 27779103.0,
      "step": 12120
    },
    {
      "entropy": 5.183534049987793,
      "epoch": 1.164745437079731,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004871950427688672,
      "loss": 5.0281,
      "mean_token_accuracy": 0.21695935279130935,
      "num_tokens": 27791223.0,
      "step": 12125
    },
    {
      "entropy": 5.227220249176026,
      "epoch": 1.1652257444764649,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00048718363964501087,
      "loss": 4.964,
      "mean_token_accuracy": 0.2172775998711586,
      "num_tokens": 27802660.0,
      "step": 12130
    },
    {
      "entropy": 5.253418016433716,
      "epoch": 1.1657060518731988,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004871722315948805,
      "loss": 5.0586,
      "mean_token_accuracy": 0.20542750507593155,
      "num_tokens": 27814370.0,
      "step": 12135
    },
    {
      "entropy": 5.152675437927246,
      "epoch": 1.1661863592699326,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004871608186187408,
      "loss": 4.9636,
      "mean_token_accuracy": 0.2136980563402176,
      "num_tokens": 27825035.0,
      "step": 12140
    },
    {
      "entropy": 5.11957426071167,
      "epoch": 1.1666666666666667,
      "grad_norm": 1.265625,
      "learning_rate": 0.00048714940071685703,
      "loss": 4.8978,
      "mean_token_accuracy": 0.21549834907054902,
      "num_tokens": 27837276.0,
      "step": 12145
    },
    {
      "entropy": 5.30233063697815,
      "epoch": 1.1671469740634006,
      "grad_norm": 1.28125,
      "learning_rate": 0.00048713797788949405,
      "loss": 5.0647,
      "mean_token_accuracy": 0.2075889676809311,
      "num_tokens": 27848618.0,
      "step": 12150
    },
    {
      "entropy": 5.188276481628418,
      "epoch": 1.1676272814601345,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00048712655013691714,
      "loss": 5.0438,
      "mean_token_accuracy": 0.20078416913747787,
      "num_tokens": 27861556.0,
      "step": 12155
    },
    {
      "entropy": 5.225617361068726,
      "epoch": 1.1681075888568684,
      "grad_norm": 1.28125,
      "learning_rate": 0.00048711511745939165,
      "loss": 5.0115,
      "mean_token_accuracy": 0.20684807151556014,
      "num_tokens": 27873211.0,
      "step": 12160
    },
    {
      "entropy": 5.213997268676758,
      "epoch": 1.1685878962536023,
      "grad_norm": 1.3984375,
      "learning_rate": 0.000487103679857183,
      "loss": 5.0288,
      "mean_token_accuracy": 0.20902891159057618,
      "num_tokens": 27883365.0,
      "step": 12165
    },
    {
      "entropy": 5.114966011047363,
      "epoch": 1.1690682036503361,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004870922373305567,
      "loss": 4.9032,
      "mean_token_accuracy": 0.21823573112487793,
      "num_tokens": 27894669.0,
      "step": 12170
    },
    {
      "entropy": 5.189022970199585,
      "epoch": 1.1695485110470702,
      "grad_norm": 1.3125,
      "learning_rate": 0.00048708078987977837,
      "loss": 5.0406,
      "mean_token_accuracy": 0.21348860412836074,
      "num_tokens": 27906480.0,
      "step": 12175
    },
    {
      "entropy": 5.1677796840667725,
      "epoch": 1.1700288184438041,
      "grad_norm": 1.296875,
      "learning_rate": 0.00048706933750511394,
      "loss": 4.9761,
      "mean_token_accuracy": 0.21937694698572158,
      "num_tokens": 27918383.0,
      "step": 12180
    },
    {
      "entropy": 5.246155738830566,
      "epoch": 1.170509125840538,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004870578802068292,
      "loss": 5.0332,
      "mean_token_accuracy": 0.2065381273627281,
      "num_tokens": 27928944.0,
      "step": 12185
    },
    {
      "entropy": 5.170810222625732,
      "epoch": 1.170989433237272,
      "grad_norm": 1.171875,
      "learning_rate": 0.00048704641798519006,
      "loss": 4.9503,
      "mean_token_accuracy": 0.21335744559764863,
      "num_tokens": 27941105.0,
      "step": 12190
    },
    {
      "entropy": 5.2019225597381595,
      "epoch": 1.1714697406340058,
      "grad_norm": 1.1875,
      "learning_rate": 0.00048703495084046286,
      "loss": 4.9969,
      "mean_token_accuracy": 0.2134275645017624,
      "num_tokens": 27952925.0,
      "step": 12195
    },
    {
      "entropy": 5.109914255142212,
      "epoch": 1.1719500480307397,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004870234787729137,
      "loss": 4.9838,
      "mean_token_accuracy": 0.21968378871679306,
      "num_tokens": 27965504.0,
      "step": 12200
    },
    {
      "entropy": 5.158345079421997,
      "epoch": 1.1724303554274735,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004870120017828089,
      "loss": 4.9624,
      "mean_token_accuracy": 0.21934993118047713,
      "num_tokens": 27975985.0,
      "step": 12205
    },
    {
      "entropy": 5.340363693237305,
      "epoch": 1.1729106628242074,
      "grad_norm": 1.3828125,
      "learning_rate": 0.000487000519870415,
      "loss": 5.0612,
      "mean_token_accuracy": 0.20156388878822326,
      "num_tokens": 27987784.0,
      "step": 12210
    },
    {
      "entropy": 5.214973592758179,
      "epoch": 1.1733909702209413,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004869890330359986,
      "loss": 4.9831,
      "mean_token_accuracy": 0.207270847260952,
      "num_tokens": 27999623.0,
      "step": 12215
    },
    {
      "entropy": 5.146721315383911,
      "epoch": 1.1738712776176754,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004869775412798262,
      "loss": 4.9998,
      "mean_token_accuracy": 0.20671399533748627,
      "num_tokens": 28011561.0,
      "step": 12220
    },
    {
      "entropy": 5.233490705490112,
      "epoch": 1.1743515850144093,
      "grad_norm": 1.28125,
      "learning_rate": 0.00048696604460216476,
      "loss": 5.0422,
      "mean_token_accuracy": 0.21980682760477066,
      "num_tokens": 28022108.0,
      "step": 12225
    },
    {
      "entropy": 5.276953649520874,
      "epoch": 1.1748318924111432,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00048695454300328123,
      "loss": 5.0175,
      "mean_token_accuracy": 0.20736639499664306,
      "num_tokens": 28033497.0,
      "step": 12230
    },
    {
      "entropy": 5.237717533111573,
      "epoch": 1.175312199807877,
      "grad_norm": 1.15625,
      "learning_rate": 0.00048694303648344256,
      "loss": 5.0456,
      "mean_token_accuracy": 0.20967191308736802,
      "num_tokens": 28044790.0,
      "step": 12235
    },
    {
      "entropy": 5.111946868896484,
      "epoch": 1.175792507204611,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00048693152504291595,
      "loss": 4.9879,
      "mean_token_accuracy": 0.21664219200611115,
      "num_tokens": 28056000.0,
      "step": 12240
    },
    {
      "entropy": 5.18005404472351,
      "epoch": 1.1762728146013448,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004869200086819686,
      "loss": 5.0213,
      "mean_token_accuracy": 0.21006689369678497,
      "num_tokens": 28068264.0,
      "step": 12245
    },
    {
      "entropy": 5.234067392349243,
      "epoch": 1.1767531219980787,
      "grad_norm": 1.28125,
      "learning_rate": 0.00048690848740086796,
      "loss": 4.9192,
      "mean_token_accuracy": 0.21703227013349533,
      "num_tokens": 28080220.0,
      "step": 12250
    },
    {
      "entropy": 5.251984262466431,
      "epoch": 1.1772334293948128,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004868969611998814,
      "loss": 4.9671,
      "mean_token_accuracy": 0.21270408034324645,
      "num_tokens": 28091531.0,
      "step": 12255
    },
    {
      "entropy": 5.154574251174926,
      "epoch": 1.1777137367915467,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004868854300792767,
      "loss": 4.9726,
      "mean_token_accuracy": 0.20649342983961105,
      "num_tokens": 28102982.0,
      "step": 12260
    },
    {
      "entropy": 5.172384786605835,
      "epoch": 1.1781940441882806,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00048687389403932144,
      "loss": 5.0406,
      "mean_token_accuracy": 0.21188410818576814,
      "num_tokens": 28114131.0,
      "step": 12265
    },
    {
      "entropy": 5.2116370677948,
      "epoch": 1.1786743515850144,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004868623530802835,
      "loss": 4.9634,
      "mean_token_accuracy": 0.21050270646810532,
      "num_tokens": 28125637.0,
      "step": 12270
    },
    {
      "entropy": 5.274893808364868,
      "epoch": 1.1791546589817483,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00048685080720243086,
      "loss": 5.0384,
      "mean_token_accuracy": 0.21438082605600356,
      "num_tokens": 28137284.0,
      "step": 12275
    },
    {
      "entropy": 5.185189199447632,
      "epoch": 1.1796349663784822,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004868392564060315,
      "loss": 5.0397,
      "mean_token_accuracy": 0.21561664193868638,
      "num_tokens": 28148909.0,
      "step": 12280
    },
    {
      "entropy": 5.227141571044922,
      "epoch": 1.180115273775216,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004868277006913537,
      "loss": 5.0201,
      "mean_token_accuracy": 0.21342774629592895,
      "num_tokens": 28160392.0,
      "step": 12285
    },
    {
      "entropy": 5.2492955207824705,
      "epoch": 1.18059558117195,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004868161400586656,
      "loss": 5.0965,
      "mean_token_accuracy": 0.20555120557546616,
      "num_tokens": 28172957.0,
      "step": 12290
    },
    {
      "entropy": 5.334953641891479,
      "epoch": 1.1810758885686838,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004868045745082357,
      "loss": 5.0748,
      "mean_token_accuracy": 0.20318131595849992,
      "num_tokens": 28183239.0,
      "step": 12295
    },
    {
      "entropy": 5.188865756988525,
      "epoch": 1.181556195965418,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004867930040403326,
      "loss": 4.9936,
      "mean_token_accuracy": 0.21321745961904526,
      "num_tokens": 28195382.0,
      "step": 12300
    },
    {
      "entropy": 5.176113891601562,
      "epoch": 1.1820365033621518,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00048678142865522475,
      "loss": 5.0722,
      "mean_token_accuracy": 0.2028682142496109,
      "num_tokens": 28206645.0,
      "step": 12305
    },
    {
      "entropy": 5.261957263946533,
      "epoch": 1.1825168107588857,
      "grad_norm": 1.171875,
      "learning_rate": 0.000486769848353181,
      "loss": 5.0623,
      "mean_token_accuracy": 0.21030078679323197,
      "num_tokens": 28218420.0,
      "step": 12310
    },
    {
      "entropy": 5.234085512161255,
      "epoch": 1.1829971181556196,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00048675826313447027,
      "loss": 5.0647,
      "mean_token_accuracy": 0.20770383477211,
      "num_tokens": 28229458.0,
      "step": 12315
    },
    {
      "entropy": 5.270634365081787,
      "epoch": 1.1834774255523535,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00048674667299936135,
      "loss": 5.0538,
      "mean_token_accuracy": 0.2074426531791687,
      "num_tokens": 28242240.0,
      "step": 12320
    },
    {
      "entropy": 5.380625152587891,
      "epoch": 1.1839577329490873,
      "grad_norm": 1.4375,
      "learning_rate": 0.00048673507794812356,
      "loss": 5.139,
      "mean_token_accuracy": 0.20491064041852952,
      "num_tokens": 28254597.0,
      "step": 12325
    },
    {
      "entropy": 5.217261886596679,
      "epoch": 1.1844380403458212,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004867234779810259,
      "loss": 5.0605,
      "mean_token_accuracy": 0.20772763192653657,
      "num_tokens": 28266674.0,
      "step": 12330
    },
    {
      "entropy": 5.174903488159179,
      "epoch": 1.1849183477425553,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004867118730983378,
      "loss": 5.0235,
      "mean_token_accuracy": 0.213454669713974,
      "num_tokens": 28278671.0,
      "step": 12335
    },
    {
      "entropy": 5.22681565284729,
      "epoch": 1.1853986551392892,
      "grad_norm": 1.375,
      "learning_rate": 0.0004867002633003286,
      "loss": 4.9512,
      "mean_token_accuracy": 0.21354973167181016,
      "num_tokens": 28291085.0,
      "step": 12340
    },
    {
      "entropy": 5.146066761016845,
      "epoch": 1.185878962536023,
      "grad_norm": 1.6328125,
      "learning_rate": 0.000486688648587268,
      "loss": 5.0309,
      "mean_token_accuracy": 0.215641950070858,
      "num_tokens": 28303457.0,
      "step": 12345
    },
    {
      "entropy": 5.223130226135254,
      "epoch": 1.186359269932757,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004866770289594256,
      "loss": 5.0391,
      "mean_token_accuracy": 0.20597289353609086,
      "num_tokens": 28314599.0,
      "step": 12350
    },
    {
      "entropy": 5.3448234558105465,
      "epoch": 1.1868395773294909,
      "grad_norm": 1.25,
      "learning_rate": 0.00048666540441707107,
      "loss": 5.1315,
      "mean_token_accuracy": 0.2068374440073967,
      "num_tokens": 28326266.0,
      "step": 12355
    },
    {
      "entropy": 5.251500129699707,
      "epoch": 1.1873198847262247,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004866537749604744,
      "loss": 4.9853,
      "mean_token_accuracy": 0.207984322309494,
      "num_tokens": 28337238.0,
      "step": 12360
    },
    {
      "entropy": 5.157985210418701,
      "epoch": 1.1878001921229586,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00048664214058990546,
      "loss": 4.9818,
      "mean_token_accuracy": 0.21365345120429993,
      "num_tokens": 28348060.0,
      "step": 12365
    },
    {
      "entropy": 5.145942068099975,
      "epoch": 1.1882804995196925,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004866305013056346,
      "loss": 5.0371,
      "mean_token_accuracy": 0.2051353007555008,
      "num_tokens": 28359442.0,
      "step": 12370
    },
    {
      "entropy": 5.244502449035645,
      "epoch": 1.1887608069164266,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004866188571079318,
      "loss": 5.0663,
      "mean_token_accuracy": 0.2088254600763321,
      "num_tokens": 28370827.0,
      "step": 12375
    },
    {
      "entropy": 5.345438051223755,
      "epoch": 1.1892411143131605,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004866072079970676,
      "loss": 5.0994,
      "mean_token_accuracy": 0.19838736355304717,
      "num_tokens": 28383115.0,
      "step": 12380
    },
    {
      "entropy": 5.179604244232178,
      "epoch": 1.1897214217098944,
      "grad_norm": 1.203125,
      "learning_rate": 0.00048659555397331236,
      "loss": 4.9712,
      "mean_token_accuracy": 0.21606729328632354,
      "num_tokens": 28394904.0,
      "step": 12385
    },
    {
      "entropy": 5.1870029926300045,
      "epoch": 1.1902017291066282,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004865838950369366,
      "loss": 5.0248,
      "mean_token_accuracy": 0.2077416345477104,
      "num_tokens": 28407357.0,
      "step": 12390
    },
    {
      "entropy": 5.206893348693848,
      "epoch": 1.1906820365033621,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00048657223118821116,
      "loss": 4.9821,
      "mean_token_accuracy": 0.21372554153203965,
      "num_tokens": 28418088.0,
      "step": 12395
    },
    {
      "entropy": 5.062207841873169,
      "epoch": 1.191162343900096,
      "grad_norm": 1.1875,
      "learning_rate": 0.00048656056242740665,
      "loss": 4.889,
      "mean_token_accuracy": 0.21973242610692978,
      "num_tokens": 28430022.0,
      "step": 12400
    },
    {
      "entropy": 5.1975541591644285,
      "epoch": 1.19164265129683,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004865488887547942,
      "loss": 4.9833,
      "mean_token_accuracy": 0.214840891957283,
      "num_tokens": 28440530.0,
      "step": 12405
    },
    {
      "entropy": 5.258637619018555,
      "epoch": 1.192122958693564,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004865372101706446,
      "loss": 5.0893,
      "mean_token_accuracy": 0.20531991273164749,
      "num_tokens": 28452707.0,
      "step": 12410
    },
    {
      "entropy": 5.119096803665161,
      "epoch": 1.1926032660902979,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004865255266752292,
      "loss": 4.8979,
      "mean_token_accuracy": 0.22423699051141738,
      "num_tokens": 28465131.0,
      "step": 12415
    },
    {
      "entropy": 5.142260789871216,
      "epoch": 1.1930835734870318,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004865138382688191,
      "loss": 5.0173,
      "mean_token_accuracy": 0.2174185335636139,
      "num_tokens": 28476136.0,
      "step": 12420
    },
    {
      "entropy": 5.216041707992554,
      "epoch": 1.1935638808837656,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004865021449516859,
      "loss": 4.9275,
      "mean_token_accuracy": 0.2106182113289833,
      "num_tokens": 28488374.0,
      "step": 12425
    },
    {
      "entropy": 5.248443746566773,
      "epoch": 1.1940441882804995,
      "grad_norm": 1.375,
      "learning_rate": 0.0004864904467241008,
      "loss": 4.9863,
      "mean_token_accuracy": 0.20798565447330475,
      "num_tokens": 28499585.0,
      "step": 12430
    },
    {
      "entropy": 5.132749748229981,
      "epoch": 1.1945244956772334,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00048647874358633556,
      "loss": 4.9399,
      "mean_token_accuracy": 0.2145738869905472,
      "num_tokens": 28510707.0,
      "step": 12435
    },
    {
      "entropy": 5.247034311294556,
      "epoch": 1.1950048030739673,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00048646703553866183,
      "loss": 5.0617,
      "mean_token_accuracy": 0.20649414509534836,
      "num_tokens": 28522398.0,
      "step": 12440
    },
    {
      "entropy": 5.194453859329224,
      "epoch": 1.1954851104707012,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004864553225813515,
      "loss": 4.9577,
      "mean_token_accuracy": 0.21434492319822313,
      "num_tokens": 28532949.0,
      "step": 12445
    },
    {
      "entropy": 5.127518177032471,
      "epoch": 1.195965417867435,
      "grad_norm": 1.25,
      "learning_rate": 0.0004864436047146765,
      "loss": 4.9267,
      "mean_token_accuracy": 0.22026402056217192,
      "num_tokens": 28544292.0,
      "step": 12450
    },
    {
      "entropy": 5.219339227676391,
      "epoch": 1.1964457252641691,
      "grad_norm": 1.4375,
      "learning_rate": 0.00048643188193890874,
      "loss": 5.0951,
      "mean_token_accuracy": 0.20473963618278504,
      "num_tokens": 28556430.0,
      "step": 12455
    },
    {
      "entropy": 5.302267837524414,
      "epoch": 1.196926032660903,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004864201542543206,
      "loss": 5.0565,
      "mean_token_accuracy": 0.20778754204511643,
      "num_tokens": 28568475.0,
      "step": 12460
    },
    {
      "entropy": 5.265069389343262,
      "epoch": 1.197406340057637,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004864084216611843,
      "loss": 5.0026,
      "mean_token_accuracy": 0.20922221690416337,
      "num_tokens": 28579653.0,
      "step": 12465
    },
    {
      "entropy": 5.153708600997925,
      "epoch": 1.1978866474543708,
      "grad_norm": 1.28125,
      "learning_rate": 0.00048639668415977207,
      "loss": 4.9371,
      "mean_token_accuracy": 0.21175346672534942,
      "num_tokens": 28590108.0,
      "step": 12470
    },
    {
      "entropy": 5.165795612335205,
      "epoch": 1.1983669548511047,
      "grad_norm": 1.203125,
      "learning_rate": 0.00048638494175035665,
      "loss": 4.9589,
      "mean_token_accuracy": 0.2166977271437645,
      "num_tokens": 28602008.0,
      "step": 12475
    },
    {
      "entropy": 5.141294145584107,
      "epoch": 1.1988472622478386,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004863731944332105,
      "loss": 4.8937,
      "mean_token_accuracy": 0.22100506275892257,
      "num_tokens": 28613286.0,
      "step": 12480
    },
    {
      "entropy": 5.158958911895752,
      "epoch": 1.1993275696445724,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004863614422086065,
      "loss": 4.905,
      "mean_token_accuracy": 0.21994735598564147,
      "num_tokens": 28625497.0,
      "step": 12485
    },
    {
      "entropy": 5.1904459476470945,
      "epoch": 1.1998078770413065,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004863496850768174,
      "loss": 5.0029,
      "mean_token_accuracy": 0.21328900158405303,
      "num_tokens": 28638046.0,
      "step": 12490
    },
    {
      "entropy": 5.097305774688721,
      "epoch": 1.2002881844380404,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004863379230381162,
      "loss": 4.9046,
      "mean_token_accuracy": 0.2162349119782448,
      "num_tokens": 28647923.0,
      "step": 12495
    },
    {
      "entropy": 5.14150071144104,
      "epoch": 1.2007684918347743,
      "grad_norm": 1.2421875,
      "learning_rate": 0.000486326156092776,
      "loss": 4.9583,
      "mean_token_accuracy": 0.21833768635988235,
      "num_tokens": 28660023.0,
      "step": 12500
    },
    {
      "entropy": 5.187930011749268,
      "epoch": 1.2012487992315082,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00048631438424106985,
      "loss": 4.9908,
      "mean_token_accuracy": 0.21353389471769332,
      "num_tokens": 28671568.0,
      "step": 12505
    },
    {
      "entropy": 5.122547054290772,
      "epoch": 1.201729106628242,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00048630260748327124,
      "loss": 4.9636,
      "mean_token_accuracy": 0.21925023049116135,
      "num_tokens": 28682897.0,
      "step": 12510
    },
    {
      "entropy": 5.162188148498535,
      "epoch": 1.202209414024976,
      "grad_norm": 1.390625,
      "learning_rate": 0.00048629082581965355,
      "loss": 5.0342,
      "mean_token_accuracy": 0.21101551204919816,
      "num_tokens": 28694067.0,
      "step": 12515
    },
    {
      "entropy": 5.242506408691407,
      "epoch": 1.2026897214217098,
      "grad_norm": 1.46875,
      "learning_rate": 0.00048627903925049033,
      "loss": 4.9589,
      "mean_token_accuracy": 0.21290026605129242,
      "num_tokens": 28705738.0,
      "step": 12520
    },
    {
      "entropy": 5.195635080337524,
      "epoch": 1.2031700288184437,
      "grad_norm": 1.25,
      "learning_rate": 0.00048626724777605507,
      "loss": 4.9092,
      "mean_token_accuracy": 0.21891177147626878,
      "num_tokens": 28717419.0,
      "step": 12525
    },
    {
      "entropy": 5.187272739410401,
      "epoch": 1.2036503362151778,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004862554513966217,
      "loss": 5.1105,
      "mean_token_accuracy": 0.20062761902809143,
      "num_tokens": 28728587.0,
      "step": 12530
    },
    {
      "entropy": 5.23038272857666,
      "epoch": 1.2041306436119117,
      "grad_norm": 1.21875,
      "learning_rate": 0.00048624365011246405,
      "loss": 5.0802,
      "mean_token_accuracy": 0.20460240244865419,
      "num_tokens": 28740818.0,
      "step": 12535
    },
    {
      "entropy": 5.1875214099884035,
      "epoch": 1.2046109510086456,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004862318439238561,
      "loss": 4.927,
      "mean_token_accuracy": 0.224493670463562,
      "num_tokens": 28751936.0,
      "step": 12540
    },
    {
      "entropy": 5.185813951492309,
      "epoch": 1.2050912584053795,
      "grad_norm": 1.34375,
      "learning_rate": 0.000486220032831072,
      "loss": 4.9948,
      "mean_token_accuracy": 0.2092664435505867,
      "num_tokens": 28763271.0,
      "step": 12545
    },
    {
      "entropy": 5.225413799285889,
      "epoch": 1.2055715658021133,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004862082168343859,
      "loss": 5.0384,
      "mean_token_accuracy": 0.21466702818870545,
      "num_tokens": 28774282.0,
      "step": 12550
    },
    {
      "entropy": 5.275173616409302,
      "epoch": 1.2060518731988472,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004861963959340722,
      "loss": 5.0968,
      "mean_token_accuracy": 0.20915820598602294,
      "num_tokens": 28785826.0,
      "step": 12555
    },
    {
      "entropy": 5.120945119857788,
      "epoch": 1.206532180595581,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004861845701304053,
      "loss": 4.9057,
      "mean_token_accuracy": 0.21730198264122008,
      "num_tokens": 28797669.0,
      "step": 12560
    },
    {
      "entropy": 5.19795560836792,
      "epoch": 1.2070124879923152,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00048617273942365977,
      "loss": 5.0742,
      "mean_token_accuracy": 0.20622512996196746,
      "num_tokens": 28808438.0,
      "step": 12565
    },
    {
      "entropy": 5.136143445968628,
      "epoch": 1.207492795389049,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004861609038141103,
      "loss": 4.9156,
      "mean_token_accuracy": 0.2179456263780594,
      "num_tokens": 28819707.0,
      "step": 12570
    },
    {
      "entropy": 5.243184280395508,
      "epoch": 1.207973102785783,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00048614906330203165,
      "loss": 5.02,
      "mean_token_accuracy": 0.2118644818663597,
      "num_tokens": 28831829.0,
      "step": 12575
    },
    {
      "entropy": 5.178156328201294,
      "epoch": 1.2084534101825168,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004861372178876987,
      "loss": 4.9879,
      "mean_token_accuracy": 0.2112196832895279,
      "num_tokens": 28843429.0,
      "step": 12580
    },
    {
      "entropy": 5.162006902694702,
      "epoch": 1.2089337175792507,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00048612536757138653,
      "loss": 4.9146,
      "mean_token_accuracy": 0.21943530589342117,
      "num_tokens": 28856239.0,
      "step": 12585
    },
    {
      "entropy": 5.224708223342896,
      "epoch": 1.2094140249759846,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004861135123533702,
      "loss": 5.0127,
      "mean_token_accuracy": 0.21318120807409285,
      "num_tokens": 28868599.0,
      "step": 12590
    },
    {
      "entropy": 5.2225141525268555,
      "epoch": 1.2098943323727185,
      "grad_norm": 1.234375,
      "learning_rate": 0.00048610165223392503,
      "loss": 5.035,
      "mean_token_accuracy": 0.20697897523641587,
      "num_tokens": 28880234.0,
      "step": 12595
    },
    {
      "entropy": 5.2457115173339846,
      "epoch": 1.2103746397694524,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004860897872133263,
      "loss": 5.0615,
      "mean_token_accuracy": 0.2093821495771408,
      "num_tokens": 28892198.0,
      "step": 12600
    },
    {
      "entropy": 5.230489587783813,
      "epoch": 1.2108549471661862,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004860779172918496,
      "loss": 5.0893,
      "mean_token_accuracy": 0.20883096009492874,
      "num_tokens": 28904153.0,
      "step": 12605
    },
    {
      "entropy": 5.278970098495483,
      "epoch": 1.2113352545629203,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004860660424697704,
      "loss": 5.0579,
      "mean_token_accuracy": 0.21126580536365508,
      "num_tokens": 28915284.0,
      "step": 12610
    },
    {
      "entropy": 5.21758451461792,
      "epoch": 1.2118155619596542,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00048605416274736434,
      "loss": 5.0239,
      "mean_token_accuracy": 0.20837975144386292,
      "num_tokens": 28928168.0,
      "step": 12615
    },
    {
      "entropy": 5.152167892456054,
      "epoch": 1.2122958693563881,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00048604227812490744,
      "loss": 4.9032,
      "mean_token_accuracy": 0.21995031386613845,
      "num_tokens": 28938548.0,
      "step": 12620
    },
    {
      "entropy": 5.1527406692504885,
      "epoch": 1.212776176753122,
      "grad_norm": 1.234375,
      "learning_rate": 0.00048603038860267546,
      "loss": 4.9921,
      "mean_token_accuracy": 0.21356878131628038,
      "num_tokens": 28949252.0,
      "step": 12625
    },
    {
      "entropy": 5.230664396286011,
      "epoch": 1.2132564841498559,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004860184941809445,
      "loss": 5.0107,
      "mean_token_accuracy": 0.21580713540315627,
      "num_tokens": 28960758.0,
      "step": 12630
    },
    {
      "entropy": 5.214424085617066,
      "epoch": 1.2137367915465898,
      "grad_norm": 1.25,
      "learning_rate": 0.00048600659485999073,
      "loss": 4.9823,
      "mean_token_accuracy": 0.21401938945055007,
      "num_tokens": 28972604.0,
      "step": 12635
    },
    {
      "entropy": 5.171445035934449,
      "epoch": 1.2142170989433236,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00048599469064009027,
      "loss": 4.9781,
      "mean_token_accuracy": 0.2194841518998146,
      "num_tokens": 28983617.0,
      "step": 12640
    },
    {
      "entropy": 5.171384048461914,
      "epoch": 1.2146974063400577,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00048598278152151974,
      "loss": 5.0017,
      "mean_token_accuracy": 0.21235128194093705,
      "num_tokens": 28994277.0,
      "step": 12645
    },
    {
      "entropy": 5.2698729038238525,
      "epoch": 1.2151777137367916,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004859708675045555,
      "loss": 5.0415,
      "mean_token_accuracy": 0.21211624890565872,
      "num_tokens": 29004844.0,
      "step": 12650
    },
    {
      "entropy": 5.067803430557251,
      "epoch": 1.2156580211335255,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004859589485894741,
      "loss": 4.9214,
      "mean_token_accuracy": 0.21981519609689712,
      "num_tokens": 29015978.0,
      "step": 12655
    },
    {
      "entropy": 5.245090198516846,
      "epoch": 1.2161383285302594,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004859470247765524,
      "loss": 5.0228,
      "mean_token_accuracy": 0.21242079883813858,
      "num_tokens": 29026966.0,
      "step": 12660
    },
    {
      "entropy": 5.231347465515137,
      "epoch": 1.2166186359269933,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004859350960660671,
      "loss": 4.9512,
      "mean_token_accuracy": 0.2151286020874977,
      "num_tokens": 29037943.0,
      "step": 12665
    },
    {
      "entropy": 5.210123300552368,
      "epoch": 1.2170989433237271,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004859231624582953,
      "loss": 5.0191,
      "mean_token_accuracy": 0.2085331290960312,
      "num_tokens": 29049939.0,
      "step": 12670
    },
    {
      "entropy": 5.1238236904144285,
      "epoch": 1.217579250720461,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00048591122395351394,
      "loss": 5.0294,
      "mean_token_accuracy": 0.21389884501695633,
      "num_tokens": 29062442.0,
      "step": 12675
    },
    {
      "entropy": 5.19063811302185,
      "epoch": 1.218059558117195,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004858992805520003,
      "loss": 5.0303,
      "mean_token_accuracy": 0.21078938841819764,
      "num_tokens": 29074240.0,
      "step": 12680
    },
    {
      "entropy": 5.28305025100708,
      "epoch": 1.218539865513929,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00048588733225403153,
      "loss": 5.0248,
      "mean_token_accuracy": 0.20675573348999024,
      "num_tokens": 29085550.0,
      "step": 12685
    },
    {
      "entropy": 5.132738399505615,
      "epoch": 1.219020172910663,
      "grad_norm": 1.375,
      "learning_rate": 0.0004858753790598851,
      "loss": 4.9732,
      "mean_token_accuracy": 0.21328083127737046,
      "num_tokens": 29097092.0,
      "step": 12690
    },
    {
      "entropy": 5.131064367294312,
      "epoch": 1.2195004803073968,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004858634209698386,
      "loss": 5.0119,
      "mean_token_accuracy": 0.21203078627586364,
      "num_tokens": 29108119.0,
      "step": 12695
    },
    {
      "entropy": 5.2007276058197025,
      "epoch": 1.2199807877041307,
      "grad_norm": 1.234375,
      "learning_rate": 0.00048585145798416956,
      "loss": 4.9885,
      "mean_token_accuracy": 0.20587167888879776,
      "num_tokens": 29120605.0,
      "step": 12700
    },
    {
      "entropy": 5.203617095947266,
      "epoch": 1.2204610951008645,
      "grad_norm": 1.25,
      "learning_rate": 0.0004858394901031558,
      "loss": 4.9715,
      "mean_token_accuracy": 0.21140657663345336,
      "num_tokens": 29131582.0,
      "step": 12705
    },
    {
      "entropy": 5.226724433898926,
      "epoch": 1.2209414024975984,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004858275173270751,
      "loss": 4.9982,
      "mean_token_accuracy": 0.2063015416264534,
      "num_tokens": 29143436.0,
      "step": 12710
    },
    {
      "entropy": 5.195918226242066,
      "epoch": 1.2214217098943323,
      "grad_norm": 1.328125,
      "learning_rate": 0.00048581553965620553,
      "loss": 4.9219,
      "mean_token_accuracy": 0.2154676854610443,
      "num_tokens": 29154445.0,
      "step": 12715
    },
    {
      "entropy": 5.198876190185547,
      "epoch": 1.2219020172910664,
      "grad_norm": 1.296875,
      "learning_rate": 0.00048580355709082506,
      "loss": 5.0403,
      "mean_token_accuracy": 0.21526143848896026,
      "num_tokens": 29164599.0,
      "step": 12720
    },
    {
      "entropy": 5.141847133636475,
      "epoch": 1.2223823246878003,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000485791569631212,
      "loss": 4.9984,
      "mean_token_accuracy": 0.20752517729997635,
      "num_tokens": 29176275.0,
      "step": 12725
    },
    {
      "entropy": 5.235421657562256,
      "epoch": 1.2228626320845342,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004857795772776446,
      "loss": 5.0038,
      "mean_token_accuracy": 0.20879749357700347,
      "num_tokens": 29189102.0,
      "step": 12730
    },
    {
      "entropy": 5.225815057754517,
      "epoch": 1.223342939481268,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00048576758003040127,
      "loss": 5.0339,
      "mean_token_accuracy": 0.2110910639166832,
      "num_tokens": 29200953.0,
      "step": 12735
    },
    {
      "entropy": 5.213280534744262,
      "epoch": 1.223823246878002,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00048575557788976066,
      "loss": 5.0438,
      "mean_token_accuracy": 0.20327647179365158,
      "num_tokens": 29212942.0,
      "step": 12740
    },
    {
      "entropy": 5.164249658584595,
      "epoch": 1.2243035542747358,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004857435708560013,
      "loss": 4.9348,
      "mean_token_accuracy": 0.21420682966709137,
      "num_tokens": 29224949.0,
      "step": 12745
    },
    {
      "entropy": 5.280761194229126,
      "epoch": 1.2247838616714697,
      "grad_norm": 1.3125,
      "learning_rate": 0.00048573155892940204,
      "loss": 5.0932,
      "mean_token_accuracy": 0.20139861702919007,
      "num_tokens": 29236044.0,
      "step": 12750
    },
    {
      "entropy": 5.2009320735931395,
      "epoch": 1.2252641690682036,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00048571954211024164,
      "loss": 4.9868,
      "mean_token_accuracy": 0.21266197860240937,
      "num_tokens": 29248084.0,
      "step": 12755
    },
    {
      "entropy": 5.135626983642578,
      "epoch": 1.2257444764649374,
      "grad_norm": 1.28125,
      "learning_rate": 0.00048570752039879924,
      "loss": 4.873,
      "mean_token_accuracy": 0.22127241939306258,
      "num_tokens": 29258710.0,
      "step": 12760
    },
    {
      "entropy": 5.214362525939942,
      "epoch": 1.2262247838616716,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004856954937953539,
      "loss": 5.0884,
      "mean_token_accuracy": 0.20115942060947417,
      "num_tokens": 29270173.0,
      "step": 12765
    },
    {
      "entropy": 5.278593635559082,
      "epoch": 1.2267050912584054,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004856834623001848,
      "loss": 5.0685,
      "mean_token_accuracy": 0.20889558047056198,
      "num_tokens": 29280407.0,
      "step": 12770
    },
    {
      "entropy": 5.135749340057373,
      "epoch": 1.2271853986551393,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004856714259135713,
      "loss": 4.9413,
      "mean_token_accuracy": 0.2196897506713867,
      "num_tokens": 29292287.0,
      "step": 12775
    },
    {
      "entropy": 5.2047443866729735,
      "epoch": 1.2276657060518732,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004856593846357929,
      "loss": 5.0592,
      "mean_token_accuracy": 0.20803760290145873,
      "num_tokens": 29303099.0,
      "step": 12780
    },
    {
      "entropy": 5.2750386714935305,
      "epoch": 1.228146013448607,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004856473384671291,
      "loss": 5.1128,
      "mean_token_accuracy": 0.2065555065870285,
      "num_tokens": 29314445.0,
      "step": 12785
    },
    {
      "entropy": 5.146969270706177,
      "epoch": 1.228626320845341,
      "grad_norm": 2.125,
      "learning_rate": 0.00048563528740785955,
      "loss": 4.9752,
      "mean_token_accuracy": 0.20982863157987594,
      "num_tokens": 29325309.0,
      "step": 12790
    },
    {
      "entropy": 5.152886533737183,
      "epoch": 1.2291066282420748,
      "grad_norm": 1.109375,
      "learning_rate": 0.00048562323145826414,
      "loss": 4.9259,
      "mean_token_accuracy": 0.22105071544647217,
      "num_tokens": 29338582.0,
      "step": 12795
    },
    {
      "entropy": 5.207387828826905,
      "epoch": 1.229586935638809,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004856111706186227,
      "loss": 4.9922,
      "mean_token_accuracy": 0.21350787281990052,
      "num_tokens": 29349875.0,
      "step": 12800
    },
    {
      "entropy": 5.283040285110474,
      "epoch": 1.2300672430355428,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00048559910488921534,
      "loss": 5.1049,
      "mean_token_accuracy": 0.2001900017261505,
      "num_tokens": 29361800.0,
      "step": 12805
    },
    {
      "entropy": 5.165265846252441,
      "epoch": 1.2305475504322767,
      "grad_norm": 1.2421875,
      "learning_rate": 0.000485587034270322,
      "loss": 4.9814,
      "mean_token_accuracy": 0.21499158591032028,
      "num_tokens": 29372795.0,
      "step": 12810
    },
    {
      "entropy": 5.20758466720581,
      "epoch": 1.2310278578290106,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000485574958762223,
      "loss": 5.0659,
      "mean_token_accuracy": 0.21106487214565278,
      "num_tokens": 29385391.0,
      "step": 12815
    },
    {
      "entropy": 5.130280923843384,
      "epoch": 1.2315081652257445,
      "grad_norm": 1.265625,
      "learning_rate": 0.00048556287836519886,
      "loss": 4.9144,
      "mean_token_accuracy": 0.22030035853385926,
      "num_tokens": 29397113.0,
      "step": 12820
    },
    {
      "entropy": 5.277672386169433,
      "epoch": 1.2319884726224783,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004855507930795299,
      "loss": 5.097,
      "mean_token_accuracy": 0.21232483088970183,
      "num_tokens": 29407552.0,
      "step": 12825
    },
    {
      "entropy": 5.186304426193237,
      "epoch": 1.2324687800192122,
      "grad_norm": 1.25,
      "learning_rate": 0.00048553870290549665,
      "loss": 5.0012,
      "mean_token_accuracy": 0.21472340673208237,
      "num_tokens": 29418500.0,
      "step": 12830
    },
    {
      "entropy": 5.229617691040039,
      "epoch": 1.232949087415946,
      "grad_norm": 1.171875,
      "learning_rate": 0.00048552660784338,
      "loss": 5.0069,
      "mean_token_accuracy": 0.21694095134735109,
      "num_tokens": 29430335.0,
      "step": 12835
    },
    {
      "entropy": 5.128983354568481,
      "epoch": 1.23342939481268,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004855145078934606,
      "loss": 5.0013,
      "mean_token_accuracy": 0.20726215988397598,
      "num_tokens": 29441435.0,
      "step": 12840
    },
    {
      "entropy": 5.22078046798706,
      "epoch": 1.233909702209414,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004855024030560195,
      "loss": 4.9875,
      "mean_token_accuracy": 0.21403325647115706,
      "num_tokens": 29453140.0,
      "step": 12845
    },
    {
      "entropy": 5.107886886596679,
      "epoch": 1.234390009606148,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004854902933313376,
      "loss": 4.9168,
      "mean_token_accuracy": 0.2206453412771225,
      "num_tokens": 29464572.0,
      "step": 12850
    },
    {
      "entropy": 5.273893547058106,
      "epoch": 1.2348703170028819,
      "grad_norm": 1.21875,
      "learning_rate": 0.00048547817871969607,
      "loss": 5.1412,
      "mean_token_accuracy": 0.19843536466360093,
      "num_tokens": 29477069.0,
      "step": 12855
    },
    {
      "entropy": 5.258860635757446,
      "epoch": 1.2353506243996157,
      "grad_norm": 1.1875,
      "learning_rate": 0.00048546605922137633,
      "loss": 5.0259,
      "mean_token_accuracy": 0.21055852621793747,
      "num_tokens": 29486860.0,
      "step": 12860
    },
    {
      "entropy": 5.241803359985352,
      "epoch": 1.2358309317963496,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004854539348366596,
      "loss": 5.0934,
      "mean_token_accuracy": 0.20382969826459885,
      "num_tokens": 29499129.0,
      "step": 12865
    },
    {
      "entropy": 5.1568663120269775,
      "epoch": 1.2363112391930835,
      "grad_norm": 1.25,
      "learning_rate": 0.0004854418055658274,
      "loss": 4.9683,
      "mean_token_accuracy": 0.21473043411970139,
      "num_tokens": 29510764.0,
      "step": 12870
    },
    {
      "entropy": 5.179628610610962,
      "epoch": 1.2367915465898176,
      "grad_norm": 1.21875,
      "learning_rate": 0.00048542967140916134,
      "loss": 5.0443,
      "mean_token_accuracy": 0.2080310419201851,
      "num_tokens": 29522882.0,
      "step": 12875
    },
    {
      "entropy": 5.231398963928223,
      "epoch": 1.2372718539865515,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004854175323669432,
      "loss": 4.9823,
      "mean_token_accuracy": 0.20900345593690872,
      "num_tokens": 29533348.0,
      "step": 12880
    },
    {
      "entropy": 5.1414636135101315,
      "epoch": 1.2377521613832854,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004854053884394547,
      "loss": 4.9611,
      "mean_token_accuracy": 0.2162790149450302,
      "num_tokens": 29545649.0,
      "step": 12885
    },
    {
      "entropy": 5.209917974472046,
      "epoch": 1.2382324687800192,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00048539323962697796,
      "loss": 5.0101,
      "mean_token_accuracy": 0.20617685168981553,
      "num_tokens": 29558252.0,
      "step": 12890
    },
    {
      "entropy": 5.315207386016846,
      "epoch": 1.2387127761767531,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004853810859297949,
      "loss": 5.1166,
      "mean_token_accuracy": 0.21191854476928712,
      "num_tokens": 29569495.0,
      "step": 12895
    },
    {
      "entropy": 5.209201908111572,
      "epoch": 1.239193083573487,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00048536892734818773,
      "loss": 4.9999,
      "mean_token_accuracy": 0.211149762570858,
      "num_tokens": 29582167.0,
      "step": 12900
    },
    {
      "entropy": 5.23478512763977,
      "epoch": 1.239673390970221,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004853567638824387,
      "loss": 5.0181,
      "mean_token_accuracy": 0.2111159771680832,
      "num_tokens": 29593964.0,
      "step": 12905
    },
    {
      "entropy": 5.227269411087036,
      "epoch": 1.2401536983669548,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00048534459553283026,
      "loss": 4.9755,
      "mean_token_accuracy": 0.21934866458177565,
      "num_tokens": 29604844.0,
      "step": 12910
    },
    {
      "entropy": 5.219102811813355,
      "epoch": 1.2406340057636887,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004853324222996449,
      "loss": 5.0165,
      "mean_token_accuracy": 0.21728123128414153,
      "num_tokens": 29615219.0,
      "step": 12915
    },
    {
      "entropy": 5.303751039505005,
      "epoch": 1.2411143131604228,
      "grad_norm": 1.171875,
      "learning_rate": 0.00048532024418316525,
      "loss": 5.1028,
      "mean_token_accuracy": 0.2071371465921402,
      "num_tokens": 29626472.0,
      "step": 12920
    },
    {
      "entropy": 5.16833004951477,
      "epoch": 1.2415946205571566,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004853080611836741,
      "loss": 4.9767,
      "mean_token_accuracy": 0.2196236953139305,
      "num_tokens": 29637966.0,
      "step": 12925
    },
    {
      "entropy": 5.132480478286743,
      "epoch": 1.2420749279538905,
      "grad_norm": 1.1875,
      "learning_rate": 0.00048529587330145427,
      "loss": 4.906,
      "mean_token_accuracy": 0.2214494377374649,
      "num_tokens": 29648730.0,
      "step": 12930
    },
    {
      "entropy": 5.132258462905884,
      "epoch": 1.2425552353506244,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00048528368053678863,
      "loss": 4.929,
      "mean_token_accuracy": 0.2147599697113037,
      "num_tokens": 29660576.0,
      "step": 12935
    },
    {
      "entropy": 5.175818014144897,
      "epoch": 1.2430355427473583,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004852714828899604,
      "loss": 4.9604,
      "mean_token_accuracy": 0.2147279053926468,
      "num_tokens": 29672906.0,
      "step": 12940
    },
    {
      "entropy": 5.156858634948731,
      "epoch": 1.2435158501440922,
      "grad_norm": 1.140625,
      "learning_rate": 0.00048525928036125264,
      "loss": 4.9559,
      "mean_token_accuracy": 0.21674090325832368,
      "num_tokens": 29685360.0,
      "step": 12945
    },
    {
      "entropy": 5.184188318252564,
      "epoch": 1.243996157540826,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00048524707295094884,
      "loss": 4.9588,
      "mean_token_accuracy": 0.2069990187883377,
      "num_tokens": 29697257.0,
      "step": 12950
    },
    {
      "entropy": 5.153713750839233,
      "epoch": 1.2444764649375601,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004852348606593322,
      "loss": 4.9132,
      "mean_token_accuracy": 0.220682792365551,
      "num_tokens": 29707877.0,
      "step": 12955
    },
    {
      "entropy": 5.208719635009766,
      "epoch": 1.244956772334294,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00048522264348668646,
      "loss": 4.9975,
      "mean_token_accuracy": 0.21275103688240052,
      "num_tokens": 29719358.0,
      "step": 12960
    },
    {
      "entropy": 5.10908875465393,
      "epoch": 1.245437079731028,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004852104214332951,
      "loss": 4.8733,
      "mean_token_accuracy": 0.22901579290628432,
      "num_tokens": 29730383.0,
      "step": 12965
    },
    {
      "entropy": 5.184739780426026,
      "epoch": 1.2459173871277618,
      "grad_norm": 1.296875,
      "learning_rate": 0.00048519819449944205,
      "loss": 4.9995,
      "mean_token_accuracy": 0.21587478816509248,
      "num_tokens": 29741142.0,
      "step": 12970
    },
    {
      "entropy": 5.156636571884155,
      "epoch": 1.2463976945244957,
      "grad_norm": 1.203125,
      "learning_rate": 0.000485185962685411,
      "loss": 4.9697,
      "mean_token_accuracy": 0.21590882092714309,
      "num_tokens": 29754618.0,
      "step": 12975
    },
    {
      "entropy": 5.214703130722046,
      "epoch": 1.2468780019212296,
      "grad_norm": 1.4453125,
      "learning_rate": 0.000485173725991486,
      "loss": 4.9845,
      "mean_token_accuracy": 0.21426209211349487,
      "num_tokens": 29767115.0,
      "step": 12980
    },
    {
      "entropy": 5.226226806640625,
      "epoch": 1.2473583093179634,
      "grad_norm": 1.1875,
      "learning_rate": 0.00048516148441795124,
      "loss": 5.055,
      "mean_token_accuracy": 0.21063894778490067,
      "num_tokens": 29778165.0,
      "step": 12985
    },
    {
      "entropy": 5.291137981414795,
      "epoch": 1.2478386167146973,
      "grad_norm": 1.125,
      "learning_rate": 0.0004851492379650908,
      "loss": 5.1231,
      "mean_token_accuracy": 0.2022738501429558,
      "num_tokens": 29790528.0,
      "step": 12990
    },
    {
      "entropy": 5.202538394927979,
      "epoch": 1.2483189241114312,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004851369866331891,
      "loss": 4.9323,
      "mean_token_accuracy": 0.20517953634262084,
      "num_tokens": 29801709.0,
      "step": 12995
    },
    {
      "entropy": 5.175222253799438,
      "epoch": 1.2487992315081653,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004851247304225306,
      "loss": 5.0036,
      "mean_token_accuracy": 0.2128250151872635,
      "num_tokens": 29812963.0,
      "step": 13000
    },
    {
      "entropy": 5.2060657978057865,
      "epoch": 1.2492795389048992,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004851124693333997,
      "loss": 4.9772,
      "mean_token_accuracy": 0.2129211023449898,
      "num_tokens": 29823711.0,
      "step": 13005
    },
    {
      "entropy": 5.165619707107544,
      "epoch": 1.249759846301633,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004851002033660812,
      "loss": 4.9446,
      "mean_token_accuracy": 0.21848293840885163,
      "num_tokens": 29834038.0,
      "step": 13010
    },
    {
      "entropy": 5.213901424407959,
      "epoch": 1.250240153698367,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00048508793252085994,
      "loss": 4.9833,
      "mean_token_accuracy": 0.21572160869836807,
      "num_tokens": 29844759.0,
      "step": 13015
    },
    {
      "entropy": 5.092281866073608,
      "epoch": 1.2507204610951008,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004850756567980206,
      "loss": 4.8518,
      "mean_token_accuracy": 0.21635698527097702,
      "num_tokens": 29855643.0,
      "step": 13020
    },
    {
      "entropy": 5.237672472000122,
      "epoch": 1.2512007684918347,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00048506337619784836,
      "loss": 5.0672,
      "mean_token_accuracy": 0.20816876441240312,
      "num_tokens": 29866917.0,
      "step": 13025
    },
    {
      "entropy": 5.285785484313965,
      "epoch": 1.2516810758885688,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004850510907206283,
      "loss": 5.1273,
      "mean_token_accuracy": 0.20473649799823762,
      "num_tokens": 29878937.0,
      "step": 13030
    },
    {
      "entropy": 5.139752054214478,
      "epoch": 1.2521613832853027,
      "grad_norm": 1.390625,
      "learning_rate": 0.00048503880036664555,
      "loss": 4.9387,
      "mean_token_accuracy": 0.2179243117570877,
      "num_tokens": 29889544.0,
      "step": 13035
    },
    {
      "entropy": 5.133181190490722,
      "epoch": 1.2526416906820366,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004850265051361857,
      "loss": 4.9495,
      "mean_token_accuracy": 0.21097120344638826,
      "num_tokens": 29901919.0,
      "step": 13040
    },
    {
      "entropy": 5.163506126403808,
      "epoch": 1.2531219980787704,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004850142050295339,
      "loss": 4.9949,
      "mean_token_accuracy": 0.21175018399953843,
      "num_tokens": 29913870.0,
      "step": 13045
    },
    {
      "entropy": 5.183034372329712,
      "epoch": 1.2536023054755043,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00048500190004697595,
      "loss": 4.9554,
      "mean_token_accuracy": 0.21792073249816896,
      "num_tokens": 29925180.0,
      "step": 13050
    },
    {
      "entropy": 5.097564458847046,
      "epoch": 1.2540826128722382,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004849895901887974,
      "loss": 4.8784,
      "mean_token_accuracy": 0.22044360488653184,
      "num_tokens": 29936433.0,
      "step": 13055
    },
    {
      "entropy": 5.19610743522644,
      "epoch": 1.254562920268972,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004849772754552842,
      "loss": 5.074,
      "mean_token_accuracy": 0.20816617459058762,
      "num_tokens": 29948891.0,
      "step": 13060
    },
    {
      "entropy": 5.186704921722412,
      "epoch": 1.255043227665706,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00048496495584672214,
      "loss": 4.884,
      "mean_token_accuracy": 0.21899646669626235,
      "num_tokens": 29960113.0,
      "step": 13065
    },
    {
      "entropy": 5.193692255020141,
      "epoch": 1.2555235350624399,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00048495263136339725,
      "loss": 5.0114,
      "mean_token_accuracy": 0.20587489008903503,
      "num_tokens": 29972168.0,
      "step": 13070
    },
    {
      "entropy": 5.169920969009399,
      "epoch": 1.2560038424591737,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004849403020055956,
      "loss": 5.021,
      "mean_token_accuracy": 0.21360062509775163,
      "num_tokens": 29982996.0,
      "step": 13075
    },
    {
      "entropy": 5.186982870101929,
      "epoch": 1.2564841498559078,
      "grad_norm": 1.375,
      "learning_rate": 0.00048492796777360373,
      "loss": 5.0222,
      "mean_token_accuracy": 0.20997272729873656,
      "num_tokens": 29994088.0,
      "step": 13080
    },
    {
      "entropy": 5.285563182830811,
      "epoch": 1.2569644572526417,
      "grad_norm": 1.28125,
      "learning_rate": 0.00048491562866770767,
      "loss": 5.0864,
      "mean_token_accuracy": 0.2084256410598755,
      "num_tokens": 30005403.0,
      "step": 13085
    },
    {
      "entropy": 5.225534963607788,
      "epoch": 1.2574447646493756,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00048490328468819404,
      "loss": 4.9807,
      "mean_token_accuracy": 0.22016366571187973,
      "num_tokens": 30015961.0,
      "step": 13090
    },
    {
      "entropy": 5.1508348941802975,
      "epoch": 1.2579250720461095,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00048489093583534945,
      "loss": 4.9337,
      "mean_token_accuracy": 0.21542756259441376,
      "num_tokens": 30026670.0,
      "step": 13095
    },
    {
      "entropy": 5.179332733154297,
      "epoch": 1.2584053794428434,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004848785821094606,
      "loss": 4.9697,
      "mean_token_accuracy": 0.21637785881757737,
      "num_tokens": 30036711.0,
      "step": 13100
    },
    {
      "entropy": 5.204781723022461,
      "epoch": 1.2588856868395775,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004848662235108142,
      "loss": 5.0481,
      "mean_token_accuracy": 0.20675273686647416,
      "num_tokens": 30047587.0,
      "step": 13105
    },
    {
      "entropy": 5.196116733551025,
      "epoch": 1.2593659942363113,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004848538600396973,
      "loss": 4.982,
      "mean_token_accuracy": 0.21352463364601135,
      "num_tokens": 30059348.0,
      "step": 13110
    },
    {
      "entropy": 5.233518457412719,
      "epoch": 1.2598463016330452,
      "grad_norm": 1.3125,
      "learning_rate": 0.00048484149169639694,
      "loss": 4.9836,
      "mean_token_accuracy": 0.21362563073635102,
      "num_tokens": 30070485.0,
      "step": 13115
    },
    {
      "entropy": 5.15550799369812,
      "epoch": 1.260326609029779,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004848291184812003,
      "loss": 4.9135,
      "mean_token_accuracy": 0.22237775921821595,
      "num_tokens": 30081114.0,
      "step": 13120
    },
    {
      "entropy": 5.186419725418091,
      "epoch": 1.260806916426513,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004848167403943945,
      "loss": 5.0575,
      "mean_token_accuracy": 0.2090092420578003,
      "num_tokens": 30092634.0,
      "step": 13125
    },
    {
      "entropy": 5.190171480178833,
      "epoch": 1.2612872238232469,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00048480435743626703,
      "loss": 4.9924,
      "mean_token_accuracy": 0.21862466484308243,
      "num_tokens": 30104205.0,
      "step": 13130
    },
    {
      "entropy": 5.219733333587646,
      "epoch": 1.2617675312199808,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004847919696071054,
      "loss": 5.014,
      "mean_token_accuracy": 0.21289038211107253,
      "num_tokens": 30116978.0,
      "step": 13135
    },
    {
      "entropy": 5.1809934139251705,
      "epoch": 1.2622478386167146,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00048477957690719716,
      "loss": 4.9081,
      "mean_token_accuracy": 0.21542966216802598,
      "num_tokens": 30128549.0,
      "step": 13140
    },
    {
      "entropy": 5.242063808441162,
      "epoch": 1.2627281460134485,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004847671793368301,
      "loss": 5.0544,
      "mean_token_accuracy": 0.2094632938504219,
      "num_tokens": 30139492.0,
      "step": 13145
    },
    {
      "entropy": 5.182856559753418,
      "epoch": 1.2632084534101824,
      "grad_norm": 1.2734375,
      "learning_rate": 0.000484754776896292,
      "loss": 4.969,
      "mean_token_accuracy": 0.21324526518583298,
      "num_tokens": 30150450.0,
      "step": 13150
    },
    {
      "entropy": 5.2239217281341555,
      "epoch": 1.2636887608069165,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004847423695858708,
      "loss": 5.0259,
      "mean_token_accuracy": 0.21593111753463745,
      "num_tokens": 30162204.0,
      "step": 13155
    },
    {
      "entropy": 5.2082499980926515,
      "epoch": 1.2641690682036504,
      "grad_norm": 1.234375,
      "learning_rate": 0.00048472995740585456,
      "loss": 4.971,
      "mean_token_accuracy": 0.210064397752285,
      "num_tokens": 30172574.0,
      "step": 13160
    },
    {
      "entropy": 5.113088941574096,
      "epoch": 1.2646493756003843,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004847175403565316,
      "loss": 4.9037,
      "mean_token_accuracy": 0.21865027099847795,
      "num_tokens": 30183957.0,
      "step": 13165
    },
    {
      "entropy": 5.228566980361938,
      "epoch": 1.2651296829971181,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00048470511843818996,
      "loss": 4.9679,
      "mean_token_accuracy": 0.2197330266237259,
      "num_tokens": 30194207.0,
      "step": 13170
    },
    {
      "entropy": 5.143984985351563,
      "epoch": 1.265609990393852,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004846926916511182,
      "loss": 4.9185,
      "mean_token_accuracy": 0.22421342581510545,
      "num_tokens": 30205180.0,
      "step": 13175
    },
    {
      "entropy": 5.170929908752441,
      "epoch": 1.266090297790586,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004846802599956048,
      "loss": 4.9828,
      "mean_token_accuracy": 0.20965515226125717,
      "num_tokens": 30217734.0,
      "step": 13180
    },
    {
      "entropy": 5.29590859413147,
      "epoch": 1.26657060518732,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00048466782347193847,
      "loss": 5.2001,
      "mean_token_accuracy": 0.1999218687415123,
      "num_tokens": 30229835.0,
      "step": 13185
    },
    {
      "entropy": 5.277102136611939,
      "epoch": 1.267050912584054,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00048465538208040775,
      "loss": 5.0373,
      "mean_token_accuracy": 0.20946380198001863,
      "num_tokens": 30241932.0,
      "step": 13190
    },
    {
      "entropy": 5.211878299713135,
      "epoch": 1.2675312199807878,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00048464293582130166,
      "loss": 5.0248,
      "mean_token_accuracy": 0.21039628088474274,
      "num_tokens": 30253149.0,
      "step": 13195
    },
    {
      "entropy": 5.256510972976685,
      "epoch": 1.2680115273775217,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004846304846949091,
      "loss": 4.9547,
      "mean_token_accuracy": 0.2133228898048401,
      "num_tokens": 30264083.0,
      "step": 13200
    },
    {
      "entropy": 5.156170415878296,
      "epoch": 1.2684918347742555,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00048461802870151916,
      "loss": 4.9245,
      "mean_token_accuracy": 0.22115042805671692,
      "num_tokens": 30274832.0,
      "step": 13205
    },
    {
      "entropy": 5.104134511947632,
      "epoch": 1.2689721421709894,
      "grad_norm": 1.40625,
      "learning_rate": 0.00048460556784142106,
      "loss": 4.9446,
      "mean_token_accuracy": 0.21649524569511414,
      "num_tokens": 30284945.0,
      "step": 13210
    },
    {
      "entropy": 5.27008090019226,
      "epoch": 1.2694524495677233,
      "grad_norm": 1.25,
      "learning_rate": 0.00048459310211490406,
      "loss": 4.9969,
      "mean_token_accuracy": 0.2195618912577629,
      "num_tokens": 30295133.0,
      "step": 13215
    },
    {
      "entropy": 5.191392421722412,
      "epoch": 1.2699327569644572,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004845806315222576,
      "loss": 5.0609,
      "mean_token_accuracy": 0.20277179926633834,
      "num_tokens": 30305268.0,
      "step": 13220
    },
    {
      "entropy": 5.123500633239746,
      "epoch": 1.270413064361191,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004845681560637711,
      "loss": 4.9226,
      "mean_token_accuracy": 0.21860510110855103,
      "num_tokens": 30317118.0,
      "step": 13225
    },
    {
      "entropy": 5.243611288070679,
      "epoch": 1.270893371757925,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004845556757397344,
      "loss": 5.0812,
      "mean_token_accuracy": 0.20786524415016175,
      "num_tokens": 30328684.0,
      "step": 13230
    },
    {
      "entropy": 5.27822527885437,
      "epoch": 1.271373679154659,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004845431905504372,
      "loss": 5.0788,
      "mean_token_accuracy": 0.2057919830083847,
      "num_tokens": 30341433.0,
      "step": 13235
    },
    {
      "entropy": 5.1837303161621096,
      "epoch": 1.271853986551393,
      "grad_norm": 1.15625,
      "learning_rate": 0.00048453070049616926,
      "loss": 4.958,
      "mean_token_accuracy": 0.2240109384059906,
      "num_tokens": 30353159.0,
      "step": 13240
    },
    {
      "entropy": 5.156756496429443,
      "epoch": 1.2723342939481268,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00048451820557722064,
      "loss": 5.0083,
      "mean_token_accuracy": 0.21551052629947662,
      "num_tokens": 30363251.0,
      "step": 13245
    },
    {
      "entropy": 5.246157121658325,
      "epoch": 1.2728146013448607,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004845057057938815,
      "loss": 5.0621,
      "mean_token_accuracy": 0.21401735842227937,
      "num_tokens": 30375850.0,
      "step": 13250
    },
    {
      "entropy": 5.240186405181885,
      "epoch": 1.2732949087415946,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00048449320114644185,
      "loss": 5.0836,
      "mean_token_accuracy": 0.20593365728855134,
      "num_tokens": 30386839.0,
      "step": 13255
    },
    {
      "entropy": 5.22416672706604,
      "epoch": 1.2737752161383284,
      "grad_norm": 1.25,
      "learning_rate": 0.0004844806916351922,
      "loss": 5.052,
      "mean_token_accuracy": 0.2087215930223465,
      "num_tokens": 30398872.0,
      "step": 13260
    },
    {
      "entropy": 5.206205415725708,
      "epoch": 1.2742555235350626,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004844681772604229,
      "loss": 4.962,
      "mean_token_accuracy": 0.22111569941043854,
      "num_tokens": 30409581.0,
      "step": 13265
    },
    {
      "entropy": 5.173876953125,
      "epoch": 1.2747358309317964,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00048445565802242454,
      "loss": 4.9982,
      "mean_token_accuracy": 0.214154152572155,
      "num_tokens": 30420209.0,
      "step": 13270
    },
    {
      "entropy": 5.225718021392822,
      "epoch": 1.2752161383285303,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004844431339214878,
      "loss": 5.0296,
      "mean_token_accuracy": 0.21498659551143645,
      "num_tokens": 30432093.0,
      "step": 13275
    },
    {
      "entropy": 5.192876482009888,
      "epoch": 1.2756964457252642,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004844306049579034,
      "loss": 4.9477,
      "mean_token_accuracy": 0.21263082027435304,
      "num_tokens": 30442796.0,
      "step": 13280
    },
    {
      "entropy": 5.20331597328186,
      "epoch": 1.276176753121998,
      "grad_norm": 1.234375,
      "learning_rate": 0.00048441807113196216,
      "loss": 4.9849,
      "mean_token_accuracy": 0.20858001410961152,
      "num_tokens": 30455226.0,
      "step": 13285
    },
    {
      "entropy": 5.262969589233398,
      "epoch": 1.276657060518732,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00048440553244395517,
      "loss": 5.0852,
      "mean_token_accuracy": 0.20551335960626602,
      "num_tokens": 30467082.0,
      "step": 13290
    },
    {
      "entropy": 5.207232666015625,
      "epoch": 1.2771373679154658,
      "grad_norm": 1.234375,
      "learning_rate": 0.00048439298889417357,
      "loss": 4.9857,
      "mean_token_accuracy": 0.20911924540996552,
      "num_tokens": 30479051.0,
      "step": 13295
    },
    {
      "entropy": 5.192299127578735,
      "epoch": 1.2776176753121997,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00048438044048290847,
      "loss": 5.0429,
      "mean_token_accuracy": 0.20957115888595582,
      "num_tokens": 30489989.0,
      "step": 13300
    },
    {
      "entropy": 5.226817989349366,
      "epoch": 1.2780979827089336,
      "grad_norm": 1.5,
      "learning_rate": 0.00048436788721045135,
      "loss": 4.9441,
      "mean_token_accuracy": 0.21679565608501433,
      "num_tokens": 30501533.0,
      "step": 13305
    },
    {
      "entropy": 5.203074645996094,
      "epoch": 1.2785782901056677,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004843553290770935,
      "loss": 5.029,
      "mean_token_accuracy": 0.2081605538725853,
      "num_tokens": 30512231.0,
      "step": 13310
    },
    {
      "entropy": 5.154972076416016,
      "epoch": 1.2790585975024016,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004843427660831266,
      "loss": 5.0001,
      "mean_token_accuracy": 0.21241324096918107,
      "num_tokens": 30523204.0,
      "step": 13315
    },
    {
      "entropy": 5.282387590408325,
      "epoch": 1.2795389048991355,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00048433019822884235,
      "loss": 5.1216,
      "mean_token_accuracy": 0.20325924307107926,
      "num_tokens": 30534956.0,
      "step": 13320
    },
    {
      "entropy": 5.182562732696534,
      "epoch": 1.2800192122958693,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004843176255145325,
      "loss": 4.9731,
      "mean_token_accuracy": 0.21960055232048034,
      "num_tokens": 30545938.0,
      "step": 13325
    },
    {
      "entropy": 5.180881690979004,
      "epoch": 1.2804995196926032,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004843050479404888,
      "loss": 4.915,
      "mean_token_accuracy": 0.21800871789455414,
      "num_tokens": 30557323.0,
      "step": 13330
    },
    {
      "entropy": 5.227671194076538,
      "epoch": 1.280979827089337,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00048429246550700343,
      "loss": 4.9882,
      "mean_token_accuracy": 0.21517169177532197,
      "num_tokens": 30569960.0,
      "step": 13335
    },
    {
      "entropy": 5.110123968124389,
      "epoch": 1.2814601344860712,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004842798782143686,
      "loss": 5.0236,
      "mean_token_accuracy": 0.20901857316493988,
      "num_tokens": 30581904.0,
      "step": 13340
    },
    {
      "entropy": 5.196750164031982,
      "epoch": 1.281940441882805,
      "grad_norm": 1.25,
      "learning_rate": 0.00048426728606287627,
      "loss": 4.9905,
      "mean_token_accuracy": 0.21553199142217636,
      "num_tokens": 30592955.0,
      "step": 13345
    },
    {
      "entropy": 5.22657151222229,
      "epoch": 1.282420749279539,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004842546890528191,
      "loss": 5.0424,
      "mean_token_accuracy": 0.21174602657556535,
      "num_tokens": 30604020.0,
      "step": 13350
    },
    {
      "entropy": 5.152847194671631,
      "epoch": 1.2829010566762729,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004842420871844893,
      "loss": 4.9739,
      "mean_token_accuracy": 0.2086465060710907,
      "num_tokens": 30615623.0,
      "step": 13355
    },
    {
      "entropy": 5.217724800109863,
      "epoch": 1.2833813640730067,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004842294804581796,
      "loss": 5.0257,
      "mean_token_accuracy": 0.2142942488193512,
      "num_tokens": 30626258.0,
      "step": 13360
    },
    {
      "entropy": 5.231122970581055,
      "epoch": 1.2838616714697406,
      "grad_norm": 1.078125,
      "learning_rate": 0.00048421686887418266,
      "loss": 5.008,
      "mean_token_accuracy": 0.20600861310958862,
      "num_tokens": 30637861.0,
      "step": 13365
    },
    {
      "entropy": 5.25348687171936,
      "epoch": 1.2843419788664745,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004842042524327912,
      "loss": 5.0313,
      "mean_token_accuracy": 0.2152662232518196,
      "num_tokens": 30648835.0,
      "step": 13370
    },
    {
      "entropy": 5.268816089630127,
      "epoch": 1.2848222862632084,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004841916311342983,
      "loss": 5.071,
      "mean_token_accuracy": 0.20168877840042115,
      "num_tokens": 30659117.0,
      "step": 13375
    },
    {
      "entropy": 5.167082214355469,
      "epoch": 1.2853025936599423,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004841790049789969,
      "loss": 4.99,
      "mean_token_accuracy": 0.21684323698282243,
      "num_tokens": 30670282.0,
      "step": 13380
    },
    {
      "entropy": 5.192442560195923,
      "epoch": 1.2857829010566761,
      "grad_norm": 1.328125,
      "learning_rate": 0.00048416637396718004,
      "loss": 5.049,
      "mean_token_accuracy": 0.20397165417671204,
      "num_tokens": 30681967.0,
      "step": 13385
    },
    {
      "entropy": 5.288777303695679,
      "epoch": 1.2862632084534102,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004841537380991411,
      "loss": 4.9953,
      "mean_token_accuracy": 0.2100960224866867,
      "num_tokens": 30692803.0,
      "step": 13390
    },
    {
      "entropy": 5.132681179046631,
      "epoch": 1.2867435158501441,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00048414109737517346,
      "loss": 4.8827,
      "mean_token_accuracy": 0.22248595058918,
      "num_tokens": 30704097.0,
      "step": 13395
    },
    {
      "entropy": 5.161887550354004,
      "epoch": 1.287223823246878,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004841284517955706,
      "loss": 5.0591,
      "mean_token_accuracy": 0.20569444447755814,
      "num_tokens": 30717983.0,
      "step": 13400
    },
    {
      "entropy": 5.150148868560791,
      "epoch": 1.2877041306436119,
      "grad_norm": 1.2421875,
      "learning_rate": 0.000484115801360626,
      "loss": 4.8516,
      "mean_token_accuracy": 0.22625237703323364,
      "num_tokens": 30728446.0,
      "step": 13405
    },
    {
      "entropy": 5.112018346786499,
      "epoch": 1.2881844380403458,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004841031460706335,
      "loss": 4.8186,
      "mean_token_accuracy": 0.22128551304340363,
      "num_tokens": 30739587.0,
      "step": 13410
    },
    {
      "entropy": 5.120370292663575,
      "epoch": 1.2886647454370797,
      "grad_norm": 1.34375,
      "learning_rate": 0.00048409048592588683,
      "loss": 4.9393,
      "mean_token_accuracy": 0.21629711836576462,
      "num_tokens": 30750093.0,
      "step": 13415
    },
    {
      "entropy": 5.221544075012207,
      "epoch": 1.2891450528338138,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004840778209266799,
      "loss": 5.0089,
      "mean_token_accuracy": 0.21404524147510529,
      "num_tokens": 30761692.0,
      "step": 13420
    },
    {
      "entropy": 5.132301568984985,
      "epoch": 1.2896253602305476,
      "grad_norm": 1.296875,
      "learning_rate": 0.00048406515107330685,
      "loss": 4.9333,
      "mean_token_accuracy": 0.21460689157247542,
      "num_tokens": 30773474.0,
      "step": 13425
    },
    {
      "entropy": 5.293475818634033,
      "epoch": 1.2901056676272815,
      "grad_norm": 1.1875,
      "learning_rate": 0.00048405247636606173,
      "loss": 5.1002,
      "mean_token_accuracy": 0.20041738152503968,
      "num_tokens": 30785464.0,
      "step": 13430
    },
    {
      "entropy": 5.225921392440796,
      "epoch": 1.2905859750240154,
      "grad_norm": 1.375,
      "learning_rate": 0.00048403979680523894,
      "loss": 4.9796,
      "mean_token_accuracy": 0.21184006035327912,
      "num_tokens": 30796343.0,
      "step": 13435
    },
    {
      "entropy": 5.233290290832519,
      "epoch": 1.2910662824207493,
      "grad_norm": 1.375,
      "learning_rate": 0.0004840271123911328,
      "loss": 4.9907,
      "mean_token_accuracy": 0.21301163733005524,
      "num_tokens": 30807795.0,
      "step": 13440
    },
    {
      "entropy": 5.200629138946534,
      "epoch": 1.2915465898174832,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004840144231240377,
      "loss": 4.9783,
      "mean_token_accuracy": 0.20906727910041809,
      "num_tokens": 30819629.0,
      "step": 13445
    },
    {
      "entropy": 5.146392774581909,
      "epoch": 1.292026897214217,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004840017290042484,
      "loss": 4.9387,
      "mean_token_accuracy": 0.21682157814502717,
      "num_tokens": 30831545.0,
      "step": 13450
    },
    {
      "entropy": 5.180679416656494,
      "epoch": 1.292507204610951,
      "grad_norm": 1.34375,
      "learning_rate": 0.00048398903003205957,
      "loss": 4.9697,
      "mean_token_accuracy": 0.21640813797712327,
      "num_tokens": 30843614.0,
      "step": 13455
    },
    {
      "entropy": 5.144548463821411,
      "epoch": 1.2929875120076848,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00048397632620776604,
      "loss": 4.9008,
      "mean_token_accuracy": 0.21930991858243942,
      "num_tokens": 30853749.0,
      "step": 13460
    },
    {
      "entropy": 5.183133602142334,
      "epoch": 1.293467819404419,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00048396361753166276,
      "loss": 4.9319,
      "mean_token_accuracy": 0.21686296314001083,
      "num_tokens": 30865065.0,
      "step": 13465
    },
    {
      "entropy": 5.188254976272583,
      "epoch": 1.2939481268011528,
      "grad_norm": 1.3125,
      "learning_rate": 0.00048395090400404466,
      "loss": 5.0198,
      "mean_token_accuracy": 0.209990793466568,
      "num_tokens": 30876746.0,
      "step": 13470
    },
    {
      "entropy": 5.24221830368042,
      "epoch": 1.2944284341978867,
      "grad_norm": 1.265625,
      "learning_rate": 0.00048393818562520715,
      "loss": 5.0519,
      "mean_token_accuracy": 0.21296084821224212,
      "num_tokens": 30889543.0,
      "step": 13475
    },
    {
      "entropy": 5.221997165679932,
      "epoch": 1.2949087415946205,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00048392546239544535,
      "loss": 5.0196,
      "mean_token_accuracy": 0.21187058687210084,
      "num_tokens": 30901949.0,
      "step": 13480
    },
    {
      "entropy": 5.177766799926758,
      "epoch": 1.2953890489913544,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004839127343150547,
      "loss": 5.0104,
      "mean_token_accuracy": 0.2122276872396469,
      "num_tokens": 30912660.0,
      "step": 13485
    },
    {
      "entropy": 5.1722331047058105,
      "epoch": 1.2958693563880883,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004839000013843307,
      "loss": 4.9911,
      "mean_token_accuracy": 0.2134689912199974,
      "num_tokens": 30924276.0,
      "step": 13490
    },
    {
      "entropy": 5.172789239883423,
      "epoch": 1.2963496637848224,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00048388726360356894,
      "loss": 4.9235,
      "mean_token_accuracy": 0.21602853089571,
      "num_tokens": 30935169.0,
      "step": 13495
    },
    {
      "entropy": 5.292079591751099,
      "epoch": 1.2968299711815563,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004838745209730653,
      "loss": 5.1031,
      "mean_token_accuracy": 0.20405390560626985,
      "num_tokens": 30946116.0,
      "step": 13500
    },
    {
      "entropy": 5.241908931732178,
      "epoch": 1.2973102785782902,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00048386177349311535,
      "loss": 5.0269,
      "mean_token_accuracy": 0.20935841649770737,
      "num_tokens": 30958509.0,
      "step": 13505
    },
    {
      "entropy": 5.223677349090576,
      "epoch": 1.297790585975024,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004838490211640153,
      "loss": 5.0269,
      "mean_token_accuracy": 0.2150777280330658,
      "num_tokens": 30969501.0,
      "step": 13510
    },
    {
      "entropy": 5.135782957077026,
      "epoch": 1.298270893371758,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004838362639860611,
      "loss": 4.9413,
      "mean_token_accuracy": 0.21526733487844468,
      "num_tokens": 30979768.0,
      "step": 13515
    },
    {
      "entropy": 5.1186598777771,
      "epoch": 1.2987512007684918,
      "grad_norm": 1.265625,
      "learning_rate": 0.000483823501959549,
      "loss": 4.9318,
      "mean_token_accuracy": 0.22160837799310684,
      "num_tokens": 30992020.0,
      "step": 13520
    },
    {
      "entropy": 5.242673254013061,
      "epoch": 1.2992315081652257,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00048381073508477527,
      "loss": 5.0647,
      "mean_token_accuracy": 0.21089437007904052,
      "num_tokens": 31004081.0,
      "step": 13525
    },
    {
      "entropy": 5.293477010726929,
      "epoch": 1.2997118155619596,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00048379796336203625,
      "loss": 5.0783,
      "mean_token_accuracy": 0.2032276600599289,
      "num_tokens": 31015776.0,
      "step": 13530
    },
    {
      "entropy": 5.198190069198608,
      "epoch": 1.3001921229586935,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004837851867916286,
      "loss": 4.9279,
      "mean_token_accuracy": 0.21109964847564697,
      "num_tokens": 31028066.0,
      "step": 13535
    },
    {
      "entropy": 5.151645803451538,
      "epoch": 1.3006724303554273,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004837724053738488,
      "loss": 4.9701,
      "mean_token_accuracy": 0.21504315882921218,
      "num_tokens": 31040234.0,
      "step": 13540
    },
    {
      "entropy": 5.235762643814087,
      "epoch": 1.3011527377521614,
      "grad_norm": 1.453125,
      "learning_rate": 0.00048375961910899373,
      "loss": 5.02,
      "mean_token_accuracy": 0.21187748908996581,
      "num_tokens": 31051158.0,
      "step": 13545
    },
    {
      "entropy": 5.290946435928345,
      "epoch": 1.3016330451488953,
      "grad_norm": 1.375,
      "learning_rate": 0.0004837468279973602,
      "loss": 5.0187,
      "mean_token_accuracy": 0.21141756772994996,
      "num_tokens": 31063404.0,
      "step": 13550
    },
    {
      "entropy": 5.1908276081085205,
      "epoch": 1.3021133525456292,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004837340320392451,
      "loss": 4.9814,
      "mean_token_accuracy": 0.2137753427028656,
      "num_tokens": 31073845.0,
      "step": 13555
    },
    {
      "entropy": 5.128818511962891,
      "epoch": 1.302593659942363,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00048372123123494563,
      "loss": 5.0075,
      "mean_token_accuracy": 0.20479750484228135,
      "num_tokens": 31086914.0,
      "step": 13560
    },
    {
      "entropy": 5.209336137771606,
      "epoch": 1.303073967339097,
      "grad_norm": 1.125,
      "learning_rate": 0.000483708425584759,
      "loss": 4.9457,
      "mean_token_accuracy": 0.21852964758872986,
      "num_tokens": 31098627.0,
      "step": 13565
    },
    {
      "entropy": 5.310657691955567,
      "epoch": 1.3035542747358309,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004836956150889825,
      "loss": 5.2078,
      "mean_token_accuracy": 0.20212220698595046,
      "num_tokens": 31110064.0,
      "step": 13570
    },
    {
      "entropy": 5.232502269744873,
      "epoch": 1.304034582132565,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004836827997479134,
      "loss": 4.94,
      "mean_token_accuracy": 0.22403647303581237,
      "num_tokens": 31121572.0,
      "step": 13575
    },
    {
      "entropy": 5.2666408061981205,
      "epoch": 1.3045148895292988,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004836699795618494,
      "loss": 5.0574,
      "mean_token_accuracy": 0.20667948424816132,
      "num_tokens": 31133276.0,
      "step": 13580
    },
    {
      "entropy": 5.261113119125366,
      "epoch": 1.3049951969260327,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004836571545310881,
      "loss": 5.0826,
      "mean_token_accuracy": 0.20838973075151443,
      "num_tokens": 31144524.0,
      "step": 13585
    },
    {
      "entropy": 5.195058012008667,
      "epoch": 1.3054755043227666,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00048364432465592723,
      "loss": 4.9389,
      "mean_token_accuracy": 0.2192491337656975,
      "num_tokens": 31155775.0,
      "step": 13590
    },
    {
      "entropy": 5.19091010093689,
      "epoch": 1.3059558117195005,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004836314899366647,
      "loss": 4.9018,
      "mean_token_accuracy": 0.21838261038064957,
      "num_tokens": 31166176.0,
      "step": 13595
    },
    {
      "entropy": 5.180618000030518,
      "epoch": 1.3064361191162344,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00048361865037359846,
      "loss": 4.9768,
      "mean_token_accuracy": 0.21404249221086502,
      "num_tokens": 31178568.0,
      "step": 13600
    },
    {
      "entropy": 5.244294548034668,
      "epoch": 1.3069164265129682,
      "grad_norm": 1.453125,
      "learning_rate": 0.00048360580596702664,
      "loss": 5.0507,
      "mean_token_accuracy": 0.21091840416193008,
      "num_tokens": 31188897.0,
      "step": 13605
    },
    {
      "entropy": 5.194856262207031,
      "epoch": 1.3073967339097021,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00048359295671724744,
      "loss": 5.0011,
      "mean_token_accuracy": 0.21148939728736876,
      "num_tokens": 31201370.0,
      "step": 13610
    },
    {
      "entropy": 5.184963703155518,
      "epoch": 1.307877041306436,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004835801026245592,
      "loss": 5.0653,
      "mean_token_accuracy": 0.20697593539953232,
      "num_tokens": 31212704.0,
      "step": 13615
    },
    {
      "entropy": 5.2461165428161625,
      "epoch": 1.30835734870317,
      "grad_norm": 1.15625,
      "learning_rate": 0.00048356724368926035,
      "loss": 5.0037,
      "mean_token_accuracy": 0.21529320627450943,
      "num_tokens": 31224447.0,
      "step": 13620
    },
    {
      "entropy": 5.257749462127686,
      "epoch": 1.308837656099904,
      "grad_norm": 1.40625,
      "learning_rate": 0.00048355437991164937,
      "loss": 5.0519,
      "mean_token_accuracy": 0.21352533251047134,
      "num_tokens": 31235648.0,
      "step": 13625
    },
    {
      "entropy": 5.160556888580322,
      "epoch": 1.3093179634966379,
      "grad_norm": 1.4453125,
      "learning_rate": 0.000483541511292025,
      "loss": 5.0468,
      "mean_token_accuracy": 0.21006453037261963,
      "num_tokens": 31248330.0,
      "step": 13630
    },
    {
      "entropy": 5.208528804779053,
      "epoch": 1.3097982708933718,
      "grad_norm": 1.65625,
      "learning_rate": 0.00048352863783068594,
      "loss": 5.0721,
      "mean_token_accuracy": 0.21153536587953567,
      "num_tokens": 31260036.0,
      "step": 13635
    },
    {
      "entropy": 5.1190698623657225,
      "epoch": 1.3102785782901056,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00048351575952793117,
      "loss": 4.8524,
      "mean_token_accuracy": 0.21958549171686173,
      "num_tokens": 31271473.0,
      "step": 13640
    },
    {
      "entropy": 5.102574396133423,
      "epoch": 1.3107588856868395,
      "grad_norm": 1.375,
      "learning_rate": 0.0004835028763840595,
      "loss": 4.8655,
      "mean_token_accuracy": 0.21855390667915345,
      "num_tokens": 31282045.0,
      "step": 13645
    },
    {
      "entropy": 5.208409547805786,
      "epoch": 1.3112391930835736,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004834899883993703,
      "loss": 5.0836,
      "mean_token_accuracy": 0.2093469277024269,
      "num_tokens": 31292644.0,
      "step": 13650
    },
    {
      "entropy": 5.228438043594361,
      "epoch": 1.3117195004803075,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00048347709557416263,
      "loss": 5.0165,
      "mean_token_accuracy": 0.22113081067800522,
      "num_tokens": 31304422.0,
      "step": 13655
    },
    {
      "entropy": 5.12980465888977,
      "epoch": 1.3121998078770414,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004834641979087359,
      "loss": 4.9284,
      "mean_token_accuracy": 0.21452227383852004,
      "num_tokens": 31314845.0,
      "step": 13660
    },
    {
      "entropy": 5.248886060714722,
      "epoch": 1.3126801152737753,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004834512954033894,
      "loss": 5.0768,
      "mean_token_accuracy": 0.20920535922050476,
      "num_tokens": 31325669.0,
      "step": 13665
    },
    {
      "entropy": 5.186451864242554,
      "epoch": 1.3131604226705091,
      "grad_norm": 1.234375,
      "learning_rate": 0.00048343838805842284,
      "loss": 4.9737,
      "mean_token_accuracy": 0.22008894085884095,
      "num_tokens": 31336023.0,
      "step": 13670
    },
    {
      "entropy": 5.238216543197632,
      "epoch": 1.313640730067243,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00048342547587413583,
      "loss": 5.0729,
      "mean_token_accuracy": 0.20934326946735382,
      "num_tokens": 31347146.0,
      "step": 13675
    },
    {
      "entropy": 5.273143291473389,
      "epoch": 1.314121037463977,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004834125588508282,
      "loss": 5.0544,
      "mean_token_accuracy": 0.2122495487332344,
      "num_tokens": 31357616.0,
      "step": 13680
    },
    {
      "entropy": 5.262011289596558,
      "epoch": 1.3146013448607108,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004833996369887998,
      "loss": 5.0584,
      "mean_token_accuracy": 0.2167961359024048,
      "num_tokens": 31369189.0,
      "step": 13685
    },
    {
      "entropy": 5.159175825119019,
      "epoch": 1.3150816522574447,
      "grad_norm": 1.21875,
      "learning_rate": 0.00048338671028835063,
      "loss": 4.9154,
      "mean_token_accuracy": 0.22063409090042113,
      "num_tokens": 31380841.0,
      "step": 13690
    },
    {
      "entropy": 5.126403951644898,
      "epoch": 1.3155619596541785,
      "grad_norm": 1.25,
      "learning_rate": 0.00048337377874978086,
      "loss": 4.9398,
      "mean_token_accuracy": 0.21937094777822494,
      "num_tokens": 31393092.0,
      "step": 13695
    },
    {
      "entropy": 5.165436792373657,
      "epoch": 1.3160422670509127,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00048336084237339067,
      "loss": 4.9908,
      "mean_token_accuracy": 0.21392715871334075,
      "num_tokens": 31404228.0,
      "step": 13700
    },
    {
      "entropy": 5.2636415481567385,
      "epoch": 1.3165225744476465,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004833479011594804,
      "loss": 5.0796,
      "mean_token_accuracy": 0.20588037818670274,
      "num_tokens": 31416233.0,
      "step": 13705
    },
    {
      "entropy": 5.302021265029907,
      "epoch": 1.3170028818443804,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00048333495510835057,
      "loss": 5.0554,
      "mean_token_accuracy": 0.2089495837688446,
      "num_tokens": 31427787.0,
      "step": 13710
    },
    {
      "entropy": 5.034874057769775,
      "epoch": 1.3174831892411143,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00048332200422030163,
      "loss": 4.8463,
      "mean_token_accuracy": 0.21873539835214614,
      "num_tokens": 31438736.0,
      "step": 13715
    },
    {
      "entropy": 5.0820282936096195,
      "epoch": 1.3179634966378482,
      "grad_norm": 1.25,
      "learning_rate": 0.0004833090484956345,
      "loss": 4.8609,
      "mean_token_accuracy": 0.2156251400709152,
      "num_tokens": 31449225.0,
      "step": 13720
    },
    {
      "entropy": 5.3021155834198,
      "epoch": 1.318443804034582,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00048329608793464966,
      "loss": 5.0795,
      "mean_token_accuracy": 0.21024447679519653,
      "num_tokens": 31461223.0,
      "step": 13725
    },
    {
      "entropy": 5.292631769180298,
      "epoch": 1.3189241114313162,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004832831225376482,
      "loss": 5.0905,
      "mean_token_accuracy": 0.2085978850722313,
      "num_tokens": 31472397.0,
      "step": 13730
    },
    {
      "entropy": 5.110633659362793,
      "epoch": 1.31940441882805,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004832701523049312,
      "loss": 4.9209,
      "mean_token_accuracy": 0.22347624897956847,
      "num_tokens": 31484079.0,
      "step": 13735
    },
    {
      "entropy": 5.168765449523926,
      "epoch": 1.319884726224784,
      "grad_norm": 1.25,
      "learning_rate": 0.0004832571772367997,
      "loss": 4.9554,
      "mean_token_accuracy": 0.20989650189876558,
      "num_tokens": 31496732.0,
      "step": 13740
    },
    {
      "entropy": 5.222825241088867,
      "epoch": 1.3203650336215178,
      "grad_norm": 1.109375,
      "learning_rate": 0.00048324419733355485,
      "loss": 4.8996,
      "mean_token_accuracy": 0.22089578211307526,
      "num_tokens": 31507601.0,
      "step": 13745
    },
    {
      "entropy": 5.175820016860962,
      "epoch": 1.3208453410182517,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00048323121259549805,
      "loss": 4.9605,
      "mean_token_accuracy": 0.21191650182008742,
      "num_tokens": 31519551.0,
      "step": 13750
    },
    {
      "entropy": 5.148926830291748,
      "epoch": 1.3213256484149856,
      "grad_norm": 1.265625,
      "learning_rate": 0.00048321822302293095,
      "loss": 5.0144,
      "mean_token_accuracy": 0.21526147425174713,
      "num_tokens": 31531531.0,
      "step": 13755
    },
    {
      "entropy": 5.234309291839599,
      "epoch": 1.3218059558117194,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004832052286161549,
      "loss": 4.9451,
      "mean_token_accuracy": 0.20788251608610153,
      "num_tokens": 31542386.0,
      "step": 13760
    },
    {
      "entropy": 5.1972698211669925,
      "epoch": 1.3222862632084533,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00048319222937547176,
      "loss": 4.9567,
      "mean_token_accuracy": 0.21743978857994078,
      "num_tokens": 31554142.0,
      "step": 13765
    },
    {
      "entropy": 5.197652673721313,
      "epoch": 1.3227665706051872,
      "grad_norm": 1.203125,
      "learning_rate": 0.00048317922530118323,
      "loss": 4.9909,
      "mean_token_accuracy": 0.210670205950737,
      "num_tokens": 31566687.0,
      "step": 13770
    },
    {
      "entropy": 5.255802297592163,
      "epoch": 1.3232468780019213,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004831662163935912,
      "loss": 5.0836,
      "mean_token_accuracy": 0.20739447325468063,
      "num_tokens": 31577893.0,
      "step": 13775
    },
    {
      "entropy": 5.338723754882812,
      "epoch": 1.3237271853986552,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00048315320265299784,
      "loss": 5.141,
      "mean_token_accuracy": 0.20476285815238954,
      "num_tokens": 31590483.0,
      "step": 13780
    },
    {
      "entropy": 5.232583475112915,
      "epoch": 1.324207492795389,
      "grad_norm": 1.265625,
      "learning_rate": 0.00048314018407970516,
      "loss": 5.0018,
      "mean_token_accuracy": 0.21295965909957887,
      "num_tokens": 31601373.0,
      "step": 13785
    },
    {
      "entropy": 5.163480615615844,
      "epoch": 1.324687800192123,
      "grad_norm": 1.3125,
      "learning_rate": 0.00048312716067401535,
      "loss": 5.037,
      "mean_token_accuracy": 0.20841159224510192,
      "num_tokens": 31613981.0,
      "step": 13790
    },
    {
      "entropy": 5.269176197052002,
      "epoch": 1.3251681075888568,
      "grad_norm": 1.2578125,
      "learning_rate": 0.000483114132436231,
      "loss": 5.0406,
      "mean_token_accuracy": 0.20180656611919404,
      "num_tokens": 31626727.0,
      "step": 13795
    },
    {
      "entropy": 5.169664478302002,
      "epoch": 1.3256484149855907,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004831010993666545,
      "loss": 4.9317,
      "mean_token_accuracy": 0.21578803807497024,
      "num_tokens": 31638519.0,
      "step": 13800
    },
    {
      "entropy": 5.129696464538574,
      "epoch": 1.3261287223823248,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004830880614655884,
      "loss": 4.9147,
      "mean_token_accuracy": 0.21223049610853195,
      "num_tokens": 31649184.0,
      "step": 13805
    },
    {
      "entropy": 5.234156227111816,
      "epoch": 1.3266090297790587,
      "grad_norm": 1.40625,
      "learning_rate": 0.00048307501873333527,
      "loss": 5.0198,
      "mean_token_accuracy": 0.21354001611471177,
      "num_tokens": 31660266.0,
      "step": 13810
    },
    {
      "entropy": 5.198557376861572,
      "epoch": 1.3270893371757926,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004830619711701982,
      "loss": 4.978,
      "mean_token_accuracy": 0.2158899873495102,
      "num_tokens": 31670841.0,
      "step": 13815
    },
    {
      "entropy": 5.151759386062622,
      "epoch": 1.3275696445725265,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004830489187764799,
      "loss": 4.9399,
      "mean_token_accuracy": 0.21373986601829528,
      "num_tokens": 31680786.0,
      "step": 13820
    },
    {
      "entropy": 5.0768732070922855,
      "epoch": 1.3280499519692603,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004830358615524835,
      "loss": 4.9565,
      "mean_token_accuracy": 0.21601667404174804,
      "num_tokens": 31692639.0,
      "step": 13825
    },
    {
      "entropy": 5.29799165725708,
      "epoch": 1.3285302593659942,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00048302279949851215,
      "loss": 5.0705,
      "mean_token_accuracy": 0.21043513119220733,
      "num_tokens": 31703520.0,
      "step": 13830
    },
    {
      "entropy": 5.207717561721802,
      "epoch": 1.329010566762728,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00048300973261486906,
      "loss": 4.9361,
      "mean_token_accuracy": 0.22781557142734526,
      "num_tokens": 31715659.0,
      "step": 13835
    },
    {
      "entropy": 5.160664987564087,
      "epoch": 1.329490874159462,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004829966609018577,
      "loss": 5.009,
      "mean_token_accuracy": 0.20956473052501678,
      "num_tokens": 31727896.0,
      "step": 13840
    },
    {
      "entropy": 5.167005348205566,
      "epoch": 1.3299711815561959,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00048298358435978146,
      "loss": 4.9763,
      "mean_token_accuracy": 0.21739626675844193,
      "num_tokens": 31738618.0,
      "step": 13845
    },
    {
      "entropy": 5.205134677886963,
      "epoch": 1.3304514889529298,
      "grad_norm": 1.234375,
      "learning_rate": 0.00048297050298894394,
      "loss": 5.0286,
      "mean_token_accuracy": 0.20701279789209365,
      "num_tokens": 31750306.0,
      "step": 13850
    },
    {
      "entropy": 5.272959852218628,
      "epoch": 1.3309317963496639,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004829574167896489,
      "loss": 5.0978,
      "mean_token_accuracy": 0.20369507372379303,
      "num_tokens": 31762015.0,
      "step": 13855
    },
    {
      "entropy": 5.2029674530029295,
      "epoch": 1.3314121037463977,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00048294432576220027,
      "loss": 4.9805,
      "mean_token_accuracy": 0.2133902981877327,
      "num_tokens": 31774120.0,
      "step": 13860
    },
    {
      "entropy": 5.171335029602051,
      "epoch": 1.3318924111431316,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004829312299069017,
      "loss": 4.9216,
      "mean_token_accuracy": 0.22213226556777954,
      "num_tokens": 31785485.0,
      "step": 13865
    },
    {
      "entropy": 5.200899696350097,
      "epoch": 1.3323727185398655,
      "grad_norm": 1.40625,
      "learning_rate": 0.00048291812922405755,
      "loss": 5.0193,
      "mean_token_accuracy": 0.21298006922006607,
      "num_tokens": 31795621.0,
      "step": 13870
    },
    {
      "entropy": 5.163142156600952,
      "epoch": 1.3328530259365994,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004829050237139717,
      "loss": 4.908,
      "mean_token_accuracy": 0.21594492197036744,
      "num_tokens": 31806761.0,
      "step": 13875
    },
    {
      "entropy": 5.23978180885315,
      "epoch": 1.3333333333333333,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004828919133769486,
      "loss": 4.9982,
      "mean_token_accuracy": 0.2074069321155548,
      "num_tokens": 31817996.0,
      "step": 13880
    },
    {
      "entropy": 5.220539999008179,
      "epoch": 1.3338136407300674,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004828787982132926,
      "loss": 5.0618,
      "mean_token_accuracy": 0.21009029895067216,
      "num_tokens": 31829888.0,
      "step": 13885
    },
    {
      "entropy": 5.245324230194091,
      "epoch": 1.3342939481268012,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00048286567822330815,
      "loss": 4.9951,
      "mean_token_accuracy": 0.21646622121334075,
      "num_tokens": 31842582.0,
      "step": 13890
    },
    {
      "entropy": 5.1263108253479,
      "epoch": 1.3347742555235351,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004828525534072999,
      "loss": 4.9066,
      "mean_token_accuracy": 0.2145892322063446,
      "num_tokens": 31854765.0,
      "step": 13895
    },
    {
      "entropy": 5.185867691040039,
      "epoch": 1.335254562920269,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00048283942376557254,
      "loss": 4.9543,
      "mean_token_accuracy": 0.20899006426334382,
      "num_tokens": 31865505.0,
      "step": 13900
    },
    {
      "entropy": 5.1626379013061525,
      "epoch": 1.3357348703170029,
      "grad_norm": 1.234375,
      "learning_rate": 0.00048282628929843097,
      "loss": 4.9562,
      "mean_token_accuracy": 0.2139149159193039,
      "num_tokens": 31876599.0,
      "step": 13905
    },
    {
      "entropy": 5.196528911590576,
      "epoch": 1.3362151777137368,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00048281315000617996,
      "loss": 4.9635,
      "mean_token_accuracy": 0.21398892104625702,
      "num_tokens": 31887292.0,
      "step": 13910
    },
    {
      "entropy": 5.179883575439453,
      "epoch": 1.3366954851104706,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004828000058891248,
      "loss": 5.0204,
      "mean_token_accuracy": 0.20837054550647735,
      "num_tokens": 31899018.0,
      "step": 13915
    },
    {
      "entropy": 5.125789833068848,
      "epoch": 1.3371757925072045,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004827868569475706,
      "loss": 4.9423,
      "mean_token_accuracy": 0.2189765304327011,
      "num_tokens": 31910402.0,
      "step": 13920
    },
    {
      "entropy": 5.2392956733703615,
      "epoch": 1.3376560999039384,
      "grad_norm": 1.234375,
      "learning_rate": 0.00048277370318182243,
      "loss": 5.0742,
      "mean_token_accuracy": 0.2051733672618866,
      "num_tokens": 31921792.0,
      "step": 13925
    },
    {
      "entropy": 5.264586544036865,
      "epoch": 1.3381364073006723,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00048276054459218596,
      "loss": 5.0715,
      "mean_token_accuracy": 0.206744547188282,
      "num_tokens": 31932786.0,
      "step": 13930
    },
    {
      "entropy": 5.2243023872375485,
      "epoch": 1.3386167146974064,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00048274738117896643,
      "loss": 5.0083,
      "mean_token_accuracy": 0.21426367163658142,
      "num_tokens": 31944286.0,
      "step": 13935
    },
    {
      "entropy": 5.166335105895996,
      "epoch": 1.3390970220941403,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00048273421294246966,
      "loss": 5.069,
      "mean_token_accuracy": 0.21005858927965165,
      "num_tokens": 31956304.0,
      "step": 13940
    },
    {
      "entropy": 5.209878873825073,
      "epoch": 1.3395773294908742,
      "grad_norm": 1.25,
      "learning_rate": 0.00048272103988300134,
      "loss": 5.0088,
      "mean_token_accuracy": 0.21268565505743026,
      "num_tokens": 31968978.0,
      "step": 13945
    },
    {
      "entropy": 5.243113946914673,
      "epoch": 1.340057636887608,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004827078620008672,
      "loss": 4.987,
      "mean_token_accuracy": 0.20750254094600679,
      "num_tokens": 31980133.0,
      "step": 13950
    },
    {
      "entropy": 5.202300357818603,
      "epoch": 1.340537944284342,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00048269467929637337,
      "loss": 4.9367,
      "mean_token_accuracy": 0.22350060045719147,
      "num_tokens": 31990331.0,
      "step": 13955
    },
    {
      "entropy": 5.211510848999024,
      "epoch": 1.341018251681076,
      "grad_norm": 1.21875,
      "learning_rate": 0.00048268149176982576,
      "loss": 5.0098,
      "mean_token_accuracy": 0.2139397069811821,
      "num_tokens": 32001956.0,
      "step": 13960
    },
    {
      "entropy": 5.2395045280456545,
      "epoch": 1.34149855907781,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00048266829942153055,
      "loss": 5.054,
      "mean_token_accuracy": 0.21206386983394623,
      "num_tokens": 32013577.0,
      "step": 13965
    },
    {
      "entropy": 5.341452741622925,
      "epoch": 1.3419788664745438,
      "grad_norm": 1.28125,
      "learning_rate": 0.00048265510225179413,
      "loss": 5.1105,
      "mean_token_accuracy": 0.20956795960664748,
      "num_tokens": 32025751.0,
      "step": 13970
    },
    {
      "entropy": 5.188568878173828,
      "epoch": 1.3424591738712777,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004826419002609229,
      "loss": 5.0519,
      "mean_token_accuracy": 0.20738618373870848,
      "num_tokens": 32036592.0,
      "step": 13975
    },
    {
      "entropy": 5.274795866012573,
      "epoch": 1.3429394812680115,
      "grad_norm": 1.421875,
      "learning_rate": 0.00048262869344922326,
      "loss": 5.0194,
      "mean_token_accuracy": 0.2111186280846596,
      "num_tokens": 32048122.0,
      "step": 13980
    },
    {
      "entropy": 5.239737606048584,
      "epoch": 1.3434197886647454,
      "grad_norm": 1.203125,
      "learning_rate": 0.00048261548181700186,
      "loss": 4.9765,
      "mean_token_accuracy": 0.2105955883860588,
      "num_tokens": 32058673.0,
      "step": 13985
    },
    {
      "entropy": 5.085059738159179,
      "epoch": 1.3439000960614793,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004826022653645655,
      "loss": 4.924,
      "mean_token_accuracy": 0.2151069536805153,
      "num_tokens": 32070219.0,
      "step": 13990
    },
    {
      "entropy": 5.24159984588623,
      "epoch": 1.3443804034582132,
      "grad_norm": 1.34375,
      "learning_rate": 0.000482589044092221,
      "loss": 5.0455,
      "mean_token_accuracy": 0.20947272181510926,
      "num_tokens": 32081883.0,
      "step": 13995
    },
    {
      "entropy": 5.30658369064331,
      "epoch": 1.344860710854947,
      "grad_norm": 1.3125,
      "learning_rate": 0.00048257581800027527,
      "loss": 5.0672,
      "mean_token_accuracy": 0.20932937860488893,
      "num_tokens": 32094107.0,
      "step": 14000
    },
    {
      "entropy": 5.196062517166138,
      "epoch": 1.345341018251681,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004825625870890354,
      "loss": 4.936,
      "mean_token_accuracy": 0.21412646919488906,
      "num_tokens": 32105242.0,
      "step": 14005
    },
    {
      "entropy": 5.214570760726929,
      "epoch": 1.345821325648415,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004825493513588086,
      "loss": 4.9387,
      "mean_token_accuracy": 0.2163090154528618,
      "num_tokens": 32117326.0,
      "step": 14010
    },
    {
      "entropy": 5.2475536346435545,
      "epoch": 1.346301633045149,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00048253611080990226,
      "loss": 5.0293,
      "mean_token_accuracy": 0.21036939769983293,
      "num_tokens": 32129002.0,
      "step": 14015
    },
    {
      "entropy": 5.212005138397217,
      "epoch": 1.3467819404418828,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004825228654426236,
      "loss": 5.0548,
      "mean_token_accuracy": 0.2069345846772194,
      "num_tokens": 32140380.0,
      "step": 14020
    },
    {
      "entropy": 5.134690666198731,
      "epoch": 1.3472622478386167,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004825096152572803,
      "loss": 4.9054,
      "mean_token_accuracy": 0.21957446187734603,
      "num_tokens": 32151806.0,
      "step": 14025
    },
    {
      "entropy": 5.20372257232666,
      "epoch": 1.3477425552353506,
      "grad_norm": 1.28125,
      "learning_rate": 0.00048249636025417974,
      "loss": 5.1018,
      "mean_token_accuracy": 0.2116215631365776,
      "num_tokens": 32163426.0,
      "step": 14030
    },
    {
      "entropy": 5.213733768463134,
      "epoch": 1.3482228626320845,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00048248310043362997,
      "loss": 5.0054,
      "mean_token_accuracy": 0.21968272477388381,
      "num_tokens": 32174349.0,
      "step": 14035
    },
    {
      "entropy": 5.264178276062012,
      "epoch": 1.3487031700288186,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004824698357959386,
      "loss": 5.0717,
      "mean_token_accuracy": 0.2072421357035637,
      "num_tokens": 32185382.0,
      "step": 14040
    },
    {
      "entropy": 5.181209135055542,
      "epoch": 1.3491834774255524,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00048245656634141385,
      "loss": 4.9607,
      "mean_token_accuracy": 0.21428043842315675,
      "num_tokens": 32195687.0,
      "step": 14045
    },
    {
      "entropy": 5.154476022720337,
      "epoch": 1.3496637848222863,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00048244329207036354,
      "loss": 4.9185,
      "mean_token_accuracy": 0.22052669078111647,
      "num_tokens": 32205973.0,
      "step": 14050
    },
    {
      "entropy": 5.170621156692505,
      "epoch": 1.3501440922190202,
      "grad_norm": 1.421875,
      "learning_rate": 0.00048243001298309604,
      "loss": 4.9966,
      "mean_token_accuracy": 0.21300121247768403,
      "num_tokens": 32217469.0,
      "step": 14055
    },
    {
      "entropy": 5.1875158786773685,
      "epoch": 1.350624399615754,
      "grad_norm": 1.3125,
      "learning_rate": 0.00048241672907991954,
      "loss": 5.0227,
      "mean_token_accuracy": 0.21119635105133056,
      "num_tokens": 32228257.0,
      "step": 14060
    },
    {
      "entropy": 5.206764030456543,
      "epoch": 1.351104707012488,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004824034403611424,
      "loss": 4.9875,
      "mean_token_accuracy": 0.21840890049934386,
      "num_tokens": 32239420.0,
      "step": 14065
    },
    {
      "entropy": 5.238004541397094,
      "epoch": 1.3515850144092219,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004823901468270733,
      "loss": 5.0209,
      "mean_token_accuracy": 0.21211865544319153,
      "num_tokens": 32250962.0,
      "step": 14070
    },
    {
      "entropy": 5.234237623214722,
      "epoch": 1.3520653218059557,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004823768484780209,
      "loss": 5.0047,
      "mean_token_accuracy": 0.21667125970125198,
      "num_tokens": 32262310.0,
      "step": 14075
    },
    {
      "entropy": 5.1772243022918705,
      "epoch": 1.3525456292026896,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00048236354531429375,
      "loss": 4.903,
      "mean_token_accuracy": 0.21903317421674728,
      "num_tokens": 32273373.0,
      "step": 14080
    },
    {
      "entropy": 5.260414171218872,
      "epoch": 1.3530259365994235,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004823502373362009,
      "loss": 5.0224,
      "mean_token_accuracy": 0.21051734387874604,
      "num_tokens": 32285020.0,
      "step": 14085
    },
    {
      "entropy": 5.182881259918213,
      "epoch": 1.3535062439961576,
      "grad_norm": 1.5,
      "learning_rate": 0.0004823369245440512,
      "loss": 5.0027,
      "mean_token_accuracy": 0.21150606274604797,
      "num_tokens": 32296224.0,
      "step": 14090
    },
    {
      "entropy": 5.177131128311157,
      "epoch": 1.3539865513928915,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00048232360693815387,
      "loss": 5.0028,
      "mean_token_accuracy": 0.21548304408788682,
      "num_tokens": 32306913.0,
      "step": 14095
    },
    {
      "entropy": 5.239502000808716,
      "epoch": 1.3544668587896254,
      "grad_norm": 1.296875,
      "learning_rate": 0.00048231028451881786,
      "loss": 4.9757,
      "mean_token_accuracy": 0.21516055166721343,
      "num_tokens": 32317981.0,
      "step": 14100
    },
    {
      "entropy": 5.112478399276734,
      "epoch": 1.3549471661863592,
      "grad_norm": 3.703125,
      "learning_rate": 0.0004822969572863527,
      "loss": 4.8805,
      "mean_token_accuracy": 0.22126417160034179,
      "num_tokens": 32329656.0,
      "step": 14105
    },
    {
      "entropy": 5.247384786605835,
      "epoch": 1.3554274735830931,
      "grad_norm": 1.5,
      "learning_rate": 0.00048228362524106776,
      "loss": 5.0463,
      "mean_token_accuracy": 0.2171102821826935,
      "num_tokens": 32339460.0,
      "step": 14110
    },
    {
      "entropy": 5.15761137008667,
      "epoch": 1.3559077809798272,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00048227028838327253,
      "loss": 4.9853,
      "mean_token_accuracy": 0.2139111652970314,
      "num_tokens": 32351237.0,
      "step": 14115
    },
    {
      "entropy": 5.221787309646606,
      "epoch": 1.356388088376561,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00048225694671327665,
      "loss": 4.9212,
      "mean_token_accuracy": 0.21492843478918075,
      "num_tokens": 32362368.0,
      "step": 14120
    },
    {
      "entropy": 5.100544738769531,
      "epoch": 1.356868395773295,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004822436002313899,
      "loss": 4.9558,
      "mean_token_accuracy": 0.22090719044208526,
      "num_tokens": 32373738.0,
      "step": 14125
    },
    {
      "entropy": 5.202834510803223,
      "epoch": 1.3573487031700289,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004822302489379222,
      "loss": 5.0004,
      "mean_token_accuracy": 0.21080951392650604,
      "num_tokens": 32384274.0,
      "step": 14130
    },
    {
      "entropy": 5.1527222156524655,
      "epoch": 1.3578290105667628,
      "grad_norm": 1.40625,
      "learning_rate": 0.00048221689283318335,
      "loss": 4.9162,
      "mean_token_accuracy": 0.22189487069845198,
      "num_tokens": 32395692.0,
      "step": 14135
    },
    {
      "entropy": 5.170470714569092,
      "epoch": 1.3583093179634966,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004822035319174837,
      "loss": 4.9993,
      "mean_token_accuracy": 0.215805584192276,
      "num_tokens": 32407367.0,
      "step": 14140
    },
    {
      "entropy": 5.2223457336425785,
      "epoch": 1.3587896253602305,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004821901661911332,
      "loss": 4.9985,
      "mean_token_accuracy": 0.21592912524938584,
      "num_tokens": 32418753.0,
      "step": 14145
    },
    {
      "entropy": 5.224755716323853,
      "epoch": 1.3592699327569644,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004821767956544423,
      "loss": 4.9901,
      "mean_token_accuracy": 0.2103568896651268,
      "num_tokens": 32429499.0,
      "step": 14150
    },
    {
      "entropy": 5.1020674228668215,
      "epoch": 1.3597502401536983,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004821634203077214,
      "loss": 4.9625,
      "mean_token_accuracy": 0.2103301167488098,
      "num_tokens": 32441246.0,
      "step": 14155
    },
    {
      "entropy": 5.2334638118743895,
      "epoch": 1.3602305475504322,
      "grad_norm": 1.25,
      "learning_rate": 0.000482150040151281,
      "loss": 5.0333,
      "mean_token_accuracy": 0.2047850400209427,
      "num_tokens": 32452953.0,
      "step": 14160
    },
    {
      "entropy": 5.247525882720947,
      "epoch": 1.3607108549471663,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004821366551854318,
      "loss": 4.9967,
      "mean_token_accuracy": 0.2128307819366455,
      "num_tokens": 32464030.0,
      "step": 14165
    },
    {
      "entropy": 5.110248804092407,
      "epoch": 1.3611911623439001,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004821232654104845,
      "loss": 4.811,
      "mean_token_accuracy": 0.21935641169548034,
      "num_tokens": 32475091.0,
      "step": 14170
    },
    {
      "entropy": 5.127313280105591,
      "epoch": 1.361671469740634,
      "grad_norm": 1.59375,
      "learning_rate": 0.00048210987082675005,
      "loss": 5.0527,
      "mean_token_accuracy": 0.21497475653886794,
      "num_tokens": 32486047.0,
      "step": 14175
    },
    {
      "entropy": 5.163631916046143,
      "epoch": 1.362151777137368,
      "grad_norm": 1.109375,
      "learning_rate": 0.00048209647143453946,
      "loss": 4.9198,
      "mean_token_accuracy": 0.22030255049467087,
      "num_tokens": 32497141.0,
      "step": 14180
    },
    {
      "entropy": 5.1883574485778805,
      "epoch": 1.3626320845341018,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00048208306723416356,
      "loss": 4.9806,
      "mean_token_accuracy": 0.2113000214099884,
      "num_tokens": 32509282.0,
      "step": 14185
    },
    {
      "entropy": 5.247734832763672,
      "epoch": 1.3631123919308357,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004820696582259339,
      "loss": 5.0618,
      "mean_token_accuracy": 0.20664857178926468,
      "num_tokens": 32521383.0,
      "step": 14190
    },
    {
      "entropy": 5.196439790725708,
      "epoch": 1.3635926993275698,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004820562444101616,
      "loss": 4.9404,
      "mean_token_accuracy": 0.2142431080341339,
      "num_tokens": 32533168.0,
      "step": 14195
    },
    {
      "entropy": 5.119819307327271,
      "epoch": 1.3640730067243036,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004820428257871581,
      "loss": 4.9734,
      "mean_token_accuracy": 0.21469512581825256,
      "num_tokens": 32545333.0,
      "step": 14200
    },
    {
      "entropy": 5.115553903579712,
      "epoch": 1.3645533141210375,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004820294023572351,
      "loss": 4.9275,
      "mean_token_accuracy": 0.2175430715084076,
      "num_tokens": 32556665.0,
      "step": 14205
    },
    {
      "entropy": 5.278141355514526,
      "epoch": 1.3650336215177714,
      "grad_norm": 1.234375,
      "learning_rate": 0.000482015974120704,
      "loss": 5.1187,
      "mean_token_accuracy": 0.2067723110318184,
      "num_tokens": 32568318.0,
      "step": 14210
    },
    {
      "entropy": 5.243190097808838,
      "epoch": 1.3655139289145053,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00048200254107787677,
      "loss": 4.924,
      "mean_token_accuracy": 0.21714796870946884,
      "num_tokens": 32580010.0,
      "step": 14215
    },
    {
      "entropy": 5.200288200378418,
      "epoch": 1.3659942363112392,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00048198910322906516,
      "loss": 5.094,
      "mean_token_accuracy": 0.201282075047493,
      "num_tokens": 32592075.0,
      "step": 14220
    },
    {
      "entropy": 5.279963874816895,
      "epoch": 1.366474543707973,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00048197566057458125,
      "loss": 5.1004,
      "mean_token_accuracy": 0.21089850068092347,
      "num_tokens": 32604548.0,
      "step": 14225
    },
    {
      "entropy": 5.305767488479614,
      "epoch": 1.366954851104707,
      "grad_norm": 1.2890625,
      "learning_rate": 0.000481962213114737,
      "loss": 5.0238,
      "mean_token_accuracy": 0.2131134197115898,
      "num_tokens": 32616036.0,
      "step": 14230
    },
    {
      "entropy": 5.124698162078857,
      "epoch": 1.3674351585014408,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004819487608498448,
      "loss": 4.9755,
      "mean_token_accuracy": 0.21251588463783264,
      "num_tokens": 32628157.0,
      "step": 14235
    },
    {
      "entropy": 5.2571838855743405,
      "epoch": 1.3679154658981747,
      "grad_norm": 1.359375,
      "learning_rate": 0.00048193530378021687,
      "loss": 5.0518,
      "mean_token_accuracy": 0.20990225523710251,
      "num_tokens": 32640571.0,
      "step": 14240
    },
    {
      "entropy": 5.211359739303589,
      "epoch": 1.3683957732949088,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00048192184190616567,
      "loss": 5.0147,
      "mean_token_accuracy": 0.20850124061107636,
      "num_tokens": 32652005.0,
      "step": 14245
    },
    {
      "entropy": 5.182319211959839,
      "epoch": 1.3688760806916427,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004819083752280037,
      "loss": 4.953,
      "mean_token_accuracy": 0.2171345219016075,
      "num_tokens": 32663655.0,
      "step": 14250
    },
    {
      "entropy": 5.153241872787476,
      "epoch": 1.3693563880883766,
      "grad_norm": 1.171875,
      "learning_rate": 0.00048189490374604373,
      "loss": 5.0271,
      "mean_token_accuracy": 0.20629312843084335,
      "num_tokens": 32675419.0,
      "step": 14255
    },
    {
      "entropy": 5.223625183105469,
      "epoch": 1.3698366954851104,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004818814274605983,
      "loss": 4.9521,
      "mean_token_accuracy": 0.21175645738840104,
      "num_tokens": 32686680.0,
      "step": 14260
    },
    {
      "entropy": 5.112087917327881,
      "epoch": 1.3703170028818443,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004818679463719805,
      "loss": 4.8616,
      "mean_token_accuracy": 0.2263885572552681,
      "num_tokens": 32697321.0,
      "step": 14265
    },
    {
      "entropy": 5.0614667415618895,
      "epoch": 1.3707973102785782,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004818544604805033,
      "loss": 4.9871,
      "mean_token_accuracy": 0.2116144999861717,
      "num_tokens": 32708885.0,
      "step": 14270
    },
    {
      "entropy": 5.212231779098511,
      "epoch": 1.3712776176753123,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004818409697864798,
      "loss": 4.9688,
      "mean_token_accuracy": 0.221114681661129,
      "num_tokens": 32720517.0,
      "step": 14275
    },
    {
      "entropy": 5.181997632980346,
      "epoch": 1.3717579250720462,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00048182747429022303,
      "loss": 4.9662,
      "mean_token_accuracy": 0.2124532178044319,
      "num_tokens": 32731072.0,
      "step": 14280
    },
    {
      "entropy": 5.273564004898072,
      "epoch": 1.37223823246878,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004818139739920465,
      "loss": 5.0366,
      "mean_token_accuracy": 0.21512430757284165,
      "num_tokens": 32742117.0,
      "step": 14285
    },
    {
      "entropy": 5.170454597473144,
      "epoch": 1.372718539865514,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004818004688922637,
      "loss": 5.0208,
      "mean_token_accuracy": 0.2080516129732132,
      "num_tokens": 32753754.0,
      "step": 14290
    },
    {
      "entropy": 5.15729718208313,
      "epoch": 1.3731988472622478,
      "grad_norm": 1.171875,
      "learning_rate": 0.000481786958991188,
      "loss": 4.9537,
      "mean_token_accuracy": 0.21438979208469391,
      "num_tokens": 32766511.0,
      "step": 14295
    },
    {
      "entropy": 5.300592947006225,
      "epoch": 1.3736791546589817,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00048177344428913316,
      "loss": 5.0434,
      "mean_token_accuracy": 0.20874705910682678,
      "num_tokens": 32777715.0,
      "step": 14300
    },
    {
      "entropy": 5.202049112319946,
      "epoch": 1.3741594620557156,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00048175992478641293,
      "loss": 4.9841,
      "mean_token_accuracy": 0.21299902647733687,
      "num_tokens": 32789132.0,
      "step": 14305
    },
    {
      "entropy": 5.293251276016235,
      "epoch": 1.3746397694524495,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004817464004833412,
      "loss": 5.0638,
      "mean_token_accuracy": 0.21248952597379683,
      "num_tokens": 32800439.0,
      "step": 14310
    },
    {
      "entropy": 5.183023118972779,
      "epoch": 1.3751200768491834,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00048173287138023204,
      "loss": 4.9448,
      "mean_token_accuracy": 0.2125942125916481,
      "num_tokens": 32813605.0,
      "step": 14315
    },
    {
      "entropy": 5.2913895606994625,
      "epoch": 1.3756003842459175,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004817193374773993,
      "loss": 5.0649,
      "mean_token_accuracy": 0.21377015858888626,
      "num_tokens": 32824225.0,
      "step": 14320
    },
    {
      "entropy": 5.224006319046021,
      "epoch": 1.3760806916426513,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00048170579877515753,
      "loss": 5.0986,
      "mean_token_accuracy": 0.1994484543800354,
      "num_tokens": 32836917.0,
      "step": 14325
    },
    {
      "entropy": 5.171962022781372,
      "epoch": 1.3765609990393852,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004816922552738209,
      "loss": 4.9375,
      "mean_token_accuracy": 0.2171504095196724,
      "num_tokens": 32847972.0,
      "step": 14330
    },
    {
      "entropy": 5.122869682312012,
      "epoch": 1.377041306436119,
      "grad_norm": 1.171875,
      "learning_rate": 0.00048167870697370373,
      "loss": 4.9153,
      "mean_token_accuracy": 0.2238215833902359,
      "num_tokens": 32858922.0,
      "step": 14335
    },
    {
      "entropy": 5.170677995681762,
      "epoch": 1.377521613832853,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004816651538751207,
      "loss": 4.8897,
      "mean_token_accuracy": 0.21658048182725906,
      "num_tokens": 32869788.0,
      "step": 14340
    },
    {
      "entropy": 5.328837919235229,
      "epoch": 1.3780019212295869,
      "grad_norm": 1.28125,
      "learning_rate": 0.00048165159597838664,
      "loss": 5.1289,
      "mean_token_accuracy": 0.1964000031352043,
      "num_tokens": 32881678.0,
      "step": 14345
    },
    {
      "entropy": 5.239847898483276,
      "epoch": 1.378482228626321,
      "grad_norm": 1.296875,
      "learning_rate": 0.000481638033283816,
      "loss": 5.0056,
      "mean_token_accuracy": 0.20893828570842743,
      "num_tokens": 32894183.0,
      "step": 14350
    },
    {
      "entropy": 5.181384801864624,
      "epoch": 1.3789625360230549,
      "grad_norm": 1.3125,
      "learning_rate": 0.00048162446579172387,
      "loss": 4.9588,
      "mean_token_accuracy": 0.21461172699928283,
      "num_tokens": 32906001.0,
      "step": 14355
    },
    {
      "entropy": 5.219556427001953,
      "epoch": 1.3794428434197887,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004816108935024252,
      "loss": 4.9869,
      "mean_token_accuracy": 0.21462354362010955,
      "num_tokens": 32917236.0,
      "step": 14360
    },
    {
      "entropy": 5.205921077728272,
      "epoch": 1.3799231508165226,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00048159731641623507,
      "loss": 5.0295,
      "mean_token_accuracy": 0.20555862188339233,
      "num_tokens": 32929710.0,
      "step": 14365
    },
    {
      "entropy": 5.1836954116821286,
      "epoch": 1.3804034582132565,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004815837345334687,
      "loss": 5.0501,
      "mean_token_accuracy": 0.21190683096647261,
      "num_tokens": 32941565.0,
      "step": 14370
    },
    {
      "entropy": 5.2973743915557865,
      "epoch": 1.3808837656099904,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004815701478544415,
      "loss": 5.1076,
      "mean_token_accuracy": 0.20745208263397216,
      "num_tokens": 32952730.0,
      "step": 14375
    },
    {
      "entropy": 5.153661918640137,
      "epoch": 1.3813640730067243,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00048155655637946876,
      "loss": 4.9323,
      "mean_token_accuracy": 0.21619703769683837,
      "num_tokens": 32963589.0,
      "step": 14380
    },
    {
      "entropy": 5.156609296798706,
      "epoch": 1.3818443804034581,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004815429601088662,
      "loss": 4.8997,
      "mean_token_accuracy": 0.21508285403251648,
      "num_tokens": 32975008.0,
      "step": 14385
    },
    {
      "entropy": 5.220380783081055,
      "epoch": 1.382324687800192,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004815293590429494,
      "loss": 5.0953,
      "mean_token_accuracy": 0.20399677157402038,
      "num_tokens": 32986497.0,
      "step": 14390
    },
    {
      "entropy": 5.126517963409424,
      "epoch": 1.382804995196926,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00048151575318203417,
      "loss": 4.8398,
      "mean_token_accuracy": 0.2227206841111183,
      "num_tokens": 32998298.0,
      "step": 14395
    },
    {
      "entropy": 5.315741157531738,
      "epoch": 1.38328530259366,
      "grad_norm": 1.109375,
      "learning_rate": 0.00048150214252643637,
      "loss": 5.0991,
      "mean_token_accuracy": 0.20775451213121415,
      "num_tokens": 33010943.0,
      "step": 14400
    },
    {
      "entropy": 5.2394379615783695,
      "epoch": 1.3837656099903939,
      "grad_norm": 1.265625,
      "learning_rate": 0.000481488527076472,
      "loss": 5.0057,
      "mean_token_accuracy": 0.2137501820921898,
      "num_tokens": 33022139.0,
      "step": 14405
    },
    {
      "entropy": 5.229398345947265,
      "epoch": 1.3842459173871278,
      "grad_norm": 1.5,
      "learning_rate": 0.0004814749068324571,
      "loss": 5.0743,
      "mean_token_accuracy": 0.208684541285038,
      "num_tokens": 33034653.0,
      "step": 14410
    },
    {
      "entropy": 5.133923292160034,
      "epoch": 1.3847262247838616,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00048146128179470804,
      "loss": 4.7775,
      "mean_token_accuracy": 0.2346142292022705,
      "num_tokens": 33044339.0,
      "step": 14415
    },
    {
      "entropy": 5.1511882781982425,
      "epoch": 1.3852065321805955,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004814476519635411,
      "loss": 4.9889,
      "mean_token_accuracy": 0.21854183077812195,
      "num_tokens": 33055418.0,
      "step": 14420
    },
    {
      "entropy": 5.2140251159667965,
      "epoch": 1.3856868395773294,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00048143401733927274,
      "loss": 5.0771,
      "mean_token_accuracy": 0.21263548582792283,
      "num_tokens": 33067239.0,
      "step": 14425
    },
    {
      "entropy": 5.169557380676269,
      "epoch": 1.3861671469740635,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00048142037792221943,
      "loss": 4.8765,
      "mean_token_accuracy": 0.22270715832710267,
      "num_tokens": 33079101.0,
      "step": 14430
    },
    {
      "entropy": 5.172262811660767,
      "epoch": 1.3866474543707974,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004814067337126978,
      "loss": 4.9711,
      "mean_token_accuracy": 0.21912187784910203,
      "num_tokens": 33090265.0,
      "step": 14435
    },
    {
      "entropy": 5.1767114162445065,
      "epoch": 1.3871277617675313,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004813930847110248,
      "loss": 4.9278,
      "mean_token_accuracy": 0.22050705552101135,
      "num_tokens": 33101724.0,
      "step": 14440
    },
    {
      "entropy": 5.140494298934937,
      "epoch": 1.3876080691642652,
      "grad_norm": 1.25,
      "learning_rate": 0.0004813794309175173,
      "loss": 4.9003,
      "mean_token_accuracy": 0.2202922970056534,
      "num_tokens": 33113111.0,
      "step": 14445
    },
    {
      "entropy": 5.224148082733154,
      "epoch": 1.388088376560999,
      "grad_norm": 1.15625,
      "learning_rate": 0.00048136577233249205,
      "loss": 5.0668,
      "mean_token_accuracy": 0.20422582030296327,
      "num_tokens": 33123925.0,
      "step": 14450
    },
    {
      "entropy": 5.21802864074707,
      "epoch": 1.388568683957733,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004813521089562666,
      "loss": 5.0279,
      "mean_token_accuracy": 0.2057347998023033,
      "num_tokens": 33137400.0,
      "step": 14455
    },
    {
      "entropy": 5.1206972122192385,
      "epoch": 1.3890489913544668,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004813384407891577,
      "loss": 4.8598,
      "mean_token_accuracy": 0.225153611600399,
      "num_tokens": 33149326.0,
      "step": 14460
    },
    {
      "entropy": 5.25689435005188,
      "epoch": 1.3895292987512007,
      "grad_norm": 1.2578125,
      "learning_rate": 0.000481324767831483,
      "loss": 5.0631,
      "mean_token_accuracy": 0.20121145844459534,
      "num_tokens": 33159904.0,
      "step": 14465
    },
    {
      "entropy": 5.1242194175720215,
      "epoch": 1.3900096061479346,
      "grad_norm": 1.125,
      "learning_rate": 0.0004813110900835598,
      "loss": 4.9674,
      "mean_token_accuracy": 0.21700112670660018,
      "num_tokens": 33171701.0,
      "step": 14470
    },
    {
      "entropy": 5.188337993621826,
      "epoch": 1.3904899135446687,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004812974075457058,
      "loss": 4.8593,
      "mean_token_accuracy": 0.21914471834897994,
      "num_tokens": 33181598.0,
      "step": 14475
    },
    {
      "entropy": 5.158151054382325,
      "epoch": 1.3909702209414025,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00048128372021823845,
      "loss": 4.9018,
      "mean_token_accuracy": 0.2141671285033226,
      "num_tokens": 33192674.0,
      "step": 14480
    },
    {
      "entropy": 5.147328567504883,
      "epoch": 1.3914505283381364,
      "grad_norm": 1.234375,
      "learning_rate": 0.00048127002810147574,
      "loss": 4.9428,
      "mean_token_accuracy": 0.21623384952545166,
      "num_tokens": 33203356.0,
      "step": 14485
    },
    {
      "entropy": 5.203651762008667,
      "epoch": 1.3919308357348703,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004812563311957355,
      "loss": 5.0018,
      "mean_token_accuracy": 0.20919703990221022,
      "num_tokens": 33215471.0,
      "step": 14490
    },
    {
      "entropy": 5.1700574398040775,
      "epoch": 1.3924111431316042,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004812426295013356,
      "loss": 4.9644,
      "mean_token_accuracy": 0.2118792712688446,
      "num_tokens": 33227656.0,
      "step": 14495
    },
    {
      "entropy": 5.211377429962158,
      "epoch": 1.392891450528338,
      "grad_norm": 1.265625,
      "learning_rate": 0.00048122892301859433,
      "loss": 5.0935,
      "mean_token_accuracy": 0.2065966710448265,
      "num_tokens": 33239752.0,
      "step": 14500
    },
    {
      "entropy": 5.261070919036865,
      "epoch": 1.3933717579250722,
      "grad_norm": 1.3125,
      "learning_rate": 0.00048121521174782983,
      "loss": 5.024,
      "mean_token_accuracy": 0.20616735219955445,
      "num_tokens": 33251352.0,
      "step": 14505
    },
    {
      "entropy": 5.210687255859375,
      "epoch": 1.393852065321806,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00048120149568936044,
      "loss": 5.0163,
      "mean_token_accuracy": 0.210965596139431,
      "num_tokens": 33262276.0,
      "step": 14510
    },
    {
      "entropy": 5.234826755523682,
      "epoch": 1.39433237271854,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004811877748435046,
      "loss": 5.0574,
      "mean_token_accuracy": 0.20583246052265167,
      "num_tokens": 33273615.0,
      "step": 14515
    },
    {
      "entropy": 5.220763158798218,
      "epoch": 1.3948126801152738,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004811740492105809,
      "loss": 4.9741,
      "mean_token_accuracy": 0.2154085621237755,
      "num_tokens": 33283990.0,
      "step": 14520
    },
    {
      "entropy": 5.14139952659607,
      "epoch": 1.3952929875120077,
      "grad_norm": 1.2890625,
      "learning_rate": 0.000481160318790908,
      "loss": 4.9668,
      "mean_token_accuracy": 0.21832637190818788,
      "num_tokens": 33295472.0,
      "step": 14525
    },
    {
      "entropy": 5.236377191543579,
      "epoch": 1.3957732949087416,
      "grad_norm": 1.3125,
      "learning_rate": 0.00048114658358480467,
      "loss": 5.028,
      "mean_token_accuracy": 0.21142471432685853,
      "num_tokens": 33306742.0,
      "step": 14530
    },
    {
      "entropy": 5.2647254943847654,
      "epoch": 1.3962536023054755,
      "grad_norm": 1.28125,
      "learning_rate": 0.00048113284359258977,
      "loss": 5.0231,
      "mean_token_accuracy": 0.20946406126022338,
      "num_tokens": 33317737.0,
      "step": 14535
    },
    {
      "entropy": 5.16503872871399,
      "epoch": 1.3967339097022093,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00048111909881458234,
      "loss": 5.0284,
      "mean_token_accuracy": 0.20923743396997452,
      "num_tokens": 33329673.0,
      "step": 14540
    },
    {
      "entropy": 5.086363649368286,
      "epoch": 1.3972142170989432,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00048110534925110146,
      "loss": 4.8421,
      "mean_token_accuracy": 0.2240893319249153,
      "num_tokens": 33342047.0,
      "step": 14545
    },
    {
      "entropy": 5.161404705047607,
      "epoch": 1.397694524495677,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004810915949024664,
      "loss": 4.9326,
      "mean_token_accuracy": 0.21960555166006088,
      "num_tokens": 33353287.0,
      "step": 14550
    },
    {
      "entropy": 5.251311635971069,
      "epoch": 1.3981748318924112,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004810778357689965,
      "loss": 5.0174,
      "mean_token_accuracy": 0.21918236762285231,
      "num_tokens": 33365465.0,
      "step": 14555
    },
    {
      "entropy": 5.1449960231781,
      "epoch": 1.398655139289145,
      "grad_norm": 1.21875,
      "learning_rate": 0.00048106407185101116,
      "loss": 4.9636,
      "mean_token_accuracy": 0.21153138428926468,
      "num_tokens": 33376680.0,
      "step": 14560
    },
    {
      "entropy": 5.135947895050049,
      "epoch": 1.399135446685879,
      "grad_norm": 1.171875,
      "learning_rate": 0.00048105030314883,
      "loss": 4.9717,
      "mean_token_accuracy": 0.21088991016149522,
      "num_tokens": 33387995.0,
      "step": 14565
    },
    {
      "entropy": 5.18218960762024,
      "epoch": 1.3996157540826129,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004810365296627725,
      "loss": 4.9477,
      "mean_token_accuracy": 0.21563183516263962,
      "num_tokens": 33400455.0,
      "step": 14570
    },
    {
      "entropy": 5.21840271949768,
      "epoch": 1.4000960614793467,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004810227513931587,
      "loss": 4.9926,
      "mean_token_accuracy": 0.20900965332984925,
      "num_tokens": 33413264.0,
      "step": 14575
    },
    {
      "entropy": 5.157942056655884,
      "epoch": 1.4005763688760806,
      "grad_norm": 1.25,
      "learning_rate": 0.0004810089683403084,
      "loss": 4.8773,
      "mean_token_accuracy": 0.224508535861969,
      "num_tokens": 33423516.0,
      "step": 14580
    },
    {
      "entropy": 5.199560356140137,
      "epoch": 1.4010566762728147,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004809951805045415,
      "loss": 5.0182,
      "mean_token_accuracy": 0.21045213490724562,
      "num_tokens": 33434952.0,
      "step": 14585
    },
    {
      "entropy": 5.167169284820557,
      "epoch": 1.4015369836695486,
      "grad_norm": 1.234375,
      "learning_rate": 0.00048098138788617815,
      "loss": 4.9808,
      "mean_token_accuracy": 0.20959090143442155,
      "num_tokens": 33447025.0,
      "step": 14590
    },
    {
      "entropy": 5.233838939666748,
      "epoch": 1.4020172910662825,
      "grad_norm": 1.125,
      "learning_rate": 0.0004809675904855387,
      "loss": 4.9454,
      "mean_token_accuracy": 0.21511317044496536,
      "num_tokens": 33459990.0,
      "step": 14595
    },
    {
      "entropy": 5.194369840621948,
      "epoch": 1.4024975984630164,
      "grad_norm": 1.1875,
      "learning_rate": 0.00048095378830294343,
      "loss": 4.92,
      "mean_token_accuracy": 0.21844571679830552,
      "num_tokens": 33471334.0,
      "step": 14600
    },
    {
      "entropy": 5.197934675216675,
      "epoch": 1.4029779058597502,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00048093998133871276,
      "loss": 5.0333,
      "mean_token_accuracy": 0.21131069511175155,
      "num_tokens": 33483744.0,
      "step": 14605
    },
    {
      "entropy": 5.198799562454224,
      "epoch": 1.4034582132564841,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004809261695931671,
      "loss": 5.0426,
      "mean_token_accuracy": 0.21084193140268326,
      "num_tokens": 33496532.0,
      "step": 14610
    },
    {
      "entropy": 5.159095096588135,
      "epoch": 1.403938520653218,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004809123530666273,
      "loss": 4.9746,
      "mean_token_accuracy": 0.21460918039083482,
      "num_tokens": 33507545.0,
      "step": 14615
    },
    {
      "entropy": 5.24304347038269,
      "epoch": 1.4044188280499519,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004808985317594142,
      "loss": 4.9747,
      "mean_token_accuracy": 0.21796323955059052,
      "num_tokens": 33519232.0,
      "step": 14620
    },
    {
      "entropy": 5.157637119293213,
      "epoch": 1.4048991354466858,
      "grad_norm": 1.390625,
      "learning_rate": 0.00048088470567184854,
      "loss": 4.9454,
      "mean_token_accuracy": 0.2096275046467781,
      "num_tokens": 33531088.0,
      "step": 14625
    },
    {
      "entropy": 5.225188112258911,
      "epoch": 1.4053794428434199,
      "grad_norm": 1.296875,
      "learning_rate": 0.00048087087480425133,
      "loss": 5.0125,
      "mean_token_accuracy": 0.2120126485824585,
      "num_tokens": 33543991.0,
      "step": 14630
    },
    {
      "entropy": 5.237149286270141,
      "epoch": 1.4058597502401537,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004808570391569437,
      "loss": 5.0633,
      "mean_token_accuracy": 0.20491664558649064,
      "num_tokens": 33555303.0,
      "step": 14635
    },
    {
      "entropy": 5.264308309555053,
      "epoch": 1.4063400576368876,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00048084319873024694,
      "loss": 5.0398,
      "mean_token_accuracy": 0.2091526836156845,
      "num_tokens": 33565587.0,
      "step": 14640
    },
    {
      "entropy": 5.181278657913208,
      "epoch": 1.4068203650336215,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004808293535244823,
      "loss": 4.9055,
      "mean_token_accuracy": 0.21529979556798934,
      "num_tokens": 33576874.0,
      "step": 14645
    },
    {
      "entropy": 5.14690670967102,
      "epoch": 1.4073006724303554,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004808155035399712,
      "loss": 4.9121,
      "mean_token_accuracy": 0.22220734357833863,
      "num_tokens": 33587703.0,
      "step": 14650
    },
    {
      "entropy": 5.13805742263794,
      "epoch": 1.4077809798270893,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004808016487770354,
      "loss": 4.8853,
      "mean_token_accuracy": 0.22091327458620072,
      "num_tokens": 33598487.0,
      "step": 14655
    },
    {
      "entropy": 5.156050348281861,
      "epoch": 1.4082612872238234,
      "grad_norm": 1.265625,
      "learning_rate": 0.00048078778923599637,
      "loss": 5.0117,
      "mean_token_accuracy": 0.20967613756656647,
      "num_tokens": 33610838.0,
      "step": 14660
    },
    {
      "entropy": 5.176731777191162,
      "epoch": 1.4087415946205573,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00048077392491717593,
      "loss": 4.958,
      "mean_token_accuracy": 0.21370896100997924,
      "num_tokens": 33622726.0,
      "step": 14665
    },
    {
      "entropy": 5.12830867767334,
      "epoch": 1.4092219020172911,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00048076005582089597,
      "loss": 4.935,
      "mean_token_accuracy": 0.21416952610015869,
      "num_tokens": 33635922.0,
      "step": 14670
    },
    {
      "entropy": 5.317528486251831,
      "epoch": 1.409702209414025,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00048074618194747845,
      "loss": 5.1027,
      "mean_token_accuracy": 0.20418261289596557,
      "num_tokens": 33648486.0,
      "step": 14675
    },
    {
      "entropy": 5.2534605979919435,
      "epoch": 1.410182516810759,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004807323032972456,
      "loss": 4.9975,
      "mean_token_accuracy": 0.21309973299503326,
      "num_tokens": 33659812.0,
      "step": 14680
    },
    {
      "entropy": 5.222612524032593,
      "epoch": 1.4106628242074928,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004807184198705196,
      "loss": 4.9752,
      "mean_token_accuracy": 0.21646286994218827,
      "num_tokens": 33671878.0,
      "step": 14685
    },
    {
      "entropy": 5.133413934707642,
      "epoch": 1.4111431316042267,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004807045316676226,
      "loss": 4.8809,
      "mean_token_accuracy": 0.21957986503839494,
      "num_tokens": 33683759.0,
      "step": 14690
    },
    {
      "entropy": 5.253868293762207,
      "epoch": 1.4116234390009605,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004806906386888773,
      "loss": 5.0728,
      "mean_token_accuracy": 0.2058554098010063,
      "num_tokens": 33694085.0,
      "step": 14695
    },
    {
      "entropy": 5.213767671585083,
      "epoch": 1.4121037463976944,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00048067674093460607,
      "loss": 4.9295,
      "mean_token_accuracy": 0.21423121094703673,
      "num_tokens": 33705810.0,
      "step": 14700
    },
    {
      "entropy": 5.210308361053467,
      "epoch": 1.4125840537944283,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00048066283840513175,
      "loss": 5.0187,
      "mean_token_accuracy": 0.21089961528778076,
      "num_tokens": 33716798.0,
      "step": 14705
    },
    {
      "entropy": 5.149886178970337,
      "epoch": 1.4130643611911624,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004806489311007769,
      "loss": 4.9737,
      "mean_token_accuracy": 0.22218613475561141,
      "num_tokens": 33728515.0,
      "step": 14710
    },
    {
      "entropy": 5.183704948425293,
      "epoch": 1.4135446685878963,
      "grad_norm": 1.078125,
      "learning_rate": 0.00048063501902186463,
      "loss": 4.9941,
      "mean_token_accuracy": 0.21435530483722687,
      "num_tokens": 33740684.0,
      "step": 14715
    },
    {
      "entropy": 5.210676050186157,
      "epoch": 1.4140249759846302,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00048062110216871775,
      "loss": 4.9772,
      "mean_token_accuracy": 0.2168477714061737,
      "num_tokens": 33753017.0,
      "step": 14720
    },
    {
      "entropy": 5.175452709197998,
      "epoch": 1.414505283381364,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00048060718054165945,
      "loss": 4.9873,
      "mean_token_accuracy": 0.21028392165899276,
      "num_tokens": 33764393.0,
      "step": 14725
    },
    {
      "entropy": 5.235194349288941,
      "epoch": 1.414985590778098,
      "grad_norm": 1.3046875,
      "learning_rate": 0.000480593254141013,
      "loss": 5.0995,
      "mean_token_accuracy": 0.2018577605485916,
      "num_tokens": 33774941.0,
      "step": 14730
    },
    {
      "entropy": 5.101527976989746,
      "epoch": 1.4154658981748318,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00048057932296710165,
      "loss": 4.8514,
      "mean_token_accuracy": 0.22604466378688812,
      "num_tokens": 33786534.0,
      "step": 14735
    },
    {
      "entropy": 5.284107494354248,
      "epoch": 1.415946205571566,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004805653870202489,
      "loss": 5.1043,
      "mean_token_accuracy": 0.2047765925526619,
      "num_tokens": 33798339.0,
      "step": 14740
    },
    {
      "entropy": 5.283356618881226,
      "epoch": 1.4164265129682998,
      "grad_norm": 1.34375,
      "learning_rate": 0.00048055144630077825,
      "loss": 5.1154,
      "mean_token_accuracy": 0.2043526902794838,
      "num_tokens": 33810368.0,
      "step": 14745
    },
    {
      "entropy": 5.194024896621704,
      "epoch": 1.4169068203650337,
      "grad_norm": 1.34375,
      "learning_rate": 0.00048053750080901336,
      "loss": 4.9659,
      "mean_token_accuracy": 0.2081344470381737,
      "num_tokens": 33821111.0,
      "step": 14750
    },
    {
      "entropy": 5.111878871917725,
      "epoch": 1.4173871277617676,
      "grad_norm": 1.15625,
      "learning_rate": 0.00048052355054527794,
      "loss": 4.9638,
      "mean_token_accuracy": 0.21788180470466614,
      "num_tokens": 33833629.0,
      "step": 14755
    },
    {
      "entropy": 5.268445110321045,
      "epoch": 1.4178674351585014,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00048050959550989606,
      "loss": 5.063,
      "mean_token_accuracy": 0.20761503428220748,
      "num_tokens": 33846531.0,
      "step": 14760
    },
    {
      "entropy": 5.145606899261475,
      "epoch": 1.4183477425552353,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004804956357031916,
      "loss": 4.9377,
      "mean_token_accuracy": 0.21531563848257065,
      "num_tokens": 33857251.0,
      "step": 14765
    },
    {
      "entropy": 5.137730884552002,
      "epoch": 1.4188280499519692,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00048048167112548873,
      "loss": 4.9639,
      "mean_token_accuracy": 0.21248998492956161,
      "num_tokens": 33869314.0,
      "step": 14770
    },
    {
      "entropy": 5.285694265365601,
      "epoch": 1.419308357348703,
      "grad_norm": 1.25,
      "learning_rate": 0.00048046770177711157,
      "loss": 5.0916,
      "mean_token_accuracy": 0.2074048936367035,
      "num_tokens": 33880203.0,
      "step": 14775
    },
    {
      "entropy": 5.2045482158660885,
      "epoch": 1.419788664745437,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004804537276583844,
      "loss": 4.9006,
      "mean_token_accuracy": 0.2209893763065338,
      "num_tokens": 33891379.0,
      "step": 14780
    },
    {
      "entropy": 5.149256420135498,
      "epoch": 1.420268972142171,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004804397487696319,
      "loss": 4.9435,
      "mean_token_accuracy": 0.21625811159610747,
      "num_tokens": 33902788.0,
      "step": 14785
    },
    {
      "entropy": 5.160754537582397,
      "epoch": 1.420749279538905,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004804257651111783,
      "loss": 4.9719,
      "mean_token_accuracy": 0.21887465864419936,
      "num_tokens": 33913609.0,
      "step": 14790
    },
    {
      "entropy": 5.174741888046265,
      "epoch": 1.4212295869356388,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00048041177668334853,
      "loss": 4.8739,
      "mean_token_accuracy": 0.21784851402044297,
      "num_tokens": 33924379.0,
      "step": 14795
    },
    {
      "entropy": 5.137226343154907,
      "epoch": 1.4217098943323727,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004803977834864672,
      "loss": 5.009,
      "mean_token_accuracy": 0.20945742577314377,
      "num_tokens": 33936209.0,
      "step": 14800
    },
    {
      "entropy": 5.228136348724365,
      "epoch": 1.4221902017291066,
      "grad_norm": 1.28125,
      "learning_rate": 0.00048038378552085927,
      "loss": 4.9569,
      "mean_token_accuracy": 0.2131284847855568,
      "num_tokens": 33947679.0,
      "step": 14805
    },
    {
      "entropy": 5.164991664886474,
      "epoch": 1.4226705091258405,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00048036978278684974,
      "loss": 4.9628,
      "mean_token_accuracy": 0.2154536247253418,
      "num_tokens": 33959474.0,
      "step": 14810
    },
    {
      "entropy": 5.293703842163086,
      "epoch": 1.4231508165225746,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004803557752847636,
      "loss": 5.1033,
      "mean_token_accuracy": 0.20608988404273987,
      "num_tokens": 33970831.0,
      "step": 14815
    },
    {
      "entropy": 5.348191404342652,
      "epoch": 1.4236311239193085,
      "grad_norm": 1.25,
      "learning_rate": 0.00048034176301492616,
      "loss": 5.0618,
      "mean_token_accuracy": 0.2066340461373329,
      "num_tokens": 33981765.0,
      "step": 14820
    },
    {
      "entropy": 5.168016386032105,
      "epoch": 1.4241114313160423,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004803277459776628,
      "loss": 4.9541,
      "mean_token_accuracy": 0.21502473205327988,
      "num_tokens": 33992435.0,
      "step": 14825
    },
    {
      "entropy": 5.09135160446167,
      "epoch": 1.4245917387127762,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00048031372417329875,
      "loss": 4.9171,
      "mean_token_accuracy": 0.22110578566789627,
      "num_tokens": 34004570.0,
      "step": 14830
    },
    {
      "entropy": 5.189966630935669,
      "epoch": 1.42507204610951,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004802996976021598,
      "loss": 4.9145,
      "mean_token_accuracy": 0.22021586894989015,
      "num_tokens": 34015494.0,
      "step": 14835
    },
    {
      "entropy": 5.226748323440551,
      "epoch": 1.425552353506244,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00048028566626457145,
      "loss": 4.9932,
      "mean_token_accuracy": 0.20883565545082092,
      "num_tokens": 34026684.0,
      "step": 14840
    },
    {
      "entropy": 5.173442220687866,
      "epoch": 1.4260326609029779,
      "grad_norm": 1.171875,
      "learning_rate": 0.00048027163016085947,
      "loss": 4.9726,
      "mean_token_accuracy": 0.21021606177091598,
      "num_tokens": 34038948.0,
      "step": 14845
    },
    {
      "entropy": 5.259505367279052,
      "epoch": 1.4265129682997117,
      "grad_norm": 1.328125,
      "learning_rate": 0.00048025758929134976,
      "loss": 5.1272,
      "mean_token_accuracy": 0.20375512093305587,
      "num_tokens": 34052216.0,
      "step": 14850
    },
    {
      "entropy": 5.240663814544678,
      "epoch": 1.4269932756964456,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004802435436563684,
      "loss": 4.9785,
      "mean_token_accuracy": 0.22330356240272523,
      "num_tokens": 34062602.0,
      "step": 14855
    },
    {
      "entropy": 5.1824178218841555,
      "epoch": 1.4274735830931795,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00048022949325624134,
      "loss": 4.9436,
      "mean_token_accuracy": 0.21629261821508408,
      "num_tokens": 34075049.0,
      "step": 14860
    },
    {
      "entropy": 5.177359342575073,
      "epoch": 1.4279538904899136,
      "grad_norm": 1.40625,
      "learning_rate": 0.00048021543809129483,
      "loss": 5.0492,
      "mean_token_accuracy": 0.20940061509609223,
      "num_tokens": 34086719.0,
      "step": 14865
    },
    {
      "entropy": 5.237700700759888,
      "epoch": 1.4284341978866475,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004802013781618552,
      "loss": 4.9707,
      "mean_token_accuracy": 0.21425776779651642,
      "num_tokens": 34098439.0,
      "step": 14870
    },
    {
      "entropy": 5.309500598907471,
      "epoch": 1.4289145052833814,
      "grad_norm": 1.328125,
      "learning_rate": 0.00048018731346824895,
      "loss": 4.9895,
      "mean_token_accuracy": 0.21168100982904434,
      "num_tokens": 34110711.0,
      "step": 14875
    },
    {
      "entropy": 5.141423988342285,
      "epoch": 1.4293948126801153,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004801732440108026,
      "loss": 4.9326,
      "mean_token_accuracy": 0.21338745206594467,
      "num_tokens": 34122191.0,
      "step": 14880
    },
    {
      "entropy": 5.094103765487671,
      "epoch": 1.4298751200768491,
      "grad_norm": 2.46875,
      "learning_rate": 0.0004801591697898427,
      "loss": 4.8899,
      "mean_token_accuracy": 0.21937906593084336,
      "num_tokens": 34132838.0,
      "step": 14885
    },
    {
      "entropy": 5.210858488082886,
      "epoch": 1.430355427473583,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004801450908056961,
      "loss": 5.0114,
      "mean_token_accuracy": 0.20959677100181578,
      "num_tokens": 34143394.0,
      "step": 14890
    },
    {
      "entropy": 5.3004334449768065,
      "epoch": 1.4308357348703171,
      "grad_norm": 1.5,
      "learning_rate": 0.0004801310070586896,
      "loss": 5.0731,
      "mean_token_accuracy": 0.20850346684455873,
      "num_tokens": 34155934.0,
      "step": 14895
    },
    {
      "entropy": 5.077618026733399,
      "epoch": 1.431316042267051,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004801169185491503,
      "loss": 4.8665,
      "mean_token_accuracy": 0.22559798061847686,
      "num_tokens": 34167949.0,
      "step": 14900
    },
    {
      "entropy": 5.2307600498199465,
      "epoch": 1.4317963496637849,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00048010282527740516,
      "loss": 5.1348,
      "mean_token_accuracy": 0.20259464681148528,
      "num_tokens": 34179733.0,
      "step": 14905
    },
    {
      "entropy": 5.207586050033569,
      "epoch": 1.4322766570605188,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00048008872724378146,
      "loss": 4.9037,
      "mean_token_accuracy": 0.2150167018175125,
      "num_tokens": 34190513.0,
      "step": 14910
    },
    {
      "entropy": 5.152509164810181,
      "epoch": 1.4327569644572526,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004800746244486065,
      "loss": 4.9531,
      "mean_token_accuracy": 0.21709322184324265,
      "num_tokens": 34201562.0,
      "step": 14915
    },
    {
      "entropy": 5.062794637680054,
      "epoch": 1.4332372718539865,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004800605168922077,
      "loss": 4.9106,
      "mean_token_accuracy": 0.21840206682682037,
      "num_tokens": 34212637.0,
      "step": 14920
    },
    {
      "entropy": 5.150622749328614,
      "epoch": 1.4337175792507204,
      "grad_norm": 1.21875,
      "learning_rate": 0.00048004640457491267,
      "loss": 4.9488,
      "mean_token_accuracy": 0.21455983370542525,
      "num_tokens": 34225394.0,
      "step": 14925
    },
    {
      "entropy": 5.278602600097656,
      "epoch": 1.4341978866474543,
      "grad_norm": 1.3046875,
      "learning_rate": 0.000480032287497049,
      "loss": 4.9471,
      "mean_token_accuracy": 0.2104356735944748,
      "num_tokens": 34236977.0,
      "step": 14930
    },
    {
      "entropy": 5.212551403045654,
      "epoch": 1.4346781940441882,
      "grad_norm": 1.21875,
      "learning_rate": 0.00048001816565894427,
      "loss": 5.048,
      "mean_token_accuracy": 0.21722146570682527,
      "num_tokens": 34247486.0,
      "step": 14935
    },
    {
      "entropy": 5.173838663101196,
      "epoch": 1.435158501440922,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004800040390609267,
      "loss": 4.9366,
      "mean_token_accuracy": 0.22200540751218795,
      "num_tokens": 34259404.0,
      "step": 14940
    },
    {
      "entropy": 5.181051015853882,
      "epoch": 1.4356388088376562,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00047998990770332396,
      "loss": 4.933,
      "mean_token_accuracy": 0.22339427024126052,
      "num_tokens": 34270388.0,
      "step": 14945
    },
    {
      "entropy": 5.264690160751343,
      "epoch": 1.43611911623439,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004799757715864643,
      "loss": 4.9981,
      "mean_token_accuracy": 0.21528103947639465,
      "num_tokens": 34281321.0,
      "step": 14950
    },
    {
      "entropy": 5.287259483337403,
      "epoch": 1.436599423631124,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004799616307106759,
      "loss": 5.0543,
      "mean_token_accuracy": 0.20392760783433914,
      "num_tokens": 34293177.0,
      "step": 14955
    },
    {
      "entropy": 5.23415994644165,
      "epoch": 1.4370797310278578,
      "grad_norm": 1.3125,
      "learning_rate": 0.000479947485076287,
      "loss": 5.0558,
      "mean_token_accuracy": 0.21059397161006926,
      "num_tokens": 34305175.0,
      "step": 14960
    },
    {
      "entropy": 5.194935846328735,
      "epoch": 1.4375600384245917,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00047993333468362607,
      "loss": 5.0247,
      "mean_token_accuracy": 0.20465970337390899,
      "num_tokens": 34317969.0,
      "step": 14965
    },
    {
      "entropy": 5.307715892791748,
      "epoch": 1.4380403458213258,
      "grad_norm": 1.15625,
      "learning_rate": 0.00047991917953302173,
      "loss": 5.0479,
      "mean_token_accuracy": 0.20630020052194595,
      "num_tokens": 34329913.0,
      "step": 14970
    },
    {
      "entropy": 5.25423846244812,
      "epoch": 1.4385206532180597,
      "grad_norm": 1.28125,
      "learning_rate": 0.00047990501962480236,
      "loss": 4.9951,
      "mean_token_accuracy": 0.2149421378970146,
      "num_tokens": 34341656.0,
      "step": 14975
    },
    {
      "entropy": 5.171209383010864,
      "epoch": 1.4390009606147935,
      "grad_norm": 1.3046875,
      "learning_rate": 0.000479890854959297,
      "loss": 4.9685,
      "mean_token_accuracy": 0.21098122894763946,
      "num_tokens": 34351767.0,
      "step": 14980
    },
    {
      "entropy": 5.176991987228393,
      "epoch": 1.4394812680115274,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004798766855368344,
      "loss": 4.9592,
      "mean_token_accuracy": 0.2132784456014633,
      "num_tokens": 34363437.0,
      "step": 14985
    },
    {
      "entropy": 5.265459060668945,
      "epoch": 1.4399615754082613,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00047986251135774343,
      "loss": 5.0465,
      "mean_token_accuracy": 0.2133356049656868,
      "num_tokens": 34374991.0,
      "step": 14990
    },
    {
      "entropy": 5.162412214279175,
      "epoch": 1.4404418828049952,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004798483324223533,
      "loss": 4.9692,
      "mean_token_accuracy": 0.21427072286605836,
      "num_tokens": 34386218.0,
      "step": 14995
    },
    {
      "entropy": 5.246811056137085,
      "epoch": 1.440922190201729,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004798341487309932,
      "loss": 5.0105,
      "mean_token_accuracy": 0.2116893395781517,
      "num_tokens": 34396287.0,
      "step": 15000
    },
    {
      "epoch": 1.440922190201729,
      "eval_entropy": 5.037319316682671,
      "eval_loss": 5.06929874420166,
      "eval_mean_token_accuracy": 0.21831489476792584,
      "eval_num_tokens": 34396287.0,
      "eval_runtime": 26.5223,
      "eval_samples_per_second": 1237.261,
      "eval_steps_per_second": 154.662,
      "step": 15000
    },
    {
      "entropy": 5.250750732421875,
      "epoch": 1.441402497598463,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00047981996028399233,
      "loss": 5.0093,
      "mean_token_accuracy": 0.20998309999704362,
      "num_tokens": 34407251.0,
      "step": 15005
    },
    {
      "entropy": 5.326452255249023,
      "epoch": 1.4418828049951968,
      "grad_norm": 1.375,
      "learning_rate": 0.0004798057670816802,
      "loss": 5.1435,
      "mean_token_accuracy": 0.20517653226852417,
      "num_tokens": 34419185.0,
      "step": 15010
    },
    {
      "entropy": 5.208475351333618,
      "epoch": 1.4423631123919307,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004797915691243863,
      "loss": 4.9709,
      "mean_token_accuracy": 0.21588644683361052,
      "num_tokens": 34431159.0,
      "step": 15015
    },
    {
      "entropy": 5.154812479019165,
      "epoch": 1.4428434197886648,
      "grad_norm": 1.25,
      "learning_rate": 0.0004797773664124403,
      "loss": 4.9572,
      "mean_token_accuracy": 0.21588555574417115,
      "num_tokens": 34442614.0,
      "step": 15020
    },
    {
      "entropy": 5.13772292137146,
      "epoch": 1.4433237271853987,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00047976315894617195,
      "loss": 4.9335,
      "mean_token_accuracy": 0.21881027668714523,
      "num_tokens": 34453984.0,
      "step": 15025
    },
    {
      "entropy": 5.1489208221435545,
      "epoch": 1.4438040345821326,
      "grad_norm": 1.2265625,
      "learning_rate": 0.000479748946725911,
      "loss": 4.9391,
      "mean_token_accuracy": 0.21688321828842164,
      "num_tokens": 34466296.0,
      "step": 15030
    },
    {
      "entropy": 5.300703620910644,
      "epoch": 1.4442843419788665,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004797347297519875,
      "loss": 5.1447,
      "mean_token_accuracy": 0.20751263648271562,
      "num_tokens": 34478088.0,
      "step": 15035
    },
    {
      "entropy": 5.195109748840332,
      "epoch": 1.4447646493756003,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00047972050802473154,
      "loss": 5.047,
      "mean_token_accuracy": 0.20686309933662414,
      "num_tokens": 34491664.0,
      "step": 15040
    },
    {
      "entropy": 5.13297290802002,
      "epoch": 1.4452449567723342,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004797062815444733,
      "loss": 4.9291,
      "mean_token_accuracy": 0.21764905750751495,
      "num_tokens": 34502977.0,
      "step": 15045
    },
    {
      "entropy": 5.207884359359741,
      "epoch": 1.4457252641690683,
      "grad_norm": 1.359375,
      "learning_rate": 0.000479692050311543,
      "loss": 4.8953,
      "mean_token_accuracy": 0.2181214064359665,
      "num_tokens": 34515067.0,
      "step": 15050
    },
    {
      "entropy": 5.223143815994263,
      "epoch": 1.4462055715658022,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004796778143262711,
      "loss": 5.0498,
      "mean_token_accuracy": 0.2105468362569809,
      "num_tokens": 34525012.0,
      "step": 15055
    },
    {
      "entropy": 5.092001056671142,
      "epoch": 1.446685878962536,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004796635735889882,
      "loss": 4.8538,
      "mean_token_accuracy": 0.22900600135326385,
      "num_tokens": 34535789.0,
      "step": 15060
    },
    {
      "entropy": 5.198391342163086,
      "epoch": 1.44716618635927,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00047964932810002476,
      "loss": 4.9676,
      "mean_token_accuracy": 0.21989088952541352,
      "num_tokens": 34546276.0,
      "step": 15065
    },
    {
      "entropy": 5.198813486099243,
      "epoch": 1.4476464937560038,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004796350778597117,
      "loss": 4.9705,
      "mean_token_accuracy": 0.21042503118515016,
      "num_tokens": 34558361.0,
      "step": 15070
    },
    {
      "entropy": 5.154997491836548,
      "epoch": 1.4481268011527377,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004796208228683796,
      "loss": 4.9392,
      "mean_token_accuracy": 0.21781230419874192,
      "num_tokens": 34569482.0,
      "step": 15075
    },
    {
      "entropy": 5.262822818756104,
      "epoch": 1.4486071085494716,
      "grad_norm": 1.234375,
      "learning_rate": 0.00047960656312635977,
      "loss": 5.0336,
      "mean_token_accuracy": 0.2166367918252945,
      "num_tokens": 34580128.0,
      "step": 15080
    },
    {
      "entropy": 5.16861662864685,
      "epoch": 1.4490874159462055,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004795922986339831,
      "loss": 4.9457,
      "mean_token_accuracy": 0.21179744154214858,
      "num_tokens": 34591105.0,
      "step": 15085
    },
    {
      "entropy": 5.203324699401856,
      "epoch": 1.4495677233429394,
      "grad_norm": 1.140625,
      "learning_rate": 0.00047957802939158057,
      "loss": 4.9878,
      "mean_token_accuracy": 0.21329084187746047,
      "num_tokens": 34602618.0,
      "step": 15090
    },
    {
      "entropy": 5.227561187744141,
      "epoch": 1.4500480307396733,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004795637553994838,
      "loss": 5.0729,
      "mean_token_accuracy": 0.2020048052072525,
      "num_tokens": 34614179.0,
      "step": 15095
    },
    {
      "entropy": 5.321483945846557,
      "epoch": 1.4505283381364074,
      "grad_norm": 1.125,
      "learning_rate": 0.00047954947665802404,
      "loss": 5.0928,
      "mean_token_accuracy": 0.2034539520740509,
      "num_tokens": 34625456.0,
      "step": 15100
    },
    {
      "entropy": 5.186492490768432,
      "epoch": 1.4510086455331412,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004795351931675329,
      "loss": 4.9536,
      "mean_token_accuracy": 0.22268653959035872,
      "num_tokens": 34636268.0,
      "step": 15105
    },
    {
      "entropy": 5.138030385971069,
      "epoch": 1.4514889529298751,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004795209049283419,
      "loss": 4.9032,
      "mean_token_accuracy": 0.22105590552091597,
      "num_tokens": 34647665.0,
      "step": 15110
    },
    {
      "entropy": 5.2529072761535645,
      "epoch": 1.451969260326609,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004795066119407827,
      "loss": 5.0009,
      "mean_token_accuracy": 0.21218062788248063,
      "num_tokens": 34659965.0,
      "step": 15115
    },
    {
      "entropy": 5.214857578277588,
      "epoch": 1.4524495677233429,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004794923142051873,
      "loss": 5.052,
      "mean_token_accuracy": 0.21157704889774323,
      "num_tokens": 34671724.0,
      "step": 15120
    },
    {
      "entropy": 5.126708841323852,
      "epoch": 1.452929875120077,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00047947801172188755,
      "loss": 4.9103,
      "mean_token_accuracy": 0.22448884695768356,
      "num_tokens": 34682445.0,
      "step": 15125
    },
    {
      "entropy": 5.107527399063111,
      "epoch": 1.4534101825168109,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004794637044912155,
      "loss": 4.8546,
      "mean_token_accuracy": 0.22458722293376923,
      "num_tokens": 34693621.0,
      "step": 15130
    },
    {
      "entropy": 5.1660699367523195,
      "epoch": 1.4538904899135447,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004794493925135034,
      "loss": 4.8351,
      "mean_token_accuracy": 0.227722430229187,
      "num_tokens": 34703978.0,
      "step": 15135
    },
    {
      "entropy": 5.199901390075683,
      "epoch": 1.4543707973102786,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00047943507578908357,
      "loss": 5.0363,
      "mean_token_accuracy": 0.21987725645303727,
      "num_tokens": 34715468.0,
      "step": 15140
    },
    {
      "entropy": 5.237486171722412,
      "epoch": 1.4548511047070125,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004794207543182883,
      "loss": 4.9965,
      "mean_token_accuracy": 0.21251980364322662,
      "num_tokens": 34726383.0,
      "step": 15145
    },
    {
      "entropy": 5.179723453521729,
      "epoch": 1.4553314121037464,
      "grad_norm": 1.34375,
      "learning_rate": 0.00047940642810145005,
      "loss": 5.0156,
      "mean_token_accuracy": 0.21433500498533248,
      "num_tokens": 34737123.0,
      "step": 15150
    },
    {
      "entropy": 5.0879114151000975,
      "epoch": 1.4558117195004803,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00047939209713890156,
      "loss": 4.9252,
      "mean_token_accuracy": 0.22000515311956406,
      "num_tokens": 34749197.0,
      "step": 15155
    },
    {
      "entropy": 5.225097751617431,
      "epoch": 1.4562920268972142,
      "grad_norm": 1.515625,
      "learning_rate": 0.00047937776143097547,
      "loss": 4.9765,
      "mean_token_accuracy": 0.2143160358071327,
      "num_tokens": 34759785.0,
      "step": 15160
    },
    {
      "entropy": 5.112883234024048,
      "epoch": 1.456772334293948,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004793634209780047,
      "loss": 4.8375,
      "mean_token_accuracy": 0.22548486590385436,
      "num_tokens": 34770938.0,
      "step": 15165
    },
    {
      "entropy": 5.128720092773437,
      "epoch": 1.457252641690682,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004793490757803221,
      "loss": 4.8902,
      "mean_token_accuracy": 0.22066261917352675,
      "num_tokens": 34782126.0,
      "step": 15170
    },
    {
      "entropy": 5.119160270690918,
      "epoch": 1.457732949087416,
      "grad_norm": 1.453125,
      "learning_rate": 0.00047933472583826063,
      "loss": 4.9154,
      "mean_token_accuracy": 0.21358481496572496,
      "num_tokens": 34793802.0,
      "step": 15175
    },
    {
      "entropy": 5.1480120658874515,
      "epoch": 1.45821325648415,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004793203711521537,
      "loss": 4.9813,
      "mean_token_accuracy": 0.22073666751384735,
      "num_tokens": 34805696.0,
      "step": 15180
    },
    {
      "entropy": 5.296039390563965,
      "epoch": 1.4586935638808838,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00047930601172233446,
      "loss": 5.1314,
      "mean_token_accuracy": 0.2063765347003937,
      "num_tokens": 34818679.0,
      "step": 15185
    },
    {
      "entropy": 5.297084808349609,
      "epoch": 1.4591738712776177,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00047929164754913624,
      "loss": 4.9855,
      "mean_token_accuracy": 0.21749197095632553,
      "num_tokens": 34830528.0,
      "step": 15190
    },
    {
      "entropy": 5.171178531646729,
      "epoch": 1.4596541786743515,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004792772786328926,
      "loss": 4.8748,
      "mean_token_accuracy": 0.22240075021982192,
      "num_tokens": 34841621.0,
      "step": 15195
    },
    {
      "entropy": 5.087448406219482,
      "epoch": 1.4601344860710854,
      "grad_norm": 1.21875,
      "learning_rate": 0.00047926290497393714,
      "loss": 4.8775,
      "mean_token_accuracy": 0.2203219324350357,
      "num_tokens": 34854448.0,
      "step": 15200
    },
    {
      "entropy": 5.195474147796631,
      "epoch": 1.4606147934678195,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004792485265726036,
      "loss": 4.996,
      "mean_token_accuracy": 0.2099252760410309,
      "num_tokens": 34866492.0,
      "step": 15205
    },
    {
      "entropy": 5.18867597579956,
      "epoch": 1.4610951008645534,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004792341434292257,
      "loss": 4.958,
      "mean_token_accuracy": 0.21405645608901977,
      "num_tokens": 34876869.0,
      "step": 15210
    },
    {
      "entropy": 5.122355937957764,
      "epoch": 1.4615754082612873,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004792197555441374,
      "loss": 4.8834,
      "mean_token_accuracy": 0.22930939495563507,
      "num_tokens": 34888449.0,
      "step": 15215
    },
    {
      "entropy": 5.125897169113159,
      "epoch": 1.4620557156580212,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004792053629176729,
      "loss": 4.9055,
      "mean_token_accuracy": 0.2263544738292694,
      "num_tokens": 34898124.0,
      "step": 15220
    },
    {
      "entropy": 5.202107191085815,
      "epoch": 1.462536023054755,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004791909655501662,
      "loss": 4.8921,
      "mean_token_accuracy": 0.22310193479061127,
      "num_tokens": 34909128.0,
      "step": 15225
    },
    {
      "entropy": 5.092991304397583,
      "epoch": 1.463016330451489,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004791765634419516,
      "loss": 4.9389,
      "mean_token_accuracy": 0.2171325519680977,
      "num_tokens": 34920541.0,
      "step": 15230
    },
    {
      "entropy": 5.047167062759399,
      "epoch": 1.4634966378482228,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00047916215659336343,
      "loss": 4.8782,
      "mean_token_accuracy": 0.22050851583480835,
      "num_tokens": 34931605.0,
      "step": 15235
    },
    {
      "entropy": 5.168670988082885,
      "epoch": 1.4639769452449567,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004791477450047363,
      "loss": 4.9172,
      "mean_token_accuracy": 0.22224834561347961,
      "num_tokens": 34943057.0,
      "step": 15240
    },
    {
      "entropy": 5.2066905975341795,
      "epoch": 1.4644572526416906,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00047913332867640464,
      "loss": 5.085,
      "mean_token_accuracy": 0.20473618805408478,
      "num_tokens": 34954386.0,
      "step": 15245
    },
    {
      "entropy": 5.141163301467896,
      "epoch": 1.4649375600384245,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004791189076087033,
      "loss": 4.9266,
      "mean_token_accuracy": 0.21532471030950545,
      "num_tokens": 34965874.0,
      "step": 15250
    },
    {
      "entropy": 5.232634353637695,
      "epoch": 1.4654178674351586,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00047910448180196703,
      "loss": 5.0222,
      "mean_token_accuracy": 0.2117237016558647,
      "num_tokens": 34977408.0,
      "step": 15255
    },
    {
      "entropy": 5.1937174797058105,
      "epoch": 1.4658981748318924,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004790900512565307,
      "loss": 4.8537,
      "mean_token_accuracy": 0.22348989248275758,
      "num_tokens": 34987788.0,
      "step": 15260
    },
    {
      "entropy": 5.230491399765015,
      "epoch": 1.4663784822286263,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004790756159727294,
      "loss": 5.0276,
      "mean_token_accuracy": 0.2132936492562294,
      "num_tokens": 35001051.0,
      "step": 15265
    },
    {
      "entropy": 5.185359954833984,
      "epoch": 1.4668587896253602,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00047906117595089835,
      "loss": 4.969,
      "mean_token_accuracy": 0.21702387034893036,
      "num_tokens": 35012621.0,
      "step": 15270
    },
    {
      "entropy": 5.178160524368286,
      "epoch": 1.467339097022094,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004790467311913727,
      "loss": 4.9673,
      "mean_token_accuracy": 0.21435904800891875,
      "num_tokens": 35023789.0,
      "step": 15275
    },
    {
      "entropy": 5.145422744750976,
      "epoch": 1.4678194044188282,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004790322816944879,
      "loss": 4.947,
      "mean_token_accuracy": 0.22396451681852342,
      "num_tokens": 35035839.0,
      "step": 15280
    },
    {
      "entropy": 5.2104826927185055,
      "epoch": 1.468299711815562,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004790178274605793,
      "loss": 5.0371,
      "mean_token_accuracy": 0.20950869023799895,
      "num_tokens": 35047823.0,
      "step": 15285
    },
    {
      "entropy": 5.244489479064941,
      "epoch": 1.468780019212296,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00047900336848998254,
      "loss": 5.0496,
      "mean_token_accuracy": 0.2074924662709236,
      "num_tokens": 35058597.0,
      "step": 15290
    },
    {
      "entropy": 5.127735662460327,
      "epoch": 1.4692603266090298,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004789889047830334,
      "loss": 4.9085,
      "mean_token_accuracy": 0.22231007516384124,
      "num_tokens": 35069822.0,
      "step": 15295
    },
    {
      "entropy": 5.178108882904053,
      "epoch": 1.4697406340057637,
      "grad_norm": 1.234375,
      "learning_rate": 0.00047897443634006766,
      "loss": 4.9835,
      "mean_token_accuracy": 0.21558043211698533,
      "num_tokens": 35081423.0,
      "step": 15300
    },
    {
      "entropy": 5.246568965911865,
      "epoch": 1.4702209414024976,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004789599631614211,
      "loss": 5.0002,
      "mean_token_accuracy": 0.21287845075130463,
      "num_tokens": 35092565.0,
      "step": 15305
    },
    {
      "entropy": 5.18705940246582,
      "epoch": 1.4707012487992315,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004789454852474298,
      "loss": 4.941,
      "mean_token_accuracy": 0.21825831830501558,
      "num_tokens": 35103811.0,
      "step": 15310
    },
    {
      "entropy": 5.2444439888000485,
      "epoch": 1.4711815561959654,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004789310025984299,
      "loss": 5.07,
      "mean_token_accuracy": 0.20772210359573365,
      "num_tokens": 35115516.0,
      "step": 15315
    },
    {
      "entropy": 5.217182779312134,
      "epoch": 1.4716618635926992,
      "grad_norm": 1.3125,
      "learning_rate": 0.00047891651521475776,
      "loss": 5.0205,
      "mean_token_accuracy": 0.2142233058810234,
      "num_tokens": 35127285.0,
      "step": 15320
    },
    {
      "entropy": 5.153268194198608,
      "epoch": 1.4721421709894331,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00047890202309674963,
      "loss": 4.9433,
      "mean_token_accuracy": 0.21643016785383223,
      "num_tokens": 35137884.0,
      "step": 15325
    },
    {
      "entropy": 5.276388359069824,
      "epoch": 1.4726224783861672,
      "grad_norm": 1.421875,
      "learning_rate": 0.00047888752624474195,
      "loss": 5.1031,
      "mean_token_accuracy": 0.20545923113822936,
      "num_tokens": 35149935.0,
      "step": 15330
    },
    {
      "entropy": 5.2142415046691895,
      "epoch": 1.473102785782901,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004788730246590714,
      "loss": 5.0424,
      "mean_token_accuracy": 0.21042255759239198,
      "num_tokens": 35162610.0,
      "step": 15335
    },
    {
      "entropy": 5.180163049697876,
      "epoch": 1.473583093179635,
      "grad_norm": 1.34375,
      "learning_rate": 0.00047885851834007456,
      "loss": 4.9073,
      "mean_token_accuracy": 0.2148707166314125,
      "num_tokens": 35174799.0,
      "step": 15340
    },
    {
      "entropy": 5.1315391063690186,
      "epoch": 1.4740634005763689,
      "grad_norm": 1.203125,
      "learning_rate": 0.00047884400728808824,
      "loss": 4.9346,
      "mean_token_accuracy": 0.2183023527264595,
      "num_tokens": 35186004.0,
      "step": 15345
    },
    {
      "entropy": 5.175625896453857,
      "epoch": 1.4745437079731027,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004788294915034494,
      "loss": 4.9593,
      "mean_token_accuracy": 0.2172788307070732,
      "num_tokens": 35197310.0,
      "step": 15350
    },
    {
      "entropy": 5.120343971252441,
      "epoch": 1.4750240153698366,
      "grad_norm": 1.15625,
      "learning_rate": 0.000478814970986495,
      "loss": 4.909,
      "mean_token_accuracy": 0.22186490893363953,
      "num_tokens": 35208703.0,
      "step": 15355
    },
    {
      "entropy": 5.156807708740234,
      "epoch": 1.4755043227665707,
      "grad_norm": 1.21875,
      "learning_rate": 0.00047880044573756213,
      "loss": 4.9205,
      "mean_token_accuracy": 0.22117386311292647,
      "num_tokens": 35219927.0,
      "step": 15360
    },
    {
      "entropy": 5.186833000183105,
      "epoch": 1.4759846301633046,
      "grad_norm": 1.265625,
      "learning_rate": 0.00047878591575698816,
      "loss": 4.9142,
      "mean_token_accuracy": 0.21543453335762025,
      "num_tokens": 35231077.0,
      "step": 15365
    },
    {
      "entropy": 5.196823215484619,
      "epoch": 1.4764649375600385,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004787713810451103,
      "loss": 4.9946,
      "mean_token_accuracy": 0.2103252202272415,
      "num_tokens": 35241984.0,
      "step": 15370
    },
    {
      "entropy": 5.159264945983887,
      "epoch": 1.4769452449567724,
      "grad_norm": 1.390625,
      "learning_rate": 0.00047875684160226606,
      "loss": 4.9422,
      "mean_token_accuracy": 0.2182306170463562,
      "num_tokens": 35252717.0,
      "step": 15375
    },
    {
      "entropy": 5.179389905929566,
      "epoch": 1.4774255523535063,
      "grad_norm": 1.21875,
      "learning_rate": 0.000478742297428793,
      "loss": 5.0073,
      "mean_token_accuracy": 0.21191850453615188,
      "num_tokens": 35263916.0,
      "step": 15380
    },
    {
      "entropy": 5.164166069030761,
      "epoch": 1.4779058597502401,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00047872774852502877,
      "loss": 4.9267,
      "mean_token_accuracy": 0.21910004168748856,
      "num_tokens": 35274772.0,
      "step": 15385
    },
    {
      "entropy": 5.11943564414978,
      "epoch": 1.478386167146974,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004787131948913112,
      "loss": 4.8781,
      "mean_token_accuracy": 0.22653010189533235,
      "num_tokens": 35287150.0,
      "step": 15390
    },
    {
      "entropy": 5.131641054153443,
      "epoch": 1.478866474543708,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00047869863652797806,
      "loss": 4.8877,
      "mean_token_accuracy": 0.2227863147854805,
      "num_tokens": 35298538.0,
      "step": 15395
    },
    {
      "entropy": 5.107625436782837,
      "epoch": 1.4793467819404418,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004786840734353675,
      "loss": 4.886,
      "mean_token_accuracy": 0.22072995603084564,
      "num_tokens": 35309395.0,
      "step": 15400
    },
    {
      "entropy": 5.136013507843018,
      "epoch": 1.4798270893371757,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00047866950561381756,
      "loss": 4.9366,
      "mean_token_accuracy": 0.21733225584030152,
      "num_tokens": 35320741.0,
      "step": 15405
    },
    {
      "entropy": 5.298266792297364,
      "epoch": 1.4803073967339098,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004786549330636665,
      "loss": 5.057,
      "mean_token_accuracy": 0.20781148821115494,
      "num_tokens": 35331895.0,
      "step": 15410
    },
    {
      "entropy": 5.117559576034546,
      "epoch": 1.4807877041306436,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00047864035578525256,
      "loss": 4.8407,
      "mean_token_accuracy": 0.23251519501209258,
      "num_tokens": 35343775.0,
      "step": 15415
    },
    {
      "entropy": 5.1231804370880125,
      "epoch": 1.4812680115273775,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004786257737789143,
      "loss": 4.9988,
      "mean_token_accuracy": 0.21539798378944397,
      "num_tokens": 35355043.0,
      "step": 15420
    },
    {
      "entropy": 5.244394207000733,
      "epoch": 1.4817483189241114,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004786111870449902,
      "loss": 5.0196,
      "mean_token_accuracy": 0.2094297468662262,
      "num_tokens": 35365387.0,
      "step": 15425
    },
    {
      "entropy": 5.215351247787476,
      "epoch": 1.4822286263208453,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00047859659558381894,
      "loss": 4.9363,
      "mean_token_accuracy": 0.22851166874170303,
      "num_tokens": 35376400.0,
      "step": 15430
    },
    {
      "entropy": 5.197208881378174,
      "epoch": 1.4827089337175792,
      "grad_norm": 1.21875,
      "learning_rate": 0.00047858199939573935,
      "loss": 4.987,
      "mean_token_accuracy": 0.21214037835597993,
      "num_tokens": 35387315.0,
      "step": 15435
    },
    {
      "entropy": 5.180497694015503,
      "epoch": 1.4831892411143133,
      "grad_norm": 1.203125,
      "learning_rate": 0.00047856739848109014,
      "loss": 4.981,
      "mean_token_accuracy": 0.21736457496881484,
      "num_tokens": 35398666.0,
      "step": 15440
    },
    {
      "entropy": 5.155378150939941,
      "epoch": 1.4836695485110472,
      "grad_norm": 1.15625,
      "learning_rate": 0.00047855279284021046,
      "loss": 4.96,
      "mean_token_accuracy": 0.22037553489208223,
      "num_tokens": 35409192.0,
      "step": 15445
    },
    {
      "entropy": 5.189713001251221,
      "epoch": 1.484149855907781,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00047853818247343933,
      "loss": 5.0013,
      "mean_token_accuracy": 0.206741601228714,
      "num_tokens": 35419812.0,
      "step": 15450
    },
    {
      "entropy": 5.255188465118408,
      "epoch": 1.484630163304515,
      "grad_norm": 1.265625,
      "learning_rate": 0.00047852356738111606,
      "loss": 4.9344,
      "mean_token_accuracy": 0.22674974501132966,
      "num_tokens": 35430875.0,
      "step": 15455
    },
    {
      "entropy": 5.152353525161743,
      "epoch": 1.4851104707012488,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004785089475635799,
      "loss": 4.9248,
      "mean_token_accuracy": 0.21964309960603715,
      "num_tokens": 35441065.0,
      "step": 15460
    },
    {
      "entropy": 5.103597593307495,
      "epoch": 1.4855907780979827,
      "grad_norm": 1.15625,
      "learning_rate": 0.00047849432302117024,
      "loss": 4.9745,
      "mean_token_accuracy": 0.2140120819211006,
      "num_tokens": 35452164.0,
      "step": 15465
    },
    {
      "entropy": 5.235323476791382,
      "epoch": 1.4860710854947166,
      "grad_norm": 1.296875,
      "learning_rate": 0.00047847969375422656,
      "loss": 5.0663,
      "mean_token_accuracy": 0.20626734495162963,
      "num_tokens": 35463158.0,
      "step": 15470
    },
    {
      "entropy": 5.090017223358155,
      "epoch": 1.4865513928914504,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004784650597630887,
      "loss": 4.8789,
      "mean_token_accuracy": 0.22733232527971267,
      "num_tokens": 35474153.0,
      "step": 15475
    },
    {
      "entropy": 5.211921691894531,
      "epoch": 1.4870317002881843,
      "grad_norm": 1.296875,
      "learning_rate": 0.00047845042104809635,
      "loss": 4.9649,
      "mean_token_accuracy": 0.21242944300174713,
      "num_tokens": 35485680.0,
      "step": 15480
    },
    {
      "entropy": 5.209507083892822,
      "epoch": 1.4875120076849184,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004784357776095892,
      "loss": 5.0195,
      "mean_token_accuracy": 0.215239979326725,
      "num_tokens": 35497271.0,
      "step": 15485
    },
    {
      "entropy": 5.190091228485107,
      "epoch": 1.4879923150816523,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004784211294479075,
      "loss": 4.9131,
      "mean_token_accuracy": 0.22402856945991517,
      "num_tokens": 35509166.0,
      "step": 15490
    },
    {
      "entropy": 5.165255784988403,
      "epoch": 1.4884726224783862,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004784064765633912,
      "loss": 4.9992,
      "mean_token_accuracy": 0.2183140769600868,
      "num_tokens": 35521289.0,
      "step": 15495
    },
    {
      "entropy": 5.160954904556275,
      "epoch": 1.48895292987512,
      "grad_norm": 1.203125,
      "learning_rate": 0.00047839181895638057,
      "loss": 4.9491,
      "mean_token_accuracy": 0.22083631306886672,
      "num_tokens": 35532179.0,
      "step": 15500
    },
    {
      "entropy": 5.308222866058349,
      "epoch": 1.489433237271854,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00047837715662721575,
      "loss": 5.1324,
      "mean_token_accuracy": 0.2071303442120552,
      "num_tokens": 35544703.0,
      "step": 15505
    },
    {
      "entropy": 5.273142337799072,
      "epoch": 1.4899135446685878,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004783624895762372,
      "loss": 5.1179,
      "mean_token_accuracy": 0.2036224529147148,
      "num_tokens": 35557853.0,
      "step": 15510
    },
    {
      "entropy": 5.17064061164856,
      "epoch": 1.490393852065322,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00047834781780378563,
      "loss": 4.8318,
      "mean_token_accuracy": 0.22622861266136168,
      "num_tokens": 35570340.0,
      "step": 15515
    },
    {
      "entropy": 5.192807006835937,
      "epoch": 1.4908741594620558,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004783331413102015,
      "loss": 5.0187,
      "mean_token_accuracy": 0.21527829617261887,
      "num_tokens": 35582387.0,
      "step": 15520
    },
    {
      "entropy": 5.2773651599884035,
      "epoch": 1.4913544668587897,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00047831846009582557,
      "loss": 5.07,
      "mean_token_accuracy": 0.206882107257843,
      "num_tokens": 35595105.0,
      "step": 15525
    },
    {
      "entropy": 5.235234880447388,
      "epoch": 1.4918347742555236,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004783037741609988,
      "loss": 5.0424,
      "mean_token_accuracy": 0.2106972947716713,
      "num_tokens": 35607160.0,
      "step": 15530
    },
    {
      "entropy": 5.196556234359742,
      "epoch": 1.4923150816522575,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004782890835060621,
      "loss": 4.9382,
      "mean_token_accuracy": 0.21910466104745865,
      "num_tokens": 35619097.0,
      "step": 15535
    },
    {
      "entropy": 5.073312139511108,
      "epoch": 1.4927953890489913,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004782743881313564,
      "loss": 4.8311,
      "mean_token_accuracy": 0.22151407450437546,
      "num_tokens": 35629868.0,
      "step": 15540
    },
    {
      "entropy": 5.171602392196656,
      "epoch": 1.4932756964457252,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00047825968803722315,
      "loss": 4.9882,
      "mean_token_accuracy": 0.21382750123739241,
      "num_tokens": 35640622.0,
      "step": 15545
    },
    {
      "entropy": 5.203648948669434,
      "epoch": 1.493756003842459,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004782449832240035,
      "loss": 4.9731,
      "mean_token_accuracy": 0.21205914914608,
      "num_tokens": 35652383.0,
      "step": 15550
    },
    {
      "entropy": 5.1007692337036135,
      "epoch": 1.494236311239193,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004782302736920387,
      "loss": 4.9049,
      "mean_token_accuracy": 0.2167341247200966,
      "num_tokens": 35663838.0,
      "step": 15555
    },
    {
      "entropy": 5.2010805130004885,
      "epoch": 1.4947166186359269,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004782155594416705,
      "loss": 4.9483,
      "mean_token_accuracy": 0.2152695655822754,
      "num_tokens": 35674564.0,
      "step": 15560
    },
    {
      "entropy": 5.242137813568116,
      "epoch": 1.495196926032661,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00047820084047324045,
      "loss": 4.968,
      "mean_token_accuracy": 0.21514491289854049,
      "num_tokens": 35685518.0,
      "step": 15565
    },
    {
      "entropy": 5.261635780334473,
      "epoch": 1.4956772334293948,
      "grad_norm": 1.25,
      "learning_rate": 0.00047818611678709027,
      "loss": 4.9776,
      "mean_token_accuracy": 0.215865059196949,
      "num_tokens": 35696597.0,
      "step": 15570
    },
    {
      "entropy": 5.122075605392456,
      "epoch": 1.4961575408261287,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004781713883835618,
      "loss": 4.9016,
      "mean_token_accuracy": 0.22335670590400697,
      "num_tokens": 35707229.0,
      "step": 15575
    },
    {
      "entropy": 5.1522300243377686,
      "epoch": 1.4966378482228626,
      "grad_norm": 1.1875,
      "learning_rate": 0.00047815665526299695,
      "loss": 4.9901,
      "mean_token_accuracy": 0.21233994662761688,
      "num_tokens": 35719440.0,
      "step": 15580
    },
    {
      "entropy": 5.230376529693603,
      "epoch": 1.4971181556195965,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004781419174257378,
      "loss": 4.9846,
      "mean_token_accuracy": 0.20775482654571534,
      "num_tokens": 35731611.0,
      "step": 15585
    },
    {
      "entropy": 5.1648476123809814,
      "epoch": 1.4975984630163304,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004781271748721266,
      "loss": 4.9783,
      "mean_token_accuracy": 0.21286329627037048,
      "num_tokens": 35743047.0,
      "step": 15590
    },
    {
      "entropy": 5.227255868911743,
      "epoch": 1.4980787704130645,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004781124276025055,
      "loss": 4.9184,
      "mean_token_accuracy": 0.23288827687501906,
      "num_tokens": 35753499.0,
      "step": 15595
    },
    {
      "entropy": 5.215896415710449,
      "epoch": 1.4985590778097984,
      "grad_norm": 1.3046875,
      "learning_rate": 0.000478097675617217,
      "loss": 5.1346,
      "mean_token_accuracy": 0.21066973358392715,
      "num_tokens": 35764682.0,
      "step": 15600
    },
    {
      "entropy": 5.239116668701172,
      "epoch": 1.4990393852065322,
      "grad_norm": 1.234375,
      "learning_rate": 0.00047808291891660357,
      "loss": 4.9312,
      "mean_token_accuracy": 0.22250870913267135,
      "num_tokens": 35775160.0,
      "step": 15605
    },
    {
      "entropy": 5.216899585723877,
      "epoch": 1.4995196926032661,
      "grad_norm": 1.5,
      "learning_rate": 0.00047806815750100774,
      "loss": 4.9735,
      "mean_token_accuracy": 0.21689383089542388,
      "num_tokens": 35786089.0,
      "step": 15610
    },
    {
      "entropy": 5.17706995010376,
      "epoch": 1.5,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004780533913707723,
      "loss": 4.9976,
      "mean_token_accuracy": 0.21321234852075577,
      "num_tokens": 35796851.0,
      "step": 15615
    },
    {
      "entropy": 5.229093360900879,
      "epoch": 1.5004803073967339,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00047803862052624006,
      "loss": 5.0117,
      "mean_token_accuracy": 0.20809693783521652,
      "num_tokens": 35808553.0,
      "step": 15620
    },
    {
      "entropy": 5.275240278244018,
      "epoch": 1.5009606147934678,
      "grad_norm": 1.25,
      "learning_rate": 0.00047802384496775397,
      "loss": 5.1488,
      "mean_token_accuracy": 0.21014924496412277,
      "num_tokens": 35820108.0,
      "step": 15625
    },
    {
      "entropy": 5.187834882736206,
      "epoch": 1.5014409221902016,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004780090646956571,
      "loss": 4.8862,
      "mean_token_accuracy": 0.22773226201534272,
      "num_tokens": 35831672.0,
      "step": 15630
    },
    {
      "entropy": 5.280662202835083,
      "epoch": 1.5019212295869355,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00047799427971029245,
      "loss": 5.0788,
      "mean_token_accuracy": 0.21054953187704087,
      "num_tokens": 35843164.0,
      "step": 15635
    },
    {
      "entropy": 5.225699520111084,
      "epoch": 1.5024015369836694,
      "grad_norm": 1.5,
      "learning_rate": 0.0004779794900120034,
      "loss": 5.0723,
      "mean_token_accuracy": 0.21249438375234603,
      "num_tokens": 35854677.0,
      "step": 15640
    },
    {
      "entropy": 5.19042010307312,
      "epoch": 1.5028818443804035,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004779646956011334,
      "loss": 4.9617,
      "mean_token_accuracy": 0.22047783583402633,
      "num_tokens": 35865956.0,
      "step": 15645
    },
    {
      "entropy": 5.176256704330444,
      "epoch": 1.5033621517771374,
      "grad_norm": 1.34375,
      "learning_rate": 0.00047794989647802574,
      "loss": 4.9709,
      "mean_token_accuracy": 0.2125203862786293,
      "num_tokens": 35877451.0,
      "step": 15650
    },
    {
      "entropy": 5.194400215148926,
      "epoch": 1.5038424591738713,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00047793509264302424,
      "loss": 4.9537,
      "mean_token_accuracy": 0.21531011760234833,
      "num_tokens": 35888436.0,
      "step": 15655
    },
    {
      "entropy": 5.187810611724854,
      "epoch": 1.5043227665706052,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00047792028409647237,
      "loss": 4.9621,
      "mean_token_accuracy": 0.2149658814072609,
      "num_tokens": 35901010.0,
      "step": 15660
    },
    {
      "entropy": 5.213496112823487,
      "epoch": 1.5048030739673393,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00047790547083871414,
      "loss": 4.9768,
      "mean_token_accuracy": 0.21322050243616103,
      "num_tokens": 35912697.0,
      "step": 15665
    },
    {
      "entropy": 5.153905248641967,
      "epoch": 1.5052833813640731,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00047789065287009335,
      "loss": 4.8969,
      "mean_token_accuracy": 0.22069223672151567,
      "num_tokens": 35924614.0,
      "step": 15670
    },
    {
      "entropy": 5.203504943847657,
      "epoch": 1.505763688760807,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004778758301909542,
      "loss": 4.9809,
      "mean_token_accuracy": 0.2169592186808586,
      "num_tokens": 35935492.0,
      "step": 15675
    },
    {
      "entropy": 5.098133087158203,
      "epoch": 1.506243996157541,
      "grad_norm": 1.125,
      "learning_rate": 0.0004778610028016405,
      "loss": 4.9889,
      "mean_token_accuracy": 0.21588987559080125,
      "num_tokens": 35947901.0,
      "step": 15680
    },
    {
      "entropy": 5.133358764648437,
      "epoch": 1.5067243035542748,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004778461707024967,
      "loss": 4.8208,
      "mean_token_accuracy": 0.22946203052997588,
      "num_tokens": 35959690.0,
      "step": 15685
    },
    {
      "entropy": 5.206504774093628,
      "epoch": 1.5072046109510087,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004778313338938672,
      "loss": 4.9199,
      "mean_token_accuracy": 0.22398556172847747,
      "num_tokens": 35971209.0,
      "step": 15690
    },
    {
      "entropy": 5.120486497879028,
      "epoch": 1.5076849183477425,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00047781649237609643,
      "loss": 4.8075,
      "mean_token_accuracy": 0.2294871136546135,
      "num_tokens": 35981795.0,
      "step": 15695
    },
    {
      "entropy": 5.0691118240356445,
      "epoch": 1.5081652257444764,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004778016461495289,
      "loss": 4.9587,
      "mean_token_accuracy": 0.21469815373420714,
      "num_tokens": 35993358.0,
      "step": 15700
    },
    {
      "entropy": 5.153229188919068,
      "epoch": 1.5086455331412103,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004777867952145094,
      "loss": 4.9904,
      "mean_token_accuracy": 0.22090202271938325,
      "num_tokens": 36005353.0,
      "step": 15705
    },
    {
      "entropy": 5.269125986099243,
      "epoch": 1.5091258405379442,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004777719395713826,
      "loss": 4.9591,
      "mean_token_accuracy": 0.21391933113336564,
      "num_tokens": 36017510.0,
      "step": 15710
    },
    {
      "entropy": 5.196733570098877,
      "epoch": 1.509606147934678,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00047775707922049354,
      "loss": 4.9517,
      "mean_token_accuracy": 0.21790158450603486,
      "num_tokens": 36028687.0,
      "step": 15715
    },
    {
      "entropy": 5.108423948287964,
      "epoch": 1.510086455331412,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004777422141621871,
      "loss": 4.8758,
      "mean_token_accuracy": 0.21638176292181016,
      "num_tokens": 36039851.0,
      "step": 15720
    },
    {
      "entropy": 5.204169845581054,
      "epoch": 1.510566762728146,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004777273443968085,
      "loss": 5.0531,
      "mean_token_accuracy": 0.21372610628604888,
      "num_tokens": 36050776.0,
      "step": 15725
    },
    {
      "entropy": 5.132400417327881,
      "epoch": 1.51104707012488,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004777124699247029,
      "loss": 4.8719,
      "mean_token_accuracy": 0.21945572644472122,
      "num_tokens": 36062151.0,
      "step": 15730
    },
    {
      "entropy": 5.187724494934082,
      "epoch": 1.5115273775216138,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004776975907462157,
      "loss": 4.9771,
      "mean_token_accuracy": 0.21894902735948563,
      "num_tokens": 36074601.0,
      "step": 15735
    },
    {
      "entropy": 5.149637079238891,
      "epoch": 1.5120076849183477,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004776827068616924,
      "loss": 4.8867,
      "mean_token_accuracy": 0.22149800211191178,
      "num_tokens": 36085436.0,
      "step": 15740
    },
    {
      "entropy": 5.249966144561768,
      "epoch": 1.5124879923150818,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004776678182714785,
      "loss": 5.0655,
      "mean_token_accuracy": 0.20393786877393721,
      "num_tokens": 36097589.0,
      "step": 15745
    },
    {
      "entropy": 5.1826738834381105,
      "epoch": 1.5129682997118157,
      "grad_norm": 1.296875,
      "learning_rate": 0.00047765292497591955,
      "loss": 4.9858,
      "mean_token_accuracy": 0.21298189610242843,
      "num_tokens": 36109993.0,
      "step": 15750
    },
    {
      "entropy": 5.207590389251709,
      "epoch": 1.5134486071085496,
      "grad_norm": 1.265625,
      "learning_rate": 0.00047763802697536146,
      "loss": 4.924,
      "mean_token_accuracy": 0.21502208560705185,
      "num_tokens": 36122439.0,
      "step": 15755
    },
    {
      "entropy": 5.2367846965789795,
      "epoch": 1.5139289145052834,
      "grad_norm": 1.328125,
      "learning_rate": 0.00047762312427015015,
      "loss": 4.9541,
      "mean_token_accuracy": 0.21168054342269899,
      "num_tokens": 36133867.0,
      "step": 15760
    },
    {
      "entropy": 5.259883260726928,
      "epoch": 1.5144092219020173,
      "grad_norm": 1.1875,
      "learning_rate": 0.00047760821686063153,
      "loss": 5.053,
      "mean_token_accuracy": 0.20947152823209764,
      "num_tokens": 36144202.0,
      "step": 15765
    },
    {
      "entropy": 5.237866592407227,
      "epoch": 1.5148895292987512,
      "grad_norm": 1.53125,
      "learning_rate": 0.00047759330474715173,
      "loss": 4.9472,
      "mean_token_accuracy": 0.22170411497354509,
      "num_tokens": 36154863.0,
      "step": 15770
    },
    {
      "entropy": 5.215115213394165,
      "epoch": 1.515369836695485,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00047757838793005704,
      "loss": 4.9774,
      "mean_token_accuracy": 0.21179027259349822,
      "num_tokens": 36166360.0,
      "step": 15775
    },
    {
      "entropy": 5.117362546920776,
      "epoch": 1.515850144092219,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00047756346640969366,
      "loss": 4.8669,
      "mean_token_accuracy": 0.22667350769042968,
      "num_tokens": 36177477.0,
      "step": 15780
    },
    {
      "entropy": 5.210712575912476,
      "epoch": 1.5163304514889528,
      "grad_norm": 1.28125,
      "learning_rate": 0.00047754854018640803,
      "loss": 4.9971,
      "mean_token_accuracy": 0.21386642158031463,
      "num_tokens": 36188510.0,
      "step": 15785
    },
    {
      "entropy": 5.14784517288208,
      "epoch": 1.5168107588856867,
      "grad_norm": 1.109375,
      "learning_rate": 0.00047753360926054684,
      "loss": 4.8942,
      "mean_token_accuracy": 0.22038694620132446,
      "num_tokens": 36199084.0,
      "step": 15790
    },
    {
      "entropy": 5.111806440353393,
      "epoch": 1.5172910662824206,
      "grad_norm": 1.203125,
      "learning_rate": 0.00047751867363245653,
      "loss": 4.9112,
      "mean_token_accuracy": 0.21519201546907424,
      "num_tokens": 36211265.0,
      "step": 15795
    },
    {
      "entropy": 5.292361068725586,
      "epoch": 1.5177713736791547,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004775037333024841,
      "loss": 5.0752,
      "mean_token_accuracy": 0.20719213485717775,
      "num_tokens": 36223070.0,
      "step": 15800
    },
    {
      "entropy": 5.223334217071534,
      "epoch": 1.5182516810758886,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004774887882709762,
      "loss": 5.0089,
      "mean_token_accuracy": 0.21609985679388047,
      "num_tokens": 36235021.0,
      "step": 15805
    },
    {
      "entropy": 5.188208532333374,
      "epoch": 1.5187319884726225,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00047747383853827995,
      "loss": 4.9597,
      "mean_token_accuracy": 0.21417346149682998,
      "num_tokens": 36245647.0,
      "step": 15810
    },
    {
      "entropy": 5.244234657287597,
      "epoch": 1.5192122958693564,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004774588841047424,
      "loss": 5.0398,
      "mean_token_accuracy": 0.21030631810426711,
      "num_tokens": 36257470.0,
      "step": 15815
    },
    {
      "entropy": 5.176792812347412,
      "epoch": 1.5196926032660905,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004774439249707108,
      "loss": 4.8951,
      "mean_token_accuracy": 0.21645855009555817,
      "num_tokens": 36268839.0,
      "step": 15820
    },
    {
      "entropy": 5.1920037269592285,
      "epoch": 1.5201729106628243,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004774289611365323,
      "loss": 5.038,
      "mean_token_accuracy": 0.20925631374120712,
      "num_tokens": 36280624.0,
      "step": 15825
    },
    {
      "entropy": 5.211209154129028,
      "epoch": 1.5206532180595582,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00047741399260255434,
      "loss": 4.9448,
      "mean_token_accuracy": 0.21624568998813629,
      "num_tokens": 36292696.0,
      "step": 15830
    },
    {
      "entropy": 5.22960147857666,
      "epoch": 1.521133525456292,
      "grad_norm": 1.28125,
      "learning_rate": 0.00047739901936912467,
      "loss": 4.9583,
      "mean_token_accuracy": 0.21953330487012862,
      "num_tokens": 36303612.0,
      "step": 15835
    },
    {
      "entropy": 5.146418714523316,
      "epoch": 1.521613832853026,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004773840414365907,
      "loss": 4.9303,
      "mean_token_accuracy": 0.21528706550598145,
      "num_tokens": 36314511.0,
      "step": 15840
    },
    {
      "entropy": 5.289036989212036,
      "epoch": 1.5220941402497599,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00047736905880530026,
      "loss": 5.0616,
      "mean_token_accuracy": 0.20672106891870498,
      "num_tokens": 36327276.0,
      "step": 15845
    },
    {
      "entropy": 5.214120817184448,
      "epoch": 1.5225744476464937,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004773540714756012,
      "loss": 4.9296,
      "mean_token_accuracy": 0.21783770322799684,
      "num_tokens": 36339373.0,
      "step": 15850
    },
    {
      "entropy": 5.239572238922119,
      "epoch": 1.5230547550432276,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00047733907944784144,
      "loss": 5.0491,
      "mean_token_accuracy": 0.20820102244615554,
      "num_tokens": 36351863.0,
      "step": 15855
    },
    {
      "entropy": 5.161839580535888,
      "epoch": 1.5235350624399615,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004773240827223691,
      "loss": 4.9524,
      "mean_token_accuracy": 0.22128331512212754,
      "num_tokens": 36363961.0,
      "step": 15860
    },
    {
      "entropy": 5.185322666168213,
      "epoch": 1.5240153698366954,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004773090812995323,
      "loss": 4.9384,
      "mean_token_accuracy": 0.2248750001192093,
      "num_tokens": 36374738.0,
      "step": 15865
    },
    {
      "entropy": 5.185145139694214,
      "epoch": 1.5244956772334293,
      "grad_norm": 1.359375,
      "learning_rate": 0.00047729407517967945,
      "loss": 4.8691,
      "mean_token_accuracy": 0.22020863592624665,
      "num_tokens": 36386472.0,
      "step": 15870
    },
    {
      "entropy": 5.170194339752197,
      "epoch": 1.5249759846301632,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00047727906436315884,
      "loss": 4.956,
      "mean_token_accuracy": 0.22778922319412231,
      "num_tokens": 36397042.0,
      "step": 15875
    },
    {
      "entropy": 5.166629409790039,
      "epoch": 1.5254562920268973,
      "grad_norm": 1.296875,
      "learning_rate": 0.00047726404885031895,
      "loss": 4.9269,
      "mean_token_accuracy": 0.21769467294216155,
      "num_tokens": 36408720.0,
      "step": 15880
    },
    {
      "entropy": 5.233714628219604,
      "epoch": 1.5259365994236311,
      "grad_norm": 1.359375,
      "learning_rate": 0.00047724902864150845,
      "loss": 5.0013,
      "mean_token_accuracy": 0.2127738893032074,
      "num_tokens": 36420885.0,
      "step": 15885
    },
    {
      "entropy": 5.250354194641114,
      "epoch": 1.526416906820365,
      "grad_norm": 1.25,
      "learning_rate": 0.00047723400373707607,
      "loss": 5.0181,
      "mean_token_accuracy": 0.20683068931102752,
      "num_tokens": 36433678.0,
      "step": 15890
    },
    {
      "entropy": 5.2336162567138675,
      "epoch": 1.526897214217099,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004772189741373707,
      "loss": 5.0423,
      "mean_token_accuracy": 0.21756250262260438,
      "num_tokens": 36445143.0,
      "step": 15895
    },
    {
      "entropy": 5.102718687057495,
      "epoch": 1.527377521613833,
      "grad_norm": 1.203125,
      "learning_rate": 0.00047720393984274117,
      "loss": 4.9456,
      "mean_token_accuracy": 0.21202410906553268,
      "num_tokens": 36456214.0,
      "step": 15900
    },
    {
      "entropy": 5.2174307346344,
      "epoch": 1.5278578290105669,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00047718890085353654,
      "loss": 4.9635,
      "mean_token_accuracy": 0.2163314238190651,
      "num_tokens": 36466767.0,
      "step": 15905
    },
    {
      "entropy": 5.3040376663208,
      "epoch": 1.5283381364073008,
      "grad_norm": 1.4375,
      "learning_rate": 0.000477173857170106,
      "loss": 4.9536,
      "mean_token_accuracy": 0.2135412722826004,
      "num_tokens": 36478150.0,
      "step": 15910
    },
    {
      "entropy": 5.167091703414917,
      "epoch": 1.5288184438040346,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00047715880879279894,
      "loss": 4.9546,
      "mean_token_accuracy": 0.2112107068300247,
      "num_tokens": 36488280.0,
      "step": 15915
    },
    {
      "entropy": 5.194524145126342,
      "epoch": 1.5292987512007685,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004771437557219646,
      "loss": 5.0048,
      "mean_token_accuracy": 0.21566450595855713,
      "num_tokens": 36498505.0,
      "step": 15920
    },
    {
      "entropy": 5.1693662166595455,
      "epoch": 1.5297790585975024,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004771286979579524,
      "loss": 4.9538,
      "mean_token_accuracy": 0.2125968560576439,
      "num_tokens": 36509271.0,
      "step": 15925
    },
    {
      "entropy": 5.234210538864136,
      "epoch": 1.5302593659942363,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004771136355011121,
      "loss": 5.0366,
      "mean_token_accuracy": 0.20775097012519836,
      "num_tokens": 36520022.0,
      "step": 15930
    },
    {
      "entropy": 5.213120317459106,
      "epoch": 1.5307396733909702,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00047709856835179333,
      "loss": 4.9638,
      "mean_token_accuracy": 0.21767441034317017,
      "num_tokens": 36532769.0,
      "step": 15935
    },
    {
      "entropy": 5.239807176589966,
      "epoch": 1.531219980787704,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00047708349651034586,
      "loss": 4.9947,
      "mean_token_accuracy": 0.22149415910243989,
      "num_tokens": 36544454.0,
      "step": 15940
    },
    {
      "entropy": 5.220270252227783,
      "epoch": 1.531700288184438,
      "grad_norm": 1.21875,
      "learning_rate": 0.00047706841997711974,
      "loss": 4.9688,
      "mean_token_accuracy": 0.20992875397205352,
      "num_tokens": 36555916.0,
      "step": 15945
    },
    {
      "entropy": 5.154624176025391,
      "epoch": 1.5321805955811718,
      "grad_norm": 1.34375,
      "learning_rate": 0.00047705333875246495,
      "loss": 4.9463,
      "mean_token_accuracy": 0.21742784678936006,
      "num_tokens": 36567829.0,
      "step": 15950
    },
    {
      "entropy": 5.20950345993042,
      "epoch": 1.532660902977906,
      "grad_norm": 1.234375,
      "learning_rate": 0.00047703825283673153,
      "loss": 5.0589,
      "mean_token_accuracy": 0.21559867709875108,
      "num_tokens": 36578216.0,
      "step": 15955
    },
    {
      "entropy": 5.240422534942627,
      "epoch": 1.5331412103746398,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004770231622302699,
      "loss": 4.9537,
      "mean_token_accuracy": 0.21943466514348983,
      "num_tokens": 36589945.0,
      "step": 15960
    },
    {
      "entropy": 5.250634670257568,
      "epoch": 1.5336215177713737,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00047700806693343016,
      "loss": 4.9771,
      "mean_token_accuracy": 0.21575426161289216,
      "num_tokens": 36600724.0,
      "step": 15965
    },
    {
      "entropy": 5.060350513458252,
      "epoch": 1.5341018251681076,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00047699296694656316,
      "loss": 4.8074,
      "mean_token_accuracy": 0.22741931974887847,
      "num_tokens": 36611154.0,
      "step": 15970
    },
    {
      "entropy": 5.169518995285034,
      "epoch": 1.5345821325648417,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004769778622700192,
      "loss": 4.9076,
      "mean_token_accuracy": 0.21358391046524047,
      "num_tokens": 36621750.0,
      "step": 15975
    },
    {
      "entropy": 5.205866909027099,
      "epoch": 1.5350624399615755,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00047696275290414885,
      "loss": 4.9543,
      "mean_token_accuracy": 0.21394149214029312,
      "num_tokens": 36633294.0,
      "step": 15980
    },
    {
      "entropy": 5.125529336929321,
      "epoch": 1.5355427473583094,
      "grad_norm": 1.234375,
      "learning_rate": 0.00047694763884930324,
      "loss": 4.8902,
      "mean_token_accuracy": 0.2196623682975769,
      "num_tokens": 36646377.0,
      "step": 15985
    },
    {
      "entropy": 5.141584873199463,
      "epoch": 1.5360230547550433,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00047693252010583314,
      "loss": 4.8424,
      "mean_token_accuracy": 0.22554460167884827,
      "num_tokens": 36656159.0,
      "step": 15990
    },
    {
      "entropy": 5.14939513206482,
      "epoch": 1.5365033621517772,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004769173966740895,
      "loss": 4.9904,
      "mean_token_accuracy": 0.2079702839255333,
      "num_tokens": 36667522.0,
      "step": 15995
    },
    {
      "entropy": 5.26382999420166,
      "epoch": 1.536983669548511,
      "grad_norm": 1.109375,
      "learning_rate": 0.00047690226855442346,
      "loss": 4.9977,
      "mean_token_accuracy": 0.21323842704296112,
      "num_tokens": 36678662.0,
      "step": 16000
    },
    {
      "entropy": 5.19386396408081,
      "epoch": 1.537463976945245,
      "grad_norm": 1.25,
      "learning_rate": 0.0004768871357471863,
      "loss": 4.9681,
      "mean_token_accuracy": 0.21223879903554915,
      "num_tokens": 36689876.0,
      "step": 16005
    },
    {
      "entropy": 5.211331748962403,
      "epoch": 1.5379442843419788,
      "grad_norm": 1.453125,
      "learning_rate": 0.00047687199825272936,
      "loss": 4.9179,
      "mean_token_accuracy": 0.22314226925373076,
      "num_tokens": 36701140.0,
      "step": 16010
    },
    {
      "entropy": 5.2290960311889645,
      "epoch": 1.5384245917387127,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00047685685607140403,
      "loss": 5.067,
      "mean_token_accuracy": 0.20884881168603897,
      "num_tokens": 36711077.0,
      "step": 16015
    },
    {
      "entropy": 5.214303207397461,
      "epoch": 1.5389048991354466,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00047684170920356185,
      "loss": 4.9477,
      "mean_token_accuracy": 0.2187011405825615,
      "num_tokens": 36722705.0,
      "step": 16020
    },
    {
      "entropy": 5.1465880393981935,
      "epoch": 1.5393852065321805,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004768265576495546,
      "loss": 4.9004,
      "mean_token_accuracy": 0.2221095785498619,
      "num_tokens": 36733446.0,
      "step": 16025
    },
    {
      "entropy": 5.114369249343872,
      "epoch": 1.5398655139289144,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00047681140140973396,
      "loss": 4.9272,
      "mean_token_accuracy": 0.2224670261144638,
      "num_tokens": 36744529.0,
      "step": 16030
    },
    {
      "entropy": 5.095712089538575,
      "epoch": 1.5403458213256485,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004767962404844517,
      "loss": 4.9387,
      "mean_token_accuracy": 0.21873563379049302,
      "num_tokens": 36756248.0,
      "step": 16035
    },
    {
      "entropy": 5.287334442138672,
      "epoch": 1.5408261287223823,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00047678107487406015,
      "loss": 5.0196,
      "mean_token_accuracy": 0.21320114731788636,
      "num_tokens": 36768097.0,
      "step": 16040
    },
    {
      "entropy": 5.204667949676514,
      "epoch": 1.5413064361191162,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00047676590457891116,
      "loss": 4.9646,
      "mean_token_accuracy": 0.21519066542387008,
      "num_tokens": 36780395.0,
      "step": 16045
    },
    {
      "entropy": 5.173113012313843,
      "epoch": 1.54178674351585,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004767507295993569,
      "loss": 4.9343,
      "mean_token_accuracy": 0.211539426445961,
      "num_tokens": 36791897.0,
      "step": 16050
    },
    {
      "entropy": 5.160366153717041,
      "epoch": 1.5422670509125842,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004767355499357498,
      "loss": 4.9177,
      "mean_token_accuracy": 0.22163355052471162,
      "num_tokens": 36802716.0,
      "step": 16055
    },
    {
      "entropy": 5.138392639160156,
      "epoch": 1.542747358309318,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004767203655884423,
      "loss": 4.9724,
      "mean_token_accuracy": 0.21543466299772263,
      "num_tokens": 36814471.0,
      "step": 16060
    },
    {
      "entropy": 5.1336760997772215,
      "epoch": 1.543227665706052,
      "grad_norm": 1.25,
      "learning_rate": 0.0004767051765577869,
      "loss": 4.9174,
      "mean_token_accuracy": 0.2216467648744583,
      "num_tokens": 36825975.0,
      "step": 16065
    },
    {
      "entropy": 5.2050800800323485,
      "epoch": 1.5437079731027858,
      "grad_norm": 1.203125,
      "learning_rate": 0.00047668998284413624,
      "loss": 5.0166,
      "mean_token_accuracy": 0.20977095812559127,
      "num_tokens": 36837990.0,
      "step": 16070
    },
    {
      "entropy": 5.227380561828613,
      "epoch": 1.5441882804995197,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00047667478444784306,
      "loss": 5.0358,
      "mean_token_accuracy": 0.21031395345926285,
      "num_tokens": 36849115.0,
      "step": 16075
    },
    {
      "entropy": 5.22444372177124,
      "epoch": 1.5446685878962536,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004766595813692602,
      "loss": 4.8866,
      "mean_token_accuracy": 0.21476306468248368,
      "num_tokens": 36860626.0,
      "step": 16080
    },
    {
      "entropy": 5.200777339935303,
      "epoch": 1.5451488952929875,
      "grad_norm": 1.34375,
      "learning_rate": 0.00047664437360874076,
      "loss": 5.0325,
      "mean_token_accuracy": 0.20902796387672423,
      "num_tokens": 36871926.0,
      "step": 16085
    },
    {
      "entropy": 5.180306005477905,
      "epoch": 1.5456292026897214,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00047662916116663766,
      "loss": 4.949,
      "mean_token_accuracy": 0.22320764660835266,
      "num_tokens": 36883511.0,
      "step": 16090
    },
    {
      "entropy": 5.253410387039184,
      "epoch": 1.5461095100864553,
      "grad_norm": 1.265625,
      "learning_rate": 0.00047661394404330417,
      "loss": 5.0173,
      "mean_token_accuracy": 0.21642861217260362,
      "num_tokens": 36895468.0,
      "step": 16095
    },
    {
      "entropy": 5.182759952545166,
      "epoch": 1.5465898174831891,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00047659872223909357,
      "loss": 4.911,
      "mean_token_accuracy": 0.21871508955955504,
      "num_tokens": 36906957.0,
      "step": 16100
    },
    {
      "entropy": 5.156119346618652,
      "epoch": 1.547070124879923,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004765834957543592,
      "loss": 4.9463,
      "mean_token_accuracy": 0.21861688941717147,
      "num_tokens": 36916495.0,
      "step": 16105
    },
    {
      "entropy": 5.1166833400726315,
      "epoch": 1.547550432276657,
      "grad_norm": 1.21875,
      "learning_rate": 0.00047656826458945475,
      "loss": 4.9244,
      "mean_token_accuracy": 0.21573103368282318,
      "num_tokens": 36927301.0,
      "step": 16110
    },
    {
      "entropy": 5.178887462615966,
      "epoch": 1.548030739673391,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00047655302874473365,
      "loss": 4.8872,
      "mean_token_accuracy": 0.22074204683303833,
      "num_tokens": 36938116.0,
      "step": 16115
    },
    {
      "entropy": 5.199589490890503,
      "epoch": 1.5485110470701249,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004765377882205498,
      "loss": 4.9571,
      "mean_token_accuracy": 0.21698470413684845,
      "num_tokens": 36950292.0,
      "step": 16120
    },
    {
      "entropy": 5.1331400871276855,
      "epoch": 1.5489913544668588,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004765225430172568,
      "loss": 4.9833,
      "mean_token_accuracy": 0.220487479865551,
      "num_tokens": 36962017.0,
      "step": 16125
    },
    {
      "entropy": 5.2799131870269775,
      "epoch": 1.5494716618635929,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004765072931352089,
      "loss": 5.0086,
      "mean_token_accuracy": 0.21049043387174607,
      "num_tokens": 36972831.0,
      "step": 16130
    },
    {
      "entropy": 5.199352645874024,
      "epoch": 1.5499519692603267,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00047649203857476,
      "loss": 4.8725,
      "mean_token_accuracy": 0.2225062444806099,
      "num_tokens": 36983324.0,
      "step": 16135
    },
    {
      "entropy": 5.153161334991455,
      "epoch": 1.5504322766570606,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00047647677933626423,
      "loss": 5.1157,
      "mean_token_accuracy": 0.20301380157470703,
      "num_tokens": 36996093.0,
      "step": 16140
    },
    {
      "entropy": 5.1830164909362795,
      "epoch": 1.5509125840537945,
      "grad_norm": 1.3125,
      "learning_rate": 0.00047646151542007583,
      "loss": 4.9454,
      "mean_token_accuracy": 0.2194085642695427,
      "num_tokens": 37006548.0,
      "step": 16145
    },
    {
      "entropy": 5.234643363952637,
      "epoch": 1.5513928914505284,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004764462468265494,
      "loss": 4.946,
      "mean_token_accuracy": 0.2132670909166336,
      "num_tokens": 37019181.0,
      "step": 16150
    },
    {
      "entropy": 5.261085796356201,
      "epoch": 1.5518731988472623,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00047643097355603913,
      "loss": 4.985,
      "mean_token_accuracy": 0.21415400505065918,
      "num_tokens": 37029808.0,
      "step": 16155
    },
    {
      "entropy": 5.180344581604004,
      "epoch": 1.5523535062439962,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004764156956088999,
      "loss": 4.9579,
      "mean_token_accuracy": 0.21201344579458237,
      "num_tokens": 37040352.0,
      "step": 16160
    },
    {
      "entropy": 5.1573163032531735,
      "epoch": 1.55283381364073,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004764004129854863,
      "loss": 4.9926,
      "mean_token_accuracy": 0.2195364996790886,
      "num_tokens": 37050780.0,
      "step": 16165
    },
    {
      "entropy": 5.190805196762085,
      "epoch": 1.553314121037464,
      "grad_norm": 1.171875,
      "learning_rate": 0.00047638512568615307,
      "loss": 4.9335,
      "mean_token_accuracy": 0.21873989403247834,
      "num_tokens": 37062608.0,
      "step": 16170
    },
    {
      "entropy": 5.184975290298462,
      "epoch": 1.5537944284341978,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004763698337112553,
      "loss": 5.0266,
      "mean_token_accuracy": 0.2099449321627617,
      "num_tokens": 37074578.0,
      "step": 16175
    },
    {
      "entropy": 5.243215465545655,
      "epoch": 1.5542747358309317,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004763545370611479,
      "loss": 5.0469,
      "mean_token_accuracy": 0.2158788859844208,
      "num_tokens": 37086487.0,
      "step": 16180
    },
    {
      "entropy": 5.2162518978118895,
      "epoch": 1.5547550432276656,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00047633923573618605,
      "loss": 4.9287,
      "mean_token_accuracy": 0.22581578940153121,
      "num_tokens": 37097249.0,
      "step": 16185
    },
    {
      "entropy": 5.257421016693115,
      "epoch": 1.5552353506243997,
      "grad_norm": 1.296875,
      "learning_rate": 0.000476323929736725,
      "loss": 5.1366,
      "mean_token_accuracy": 0.20327619165182115,
      "num_tokens": 37109274.0,
      "step": 16190
    },
    {
      "entropy": 5.191748714447021,
      "epoch": 1.5557156580211335,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00047630861906312004,
      "loss": 4.9506,
      "mean_token_accuracy": 0.21775271743535995,
      "num_tokens": 37120100.0,
      "step": 16195
    },
    {
      "entropy": 5.18410849571228,
      "epoch": 1.5561959654178674,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004762933037157268,
      "loss": 4.9254,
      "mean_token_accuracy": 0.21204567849636077,
      "num_tokens": 37131889.0,
      "step": 16200
    },
    {
      "entropy": 5.114263343811035,
      "epoch": 1.5566762728146013,
      "grad_norm": 1.359375,
      "learning_rate": 0.00047627798369490076,
      "loss": 4.8947,
      "mean_token_accuracy": 0.22275954782962798,
      "num_tokens": 37142538.0,
      "step": 16205
    },
    {
      "entropy": 5.235247564315796,
      "epoch": 1.5571565802113354,
      "grad_norm": 1.359375,
      "learning_rate": 0.00047626265900099757,
      "loss": 5.0412,
      "mean_token_accuracy": 0.2095339596271515,
      "num_tokens": 37153639.0,
      "step": 16210
    },
    {
      "entropy": 5.216181850433349,
      "epoch": 1.5576368876080693,
      "grad_norm": 1.453125,
      "learning_rate": 0.00047624732963437314,
      "loss": 4.9877,
      "mean_token_accuracy": 0.21557213515043258,
      "num_tokens": 37164029.0,
      "step": 16215
    },
    {
      "entropy": 5.211888360977173,
      "epoch": 1.5581171950048032,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00047623199559538324,
      "loss": 5.032,
      "mean_token_accuracy": 0.211012165248394,
      "num_tokens": 37175880.0,
      "step": 16220
    },
    {
      "entropy": 5.221793174743652,
      "epoch": 1.558597502401537,
      "grad_norm": 1.46875,
      "learning_rate": 0.000476216656884384,
      "loss": 4.9699,
      "mean_token_accuracy": 0.21573802679777146,
      "num_tokens": 37187483.0,
      "step": 16225
    },
    {
      "entropy": 5.2223461151123045,
      "epoch": 1.559077809798271,
      "grad_norm": 1.25,
      "learning_rate": 0.00047620131350173135,
      "loss": 4.9836,
      "mean_token_accuracy": 0.21847614794969558,
      "num_tokens": 37198978.0,
      "step": 16230
    },
    {
      "entropy": 5.254594516754151,
      "epoch": 1.5595581171950048,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004761859654477817,
      "loss": 5.0051,
      "mean_token_accuracy": 0.20368780344724655,
      "num_tokens": 37210054.0,
      "step": 16235
    },
    {
      "entropy": 5.1702179431915285,
      "epoch": 1.5600384245917387,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004761706127228914,
      "loss": 4.9572,
      "mean_token_accuracy": 0.21917274296283723,
      "num_tokens": 37221744.0,
      "step": 16240
    },
    {
      "entropy": 5.151251411437988,
      "epoch": 1.5605187319884726,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004761552553274168,
      "loss": 4.9985,
      "mean_token_accuracy": 0.21715299040079117,
      "num_tokens": 37234629.0,
      "step": 16245
    },
    {
      "entropy": 5.2933587551116945,
      "epoch": 1.5609990393852065,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004761398932617144,
      "loss": 5.0695,
      "mean_token_accuracy": 0.21107089519500732,
      "num_tokens": 37246960.0,
      "step": 16250
    },
    {
      "entropy": 5.151790046691895,
      "epoch": 1.5614793467819403,
      "grad_norm": 1.2578125,
      "learning_rate": 0.000476124526526141,
      "loss": 4.9236,
      "mean_token_accuracy": 0.2184425637125969,
      "num_tokens": 37259326.0,
      "step": 16255
    },
    {
      "entropy": 5.091758918762207,
      "epoch": 1.5619596541786742,
      "grad_norm": 1.609375,
      "learning_rate": 0.00047610915512105327,
      "loss": 4.9732,
      "mean_token_accuracy": 0.2134696900844574,
      "num_tokens": 37271436.0,
      "step": 16260
    },
    {
      "entropy": 5.234701013565063,
      "epoch": 1.562439961575408,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004760937790468082,
      "loss": 5.038,
      "mean_token_accuracy": 0.20630017220973967,
      "num_tokens": 37283230.0,
      "step": 16265
    },
    {
      "entropy": 5.2092828273773195,
      "epoch": 1.5629202689721422,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004760783983037627,
      "loss": 4.9399,
      "mean_token_accuracy": 0.21871796250343323,
      "num_tokens": 37295185.0,
      "step": 16270
    },
    {
      "entropy": 5.198478031158447,
      "epoch": 1.563400576368876,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004760630128922738,
      "loss": 5.0027,
      "mean_token_accuracy": 0.21369778662919997,
      "num_tokens": 37307573.0,
      "step": 16275
    },
    {
      "entropy": 5.271113395690918,
      "epoch": 1.56388088376561,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004760476228126989,
      "loss": 5.0284,
      "mean_token_accuracy": 0.21126459836959838,
      "num_tokens": 37319084.0,
      "step": 16280
    },
    {
      "entropy": 5.120991039276123,
      "epoch": 1.5643611911623438,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004760322280653951,
      "loss": 4.9307,
      "mean_token_accuracy": 0.21826708912849427,
      "num_tokens": 37330447.0,
      "step": 16285
    },
    {
      "entropy": 5.164800930023193,
      "epoch": 1.564841498559078,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004760168286507199,
      "loss": 4.8447,
      "mean_token_accuracy": 0.21647296249866485,
      "num_tokens": 37341184.0,
      "step": 16290
    },
    {
      "entropy": 5.217311954498291,
      "epoch": 1.5653218059558118,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00047600142456903085,
      "loss": 4.9875,
      "mean_token_accuracy": 0.21339131146669388,
      "num_tokens": 37352712.0,
      "step": 16295
    },
    {
      "entropy": 5.191257572174072,
      "epoch": 1.5658021133525457,
      "grad_norm": 1.21875,
      "learning_rate": 0.00047598601582068555,
      "loss": 5.0424,
      "mean_token_accuracy": 0.2111809030175209,
      "num_tokens": 37365001.0,
      "step": 16300
    },
    {
      "entropy": 5.306282901763916,
      "epoch": 1.5662824207492796,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004759706024060418,
      "loss": 5.1008,
      "mean_token_accuracy": 0.20626700818538665,
      "num_tokens": 37377005.0,
      "step": 16305
    },
    {
      "entropy": 5.196134757995606,
      "epoch": 1.5667627281460135,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004759551843254575,
      "loss": 4.9281,
      "mean_token_accuracy": 0.2204608216881752,
      "num_tokens": 37387329.0,
      "step": 16310
    },
    {
      "entropy": 5.256574726104736,
      "epoch": 1.5672430355427474,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00047593976157929034,
      "loss": 5.0302,
      "mean_token_accuracy": 0.21475369334220887,
      "num_tokens": 37398894.0,
      "step": 16315
    },
    {
      "entropy": 5.231758117675781,
      "epoch": 1.5677233429394812,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004759243341678987,
      "loss": 4.937,
      "mean_token_accuracy": 0.21920875310897828,
      "num_tokens": 37409913.0,
      "step": 16320
    },
    {
      "entropy": 5.217631864547729,
      "epoch": 1.5682036503362151,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004759089020916407,
      "loss": 4.899,
      "mean_token_accuracy": 0.21592830419540404,
      "num_tokens": 37421859.0,
      "step": 16325
    },
    {
      "entropy": 5.188553094863892,
      "epoch": 1.568683957732949,
      "grad_norm": 1.1875,
      "learning_rate": 0.00047589346535087444,
      "loss": 4.9689,
      "mean_token_accuracy": 0.21344497352838515,
      "num_tokens": 37432827.0,
      "step": 16330
    },
    {
      "entropy": 5.171142482757569,
      "epoch": 1.5691642651296829,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004758780239459586,
      "loss": 4.9727,
      "mean_token_accuracy": 0.22152907252311707,
      "num_tokens": 37444171.0,
      "step": 16335
    },
    {
      "entropy": 5.194261264801026,
      "epoch": 1.5696445725264168,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004758625778772514,
      "loss": 4.9252,
      "mean_token_accuracy": 0.2152291163802147,
      "num_tokens": 37455194.0,
      "step": 16340
    },
    {
      "entropy": 5.0763763904571535,
      "epoch": 1.5701248799231509,
      "grad_norm": 1.140625,
      "learning_rate": 0.00047584712714511166,
      "loss": 4.868,
      "mean_token_accuracy": 0.22146839201450347,
      "num_tokens": 37465839.0,
      "step": 16345
    },
    {
      "entropy": 5.157925367355347,
      "epoch": 1.5706051873198847,
      "grad_norm": 1.09375,
      "learning_rate": 0.00047583167174989797,
      "loss": 4.9428,
      "mean_token_accuracy": 0.22237591743469237,
      "num_tokens": 37476948.0,
      "step": 16350
    },
    {
      "entropy": 5.198430585861206,
      "epoch": 1.5710854947166186,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004758162116919692,
      "loss": 4.9383,
      "mean_token_accuracy": 0.21987285912036897,
      "num_tokens": 37487382.0,
      "step": 16355
    },
    {
      "entropy": 5.106133604049683,
      "epoch": 1.5715658021133525,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00047580074697168434,
      "loss": 4.9045,
      "mean_token_accuracy": 0.22711621075868607,
      "num_tokens": 37498347.0,
      "step": 16360
    },
    {
      "entropy": 5.189422130584717,
      "epoch": 1.5720461095100866,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00047578527758940236,
      "loss": 5.0108,
      "mean_token_accuracy": 0.20658042430877685,
      "num_tokens": 37509620.0,
      "step": 16365
    },
    {
      "entropy": 5.200649690628052,
      "epoch": 1.5725264169068205,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004757698035454825,
      "loss": 4.8942,
      "mean_token_accuracy": 0.22583490014076232,
      "num_tokens": 37519768.0,
      "step": 16370
    },
    {
      "entropy": 5.118372964859009,
      "epoch": 1.5730067243035544,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004757543248402839,
      "loss": 4.8915,
      "mean_token_accuracy": 0.21790195405483245,
      "num_tokens": 37530476.0,
      "step": 16375
    },
    {
      "entropy": 5.189021921157837,
      "epoch": 1.5734870317002883,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00047573884147416597,
      "loss": 5.0071,
      "mean_token_accuracy": 0.21477911174297332,
      "num_tokens": 37541702.0,
      "step": 16380
    },
    {
      "entropy": 5.234851312637329,
      "epoch": 1.5739673390970221,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004757233534474883,
      "loss": 4.9618,
      "mean_token_accuracy": 0.21515962332487107,
      "num_tokens": 37553323.0,
      "step": 16385
    },
    {
      "entropy": 5.239250135421753,
      "epoch": 1.574447646493756,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004757078607606103,
      "loss": 5.0426,
      "mean_token_accuracy": 0.20883728861808776,
      "num_tokens": 37564882.0,
      "step": 16390
    },
    {
      "entropy": 5.2088868618011475,
      "epoch": 1.57492795389049,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004756923634138918,
      "loss": 4.9551,
      "mean_token_accuracy": 0.21754217594861985,
      "num_tokens": 37575612.0,
      "step": 16395
    },
    {
      "entropy": 5.184630298614502,
      "epoch": 1.5754082612872238,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00047567686140769264,
      "loss": 4.9768,
      "mean_token_accuracy": 0.21821277886629104,
      "num_tokens": 37587089.0,
      "step": 16400
    },
    {
      "entropy": 5.175845193862915,
      "epoch": 1.5758885686839577,
      "grad_norm": 1.203125,
      "learning_rate": 0.00047566135474237247,
      "loss": 4.9184,
      "mean_token_accuracy": 0.21809831261634827,
      "num_tokens": 37598429.0,
      "step": 16405
    },
    {
      "entropy": 5.239535188674926,
      "epoch": 1.5763688760806915,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00047564584341829166,
      "loss": 5.0381,
      "mean_token_accuracy": 0.21282682567834854,
      "num_tokens": 37609769.0,
      "step": 16410
    },
    {
      "entropy": 5.221446514129639,
      "epoch": 1.5768491834774254,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00047563032743581,
      "loss": 5.087,
      "mean_token_accuracy": 0.20481704473495482,
      "num_tokens": 37622425.0,
      "step": 16415
    },
    {
      "entropy": 5.187086963653565,
      "epoch": 1.5773294908741593,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00047561480679528804,
      "loss": 4.9807,
      "mean_token_accuracy": 0.21880702823400497,
      "num_tokens": 37634819.0,
      "step": 16420
    },
    {
      "entropy": 5.198013353347778,
      "epoch": 1.5778097982708934,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004755992814970859,
      "loss": 4.8433,
      "mean_token_accuracy": 0.2195771813392639,
      "num_tokens": 37645531.0,
      "step": 16425
    },
    {
      "entropy": 5.127077627182007,
      "epoch": 1.5782901056676273,
      "grad_norm": 1.1875,
      "learning_rate": 0.000475583751541564,
      "loss": 4.9271,
      "mean_token_accuracy": 0.21498081386089324,
      "num_tokens": 37657243.0,
      "step": 16430
    },
    {
      "entropy": 5.225577545166016,
      "epoch": 1.5787704130643612,
      "grad_norm": 1.15625,
      "learning_rate": 0.00047556821692908315,
      "loss": 4.9839,
      "mean_token_accuracy": 0.21665328592061997,
      "num_tokens": 37668218.0,
      "step": 16435
    },
    {
      "entropy": 5.249110507965088,
      "epoch": 1.579250720461095,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004755526776600038,
      "loss": 4.9283,
      "mean_token_accuracy": 0.21837957799434662,
      "num_tokens": 37680173.0,
      "step": 16440
    },
    {
      "entropy": 5.161304950714111,
      "epoch": 1.5797310278578292,
      "grad_norm": 1.203125,
      "learning_rate": 0.00047553713373468684,
      "loss": 4.9597,
      "mean_token_accuracy": 0.21027158498764037,
      "num_tokens": 37691281.0,
      "step": 16445
    },
    {
      "entropy": 5.209333801269532,
      "epoch": 1.580211335254563,
      "grad_norm": 1.640625,
      "learning_rate": 0.00047552158515349306,
      "loss": 5.0076,
      "mean_token_accuracy": 0.20411573201417924,
      "num_tokens": 37702320.0,
      "step": 16450
    },
    {
      "entropy": 5.214414644241333,
      "epoch": 1.580691642651297,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00047550603191678356,
      "loss": 4.9337,
      "mean_token_accuracy": 0.21256616711616516,
      "num_tokens": 37713724.0,
      "step": 16455
    },
    {
      "entropy": 5.193028688430786,
      "epoch": 1.5811719500480308,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004754904740249194,
      "loss": 4.9276,
      "mean_token_accuracy": 0.21470242887735366,
      "num_tokens": 37724532.0,
      "step": 16460
    },
    {
      "entropy": 5.131993532180786,
      "epoch": 1.5816522574447647,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00047547491147826156,
      "loss": 4.8838,
      "mean_token_accuracy": 0.22787191569805146,
      "num_tokens": 37735174.0,
      "step": 16465
    },
    {
      "entropy": 5.177940845489502,
      "epoch": 1.5821325648414986,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004754593442771718,
      "loss": 5.0392,
      "mean_token_accuracy": 0.21157672852277756,
      "num_tokens": 37746981.0,
      "step": 16470
    },
    {
      "entropy": 5.217215061187744,
      "epoch": 1.5826128722382324,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00047544377242201115,
      "loss": 4.989,
      "mean_token_accuracy": 0.2165716901421547,
      "num_tokens": 37757576.0,
      "step": 16475
    },
    {
      "entropy": 5.216026020050049,
      "epoch": 1.5830931796349663,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00047542819591314136,
      "loss": 5.006,
      "mean_token_accuracy": 0.2124703660607338,
      "num_tokens": 37769053.0,
      "step": 16480
    },
    {
      "entropy": 5.248029994964599,
      "epoch": 1.5835734870317002,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004754126147509241,
      "loss": 4.9664,
      "mean_token_accuracy": 0.2157026171684265,
      "num_tokens": 37780517.0,
      "step": 16485
    },
    {
      "entropy": 5.269943332672119,
      "epoch": 1.584053794428434,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00047539702893572086,
      "loss": 5.0513,
      "mean_token_accuracy": 0.20178954899311066,
      "num_tokens": 37791333.0,
      "step": 16490
    },
    {
      "entropy": 5.14649658203125,
      "epoch": 1.584534101825168,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00047538143846789376,
      "loss": 4.9061,
      "mean_token_accuracy": 0.22500312328338623,
      "num_tokens": 37802635.0,
      "step": 16495
    },
    {
      "entropy": 5.0807657718658445,
      "epoch": 1.585014409221902,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004753658433478047,
      "loss": 4.8146,
      "mean_token_accuracy": 0.22304627895355225,
      "num_tokens": 37814788.0,
      "step": 16500
    },
    {
      "entropy": 5.194208145141602,
      "epoch": 1.585494716618636,
      "grad_norm": 1.171875,
      "learning_rate": 0.00047535024357581564,
      "loss": 4.9254,
      "mean_token_accuracy": 0.2166296660900116,
      "num_tokens": 37826650.0,
      "step": 16505
    },
    {
      "entropy": 5.219819498062134,
      "epoch": 1.5859750240153698,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004753346391522889,
      "loss": 5.0167,
      "mean_token_accuracy": 0.21236117631196977,
      "num_tokens": 37839362.0,
      "step": 16510
    },
    {
      "entropy": 5.205073118209839,
      "epoch": 1.5864553314121037,
      "grad_norm": 1.5,
      "learning_rate": 0.00047531903007758667,
      "loss": 4.9954,
      "mean_token_accuracy": 0.209988933801651,
      "num_tokens": 37851057.0,
      "step": 16515
    },
    {
      "entropy": 5.181534385681152,
      "epoch": 1.5869356388088378,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004753034163520714,
      "loss": 4.8959,
      "mean_token_accuracy": 0.22577075511217118,
      "num_tokens": 37863507.0,
      "step": 16520
    },
    {
      "entropy": 5.188526678085327,
      "epoch": 1.5874159462055717,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00047528779797610557,
      "loss": 4.9664,
      "mean_token_accuracy": 0.2138543888926506,
      "num_tokens": 37874439.0,
      "step": 16525
    },
    {
      "entropy": 5.17763729095459,
      "epoch": 1.5878962536023056,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00047527217495005184,
      "loss": 4.9292,
      "mean_token_accuracy": 0.21783537715673446,
      "num_tokens": 37886720.0,
      "step": 16530
    },
    {
      "entropy": 5.214607858657837,
      "epoch": 1.5883765609990395,
      "grad_norm": 1.265625,
      "learning_rate": 0.00047525654727427285,
      "loss": 5.0085,
      "mean_token_accuracy": 0.21364359855651854,
      "num_tokens": 37897919.0,
      "step": 16535
    },
    {
      "entropy": 5.20990104675293,
      "epoch": 1.5888568683957733,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004752409149491315,
      "loss": 5.0482,
      "mean_token_accuracy": 0.21286925077438354,
      "num_tokens": 37911061.0,
      "step": 16540
    },
    {
      "entropy": 5.240172100067139,
      "epoch": 1.5893371757925072,
      "grad_norm": 1.15625,
      "learning_rate": 0.00047522527797499075,
      "loss": 5.0121,
      "mean_token_accuracy": 0.21240307092666627,
      "num_tokens": 37922677.0,
      "step": 16545
    },
    {
      "entropy": 5.096889591217041,
      "epoch": 1.589817483189241,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004752096363522135,
      "loss": 4.8004,
      "mean_token_accuracy": 0.2269800528883934,
      "num_tokens": 37932802.0,
      "step": 16550
    },
    {
      "entropy": 5.175290727615357,
      "epoch": 1.590297790585975,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00047519399008116305,
      "loss": 4.9299,
      "mean_token_accuracy": 0.21652191430330275,
      "num_tokens": 37944782.0,
      "step": 16555
    },
    {
      "entropy": 5.169613695144653,
      "epoch": 1.5907780979827089,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004751783391622026,
      "loss": 4.9413,
      "mean_token_accuracy": 0.21697622388601304,
      "num_tokens": 37956577.0,
      "step": 16560
    },
    {
      "entropy": 5.214099884033203,
      "epoch": 1.5912584053794427,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004751626835956955,
      "loss": 4.9855,
      "mean_token_accuracy": 0.21233401596546173,
      "num_tokens": 37967937.0,
      "step": 16565
    },
    {
      "entropy": 5.126390886306763,
      "epoch": 1.5917387127761766,
      "grad_norm": 1.25,
      "learning_rate": 0.0004751470233820053,
      "loss": 4.9299,
      "mean_token_accuracy": 0.22897855043411255,
      "num_tokens": 37978113.0,
      "step": 16570
    },
    {
      "entropy": 5.143404293060303,
      "epoch": 1.5922190201729105,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004751313585214955,
      "loss": 4.8748,
      "mean_token_accuracy": 0.22316106110811235,
      "num_tokens": 37988852.0,
      "step": 16575
    },
    {
      "entropy": 5.231024122238159,
      "epoch": 1.5926993275696446,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004751156890145298,
      "loss": 4.9576,
      "mean_token_accuracy": 0.2123672142624855,
      "num_tokens": 38000531.0,
      "step": 16580
    },
    {
      "entropy": 5.1332155704498295,
      "epoch": 1.5931796349663785,
      "grad_norm": 1.3828125,
      "learning_rate": 0.000475100014861472,
      "loss": 4.932,
      "mean_token_accuracy": 0.22418509423732758,
      "num_tokens": 38011818.0,
      "step": 16585
    },
    {
      "entropy": 5.2205602645874025,
      "epoch": 1.5936599423631124,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004750843360626861,
      "loss": 4.9578,
      "mean_token_accuracy": 0.22010722607374192,
      "num_tokens": 38022455.0,
      "step": 16590
    },
    {
      "entropy": 5.125461912155151,
      "epoch": 1.5941402497598463,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004750686526185359,
      "loss": 4.9286,
      "mean_token_accuracy": 0.22543989717960358,
      "num_tokens": 38033126.0,
      "step": 16595
    },
    {
      "entropy": 5.033788013458252,
      "epoch": 1.5946205571565804,
      "grad_norm": 1.171875,
      "learning_rate": 0.00047505296452938584,
      "loss": 4.8884,
      "mean_token_accuracy": 0.21922594010829927,
      "num_tokens": 38044935.0,
      "step": 16600
    },
    {
      "entropy": 5.212667560577392,
      "epoch": 1.5951008645533142,
      "grad_norm": 1.171875,
      "learning_rate": 0.00047503727179559995,
      "loss": 4.9732,
      "mean_token_accuracy": 0.21320051848888397,
      "num_tokens": 38056080.0,
      "step": 16605
    },
    {
      "entropy": 5.208511447906494,
      "epoch": 1.5955811719500481,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00047502157441754256,
      "loss": 4.9921,
      "mean_token_accuracy": 0.2140924945473671,
      "num_tokens": 38066788.0,
      "step": 16610
    },
    {
      "entropy": 5.246877956390381,
      "epoch": 1.596061479346782,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004750058723955781,
      "loss": 5.0093,
      "mean_token_accuracy": 0.21564434170722963,
      "num_tokens": 38079529.0,
      "step": 16615
    },
    {
      "entropy": 5.1925897121429445,
      "epoch": 1.5965417867435159,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004749901657300713,
      "loss": 4.9602,
      "mean_token_accuracy": 0.21586501747369766,
      "num_tokens": 38091484.0,
      "step": 16620
    },
    {
      "entropy": 5.188087844848633,
      "epoch": 1.5970220941402498,
      "grad_norm": 1.296875,
      "learning_rate": 0.00047497445442138667,
      "loss": 4.9166,
      "mean_token_accuracy": 0.21774567365646363,
      "num_tokens": 38103102.0,
      "step": 16625
    },
    {
      "entropy": 5.196709108352661,
      "epoch": 1.5975024015369836,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00047495873846988896,
      "loss": 5.0333,
      "mean_token_accuracy": 0.2103504180908203,
      "num_tokens": 38115565.0,
      "step": 16630
    },
    {
      "entropy": 5.170992374420166,
      "epoch": 1.5979827089337175,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004749430178759431,
      "loss": 4.9409,
      "mean_token_accuracy": 0.217051962018013,
      "num_tokens": 38126741.0,
      "step": 16635
    },
    {
      "entropy": 5.17347526550293,
      "epoch": 1.5984630163304514,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00047492729263991413,
      "loss": 4.9496,
      "mean_token_accuracy": 0.2166967958211899,
      "num_tokens": 38137149.0,
      "step": 16640
    },
    {
      "entropy": 5.188420677185059,
      "epoch": 1.5989433237271853,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00047491156276216695,
      "loss": 4.8864,
      "mean_token_accuracy": 0.2285622701048851,
      "num_tokens": 38148537.0,
      "step": 16645
    },
    {
      "entropy": 5.168776988983154,
      "epoch": 1.5994236311239192,
      "grad_norm": 1.28125,
      "learning_rate": 0.00047489582824306704,
      "loss": 4.9282,
      "mean_token_accuracy": 0.21946836411952972,
      "num_tokens": 38159097.0,
      "step": 16650
    },
    {
      "entropy": 5.191212558746338,
      "epoch": 1.5999039385206533,
      "grad_norm": 1.21875,
      "learning_rate": 0.00047488008908297955,
      "loss": 4.9028,
      "mean_token_accuracy": 0.22523313760757446,
      "num_tokens": 38171400.0,
      "step": 16655
    },
    {
      "entropy": 5.212293004989624,
      "epoch": 1.6003842459173871,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004748643452822699,
      "loss": 4.955,
      "mean_token_accuracy": 0.21418403089046478,
      "num_tokens": 38181876.0,
      "step": 16660
    },
    {
      "entropy": 5.211285972595215,
      "epoch": 1.600864553314121,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004748485968413036,
      "loss": 4.9318,
      "mean_token_accuracy": 0.22244168519973756,
      "num_tokens": 38193680.0,
      "step": 16665
    },
    {
      "entropy": 5.134846878051758,
      "epoch": 1.601344860710855,
      "grad_norm": 1.28125,
      "learning_rate": 0.00047483284376044634,
      "loss": 4.9106,
      "mean_token_accuracy": 0.2231910213828087,
      "num_tokens": 38204944.0,
      "step": 16670
    },
    {
      "entropy": 5.129866218566894,
      "epoch": 1.601825168107589,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004748170860400638,
      "loss": 4.8625,
      "mean_token_accuracy": 0.2263529285788536,
      "num_tokens": 38216381.0,
      "step": 16675
    },
    {
      "entropy": 5.1508636474609375,
      "epoch": 1.602305475504323,
      "grad_norm": 1.203125,
      "learning_rate": 0.00047480132368052185,
      "loss": 4.8845,
      "mean_token_accuracy": 0.22613088488578797,
      "num_tokens": 38227420.0,
      "step": 16680
    },
    {
      "entropy": 5.208236646652222,
      "epoch": 1.6027857829010568,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00047478555668218643,
      "loss": 5.0062,
      "mean_token_accuracy": 0.21762621849775315,
      "num_tokens": 38237869.0,
      "step": 16685
    },
    {
      "entropy": 5.164920616149902,
      "epoch": 1.6032660902977907,
      "grad_norm": 1.25,
      "learning_rate": 0.0004747697850454237,
      "loss": 4.9765,
      "mean_token_accuracy": 0.2174433395266533,
      "num_tokens": 38250362.0,
      "step": 16690
    },
    {
      "entropy": 5.280116271972656,
      "epoch": 1.6037463976945245,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004747540087705997,
      "loss": 5.0409,
      "mean_token_accuracy": 0.21639316529035568,
      "num_tokens": 38262887.0,
      "step": 16695
    },
    {
      "entropy": 5.230034446716308,
      "epoch": 1.6042267050912584,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004747382278580808,
      "loss": 4.9034,
      "mean_token_accuracy": 0.2294904425740242,
      "num_tokens": 38273206.0,
      "step": 16700
    },
    {
      "entropy": 5.185104942321777,
      "epoch": 1.6047070124879923,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004747224423082333,
      "loss": 4.9173,
      "mean_token_accuracy": 0.21850554943084716,
      "num_tokens": 38283307.0,
      "step": 16705
    },
    {
      "entropy": 5.211791467666626,
      "epoch": 1.6051873198847262,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00047470665212142384,
      "loss": 4.9883,
      "mean_token_accuracy": 0.21574016958475112,
      "num_tokens": 38293830.0,
      "step": 16710
    },
    {
      "entropy": 5.214894819259643,
      "epoch": 1.60566762728146,
      "grad_norm": 1.234375,
      "learning_rate": 0.00047469085729801887,
      "loss": 4.9774,
      "mean_token_accuracy": 0.219608137011528,
      "num_tokens": 38306523.0,
      "step": 16715
    },
    {
      "entropy": 5.200537395477295,
      "epoch": 1.606147934678194,
      "grad_norm": 1.34375,
      "learning_rate": 0.00047467505783838515,
      "loss": 4.9473,
      "mean_token_accuracy": 0.2235700950026512,
      "num_tokens": 38318468.0,
      "step": 16720
    },
    {
      "entropy": 5.2180544376373295,
      "epoch": 1.6066282420749278,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004746592537428895,
      "loss": 4.8867,
      "mean_token_accuracy": 0.22414906024932862,
      "num_tokens": 38329852.0,
      "step": 16725
    },
    {
      "entropy": 5.076629400253296,
      "epoch": 1.6071085494716617,
      "grad_norm": 1.28125,
      "learning_rate": 0.00047464344501189877,
      "loss": 4.8605,
      "mean_token_accuracy": 0.23030537664890288,
      "num_tokens": 38340951.0,
      "step": 16730
    },
    {
      "entropy": 5.25096173286438,
      "epoch": 1.6075888568683958,
      "grad_norm": 1.1875,
      "learning_rate": 0.00047462763164578015,
      "loss": 5.0228,
      "mean_token_accuracy": 0.21357613205909728,
      "num_tokens": 38351490.0,
      "step": 16735
    },
    {
      "entropy": 5.198782014846802,
      "epoch": 1.6080691642651297,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004746118136449007,
      "loss": 4.9292,
      "mean_token_accuracy": 0.2180192857980728,
      "num_tokens": 38362364.0,
      "step": 16740
    },
    {
      "entropy": 5.180115175247193,
      "epoch": 1.6085494716618636,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004745959910096276,
      "loss": 4.9898,
      "mean_token_accuracy": 0.22322781383991241,
      "num_tokens": 38374132.0,
      "step": 16745
    },
    {
      "entropy": 5.1993663787841795,
      "epoch": 1.6090297790585975,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00047458016374032837,
      "loss": 4.9685,
      "mean_token_accuracy": 0.2143290311098099,
      "num_tokens": 38384608.0,
      "step": 16750
    },
    {
      "entropy": 5.17359938621521,
      "epoch": 1.6095100864553316,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004745643318373703,
      "loss": 4.9836,
      "mean_token_accuracy": 0.21605729013681413,
      "num_tokens": 38396639.0,
      "step": 16755
    },
    {
      "entropy": 5.18921127319336,
      "epoch": 1.6099903938520654,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00047454849530112106,
      "loss": 4.9898,
      "mean_token_accuracy": 0.2078189730644226,
      "num_tokens": 38407954.0,
      "step": 16760
    },
    {
      "entropy": 5.28509259223938,
      "epoch": 1.6104707012487993,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00047453265413194826,
      "loss": 4.9396,
      "mean_token_accuracy": 0.2211918741464615,
      "num_tokens": 38418939.0,
      "step": 16765
    },
    {
      "entropy": 5.21851601600647,
      "epoch": 1.6109510086455332,
      "grad_norm": 1.171875,
      "learning_rate": 0.00047451680833021973,
      "loss": 4.9328,
      "mean_token_accuracy": 0.21415177136659622,
      "num_tokens": 38429717.0,
      "step": 16770
    },
    {
      "entropy": 5.12396125793457,
      "epoch": 1.611431316042267,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004745009578963034,
      "loss": 4.8761,
      "mean_token_accuracy": 0.22479525655508042,
      "num_tokens": 38441054.0,
      "step": 16775
    },
    {
      "entropy": 5.115128135681152,
      "epoch": 1.611911623439001,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00047448510283056716,
      "loss": 4.9116,
      "mean_token_accuracy": 0.22436713427305222,
      "num_tokens": 38451329.0,
      "step": 16780
    },
    {
      "entropy": 5.247094392776489,
      "epoch": 1.6123919308357348,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00047446924313337925,
      "loss": 4.9893,
      "mean_token_accuracy": 0.21566009074449538,
      "num_tokens": 38462118.0,
      "step": 16785
    },
    {
      "entropy": 5.180738306045532,
      "epoch": 1.6128722382324687,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00047445337880510773,
      "loss": 4.9299,
      "mean_token_accuracy": 0.22173037976026536,
      "num_tokens": 38472642.0,
      "step": 16790
    },
    {
      "entropy": 5.087857055664062,
      "epoch": 1.6133525456292026,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004744375098461211,
      "loss": 4.8573,
      "mean_token_accuracy": 0.22567004710435867,
      "num_tokens": 38483866.0,
      "step": 16795
    },
    {
      "entropy": 5.136823225021362,
      "epoch": 1.6138328530259365,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004744216362567876,
      "loss": 4.856,
      "mean_token_accuracy": 0.2275155559182167,
      "num_tokens": 38494164.0,
      "step": 16800
    },
    {
      "entropy": 5.250975799560547,
      "epoch": 1.6143131604226704,
      "grad_norm": 1.375,
      "learning_rate": 0.00047440575803747595,
      "loss": 5.0822,
      "mean_token_accuracy": 0.20916907489299774,
      "num_tokens": 38505340.0,
      "step": 16805
    },
    {
      "entropy": 5.361870002746582,
      "epoch": 1.6147934678194045,
      "grad_norm": 1.265625,
      "learning_rate": 0.00047438987518855463,
      "loss": 5.082,
      "mean_token_accuracy": 0.20903967767953874,
      "num_tokens": 38516164.0,
      "step": 16810
    },
    {
      "entropy": 5.22707691192627,
      "epoch": 1.6152737752161384,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004743739877103926,
      "loss": 4.9441,
      "mean_token_accuracy": 0.21966830492019654,
      "num_tokens": 38526545.0,
      "step": 16815
    },
    {
      "entropy": 5.091162443161011,
      "epoch": 1.6157540826128722,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004743580956033585,
      "loss": 4.9081,
      "mean_token_accuracy": 0.2183246672153473,
      "num_tokens": 38538102.0,
      "step": 16820
    },
    {
      "entropy": 5.256732702255249,
      "epoch": 1.6162343900096061,
      "grad_norm": 1.140625,
      "learning_rate": 0.00047434219886782135,
      "loss": 5.0344,
      "mean_token_accuracy": 0.21077128499746323,
      "num_tokens": 38550594.0,
      "step": 16825
    },
    {
      "entropy": 5.209319257736206,
      "epoch": 1.6167146974063402,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004743262975041504,
      "loss": 4.9029,
      "mean_token_accuracy": 0.2212669938802719,
      "num_tokens": 38561666.0,
      "step": 16830
    },
    {
      "entropy": 5.135405111312866,
      "epoch": 1.617195004803074,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004743103915127146,
      "loss": 4.8723,
      "mean_token_accuracy": 0.22310091853141784,
      "num_tokens": 38572923.0,
      "step": 16835
    },
    {
      "entropy": 5.170195627212524,
      "epoch": 1.617675312199808,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00047429448089388336,
      "loss": 4.9256,
      "mean_token_accuracy": 0.22085566222667694,
      "num_tokens": 38584108.0,
      "step": 16840
    },
    {
      "entropy": 5.3052619934082035,
      "epoch": 1.6181556195965419,
      "grad_norm": 1.296875,
      "learning_rate": 0.00047427856564802605,
      "loss": 5.052,
      "mean_token_accuracy": 0.20214477479457854,
      "num_tokens": 38594974.0,
      "step": 16845
    },
    {
      "entropy": 5.246438884735108,
      "epoch": 1.6186359269932757,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004742626457755122,
      "loss": 5.0071,
      "mean_token_accuracy": 0.2198152020573616,
      "num_tokens": 38606436.0,
      "step": 16850
    },
    {
      "entropy": 5.152284097671509,
      "epoch": 1.6191162343900096,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004742467212767114,
      "loss": 4.8889,
      "mean_token_accuracy": 0.2204935997724533,
      "num_tokens": 38618760.0,
      "step": 16855
    },
    {
      "entropy": 5.138833665847779,
      "epoch": 1.6195965417867435,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004742307921519933,
      "loss": 4.8611,
      "mean_token_accuracy": 0.2265857771039009,
      "num_tokens": 38629901.0,
      "step": 16860
    },
    {
      "entropy": 5.268418407440185,
      "epoch": 1.6200768491834774,
      "grad_norm": 1.171875,
      "learning_rate": 0.00047421485840172794,
      "loss": 5.0478,
      "mean_token_accuracy": 0.20666339248418808,
      "num_tokens": 38640798.0,
      "step": 16865
    },
    {
      "entropy": 5.245220804214478,
      "epoch": 1.6205571565802113,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004741989200262851,
      "loss": 4.9676,
      "mean_token_accuracy": 0.21834530234336852,
      "num_tokens": 38653048.0,
      "step": 16870
    },
    {
      "entropy": 5.228298997879028,
      "epoch": 1.6210374639769451,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004741829770260347,
      "loss": 5.0116,
      "mean_token_accuracy": 0.21510974317789078,
      "num_tokens": 38666219.0,
      "step": 16875
    },
    {
      "entropy": 5.2042152881622314,
      "epoch": 1.621517771373679,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00047416702940134714,
      "loss": 4.909,
      "mean_token_accuracy": 0.22228912860155106,
      "num_tokens": 38678584.0,
      "step": 16880
    },
    {
      "entropy": 5.181402587890625,
      "epoch": 1.621998078770413,
      "grad_norm": 1.109375,
      "learning_rate": 0.00047415107715259255,
      "loss": 4.9377,
      "mean_token_accuracy": 0.21005474478006364,
      "num_tokens": 38690164.0,
      "step": 16885
    },
    {
      "entropy": 5.208297920227051,
      "epoch": 1.622478386167147,
      "grad_norm": 1.28125,
      "learning_rate": 0.00047413512028014125,
      "loss": 5.0103,
      "mean_token_accuracy": 0.21610539108514787,
      "num_tokens": 38702035.0,
      "step": 16890
    },
    {
      "entropy": 5.2519388675689695,
      "epoch": 1.622958693563881,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004741191587843638,
      "loss": 5.0296,
      "mean_token_accuracy": 0.21492973119020461,
      "num_tokens": 38713802.0,
      "step": 16895
    },
    {
      "entropy": 5.190322732925415,
      "epoch": 1.6234390009606148,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004741031926656308,
      "loss": 4.8923,
      "mean_token_accuracy": 0.22572966963052749,
      "num_tokens": 38725682.0,
      "step": 16900
    },
    {
      "entropy": 5.178541278839111,
      "epoch": 1.6239193083573487,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004740872219243128,
      "loss": 4.9072,
      "mean_token_accuracy": 0.21873684823513032,
      "num_tokens": 38737897.0,
      "step": 16905
    },
    {
      "entropy": 5.229857921600342,
      "epoch": 1.6243996157540828,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004740712465607807,
      "loss": 5.018,
      "mean_token_accuracy": 0.2116595149040222,
      "num_tokens": 38749446.0,
      "step": 16910
    },
    {
      "entropy": 5.176464700698853,
      "epoch": 1.6248799231508166,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004740552665754054,
      "loss": 4.9725,
      "mean_token_accuracy": 0.21386126130819322,
      "num_tokens": 38761406.0,
      "step": 16915
    },
    {
      "entropy": 5.204869890213013,
      "epoch": 1.6253602305475505,
      "grad_norm": 1.1875,
      "learning_rate": 0.00047403928196855776,
      "loss": 4.976,
      "mean_token_accuracy": 0.22327034771442414,
      "num_tokens": 38772574.0,
      "step": 16920
    },
    {
      "entropy": 5.201022005081176,
      "epoch": 1.6258405379442844,
      "grad_norm": 1.1875,
      "learning_rate": 0.00047402329274060916,
      "loss": 4.9489,
      "mean_token_accuracy": 0.22577953338623047,
      "num_tokens": 38782932.0,
      "step": 16925
    },
    {
      "entropy": 5.209049367904663,
      "epoch": 1.6263208453410183,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004740072988919306,
      "loss": 5.009,
      "mean_token_accuracy": 0.21278314143419266,
      "num_tokens": 38793799.0,
      "step": 16930
    },
    {
      "entropy": 5.073943376541138,
      "epoch": 1.6268011527377522,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004739913004228936,
      "loss": 4.8296,
      "mean_token_accuracy": 0.2272112175822258,
      "num_tokens": 38804899.0,
      "step": 16935
    },
    {
      "entropy": 5.17745361328125,
      "epoch": 1.627281460134486,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004739752973338694,
      "loss": 5.0203,
      "mean_token_accuracy": 0.20754062682390212,
      "num_tokens": 38816455.0,
      "step": 16940
    },
    {
      "entropy": 5.232742404937744,
      "epoch": 1.62776176753122,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00047395928962522965,
      "loss": 4.9653,
      "mean_token_accuracy": 0.21127762645483017,
      "num_tokens": 38827735.0,
      "step": 16945
    },
    {
      "entropy": 5.1770717144012455,
      "epoch": 1.6282420749279538,
      "grad_norm": 1.234375,
      "learning_rate": 0.00047394327729734595,
      "loss": 4.9796,
      "mean_token_accuracy": 0.2126038447022438,
      "num_tokens": 38838536.0,
      "step": 16950
    },
    {
      "entropy": 5.273472642898559,
      "epoch": 1.6287223823246877,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004739272603505901,
      "loss": 5.0236,
      "mean_token_accuracy": 0.21635421216487885,
      "num_tokens": 38849577.0,
      "step": 16955
    },
    {
      "entropy": 5.277729892730713,
      "epoch": 1.6292026897214216,
      "grad_norm": 1.2421875,
      "learning_rate": 0.000473911238785334,
      "loss": 4.981,
      "mean_token_accuracy": 0.21457867622375487,
      "num_tokens": 38861370.0,
      "step": 16960
    },
    {
      "entropy": 5.16580753326416,
      "epoch": 1.6296829971181557,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004738952126019496,
      "loss": 4.927,
      "mean_token_accuracy": 0.21482086628675462,
      "num_tokens": 38872885.0,
      "step": 16965
    },
    {
      "entropy": 5.1759748458862305,
      "epoch": 1.6301633045148896,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004738791818008089,
      "loss": 4.9798,
      "mean_token_accuracy": 0.21594414860010147,
      "num_tokens": 38885440.0,
      "step": 16970
    },
    {
      "entropy": 5.167402601242065,
      "epoch": 1.6306436119116234,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004738631463822841,
      "loss": 4.8927,
      "mean_token_accuracy": 0.22061660438776015,
      "num_tokens": 38897108.0,
      "step": 16975
    },
    {
      "entropy": 5.139171504974366,
      "epoch": 1.6311239193083573,
      "grad_norm": 1.25,
      "learning_rate": 0.00047384710634674766,
      "loss": 4.9746,
      "mean_token_accuracy": 0.21460178643465042,
      "num_tokens": 38908020.0,
      "step": 16980
    },
    {
      "entropy": 5.231308460235596,
      "epoch": 1.6316042267050914,
      "grad_norm": 1.390625,
      "learning_rate": 0.00047383106169457184,
      "loss": 4.982,
      "mean_token_accuracy": 0.21495762020349501,
      "num_tokens": 38919558.0,
      "step": 16985
    },
    {
      "entropy": 5.212464714050293,
      "epoch": 1.6320845341018253,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004738150124261292,
      "loss": 4.9595,
      "mean_token_accuracy": 0.22091935575008392,
      "num_tokens": 38931008.0,
      "step": 16990
    },
    {
      "entropy": 5.120176219940186,
      "epoch": 1.6325648414985592,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00047379895854179226,
      "loss": 4.8583,
      "mean_token_accuracy": 0.22508623749017714,
      "num_tokens": 38943474.0,
      "step": 16995
    },
    {
      "entropy": 5.216991710662842,
      "epoch": 1.633045148895293,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004737829000419338,
      "loss": 5.051,
      "mean_token_accuracy": 0.2126992627978325,
      "num_tokens": 38954592.0,
      "step": 17000
    },
    {
      "entropy": 5.210864067077637,
      "epoch": 1.633525456292027,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00047376683692692666,
      "loss": 4.9369,
      "mean_token_accuracy": 0.21950011253356932,
      "num_tokens": 38965627.0,
      "step": 17005
    },
    {
      "entropy": 5.096020603179932,
      "epoch": 1.6340057636887608,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004737507691971439,
      "loss": 4.9038,
      "mean_token_accuracy": 0.2222321853041649,
      "num_tokens": 38975731.0,
      "step": 17010
    },
    {
      "entropy": 5.133788967132569,
      "epoch": 1.6344860710854947,
      "grad_norm": 1.3125,
      "learning_rate": 0.00047373469685295833,
      "loss": 4.9094,
      "mean_token_accuracy": 0.22627927511930465,
      "num_tokens": 38987101.0,
      "step": 17015
    },
    {
      "entropy": 5.1970940113067625,
      "epoch": 1.6349663784822286,
      "grad_norm": 1.1875,
      "learning_rate": 0.00047371861989474326,
      "loss": 4.957,
      "mean_token_accuracy": 0.22381552755832673,
      "num_tokens": 38999584.0,
      "step": 17020
    },
    {
      "entropy": 5.131382656097412,
      "epoch": 1.6354466858789625,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004737025383228719,
      "loss": 4.9378,
      "mean_token_accuracy": 0.2247656613588333,
      "num_tokens": 39012025.0,
      "step": 17025
    },
    {
      "entropy": 5.053452491760254,
      "epoch": 1.6359269932756964,
      "grad_norm": 1.453125,
      "learning_rate": 0.00047368645213771764,
      "loss": 4.8227,
      "mean_token_accuracy": 0.2244688794016838,
      "num_tokens": 39024102.0,
      "step": 17030
    },
    {
      "entropy": 5.165864324569702,
      "epoch": 1.6364073006724302,
      "grad_norm": 1.4296875,
      "learning_rate": 0.000473670361339654,
      "loss": 4.957,
      "mean_token_accuracy": 0.2133333921432495,
      "num_tokens": 39035295.0,
      "step": 17035
    },
    {
      "entropy": 5.164595079421997,
      "epoch": 1.6368876080691641,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004736542659290544,
      "loss": 4.8585,
      "mean_token_accuracy": 0.22263574600219727,
      "num_tokens": 39046493.0,
      "step": 17040
    },
    {
      "entropy": 5.168615007400513,
      "epoch": 1.6373679154658982,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004736381659062927,
      "loss": 4.9059,
      "mean_token_accuracy": 0.21746231317520143,
      "num_tokens": 39056746.0,
      "step": 17045
    },
    {
      "entropy": 5.183399057388305,
      "epoch": 1.637848222862632,
      "grad_norm": 1.34375,
      "learning_rate": 0.00047362206127174255,
      "loss": 4.9483,
      "mean_token_accuracy": 0.2127215713262558,
      "num_tokens": 39068263.0,
      "step": 17050
    },
    {
      "entropy": 5.211107921600342,
      "epoch": 1.638328530259366,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00047360595202577786,
      "loss": 4.9733,
      "mean_token_accuracy": 0.21741271317005156,
      "num_tokens": 39080666.0,
      "step": 17055
    },
    {
      "entropy": 5.103889846801758,
      "epoch": 1.6388088376560999,
      "grad_norm": 1.234375,
      "learning_rate": 0.00047358983816877284,
      "loss": 4.9431,
      "mean_token_accuracy": 0.21217281520366668,
      "num_tokens": 39091851.0,
      "step": 17060
    },
    {
      "entropy": 5.235210275650024,
      "epoch": 1.639289145052834,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004735737197011015,
      "loss": 4.9498,
      "mean_token_accuracy": 0.2229301705956459,
      "num_tokens": 39102893.0,
      "step": 17065
    },
    {
      "entropy": 5.150740432739258,
      "epoch": 1.6397694524495678,
      "grad_norm": 1.328125,
      "learning_rate": 0.00047355759662313793,
      "loss": 4.8814,
      "mean_token_accuracy": 0.2147470995783806,
      "num_tokens": 39113582.0,
      "step": 17070
    },
    {
      "entropy": 5.24199595451355,
      "epoch": 1.6402497598463017,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004735414689352566,
      "loss": 5.0776,
      "mean_token_accuracy": 0.21010097116231918,
      "num_tokens": 39124616.0,
      "step": 17075
    },
    {
      "entropy": 5.12250599861145,
      "epoch": 1.6407300672430356,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004735253366378318,
      "loss": 4.8727,
      "mean_token_accuracy": 0.22840944528579712,
      "num_tokens": 39135537.0,
      "step": 17080
    },
    {
      "entropy": 5.1794140338897705,
      "epoch": 1.6412103746397695,
      "grad_norm": 1.25,
      "learning_rate": 0.0004735091997312383,
      "loss": 4.9501,
      "mean_token_accuracy": 0.22090162485837936,
      "num_tokens": 39146363.0,
      "step": 17085
    },
    {
      "entropy": 5.157111310958863,
      "epoch": 1.6416906820365034,
      "grad_norm": 1.296875,
      "learning_rate": 0.00047349305821585067,
      "loss": 4.91,
      "mean_token_accuracy": 0.22369770109653472,
      "num_tokens": 39157319.0,
      "step": 17090
    },
    {
      "entropy": 5.173314619064331,
      "epoch": 1.6421709894332372,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004734769120920435,
      "loss": 4.9141,
      "mean_token_accuracy": 0.22113776504993438,
      "num_tokens": 39169352.0,
      "step": 17095
    },
    {
      "entropy": 5.206317377090454,
      "epoch": 1.6426512968299711,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004734607613601919,
      "loss": 4.9054,
      "mean_token_accuracy": 0.22213377356529235,
      "num_tokens": 39180989.0,
      "step": 17100
    },
    {
      "entropy": 5.174010324478149,
      "epoch": 1.643131604226705,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00047344460602067077,
      "loss": 4.9605,
      "mean_token_accuracy": 0.21831177175045013,
      "num_tokens": 39192309.0,
      "step": 17105
    },
    {
      "entropy": 5.108195209503174,
      "epoch": 1.643611911623439,
      "grad_norm": 1.203125,
      "learning_rate": 0.000473428446073855,
      "loss": 4.9048,
      "mean_token_accuracy": 0.21822543889284135,
      "num_tokens": 39203586.0,
      "step": 17110
    },
    {
      "entropy": 5.1728309154510494,
      "epoch": 1.6440922190201728,
      "grad_norm": 1.265625,
      "learning_rate": 0.00047341228152012003,
      "loss": 4.9358,
      "mean_token_accuracy": 0.2138598531484604,
      "num_tokens": 39216248.0,
      "step": 17115
    },
    {
      "entropy": 5.217025470733643,
      "epoch": 1.6445725264169067,
      "grad_norm": 1.234375,
      "learning_rate": 0.000473396112359841,
      "loss": 4.9216,
      "mean_token_accuracy": 0.21717059910297393,
      "num_tokens": 39227244.0,
      "step": 17120
    },
    {
      "entropy": 5.171856927871704,
      "epoch": 1.6450528338136408,
      "grad_norm": 1.171875,
      "learning_rate": 0.00047337993859339334,
      "loss": 4.8631,
      "mean_token_accuracy": 0.22649723738431932,
      "num_tokens": 39238769.0,
      "step": 17125
    },
    {
      "entropy": 5.140405130386353,
      "epoch": 1.6455331412103746,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00047336376022115255,
      "loss": 4.9605,
      "mean_token_accuracy": 0.21623745262622834,
      "num_tokens": 39251424.0,
      "step": 17130
    },
    {
      "entropy": 5.150231647491455,
      "epoch": 1.6460134486071085,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00047334757724349437,
      "loss": 4.9106,
      "mean_token_accuracy": 0.2248495638370514,
      "num_tokens": 39262451.0,
      "step": 17135
    },
    {
      "entropy": 5.156459474563599,
      "epoch": 1.6464937560038426,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004733313896607943,
      "loss": 4.9223,
      "mean_token_accuracy": 0.2204621374607086,
      "num_tokens": 39275129.0,
      "step": 17140
    },
    {
      "entropy": 5.195129108428955,
      "epoch": 1.6469740634005765,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004733151974734284,
      "loss": 5.0455,
      "mean_token_accuracy": 0.21298815310001373,
      "num_tokens": 39287399.0,
      "step": 17145
    },
    {
      "entropy": 5.2080107688903805,
      "epoch": 1.6474543707973104,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00047329900068177245,
      "loss": 4.8904,
      "mean_token_accuracy": 0.22203465551137924,
      "num_tokens": 39297755.0,
      "step": 17150
    },
    {
      "entropy": 5.27492470741272,
      "epoch": 1.6479346781940443,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00047328279928620244,
      "loss": 5.0159,
      "mean_token_accuracy": 0.20743546783924102,
      "num_tokens": 39311012.0,
      "step": 17155
    },
    {
      "entropy": 5.191003847122192,
      "epoch": 1.6484149855907781,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004732665932870947,
      "loss": 4.916,
      "mean_token_accuracy": 0.22007073909044267,
      "num_tokens": 39321797.0,
      "step": 17160
    },
    {
      "entropy": 5.178836727142334,
      "epoch": 1.648895292987512,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00047325038268482544,
      "loss": 4.8881,
      "mean_token_accuracy": 0.23106451481580734,
      "num_tokens": 39333598.0,
      "step": 17165
    },
    {
      "entropy": 5.215980386734008,
      "epoch": 1.649375600384246,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004732341674797709,
      "loss": 4.9832,
      "mean_token_accuracy": 0.21182733327150344,
      "num_tokens": 39345578.0,
      "step": 17170
    },
    {
      "entropy": 5.085534715652466,
      "epoch": 1.6498559077809798,
      "grad_norm": 1.25,
      "learning_rate": 0.00047321794767230766,
      "loss": 4.849,
      "mean_token_accuracy": 0.2237042009830475,
      "num_tokens": 39356744.0,
      "step": 17175
    },
    {
      "entropy": 5.203284645080567,
      "epoch": 1.6503362151777137,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00047320172326281224,
      "loss": 4.9813,
      "mean_token_accuracy": 0.21088655143976212,
      "num_tokens": 39368138.0,
      "step": 17180
    },
    {
      "entropy": 5.088240718841552,
      "epoch": 1.6508165225744476,
      "grad_norm": 1.5625,
      "learning_rate": 0.00047318549425166134,
      "loss": 4.825,
      "mean_token_accuracy": 0.2208867460489273,
      "num_tokens": 39380117.0,
      "step": 17185
    },
    {
      "entropy": 5.144798612594604,
      "epoch": 1.6512968299711814,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004731692606392318,
      "loss": 4.9032,
      "mean_token_accuracy": 0.21989178657531738,
      "num_tokens": 39390913.0,
      "step": 17190
    },
    {
      "entropy": 5.259878635406494,
      "epoch": 1.6517771373679153,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004731530224259004,
      "loss": 5.0399,
      "mean_token_accuracy": 0.209253753721714,
      "num_tokens": 39401001.0,
      "step": 17195
    },
    {
      "entropy": 5.167004823684692,
      "epoch": 1.6522574447646494,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004731367796120442,
      "loss": 4.9199,
      "mean_token_accuracy": 0.2191713660955429,
      "num_tokens": 39411982.0,
      "step": 17200
    },
    {
      "entropy": 5.236986684799194,
      "epoch": 1.6527377521613833,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004731205321980404,
      "loss": 4.9493,
      "mean_token_accuracy": 0.21665553301572799,
      "num_tokens": 39423363.0,
      "step": 17205
    },
    {
      "entropy": 5.178996753692627,
      "epoch": 1.6532180595581172,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00047310428018426616,
      "loss": 4.9931,
      "mean_token_accuracy": 0.21703283488750458,
      "num_tokens": 39434002.0,
      "step": 17210
    },
    {
      "entropy": 5.136433792114258,
      "epoch": 1.653698366954851,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004730880235710987,
      "loss": 4.8818,
      "mean_token_accuracy": 0.2200036182999611,
      "num_tokens": 39444629.0,
      "step": 17215
    },
    {
      "entropy": 5.1588235855102536,
      "epoch": 1.6541786743515852,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004730717623589155,
      "loss": 4.8502,
      "mean_token_accuracy": 0.23025956898927688,
      "num_tokens": 39454803.0,
      "step": 17220
    },
    {
      "entropy": 5.160949420928955,
      "epoch": 1.654658981748319,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004730554965480942,
      "loss": 4.9935,
      "mean_token_accuracy": 0.2163141682744026,
      "num_tokens": 39466931.0,
      "step": 17225
    },
    {
      "entropy": 5.18949818611145,
      "epoch": 1.655139289145053,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004730392261390124,
      "loss": 4.9649,
      "mean_token_accuracy": 0.22342453449964522,
      "num_tokens": 39478127.0,
      "step": 17230
    },
    {
      "entropy": 5.222326755523682,
      "epoch": 1.6556195965417868,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004730229511320478,
      "loss": 4.9707,
      "mean_token_accuracy": 0.21511962711811067,
      "num_tokens": 39488188.0,
      "step": 17235
    },
    {
      "entropy": 5.210654878616333,
      "epoch": 1.6560999039385207,
      "grad_norm": 1.28125,
      "learning_rate": 0.00047300667152757827,
      "loss": 4.9296,
      "mean_token_accuracy": 0.22033513486385345,
      "num_tokens": 39500035.0,
      "step": 17240
    },
    {
      "entropy": 5.2070694923400875,
      "epoch": 1.6565802113352546,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00047299038732598184,
      "loss": 4.999,
      "mean_token_accuracy": 0.21806135773658752,
      "num_tokens": 39510922.0,
      "step": 17245
    },
    {
      "entropy": 5.182500553131104,
      "epoch": 1.6570605187319885,
      "grad_norm": 1.28125,
      "learning_rate": 0.00047297409852763644,
      "loss": 4.997,
      "mean_token_accuracy": 0.22009943872690202,
      "num_tokens": 39521319.0,
      "step": 17250
    },
    {
      "entropy": 5.2111945152282715,
      "epoch": 1.6575408261287223,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004729578051329204,
      "loss": 4.9534,
      "mean_token_accuracy": 0.21612063497304917,
      "num_tokens": 39532408.0,
      "step": 17255
    },
    {
      "entropy": 5.219672155380249,
      "epoch": 1.6580211335254562,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00047294150714221185,
      "loss": 5.0105,
      "mean_token_accuracy": 0.21210616379976271,
      "num_tokens": 39543323.0,
      "step": 17260
    },
    {
      "entropy": 5.242244911193848,
      "epoch": 1.65850144092219,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004729252045558894,
      "loss": 4.9603,
      "mean_token_accuracy": 0.21582386493682862,
      "num_tokens": 39554133.0,
      "step": 17265
    },
    {
      "entropy": 5.154227447509766,
      "epoch": 1.658981748318924,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00047290889737433133,
      "loss": 4.84,
      "mean_token_accuracy": 0.22423603981733323,
      "num_tokens": 39565990.0,
      "step": 17270
    },
    {
      "entropy": 5.206848955154419,
      "epoch": 1.6594620557156579,
      "grad_norm": 1.21875,
      "learning_rate": 0.00047289258559791633,
      "loss": 4.9429,
      "mean_token_accuracy": 0.2176191046833992,
      "num_tokens": 39577591.0,
      "step": 17275
    },
    {
      "entropy": 5.2025104522705075,
      "epoch": 1.659942363112392,
      "grad_norm": 1.203125,
      "learning_rate": 0.00047287626922702317,
      "loss": 4.9147,
      "mean_token_accuracy": 0.21797798275947572,
      "num_tokens": 39589922.0,
      "step": 17280
    },
    {
      "entropy": 5.126957130432129,
      "epoch": 1.6604226705091258,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00047285994826203054,
      "loss": 4.9458,
      "mean_token_accuracy": 0.22071049809455873,
      "num_tokens": 39602183.0,
      "step": 17285
    },
    {
      "entropy": 5.20958571434021,
      "epoch": 1.6609029779058597,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004728436227033175,
      "loss": 4.9578,
      "mean_token_accuracy": 0.21979390680789948,
      "num_tokens": 39612922.0,
      "step": 17290
    },
    {
      "entropy": 5.232578420639038,
      "epoch": 1.6613832853025938,
      "grad_norm": 1.3125,
      "learning_rate": 0.00047282729255126294,
      "loss": 4.9504,
      "mean_token_accuracy": 0.2208220601081848,
      "num_tokens": 39624475.0,
      "step": 17295
    },
    {
      "entropy": 5.023839282989502,
      "epoch": 1.6618635926993277,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004728109578062461,
      "loss": 4.8012,
      "mean_token_accuracy": 0.2280938968062401,
      "num_tokens": 39635230.0,
      "step": 17300
    },
    {
      "entropy": 5.088182401657105,
      "epoch": 1.6623439000960616,
      "grad_norm": 1.125,
      "learning_rate": 0.00047279461846864626,
      "loss": 4.9072,
      "mean_token_accuracy": 0.22009400725364686,
      "num_tokens": 39646788.0,
      "step": 17305
    },
    {
      "entropy": 5.137494707107544,
      "epoch": 1.6628242074927955,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00047277827453884265,
      "loss": 4.8803,
      "mean_token_accuracy": 0.2225083142518997,
      "num_tokens": 39657531.0,
      "step": 17310
    },
    {
      "entropy": 5.292917203903198,
      "epoch": 1.6633045148895294,
      "grad_norm": 1.359375,
      "learning_rate": 0.00047276192601721477,
      "loss": 5.0619,
      "mean_token_accuracy": 0.20813206434249878,
      "num_tokens": 39669008.0,
      "step": 17315
    },
    {
      "entropy": 5.207920122146606,
      "epoch": 1.6637848222862632,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004727455729041422,
      "loss": 4.9061,
      "mean_token_accuracy": 0.22048480212688445,
      "num_tokens": 39680772.0,
      "step": 17320
    },
    {
      "entropy": 5.23115291595459,
      "epoch": 1.6642651296829971,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00047272921520000465,
      "loss": 5.0517,
      "mean_token_accuracy": 0.21050333827733994,
      "num_tokens": 39694107.0,
      "step": 17325
    },
    {
      "entropy": 5.18481068611145,
      "epoch": 1.664745437079731,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004727128529051819,
      "loss": 4.9103,
      "mean_token_accuracy": 0.21743627935647963,
      "num_tokens": 39705440.0,
      "step": 17330
    },
    {
      "entropy": 5.171319675445557,
      "epoch": 1.6652257444764649,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004726964860200537,
      "loss": 4.9121,
      "mean_token_accuracy": 0.2184045359492302,
      "num_tokens": 39716246.0,
      "step": 17335
    },
    {
      "entropy": 5.164891290664673,
      "epoch": 1.6657060518731988,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004726801145450002,
      "loss": 4.9312,
      "mean_token_accuracy": 0.21594095528125762,
      "num_tokens": 39727233.0,
      "step": 17340
    },
    {
      "entropy": 5.196539783477784,
      "epoch": 1.6661863592699326,
      "grad_norm": 1.25,
      "learning_rate": 0.0004726637384804014,
      "loss": 4.9045,
      "mean_token_accuracy": 0.2156997725367546,
      "num_tokens": 39738929.0,
      "step": 17345
    },
    {
      "entropy": 5.152793312072754,
      "epoch": 1.6666666666666665,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004726473578266375,
      "loss": 4.9228,
      "mean_token_accuracy": 0.21952597051858902,
      "num_tokens": 39750714.0,
      "step": 17350
    },
    {
      "entropy": 5.183078670501709,
      "epoch": 1.6671469740634006,
      "grad_norm": 1.46875,
      "learning_rate": 0.00047263097258408893,
      "loss": 4.983,
      "mean_token_accuracy": 0.21496337354183198,
      "num_tokens": 39762810.0,
      "step": 17355
    },
    {
      "entropy": 5.259543704986572,
      "epoch": 1.6676272814601345,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004726145827531359,
      "loss": 5.0234,
      "mean_token_accuracy": 0.21382358223199843,
      "num_tokens": 39774611.0,
      "step": 17360
    },
    {
      "entropy": 5.12020697593689,
      "epoch": 1.6681075888568684,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00047259818833415916,
      "loss": 4.8302,
      "mean_token_accuracy": 0.2306036338210106,
      "num_tokens": 39784900.0,
      "step": 17365
    },
    {
      "entropy": 5.213765668869018,
      "epoch": 1.6685878962536023,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00047258178932753917,
      "loss": 4.9686,
      "mean_token_accuracy": 0.2193788021802902,
      "num_tokens": 39794805.0,
      "step": 17370
    },
    {
      "entropy": 5.206267833709717,
      "epoch": 1.6690682036503364,
      "grad_norm": 1.28125,
      "learning_rate": 0.00047256538573365675,
      "loss": 4.9778,
      "mean_token_accuracy": 0.212169349193573,
      "num_tokens": 39806444.0,
      "step": 17375
    },
    {
      "entropy": 5.318323183059692,
      "epoch": 1.6695485110470702,
      "grad_norm": 1.25,
      "learning_rate": 0.0004725489775528928,
      "loss": 5.116,
      "mean_token_accuracy": 0.20811543017625808,
      "num_tokens": 39817724.0,
      "step": 17380
    },
    {
      "entropy": 5.151338577270508,
      "epoch": 1.6700288184438041,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00047253256478562805,
      "loss": 4.9153,
      "mean_token_accuracy": 0.2115355148911476,
      "num_tokens": 39828944.0,
      "step": 17385
    },
    {
      "entropy": 5.144230937957763,
      "epoch": 1.670509125840538,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00047251614743224374,
      "loss": 4.9378,
      "mean_token_accuracy": 0.2210545301437378,
      "num_tokens": 39839978.0,
      "step": 17390
    },
    {
      "entropy": 5.192106771469116,
      "epoch": 1.670989433237272,
      "grad_norm": 1.1875,
      "learning_rate": 0.00047249972549312107,
      "loss": 4.9251,
      "mean_token_accuracy": 0.22135266661643982,
      "num_tokens": 39850787.0,
      "step": 17395
    },
    {
      "entropy": 5.250539684295655,
      "epoch": 1.6714697406340058,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004724832989686411,
      "loss": 5.0037,
      "mean_token_accuracy": 0.21468748897314072,
      "num_tokens": 39862245.0,
      "step": 17400
    },
    {
      "entropy": 5.163530015945435,
      "epoch": 1.6719500480307397,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00047246686785918545,
      "loss": 4.9126,
      "mean_token_accuracy": 0.22578096389770508,
      "num_tokens": 39872295.0,
      "step": 17405
    },
    {
      "entropy": 5.088949918746948,
      "epoch": 1.6724303554274735,
      "grad_norm": 1.109375,
      "learning_rate": 0.00047245043216513546,
      "loss": 4.8559,
      "mean_token_accuracy": 0.21463808417320251,
      "num_tokens": 39882839.0,
      "step": 17410
    },
    {
      "entropy": 5.105159568786621,
      "epoch": 1.6729106628242074,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004724339918868727,
      "loss": 4.856,
      "mean_token_accuracy": 0.221045646071434,
      "num_tokens": 39894767.0,
      "step": 17415
    },
    {
      "entropy": 5.254346513748169,
      "epoch": 1.6733909702209413,
      "grad_norm": 1.28125,
      "learning_rate": 0.000472417547024779,
      "loss": 5.0189,
      "mean_token_accuracy": 0.20958801060914994,
      "num_tokens": 39907492.0,
      "step": 17420
    },
    {
      "entropy": 5.103402757644654,
      "epoch": 1.6738712776176752,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00047240109757923593,
      "loss": 4.8019,
      "mean_token_accuracy": 0.22363511472940445,
      "num_tokens": 39919005.0,
      "step": 17425
    },
    {
      "entropy": 5.133781242370605,
      "epoch": 1.674351585014409,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004723846435506256,
      "loss": 4.9053,
      "mean_token_accuracy": 0.22093903720378877,
      "num_tokens": 39930417.0,
      "step": 17430
    },
    {
      "entropy": 5.136504316329956,
      "epoch": 1.6748318924111432,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00047236818493932994,
      "loss": 4.9295,
      "mean_token_accuracy": 0.21972116082906723,
      "num_tokens": 39941873.0,
      "step": 17435
    },
    {
      "entropy": 5.218835639953613,
      "epoch": 1.675312199807877,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004723517217457311,
      "loss": 4.9594,
      "mean_token_accuracy": 0.2127823770046234,
      "num_tokens": 39953280.0,
      "step": 17440
    },
    {
      "entropy": 5.266405916213989,
      "epoch": 1.675792507204611,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004723352539702113,
      "loss": 5.033,
      "mean_token_accuracy": 0.2113511174917221,
      "num_tokens": 39964898.0,
      "step": 17445
    },
    {
      "entropy": 5.169444513320923,
      "epoch": 1.6762728146013448,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004723187816131529,
      "loss": 4.8971,
      "mean_token_accuracy": 0.22143382728099822,
      "num_tokens": 39976945.0,
      "step": 17450
    },
    {
      "entropy": 5.21337661743164,
      "epoch": 1.676753121998079,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004723023046749383,
      "loss": 5.0068,
      "mean_token_accuracy": 0.21935284435749053,
      "num_tokens": 39987760.0,
      "step": 17455
    },
    {
      "entropy": 5.109252262115478,
      "epoch": 1.6772334293948128,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00047228582315595,
      "loss": 4.7994,
      "mean_token_accuracy": 0.2287563070654869,
      "num_tokens": 39998171.0,
      "step": 17460
    },
    {
      "entropy": 5.1659423351287845,
      "epoch": 1.6777137367915467,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004722693370565708,
      "loss": 4.9056,
      "mean_token_accuracy": 0.21699397414922714,
      "num_tokens": 40010124.0,
      "step": 17465
    },
    {
      "entropy": 5.1289918422698975,
      "epoch": 1.6781940441882806,
      "grad_norm": 1.203125,
      "learning_rate": 0.00047225284637718323,
      "loss": 4.9364,
      "mean_token_accuracy": 0.21586138755083084,
      "num_tokens": 40022599.0,
      "step": 17470
    },
    {
      "entropy": 5.150423860549926,
      "epoch": 1.6786743515850144,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004722363511181703,
      "loss": 4.8901,
      "mean_token_accuracy": 0.2244936302304268,
      "num_tokens": 40033738.0,
      "step": 17475
    },
    {
      "entropy": 5.188096809387207,
      "epoch": 1.6791546589817483,
      "grad_norm": 1.171875,
      "learning_rate": 0.000472219851279915,
      "loss": 4.9457,
      "mean_token_accuracy": 0.2202860251069069,
      "num_tokens": 40044148.0,
      "step": 17480
    },
    {
      "entropy": 5.223975753784179,
      "epoch": 1.6796349663784822,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004722033468628004,
      "loss": 4.9322,
      "mean_token_accuracy": 0.22158615589141845,
      "num_tokens": 40055430.0,
      "step": 17485
    },
    {
      "entropy": 5.1668178081512455,
      "epoch": 1.680115273775216,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004721868378672098,
      "loss": 4.9149,
      "mean_token_accuracy": 0.2159278705716133,
      "num_tokens": 40066147.0,
      "step": 17490
    },
    {
      "entropy": 5.178054475784302,
      "epoch": 1.68059558117195,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004721703242935261,
      "loss": 4.9165,
      "mean_token_accuracy": 0.21332445442676545,
      "num_tokens": 40077567.0,
      "step": 17495
    },
    {
      "entropy": 5.231701517105103,
      "epoch": 1.6810758885686838,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004721538061421331,
      "loss": 5.005,
      "mean_token_accuracy": 0.21199633330106735,
      "num_tokens": 40089544.0,
      "step": 17500
    },
    {
      "entropy": 5.082833242416382,
      "epoch": 1.6815561959654177,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00047213728341341407,
      "loss": 4.8582,
      "mean_token_accuracy": 0.22495235800743102,
      "num_tokens": 40100557.0,
      "step": 17505
    },
    {
      "entropy": 5.198224449157715,
      "epoch": 1.6820365033621518,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004721207561077527,
      "loss": 4.9242,
      "mean_token_accuracy": 0.21465859711170196,
      "num_tokens": 40112052.0,
      "step": 17510
    },
    {
      "entropy": 5.35629358291626,
      "epoch": 1.6825168107588857,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004721042242255327,
      "loss": 5.1065,
      "mean_token_accuracy": 0.20359711796045304,
      "num_tokens": 40123830.0,
      "step": 17515
    },
    {
      "entropy": 5.199491548538208,
      "epoch": 1.6829971181556196,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00047208768776713805,
      "loss": 4.9982,
      "mean_token_accuracy": 0.22124958634376526,
      "num_tokens": 40134222.0,
      "step": 17520
    },
    {
      "entropy": 5.147200632095337,
      "epoch": 1.6834774255523535,
      "grad_norm": 1.25,
      "learning_rate": 0.0004720711467329523,
      "loss": 4.9883,
      "mean_token_accuracy": 0.21965805292129517,
      "num_tokens": 40145552.0,
      "step": 17525
    },
    {
      "entropy": 5.155480766296387,
      "epoch": 1.6839577329490876,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004720546011233599,
      "loss": 4.8324,
      "mean_token_accuracy": 0.2238232597708702,
      "num_tokens": 40156615.0,
      "step": 17530
    },
    {
      "entropy": 5.144622659683227,
      "epoch": 1.6844380403458215,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004720380509387446,
      "loss": 4.932,
      "mean_token_accuracy": 0.22399861961603165,
      "num_tokens": 40168825.0,
      "step": 17535
    },
    {
      "entropy": 5.190985679626465,
      "epoch": 1.6849183477425553,
      "grad_norm": 1.3046875,
      "learning_rate": 0.000472021496179491,
      "loss": 4.9261,
      "mean_token_accuracy": 0.22324578315019608,
      "num_tokens": 40179523.0,
      "step": 17540
    },
    {
      "entropy": 5.129342079162598,
      "epoch": 1.6853986551392892,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00047200493684598316,
      "loss": 4.8848,
      "mean_token_accuracy": 0.22110755145549774,
      "num_tokens": 40191362.0,
      "step": 17545
    },
    {
      "entropy": 5.168604230880737,
      "epoch": 1.685878962536023,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00047198837293860573,
      "loss": 4.9654,
      "mean_token_accuracy": 0.21929350346326829,
      "num_tokens": 40202274.0,
      "step": 17550
    },
    {
      "entropy": 5.244691181182861,
      "epoch": 1.686359269932757,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004719718044577432,
      "loss": 4.9938,
      "mean_token_accuracy": 0.20958704501390457,
      "num_tokens": 40213907.0,
      "step": 17555
    },
    {
      "entropy": 5.152917718887329,
      "epoch": 1.6868395773294909,
      "grad_norm": 1.265625,
      "learning_rate": 0.00047195523140378034,
      "loss": 4.9344,
      "mean_token_accuracy": 0.21637397557497023,
      "num_tokens": 40225300.0,
      "step": 17560
    },
    {
      "entropy": 5.109961271286011,
      "epoch": 1.6873198847262247,
      "grad_norm": 1.125,
      "learning_rate": 0.00047193865377710177,
      "loss": 4.8457,
      "mean_token_accuracy": 0.22791109681129457,
      "num_tokens": 40236197.0,
      "step": 17565
    },
    {
      "entropy": 5.227808856964112,
      "epoch": 1.6878001921229586,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00047192207157809246,
      "loss": 5.0596,
      "mean_token_accuracy": 0.2109197899699211,
      "num_tokens": 40247887.0,
      "step": 17570
    },
    {
      "entropy": 5.263893365859985,
      "epoch": 1.6882804995196925,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00047190548480713736,
      "loss": 4.8982,
      "mean_token_accuracy": 0.2192056208848953,
      "num_tokens": 40258262.0,
      "step": 17575
    },
    {
      "entropy": 5.223889493942261,
      "epoch": 1.6887608069164264,
      "grad_norm": 1.1875,
      "learning_rate": 0.00047188889346462163,
      "loss": 4.9589,
      "mean_token_accuracy": 0.21418242901563644,
      "num_tokens": 40268735.0,
      "step": 17580
    },
    {
      "entropy": 5.200381278991699,
      "epoch": 1.6892411143131603,
      "grad_norm": 1.140625,
      "learning_rate": 0.00047187229755093037,
      "loss": 5.0426,
      "mean_token_accuracy": 0.20822969675064087,
      "num_tokens": 40279905.0,
      "step": 17585
    },
    {
      "entropy": 5.207263040542602,
      "epoch": 1.6897214217098944,
      "grad_norm": 1.3203125,
      "learning_rate": 0.000471855697066449,
      "loss": 4.914,
      "mean_token_accuracy": 0.21707093566656113,
      "num_tokens": 40290580.0,
      "step": 17590
    },
    {
      "entropy": 5.2004670143127445,
      "epoch": 1.6902017291066282,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00047183909201156297,
      "loss": 5.0006,
      "mean_token_accuracy": 0.2152295872569084,
      "num_tokens": 40302472.0,
      "step": 17595
    },
    {
      "entropy": 5.251315307617188,
      "epoch": 1.6906820365033621,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004718224823866576,
      "loss": 4.9872,
      "mean_token_accuracy": 0.21021779626607895,
      "num_tokens": 40314238.0,
      "step": 17600
    },
    {
      "entropy": 5.131517028808593,
      "epoch": 1.691162343900096,
      "grad_norm": 1.25,
      "learning_rate": 0.0004718058681921186,
      "loss": 4.9242,
      "mean_token_accuracy": 0.22052521407604217,
      "num_tokens": 40326147.0,
      "step": 17605
    },
    {
      "entropy": 5.177646541595459,
      "epoch": 1.6916426512968301,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00047178924942833185,
      "loss": 4.8935,
      "mean_token_accuracy": 0.221788227558136,
      "num_tokens": 40338210.0,
      "step": 17610
    },
    {
      "entropy": 5.096933364868164,
      "epoch": 1.692122958693564,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004717726260956831,
      "loss": 4.859,
      "mean_token_accuracy": 0.22617415189743043,
      "num_tokens": 40349293.0,
      "step": 17615
    },
    {
      "entropy": 5.1479727268219,
      "epoch": 1.6926032660902979,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004717559981945581,
      "loss": 4.8868,
      "mean_token_accuracy": 0.21825706362724304,
      "num_tokens": 40360916.0,
      "step": 17620
    },
    {
      "entropy": 5.165114021301269,
      "epoch": 1.6930835734870318,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004717393657253432,
      "loss": 4.9631,
      "mean_token_accuracy": 0.215592922270298,
      "num_tokens": 40373525.0,
      "step": 17625
    },
    {
      "entropy": 5.215253448486328,
      "epoch": 1.6935638808837656,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004717227286884243,
      "loss": 4.9601,
      "mean_token_accuracy": 0.21485102623701097,
      "num_tokens": 40385286.0,
      "step": 17630
    },
    {
      "entropy": 5.161527442932129,
      "epoch": 1.6940441882804995,
      "grad_norm": 1.375,
      "learning_rate": 0.0004717060870841879,
      "loss": 4.8639,
      "mean_token_accuracy": 0.22210344523191453,
      "num_tokens": 40396371.0,
      "step": 17635
    },
    {
      "entropy": 5.174149513244629,
      "epoch": 1.6945244956772334,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004716894409130202,
      "loss": 4.9296,
      "mean_token_accuracy": 0.21754053086042405,
      "num_tokens": 40407304.0,
      "step": 17640
    },
    {
      "entropy": 5.169687795639038,
      "epoch": 1.6950048030739673,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004716727901753078,
      "loss": 4.8853,
      "mean_token_accuracy": 0.21763041615486145,
      "num_tokens": 40418384.0,
      "step": 17645
    },
    {
      "entropy": 5.20654559135437,
      "epoch": 1.6954851104707012,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004716561348714371,
      "loss": 4.9963,
      "mean_token_accuracy": 0.2188402831554413,
      "num_tokens": 40430603.0,
      "step": 17650
    },
    {
      "entropy": 5.123339128494263,
      "epoch": 1.695965417867435,
      "grad_norm": 1.34375,
      "learning_rate": 0.00047163947500179494,
      "loss": 4.8871,
      "mean_token_accuracy": 0.22057809680700302,
      "num_tokens": 40442597.0,
      "step": 17655
    },
    {
      "entropy": 5.097166204452515,
      "epoch": 1.696445725264169,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004716228105667681,
      "loss": 4.8132,
      "mean_token_accuracy": 0.22695180177688598,
      "num_tokens": 40454078.0,
      "step": 17660
    },
    {
      "entropy": 5.142997455596924,
      "epoch": 1.696926032660903,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004716061415667435,
      "loss": 4.8731,
      "mean_token_accuracy": 0.2260493054986,
      "num_tokens": 40465561.0,
      "step": 17665
    },
    {
      "entropy": 5.214082384109497,
      "epoch": 1.697406340057637,
      "grad_norm": 1.4453125,
      "learning_rate": 0.000471589468002108,
      "loss": 4.9655,
      "mean_token_accuracy": 0.2226713106036186,
      "num_tokens": 40476883.0,
      "step": 17670
    },
    {
      "entropy": 5.1789998531341555,
      "epoch": 1.6978866474543708,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004715727898732488,
      "loss": 4.9351,
      "mean_token_accuracy": 0.2229066714644432,
      "num_tokens": 40488139.0,
      "step": 17675
    },
    {
      "entropy": 5.166921186447143,
      "epoch": 1.6983669548511047,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00047155610718055315,
      "loss": 4.931,
      "mean_token_accuracy": 0.22183982133865357,
      "num_tokens": 40499367.0,
      "step": 17680
    },
    {
      "entropy": 5.078970956802368,
      "epoch": 1.6988472622478388,
      "grad_norm": 1.25,
      "learning_rate": 0.00047153941992440833,
      "loss": 4.8881,
      "mean_token_accuracy": 0.2115646108984947,
      "num_tokens": 40510628.0,
      "step": 17685
    },
    {
      "entropy": 5.121505689620972,
      "epoch": 1.6993275696445727,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004715227281052018,
      "loss": 4.8719,
      "mean_token_accuracy": 0.2255760669708252,
      "num_tokens": 40522680.0,
      "step": 17690
    },
    {
      "entropy": 5.144559717178344,
      "epoch": 1.6998078770413065,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004715060317233211,
      "loss": 4.8053,
      "mean_token_accuracy": 0.23404240906238555,
      "num_tokens": 40533139.0,
      "step": 17695
    },
    {
      "entropy": 5.200980138778687,
      "epoch": 1.7002881844380404,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004714893307791538,
      "loss": 5.0023,
      "mean_token_accuracy": 0.21619048565626145,
      "num_tokens": 40544578.0,
      "step": 17700
    },
    {
      "entropy": 5.229176378250122,
      "epoch": 1.7007684918347743,
      "grad_norm": 2.125,
      "learning_rate": 0.00047147262527308766,
      "loss": 4.9251,
      "mean_token_accuracy": 0.22029948830604554,
      "num_tokens": 40555667.0,
      "step": 17705
    },
    {
      "entropy": 5.145949172973633,
      "epoch": 1.7012487992315082,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004714559152055106,
      "loss": 4.9556,
      "mean_token_accuracy": 0.224330173432827,
      "num_tokens": 40567123.0,
      "step": 17710
    },
    {
      "entropy": 5.191706800460816,
      "epoch": 1.701729106628242,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004714392005768106,
      "loss": 4.9387,
      "mean_token_accuracy": 0.21762551963329316,
      "num_tokens": 40579692.0,
      "step": 17715
    },
    {
      "entropy": 5.1885899066925045,
      "epoch": 1.702209414024976,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004714224813873756,
      "loss": 4.9025,
      "mean_token_accuracy": 0.22344619333744048,
      "num_tokens": 40590989.0,
      "step": 17720
    },
    {
      "entropy": 5.131214809417725,
      "epoch": 1.7026897214217098,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00047140575763759393,
      "loss": 4.9276,
      "mean_token_accuracy": 0.22275308072566985,
      "num_tokens": 40602050.0,
      "step": 17725
    },
    {
      "entropy": 5.1476117134094235,
      "epoch": 1.7031700288184437,
      "grad_norm": 1.328125,
      "learning_rate": 0.00047138902932785363,
      "loss": 4.9118,
      "mean_token_accuracy": 0.22158618420362472,
      "num_tokens": 40614552.0,
      "step": 17730
    },
    {
      "entropy": 5.210604238510132,
      "epoch": 1.7036503362151776,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00047137229645854333,
      "loss": 4.8718,
      "mean_token_accuracy": 0.2272538051009178,
      "num_tokens": 40625903.0,
      "step": 17735
    },
    {
      "entropy": 5.17086706161499,
      "epoch": 1.7041306436119115,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004713555590300513,
      "loss": 4.9524,
      "mean_token_accuracy": 0.21819649636745453,
      "num_tokens": 40638634.0,
      "step": 17740
    },
    {
      "entropy": 5.219864559173584,
      "epoch": 1.7046109510086456,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004713388170427664,
      "loss": 4.9558,
      "mean_token_accuracy": 0.21615031808614732,
      "num_tokens": 40651279.0,
      "step": 17745
    },
    {
      "entropy": 5.184417057037353,
      "epoch": 1.7050912584053795,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004713220704970771,
      "loss": 4.9216,
      "mean_token_accuracy": 0.22155367732048034,
      "num_tokens": 40662306.0,
      "step": 17750
    },
    {
      "entropy": 5.0326759815216064,
      "epoch": 1.7055715658021133,
      "grad_norm": 1.3125,
      "learning_rate": 0.00047130531939337236,
      "loss": 4.775,
      "mean_token_accuracy": 0.22894255667924882,
      "num_tokens": 40672290.0,
      "step": 17755
    },
    {
      "entropy": 5.187178373336792,
      "epoch": 1.7060518731988472,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00047128856373204086,
      "loss": 4.9134,
      "mean_token_accuracy": 0.22119101732969285,
      "num_tokens": 40683447.0,
      "step": 17760
    },
    {
      "entropy": 5.292993640899658,
      "epoch": 1.7065321805955813,
      "grad_norm": 1.3125,
      "learning_rate": 0.00047127180351347184,
      "loss": 5.0599,
      "mean_token_accuracy": 0.21206379681825638,
      "num_tokens": 40695230.0,
      "step": 17765
    },
    {
      "entropy": 5.193490266799927,
      "epoch": 1.7070124879923152,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004712550387380544,
      "loss": 4.9057,
      "mean_token_accuracy": 0.21839701384305954,
      "num_tokens": 40707311.0,
      "step": 17770
    },
    {
      "entropy": 5.201669216156006,
      "epoch": 1.707492795389049,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004712382694061776,
      "loss": 4.9201,
      "mean_token_accuracy": 0.21827106177806854,
      "num_tokens": 40717928.0,
      "step": 17775
    },
    {
      "entropy": 5.137501668930054,
      "epoch": 1.707973102785783,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00047122149551823096,
      "loss": 4.93,
      "mean_token_accuracy": 0.2145393192768097,
      "num_tokens": 40730355.0,
      "step": 17780
    },
    {
      "entropy": 5.221040725708008,
      "epoch": 1.7084534101825168,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004712047170746039,
      "loss": 5.0179,
      "mean_token_accuracy": 0.21589890420436858,
      "num_tokens": 40741412.0,
      "step": 17785
    },
    {
      "entropy": 5.209814357757568,
      "epoch": 1.7089337175792507,
      "grad_norm": 1.15625,
      "learning_rate": 0.00047118793407568586,
      "loss": 4.9045,
      "mean_token_accuracy": 0.22416329383850098,
      "num_tokens": 40753491.0,
      "step": 17790
    },
    {
      "entropy": 5.131305885314942,
      "epoch": 1.7094140249759846,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00047117114652186657,
      "loss": 4.8506,
      "mean_token_accuracy": 0.22409170120954514,
      "num_tokens": 40765209.0,
      "step": 17795
    },
    {
      "entropy": 5.116810369491577,
      "epoch": 1.7098943323727185,
      "grad_norm": 1.140625,
      "learning_rate": 0.00047115435441353573,
      "loss": 4.9496,
      "mean_token_accuracy": 0.21688321977853775,
      "num_tokens": 40778065.0,
      "step": 17800
    },
    {
      "entropy": 5.138747310638427,
      "epoch": 1.7103746397694524,
      "grad_norm": 1.21875,
      "learning_rate": 0.00047113755775108333,
      "loss": 4.9235,
      "mean_token_accuracy": 0.22174129486083985,
      "num_tokens": 40789149.0,
      "step": 17805
    },
    {
      "entropy": 5.201202821731568,
      "epoch": 1.7108549471661862,
      "grad_norm": 1.15625,
      "learning_rate": 0.00047112075653489913,
      "loss": 4.9227,
      "mean_token_accuracy": 0.22810300290584565,
      "num_tokens": 40800340.0,
      "step": 17810
    },
    {
      "entropy": 5.178883695602417,
      "epoch": 1.7113352545629201,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004711039507653734,
      "loss": 4.9677,
      "mean_token_accuracy": 0.22021741718053817,
      "num_tokens": 40811866.0,
      "step": 17815
    },
    {
      "entropy": 5.158439302444458,
      "epoch": 1.7118155619596542,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004710871404428961,
      "loss": 4.9635,
      "mean_token_accuracy": 0.21318840384483337,
      "num_tokens": 40825850.0,
      "step": 17820
    },
    {
      "entropy": 5.2235781192779545,
      "epoch": 1.7122958693563881,
      "grad_norm": 1.09375,
      "learning_rate": 0.00047107032556785786,
      "loss": 4.9129,
      "mean_token_accuracy": 0.22048740983009338,
      "num_tokens": 40836688.0,
      "step": 17825
    },
    {
      "entropy": 5.180397367477417,
      "epoch": 1.712776176753122,
      "grad_norm": 1.1875,
      "learning_rate": 0.00047105350614064874,
      "loss": 4.9461,
      "mean_token_accuracy": 0.2169654995203018,
      "num_tokens": 40847803.0,
      "step": 17830
    },
    {
      "entropy": 5.188759469985962,
      "epoch": 1.7132564841498559,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00047103668216165944,
      "loss": 4.975,
      "mean_token_accuracy": 0.2155713826417923,
      "num_tokens": 40859099.0,
      "step": 17835
    },
    {
      "entropy": 5.144463443756104,
      "epoch": 1.71373679154659,
      "grad_norm": 1.21875,
      "learning_rate": 0.00047101985363128045,
      "loss": 4.8284,
      "mean_token_accuracy": 0.23141866326332092,
      "num_tokens": 40870440.0,
      "step": 17840
    },
    {
      "entropy": 5.26697793006897,
      "epoch": 1.7142170989433239,
      "grad_norm": 1.1875,
      "learning_rate": 0.00047100302054990255,
      "loss": 5.0215,
      "mean_token_accuracy": 0.2102995663881302,
      "num_tokens": 40882329.0,
      "step": 17845
    },
    {
      "entropy": 5.247942304611206,
      "epoch": 1.7146974063400577,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004709861829179165,
      "loss": 5.0207,
      "mean_token_accuracy": 0.21234164237976075,
      "num_tokens": 40893458.0,
      "step": 17850
    },
    {
      "entropy": 5.1152942180633545,
      "epoch": 1.7151777137367916,
      "grad_norm": 1.234375,
      "learning_rate": 0.00047096934073571325,
      "loss": 4.843,
      "mean_token_accuracy": 0.22821006327867507,
      "num_tokens": 40904626.0,
      "step": 17855
    },
    {
      "entropy": 5.088890552520752,
      "epoch": 1.7156580211335255,
      "grad_norm": 1.34375,
      "learning_rate": 0.00047095249400368384,
      "loss": 4.8521,
      "mean_token_accuracy": 0.22707059532403945,
      "num_tokens": 40916005.0,
      "step": 17860
    },
    {
      "entropy": 5.091427659988403,
      "epoch": 1.7161383285302594,
      "grad_norm": 1.1875,
      "learning_rate": 0.00047093564272221927,
      "loss": 4.8326,
      "mean_token_accuracy": 0.2260905146598816,
      "num_tokens": 40927470.0,
      "step": 17865
    },
    {
      "entropy": 5.2040282726287845,
      "epoch": 1.7166186359269933,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00047091878689171105,
      "loss": 4.981,
      "mean_token_accuracy": 0.2205181822180748,
      "num_tokens": 40938968.0,
      "step": 17870
    },
    {
      "entropy": 5.121591472625733,
      "epoch": 1.7170989433237271,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004709019265125502,
      "loss": 4.8641,
      "mean_token_accuracy": 0.22871831506490709,
      "num_tokens": 40952636.0,
      "step": 17875
    },
    {
      "entropy": 5.232312250137329,
      "epoch": 1.717579250720461,
      "grad_norm": 1.1875,
      "learning_rate": 0.00047088506158512837,
      "loss": 4.9736,
      "mean_token_accuracy": 0.2218574747443199,
      "num_tokens": 40964816.0,
      "step": 17880
    },
    {
      "entropy": 5.210276556015015,
      "epoch": 1.718059558117195,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00047086819210983714,
      "loss": 5.0101,
      "mean_token_accuracy": 0.2185376450419426,
      "num_tokens": 40977152.0,
      "step": 17885
    },
    {
      "entropy": 5.152036380767822,
      "epoch": 1.7185398655139288,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00047085131808706813,
      "loss": 4.9234,
      "mean_token_accuracy": 0.22430746555328368,
      "num_tokens": 40987506.0,
      "step": 17890
    },
    {
      "entropy": 5.213549518585205,
      "epoch": 1.7190201729106627,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004708344395172129,
      "loss": 4.9523,
      "mean_token_accuracy": 0.21810881644487382,
      "num_tokens": 40998598.0,
      "step": 17895
    },
    {
      "entropy": 5.188005638122559,
      "epoch": 1.7195004803073968,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004708175564006636,
      "loss": 4.9545,
      "mean_token_accuracy": 0.21332263350486755,
      "num_tokens": 41009644.0,
      "step": 17900
    },
    {
      "entropy": 5.1379045963287355,
      "epoch": 1.7199807877041307,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004708006687378121,
      "loss": 4.8313,
      "mean_token_accuracy": 0.22353375256061553,
      "num_tokens": 41021816.0,
      "step": 17905
    },
    {
      "entropy": 5.118629121780396,
      "epoch": 1.7204610951008645,
      "grad_norm": 1.125,
      "learning_rate": 0.0004707837765290505,
      "loss": 4.8747,
      "mean_token_accuracy": 0.22374353557825089,
      "num_tokens": 41033482.0,
      "step": 17910
    },
    {
      "entropy": 5.131730937957764,
      "epoch": 1.7209414024975984,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004707668797747709,
      "loss": 4.8753,
      "mean_token_accuracy": 0.2280108168721199,
      "num_tokens": 41043854.0,
      "step": 17915
    },
    {
      "entropy": 5.200505256652832,
      "epoch": 1.7214217098943325,
      "grad_norm": 1.125,
      "learning_rate": 0.0004707499784753657,
      "loss": 5.002,
      "mean_token_accuracy": 0.2113771140575409,
      "num_tokens": 41056956.0,
      "step": 17920
    },
    {
      "entropy": 5.264665651321411,
      "epoch": 1.7219020172910664,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004707330726312273,
      "loss": 5.0186,
      "mean_token_accuracy": 0.20672281384468078,
      "num_tokens": 41068170.0,
      "step": 17925
    },
    {
      "entropy": 5.199624300003052,
      "epoch": 1.7223823246878003,
      "grad_norm": 1.1875,
      "learning_rate": 0.00047071616224274803,
      "loss": 4.9427,
      "mean_token_accuracy": 0.21977581828832626,
      "num_tokens": 41079149.0,
      "step": 17930
    },
    {
      "entropy": 5.2467875480651855,
      "epoch": 1.7228626320845342,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004706992473103207,
      "loss": 4.9797,
      "mean_token_accuracy": 0.21803479194641112,
      "num_tokens": 41091039.0,
      "step": 17935
    },
    {
      "entropy": 5.147163963317871,
      "epoch": 1.723342939481268,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00047068232783433806,
      "loss": 4.9624,
      "mean_token_accuracy": 0.221414914727211,
      "num_tokens": 41103318.0,
      "step": 17940
    },
    {
      "entropy": 5.137469387054443,
      "epoch": 1.723823246878002,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004706654038151927,
      "loss": 4.8392,
      "mean_token_accuracy": 0.22574034184217454,
      "num_tokens": 41114235.0,
      "step": 17945
    },
    {
      "entropy": 5.139921188354492,
      "epoch": 1.7243035542747358,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004706484752532777,
      "loss": 4.9196,
      "mean_token_accuracy": 0.22196324169635773,
      "num_tokens": 41126008.0,
      "step": 17950
    },
    {
      "entropy": 5.084310674667359,
      "epoch": 1.7247838616714697,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004706315421489861,
      "loss": 4.9158,
      "mean_token_accuracy": 0.22012482583522797,
      "num_tokens": 41138819.0,
      "step": 17955
    },
    {
      "entropy": 5.177040863037109,
      "epoch": 1.7252641690682036,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004706146045027109,
      "loss": 4.8906,
      "mean_token_accuracy": 0.2244026854634285,
      "num_tokens": 41149389.0,
      "step": 17960
    },
    {
      "entropy": 5.206911277770996,
      "epoch": 1.7257444764649374,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004705976623148455,
      "loss": 4.8801,
      "mean_token_accuracy": 0.2156105950474739,
      "num_tokens": 41161810.0,
      "step": 17965
    },
    {
      "entropy": 5.18083701133728,
      "epoch": 1.7262247838616713,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00047058071558578324,
      "loss": 4.9052,
      "mean_token_accuracy": 0.21902025789022445,
      "num_tokens": 41172903.0,
      "step": 17970
    },
    {
      "entropy": 5.162399435043335,
      "epoch": 1.7267050912584054,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004705637643159175,
      "loss": 4.9808,
      "mean_token_accuracy": 0.22272872775793076,
      "num_tokens": 41183905.0,
      "step": 17975
    },
    {
      "entropy": 5.145203065872193,
      "epoch": 1.7271853986551393,
      "grad_norm": 1.34375,
      "learning_rate": 0.00047054680850564185,
      "loss": 4.8865,
      "mean_token_accuracy": 0.21936126351356505,
      "num_tokens": 41195921.0,
      "step": 17980
    },
    {
      "entropy": 5.071988487243653,
      "epoch": 1.7276657060518732,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004705298481553499,
      "loss": 4.9223,
      "mean_token_accuracy": 0.22444438189268112,
      "num_tokens": 41208287.0,
      "step": 17985
    },
    {
      "entropy": 5.1723504066467285,
      "epoch": 1.728146013448607,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00047051288326543553,
      "loss": 4.9596,
      "mean_token_accuracy": 0.21251793950796127,
      "num_tokens": 41219864.0,
      "step": 17990
    },
    {
      "entropy": 5.212101888656616,
      "epoch": 1.7286263208453412,
      "grad_norm": 1.25,
      "learning_rate": 0.00047049591383629247,
      "loss": 4.8862,
      "mean_token_accuracy": 0.2253048986196518,
      "num_tokens": 41230640.0,
      "step": 17995
    },
    {
      "entropy": 5.166407299041748,
      "epoch": 1.729106628242075,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00047047893986831493,
      "loss": 4.9322,
      "mean_token_accuracy": 0.2219822809100151,
      "num_tokens": 41242413.0,
      "step": 18000
    },
    {
      "epoch": 1.729106628242075,
      "eval_entropy": 5.004426007965958,
      "eval_loss": 5.013918876647949,
      "eval_mean_token_accuracy": 0.22329990555514567,
      "eval_num_tokens": 41242413.0,
      "eval_runtime": 26.6347,
      "eval_samples_per_second": 1232.042,
      "eval_steps_per_second": 154.01,
      "step": 18000
    }
  ],
  "logging_steps": 5,
  "max_steps": 104090,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 3000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 6.30270446112e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}