hin-deva-100mb-after-ppt-sh…/checkpoint-3000/trainer_state.json

{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.2881844380403458,
  "eval_steps": 3000,
  "global_step": 3000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 4.81198468208313,
      "epoch": 0.0004803073967339097,
      "grad_norm": 15.3125,
      "learning_rate": 2e-06,
      "loss": 14.3995,
      "mean_token_accuracy": 0.0,
      "num_tokens": 10855.0,
      "step": 5
    },
    {
      "entropy": 4.828950214385986,
      "epoch": 0.0009606147934678194,
      "grad_norm": 16.0,
      "learning_rate": 4.5e-06,
      "loss": 14.4568,
      "mean_token_accuracy": 6.361323175951838e-05,
      "num_tokens": 24110.0,
      "step": 10
    },
    {
      "entropy": 4.885565328598022,
      "epoch": 0.001440922190201729,
      "grad_norm": 18.375,
      "learning_rate": 7e-06,
      "loss": 14.1468,
      "mean_token_accuracy": 0.0,
      "num_tokens": 35984.0,
      "step": 15
    },
    {
      "entropy": 5.113980484008789,
      "epoch": 0.0019212295869356388,
      "grad_norm": 25.5,
      "learning_rate": 9.5e-06,
      "loss": 13.5274,
      "mean_token_accuracy": 0.0,
      "num_tokens": 48152.0,
      "step": 20
    },
    {
      "entropy": 7.0846137523651125,
      "epoch": 0.0024015369836695487,
      "grad_norm": 18.875,
      "learning_rate": 1.2e-05,
      "loss": 11.983,
      "mean_token_accuracy": 5.9031875571236016e-05,
      "num_tokens": 59810.0,
      "step": 25
    },
    {
      "entropy": 10.311653995513916,
      "epoch": 0.002881844380403458,
      "grad_norm": 3.25,
      "learning_rate": 1.4500000000000002e-05,
      "loss": 10.8966,
      "mean_token_accuracy": 0.0035814862465485932,
      "num_tokens": 70852.0,
      "step": 30
    },
    {
      "entropy": 10.698549842834472,
      "epoch": 0.0033621517771373678,
      "grad_norm": 3.453125,
      "learning_rate": 1.7000000000000003e-05,
      "loss": 10.681,
      "mean_token_accuracy": 0.012990868836641311,
      "num_tokens": 83378.0,
      "step": 35
    },
    {
      "entropy": 10.70135440826416,
      "epoch": 0.0038424591738712775,
      "grad_norm": 2.890625,
      "learning_rate": 1.95e-05,
      "loss": 10.3702,
      "mean_token_accuracy": 0.015855902433395387,
      "num_tokens": 95505.0,
      "step": 40
    },
    {
      "entropy": 10.669420051574708,
      "epoch": 0.004322766570605188,
      "grad_norm": 2.609375,
      "learning_rate": 2.2e-05,
      "loss": 10.0399,
      "mean_token_accuracy": 0.019150405284017326,
      "num_tokens": 106812.0,
      "step": 45
    },
    {
      "entropy": 10.626140022277832,
      "epoch": 0.004803073967339097,
      "grad_norm": 2.171875,
      "learning_rate": 2.4500000000000003e-05,
      "loss": 9.8531,
      "mean_token_accuracy": 0.030371082201600074,
      "num_tokens": 118572.0,
      "step": 50
    },
    {
      "entropy": 10.630718421936034,
      "epoch": 0.005283381364073006,
      "grad_norm": 2.140625,
      "learning_rate": 2.7e-05,
      "loss": 9.7085,
      "mean_token_accuracy": 0.02918087989091873,
      "num_tokens": 130051.0,
      "step": 55
    },
    {
      "entropy": 10.632691478729248,
      "epoch": 0.005763688760806916,
      "grad_norm": 2.109375,
      "learning_rate": 2.95e-05,
      "loss": 9.6316,
      "mean_token_accuracy": 0.033551334962248804,
      "num_tokens": 141920.0,
      "step": 60
    },
    {
      "entropy": 10.621756076812744,
      "epoch": 0.006243996157540826,
      "grad_norm": 1.953125,
      "learning_rate": 3.2e-05,
      "loss": 9.4968,
      "mean_token_accuracy": 0.03377603869885206,
      "num_tokens": 152706.0,
      "step": 65
    },
    {
      "entropy": 10.59926996231079,
      "epoch": 0.0067243035542747355,
      "grad_norm": 2.0,
      "learning_rate": 3.4500000000000005e-05,
      "loss": 9.4671,
      "mean_token_accuracy": 0.030284658074378967,
      "num_tokens": 165253.0,
      "step": 70
    },
    {
      "entropy": 10.586241340637207,
      "epoch": 0.007204610951008645,
      "grad_norm": 1.9921875,
      "learning_rate": 3.7e-05,
      "loss": 9.3528,
      "mean_token_accuracy": 0.03066213186830282,
      "num_tokens": 176708.0,
      "step": 75
    },
    {
      "entropy": 10.572576808929444,
      "epoch": 0.007684918347742555,
      "grad_norm": 1.9921875,
      "learning_rate": 3.95e-05,
      "loss": 9.3119,
      "mean_token_accuracy": 0.02979854876175523,
      "num_tokens": 188240.0,
      "step": 80
    },
    {
      "entropy": 10.554954528808594,
      "epoch": 0.008165225744476465,
      "grad_norm": 1.96875,
      "learning_rate": 4.2000000000000004e-05,
      "loss": 9.1145,
      "mean_token_accuracy": 0.03125303704291582,
      "num_tokens": 198355.0,
      "step": 85
    },
    {
      "entropy": 10.53057928085327,
      "epoch": 0.008645533141210375,
      "grad_norm": 1.8515625,
      "learning_rate": 4.45e-05,
      "loss": 9.0646,
      "mean_token_accuracy": 0.02982727512717247,
      "num_tokens": 209497.0,
      "step": 90
    },
    {
      "entropy": 10.494773197174073,
      "epoch": 0.009125840537944284,
      "grad_norm": 1.9609375,
      "learning_rate": 4.7000000000000004e-05,
      "loss": 8.9936,
      "mean_token_accuracy": 0.02780488096177578,
      "num_tokens": 220859.0,
      "step": 95
    },
    {
      "entropy": 10.448780918121338,
      "epoch": 0.009606147934678195,
      "grad_norm": 1.78125,
      "learning_rate": 4.9500000000000004e-05,
      "loss": 8.9232,
      "mean_token_accuracy": 0.030998879671096803,
      "num_tokens": 231550.0,
      "step": 100
    },
    {
      "entropy": 10.376792049407959,
      "epoch": 0.010086455331412104,
      "grad_norm": 1.65625,
      "learning_rate": 5.2e-05,
      "loss": 8.7452,
      "mean_token_accuracy": 0.030790003202855586,
      "num_tokens": 244210.0,
      "step": 105
    },
    {
      "entropy": 10.282748031616212,
      "epoch": 0.010566762728146013,
      "grad_norm": 1.6953125,
      "learning_rate": 5.45e-05,
      "loss": 8.6175,
      "mean_token_accuracy": 0.040817446634173395,
      "num_tokens": 255745.0,
      "step": 110
    },
    {
      "entropy": 10.166150856018067,
      "epoch": 0.011047070124879923,
      "grad_norm": 1.4609375,
      "learning_rate": 5.7e-05,
      "loss": 8.5074,
      "mean_token_accuracy": 0.0365377115085721,
      "num_tokens": 266180.0,
      "step": 115
    },
    {
      "entropy": 10.028709888458252,
      "epoch": 0.011527377521613832,
      "grad_norm": 1.4140625,
      "learning_rate": 5.9499999999999996e-05,
      "loss": 8.3681,
      "mean_token_accuracy": 0.03765994198620319,
      "num_tokens": 277736.0,
      "step": 120
    },
    {
      "entropy": 9.827960968017578,
      "epoch": 0.012007684918347743,
      "grad_norm": 1.2734375,
      "learning_rate": 6.2e-05,
      "loss": 8.2429,
      "mean_token_accuracy": 0.035723325610160825,
      "num_tokens": 289069.0,
      "step": 125
    },
    {
      "entropy": 9.59237585067749,
      "epoch": 0.012487992315081652,
      "grad_norm": 1.1796875,
      "learning_rate": 6.450000000000001e-05,
      "loss": 8.0891,
      "mean_token_accuracy": 0.04738196656107903,
      "num_tokens": 300240.0,
      "step": 130
    },
    {
      "entropy": 9.368733978271484,
      "epoch": 0.012968299711815562,
      "grad_norm": 1.09375,
      "learning_rate": 6.7e-05,
      "loss": 8.0332,
      "mean_token_accuracy": 0.04018798861652613,
      "num_tokens": 311698.0,
      "step": 135
    },
    {
      "entropy": 9.110132884979247,
      "epoch": 0.013448607108549471,
      "grad_norm": 0.95703125,
      "learning_rate": 6.950000000000001e-05,
      "loss": 7.9056,
      "mean_token_accuracy": 0.0432288508862257,
      "num_tokens": 322844.0,
      "step": 140
    },
    {
      "entropy": 8.820003223419189,
      "epoch": 0.013928914505283382,
      "grad_norm": 0.98046875,
      "learning_rate": 7.2e-05,
      "loss": 7.8235,
      "mean_token_accuracy": 0.045638217404484746,
      "num_tokens": 335092.0,
      "step": 145
    },
    {
      "entropy": 8.585826587677001,
      "epoch": 0.01440922190201729,
      "grad_norm": 0.8359375,
      "learning_rate": 7.45e-05,
      "loss": 7.7332,
      "mean_token_accuracy": 0.04667803719639778,
      "num_tokens": 347033.0,
      "step": 150
    },
    {
      "entropy": 8.385289859771728,
      "epoch": 0.014889529298751201,
      "grad_norm": 0.9921875,
      "learning_rate": 7.7e-05,
      "loss": 7.6524,
      "mean_token_accuracy": 0.05755673125386238,
      "num_tokens": 358696.0,
      "step": 155
    },
    {
      "entropy": 8.231111812591553,
      "epoch": 0.01536983669548511,
      "grad_norm": 0.875,
      "learning_rate": 7.950000000000001e-05,
      "loss": 7.6369,
      "mean_token_accuracy": 0.05747554413974285,
      "num_tokens": 369390.0,
      "step": 160
    },
    {
      "entropy": 8.13049030303955,
      "epoch": 0.01585014409221902,
      "grad_norm": 0.921875,
      "learning_rate": 8.2e-05,
      "loss": 7.573,
      "mean_token_accuracy": 0.058345531672239305,
      "num_tokens": 380540.0,
      "step": 165
    },
    {
      "entropy": 8.037137985229492,
      "epoch": 0.01633045148895293,
      "grad_norm": 1.4375,
      "learning_rate": 8.450000000000001e-05,
      "loss": 7.5672,
      "mean_token_accuracy": 0.05862935781478882,
      "num_tokens": 391243.0,
      "step": 170
    },
    {
      "entropy": 7.971378183364868,
      "epoch": 0.01681075888568684,
      "grad_norm": 1.1328125,
      "learning_rate": 8.7e-05,
      "loss": 7.5403,
      "mean_token_accuracy": 0.06493047513067722,
      "num_tokens": 403336.0,
      "step": 175
    },
    {
      "entropy": 7.996695470809937,
      "epoch": 0.01729106628242075,
      "grad_norm": 1.7890625,
      "learning_rate": 8.95e-05,
      "loss": 7.4714,
      "mean_token_accuracy": 0.06883232817053794,
      "num_tokens": 413886.0,
      "step": 180
    },
    {
      "entropy": 7.944087362289428,
      "epoch": 0.01777137367915466,
      "grad_norm": 1.28125,
      "learning_rate": 9.2e-05,
      "loss": 7.5072,
      "mean_token_accuracy": 0.07003857865929604,
      "num_tokens": 425277.0,
      "step": 185
    },
    {
      "entropy": 7.903090763092041,
      "epoch": 0.01825168107588857,
      "grad_norm": 1.1484375,
      "learning_rate": 9.45e-05,
      "loss": 7.5901,
      "mean_token_accuracy": 0.07094852812588215,
      "num_tokens": 436868.0,
      "step": 190
    },
    {
      "entropy": 7.9524956226348875,
      "epoch": 0.018731988472622477,
      "grad_norm": 1.3671875,
      "learning_rate": 9.7e-05,
      "loss": 7.3956,
      "mean_token_accuracy": 0.0713607795536518,
      "num_tokens": 448349.0,
      "step": 195
    },
    {
      "entropy": 7.893163013458252,
      "epoch": 0.01921229586935639,
      "grad_norm": 1.078125,
      "learning_rate": 9.95e-05,
      "loss": 7.398,
      "mean_token_accuracy": 0.07450502514839172,
      "num_tokens": 459447.0,
      "step": 200
    },
    {
      "entropy": 7.827638578414917,
      "epoch": 0.0196926032660903,
      "grad_norm": 1.09375,
      "learning_rate": 0.000102,
      "loss": 7.3545,
      "mean_token_accuracy": 0.07836289256811142,
      "num_tokens": 470734.0,
      "step": 205
    },
    {
      "entropy": 7.920483875274658,
      "epoch": 0.020172910662824207,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00010449999999999999,
      "loss": 7.3929,
      "mean_token_accuracy": 0.07436848841607571,
      "num_tokens": 482015.0,
      "step": 210
    },
    {
      "entropy": 7.829608154296875,
      "epoch": 0.020653218059558116,
      "grad_norm": 1.09375,
      "learning_rate": 0.000107,
      "loss": 7.3388,
      "mean_token_accuracy": 0.0812894694507122,
      "num_tokens": 493339.0,
      "step": 215
    },
    {
      "entropy": 7.832039451599121,
      "epoch": 0.021133525456292025,
      "grad_norm": 1.09375,
      "learning_rate": 0.0001095,
      "loss": 7.2806,
      "mean_token_accuracy": 0.08215347118675709,
      "num_tokens": 504924.0,
      "step": 220
    },
    {
      "entropy": 7.841120386123658,
      "epoch": 0.021613832853025938,
      "grad_norm": 1.3828125,
      "learning_rate": 0.000112,
      "loss": 7.2586,
      "mean_token_accuracy": 0.07783420942723751,
      "num_tokens": 516603.0,
      "step": 225
    },
    {
      "entropy": 7.667848110198975,
      "epoch": 0.022094140249759846,
      "grad_norm": 1.234375,
      "learning_rate": 0.0001145,
      "loss": 7.1767,
      "mean_token_accuracy": 0.0903685748577118,
      "num_tokens": 528347.0,
      "step": 230
    },
    {
      "entropy": 7.665532779693604,
      "epoch": 0.022574447646493755,
      "grad_norm": 1.453125,
      "learning_rate": 0.00011700000000000001,
      "loss": 7.2657,
      "mean_token_accuracy": 0.08881851136684418,
      "num_tokens": 539328.0,
      "step": 235
    },
    {
      "entropy": 7.787159252166748,
      "epoch": 0.023054755043227664,
      "grad_norm": 1.375,
      "learning_rate": 0.00011949999999999999,
      "loss": 7.2264,
      "mean_token_accuracy": 0.09179538786411286,
      "num_tokens": 549297.0,
      "step": 240
    },
    {
      "entropy": 7.68054313659668,
      "epoch": 0.023535062439961577,
      "grad_norm": 1.40625,
      "learning_rate": 0.000122,
      "loss": 7.1925,
      "mean_token_accuracy": 0.0870781309902668,
      "num_tokens": 560306.0,
      "step": 245
    },
    {
      "entropy": 7.722461795806884,
      "epoch": 0.024015369836695485,
      "grad_norm": 3.09375,
      "learning_rate": 0.0001245,
      "loss": 7.2601,
      "mean_token_accuracy": 0.08716249391436577,
      "num_tokens": 571972.0,
      "step": 250
    },
    {
      "entropy": 7.669500827789307,
      "epoch": 0.024495677233429394,
      "grad_norm": 1.125,
      "learning_rate": 0.000127,
      "loss": 7.1479,
      "mean_token_accuracy": 0.09271593019366264,
      "num_tokens": 582962.0,
      "step": 255
    },
    {
      "entropy": 7.6647216796875,
      "epoch": 0.024975984630163303,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0001295,
      "loss": 7.1214,
      "mean_token_accuracy": 0.09072922170162201,
      "num_tokens": 597193.0,
      "step": 260
    },
    {
      "entropy": 7.66283483505249,
      "epoch": 0.025456292026897216,
      "grad_norm": 1.21875,
      "learning_rate": 0.000132,
      "loss": 7.1819,
      "mean_token_accuracy": 0.09304547160863877,
      "num_tokens": 608982.0,
      "step": 265
    },
    {
      "entropy": 7.661752843856812,
      "epoch": 0.025936599423631124,
      "grad_norm": 1.25,
      "learning_rate": 0.00013450000000000002,
      "loss": 7.2188,
      "mean_token_accuracy": 0.08966975659132004,
      "num_tokens": 619953.0,
      "step": 270
    },
    {
      "entropy": 7.643835210800171,
      "epoch": 0.026416906820365033,
      "grad_norm": 1.25,
      "learning_rate": 0.00013700000000000002,
      "loss": 7.1751,
      "mean_token_accuracy": 0.09371341913938522,
      "num_tokens": 631039.0,
      "step": 275
    },
    {
      "entropy": 7.632717418670654,
      "epoch": 0.026897214217098942,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0001395,
      "loss": 7.1656,
      "mean_token_accuracy": 0.09481634944677353,
      "num_tokens": 642656.0,
      "step": 280
    },
    {
      "entropy": 7.468483591079712,
      "epoch": 0.027377521613832854,
      "grad_norm": 1.46875,
      "learning_rate": 0.00014199999999999998,
      "loss": 7.0285,
      "mean_token_accuracy": 0.10727941244840622,
      "num_tokens": 653748.0,
      "step": 285
    },
    {
      "entropy": 7.516920471191407,
      "epoch": 0.027857829010566763,
      "grad_norm": 1.171875,
      "learning_rate": 0.0001445,
      "loss": 7.0029,
      "mean_token_accuracy": 0.09661566317081452,
      "num_tokens": 665618.0,
      "step": 290
    },
    {
      "entropy": 7.486124277114868,
      "epoch": 0.028338136407300672,
      "grad_norm": 1.0625,
      "learning_rate": 0.000147,
      "loss": 7.0287,
      "mean_token_accuracy": 0.09913064762949944,
      "num_tokens": 677329.0,
      "step": 295
    },
    {
      "entropy": 7.49315767288208,
      "epoch": 0.02881844380403458,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0001495,
      "loss": 6.9864,
      "mean_token_accuracy": 0.1033214770257473,
      "num_tokens": 688278.0,
      "step": 300
    },
    {
      "entropy": 7.431641435623169,
      "epoch": 0.029298751200768493,
      "grad_norm": 1.96875,
      "learning_rate": 0.000152,
      "loss": 7.046,
      "mean_token_accuracy": 0.10180941373109817,
      "num_tokens": 700739.0,
      "step": 305
    },
    {
      "entropy": 7.378959465026855,
      "epoch": 0.029779058597502402,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015450000000000001,
      "loss": 6.9858,
      "mean_token_accuracy": 0.104751455783844,
      "num_tokens": 712527.0,
      "step": 310
    },
    {
      "entropy": 7.4179362773895265,
      "epoch": 0.03025936599423631,
      "grad_norm": 1.390625,
      "learning_rate": 0.000157,
      "loss": 7.0113,
      "mean_token_accuracy": 0.09946026802062988,
      "num_tokens": 724514.0,
      "step": 315
    },
    {
      "entropy": 7.464642429351807,
      "epoch": 0.03073967339097022,
      "grad_norm": 1.3125,
      "learning_rate": 0.0001595,
      "loss": 6.958,
      "mean_token_accuracy": 0.10636739879846573,
      "num_tokens": 735679.0,
      "step": 320
    },
    {
      "entropy": 7.379268789291382,
      "epoch": 0.03121998078770413,
      "grad_norm": 1.234375,
      "learning_rate": 0.000162,
      "loss": 6.9502,
      "mean_token_accuracy": 0.10707954466342925,
      "num_tokens": 747896.0,
      "step": 325
    },
    {
      "entropy": 7.4328147888183596,
      "epoch": 0.03170028818443804,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00016450000000000001,
      "loss": 7.0008,
      "mean_token_accuracy": 0.10451544597744941,
      "num_tokens": 759081.0,
      "step": 330
    },
    {
      "entropy": 7.373377466201783,
      "epoch": 0.03218059558117195,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00016700000000000002,
      "loss": 6.9349,
      "mean_token_accuracy": 0.10051383301615716,
      "num_tokens": 770459.0,
      "step": 335
    },
    {
      "entropy": 7.3182484149932865,
      "epoch": 0.03266090297790586,
      "grad_norm": 2.25,
      "learning_rate": 0.00016950000000000003,
      "loss": 6.9097,
      "mean_token_accuracy": 0.10436427593231201,
      "num_tokens": 783960.0,
      "step": 340
    },
    {
      "entropy": 7.2723020076751705,
      "epoch": 0.03314121037463977,
      "grad_norm": 1.34375,
      "learning_rate": 0.00017199999999999998,
      "loss": 6.9998,
      "mean_token_accuracy": 0.1017355315387249,
      "num_tokens": 795425.0,
      "step": 345
    },
    {
      "entropy": 7.288401937484741,
      "epoch": 0.03362151777137368,
      "grad_norm": 1.5625,
      "learning_rate": 0.00017449999999999999,
      "loss": 6.9466,
      "mean_token_accuracy": 0.1032905712723732,
      "num_tokens": 807536.0,
      "step": 350
    },
    {
      "entropy": 7.429675006866455,
      "epoch": 0.034101825168107586,
      "grad_norm": 1.25,
      "learning_rate": 0.000177,
      "loss": 6.9955,
      "mean_token_accuracy": 0.09869879111647606,
      "num_tokens": 818801.0,
      "step": 355
    },
    {
      "entropy": 7.303883075714111,
      "epoch": 0.0345821325648415,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0001795,
      "loss": 6.8664,
      "mean_token_accuracy": 0.1042160525918007,
      "num_tokens": 831497.0,
      "step": 360
    },
    {
      "entropy": 7.275684547424317,
      "epoch": 0.03506243996157541,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000182,
      "loss": 6.8349,
      "mean_token_accuracy": 0.10631057769060134,
      "num_tokens": 842491.0,
      "step": 365
    },
    {
      "entropy": 7.303065443038941,
      "epoch": 0.03554274735830932,
      "grad_norm": 1.328125,
      "learning_rate": 0.0001845,
      "loss": 6.9059,
      "mean_token_accuracy": 0.09917943850159645,
      "num_tokens": 854560.0,
      "step": 370
    },
    {
      "entropy": 7.275861215591431,
      "epoch": 0.03602305475504323,
      "grad_norm": 1.3515625,
      "learning_rate": 0.000187,
      "loss": 6.8151,
      "mean_token_accuracy": 0.11120132729411125,
      "num_tokens": 866688.0,
      "step": 375
    },
    {
      "entropy": 7.233143997192383,
      "epoch": 0.03650336215177714,
      "grad_norm": 1.65625,
      "learning_rate": 0.0001895,
      "loss": 6.9205,
      "mean_token_accuracy": 0.09971508085727691,
      "num_tokens": 879484.0,
      "step": 380
    },
    {
      "entropy": 7.290747499465942,
      "epoch": 0.036983669548511046,
      "grad_norm": 1.2109375,
      "learning_rate": 0.000192,
      "loss": 6.9039,
      "mean_token_accuracy": 0.10731675177812576,
      "num_tokens": 890807.0,
      "step": 385
    },
    {
      "entropy": 7.2609399318695065,
      "epoch": 0.037463976945244955,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001945,
      "loss": 6.854,
      "mean_token_accuracy": 0.10835549905896187,
      "num_tokens": 901759.0,
      "step": 390
    },
    {
      "entropy": 7.174216985702515,
      "epoch": 0.037944284341978864,
      "grad_norm": 1.28125,
      "learning_rate": 0.00019700000000000002,
      "loss": 6.7707,
      "mean_token_accuracy": 0.1162538155913353,
      "num_tokens": 912212.0,
      "step": 395
    },
    {
      "entropy": 7.264402294158936,
      "epoch": 0.03842459173871278,
      "grad_norm": 1.171875,
      "learning_rate": 0.00019950000000000002,
      "loss": 6.8764,
      "mean_token_accuracy": 0.10775518119335174,
      "num_tokens": 923947.0,
      "step": 400
    },
    {
      "entropy": 7.194364166259765,
      "epoch": 0.03890489913544669,
      "grad_norm": 1.5703125,
      "learning_rate": 0.000202,
      "loss": 6.8149,
      "mean_token_accuracy": 0.1155998706817627,
      "num_tokens": 935732.0,
      "step": 405
    },
    {
      "entropy": 7.094007158279419,
      "epoch": 0.0393852065321806,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00020449999999999998,
      "loss": 6.7534,
      "mean_token_accuracy": 0.11219719424843788,
      "num_tokens": 948261.0,
      "step": 410
    },
    {
      "entropy": 7.198687505722046,
      "epoch": 0.039865513928914506,
      "grad_norm": 1.5390625,
      "learning_rate": 0.000207,
      "loss": 6.8682,
      "mean_token_accuracy": 0.11036199703812599,
      "num_tokens": 959574.0,
      "step": 415
    },
    {
      "entropy": 7.14764518737793,
      "epoch": 0.040345821325648415,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0002095,
      "loss": 6.9302,
      "mean_token_accuracy": 0.10567210242152214,
      "num_tokens": 970329.0,
      "step": 420
    },
    {
      "entropy": 7.284962558746338,
      "epoch": 0.040826128722382324,
      "grad_norm": 1.5078125,
      "learning_rate": 0.000212,
      "loss": 6.7852,
      "mean_token_accuracy": 0.11808342635631561,
      "num_tokens": 982037.0,
      "step": 425
    },
    {
      "entropy": 6.99963059425354,
      "epoch": 0.04130643611911623,
      "grad_norm": 1.15625,
      "learning_rate": 0.0002145,
      "loss": 6.7507,
      "mean_token_accuracy": 0.1121592566370964,
      "num_tokens": 994612.0,
      "step": 430
    },
    {
      "entropy": 7.1772722721099855,
      "epoch": 0.04178674351585014,
      "grad_norm": 1.203125,
      "learning_rate": 0.00021700000000000002,
      "loss": 6.8563,
      "mean_token_accuracy": 0.11890432462096215,
      "num_tokens": 1005960.0,
      "step": 435
    },
    {
      "entropy": 7.119032526016236,
      "epoch": 0.04226705091258405,
      "grad_norm": 1.234375,
      "learning_rate": 0.0002195,
      "loss": 6.726,
      "mean_token_accuracy": 0.11254842653870582,
      "num_tokens": 1017618.0,
      "step": 440
    },
    {
      "entropy": 7.120699787139893,
      "epoch": 0.042747358309317966,
      "grad_norm": 1.5234375,
      "learning_rate": 0.000222,
      "loss": 6.7617,
      "mean_token_accuracy": 0.11123086810112,
      "num_tokens": 1029307.0,
      "step": 445
    },
    {
      "entropy": 7.10453462600708,
      "epoch": 0.043227665706051875,
      "grad_norm": 1.21875,
      "learning_rate": 0.0002245,
      "loss": 6.7794,
      "mean_token_accuracy": 0.11213452070951462,
      "num_tokens": 1042027.0,
      "step": 450
    },
    {
      "entropy": 7.109935092926025,
      "epoch": 0.043707973102785784,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00022700000000000002,
      "loss": 6.7726,
      "mean_token_accuracy": 0.11005142331123352,
      "num_tokens": 1053125.0,
      "step": 455
    },
    {
      "entropy": 7.093224906921387,
      "epoch": 0.04418828049951969,
      "grad_norm": 1.578125,
      "learning_rate": 0.00022950000000000002,
      "loss": 6.7646,
      "mean_token_accuracy": 0.11863623559474945,
      "num_tokens": 1064908.0,
      "step": 460
    },
    {
      "entropy": 7.0393500328063965,
      "epoch": 0.0446685878962536,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00023200000000000003,
      "loss": 6.6415,
      "mean_token_accuracy": 0.12022090703248978,
      "num_tokens": 1076328.0,
      "step": 465
    },
    {
      "entropy": 7.159615230560303,
      "epoch": 0.04514889529298751,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00023449999999999998,
      "loss": 6.8668,
      "mean_token_accuracy": 0.10638144612312317,
      "num_tokens": 1088469.0,
      "step": 470
    },
    {
      "entropy": 6.9358738422393795,
      "epoch": 0.04562920268972142,
      "grad_norm": 1.375,
      "learning_rate": 0.000237,
      "loss": 6.6608,
      "mean_token_accuracy": 0.11796007007360458,
      "num_tokens": 1099408.0,
      "step": 475
    },
    {
      "entropy": 6.921041584014892,
      "epoch": 0.04610951008645533,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0002395,
      "loss": 6.596,
      "mean_token_accuracy": 0.12084084451198578,
      "num_tokens": 1111101.0,
      "step": 480
    },
    {
      "entropy": 6.980242967605591,
      "epoch": 0.046589817483189244,
      "grad_norm": 1.375,
      "learning_rate": 0.000242,
      "loss": 6.6189,
      "mean_token_accuracy": 0.11961494460701942,
      "num_tokens": 1122877.0,
      "step": 485
    },
    {
      "entropy": 6.998215103149414,
      "epoch": 0.04707012487992315,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0002445,
      "loss": 6.7183,
      "mean_token_accuracy": 0.1069619596004486,
      "num_tokens": 1133956.0,
      "step": 490
    },
    {
      "entropy": 6.955817556381225,
      "epoch": 0.04755043227665706,
      "grad_norm": 1.265625,
      "learning_rate": 0.000247,
      "loss": 6.6106,
      "mean_token_accuracy": 0.12115221694111825,
      "num_tokens": 1146101.0,
      "step": 495
    },
    {
      "entropy": 6.991823005676269,
      "epoch": 0.04803073967339097,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002495,
      "loss": 6.704,
      "mean_token_accuracy": 0.1240153320133686,
      "num_tokens": 1157432.0,
      "step": 500
    },
    {
      "entropy": 6.995119285583496,
      "epoch": 0.04851104707012488,
      "grad_norm": 1.1875,
      "learning_rate": 0.000252,
      "loss": 6.6931,
      "mean_token_accuracy": 0.12121785953640937,
      "num_tokens": 1167601.0,
      "step": 505
    },
    {
      "entropy": 6.925166416168213,
      "epoch": 0.04899135446685879,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0002545,
      "loss": 6.5948,
      "mean_token_accuracy": 0.11933866590261459,
      "num_tokens": 1178818.0,
      "step": 510
    },
    {
      "entropy": 7.102405261993408,
      "epoch": 0.0494716618635927,
      "grad_norm": 1.234375,
      "learning_rate": 0.000257,
      "loss": 6.8296,
      "mean_token_accuracy": 0.11879347264766693,
      "num_tokens": 1189977.0,
      "step": 515
    },
    {
      "entropy": 6.896050024032593,
      "epoch": 0.049951969260326606,
      "grad_norm": 1.09375,
      "learning_rate": 0.0002595,
      "loss": 6.6543,
      "mean_token_accuracy": 0.12233106046915054,
      "num_tokens": 1201039.0,
      "step": 520
    },
    {
      "entropy": 7.007365083694458,
      "epoch": 0.05043227665706052,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000262,
      "loss": 6.6791,
      "mean_token_accuracy": 0.12215208187699318,
      "num_tokens": 1212573.0,
      "step": 525
    },
    {
      "entropy": 7.002063369750976,
      "epoch": 0.05091258405379443,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00026450000000000003,
      "loss": 6.6208,
      "mean_token_accuracy": 0.1271028608083725,
      "num_tokens": 1223382.0,
      "step": 530
    },
    {
      "entropy": 6.9438478469848635,
      "epoch": 0.05139289145052834,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00026700000000000004,
      "loss": 6.6969,
      "mean_token_accuracy": 0.12958464100956918,
      "num_tokens": 1236501.0,
      "step": 535
    },
    {
      "entropy": 6.931712675094604,
      "epoch": 0.05187319884726225,
      "grad_norm": 1.203125,
      "learning_rate": 0.00026950000000000005,
      "loss": 6.687,
      "mean_token_accuracy": 0.12256318107247352,
      "num_tokens": 1246798.0,
      "step": 540
    },
    {
      "entropy": 6.9002622127532955,
      "epoch": 0.05235350624399616,
      "grad_norm": 1.40625,
      "learning_rate": 0.00027200000000000005,
      "loss": 6.6164,
      "mean_token_accuracy": 0.12228193208575248,
      "num_tokens": 1258182.0,
      "step": 545
    },
    {
      "entropy": 6.873838090896607,
      "epoch": 0.052833813640730067,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002745,
      "loss": 6.5781,
      "mean_token_accuracy": 0.11714496314525605,
      "num_tokens": 1270273.0,
      "step": 550
    },
    {
      "entropy": 6.869143629074097,
      "epoch": 0.053314121037463975,
      "grad_norm": 1.4296875,
      "learning_rate": 0.000277,
      "loss": 6.6336,
      "mean_token_accuracy": 0.11991709843277931,
      "num_tokens": 1281136.0,
      "step": 555
    },
    {
      "entropy": 6.914445209503174,
      "epoch": 0.053794428434197884,
      "grad_norm": 1.109375,
      "learning_rate": 0.0002795,
      "loss": 6.6257,
      "mean_token_accuracy": 0.12010404467582703,
      "num_tokens": 1294488.0,
      "step": 560
    },
    {
      "entropy": 6.732436418533325,
      "epoch": 0.05427473583093179,
      "grad_norm": 1.296875,
      "learning_rate": 0.00028199999999999997,
      "loss": 6.5262,
      "mean_token_accuracy": 0.12693093419075013,
      "num_tokens": 1304113.0,
      "step": 565
    },
    {
      "entropy": 6.927071809768677,
      "epoch": 0.05475504322766571,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0002845,
      "loss": 6.5843,
      "mean_token_accuracy": 0.12877818644046785,
      "num_tokens": 1315417.0,
      "step": 570
    },
    {
      "entropy": 6.783261919021607,
      "epoch": 0.05523535062439962,
      "grad_norm": 1.34375,
      "learning_rate": 0.000287,
      "loss": 6.5521,
      "mean_token_accuracy": 0.1234595388174057,
      "num_tokens": 1328084.0,
      "step": 575
    },
    {
      "entropy": 6.8645414352417,
      "epoch": 0.05571565802113353,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0002895,
      "loss": 6.6982,
      "mean_token_accuracy": 0.1229254849255085,
      "num_tokens": 1338696.0,
      "step": 580
    },
    {
      "entropy": 6.887264966964722,
      "epoch": 0.056195965417867436,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000292,
      "loss": 6.6333,
      "mean_token_accuracy": 0.12206205278635025,
      "num_tokens": 1350240.0,
      "step": 585
    },
    {
      "entropy": 6.901881551742553,
      "epoch": 0.056676272814601344,
      "grad_norm": 1.390625,
      "learning_rate": 0.0002945,
      "loss": 6.5792,
      "mean_token_accuracy": 0.12374859303236008,
      "num_tokens": 1361720.0,
      "step": 590
    },
    {
      "entropy": 6.646714115142823,
      "epoch": 0.05715658021133525,
      "grad_norm": 1.453125,
      "learning_rate": 0.000297,
      "loss": 6.5831,
      "mean_token_accuracy": 0.12852583453059196,
      "num_tokens": 1373286.0,
      "step": 595
    },
    {
      "entropy": 6.89121675491333,
      "epoch": 0.05763688760806916,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002995,
      "loss": 6.5332,
      "mean_token_accuracy": 0.12378557696938515,
      "num_tokens": 1384274.0,
      "step": 600
    },
    {
      "entropy": 6.707057476043701,
      "epoch": 0.05811719500480307,
      "grad_norm": 1.2734375,
      "learning_rate": 0.000302,
      "loss": 6.5674,
      "mean_token_accuracy": 0.1248041570186615,
      "num_tokens": 1395355.0,
      "step": 605
    },
    {
      "entropy": 6.787681436538696,
      "epoch": 0.05859750240153699,
      "grad_norm": 1.59375,
      "learning_rate": 0.0003045,
      "loss": 6.5071,
      "mean_token_accuracy": 0.1337241604924202,
      "num_tokens": 1406664.0,
      "step": 610
    },
    {
      "entropy": 6.907395648956299,
      "epoch": 0.059077809798270896,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000307,
      "loss": 6.6562,
      "mean_token_accuracy": 0.12113718539476395,
      "num_tokens": 1418450.0,
      "step": 615
    },
    {
      "entropy": 6.8045419216156,
      "epoch": 0.059558117195004805,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003095,
      "loss": 6.5466,
      "mean_token_accuracy": 0.12454390972852707,
      "num_tokens": 1430048.0,
      "step": 620
    },
    {
      "entropy": 6.808126592636109,
      "epoch": 0.060038424591738714,
      "grad_norm": 1.5703125,
      "learning_rate": 0.000312,
      "loss": 6.5911,
      "mean_token_accuracy": 0.12378140687942504,
      "num_tokens": 1441820.0,
      "step": 625
    },
    {
      "entropy": 6.753187370300293,
      "epoch": 0.06051873198847262,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003145,
      "loss": 6.445,
      "mean_token_accuracy": 0.13010460510849953,
      "num_tokens": 1453209.0,
      "step": 630
    },
    {
      "entropy": 6.6527941703796385,
      "epoch": 0.06099903938520653,
      "grad_norm": 1.3515625,
      "learning_rate": 0.000317,
      "loss": 6.4598,
      "mean_token_accuracy": 0.12725651860237122,
      "num_tokens": 1465423.0,
      "step": 635
    },
    {
      "entropy": 6.711978006362915,
      "epoch": 0.06147934678194044,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003195,
      "loss": 6.4541,
      "mean_token_accuracy": 0.13069155365228652,
      "num_tokens": 1476575.0,
      "step": 640
    },
    {
      "entropy": 6.659121417999268,
      "epoch": 0.06195965417867435,
      "grad_norm": 1.734375,
      "learning_rate": 0.000322,
      "loss": 6.4109,
      "mean_token_accuracy": 0.12579366862773894,
      "num_tokens": 1486932.0,
      "step": 645
    },
    {
      "entropy": 6.691300868988037,
      "epoch": 0.06243996157540826,
      "grad_norm": 1.140625,
      "learning_rate": 0.00032450000000000003,
      "loss": 6.4399,
      "mean_token_accuracy": 0.12854820042848586,
      "num_tokens": 1498494.0,
      "step": 650
    },
    {
      "entropy": 6.7037928104400635,
      "epoch": 0.06292026897214217,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00032700000000000003,
      "loss": 6.4936,
      "mean_token_accuracy": 0.12374913021922111,
      "num_tokens": 1509937.0,
      "step": 655
    },
    {
      "entropy": 6.782931184768676,
      "epoch": 0.06340057636887608,
      "grad_norm": 1.3125,
      "learning_rate": 0.00032950000000000004,
      "loss": 6.5147,
      "mean_token_accuracy": 0.13380258977413179,
      "num_tokens": 1519823.0,
      "step": 660
    },
    {
      "entropy": 6.726450872421265,
      "epoch": 0.06388088376560999,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00033200000000000005,
      "loss": 6.5528,
      "mean_token_accuracy": 0.12575417309999465,
      "num_tokens": 1529943.0,
      "step": 665
    },
    {
      "entropy": 6.611954069137573,
      "epoch": 0.0643611911623439,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00033450000000000005,
      "loss": 6.3767,
      "mean_token_accuracy": 0.13369367122650147,
      "num_tokens": 1540618.0,
      "step": 670
    },
    {
      "entropy": 6.685780334472656,
      "epoch": 0.06484149855907781,
      "grad_norm": 1.3515625,
      "learning_rate": 0.000337,
      "loss": 6.5048,
      "mean_token_accuracy": 0.1227756217122078,
      "num_tokens": 1553208.0,
      "step": 675
    },
    {
      "entropy": 6.6764894962310795,
      "epoch": 0.06532180595581172,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0003395,
      "loss": 6.4589,
      "mean_token_accuracy": 0.1339925467967987,
      "num_tokens": 1563975.0,
      "step": 680
    },
    {
      "entropy": 6.717716455459595,
      "epoch": 0.06580211335254563,
      "grad_norm": 1.28125,
      "learning_rate": 0.000342,
      "loss": 6.5252,
      "mean_token_accuracy": 0.12458744868636132,
      "num_tokens": 1575998.0,
      "step": 685
    },
    {
      "entropy": 6.6251349449157715,
      "epoch": 0.06628242074927954,
      "grad_norm": 1.125,
      "learning_rate": 0.00034449999999999997,
      "loss": 6.3994,
      "mean_token_accuracy": 0.13568611592054367,
      "num_tokens": 1586041.0,
      "step": 690
    },
    {
      "entropy": 6.637330770492554,
      "epoch": 0.06676272814601344,
      "grad_norm": 1.4375,
      "learning_rate": 0.000347,
      "loss": 6.4796,
      "mean_token_accuracy": 0.12872253656387328,
      "num_tokens": 1597531.0,
      "step": 695
    },
    {
      "entropy": 6.617096710205078,
      "epoch": 0.06724303554274735,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0003495,
      "loss": 6.4549,
      "mean_token_accuracy": 0.12859696000814438,
      "num_tokens": 1609255.0,
      "step": 700
    },
    {
      "entropy": 6.640483236312866,
      "epoch": 0.06772334293948126,
      "grad_norm": 1.265625,
      "learning_rate": 0.000352,
      "loss": 6.439,
      "mean_token_accuracy": 0.13394341096282006,
      "num_tokens": 1621098.0,
      "step": 705
    },
    {
      "entropy": 6.601499080657959,
      "epoch": 0.06820365033621517,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0003545,
      "loss": 6.3504,
      "mean_token_accuracy": 0.14078185856342315,
      "num_tokens": 1631941.0,
      "step": 710
    },
    {
      "entropy": 6.551211166381836,
      "epoch": 0.0686839577329491,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000357,
      "loss": 6.3471,
      "mean_token_accuracy": 0.13648251742124556,
      "num_tokens": 1643117.0,
      "step": 715
    },
    {
      "entropy": 6.5161905765533445,
      "epoch": 0.069164265129683,
      "grad_norm": 1.40625,
      "learning_rate": 0.0003595,
      "loss": 6.3952,
      "mean_token_accuracy": 0.13429828062653543,
      "num_tokens": 1653595.0,
      "step": 720
    },
    {
      "entropy": 6.614610481262207,
      "epoch": 0.06964457252641691,
      "grad_norm": 1.2734375,
      "learning_rate": 0.000362,
      "loss": 6.4168,
      "mean_token_accuracy": 0.13274685442447662,
      "num_tokens": 1664495.0,
      "step": 725
    },
    {
      "entropy": 6.5094832420349125,
      "epoch": 0.07012487992315082,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003645,
      "loss": 6.4047,
      "mean_token_accuracy": 0.136563728004694,
      "num_tokens": 1674923.0,
      "step": 730
    },
    {
      "entropy": 6.602942371368409,
      "epoch": 0.07060518731988473,
      "grad_norm": 1.234375,
      "learning_rate": 0.000367,
      "loss": 6.3045,
      "mean_token_accuracy": 0.13681301474571228,
      "num_tokens": 1685904.0,
      "step": 735
    },
    {
      "entropy": 6.596617603302002,
      "epoch": 0.07108549471661864,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003695,
      "loss": 6.5324,
      "mean_token_accuracy": 0.12432878389954567,
      "num_tokens": 1699133.0,
      "step": 740
    },
    {
      "entropy": 6.504991292953491,
      "epoch": 0.07156580211335255,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000372,
      "loss": 6.342,
      "mean_token_accuracy": 0.13271907046437265,
      "num_tokens": 1711559.0,
      "step": 745
    },
    {
      "entropy": 6.592547464370727,
      "epoch": 0.07204610951008646,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003745,
      "loss": 6.2575,
      "mean_token_accuracy": 0.14460937380790712,
      "num_tokens": 1722526.0,
      "step": 750
    },
    {
      "entropy": 6.4313709259033205,
      "epoch": 0.07252641690682037,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000377,
      "loss": 6.3265,
      "mean_token_accuracy": 0.1398925192654133,
      "num_tokens": 1734261.0,
      "step": 755
    },
    {
      "entropy": 6.5256377220153805,
      "epoch": 0.07300672430355427,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003795,
      "loss": 6.3105,
      "mean_token_accuracy": 0.14366703033447265,
      "num_tokens": 1745151.0,
      "step": 760
    },
    {
      "entropy": 6.631883907318115,
      "epoch": 0.07348703170028818,
      "grad_norm": 1.3203125,
      "learning_rate": 0.000382,
      "loss": 6.4547,
      "mean_token_accuracy": 0.1341322012245655,
      "num_tokens": 1755463.0,
      "step": 765
    },
    {
      "entropy": 6.584089756011963,
      "epoch": 0.07396733909702209,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0003845,
      "loss": 6.4178,
      "mean_token_accuracy": 0.1315837398171425,
      "num_tokens": 1767717.0,
      "step": 770
    },
    {
      "entropy": 6.3859930515289305,
      "epoch": 0.074447646493756,
      "grad_norm": 1.296875,
      "learning_rate": 0.00038700000000000003,
      "loss": 6.2619,
      "mean_token_accuracy": 0.14160886630415917,
      "num_tokens": 1779115.0,
      "step": 775
    },
    {
      "entropy": 6.3998737812042235,
      "epoch": 0.07492795389048991,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00038950000000000003,
      "loss": 6.213,
      "mean_token_accuracy": 0.1398429863154888,
      "num_tokens": 1789644.0,
      "step": 780
    },
    {
      "entropy": 6.540688323974609,
      "epoch": 0.07540826128722382,
      "grad_norm": 1.140625,
      "learning_rate": 0.00039200000000000004,
      "loss": 6.4251,
      "mean_token_accuracy": 0.13578777611255646,
      "num_tokens": 1800606.0,
      "step": 785
    },
    {
      "entropy": 6.513448238372803,
      "epoch": 0.07588856868395773,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00039450000000000005,
      "loss": 6.4264,
      "mean_token_accuracy": 0.12942690253257752,
      "num_tokens": 1812168.0,
      "step": 790
    },
    {
      "entropy": 6.5457319736480715,
      "epoch": 0.07636887608069164,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00039700000000000005,
      "loss": 6.3796,
      "mean_token_accuracy": 0.1303087830543518,
      "num_tokens": 1823830.0,
      "step": 795
    },
    {
      "entropy": 6.495282316207886,
      "epoch": 0.07684918347742556,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003995,
      "loss": 6.3456,
      "mean_token_accuracy": 0.13957973942160606,
      "num_tokens": 1835611.0,
      "step": 800
    },
    {
      "entropy": 6.467644214630127,
      "epoch": 0.07732949087415947,
      "grad_norm": 1.15625,
      "learning_rate": 0.000402,
      "loss": 6.4127,
      "mean_token_accuracy": 0.1334280975162983,
      "num_tokens": 1847036.0,
      "step": 805
    },
    {
      "entropy": 6.464094591140747,
      "epoch": 0.07780979827089338,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004045,
      "loss": 6.3528,
      "mean_token_accuracy": 0.13223012760281563,
      "num_tokens": 1857476.0,
      "step": 810
    },
    {
      "entropy": 6.50727949142456,
      "epoch": 0.07829010566762729,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00040699999999999997,
      "loss": 6.3773,
      "mean_token_accuracy": 0.1352442115545273,
      "num_tokens": 1869073.0,
      "step": 815
    },
    {
      "entropy": 6.384515810012817,
      "epoch": 0.0787704130643612,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004095,
      "loss": 6.2486,
      "mean_token_accuracy": 0.14026699736714363,
      "num_tokens": 1880439.0,
      "step": 820
    },
    {
      "entropy": 6.561717510223389,
      "epoch": 0.0792507204610951,
      "grad_norm": 1.328125,
      "learning_rate": 0.000412,
      "loss": 6.4116,
      "mean_token_accuracy": 0.134783523529768,
      "num_tokens": 1891600.0,
      "step": 825
    },
    {
      "entropy": 6.414502573013306,
      "epoch": 0.07973102785782901,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004145,
      "loss": 6.3783,
      "mean_token_accuracy": 0.13531816452741624,
      "num_tokens": 1903126.0,
      "step": 830
    },
    {
      "entropy": 6.5730548858642575,
      "epoch": 0.08021133525456292,
      "grad_norm": 1.296875,
      "learning_rate": 0.000417,
      "loss": 6.3467,
      "mean_token_accuracy": 0.14032403156161308,
      "num_tokens": 1913913.0,
      "step": 835
    },
    {
      "entropy": 6.344644355773926,
      "epoch": 0.08069164265129683,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004195,
      "loss": 6.2684,
      "mean_token_accuracy": 0.1382530964910984,
      "num_tokens": 1924961.0,
      "step": 840
    },
    {
      "entropy": 6.523792457580567,
      "epoch": 0.08117195004803074,
      "grad_norm": 1.2421875,
      "learning_rate": 0.000422,
      "loss": 6.3612,
      "mean_token_accuracy": 0.12942377403378486,
      "num_tokens": 1936773.0,
      "step": 845
    },
    {
      "entropy": 6.355926513671875,
      "epoch": 0.08165225744476465,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004245,
      "loss": 6.2783,
      "mean_token_accuracy": 0.13875910267233849,
      "num_tokens": 1948190.0,
      "step": 850
    },
    {
      "entropy": 6.331581449508667,
      "epoch": 0.08213256484149856,
      "grad_norm": 1.09375,
      "learning_rate": 0.000427,
      "loss": 6.2694,
      "mean_token_accuracy": 0.14160780385136604,
      "num_tokens": 1960038.0,
      "step": 855
    },
    {
      "entropy": 6.557125091552734,
      "epoch": 0.08261287223823247,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004295,
      "loss": 6.3489,
      "mean_token_accuracy": 0.14002878665924073,
      "num_tokens": 1970535.0,
      "step": 860
    },
    {
      "entropy": 6.411432456970215,
      "epoch": 0.08309317963496637,
      "grad_norm": 1.34375,
      "learning_rate": 0.000432,
      "loss": 6.3226,
      "mean_token_accuracy": 0.13546231836080552,
      "num_tokens": 1981386.0,
      "step": 865
    },
    {
      "entropy": 6.337710332870484,
      "epoch": 0.08357348703170028,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004345,
      "loss": 6.2428,
      "mean_token_accuracy": 0.1426716774702072,
      "num_tokens": 1993196.0,
      "step": 870
    },
    {
      "entropy": 6.432919025421143,
      "epoch": 0.08405379442843419,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000437,
      "loss": 6.2741,
      "mean_token_accuracy": 0.14658503904938697,
      "num_tokens": 2004756.0,
      "step": 875
    },
    {
      "entropy": 6.315603113174438,
      "epoch": 0.0845341018251681,
      "grad_norm": 1.25,
      "learning_rate": 0.0004395,
      "loss": 6.2347,
      "mean_token_accuracy": 0.14145326390862464,
      "num_tokens": 2016020.0,
      "step": 880
    },
    {
      "entropy": 6.380750274658203,
      "epoch": 0.08501440922190202,
      "grad_norm": 1.2265625,
      "learning_rate": 0.000442,
      "loss": 6.2819,
      "mean_token_accuracy": 0.14082487300038338,
      "num_tokens": 2027747.0,
      "step": 885
    },
    {
      "entropy": 6.4264098644256595,
      "epoch": 0.08549471661863593,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004445,
      "loss": 6.2553,
      "mean_token_accuracy": 0.13818828240036965,
      "num_tokens": 2038841.0,
      "step": 890
    },
    {
      "entropy": 6.385887289047242,
      "epoch": 0.08597502401536984,
      "grad_norm": 1.046875,
      "learning_rate": 0.000447,
      "loss": 6.3043,
      "mean_token_accuracy": 0.13402576446533204,
      "num_tokens": 2049905.0,
      "step": 895
    },
    {
      "entropy": 6.424469089508056,
      "epoch": 0.08645533141210375,
      "grad_norm": 1.234375,
      "learning_rate": 0.00044950000000000003,
      "loss": 6.3803,
      "mean_token_accuracy": 0.13485484719276428,
      "num_tokens": 2062492.0,
      "step": 900
    },
    {
      "entropy": 6.387258577346802,
      "epoch": 0.08693563880883766,
      "grad_norm": 1.21875,
      "learning_rate": 0.00045200000000000004,
      "loss": 6.31,
      "mean_token_accuracy": 0.1353304862976074,
      "num_tokens": 2073840.0,
      "step": 905
    },
    {
      "entropy": 6.3580629348754885,
      "epoch": 0.08741594620557157,
      "grad_norm": 1.328125,
      "learning_rate": 0.00045450000000000004,
      "loss": 6.221,
      "mean_token_accuracy": 0.14060378223657607,
      "num_tokens": 2085720.0,
      "step": 910
    },
    {
      "entropy": 6.353258228302002,
      "epoch": 0.08789625360230548,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00045700000000000005,
      "loss": 6.3039,
      "mean_token_accuracy": 0.1413162462413311,
      "num_tokens": 2096649.0,
      "step": 915
    },
    {
      "entropy": 6.436611890792847,
      "epoch": 0.08837656099903939,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00045950000000000006,
      "loss": 6.3061,
      "mean_token_accuracy": 0.14285610914230346,
      "num_tokens": 2109030.0,
      "step": 920
    },
    {
      "entropy": 6.35608320236206,
      "epoch": 0.0888568683957733,
      "grad_norm": 1.15625,
      "learning_rate": 0.000462,
      "loss": 6.2113,
      "mean_token_accuracy": 0.14488047659397124,
      "num_tokens": 2121384.0,
      "step": 925
    },
    {
      "entropy": 6.269479846954345,
      "epoch": 0.0893371757925072,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004645,
      "loss": 6.1635,
      "mean_token_accuracy": 0.147640460729599,
      "num_tokens": 2131377.0,
      "step": 930
    },
    {
      "entropy": 6.344134902954101,
      "epoch": 0.08981748318924111,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000467,
      "loss": 6.3531,
      "mean_token_accuracy": 0.1383367098867893,
      "num_tokens": 2142364.0,
      "step": 935
    },
    {
      "entropy": 6.356987571716308,
      "epoch": 0.09029779058597502,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004695,
      "loss": 6.2296,
      "mean_token_accuracy": 0.14149210676550866,
      "num_tokens": 2153040.0,
      "step": 940
    },
    {
      "entropy": 6.35843825340271,
      "epoch": 0.09077809798270893,
      "grad_norm": 1.015625,
      "learning_rate": 0.000472,
      "loss": 6.2728,
      "mean_token_accuracy": 0.14314480721950532,
      "num_tokens": 2165571.0,
      "step": 945
    },
    {
      "entropy": 6.3020600318908695,
      "epoch": 0.09125840537944284,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004745,
      "loss": 6.2423,
      "mean_token_accuracy": 0.14072795882821082,
      "num_tokens": 2177241.0,
      "step": 950
    },
    {
      "entropy": 6.329180097579956,
      "epoch": 0.09173871277617675,
      "grad_norm": 1.2109375,
      "learning_rate": 0.000477,
      "loss": 6.2801,
      "mean_token_accuracy": 0.1361616224050522,
      "num_tokens": 2187475.0,
      "step": 955
    },
    {
      "entropy": 6.315436792373657,
      "epoch": 0.09221902017291066,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004795,
      "loss": 6.3087,
      "mean_token_accuracy": 0.14151085540652275,
      "num_tokens": 2198185.0,
      "step": 960
    },
    {
      "entropy": 6.303459358215332,
      "epoch": 0.09269932756964457,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000482,
      "loss": 6.2346,
      "mean_token_accuracy": 0.14740882739424704,
      "num_tokens": 2210404.0,
      "step": 965
    },
    {
      "entropy": 6.370419549942016,
      "epoch": 0.09317963496637849,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004845,
      "loss": 6.2262,
      "mean_token_accuracy": 0.144054813683033,
      "num_tokens": 2222188.0,
      "step": 970
    },
    {
      "entropy": 6.290718269348145,
      "epoch": 0.0936599423631124,
      "grad_norm": 1.109375,
      "learning_rate": 0.000487,
      "loss": 6.2775,
      "mean_token_accuracy": 0.1421047918498516,
      "num_tokens": 2233418.0,
      "step": 975
    },
    {
      "entropy": 6.352431869506836,
      "epoch": 0.0941402497598463,
      "grad_norm": 1.125,
      "learning_rate": 0.0004895,
      "loss": 6.2415,
      "mean_token_accuracy": 0.14807373881340027,
      "num_tokens": 2245053.0,
      "step": 980
    },
    {
      "entropy": 6.250268840789795,
      "epoch": 0.09462055715658022,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000492,
      "loss": 6.2715,
      "mean_token_accuracy": 0.14363499581813813,
      "num_tokens": 2256375.0,
      "step": 985
    },
    {
      "entropy": 6.225133609771729,
      "epoch": 0.09510086455331412,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004945,
      "loss": 6.1142,
      "mean_token_accuracy": 0.1477846160531044,
      "num_tokens": 2267074.0,
      "step": 990
    },
    {
      "entropy": 6.191523456573487,
      "epoch": 0.09558117195004803,
      "grad_norm": 1.15625,
      "learning_rate": 0.000497,
      "loss": 6.1547,
      "mean_token_accuracy": 0.14838184416294098,
      "num_tokens": 2277168.0,
      "step": 995
    },
    {
      "entropy": 6.25091781616211,
      "epoch": 0.09606147934678194,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004995,
      "loss": 6.1381,
      "mean_token_accuracy": 0.14807945489883423,
      "num_tokens": 2288178.0,
      "step": 1000
    },
    {
      "entropy": 6.215264129638672,
      "epoch": 0.09654178674351585,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004999999983283737,
      "loss": 6.1686,
      "mean_token_accuracy": 0.1440332628786564,
      "num_tokens": 2299765.0,
      "step": 1005
    },
    {
      "entropy": 6.3124645233154295,
      "epoch": 0.09702209414024976,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004999999915373924,
      "loss": 6.2644,
      "mean_token_accuracy": 0.13689299449324607,
      "num_tokens": 2312047.0,
      "step": 1010
    },
    {
      "entropy": 6.30297064781189,
      "epoch": 0.09750240153698367,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004999999795225793,
      "loss": 6.2563,
      "mean_token_accuracy": 0.1363622300326824,
      "num_tokens": 2324118.0,
      "step": 1015
    },
    {
      "entropy": 6.299112796783447,
      "epoch": 0.09798270893371758,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004999999622839347,
      "loss": 6.2494,
      "mean_token_accuracy": 0.14326749965548516,
      "num_tokens": 2335171.0,
      "step": 1020
    },
    {
      "entropy": 6.283253812789917,
      "epoch": 0.09846301633045149,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004999999398214593,
      "loss": 6.1501,
      "mean_token_accuracy": 0.14212532341480255,
      "num_tokens": 2346338.0,
      "step": 1025
    },
    {
      "entropy": 6.212884902954102,
      "epoch": 0.0989433237271854,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004999999121351532,
      "loss": 6.1934,
      "mean_token_accuracy": 0.14963782876729964,
      "num_tokens": 2357185.0,
      "step": 1030
    },
    {
      "entropy": 6.190281915664673,
      "epoch": 0.0994236311239193,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004999998792250173,
      "loss": 6.1183,
      "mean_token_accuracy": 0.15685753300786018,
      "num_tokens": 2368494.0,
      "step": 1035
    },
    {
      "entropy": 6.289627552032471,
      "epoch": 0.09990393852065321,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004999998410910524,
      "loss": 6.3364,
      "mean_token_accuracy": 0.13329742476344109,
      "num_tokens": 2380800.0,
      "step": 1040
    },
    {
      "entropy": 6.3118733882904055,
      "epoch": 0.10038424591738712,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004999997977332592,
      "loss": 6.2551,
      "mean_token_accuracy": 0.13934137374162675,
      "num_tokens": 2391753.0,
      "step": 1045
    },
    {
      "entropy": 6.178606843948364,
      "epoch": 0.10086455331412104,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004999997491516389,
      "loss": 6.1391,
      "mean_token_accuracy": 0.1400229126214981,
      "num_tokens": 2403324.0,
      "step": 1050
    },
    {
      "entropy": 6.235824918746948,
      "epoch": 0.10134486071085495,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004999996953461925,
      "loss": 6.2482,
      "mean_token_accuracy": 0.13423383459448815,
      "num_tokens": 2414873.0,
      "step": 1055
    },
    {
      "entropy": 6.138184642791748,
      "epoch": 0.10182516810758886,
      "grad_norm": 1.0,
      "learning_rate": 0.0004999996363169212,
      "loss": 6.0208,
      "mean_token_accuracy": 0.15671658217906953,
      "num_tokens": 2425308.0,
      "step": 1060
    },
    {
      "entropy": 6.144180011749268,
      "epoch": 0.10230547550432277,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004999995720638266,
      "loss": 6.0654,
      "mean_token_accuracy": 0.1525282308459282,
      "num_tokens": 2436835.0,
      "step": 1065
    },
    {
      "entropy": 6.183439445495606,
      "epoch": 0.10278578290105668,
      "grad_norm": 1.140625,
      "learning_rate": 0.00049999950258691,
      "loss": 6.1921,
      "mean_token_accuracy": 0.1451313279569149,
      "num_tokens": 2446798.0,
      "step": 1070
    },
    {
      "entropy": 6.123720979690551,
      "epoch": 0.10326609029779059,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004999994278861731,
      "loss": 6.0747,
      "mean_token_accuracy": 0.15084402859210969,
      "num_tokens": 2457308.0,
      "step": 1075
    },
    {
      "entropy": 6.215669107437134,
      "epoch": 0.1037463976945245,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004999993479616175,
      "loss": 6.1309,
      "mean_token_accuracy": 0.13830516785383223,
      "num_tokens": 2468917.0,
      "step": 1080
    },
    {
      "entropy": 6.227848720550537,
      "epoch": 0.1042267050912584,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999992628132451,
      "loss": 6.1529,
      "mean_token_accuracy": 0.14558819606900214,
      "num_tokens": 2481363.0,
      "step": 1085
    },
    {
      "entropy": 6.175233983993531,
      "epoch": 0.10470701248799232,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999991724410582,
      "loss": 6.1551,
      "mean_token_accuracy": 0.14347582682967186,
      "num_tokens": 2493082.0,
      "step": 1090
    },
    {
      "entropy": 6.150361251831055,
      "epoch": 0.10518731988472622,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999990768450583,
      "loss": 6.106,
      "mean_token_accuracy": 0.1499667778611183,
      "num_tokens": 2503849.0,
      "step": 1095
    },
    {
      "entropy": 6.225272464752197,
      "epoch": 0.10566762728146013,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004999989760252482,
      "loss": 6.1511,
      "mean_token_accuracy": 0.14817013815045357,
      "num_tokens": 2514528.0,
      "step": 1100
    },
    {
      "entropy": 6.097928714752197,
      "epoch": 0.10614793467819404,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004999988699816299,
      "loss": 6.1427,
      "mean_token_accuracy": 0.14771459847688675,
      "num_tokens": 2524971.0,
      "step": 1105
    },
    {
      "entropy": 6.153327941894531,
      "epoch": 0.10662824207492795,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999987587142058,
      "loss": 6.057,
      "mean_token_accuracy": 0.14452041387557985,
      "num_tokens": 2535674.0,
      "step": 1110
    },
    {
      "entropy": 6.2696786403656,
      "epoch": 0.10710854947166186,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999986422229789,
      "loss": 6.2903,
      "mean_token_accuracy": 0.13996392711997033,
      "num_tokens": 2547108.0,
      "step": 1115
    },
    {
      "entropy": 6.155757236480713,
      "epoch": 0.10758885686839577,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999985205079514,
      "loss": 6.1047,
      "mean_token_accuracy": 0.1451355442404747,
      "num_tokens": 2559474.0,
      "step": 1120
    },
    {
      "entropy": 6.012842035293579,
      "epoch": 0.10806916426512968,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999983935691265,
      "loss": 5.9441,
      "mean_token_accuracy": 0.16244944632053376,
      "num_tokens": 2571264.0,
      "step": 1125
    },
    {
      "entropy": 6.159362649917602,
      "epoch": 0.10854947166186359,
      "grad_norm": 1.03125,
      "learning_rate": 0.000499998261406507,
      "loss": 6.1208,
      "mean_token_accuracy": 0.1507526934146881,
      "num_tokens": 2583731.0,
      "step": 1130
    },
    {
      "entropy": 6.268857860565186,
      "epoch": 0.10902977905859751,
      "grad_norm": 1.25,
      "learning_rate": 0.0004999981240200958,
      "loss": 6.1607,
      "mean_token_accuracy": 0.14638862013816833,
      "num_tokens": 2595497.0,
      "step": 1135
    },
    {
      "entropy": 6.053813219070435,
      "epoch": 0.10951008645533142,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004999979814098966,
      "loss": 6.1148,
      "mean_token_accuracy": 0.1516471363604069,
      "num_tokens": 2607358.0,
      "step": 1140
    },
    {
      "entropy": 6.1449603080749515,
      "epoch": 0.10999039385206533,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004999978335759121,
      "loss": 6.0354,
      "mean_token_accuracy": 0.15392047837376593,
      "num_tokens": 2618936.0,
      "step": 1145
    },
    {
      "entropy": 6.154958772659302,
      "epoch": 0.11047070124879924,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999976805181461,
      "loss": 6.1981,
      "mean_token_accuracy": 0.14167412593960763,
      "num_tokens": 2631840.0,
      "step": 1150
    },
    {
      "entropy": 6.140295743942261,
      "epoch": 0.11095100864553314,
      "grad_norm": 1.109375,
      "learning_rate": 0.000499997522236602,
      "loss": 6.1443,
      "mean_token_accuracy": 0.15361175835132598,
      "num_tokens": 2642412.0,
      "step": 1155
    },
    {
      "entropy": 6.160842370986939,
      "epoch": 0.11143131604226705,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004999973587312837,
      "loss": 6.1067,
      "mean_token_accuracy": 0.14919153451919556,
      "num_tokens": 2653890.0,
      "step": 1160
    },
    {
      "entropy": 6.146590614318848,
      "epoch": 0.11191162343900096,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004999971900021947,
      "loss": 6.163,
      "mean_token_accuracy": 0.15273661985993386,
      "num_tokens": 2664888.0,
      "step": 1165
    },
    {
      "entropy": 6.159024953842163,
      "epoch": 0.11239193083573487,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999970160493391,
      "loss": 6.0579,
      "mean_token_accuracy": 0.14569913148880004,
      "num_tokens": 2675550.0,
      "step": 1170
    },
    {
      "entropy": 6.02392611503601,
      "epoch": 0.11287223823246878,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999968368727209,
      "loss": 6.0724,
      "mean_token_accuracy": 0.15466973930597305,
      "num_tokens": 2688022.0,
      "step": 1175
    },
    {
      "entropy": 6.1862691879272464,
      "epoch": 0.11335254562920269,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0004999966524723442,
      "loss": 6.0632,
      "mean_token_accuracy": 0.14964798092842102,
      "num_tokens": 2698737.0,
      "step": 1180
    },
    {
      "entropy": 6.077165365219116,
      "epoch": 0.1138328530259366,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004999964628482135,
      "loss": 6.0344,
      "mean_token_accuracy": 0.15742302685976028,
      "num_tokens": 2709844.0,
      "step": 1185
    },
    {
      "entropy": 6.127112817764282,
      "epoch": 0.1143131604226705,
      "grad_norm": 1.0,
      "learning_rate": 0.0004999962680003328,
      "loss": 6.1035,
      "mean_token_accuracy": 0.1519095703959465,
      "num_tokens": 2720273.0,
      "step": 1190
    },
    {
      "entropy": 6.1255943775177,
      "epoch": 0.11479346781940442,
      "grad_norm": 1.078125,
      "learning_rate": 0.000499996067928707,
      "loss": 6.1124,
      "mean_token_accuracy": 0.14679019302129745,
      "num_tokens": 2731354.0,
      "step": 1195
    },
    {
      "entropy": 6.127178192138672,
      "epoch": 0.11527377521613832,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999958626333406,
      "loss": 6.1052,
      "mean_token_accuracy": 0.1527300015091896,
      "num_tokens": 2742966.0,
      "step": 1200
    },
    {
      "entropy": 6.03611798286438,
      "epoch": 0.11575408261287223,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999956521142383,
      "loss": 6.009,
      "mean_token_accuracy": 0.1586822062730789,
      "num_tokens": 2755010.0,
      "step": 1205
    },
    {
      "entropy": 6.0991308212280275,
      "epoch": 0.11623439000960614,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999954363714051,
      "loss": 6.0361,
      "mean_token_accuracy": 0.14981242269277573,
      "num_tokens": 2766176.0,
      "step": 1210
    },
    {
      "entropy": 6.185801792144775,
      "epoch": 0.11671469740634005,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999952154048459,
      "loss": 6.1829,
      "mean_token_accuracy": 0.15044604614377022,
      "num_tokens": 2777861.0,
      "step": 1215
    },
    {
      "entropy": 6.021704149246216,
      "epoch": 0.11719500480307397,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000499994989214566,
      "loss": 5.9954,
      "mean_token_accuracy": 0.1536705419421196,
      "num_tokens": 2788725.0,
      "step": 1220
    },
    {
      "entropy": 6.0181561470031735,
      "epoch": 0.11767531219980788,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004999947578005705,
      "loss": 6.0312,
      "mean_token_accuracy": 0.15193646997213364,
      "num_tokens": 2801613.0,
      "step": 1225
    },
    {
      "entropy": 6.218272686004639,
      "epoch": 0.11815561959654179,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004999945211628648,
      "loss": 6.0986,
      "mean_token_accuracy": 0.1493365317583084,
      "num_tokens": 2812474.0,
      "step": 1230
    },
    {
      "entropy": 5.971197032928467,
      "epoch": 0.1186359269932757,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999942793014544,
      "loss": 6.0103,
      "mean_token_accuracy": 0.15563429594039918,
      "num_tokens": 2823178.0,
      "step": 1235
    },
    {
      "entropy": 6.045905733108521,
      "epoch": 0.11911623439000961,
      "grad_norm": 0.9375,
      "learning_rate": 0.000499994032216345,
      "loss": 6.0211,
      "mean_token_accuracy": 0.15064174830913543,
      "num_tokens": 2836486.0,
      "step": 1240
    },
    {
      "entropy": 6.107371759414673,
      "epoch": 0.11959654178674352,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999937799075422,
      "loss": 6.0746,
      "mean_token_accuracy": 0.1570821538567543,
      "num_tokens": 2847902.0,
      "step": 1245
    },
    {
      "entropy": 5.903108596801758,
      "epoch": 0.12007684918347743,
      "grad_norm": 0.99609375,
      "learning_rate": 0.000499993522375052,
      "loss": 5.9739,
      "mean_token_accuracy": 0.15461545437574387,
      "num_tokens": 2859991.0,
      "step": 1250
    },
    {
      "entropy": 6.248143100738526,
      "epoch": 0.12055715658021134,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004999932596188802,
      "loss": 6.1545,
      "mean_token_accuracy": 0.14593613222241403,
      "num_tokens": 2870269.0,
      "step": 1255
    },
    {
      "entropy": 6.034249687194825,
      "epoch": 0.12103746397694524,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004999929916390331,
      "loss": 6.0279,
      "mean_token_accuracy": 0.14597706943750383,
      "num_tokens": 2882191.0,
      "step": 1260
    },
    {
      "entropy": 5.966269588470459,
      "epoch": 0.12151777137367915,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004999927184355169,
      "loss": 6.0372,
      "mean_token_accuracy": 0.14836430177092552,
      "num_tokens": 2892775.0,
      "step": 1265
    },
    {
      "entropy": 6.147925519943238,
      "epoch": 0.12199807877041306,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999924400083377,
      "loss": 6.0247,
      "mean_token_accuracy": 0.15831544399261474,
      "num_tokens": 2904750.0,
      "step": 1270
    },
    {
      "entropy": 6.081568050384521,
      "epoch": 0.12247838616714697,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999921563575022,
      "loss": 6.0988,
      "mean_token_accuracy": 0.14920950308442116,
      "num_tokens": 2916150.0,
      "step": 1275
    },
    {
      "entropy": 6.07696213722229,
      "epoch": 0.12295869356388088,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999918674830169,
      "loss": 6.0644,
      "mean_token_accuracy": 0.1496642827987671,
      "num_tokens": 2928452.0,
      "step": 1280
    },
    {
      "entropy": 6.035782670974731,
      "epoch": 0.12343900096061479,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999915733848886,
      "loss": 6.0442,
      "mean_token_accuracy": 0.1454036220908165,
      "num_tokens": 2940577.0,
      "step": 1285
    },
    {
      "entropy": 6.022758436203003,
      "epoch": 0.1239193083573487,
      "grad_norm": 1.0390625,
      "learning_rate": 0.000499991274063124,
      "loss": 6.0283,
      "mean_token_accuracy": 0.15150520876049994,
      "num_tokens": 2952302.0,
      "step": 1290
    },
    {
      "entropy": 6.0645428657531735,
      "epoch": 0.12439961575408261,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004999909695177301,
      "loss": 6.0669,
      "mean_token_accuracy": 0.15440516471862792,
      "num_tokens": 2964611.0,
      "step": 1295
    },
    {
      "entropy": 6.0961566925048825,
      "epoch": 0.12487992315081652,
      "grad_norm": 1.0078125,
      "learning_rate": 0.000499990659748714,
      "loss": 6.05,
      "mean_token_accuracy": 0.15006925463676452,
      "num_tokens": 2975668.0,
      "step": 1300
    },
    {
      "entropy": 6.146146440505982,
      "epoch": 0.12536023054755044,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999903447560828,
      "loss": 6.1198,
      "mean_token_accuracy": 0.14781473577022552,
      "num_tokens": 2987303.0,
      "step": 1305
    },
    {
      "entropy": 6.117984342575073,
      "epoch": 0.12584053794428435,
      "grad_norm": 0.9453125,
      "learning_rate": 0.0004999900245398439,
      "loss": 6.0166,
      "mean_token_accuracy": 0.16036698669195176,
      "num_tokens": 3000400.0,
      "step": 1310
    },
    {
      "entropy": 6.010946893692017,
      "epoch": 0.12632084534101826,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999896991000047,
      "loss": 5.9477,
      "mean_token_accuracy": 0.1495976448059082,
      "num_tokens": 3012336.0,
      "step": 1315
    },
    {
      "entropy": 6.054377698898316,
      "epoch": 0.12680115273775217,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999893684365729,
      "loss": 6.0047,
      "mean_token_accuracy": 0.15137309059500695,
      "num_tokens": 3023004.0,
      "step": 1320
    },
    {
      "entropy": 6.044629859924316,
      "epoch": 0.12728146013448607,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004999890325495559,
      "loss": 6.0922,
      "mean_token_accuracy": 0.147823116928339,
      "num_tokens": 3035147.0,
      "step": 1325
    },
    {
      "entropy": 6.072157478332519,
      "epoch": 0.12776176753121998,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999886914389617,
      "loss": 5.9177,
      "mean_token_accuracy": 0.1551705077290535,
      "num_tokens": 3045611.0,
      "step": 1330
    },
    {
      "entropy": 5.916638660430908,
      "epoch": 0.1282420749279539,
      "grad_norm": 0.92578125,
      "learning_rate": 0.0004999883451047981,
      "loss": 5.9296,
      "mean_token_accuracy": 0.1561925306916237,
      "num_tokens": 3056420.0,
      "step": 1335
    },
    {
      "entropy": 5.977782440185547,
      "epoch": 0.1287223823246878,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004999879935470733,
      "loss": 5.9227,
      "mean_token_accuracy": 0.15750788599252702,
      "num_tokens": 3068770.0,
      "step": 1340
    },
    {
      "entropy": 6.05616979598999,
      "epoch": 0.1292026897214217,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999876367657954,
      "loss": 6.0521,
      "mean_token_accuracy": 0.14580482840538025,
      "num_tokens": 3080806.0,
      "step": 1345
    },
    {
      "entropy": 6.143747854232788,
      "epoch": 0.12968299711815562,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999872747609725,
      "loss": 6.0742,
      "mean_token_accuracy": 0.1484417587518692,
      "num_tokens": 3091769.0,
      "step": 1350
    },
    {
      "entropy": 5.9879156112670895,
      "epoch": 0.13016330451488953,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004999869075326132,
      "loss": 5.9938,
      "mean_token_accuracy": 0.15191702395677567,
      "num_tokens": 3103121.0,
      "step": 1355
    },
    {
      "entropy": 6.010816240310669,
      "epoch": 0.13064361191162344,
      "grad_norm": 0.890625,
      "learning_rate": 0.000499986535080726,
      "loss": 5.9724,
      "mean_token_accuracy": 0.16233935654163362,
      "num_tokens": 3115606.0,
      "step": 1360
    },
    {
      "entropy": 6.026129817962646,
      "epoch": 0.13112391930835735,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0004999861574053196,
      "loss": 5.8723,
      "mean_token_accuracy": 0.16096271872520446,
      "num_tokens": 3127961.0,
      "step": 1365
    },
    {
      "entropy": 5.87260947227478,
      "epoch": 0.13160422670509125,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999857745064027,
      "loss": 5.8905,
      "mean_token_accuracy": 0.15895691215991975,
      "num_tokens": 3138316.0,
      "step": 1370
    },
    {
      "entropy": 5.953699588775635,
      "epoch": 0.13208453410182516,
      "grad_norm": 0.9296875,
      "learning_rate": 0.000499985386383984,
      "loss": 5.8671,
      "mean_token_accuracy": 0.15866711735725403,
      "num_tokens": 3150818.0,
      "step": 1375
    },
    {
      "entropy": 6.006815195083618,
      "epoch": 0.13256484149855907,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004999849930380729,
      "loss": 6.0195,
      "mean_token_accuracy": 0.1508159779012203,
      "num_tokens": 3162066.0,
      "step": 1380
    },
    {
      "entropy": 5.941660642623901,
      "epoch": 0.13304514889529298,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999845944686781,
      "loss": 5.9924,
      "mean_token_accuracy": 0.1508888617157936,
      "num_tokens": 3172209.0,
      "step": 1385
    },
    {
      "entropy": 5.954594707489013,
      "epoch": 0.1335254562920269,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004999841906758093,
      "loss": 5.8218,
      "mean_token_accuracy": 0.1675858825445175,
      "num_tokens": 3183248.0,
      "step": 1390
    },
    {
      "entropy": 5.94215030670166,
      "epoch": 0.1340057636887608,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999837816594757,
      "loss": 5.9139,
      "mean_token_accuracy": 0.15847276002168656,
      "num_tokens": 3194748.0,
      "step": 1395
    },
    {
      "entropy": 5.930553770065307,
      "epoch": 0.1344860710854947,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999833674196865,
      "loss": 5.8849,
      "mean_token_accuracy": 0.16950529664754868,
      "num_tokens": 3205669.0,
      "step": 1400
    },
    {
      "entropy": 5.932918214797974,
      "epoch": 0.13496637848222862,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999829479564518,
      "loss": 5.9807,
      "mean_token_accuracy": 0.14995542094111441,
      "num_tokens": 3216035.0,
      "step": 1405
    },
    {
      "entropy": 6.064324188232422,
      "epoch": 0.13544668587896252,
      "grad_norm": 1.109375,
      "learning_rate": 0.000499982523269781,
      "loss": 5.9647,
      "mean_token_accuracy": 0.15931690335273743,
      "num_tokens": 3227192.0,
      "step": 1410
    },
    {
      "entropy": 5.975619888305664,
      "epoch": 0.13592699327569643,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004999820933596842,
      "loss": 5.9871,
      "mean_token_accuracy": 0.15620121210813523,
      "num_tokens": 3240237.0,
      "step": 1415
    },
    {
      "entropy": 5.962911701202392,
      "epoch": 0.13640730067243034,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000499981658226171,
      "loss": 5.8734,
      "mean_token_accuracy": 0.16469697579741477,
      "num_tokens": 3251963.0,
      "step": 1420
    },
    {
      "entropy": 5.908741474151611,
      "epoch": 0.13688760806916425,
      "grad_norm": 1.0078125,
      "learning_rate": 0.000499981217869252,
      "loss": 5.9953,
      "mean_token_accuracy": 0.15814436972141266,
      "num_tokens": 3263101.0,
      "step": 1425
    },
    {
      "entropy": 5.985613679885864,
      "epoch": 0.1373679154658982,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000499980772288937,
      "loss": 5.8679,
      "mean_token_accuracy": 0.16649020761251448,
      "num_tokens": 3275100.0,
      "step": 1430
    },
    {
      "entropy": 5.945235109329223,
      "epoch": 0.1378482228626321,
      "grad_norm": 0.9140625,
      "learning_rate": 0.0004999803214852367,
      "loss": 5.9638,
      "mean_token_accuracy": 0.15565589517354966,
      "num_tokens": 3287025.0,
      "step": 1435
    },
    {
      "entropy": 6.04934253692627,
      "epoch": 0.138328530259366,
      "grad_norm": 0.91796875,
      "learning_rate": 0.0004999798654581613,
      "loss": 5.9662,
      "mean_token_accuracy": 0.15883919447660447,
      "num_tokens": 3299867.0,
      "step": 1440
    },
    {
      "entropy": 5.918570852279663,
      "epoch": 0.13880883765609991,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999794042077214,
      "loss": 5.9038,
      "mean_token_accuracy": 0.16191874593496322,
      "num_tokens": 3311183.0,
      "step": 1445
    },
    {
      "entropy": 5.952925539016723,
      "epoch": 0.13928914505283382,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004999789377339279,
      "loss": 5.9687,
      "mean_token_accuracy": 0.15641413480043412,
      "num_tokens": 3322247.0,
      "step": 1450
    },
    {
      "entropy": 5.962415742874145,
      "epoch": 0.13976945244956773,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999784660367915,
      "loss": 5.8826,
      "mean_token_accuracy": 0.1588966131210327,
      "num_tokens": 3333369.0,
      "step": 1455
    },
    {
      "entropy": 5.904612874984741,
      "epoch": 0.14024975984630164,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004999779891163231,
      "loss": 5.9113,
      "mean_token_accuracy": 0.16011089235544204,
      "num_tokens": 3345876.0,
      "step": 1460
    },
    {
      "entropy": 5.91278772354126,
      "epoch": 0.14073006724303555,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999775069725339,
      "loss": 5.8124,
      "mean_token_accuracy": 0.1629629462957382,
      "num_tokens": 3357323.0,
      "step": 1465
    },
    {
      "entropy": 5.912459039688111,
      "epoch": 0.14121037463976946,
      "grad_norm": 1.109375,
      "learning_rate": 0.000499977019605435,
      "loss": 5.897,
      "mean_token_accuracy": 0.15947655588388443,
      "num_tokens": 3367689.0,
      "step": 1470
    },
    {
      "entropy": 5.844752836227417,
      "epoch": 0.14169068203650337,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004999765270150378,
      "loss": 5.8568,
      "mean_token_accuracy": 0.15955205261707306,
      "num_tokens": 3379472.0,
      "step": 1475
    },
    {
      "entropy": 5.996302938461303,
      "epoch": 0.14217098943323728,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999760292013536,
      "loss": 5.8922,
      "mean_token_accuracy": 0.15859662368893623,
      "num_tokens": 3390929.0,
      "step": 1480
    },
    {
      "entropy": 5.99014687538147,
      "epoch": 0.14265129682997119,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999755261643941,
      "loss": 5.8976,
      "mean_token_accuracy": 0.16287715286016463,
      "num_tokens": 3401242.0,
      "step": 1485
    },
    {
      "entropy": 5.869934892654419,
      "epoch": 0.1431316042267051,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004999750179041709,
      "loss": 5.8878,
      "mean_token_accuracy": 0.16124220937490463,
      "num_tokens": 3411169.0,
      "step": 1490
    },
    {
      "entropy": 5.874157810211182,
      "epoch": 0.143611911623439,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004999745044206959,
      "loss": 5.7279,
      "mean_token_accuracy": 0.16647156924009324,
      "num_tokens": 3423265.0,
      "step": 1495
    },
    {
      "entropy": 5.832660913467407,
      "epoch": 0.1440922190201729,
      "grad_norm": 0.96484375,
      "learning_rate": 0.0004999739857139809,
      "loss": 5.8347,
      "mean_token_accuracy": 0.16908216327428818,
      "num_tokens": 3434793.0,
      "step": 1500
    },
    {
      "entropy": 5.757522106170654,
      "epoch": 0.14457252641690682,
      "grad_norm": 0.98828125,
      "learning_rate": 0.000499973461784038,
      "loss": 5.7679,
      "mean_token_accuracy": 0.17928926199674605,
      "num_tokens": 3445732.0,
      "step": 1505
    },
    {
      "entropy": 5.942258501052857,
      "epoch": 0.14505283381364073,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004999729326308792,
      "loss": 5.9516,
      "mean_token_accuracy": 0.15832037180662156,
      "num_tokens": 3457090.0,
      "step": 1510
    },
    {
      "entropy": 5.99946174621582,
      "epoch": 0.14553314121037464,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000499972398254517,
      "loss": 5.9388,
      "mean_token_accuracy": 0.15340567082166673,
      "num_tokens": 3468087.0,
      "step": 1515
    },
    {
      "entropy": 5.941799163818359,
      "epoch": 0.14601344860710855,
      "grad_norm": 1.0625,
      "learning_rate": 0.000499971858654964,
      "loss": 5.8778,
      "mean_token_accuracy": 0.1609287366271019,
      "num_tokens": 3478820.0,
      "step": 1520
    },
    {
      "entropy": 5.859274196624756,
      "epoch": 0.14649375600384246,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004999713138322321,
      "loss": 5.9021,
      "mean_token_accuracy": 0.15754427909851074,
      "num_tokens": 3489878.0,
      "step": 1525
    },
    {
      "entropy": 5.942076396942139,
      "epoch": 0.14697406340057637,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999707637863346,
      "loss": 5.8905,
      "mean_token_accuracy": 0.1585473045706749,
      "num_tokens": 3500944.0,
      "step": 1530
    },
    {
      "entropy": 5.8406360149383545,
      "epoch": 0.14745437079731027,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004999702085172838,
      "loss": 5.8719,
      "mean_token_accuracy": 0.16607238352298737,
      "num_tokens": 3511383.0,
      "step": 1535
    },
    {
      "entropy": 5.969763612747192,
      "epoch": 0.14793467819404418,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004999696480250929,
      "loss": 5.963,
      "mean_token_accuracy": 0.15430965945124625,
      "num_tokens": 3523300.0,
      "step": 1540
    },
    {
      "entropy": 5.970634698867798,
      "epoch": 0.1484149855907781,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004999690823097747,
      "loss": 5.8799,
      "mean_token_accuracy": 0.1521039791405201,
      "num_tokens": 3534371.0,
      "step": 1545
    },
    {
      "entropy": 5.841155576705932,
      "epoch": 0.148895292987512,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004999685113713426,
      "loss": 5.8552,
      "mean_token_accuracy": 0.16120514869689942,
      "num_tokens": 3544847.0,
      "step": 1550
    },
    {
      "entropy": 5.92685284614563,
      "epoch": 0.1493756003842459,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004999679352098096,
      "loss": 5.8223,
      "mean_token_accuracy": 0.16645588725805283,
      "num_tokens": 3555859.0,
      "step": 1555
    },
    {
      "entropy": 5.8343531608581545,
      "epoch": 0.14985590778097982,
      "grad_norm": 0.9375,
      "learning_rate": 0.0004999673538251891,
      "loss": 5.8389,
      "mean_token_accuracy": 0.15894080251455306,
      "num_tokens": 3568283.0,
      "step": 1560
    },
    {
      "entropy": 5.834793663024902,
      "epoch": 0.15033621517771373,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004999667672174947,
      "loss": 5.917,
      "mean_token_accuracy": 0.1583700641989708,
      "num_tokens": 3581442.0,
      "step": 1565
    },
    {
      "entropy": 6.0175745487213135,
      "epoch": 0.15081652257444764,
      "grad_norm": 1.015625,
      "learning_rate": 0.00049996617538674,
      "loss": 5.9571,
      "mean_token_accuracy": 0.15496992468833923,
      "num_tokens": 3594055.0,
      "step": 1570
    },
    {
      "entropy": 5.962413930892945,
      "epoch": 0.15129682997118155,
      "grad_norm": 1.0,
      "learning_rate": 0.0004999655783329386,
      "loss": 5.9187,
      "mean_token_accuracy": 0.15283605754375457,
      "num_tokens": 3605952.0,
      "step": 1575
    },
    {
      "entropy": 5.910793209075928,
      "epoch": 0.15177713736791545,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004999649760561046,
      "loss": 5.9577,
      "mean_token_accuracy": 0.158383572101593,
      "num_tokens": 3618544.0,
      "step": 1580
    },
    {
      "entropy": 5.908201408386231,
      "epoch": 0.15225744476464936,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999643685562519,
      "loss": 5.8929,
      "mean_token_accuracy": 0.16440413743257523,
      "num_tokens": 3630445.0,
      "step": 1585
    },
    {
      "entropy": 5.935053777694702,
      "epoch": 0.15273775216138327,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999637558333945,
      "loss": 5.8797,
      "mean_token_accuracy": 0.16155748218297958,
      "num_tokens": 3642516.0,
      "step": 1590
    },
    {
      "entropy": 5.843541431427002,
      "epoch": 0.15321805955811718,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999631378875467,
      "loss": 5.8175,
      "mean_token_accuracy": 0.16581382006406784,
      "num_tokens": 3654425.0,
      "step": 1595
    },
    {
      "entropy": 5.805763053894043,
      "epoch": 0.15369836695485112,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004999625147187228,
      "loss": 5.8228,
      "mean_token_accuracy": 0.16464165300130845,
      "num_tokens": 3666521.0,
      "step": 1600
    },
    {
      "entropy": 6.019205856323242,
      "epoch": 0.15417867435158503,
      "grad_norm": 0.94140625,
      "learning_rate": 0.0004999618863269373,
      "loss": 5.8806,
      "mean_token_accuracy": 0.15575164407491685,
      "num_tokens": 3679121.0,
      "step": 1605
    },
    {
      "entropy": 5.91282377243042,
      "epoch": 0.15465898174831894,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999612527122049,
      "loss": 5.8941,
      "mean_token_accuracy": 0.15461272597312928,
      "num_tokens": 3691095.0,
      "step": 1610
    },
    {
      "entropy": 5.826972103118896,
      "epoch": 0.15513928914505284,
      "grad_norm": 0.87109375,
      "learning_rate": 0.0004999606138745402,
      "loss": 5.8562,
      "mean_token_accuracy": 0.16407538801431656,
      "num_tokens": 3703426.0,
      "step": 1615
    },
    {
      "entropy": 5.967412042617798,
      "epoch": 0.15561959654178675,
      "grad_norm": 1.0,
      "learning_rate": 0.0004999599698139581,
      "loss": 5.9309,
      "mean_token_accuracy": 0.1637990355491638,
      "num_tokens": 3715429.0,
      "step": 1620
    },
    {
      "entropy": 5.932253503799439,
      "epoch": 0.15609990393852066,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999593205304734,
      "loss": 5.909,
      "mean_token_accuracy": 0.15584128946065903,
      "num_tokens": 3726327.0,
      "step": 1625
    },
    {
      "entropy": 5.9037374496459964,
      "epoch": 0.15658021133525457,
      "grad_norm": 1.0,
      "learning_rate": 0.0004999586660241012,
      "loss": 5.8582,
      "mean_token_accuracy": 0.1553866222500801,
      "num_tokens": 3736818.0,
      "step": 1630
    },
    {
      "entropy": 5.929326868057251,
      "epoch": 0.15706051873198848,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004999580062948569,
      "loss": 5.8583,
      "mean_token_accuracy": 0.16254822611808778,
      "num_tokens": 3747776.0,
      "step": 1635
    },
    {
      "entropy": 5.7625970363616945,
      "epoch": 0.1575408261287224,
      "grad_norm": 1.0,
      "learning_rate": 0.0004999573413427556,
      "loss": 5.7301,
      "mean_token_accuracy": 0.164338056743145,
      "num_tokens": 3758990.0,
      "step": 1640
    },
    {
      "entropy": 5.8398857593536375,
      "epoch": 0.1580211335254563,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004999566711678128,
      "loss": 5.7961,
      "mean_token_accuracy": 0.1605479434132576,
      "num_tokens": 3769686.0,
      "step": 1645
    },
    {
      "entropy": 5.867894649505615,
      "epoch": 0.1585014409221902,
      "grad_norm": 0.92578125,
      "learning_rate": 0.0004999559957700442,
      "loss": 5.8554,
      "mean_token_accuracy": 0.16354380249977113,
      "num_tokens": 3781815.0,
      "step": 1650
    },
    {
      "entropy": 5.88207426071167,
      "epoch": 0.15898174831892412,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004999553151494653,
      "loss": 5.9139,
      "mean_token_accuracy": 0.15942219495773316,
      "num_tokens": 3793392.0,
      "step": 1655
    },
    {
      "entropy": 5.860579538345337,
      "epoch": 0.15946205571565802,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999546293060919,
      "loss": 5.8298,
      "mean_token_accuracy": 0.16041782200336457,
      "num_tokens": 3804974.0,
      "step": 1660
    },
    {
      "entropy": 5.799793004989624,
      "epoch": 0.15994236311239193,
      "grad_norm": 0.953125,
      "learning_rate": 0.00049995393823994,
      "loss": 5.7028,
      "mean_token_accuracy": 0.17192372530698777,
      "num_tokens": 3817166.0,
      "step": 1665
    },
    {
      "entropy": 5.849306297302246,
      "epoch": 0.16042267050912584,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999532419510255,
      "loss": 5.8307,
      "mean_token_accuracy": 0.1580624461174011,
      "num_tokens": 3828151.0,
      "step": 1670
    },
    {
      "entropy": 5.847281789779663,
      "epoch": 0.16090297790585975,
      "grad_norm": 0.97265625,
      "learning_rate": 0.000499952540439365,
      "loss": 5.8283,
      "mean_token_accuracy": 0.16032543033361435,
      "num_tokens": 3839439.0,
      "step": 1675
    },
    {
      "entropy": 5.906755828857422,
      "epoch": 0.16138328530259366,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0004999518337049743,
      "loss": 5.8813,
      "mean_token_accuracy": 0.15963228195905685,
      "num_tokens": 3851694.0,
      "step": 1680
    },
    {
      "entropy": 5.831542205810547,
      "epoch": 0.16186359269932757,
      "grad_norm": 0.91015625,
      "learning_rate": 0.00049995112174787,
      "loss": 5.8589,
      "mean_token_accuracy": 0.15917099863290787,
      "num_tokens": 3863593.0,
      "step": 1685
    },
    {
      "entropy": 5.811672306060791,
      "epoch": 0.16234390009606148,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0004999504045680687,
      "loss": 5.7935,
      "mean_token_accuracy": 0.1701650395989418,
      "num_tokens": 3874588.0,
      "step": 1690
    },
    {
      "entropy": 5.894420862197876,
      "epoch": 0.1628242074927954,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999496821655869,
      "loss": 5.8753,
      "mean_token_accuracy": 0.16022350043058395,
      "num_tokens": 3884662.0,
      "step": 1695
    },
    {
      "entropy": 5.956241655349731,
      "epoch": 0.1633045148895293,
      "grad_norm": 0.890625,
      "learning_rate": 0.0004999489545404414,
      "loss": 5.9739,
      "mean_token_accuracy": 0.15092033073306083,
      "num_tokens": 3896569.0,
      "step": 1700
    },
    {
      "entropy": 5.943658018112183,
      "epoch": 0.1637848222862632,
      "grad_norm": 0.8984375,
      "learning_rate": 0.0004999482216926493,
      "loss": 5.8162,
      "mean_token_accuracy": 0.1632000833749771,
      "num_tokens": 3907691.0,
      "step": 1705
    },
    {
      "entropy": 5.843317651748658,
      "epoch": 0.1642651296829971,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999474836222273,
      "loss": 5.83,
      "mean_token_accuracy": 0.1665841408073902,
      "num_tokens": 3918794.0,
      "step": 1710
    },
    {
      "entropy": 5.834485340118408,
      "epoch": 0.16474543707973102,
      "grad_norm": 0.94140625,
      "learning_rate": 0.0004999467403291928,
      "loss": 5.8301,
      "mean_token_accuracy": 0.1692491739988327,
      "num_tokens": 3929773.0,
      "step": 1715
    },
    {
      "entropy": 5.874946594238281,
      "epoch": 0.16522574447646493,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999459918135628,
      "loss": 5.8498,
      "mean_token_accuracy": 0.16062923073768615,
      "num_tokens": 3940264.0,
      "step": 1720
    },
    {
      "entropy": 5.791439247131348,
      "epoch": 0.16570605187319884,
      "grad_norm": 1.0078125,
      "learning_rate": 0.000499945238075355,
      "loss": 5.7456,
      "mean_token_accuracy": 0.1693306788802147,
      "num_tokens": 3951500.0,
      "step": 1725
    },
    {
      "entropy": 5.851829910278321,
      "epoch": 0.16618635926993275,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999444791145865,
      "loss": 5.8145,
      "mean_token_accuracy": 0.16588351577520372,
      "num_tokens": 3963580.0,
      "step": 1730
    },
    {
      "entropy": 5.804158353805542,
      "epoch": 0.16666666666666666,
      "grad_norm": 0.9375,
      "learning_rate": 0.0004999437149312754,
      "loss": 5.7585,
      "mean_token_accuracy": 0.17176578491926192,
      "num_tokens": 3975994.0,
      "step": 1735
    },
    {
      "entropy": 5.836318635940552,
      "epoch": 0.16714697406340057,
      "grad_norm": 1.015625,
      "learning_rate": 0.000499942945525439,
      "loss": 5.7658,
      "mean_token_accuracy": 0.15896687656641006,
      "num_tokens": 3987897.0,
      "step": 1740
    },
    {
      "entropy": 5.888211059570312,
      "epoch": 0.16762728146013448,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999421708970954,
      "loss": 5.93,
      "mean_token_accuracy": 0.15537445321679116,
      "num_tokens": 3999829.0,
      "step": 1745
    },
    {
      "entropy": 5.7658594131469725,
      "epoch": 0.16810758885686838,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004999413910462625,
      "loss": 5.7591,
      "mean_token_accuracy": 0.16620118021965027,
      "num_tokens": 4010882.0,
      "step": 1750
    },
    {
      "entropy": 5.861884737014771,
      "epoch": 0.1685878962536023,
      "grad_norm": 0.9453125,
      "learning_rate": 0.0004999406059729586,
      "loss": 5.7469,
      "mean_token_accuracy": 0.17034892737865448,
      "num_tokens": 4021423.0,
      "step": 1755
    },
    {
      "entropy": 5.888075494766236,
      "epoch": 0.1690682036503362,
      "grad_norm": 0.921875,
      "learning_rate": 0.0004999398156772016,
      "loss": 5.8931,
      "mean_token_accuracy": 0.15374189764261245,
      "num_tokens": 4033590.0,
      "step": 1760
    },
    {
      "entropy": 5.721970653533935,
      "epoch": 0.16954851104707014,
      "grad_norm": 1.078125,
      "learning_rate": 0.00049993902015901,
      "loss": 5.7562,
      "mean_token_accuracy": 0.16655992865562438,
      "num_tokens": 4043978.0,
      "step": 1765
    },
    {
      "entropy": 5.931190156936646,
      "epoch": 0.17002881844380405,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999382194184023,
      "loss": 5.8756,
      "mean_token_accuracy": 0.16273052543401717,
      "num_tokens": 4054513.0,
      "step": 1770
    },
    {
      "entropy": 5.857993745803833,
      "epoch": 0.17050912584053796,
      "grad_norm": 0.9375,
      "learning_rate": 0.0004999374134553972,
      "loss": 5.8367,
      "mean_token_accuracy": 0.16276317089796066,
      "num_tokens": 4066019.0,
      "step": 1775
    },
    {
      "entropy": 5.841061735153199,
      "epoch": 0.17098943323727187,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004999366022700131,
      "loss": 5.7935,
      "mean_token_accuracy": 0.1673088401556015,
      "num_tokens": 4077688.0,
      "step": 1780
    },
    {
      "entropy": 5.860415935516357,
      "epoch": 0.17146974063400577,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004999357858622691,
      "loss": 5.8573,
      "mean_token_accuracy": 0.1664716601371765,
      "num_tokens": 4089803.0,
      "step": 1785
    },
    {
      "entropy": 5.8289069652557375,
      "epoch": 0.17195004803073968,
      "grad_norm": 0.91796875,
      "learning_rate": 0.0004999349642321842,
      "loss": 5.8073,
      "mean_token_accuracy": 0.16912547051906585,
      "num_tokens": 4101969.0,
      "step": 1790
    },
    {
      "entropy": 5.799117517471314,
      "epoch": 0.1724303554274736,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004999341373797772,
      "loss": 5.7955,
      "mean_token_accuracy": 0.15957102179527283,
      "num_tokens": 4113567.0,
      "step": 1795
    },
    {
      "entropy": 5.814974451065064,
      "epoch": 0.1729106628242075,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004999333053050675,
      "loss": 5.7575,
      "mean_token_accuracy": 0.1691056177020073,
      "num_tokens": 4125191.0,
      "step": 1800
    },
    {
      "entropy": 5.827954626083374,
      "epoch": 0.1733909702209414,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004999324680080744,
      "loss": 5.8004,
      "mean_token_accuracy": 0.16687883883714677,
      "num_tokens": 4135050.0,
      "step": 1805
    },
    {
      "entropy": 5.842863750457764,
      "epoch": 0.17387127761767532,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004999316254888172,
      "loss": 5.8736,
      "mean_token_accuracy": 0.1648238182067871,
      "num_tokens": 4146874.0,
      "step": 1810
    },
    {
      "entropy": 5.857775688171387,
      "epoch": 0.17435158501440923,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004999307777473157,
      "loss": 5.7974,
      "mean_token_accuracy": 0.16151650995016098,
      "num_tokens": 4158118.0,
      "step": 1815
    },
    {
      "entropy": 5.818978691101075,
      "epoch": 0.17483189241114314,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004999299247835893,
      "loss": 5.7561,
      "mean_token_accuracy": 0.17479462176561356,
      "num_tokens": 4169035.0,
      "step": 1820
    },
    {
      "entropy": 5.738432455062866,
      "epoch": 0.17531219980787704,
      "grad_norm": 1.03125,
      "learning_rate": 0.000499929066597658,
      "loss": 5.745,
      "mean_token_accuracy": 0.17148349434137344,
      "num_tokens": 4180314.0,
      "step": 1825
    },
    {
      "entropy": 5.883955717086792,
      "epoch": 0.17579250720461095,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999282031895418,
      "loss": 5.8239,
      "mean_token_accuracy": 0.16614590883255004,
      "num_tokens": 4192238.0,
      "step": 1830
    },
    {
      "entropy": 5.769097232818604,
      "epoch": 0.17627281460134486,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999273345592604,
      "loss": 5.756,
      "mean_token_accuracy": 0.16652164459228516,
      "num_tokens": 4203346.0,
      "step": 1835
    },
    {
      "entropy": 5.811061954498291,
      "epoch": 0.17675312199807877,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004999264607068343,
      "loss": 5.8159,
      "mean_token_accuracy": 0.17016567289829254,
      "num_tokens": 4213763.0,
      "step": 1840
    },
    {
      "entropy": 5.781940555572509,
      "epoch": 0.17723342939481268,
      "grad_norm": 0.90234375,
      "learning_rate": 0.0004999255816322837,
      "loss": 5.7699,
      "mean_token_accuracy": 0.16876950412988662,
      "num_tokens": 4225553.0,
      "step": 1845
    },
    {
      "entropy": 5.857665061950684,
      "epoch": 0.1777137367915466,
      "grad_norm": 0.99609375,
      "learning_rate": 0.000499924697335629,
      "loss": 5.702,
      "mean_token_accuracy": 0.17350574135780333,
      "num_tokens": 4236058.0,
      "step": 1850
    },
    {
      "entropy": 5.640166330337524,
      "epoch": 0.1781940441882805,
      "grad_norm": 0.92578125,
      "learning_rate": 0.0004999238078168906,
      "loss": 5.7763,
      "mean_token_accuracy": 0.17054813206195832,
      "num_tokens": 4248299.0,
      "step": 1855
    },
    {
      "entropy": 5.8273721694946286,
      "epoch": 0.1786743515850144,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0004999229130760894,
      "loss": 5.7052,
      "mean_token_accuracy": 0.17111807465553283,
      "num_tokens": 4259704.0,
      "step": 1860
    },
    {
      "entropy": 5.691127586364746,
      "epoch": 0.17915465898174832,
      "grad_norm": 1.0,
      "learning_rate": 0.000499922013113246,
      "loss": 5.587,
      "mean_token_accuracy": 0.18398697525262833,
      "num_tokens": 4270480.0,
      "step": 1865
    },
    {
      "entropy": 5.780127954483032,
      "epoch": 0.17963496637848222,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999211079283814,
      "loss": 5.8538,
      "mean_token_accuracy": 0.16719998568296432,
      "num_tokens": 4282104.0,
      "step": 1870
    },
    {
      "entropy": 5.849603605270386,
      "epoch": 0.18011527377521613,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004999201975215164,
      "loss": 5.8172,
      "mean_token_accuracy": 0.16666848957538605,
      "num_tokens": 4294251.0,
      "step": 1875
    },
    {
      "entropy": 5.757232236862182,
      "epoch": 0.18059558117195004,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0004999192818926725,
      "loss": 5.7017,
      "mean_token_accuracy": 0.16847867369651795,
      "num_tokens": 4305569.0,
      "step": 1880
    },
    {
      "entropy": 5.859993028640747,
      "epoch": 0.18107588856868395,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999183610418706,
      "loss": 5.8283,
      "mean_token_accuracy": 0.16413767859339715,
      "num_tokens": 4317845.0,
      "step": 1885
    },
    {
      "entropy": 5.76594557762146,
      "epoch": 0.18155619596541786,
      "grad_norm": 0.90625,
      "learning_rate": 0.0004999174349691322,
      "loss": 5.6959,
      "mean_token_accuracy": 0.17179392874240876,
      "num_tokens": 4329987.0,
      "step": 1890
    },
    {
      "entropy": 5.697657203674316,
      "epoch": 0.18203650336215177,
      "grad_norm": 0.88671875,
      "learning_rate": 0.0004999165036744788,
      "loss": 5.7257,
      "mean_token_accuracy": 0.16847490072250365,
      "num_tokens": 4341628.0,
      "step": 1895
    },
    {
      "entropy": 5.861244201660156,
      "epoch": 0.18251681075888568,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999155671579322,
      "loss": 5.7851,
      "mean_token_accuracy": 0.1615397110581398,
      "num_tokens": 4352379.0,
      "step": 1900
    },
    {
      "entropy": 5.6849024295806885,
      "epoch": 0.1829971181556196,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000499914625419514,
      "loss": 5.7181,
      "mean_token_accuracy": 0.171738800406456,
      "num_tokens": 4364800.0,
      "step": 1905
    },
    {
      "entropy": 5.776795959472656,
      "epoch": 0.1834774255523535,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004999136784592459,
      "loss": 5.7315,
      "mean_token_accuracy": 0.16872817426919937,
      "num_tokens": 4376048.0,
      "step": 1910
    },
    {
      "entropy": 5.730347061157227,
      "epoch": 0.1839577329490874,
      "grad_norm": 0.921875,
      "learning_rate": 0.0004999127262771502,
      "loss": 5.7297,
      "mean_token_accuracy": 0.16825871765613556,
      "num_tokens": 4388072.0,
      "step": 1915
    },
    {
      "entropy": 5.872533082962036,
      "epoch": 0.1844380403458213,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999117688732487,
      "loss": 5.8226,
      "mean_token_accuracy": 0.16391085535287858,
      "num_tokens": 4399843.0,
      "step": 1920
    },
    {
      "entropy": 5.713910245895386,
      "epoch": 0.18491834774255522,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999108062475638,
      "loss": 5.6757,
      "mean_token_accuracy": 0.17384760677814484,
      "num_tokens": 4411373.0,
      "step": 1925
    },
    {
      "entropy": 5.716005563735962,
      "epoch": 0.18539865513928913,
      "grad_norm": 1.03125,
      "learning_rate": 0.000499909838400118,
      "loss": 5.6614,
      "mean_token_accuracy": 0.173922398686409,
      "num_tokens": 4421857.0,
      "step": 1930
    },
    {
      "entropy": 5.820113229751587,
      "epoch": 0.18587896253602307,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999088653309334,
      "loss": 5.7618,
      "mean_token_accuracy": 0.1711716189980507,
      "num_tokens": 4432728.0,
      "step": 1935
    },
    {
      "entropy": 5.708466053009033,
      "epoch": 0.18635926993275698,
      "grad_norm": 0.9375,
      "learning_rate": 0.0004999078870400329,
      "loss": 5.693,
      "mean_token_accuracy": 0.17283684760332108,
      "num_tokens": 4444683.0,
      "step": 1940
    },
    {
      "entropy": 5.8614743709564205,
      "epoch": 0.18683957732949089,
      "grad_norm": 0.953125,
      "learning_rate": 0.0004999069035274391,
      "loss": 5.8215,
      "mean_token_accuracy": 0.16018551886081694,
      "num_tokens": 4456961.0,
      "step": 1945
    },
    {
      "entropy": 5.694478511810303,
      "epoch": 0.1873198847262248,
      "grad_norm": 0.9140625,
      "learning_rate": 0.0004999059147931747,
      "loss": 5.665,
      "mean_token_accuracy": 0.1762719616293907,
      "num_tokens": 4468424.0,
      "step": 1950
    },
    {
      "entropy": 5.791493558883667,
      "epoch": 0.1878001921229587,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0004999049208372629,
      "loss": 5.8694,
      "mean_token_accuracy": 0.15364666059613227,
      "num_tokens": 4479813.0,
      "step": 1955
    },
    {
      "entropy": 5.952554082870483,
      "epoch": 0.1882804995196926,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999039216597267,
      "loss": 5.862,
      "mean_token_accuracy": 0.16733278185129166,
      "num_tokens": 4491172.0,
      "step": 1960
    },
    {
      "entropy": 5.706536293029785,
      "epoch": 0.18876080691642652,
      "grad_norm": 0.92578125,
      "learning_rate": 0.0004999029172605892,
      "loss": 5.7439,
      "mean_token_accuracy": 0.1704375624656677,
      "num_tokens": 4503063.0,
      "step": 1965
    },
    {
      "entropy": 5.889812326431274,
      "epoch": 0.18924111431316043,
      "grad_norm": 0.91796875,
      "learning_rate": 0.0004999019076398738,
      "loss": 5.8177,
      "mean_token_accuracy": 0.15313875377178193,
      "num_tokens": 4514188.0,
      "step": 1970
    },
    {
      "entropy": 5.822384834289551,
      "epoch": 0.18972142170989434,
      "grad_norm": 0.95703125,
      "learning_rate": 0.000499900892797604,
      "loss": 5.7258,
      "mean_token_accuracy": 0.17310872822999954,
      "num_tokens": 4525293.0,
      "step": 1975
    },
    {
      "entropy": 5.80044903755188,
      "epoch": 0.19020172910662825,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004998998727338031,
      "loss": 5.8139,
      "mean_token_accuracy": 0.1692732721567154,
      "num_tokens": 4536589.0,
      "step": 1980
    },
    {
      "entropy": 5.689789342880249,
      "epoch": 0.19068203650336216,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004998988474484952,
      "loss": 5.5648,
      "mean_token_accuracy": 0.19031796902418135,
      "num_tokens": 4547594.0,
      "step": 1985
    },
    {
      "entropy": 5.717133808135986,
      "epoch": 0.19116234390009607,
      "grad_norm": 0.90625,
      "learning_rate": 0.0004998978169417038,
      "loss": 5.78,
      "mean_token_accuracy": 0.1743384450674057,
      "num_tokens": 4559850.0,
      "step": 1990
    },
    {
      "entropy": 5.791743421554566,
      "epoch": 0.19164265129682997,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004998967812134529,
      "loss": 5.7138,
      "mean_token_accuracy": 0.17110339552164078,
      "num_tokens": 4570727.0,
      "step": 1995
    },
    {
      "entropy": 5.610540056228638,
      "epoch": 0.19212295869356388,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004998957402637664,
      "loss": 5.6542,
      "mean_token_accuracy": 0.17157155871391297,
      "num_tokens": 4582248.0,
      "step": 2000
    },
    {
      "entropy": 5.801579093933105,
      "epoch": 0.1926032660902978,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004998946940926687,
      "loss": 5.6973,
      "mean_token_accuracy": 0.17121600955724717,
      "num_tokens": 4592604.0,
      "step": 2005
    },
    {
      "entropy": 5.661766576766968,
      "epoch": 0.1930835734870317,
      "grad_norm": 1.015625,
      "learning_rate": 0.000499893642700184,
      "loss": 5.7182,
      "mean_token_accuracy": 0.17020188719034196,
      "num_tokens": 4604398.0,
      "step": 2010
    },
    {
      "entropy": 5.790825366973877,
      "epoch": 0.1935638808837656,
      "grad_norm": 0.921875,
      "learning_rate": 0.0004998925860863368,
      "loss": 5.7931,
      "mean_token_accuracy": 0.1685462474822998,
      "num_tokens": 4616434.0,
      "step": 2015
    },
    {
      "entropy": 5.820285224914551,
      "epoch": 0.19404418828049952,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0004998915242511516,
      "loss": 5.7541,
      "mean_token_accuracy": 0.17625110745429992,
      "num_tokens": 4627577.0,
      "step": 2020
    },
    {
      "entropy": 5.7781401634216305,
      "epoch": 0.19452449567723343,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998904571946528,
      "loss": 5.817,
      "mean_token_accuracy": 0.16743545606732368,
      "num_tokens": 4639698.0,
      "step": 2025
    },
    {
      "entropy": 5.838766145706177,
      "epoch": 0.19500480307396734,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004998893849168655,
      "loss": 5.8269,
      "mean_token_accuracy": 0.16433341503143312,
      "num_tokens": 4650643.0,
      "step": 2030
    },
    {
      "entropy": 5.762656116485596,
      "epoch": 0.19548511047070125,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004998883074178144,
      "loss": 5.7427,
      "mean_token_accuracy": 0.16878412663936615,
      "num_tokens": 4662897.0,
      "step": 2035
    },
    {
      "entropy": 5.818380117416382,
      "epoch": 0.19596541786743515,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004998872246975247,
      "loss": 5.8217,
      "mean_token_accuracy": 0.1706990644335747,
      "num_tokens": 4673701.0,
      "step": 2040
    },
    {
      "entropy": 5.910197305679321,
      "epoch": 0.19644572526416906,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004998861367560213,
      "loss": 5.7826,
      "mean_token_accuracy": 0.16689348816871644,
      "num_tokens": 4685873.0,
      "step": 2045
    },
    {
      "entropy": 5.714930677413941,
      "epoch": 0.19692603266090297,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004998850435933296,
      "loss": 5.6724,
      "mean_token_accuracy": 0.17364383190870286,
      "num_tokens": 4697179.0,
      "step": 2050
    },
    {
      "entropy": 5.752671766281128,
      "epoch": 0.19740634005763688,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998839452094749,
      "loss": 5.7084,
      "mean_token_accuracy": 0.17288116365671158,
      "num_tokens": 4707752.0,
      "step": 2055
    },
    {
      "entropy": 5.625265073776245,
      "epoch": 0.1978866474543708,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004998828416044829,
      "loss": 5.58,
      "mean_token_accuracy": 0.17766032367944717,
      "num_tokens": 4718413.0,
      "step": 2060
    },
    {
      "entropy": 5.750666522979737,
      "epoch": 0.1983669548511047,
      "grad_norm": 1.03125,
      "learning_rate": 0.000499881732778379,
      "loss": 5.7696,
      "mean_token_accuracy": 0.16185117661952972,
      "num_tokens": 4730033.0,
      "step": 2065
    },
    {
      "entropy": 5.668474435806274,
      "epoch": 0.1988472622478386,
      "grad_norm": 0.91015625,
      "learning_rate": 0.000499880618731189,
      "loss": 5.6346,
      "mean_token_accuracy": 0.17201206237077712,
      "num_tokens": 4742084.0,
      "step": 2070
    },
    {
      "entropy": 5.801948118209839,
      "epoch": 0.19932756964457252,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004998794994629388,
      "loss": 5.8485,
      "mean_token_accuracy": 0.16415513008832933,
      "num_tokens": 4753885.0,
      "step": 2075
    },
    {
      "entropy": 5.755141353607177,
      "epoch": 0.19980787704130643,
      "grad_norm": 1.0,
      "learning_rate": 0.0004998783749736545,
      "loss": 5.6852,
      "mean_token_accuracy": 0.17273288518190383,
      "num_tokens": 4765686.0,
      "step": 2080
    },
    {
      "entropy": 5.7318039894104,
      "epoch": 0.20028818443804033,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004998772452633619,
      "loss": 5.7343,
      "mean_token_accuracy": 0.1667577311396599,
      "num_tokens": 4777157.0,
      "step": 2085
    },
    {
      "entropy": 5.734004545211792,
      "epoch": 0.20076849183477424,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004998761103320876,
      "loss": 5.6803,
      "mean_token_accuracy": 0.17569620162248611,
      "num_tokens": 4788583.0,
      "step": 2090
    },
    {
      "entropy": 5.81385350227356,
      "epoch": 0.20124879923150815,
      "grad_norm": 0.94140625,
      "learning_rate": 0.0004998749701798577,
      "loss": 5.795,
      "mean_token_accuracy": 0.164644692838192,
      "num_tokens": 4800749.0,
      "step": 2095
    },
    {
      "entropy": 5.652225208282471,
      "epoch": 0.2017291066282421,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004998738248066986,
      "loss": 5.7001,
      "mean_token_accuracy": 0.17118856757879258,
      "num_tokens": 4812488.0,
      "step": 2100
    },
    {
      "entropy": 5.816308832168579,
      "epoch": 0.202209414024976,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004998726742126372,
      "loss": 5.6902,
      "mean_token_accuracy": 0.17228334546089172,
      "num_tokens": 4823495.0,
      "step": 2105
    },
    {
      "entropy": 5.622010517120361,
      "epoch": 0.2026897214217099,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004998715183976999,
      "loss": 5.726,
      "mean_token_accuracy": 0.16997579634189605,
      "num_tokens": 4834450.0,
      "step": 2110
    },
    {
      "entropy": 5.763468551635742,
      "epoch": 0.20317002881844382,
      "grad_norm": 0.91796875,
      "learning_rate": 0.0004998703573619137,
      "loss": 5.6443,
      "mean_token_accuracy": 0.18120874017477034,
      "num_tokens": 4846826.0,
      "step": 2115
    },
    {
      "entropy": 5.804740762710571,
      "epoch": 0.20365033621517772,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0004998691911053056,
      "loss": 5.8366,
      "mean_token_accuracy": 0.15913107842206956,
      "num_tokens": 4859668.0,
      "step": 2120
    },
    {
      "entropy": 5.727064418792724,
      "epoch": 0.20413064361191163,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004998680196279026,
      "loss": 5.7049,
      "mean_token_accuracy": 0.17213667631149293,
      "num_tokens": 4871727.0,
      "step": 2125
    },
    {
      "entropy": 5.794467830657959,
      "epoch": 0.20461095100864554,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004998668429297319,
      "loss": 5.7674,
      "mean_token_accuracy": 0.17240212336182595,
      "num_tokens": 4882191.0,
      "step": 2130
    },
    {
      "entropy": 5.760322952270508,
      "epoch": 0.20509125840537945,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004998656610108208,
      "loss": 5.6971,
      "mean_token_accuracy": 0.1685373991727829,
      "num_tokens": 4892416.0,
      "step": 2135
    },
    {
      "entropy": 5.694274854660034,
      "epoch": 0.20557156580211336,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004998644738711969,
      "loss": 5.6674,
      "mean_token_accuracy": 0.1685459852218628,
      "num_tokens": 4903572.0,
      "step": 2140
    },
    {
      "entropy": 5.810105037689209,
      "epoch": 0.20605187319884727,
      "grad_norm": 0.875,
      "learning_rate": 0.0004998632815108874,
      "loss": 5.763,
      "mean_token_accuracy": 0.16395961344242097,
      "num_tokens": 4915417.0,
      "step": 2145
    },
    {
      "entropy": 5.73304591178894,
      "epoch": 0.20653218059558118,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004998620839299203,
      "loss": 5.6495,
      "mean_token_accuracy": 0.17259960770606994,
      "num_tokens": 4926943.0,
      "step": 2150
    },
    {
      "entropy": 5.6710865020751955,
      "epoch": 0.2070124879923151,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004998608811283233,
      "loss": 5.6095,
      "mean_token_accuracy": 0.17803010493516921,
      "num_tokens": 4937724.0,
      "step": 2155
    },
    {
      "entropy": 5.7808784484863285,
      "epoch": 0.207492795389049,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004998596731061244,
      "loss": 5.7756,
      "mean_token_accuracy": 0.16368448734283447,
      "num_tokens": 4949970.0,
      "step": 2160
    },
    {
      "entropy": 5.784394645690918,
      "epoch": 0.2079731027857829,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004998584598633516,
      "loss": 5.774,
      "mean_token_accuracy": 0.16977567672729493,
      "num_tokens": 4961389.0,
      "step": 2165
    },
    {
      "entropy": 5.7822630405426025,
      "epoch": 0.2084534101825168,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004998572414000329,
      "loss": 5.82,
      "mean_token_accuracy": 0.16696709543466567,
      "num_tokens": 4973888.0,
      "step": 2170
    },
    {
      "entropy": 5.75656681060791,
      "epoch": 0.20893371757925072,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004998560177161969,
      "loss": 5.7667,
      "mean_token_accuracy": 0.1604086473584175,
      "num_tokens": 4985423.0,
      "step": 2175
    },
    {
      "entropy": 5.70469822883606,
      "epoch": 0.20941402497598463,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004998547888118718,
      "loss": 5.726,
      "mean_token_accuracy": 0.16619897931814193,
      "num_tokens": 4997711.0,
      "step": 2180
    },
    {
      "entropy": 5.7725687503814695,
      "epoch": 0.20989433237271854,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004998535546870862,
      "loss": 5.7454,
      "mean_token_accuracy": 0.1679087519645691,
      "num_tokens": 5009633.0,
      "step": 2185
    },
    {
      "entropy": 5.739374876022339,
      "epoch": 0.21037463976945245,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004998523153418687,
      "loss": 5.6759,
      "mean_token_accuracy": 0.17375072985887527,
      "num_tokens": 5021523.0,
      "step": 2190
    },
    {
      "entropy": 5.785361337661743,
      "epoch": 0.21085494716618636,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004998510707762481,
      "loss": 5.7695,
      "mean_token_accuracy": 0.1699072614312172,
      "num_tokens": 5033513.0,
      "step": 2195
    },
    {
      "entropy": 5.7873194217681885,
      "epoch": 0.21133525456292027,
      "grad_norm": 0.90625,
      "learning_rate": 0.0004998498209902533,
      "loss": 5.7758,
      "mean_token_accuracy": 0.16922611892223358,
      "num_tokens": 5047055.0,
      "step": 2200
    },
    {
      "entropy": 5.707646226882934,
      "epoch": 0.21181556195965417,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004998485659839134,
      "loss": 5.6497,
      "mean_token_accuracy": 0.17682456970214844,
      "num_tokens": 5057613.0,
      "step": 2205
    },
    {
      "entropy": 5.753945970535279,
      "epoch": 0.21229586935638808,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004998473057572575,
      "loss": 5.7615,
      "mean_token_accuracy": 0.16833806186914443,
      "num_tokens": 5068886.0,
      "step": 2210
    },
    {
      "entropy": 5.742906093597412,
      "epoch": 0.212776176753122,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004998460403103146,
      "loss": 5.7494,
      "mean_token_accuracy": 0.16465574279427528,
      "num_tokens": 5079978.0,
      "step": 2215
    },
    {
      "entropy": 5.736083173751831,
      "epoch": 0.2132564841498559,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004998447696431146,
      "loss": 5.7159,
      "mean_token_accuracy": 0.17075446248054504,
      "num_tokens": 5091021.0,
      "step": 2220
    },
    {
      "entropy": 5.6740076541900635,
      "epoch": 0.2137367915465898,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004998434937556865,
      "loss": 5.5988,
      "mean_token_accuracy": 0.181574647128582,
      "num_tokens": 5101483.0,
      "step": 2225
    },
    {
      "entropy": 5.708674907684326,
      "epoch": 0.21421709894332372,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004998422126480602,
      "loss": 5.7447,
      "mean_token_accuracy": 0.16306292563676833,
      "num_tokens": 5113116.0,
      "step": 2230
    },
    {
      "entropy": 5.82704176902771,
      "epoch": 0.21469740634005763,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004998409263202653,
      "loss": 5.6819,
      "mean_token_accuracy": 0.1686948984861374,
      "num_tokens": 5124824.0,
      "step": 2235
    },
    {
      "entropy": 5.589908075332642,
      "epoch": 0.21517771373679154,
      "grad_norm": 1.0,
      "learning_rate": 0.0004998396347723318,
      "loss": 5.6335,
      "mean_token_accuracy": 0.16587817817926406,
      "num_tokens": 5137567.0,
      "step": 2240
    },
    {
      "entropy": 5.72907018661499,
      "epoch": 0.21565802113352545,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0004998383380042895,
      "loss": 5.6846,
      "mean_token_accuracy": 0.16729460805654525,
      "num_tokens": 5149016.0,
      "step": 2245
    },
    {
      "entropy": 5.6214783668518065,
      "epoch": 0.21613832853025935,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998370360161688,
      "loss": 5.5788,
      "mean_token_accuracy": 0.17212725132703782,
      "num_tokens": 5160356.0,
      "step": 2250
    },
    {
      "entropy": 5.79612250328064,
      "epoch": 0.21661863592699326,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004998357288079996,
      "loss": 5.7818,
      "mean_token_accuracy": 0.16184753328561782,
      "num_tokens": 5172100.0,
      "step": 2255
    },
    {
      "entropy": 5.740008592605591,
      "epoch": 0.21709894332372717,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004998344163798125,
      "loss": 5.7405,
      "mean_token_accuracy": 0.16320510655641557,
      "num_tokens": 5183984.0,
      "step": 2260
    },
    {
      "entropy": 5.707123565673828,
      "epoch": 0.21757925072046108,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004998330987316379,
      "loss": 5.7153,
      "mean_token_accuracy": 0.167342671751976,
      "num_tokens": 5195853.0,
      "step": 2265
    },
    {
      "entropy": 5.6320737361907955,
      "epoch": 0.21805955811719502,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004998317758635062,
      "loss": 5.5593,
      "mean_token_accuracy": 0.17451774328947067,
      "num_tokens": 5206995.0,
      "step": 2270
    },
    {
      "entropy": 5.515458297729492,
      "epoch": 0.21853986551392893,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004998304477754484,
      "loss": 5.5989,
      "mean_token_accuracy": 0.17679600268602372,
      "num_tokens": 5219291.0,
      "step": 2275
    },
    {
      "entropy": 5.740645408630371,
      "epoch": 0.21902017291066284,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004998291144674952,
      "loss": 5.6885,
      "mean_token_accuracy": 0.17223394364118577,
      "num_tokens": 5230856.0,
      "step": 2280
    },
    {
      "entropy": 5.601490020751953,
      "epoch": 0.21950048030739674,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004998277759396776,
      "loss": 5.5333,
      "mean_token_accuracy": 0.1814967930316925,
      "num_tokens": 5242871.0,
      "step": 2285
    },
    {
      "entropy": 5.656805944442749,
      "epoch": 0.21998078770413065,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004998264321920265,
      "loss": 5.64,
      "mean_token_accuracy": 0.17801354676485062,
      "num_tokens": 5253835.0,
      "step": 2290
    },
    {
      "entropy": 5.676252794265747,
      "epoch": 0.22046109510086456,
      "grad_norm": 0.890625,
      "learning_rate": 0.0004998250832245734,
      "loss": 5.6181,
      "mean_token_accuracy": 0.17702293545007705,
      "num_tokens": 5266195.0,
      "step": 2295
    },
    {
      "entropy": 5.641697740554809,
      "epoch": 0.22094140249759847,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998237290373494,
      "loss": 5.6002,
      "mean_token_accuracy": 0.1801271617412567,
      "num_tokens": 5277499.0,
      "step": 2300
    },
    {
      "entropy": 5.739913368225098,
      "epoch": 0.22142170989433238,
      "grad_norm": 0.96875,
      "learning_rate": 0.000499822369630386,
      "loss": 5.7231,
      "mean_token_accuracy": 0.1597047820687294,
      "num_tokens": 5288622.0,
      "step": 2305
    },
    {
      "entropy": 5.738846015930176,
      "epoch": 0.2219020172910663,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004998210050037148,
      "loss": 5.7816,
      "mean_token_accuracy": 0.16195343434810638,
      "num_tokens": 5299664.0,
      "step": 2310
    },
    {
      "entropy": 5.717037725448608,
      "epoch": 0.2223823246878002,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004998196351573674,
      "loss": 5.6552,
      "mean_token_accuracy": 0.17402878403663635,
      "num_tokens": 5311627.0,
      "step": 2315
    },
    {
      "entropy": 5.5637411117553714,
      "epoch": 0.2228626320845341,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004998182600913757,
      "loss": 5.5627,
      "mean_token_accuracy": 0.17947529554367064,
      "num_tokens": 5323000.0,
      "step": 2320
    },
    {
      "entropy": 5.704880237579346,
      "epoch": 0.22334293948126802,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004998168798057715,
      "loss": 5.5992,
      "mean_token_accuracy": 0.18110302537679673,
      "num_tokens": 5333811.0,
      "step": 2325
    },
    {
      "entropy": 5.615099573135376,
      "epoch": 0.22382324687800192,
      "grad_norm": 1.015625,
      "learning_rate": 0.000499815494300587,
      "loss": 5.5991,
      "mean_token_accuracy": 0.17574110478162766,
      "num_tokens": 5344762.0,
      "step": 2330
    },
    {
      "entropy": 5.721481513977051,
      "epoch": 0.22430355427473583,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004998141035758542,
      "loss": 5.6195,
      "mean_token_accuracy": 0.17343118488788606,
      "num_tokens": 5356112.0,
      "step": 2335
    },
    {
      "entropy": 5.655849504470825,
      "epoch": 0.22478386167146974,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004998127076316054,
      "loss": 5.7311,
      "mean_token_accuracy": 0.17190437763929367,
      "num_tokens": 5367339.0,
      "step": 2340
    },
    {
      "entropy": 5.674526071548462,
      "epoch": 0.22526416906820365,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004998113064678734,
      "loss": 5.6665,
      "mean_token_accuracy": 0.17564141601324082,
      "num_tokens": 5378627.0,
      "step": 2345
    },
    {
      "entropy": 5.726110649108887,
      "epoch": 0.22574447646493756,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004998099000846901,
      "loss": 5.7012,
      "mean_token_accuracy": 0.1681268870830536,
      "num_tokens": 5390209.0,
      "step": 2350
    },
    {
      "entropy": 5.734390020370483,
      "epoch": 0.22622478386167147,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004998084884820887,
      "loss": 5.6833,
      "mean_token_accuracy": 0.17136491537094117,
      "num_tokens": 5401578.0,
      "step": 2355
    },
    {
      "entropy": 5.615032052993774,
      "epoch": 0.22670509125840538,
      "grad_norm": 1.0,
      "learning_rate": 0.0004998070716601016,
      "loss": 5.5881,
      "mean_token_accuracy": 0.17977205514907837,
      "num_tokens": 5413831.0,
      "step": 2360
    },
    {
      "entropy": 5.722073316574097,
      "epoch": 0.2271853986551393,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998056496187618,
      "loss": 5.6496,
      "mean_token_accuracy": 0.1711253985762596,
      "num_tokens": 5425430.0,
      "step": 2365
    },
    {
      "entropy": 5.49839334487915,
      "epoch": 0.2276657060518732,
      "grad_norm": 1.0,
      "learning_rate": 0.0004998042223581025,
      "loss": 5.4985,
      "mean_token_accuracy": 0.1870403528213501,
      "num_tokens": 5435353.0,
      "step": 2370
    },
    {
      "entropy": 5.7514622688293455,
      "epoch": 0.2281460134486071,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004998027898781565,
      "loss": 5.6991,
      "mean_token_accuracy": 0.17083023190498353,
      "num_tokens": 5446925.0,
      "step": 2375
    },
    {
      "entropy": 5.589994049072265,
      "epoch": 0.228626320845341,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004998013521789574,
      "loss": 5.5899,
      "mean_token_accuracy": 0.1772562175989151,
      "num_tokens": 5456613.0,
      "step": 2380
    },
    {
      "entropy": 5.697564649581909,
      "epoch": 0.22910662824207492,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004997999092605384,
      "loss": 5.6209,
      "mean_token_accuracy": 0.17314212173223495,
      "num_tokens": 5467790.0,
      "step": 2385
    },
    {
      "entropy": 5.672542333602905,
      "epoch": 0.22958693563880883,
      "grad_norm": 1.0,
      "learning_rate": 0.000499798461122933,
      "loss": 5.6065,
      "mean_token_accuracy": 0.17598363608121873,
      "num_tokens": 5479166.0,
      "step": 2390
    },
    {
      "entropy": 5.594286203384399,
      "epoch": 0.23006724303554274,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004997970077661748,
      "loss": 5.5932,
      "mean_token_accuracy": 0.18340873271226882,
      "num_tokens": 5490186.0,
      "step": 2395
    },
    {
      "entropy": 5.690382814407348,
      "epoch": 0.23054755043227665,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004997955491902977,
      "loss": 5.5575,
      "mean_token_accuracy": 0.1718940794467926,
      "num_tokens": 5500416.0,
      "step": 2400
    },
    {
      "entropy": 5.582558584213257,
      "epoch": 0.23102785782901056,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004997940853953354,
      "loss": 5.6489,
      "mean_token_accuracy": 0.17370383739471434,
      "num_tokens": 5512189.0,
      "step": 2405
    },
    {
      "entropy": 5.628128719329834,
      "epoch": 0.23150816522574447,
      "grad_norm": 0.96484375,
      "learning_rate": 0.000499792616381322,
      "loss": 5.5142,
      "mean_token_accuracy": 0.1828036591410637,
      "num_tokens": 5523631.0,
      "step": 2410
    },
    {
      "entropy": 5.609222555160523,
      "epoch": 0.23198847262247838,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004997911421482914,
      "loss": 5.5763,
      "mean_token_accuracy": 0.1823565348982811,
      "num_tokens": 5535637.0,
      "step": 2415
    },
    {
      "entropy": 5.639013814926147,
      "epoch": 0.23246878001921228,
      "grad_norm": 1.0078125,
      "learning_rate": 0.000499789662696278,
      "loss": 5.5869,
      "mean_token_accuracy": 0.18035637438297272,
      "num_tokens": 5546470.0,
      "step": 2420
    },
    {
      "entropy": 5.694498586654663,
      "epoch": 0.2329490874159462,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0004997881780253162,
      "loss": 5.7456,
      "mean_token_accuracy": 0.1703657627105713,
      "num_tokens": 5558633.0,
      "step": 2425
    },
    {
      "entropy": 5.6558629989624025,
      "epoch": 0.2334293948126801,
      "grad_norm": 0.875,
      "learning_rate": 0.0004997866881354403,
      "loss": 5.6547,
      "mean_token_accuracy": 0.17033104449510575,
      "num_tokens": 5570427.0,
      "step": 2430
    },
    {
      "entropy": 5.6951744556427,
      "epoch": 0.23390970220941404,
      "grad_norm": 0.9765625,
      "learning_rate": 0.000499785193026685,
      "loss": 5.6383,
      "mean_token_accuracy": 0.17484120875597,
      "num_tokens": 5580991.0,
      "step": 2435
    },
    {
      "entropy": 5.701549911499024,
      "epoch": 0.23439000960614795,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004997836926990851,
      "loss": 5.6816,
      "mean_token_accuracy": 0.17114701271057128,
      "num_tokens": 5592777.0,
      "step": 2440
    },
    {
      "entropy": 5.602617788314819,
      "epoch": 0.23487031700288186,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004997821871526752,
      "loss": 5.5874,
      "mean_token_accuracy": 0.17974285781383514,
      "num_tokens": 5603326.0,
      "step": 2445
    },
    {
      "entropy": 5.631419324874878,
      "epoch": 0.23535062439961577,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004997806763874905,
      "loss": 5.5697,
      "mean_token_accuracy": 0.1791187435388565,
      "num_tokens": 5614504.0,
      "step": 2450
    },
    {
      "entropy": 5.617094326019287,
      "epoch": 0.23583093179634967,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004997791604035659,
      "loss": 5.6264,
      "mean_token_accuracy": 0.17776354700326918,
      "num_tokens": 5625150.0,
      "step": 2455
    },
    {
      "entropy": 5.6507199764251705,
      "epoch": 0.23631123919308358,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004997776392009366,
      "loss": 5.6458,
      "mean_token_accuracy": 0.169050732254982,
      "num_tokens": 5636815.0,
      "step": 2460
    },
    {
      "entropy": 5.706958866119384,
      "epoch": 0.2367915465898175,
      "grad_norm": 0.9453125,
      "learning_rate": 0.0004997761127796381,
      "loss": 5.6366,
      "mean_token_accuracy": 0.17092559188604356,
      "num_tokens": 5648272.0,
      "step": 2465
    },
    {
      "entropy": 5.628375577926636,
      "epoch": 0.2372718539865514,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004997745811397056,
      "loss": 5.5463,
      "mean_token_accuracy": 0.17801680713891982,
      "num_tokens": 5659227.0,
      "step": 2470
    },
    {
      "entropy": 5.6414820671081545,
      "epoch": 0.2377521613832853,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004997730442811748,
      "loss": 5.6796,
      "mean_token_accuracy": 0.17399391829967498,
      "num_tokens": 5670411.0,
      "step": 2475
    },
    {
      "entropy": 5.5770539283752445,
      "epoch": 0.23823246878001922,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004997715022040814,
      "loss": 5.5182,
      "mean_token_accuracy": 0.1782184734940529,
      "num_tokens": 5681570.0,
      "step": 2480
    },
    {
      "entropy": 5.523485231399536,
      "epoch": 0.23871277617675313,
      "grad_norm": 0.984375,
      "learning_rate": 0.000499769954908461,
      "loss": 5.5022,
      "mean_token_accuracy": 0.1887900114059448,
      "num_tokens": 5693021.0,
      "step": 2485
    },
    {
      "entropy": 5.659896421432495,
      "epoch": 0.23919308357348704,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004997684023943498,
      "loss": 5.5883,
      "mean_token_accuracy": 0.17428779155015944,
      "num_tokens": 5704043.0,
      "step": 2490
    },
    {
      "entropy": 5.5805792808532715,
      "epoch": 0.23967339097022095,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004997668446617837,
      "loss": 5.6675,
      "mean_token_accuracy": 0.16685750484466552,
      "num_tokens": 5715735.0,
      "step": 2495
    },
    {
      "entropy": 5.760880804061889,
      "epoch": 0.24015369836695485,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004997652817107989,
      "loss": 5.6294,
      "mean_token_accuracy": 0.17232899218797684,
      "num_tokens": 5725778.0,
      "step": 2500
    },
    {
      "entropy": 5.601306343078614,
      "epoch": 0.24063400576368876,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004997637135414315,
      "loss": 5.6628,
      "mean_token_accuracy": 0.17220552116632462,
      "num_tokens": 5737224.0,
      "step": 2505
    },
    {
      "entropy": 5.779234981536865,
      "epoch": 0.24111431316042267,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004997621401537183,
      "loss": 5.6855,
      "mean_token_accuracy": 0.17120948135852815,
      "num_tokens": 5749226.0,
      "step": 2510
    },
    {
      "entropy": 5.6741156578063965,
      "epoch": 0.24159462055715658,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004997605615476955,
      "loss": 5.6578,
      "mean_token_accuracy": 0.17114464193582535,
      "num_tokens": 5760282.0,
      "step": 2515
    },
    {
      "entropy": 5.539696168899536,
      "epoch": 0.2420749279538905,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0004997589777234,
      "loss": 5.5633,
      "mean_token_accuracy": 0.181555312871933,
      "num_tokens": 5771756.0,
      "step": 2520
    },
    {
      "entropy": 5.650804233551026,
      "epoch": 0.2425552353506244,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004997573886808684,
      "loss": 5.5835,
      "mean_token_accuracy": 0.16679947078227997,
      "num_tokens": 5783237.0,
      "step": 2525
    },
    {
      "entropy": 5.646309852600098,
      "epoch": 0.2430355427473583,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004997557944201375,
      "loss": 5.6814,
      "mean_token_accuracy": 0.17147036045789718,
      "num_tokens": 5794825.0,
      "step": 2530
    },
    {
      "entropy": 5.675209999084473,
      "epoch": 0.24351585014409222,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004997541949412445,
      "loss": 5.5712,
      "mean_token_accuracy": 0.18625136017799376,
      "num_tokens": 5805578.0,
      "step": 2535
    },
    {
      "entropy": 5.649836206436158,
      "epoch": 0.24399615754082613,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004997525902442266,
      "loss": 5.6738,
      "mean_token_accuracy": 0.16476511359214782,
      "num_tokens": 5818201.0,
      "step": 2540
    },
    {
      "entropy": 5.602812147140503,
      "epoch": 0.24447646493756003,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0004997509803291207,
      "loss": 5.5959,
      "mean_token_accuracy": 0.17587143927812576,
      "num_tokens": 5830319.0,
      "step": 2545
    },
    {
      "entropy": 5.5824614524841305,
      "epoch": 0.24495677233429394,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004997493651959647,
      "loss": 5.5428,
      "mean_token_accuracy": 0.17996817231178283,
      "num_tokens": 5840638.0,
      "step": 2550
    },
    {
      "entropy": 5.66239709854126,
      "epoch": 0.24543707973102785,
      "grad_norm": 0.90625,
      "learning_rate": 0.0004997477448447955,
      "loss": 5.5773,
      "mean_token_accuracy": 0.17367178648710252,
      "num_tokens": 5852472.0,
      "step": 2555
    },
    {
      "entropy": 5.678495073318482,
      "epoch": 0.24591738712776176,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004997461192756512,
      "loss": 5.6133,
      "mean_token_accuracy": 0.170744089782238,
      "num_tokens": 5863455.0,
      "step": 2560
    },
    {
      "entropy": 5.512450170516968,
      "epoch": 0.24639769452449567,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004997444884885694,
      "loss": 5.5251,
      "mean_token_accuracy": 0.17817995101213455,
      "num_tokens": 5873141.0,
      "step": 2565
    },
    {
      "entropy": 5.603986024856567,
      "epoch": 0.24687800192122958,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004997428524835879,
      "loss": 5.6316,
      "mean_token_accuracy": 0.17475323528051376,
      "num_tokens": 5884363.0,
      "step": 2570
    },
    {
      "entropy": 5.740997219085694,
      "epoch": 0.2473583093179635,
      "grad_norm": 0.96484375,
      "learning_rate": 0.0004997412112607446,
      "loss": 5.6721,
      "mean_token_accuracy": 0.17148932665586472,
      "num_tokens": 5895856.0,
      "step": 2575
    },
    {
      "entropy": 5.542859792709351,
      "epoch": 0.2478386167146974,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004997395648200778,
      "loss": 5.4922,
      "mean_token_accuracy": 0.17950474172830583,
      "num_tokens": 5906657.0,
      "step": 2580
    },
    {
      "entropy": 5.600370979309082,
      "epoch": 0.2483189241114313,
      "grad_norm": 0.8984375,
      "learning_rate": 0.0004997379131616257,
      "loss": 5.6226,
      "mean_token_accuracy": 0.1700095072388649,
      "num_tokens": 5919496.0,
      "step": 2585
    },
    {
      "entropy": 5.690901279449463,
      "epoch": 0.24879923150816521,
      "grad_norm": 0.9375,
      "learning_rate": 0.0004997362562854266,
      "loss": 5.6843,
      "mean_token_accuracy": 0.16776154488325118,
      "num_tokens": 5932593.0,
      "step": 2590
    },
    {
      "entropy": 5.619813919067383,
      "epoch": 0.24927953890489912,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004997345941915187,
      "loss": 5.6128,
      "mean_token_accuracy": 0.17226099967956543,
      "num_tokens": 5944080.0,
      "step": 2595
    },
    {
      "entropy": 5.602241802215576,
      "epoch": 0.24975984630163303,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004997329268799412,
      "loss": 5.5752,
      "mean_token_accuracy": 0.18460023701190947,
      "num_tokens": 5955703.0,
      "step": 2600
    },
    {
      "entropy": 5.62792739868164,
      "epoch": 0.25024015369836694,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004997312543507322,
      "loss": 5.6565,
      "mean_token_accuracy": 0.1714890867471695,
      "num_tokens": 5966979.0,
      "step": 2605
    },
    {
      "entropy": 5.672908306121826,
      "epoch": 0.2507204610951009,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004997295766039309,
      "loss": 5.545,
      "mean_token_accuracy": 0.17637500017881394,
      "num_tokens": 5978808.0,
      "step": 2610
    },
    {
      "entropy": 5.6401097774505615,
      "epoch": 0.25120076849183476,
      "grad_norm": 0.953125,
      "learning_rate": 0.0004997278936395761,
      "loss": 5.7288,
      "mean_token_accuracy": 0.16584430038928985,
      "num_tokens": 5992145.0,
      "step": 2615
    },
    {
      "entropy": 5.665263652801514,
      "epoch": 0.2516810758885687,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004997262054577071,
      "loss": 5.5694,
      "mean_token_accuracy": 0.17564088106155396,
      "num_tokens": 6003723.0,
      "step": 2620
    },
    {
      "entropy": 5.6567973613739015,
      "epoch": 0.2521613832853026,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004997245120583627,
      "loss": 5.6351,
      "mean_token_accuracy": 0.1769047811627388,
      "num_tokens": 6014064.0,
      "step": 2625
    },
    {
      "entropy": 5.53907151222229,
      "epoch": 0.2526416906820365,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004997228134415825,
      "loss": 5.5168,
      "mean_token_accuracy": 0.1834915667772293,
      "num_tokens": 6025455.0,
      "step": 2630
    },
    {
      "entropy": 5.6452476501464846,
      "epoch": 0.2531219980787704,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004997211096074059,
      "loss": 5.6231,
      "mean_token_accuracy": 0.16973316073417663,
      "num_tokens": 6037347.0,
      "step": 2635
    },
    {
      "entropy": 5.600665187835693,
      "epoch": 0.25360230547550433,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004997194005558722,
      "loss": 5.5304,
      "mean_token_accuracy": 0.18019532412290573,
      "num_tokens": 6049236.0,
      "step": 2640
    },
    {
      "entropy": 5.534391641616821,
      "epoch": 0.2540826128722382,
      "grad_norm": 0.96484375,
      "learning_rate": 0.0004997176862870216,
      "loss": 5.5339,
      "mean_token_accuracy": 0.1798613414168358,
      "num_tokens": 6060982.0,
      "step": 2645
    },
    {
      "entropy": 5.637931680679321,
      "epoch": 0.25456292026897215,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004997159668008933,
      "loss": 5.5514,
      "mean_token_accuracy": 0.17985030263662338,
      "num_tokens": 6070925.0,
      "step": 2650
    },
    {
      "entropy": 5.526381587982177,
      "epoch": 0.25504322766570603,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004997142420975277,
      "loss": 5.514,
      "mean_token_accuracy": 0.18175738006830217,
      "num_tokens": 6081279.0,
      "step": 2655
    },
    {
      "entropy": 5.5633796691894535,
      "epoch": 0.25552353506243997,
      "grad_norm": 0.91796875,
      "learning_rate": 0.0004997125121769647,
      "loss": 5.6108,
      "mean_token_accuracy": 0.17793446481227876,
      "num_tokens": 6091797.0,
      "step": 2660
    },
    {
      "entropy": 5.687921333312988,
      "epoch": 0.25600384245917385,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0004997107770392444,
      "loss": 5.6134,
      "mean_token_accuracy": 0.1804993599653244,
      "num_tokens": 6103435.0,
      "step": 2665
    },
    {
      "entropy": 5.648722791671753,
      "epoch": 0.2564841498559078,
      "grad_norm": 0.9375,
      "learning_rate": 0.000499709036684407,
      "loss": 5.6751,
      "mean_token_accuracy": 0.17587384432554246,
      "num_tokens": 6114531.0,
      "step": 2670
    },
    {
      "entropy": 5.569314622879029,
      "epoch": 0.25696445725264166,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004997072911124932,
      "loss": 5.5173,
      "mean_token_accuracy": 0.17945850938558577,
      "num_tokens": 6126110.0,
      "step": 2675
    },
    {
      "entropy": 5.670061159133911,
      "epoch": 0.2574447646493756,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004997055403235432,
      "loss": 5.6187,
      "mean_token_accuracy": 0.1766670301556587,
      "num_tokens": 6137114.0,
      "step": 2680
    },
    {
      "entropy": 5.62683253288269,
      "epoch": 0.2579250720461095,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004997037843175978,
      "loss": 5.5718,
      "mean_token_accuracy": 0.17658228576183319,
      "num_tokens": 6148696.0,
      "step": 2685
    },
    {
      "entropy": 5.59165620803833,
      "epoch": 0.2584053794428434,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004997020230946978,
      "loss": 5.568,
      "mean_token_accuracy": 0.1790614068508148,
      "num_tokens": 6160235.0,
      "step": 2690
    },
    {
      "entropy": 5.629477691650391,
      "epoch": 0.25888568683957736,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004997002566548841,
      "loss": 5.5586,
      "mean_token_accuracy": 0.17292713820934297,
      "num_tokens": 6172031.0,
      "step": 2695
    },
    {
      "entropy": 5.48054838180542,
      "epoch": 0.25936599423631124,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004996984849981976,
      "loss": 5.4233,
      "mean_token_accuracy": 0.1893267199397087,
      "num_tokens": 6183547.0,
      "step": 2700
    },
    {
      "entropy": 5.619540548324585,
      "epoch": 0.2598463016330452,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004996967081246794,
      "loss": 5.632,
      "mean_token_accuracy": 0.1678134724497795,
      "num_tokens": 6194768.0,
      "step": 2705
    },
    {
      "entropy": 5.6499683380126955,
      "epoch": 0.26032660902977905,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004996949260343711,
      "loss": 5.6314,
      "mean_token_accuracy": 0.1706198126077652,
      "num_tokens": 6206099.0,
      "step": 2710
    },
    {
      "entropy": 5.624089670181275,
      "epoch": 0.260806916426513,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004996931387273137,
      "loss": 5.6262,
      "mean_token_accuracy": 0.17660144418478013,
      "num_tokens": 6217530.0,
      "step": 2715
    },
    {
      "entropy": 5.713815212249756,
      "epoch": 0.2612872238232469,
      "grad_norm": 0.94140625,
      "learning_rate": 0.0004996913462035487,
      "loss": 5.6448,
      "mean_token_accuracy": 0.1767139658331871,
      "num_tokens": 6228564.0,
      "step": 2720
    },
    {
      "entropy": 5.539792156219482,
      "epoch": 0.2617675312199808,
      "grad_norm": 0.97265625,
      "learning_rate": 0.000499689548463118,
      "loss": 5.5174,
      "mean_token_accuracy": 0.17854675203561782,
      "num_tokens": 6239945.0,
      "step": 2725
    },
    {
      "entropy": 5.59919810295105,
      "epoch": 0.2622478386167147,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004996877455060631,
      "loss": 5.6312,
      "mean_token_accuracy": 0.17017472237348558,
      "num_tokens": 6251829.0,
      "step": 2730
    },
    {
      "entropy": 5.7330786228179935,
      "epoch": 0.2627281460134486,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004996859373324259,
      "loss": 5.7264,
      "mean_token_accuracy": 0.16224824339151384,
      "num_tokens": 6264823.0,
      "step": 2735
    },
    {
      "entropy": 5.5701476573944095,
      "epoch": 0.2632084534101825,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004996841239422485,
      "loss": 5.4065,
      "mean_token_accuracy": 0.18482713848352433,
      "num_tokens": 6276247.0,
      "step": 2740
    },
    {
      "entropy": 5.470470857620239,
      "epoch": 0.26368876080691644,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004996823053355729,
      "loss": 5.5321,
      "mean_token_accuracy": 0.18076382875442504,
      "num_tokens": 6287593.0,
      "step": 2745
    },
    {
      "entropy": 5.685536909103393,
      "epoch": 0.2641690682036503,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004996804815124413,
      "loss": 5.6897,
      "mean_token_accuracy": 0.16898608654737474,
      "num_tokens": 6299918.0,
      "step": 2750
    },
    {
      "entropy": 5.568260049819946,
      "epoch": 0.26464937560038426,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004996786524728962,
      "loss": 5.5287,
      "mean_token_accuracy": 0.18196363002061844,
      "num_tokens": 6311147.0,
      "step": 2755
    },
    {
      "entropy": 5.45229320526123,
      "epoch": 0.26512968299711814,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004996768182169797,
      "loss": 5.4564,
      "mean_token_accuracy": 0.18652137070894242,
      "num_tokens": 6323239.0,
      "step": 2760
    },
    {
      "entropy": 5.692247343063355,
      "epoch": 0.2656099903938521,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004996749787447349,
      "loss": 5.5567,
      "mean_token_accuracy": 0.17187336832284927,
      "num_tokens": 6334625.0,
      "step": 2765
    },
    {
      "entropy": 5.545494651794433,
      "epoch": 0.26609029779058596,
      "grad_norm": 1.046875,
      "learning_rate": 0.000499673134056204,
      "loss": 5.5938,
      "mean_token_accuracy": 0.17517421692609786,
      "num_tokens": 6346068.0,
      "step": 2770
    },
    {
      "entropy": 5.584152412414551,
      "epoch": 0.2665706051873199,
      "grad_norm": 1.125,
      "learning_rate": 0.0004996712841514303,
      "loss": 5.5716,
      "mean_token_accuracy": 0.17334717959165574,
      "num_tokens": 6357097.0,
      "step": 2775
    },
    {
      "entropy": 5.656313180923462,
      "epoch": 0.2670509125840538,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004996694290304563,
      "loss": 5.6313,
      "mean_token_accuracy": 0.16709280461072923,
      "num_tokens": 6367481.0,
      "step": 2780
    },
    {
      "entropy": 5.52793607711792,
      "epoch": 0.2675312199807877,
      "grad_norm": 1.0,
      "learning_rate": 0.0004996675686933255,
      "loss": 5.5381,
      "mean_token_accuracy": 0.18144787847995758,
      "num_tokens": 6378873.0,
      "step": 2785
    },
    {
      "entropy": 5.664049291610718,
      "epoch": 0.2680115273775216,
      "grad_norm": 0.953125,
      "learning_rate": 0.0004996657031400807,
      "loss": 5.5768,
      "mean_token_accuracy": 0.18006865531206132,
      "num_tokens": 6390651.0,
      "step": 2790
    },
    {
      "entropy": 5.478256464004517,
      "epoch": 0.26849183477425553,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004996638323707655,
      "loss": 5.446,
      "mean_token_accuracy": 0.1820421040058136,
      "num_tokens": 6401631.0,
      "step": 2795
    },
    {
      "entropy": 5.48651123046875,
      "epoch": 0.2689721421709894,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004996619563854232,
      "loss": 5.5308,
      "mean_token_accuracy": 0.1832943469285965,
      "num_tokens": 6413875.0,
      "step": 2800
    },
    {
      "entropy": 5.689049482345581,
      "epoch": 0.26945244956772335,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004996600751840974,
      "loss": 5.5579,
      "mean_token_accuracy": 0.1733505442738533,
      "num_tokens": 6425764.0,
      "step": 2805
    },
    {
      "entropy": 5.478516244888306,
      "epoch": 0.26993275696445723,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004996581887668317,
      "loss": 5.494,
      "mean_token_accuracy": 0.18221275955438615,
      "num_tokens": 6437911.0,
      "step": 2810
    },
    {
      "entropy": 5.534301519393921,
      "epoch": 0.27041306436119117,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00049965629713367,
      "loss": 5.4961,
      "mean_token_accuracy": 0.18141991049051284,
      "num_tokens": 6449942.0,
      "step": 2815
    },
    {
      "entropy": 5.604593276977539,
      "epoch": 0.27089337175792505,
      "grad_norm": 0.953125,
      "learning_rate": 0.0004996544002846561,
      "loss": 5.6208,
      "mean_token_accuracy": 0.17682201713323592,
      "num_tokens": 6461729.0,
      "step": 2820
    },
    {
      "entropy": 5.614752101898193,
      "epoch": 0.271373679154659,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004996524982198343,
      "loss": 5.5988,
      "mean_token_accuracy": 0.17795798033475876,
      "num_tokens": 6472046.0,
      "step": 2825
    },
    {
      "entropy": 5.600375080108643,
      "epoch": 0.27185398655139287,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004996505909392485,
      "loss": 5.5667,
      "mean_token_accuracy": 0.17373612523078918,
      "num_tokens": 6483308.0,
      "step": 2830
    },
    {
      "entropy": 5.429362010955811,
      "epoch": 0.2723342939481268,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004996486784429429,
      "loss": 5.4311,
      "mean_token_accuracy": 0.18428465574979783,
      "num_tokens": 6495093.0,
      "step": 2835
    },
    {
      "entropy": 5.5981306552886965,
      "epoch": 0.2728146013448607,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004996467607309622,
      "loss": 5.5307,
      "mean_token_accuracy": 0.17854470163583755,
      "num_tokens": 6505933.0,
      "step": 2840
    },
    {
      "entropy": 5.626583003997803,
      "epoch": 0.2732949087415946,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004996448378033507,
      "loss": 5.5893,
      "mean_token_accuracy": 0.17490534335374833,
      "num_tokens": 6517280.0,
      "step": 2845
    },
    {
      "entropy": 5.60156021118164,
      "epoch": 0.2737752161383285,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004996429096601532,
      "loss": 5.6315,
      "mean_token_accuracy": 0.17191672027111055,
      "num_tokens": 6528980.0,
      "step": 2850
    },
    {
      "entropy": 5.601687097549439,
      "epoch": 0.27425552353506244,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004996409763014144,
      "loss": 5.6235,
      "mean_token_accuracy": 0.17743158787488938,
      "num_tokens": 6540670.0,
      "step": 2855
    },
    {
      "entropy": 5.593181991577149,
      "epoch": 0.2747358309317964,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004996390377271791,
      "loss": 5.5855,
      "mean_token_accuracy": 0.18115401417016982,
      "num_tokens": 6551302.0,
      "step": 2860
    },
    {
      "entropy": 5.5507872104644775,
      "epoch": 0.27521613832853026,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004996370939374924,
      "loss": 5.5433,
      "mean_token_accuracy": 0.1738438919186592,
      "num_tokens": 6563177.0,
      "step": 2865
    },
    {
      "entropy": 5.72943229675293,
      "epoch": 0.2756964457252642,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004996351449323994,
      "loss": 5.6521,
      "mean_token_accuracy": 0.17468605786561966,
      "num_tokens": 6573323.0,
      "step": 2870
    },
    {
      "entropy": 5.5880653858184814,
      "epoch": 0.2761767531219981,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004996331907119455,
      "loss": 5.591,
      "mean_token_accuracy": 0.16756793707609177,
      "num_tokens": 6585382.0,
      "step": 2875
    },
    {
      "entropy": 5.474012231826782,
      "epoch": 0.276657060518732,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004996312312761758,
      "loss": 5.467,
      "mean_token_accuracy": 0.1900227263569832,
      "num_tokens": 6596629.0,
      "step": 2880
    },
    {
      "entropy": 5.6394744396209715,
      "epoch": 0.2771373679154659,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000499629266625136,
      "loss": 5.5734,
      "mean_token_accuracy": 0.17828488498926162,
      "num_tokens": 6608408.0,
      "step": 2885
    },
    {
      "entropy": 5.638094282150268,
      "epoch": 0.27761767531219983,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004996272967588715,
      "loss": 5.5989,
      "mean_token_accuracy": 0.1704651966691017,
      "num_tokens": 6619375.0,
      "step": 2890
    },
    {
      "entropy": 5.618940448760986,
      "epoch": 0.2780979827089337,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004996253216774283,
      "loss": 5.6398,
      "mean_token_accuracy": 0.17304042726755142,
      "num_tokens": 6631317.0,
      "step": 2895
    },
    {
      "entropy": 5.576578378677368,
      "epoch": 0.27857829010566765,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004996233413808521,
      "loss": 5.4904,
      "mean_token_accuracy": 0.18116467744112014,
      "num_tokens": 6642009.0,
      "step": 2900
    },
    {
      "entropy": 5.609902429580688,
      "epoch": 0.27905859750240153,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004996213558691889,
      "loss": 5.6478,
      "mean_token_accuracy": 0.1682332620024681,
      "num_tokens": 6654713.0,
      "step": 2905
    },
    {
      "entropy": 5.651772451400757,
      "epoch": 0.27953890489913547,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0004996193651424848,
      "loss": 5.6064,
      "mean_token_accuracy": 0.17700932323932647,
      "num_tokens": 6667157.0,
      "step": 2910
    },
    {
      "entropy": 5.575735330581665,
      "epoch": 0.28001921229586935,
      "grad_norm": 0.94140625,
      "learning_rate": 0.000499617369200786,
      "loss": 5.5599,
      "mean_token_accuracy": 0.18871267586946489,
      "num_tokens": 6679573.0,
      "step": 2915
    },
    {
      "entropy": 5.593114852905273,
      "epoch": 0.2804995196926033,
      "grad_norm": 0.859375,
      "learning_rate": 0.0004996153680441389,
      "loss": 5.624,
      "mean_token_accuracy": 0.17413021624088287,
      "num_tokens": 6691768.0,
      "step": 2920
    },
    {
      "entropy": 5.653490257263184,
      "epoch": 0.28097982708933716,
      "grad_norm": 1.015625,
      "learning_rate": 0.00049961336167259,
      "loss": 5.5864,
      "mean_token_accuracy": 0.17438612282276153,
      "num_tokens": 6701964.0,
      "step": 2925
    },
    {
      "entropy": 5.618965578079224,
      "epoch": 0.2814601344860711,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004996113500861857,
      "loss": 5.5759,
      "mean_token_accuracy": 0.1726679503917694,
      "num_tokens": 6713506.0,
      "step": 2930
    },
    {
      "entropy": 5.581022930145264,
      "epoch": 0.281940441882805,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004996093332849729,
      "loss": 5.593,
      "mean_token_accuracy": 0.1725487932562828,
      "num_tokens": 6724616.0,
      "step": 2935
    },
    {
      "entropy": 5.562248182296753,
      "epoch": 0.2824207492795389,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004996073112689983,
      "loss": 5.5803,
      "mean_token_accuracy": 0.17757243812084197,
      "num_tokens": 6735054.0,
      "step": 2940
    },
    {
      "entropy": 5.616918420791626,
      "epoch": 0.2829010566762728,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004996052840383088,
      "loss": 5.6325,
      "mean_token_accuracy": 0.17381539791822434,
      "num_tokens": 6746756.0,
      "step": 2945
    },
    {
      "entropy": 5.603857469558716,
      "epoch": 0.28338136407300674,
      "grad_norm": 0.89453125,
      "learning_rate": 0.0004996032515929516,
      "loss": 5.4992,
      "mean_token_accuracy": 0.1776091992855072,
      "num_tokens": 6759566.0,
      "step": 2950
    },
    {
      "entropy": 5.573670148849487,
      "epoch": 0.2838616714697406,
      "grad_norm": 1.0,
      "learning_rate": 0.0004996012139329738,
      "loss": 5.5225,
      "mean_token_accuracy": 0.17899418324232103,
      "num_tokens": 6771375.0,
      "step": 2955
    },
    {
      "entropy": 5.619125080108643,
      "epoch": 0.28434197886647455,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004995991710584228,
      "loss": 5.6311,
      "mean_token_accuracy": 0.16734524071216583,
      "num_tokens": 6783252.0,
      "step": 2960
    },
    {
      "entropy": 5.58878116607666,
      "epoch": 0.28482228626320844,
      "grad_norm": 0.953125,
      "learning_rate": 0.0004995971229693459,
      "loss": 5.5941,
      "mean_token_accuracy": 0.17340553402900696,
      "num_tokens": 6795525.0,
      "step": 2965
    },
    {
      "entropy": 5.610876131057739,
      "epoch": 0.28530259365994237,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0004995950696657909,
      "loss": 5.5353,
      "mean_token_accuracy": 0.17990380227565766,
      "num_tokens": 6807212.0,
      "step": 2970
    },
    {
      "entropy": 5.52398419380188,
      "epoch": 0.28578290105667625,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004995930111478051,
      "loss": 5.4712,
      "mean_token_accuracy": 0.1771505206823349,
      "num_tokens": 6819367.0,
      "step": 2975
    },
    {
      "entropy": 5.5713125705719,
      "epoch": 0.2862632084534102,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004995909474154365,
      "loss": 5.5531,
      "mean_token_accuracy": 0.17791730761528016,
      "num_tokens": 6830405.0,
      "step": 2980
    },
    {
      "entropy": 5.524326038360596,
      "epoch": 0.28674351585014407,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004995888784687331,
      "loss": 5.5413,
      "mean_token_accuracy": 0.18089909702539445,
      "num_tokens": 6841479.0,
      "step": 2985
    },
    {
      "entropy": 5.545838022232056,
      "epoch": 0.287223823246878,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004995868043077428,
      "loss": 5.5784,
      "mean_token_accuracy": 0.1739095240831375,
      "num_tokens": 6851585.0,
      "step": 2990
    },
    {
      "entropy": 5.605233526229858,
      "epoch": 0.2877041306436119,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004995847249325137,
      "loss": 5.5488,
      "mean_token_accuracy": 0.1776391088962555,
      "num_tokens": 6863176.0,
      "step": 2995
    },
    {
      "entropy": 5.596064901351928,
      "epoch": 0.2881844380403458,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004995826403430942,
      "loss": 5.595,
      "mean_token_accuracy": 0.17474860548973084,
      "num_tokens": 6874021.0,
      "step": 3000
    },
    {
      "epoch": 0.2881844380403458,
      "eval_entropy": 5.440896103871502,
      "eval_loss": 5.576871395111084,
      "eval_mean_token_accuracy": 0.18414354559419172,
      "eval_num_tokens": 6874021.0,
      "eval_runtime": 26.9459,
      "eval_samples_per_second": 1217.809,
      "eval_steps_per_second": 152.231,
      "step": 3000
    }
  ],
  "logging_steps": 5,
  "max_steps": 104090,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 3000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.0541794369536e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}