{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 4.788741860953581,
  "eval_steps": 3000,
  "global_step": 57000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 10.69201192855835,
      "epoch": 0.0004200798151648813,
      "grad_norm": 13.375,
      "learning_rate": 2e-06,
      "loss": 10.8001,
      "mean_token_accuracy": 0.0,
      "num_tokens": 8348.0,
      "step": 5
    },
    {
      "entropy": 10.691978454589844,
      "epoch": 0.0008401596303297626,
      "grad_norm": 12.5,
      "learning_rate": 4.5e-06,
      "loss": 10.7548,
      "mean_token_accuracy": 0.00010881392518058419,
      "num_tokens": 17465.0,
      "step": 10
    },
    {
      "entropy": 10.691164684295654,
      "epoch": 0.001260239445494644,
      "grad_norm": 9.9375,
      "learning_rate": 7e-06,
      "loss": 10.5365,
      "mean_token_accuracy": 0.021085147676058114,
      "num_tokens": 26627.0,
      "step": 15
    },
    {
      "entropy": 10.678658771514893,
      "epoch": 0.0016803192606595252,
      "grad_norm": 6.46875,
      "learning_rate": 9.5e-06,
      "loss": 10.2026,
      "mean_token_accuracy": 0.046403773874044416,
      "num_tokens": 36069.0,
      "step": 20
    },
    {
      "entropy": 10.598964595794678,
      "epoch": 0.002100399075824407,
      "grad_norm": 4.46875,
      "learning_rate": 1.2e-05,
      "loss": 9.8984,
      "mean_token_accuracy": 0.04546841159462929,
      "num_tokens": 44967.0,
      "step": 25
    },
    {
      "entropy": 10.592682838439941,
      "epoch": 0.002520478890989288,
      "grad_norm": 3.25,
      "learning_rate": 1.4500000000000002e-05,
      "loss": 9.8253,
      "mean_token_accuracy": 0.04163686409592628,
      "num_tokens": 55132.0,
      "step": 30
    },
    {
      "entropy": 10.616032028198243,
      "epoch": 0.0029405587061541692,
      "grad_norm": 2.734375,
      "learning_rate": 1.7000000000000003e-05,
      "loss": 9.6909,
      "mean_token_accuracy": 0.04541983306407928,
      "num_tokens": 65141.0,
      "step": 35
    },
    {
      "entropy": 10.587666893005371,
      "epoch": 0.0033606385213190504,
      "grad_norm": 2.453125,
      "learning_rate": 1.95e-05,
      "loss": 9.6967,
      "mean_token_accuracy": 0.040509892627596855,
      "num_tokens": 74007.0,
      "step": 40
    },
    {
      "entropy": 10.587863063812256,
      "epoch": 0.003780718336483932,
      "grad_norm": 2.453125,
      "learning_rate": 2.2e-05,
      "loss": 9.6278,
      "mean_token_accuracy": 0.04380051270127296,
      "num_tokens": 83736.0,
      "step": 45
    },
    {
      "entropy": 10.581284713745116,
      "epoch": 0.004200798151648814,
      "grad_norm": 2.359375,
      "learning_rate": 2.4500000000000003e-05,
      "loss": 9.5554,
      "mean_token_accuracy": 0.04462047629058361,
      "num_tokens": 92525.0,
      "step": 50
    },
    {
      "entropy": 10.579821586608887,
      "epoch": 0.004620877966813695,
      "grad_norm": 2.515625,
      "learning_rate": 2.7e-05,
      "loss": 9.5042,
      "mean_token_accuracy": 0.0499776991084218,
      "num_tokens": 102015.0,
      "step": 55
    },
    {
      "entropy": 10.527470588684082,
      "epoch": 0.005040957781978576,
      "grad_norm": 2.203125,
      "learning_rate": 2.95e-05,
      "loss": 9.4648,
      "mean_token_accuracy": 0.05102687180042267,
      "num_tokens": 110887.0,
      "step": 60
    },
    {
      "entropy": 10.398450374603271,
      "epoch": 0.005461037597143457,
      "grad_norm": 2.265625,
      "learning_rate": 3.2e-05,
      "loss": 9.3768,
      "mean_token_accuracy": 0.05401572398841381,
      "num_tokens": 120442.0,
      "step": 65
    },
    {
      "entropy": 10.466637897491456,
      "epoch": 0.0058811174123083385,
      "grad_norm": 2.34375,
      "learning_rate": 3.4500000000000005e-05,
      "loss": 9.2516,
      "mean_token_accuracy": 0.05276094898581505,
      "num_tokens": 129297.0,
      "step": 70
    },
    {
      "entropy": 10.477723217010498,
      "epoch": 0.00630119722747322,
      "grad_norm": 2.1875,
      "learning_rate": 3.7e-05,
      "loss": 9.1585,
      "mean_token_accuracy": 0.05686353407800197,
      "num_tokens": 138305.0,
      "step": 75
    },
    {
      "entropy": 10.401033782958985,
      "epoch": 0.006721277042638101,
      "grad_norm": 2.3125,
      "learning_rate": 3.95e-05,
      "loss": 9.0976,
      "mean_token_accuracy": 0.055690228939056396,
      "num_tokens": 147640.0,
      "step": 80
    },
    {
      "entropy": 10.44783878326416,
      "epoch": 0.007141356857802983,
      "grad_norm": 2.1875,
      "learning_rate": 4.2000000000000004e-05,
      "loss": 8.9803,
      "mean_token_accuracy": 0.05669833719730377,
      "num_tokens": 157633.0,
      "step": 85
    },
    {
      "entropy": 10.396310806274414,
      "epoch": 0.007561436672967864,
      "grad_norm": 1.921875,
      "learning_rate": 4.45e-05,
      "loss": 8.9499,
      "mean_token_accuracy": 0.05056734494864941,
      "num_tokens": 167984.0,
      "step": 90
    },
    {
      "entropy": 10.333494663238525,
      "epoch": 0.007981516488132745,
      "grad_norm": 1.90625,
      "learning_rate": 4.7000000000000004e-05,
      "loss": 8.8301,
      "mean_token_accuracy": 0.06639725379645825,
      "num_tokens": 176984.0,
      "step": 95
    },
    {
      "entropy": 10.28737268447876,
      "epoch": 0.008401596303297627,
      "grad_norm": 2.171875,
      "learning_rate": 4.9500000000000004e-05,
      "loss": 8.654,
      "mean_token_accuracy": 0.06538619883358479,
      "num_tokens": 185931.0,
      "step": 100
    },
    {
      "entropy": 10.208460235595703,
      "epoch": 0.008821676118462508,
      "grad_norm": 2.921875,
      "learning_rate": 5.2e-05,
      "loss": 8.6478,
      "mean_token_accuracy": 0.050938266515731814,
      "num_tokens": 195065.0,
      "step": 105
    },
    {
      "entropy": 10.092334175109864,
      "epoch": 0.00924175593362739,
      "grad_norm": 1.9453125,
      "learning_rate": 5.45e-05,
      "loss": 8.5099,
      "mean_token_accuracy": 0.06477361544966698,
      "num_tokens": 203687.0,
      "step": 110
    },
    {
      "entropy": 10.105284690856934,
      "epoch": 0.00966183574879227,
      "grad_norm": 1.9296875,
      "learning_rate": 5.7e-05,
      "loss": 8.4081,
      "mean_token_accuracy": 0.0666894868016243,
      "num_tokens": 212847.0,
      "step": 115
    },
    {
      "entropy": 9.957781219482422,
      "epoch": 0.010081915563957152,
      "grad_norm": 1.71875,
      "learning_rate": 5.9499999999999996e-05,
      "loss": 8.3004,
      "mean_token_accuracy": 0.0674133587628603,
      "num_tokens": 222593.0,
      "step": 120
    },
    {
      "entropy": 9.889359092712402,
      "epoch": 0.010501995379122032,
      "grad_norm": 1.6953125,
      "learning_rate": 6.2e-05,
      "loss": 8.129,
      "mean_token_accuracy": 0.07197456955909728,
      "num_tokens": 231174.0,
      "step": 125
    },
    {
      "entropy": 9.669556808471679,
      "epoch": 0.010922075194286915,
      "grad_norm": 1.703125,
      "learning_rate": 6.450000000000001e-05,
      "loss": 7.9843,
      "mean_token_accuracy": 0.07425511926412583,
      "num_tokens": 239833.0,
      "step": 130
    },
    {
      "entropy": 9.519672775268555,
      "epoch": 0.011342155009451797,
      "grad_norm": 1.4296875,
      "learning_rate": 6.7e-05,
      "loss": 8.0143,
      "mean_token_accuracy": 0.07254141308367253,
      "num_tokens": 248794.0,
      "step": 135
    },
    {
      "entropy": 9.303325176239014,
      "epoch": 0.011762234824616677,
      "grad_norm": 1.6953125,
      "learning_rate": 6.950000000000001e-05,
      "loss": 7.9537,
      "mean_token_accuracy": 0.07010119631886483,
      "num_tokens": 257123.0,
      "step": 140
    },
    {
      "entropy": 9.143257808685302,
      "epoch": 0.012182314639781559,
      "grad_norm": 1.3359375,
      "learning_rate": 7.2e-05,
      "loss": 7.6458,
      "mean_token_accuracy": 0.07959595024585724,
      "num_tokens": 266088.0,
      "step": 145
    },
    {
      "entropy": 8.888239574432372,
      "epoch": 0.01260239445494644,
      "grad_norm": 1.15625,
      "learning_rate": 7.45e-05,
      "loss": 7.8236,
      "mean_token_accuracy": 0.07102414257824421,
      "num_tokens": 276074.0,
      "step": 150
    },
    {
      "entropy": 8.727731895446777,
      "epoch": 0.013022474270111321,
      "grad_norm": 1.265625,
      "learning_rate": 7.7e-05,
      "loss": 7.7082,
      "mean_token_accuracy": 0.07570267021656037,
      "num_tokens": 285280.0,
      "step": 155
    },
    {
      "entropy": 8.563877964019776,
      "epoch": 0.013442554085276202,
      "grad_norm": 1.1328125,
      "learning_rate": 7.950000000000001e-05,
      "loss": 7.6962,
      "mean_token_accuracy": 0.06895132511854171,
      "num_tokens": 296115.0,
      "step": 160
    },
    {
      "entropy": 8.412875747680664,
      "epoch": 0.013862633900441084,
      "grad_norm": 1.2734375,
      "learning_rate": 8.2e-05,
      "loss": 7.5497,
      "mean_token_accuracy": 0.07601302340626717,
      "num_tokens": 305483.0,
      "step": 165
    },
    {
      "entropy": 8.340911769866944,
      "epoch": 0.014282713715605966,
      "grad_norm": 1.2109375,
      "learning_rate": 8.450000000000001e-05,
      "loss": 7.5593,
      "mean_token_accuracy": 0.07040085420012474,
      "num_tokens": 314000.0,
      "step": 170
    },
    {
      "entropy": 8.245043659210205,
      "epoch": 0.014702793530770846,
      "grad_norm": 1.5234375,
      "learning_rate": 8.7e-05,
      "loss": 7.5541,
      "mean_token_accuracy": 0.07777635231614113,
      "num_tokens": 323667.0,
      "step": 175
    },
    {
      "entropy": 8.15629415512085,
      "epoch": 0.015122873345935728,
      "grad_norm": 1.4296875,
      "learning_rate": 8.95e-05,
      "loss": 7.5554,
      "mean_token_accuracy": 0.07515333034098148,
      "num_tokens": 332695.0,
      "step": 180
    },
    {
      "entropy": 8.065321111679078,
      "epoch": 0.015542953161100609,
      "grad_norm": 1.1875,
      "learning_rate": 9.2e-05,
      "loss": 7.3947,
      "mean_token_accuracy": 0.07709791958332061,
      "num_tokens": 342428.0,
      "step": 185
    },
    {
      "entropy": 8.054158020019532,
      "epoch": 0.01596303297626549,
      "grad_norm": 1.140625,
      "learning_rate": 9.45e-05,
      "loss": 7.5079,
      "mean_token_accuracy": 0.0735605925321579,
      "num_tokens": 353587.0,
      "step": 190
    },
    {
      "entropy": 7.988022661209106,
      "epoch": 0.01638311279143037,
      "grad_norm": 1.34375,
      "learning_rate": 9.7e-05,
      "loss": 7.443,
      "mean_token_accuracy": 0.07551693692803382,
      "num_tokens": 362997.0,
      "step": 195
    },
    {
      "entropy": 8.02585473060608,
      "epoch": 0.016803192606595255,
      "grad_norm": 1.1796875,
      "learning_rate": 9.95e-05,
      "loss": 7.4821,
      "mean_token_accuracy": 0.07873391062021255,
      "num_tokens": 372346.0,
      "step": 200
    },
    {
      "entropy": 7.984146022796631,
      "epoch": 0.017223272421760135,
      "grad_norm": 1.65625,
      "learning_rate": 0.000102,
      "loss": 7.3473,
      "mean_token_accuracy": 0.07624267861247062,
      "num_tokens": 381575.0,
      "step": 205
    },
    {
      "entropy": 7.912975454330445,
      "epoch": 0.017643352236925015,
      "grad_norm": 1.171875,
      "learning_rate": 0.00010449999999999999,
      "loss": 7.4236,
      "mean_token_accuracy": 0.0766436841338873,
      "num_tokens": 390706.0,
      "step": 210
    },
    {
      "entropy": 7.888600492477417,
      "epoch": 0.018063432052089896,
      "grad_norm": 1.34375,
      "learning_rate": 0.000107,
      "loss": 7.4209,
      "mean_token_accuracy": 0.0734835498034954,
      "num_tokens": 400000.0,
      "step": 215
    },
    {
      "entropy": 7.803367996215821,
      "epoch": 0.01848351186725478,
      "grad_norm": 1.28125,
      "learning_rate": 0.0001095,
      "loss": 7.3774,
      "mean_token_accuracy": 0.08182684779167175,
      "num_tokens": 409447.0,
      "step": 220
    },
    {
      "entropy": 7.875886058807373,
      "epoch": 0.01890359168241966,
      "grad_norm": 1.4921875,
      "learning_rate": 0.000112,
      "loss": 7.3393,
      "mean_token_accuracy": 0.08449244052171707,
      "num_tokens": 418417.0,
      "step": 225
    },
    {
      "entropy": 7.78724856376648,
      "epoch": 0.01932367149758454,
      "grad_norm": 1.359375,
      "learning_rate": 0.0001145,
      "loss": 7.3048,
      "mean_token_accuracy": 0.08006256446242332,
      "num_tokens": 427619.0,
      "step": 230
    },
    {
      "entropy": 7.736767053604126,
      "epoch": 0.019743751312749424,
      "grad_norm": 1.421875,
      "learning_rate": 0.00011700000000000001,
      "loss": 7.372,
      "mean_token_accuracy": 0.07579129710793495,
      "num_tokens": 437931.0,
      "step": 235
    },
    {
      "entropy": 7.841858673095703,
      "epoch": 0.020163831127914304,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00011949999999999999,
      "loss": 7.4001,
      "mean_token_accuracy": 0.08351109325885772,
      "num_tokens": 447595.0,
      "step": 240
    },
    {
      "entropy": 7.7983135223388675,
      "epoch": 0.020583910943079185,
      "grad_norm": 1.2890625,
      "learning_rate": 0.000122,
      "loss": 7.2633,
      "mean_token_accuracy": 0.07488272562623025,
      "num_tokens": 457062.0,
      "step": 245
    },
    {
      "entropy": 7.813820743560791,
      "epoch": 0.021003990758244065,
      "grad_norm": 1.46875,
      "learning_rate": 0.0001245,
      "loss": 7.3567,
      "mean_token_accuracy": 0.07759504988789559,
      "num_tokens": 466191.0,
      "step": 250
    },
    {
      "entropy": 7.757200431823731,
      "epoch": 0.02142407057340895,
      "grad_norm": 1.484375,
      "learning_rate": 0.000127,
      "loss": 7.3146,
      "mean_token_accuracy": 0.08031945005059242,
      "num_tokens": 475693.0,
      "step": 255
    },
    {
      "entropy": 7.7279805660247805,
      "epoch": 0.02184415038857383,
      "grad_norm": 1.25,
      "learning_rate": 0.0001295,
      "loss": 7.3269,
      "mean_token_accuracy": 0.08141026981174945,
      "num_tokens": 485173.0,
      "step": 260
    },
    {
      "entropy": 7.724671411514282,
      "epoch": 0.02226423020373871,
      "grad_norm": 1.2265625,
      "learning_rate": 0.000132,
      "loss": 7.2369,
      "mean_token_accuracy": 0.083962532132864,
      "num_tokens": 493985.0,
      "step": 265
    },
    {
      "entropy": 7.6601485252380375,
      "epoch": 0.022684310018903593,
      "grad_norm": 1.3125,
      "learning_rate": 0.00013450000000000002,
      "loss": 7.2687,
      "mean_token_accuracy": 0.08190520852804184,
      "num_tokens": 502837.0,
      "step": 270
    },
    {
      "entropy": 7.751116943359375,
      "epoch": 0.023104389834068473,
      "grad_norm": 1.328125,
      "learning_rate": 0.00013700000000000002,
      "loss": 7.2065,
      "mean_token_accuracy": 0.0843705341219902,
      "num_tokens": 511503.0,
      "step": 275
    },
    {
      "entropy": 7.717013120651245,
      "epoch": 0.023524469649233354,
      "grad_norm": 1.28125,
      "learning_rate": 0.0001395,
      "loss": 7.4058,
      "mean_token_accuracy": 0.08034609854221345,
      "num_tokens": 521499.0,
      "step": 280
    },
    {
      "entropy": 7.592406368255615,
      "epoch": 0.023944549464398234,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00014199999999999998,
      "loss": 7.166,
      "mean_token_accuracy": 0.08277052193880081,
      "num_tokens": 530067.0,
      "step": 285
    },
    {
      "entropy": 7.6297852993011475,
      "epoch": 0.024364629279563118,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0001445,
      "loss": 7.1721,
      "mean_token_accuracy": 0.08475914299488067,
      "num_tokens": 538559.0,
      "step": 290
    },
    {
      "entropy": 7.705462646484375,
      "epoch": 0.024784709094728,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000147,
      "loss": 7.3653,
      "mean_token_accuracy": 0.07328721843659877,
      "num_tokens": 547288.0,
      "step": 295
    },
    {
      "entropy": 7.596541261672973,
      "epoch": 0.02520478890989288,
      "grad_norm": 1.203125,
      "learning_rate": 0.0001495,
      "loss": 7.2357,
      "mean_token_accuracy": 0.07816045507788658,
      "num_tokens": 557269.0,
      "step": 300
    },
    {
      "entropy": 7.701767444610596,
      "epoch": 0.025624868725057762,
      "grad_norm": 1.6953125,
      "learning_rate": 0.000152,
      "loss": 7.2628,
      "mean_token_accuracy": 0.07311495915055274,
      "num_tokens": 567280.0,
      "step": 305
    },
    {
      "entropy": 7.602482271194458,
      "epoch": 0.026044948540222643,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00015450000000000001,
      "loss": 7.0908,
      "mean_token_accuracy": 0.08299101889133453,
      "num_tokens": 576609.0,
      "step": 310
    },
    {
      "entropy": 7.399111747741699,
      "epoch": 0.026465028355387523,
      "grad_norm": 1.1875,
      "learning_rate": 0.000157,
      "loss": 7.0032,
      "mean_token_accuracy": 0.09095181971788406,
      "num_tokens": 586053.0,
      "step": 315
    },
    {
      "entropy": 7.507453203201294,
      "epoch": 0.026885108170552403,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0001595,
      "loss": 7.203,
      "mean_token_accuracy": 0.08823259696364402,
      "num_tokens": 594649.0,
      "step": 320
    },
    {
      "entropy": 7.599713850021362,
      "epoch": 0.027305187985717287,
      "grad_norm": 1.34375,
      "learning_rate": 0.000162,
      "loss": 7.1383,
      "mean_token_accuracy": 0.08195743858814239,
      "num_tokens": 603445.0,
      "step": 325
    },
    {
      "entropy": 7.587759685516358,
      "epoch": 0.027725267800882167,
      "grad_norm": 1.3125,
      "learning_rate": 0.00016450000000000001,
      "loss": 7.2543,
      "mean_token_accuracy": 0.07800514288246632,
      "num_tokens": 613611.0,
      "step": 330
    },
    {
      "entropy": 7.745543384552002,
      "epoch": 0.028145347616047048,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00016700000000000002,
      "loss": 7.429,
      "mean_token_accuracy": 0.07839688062667846,
      "num_tokens": 623024.0,
      "step": 335
    },
    {
      "entropy": 7.4431709289550785,
      "epoch": 0.02856542743121193,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00016950000000000003,
      "loss": 7.1028,
      "mean_token_accuracy": 0.08672705665230751,
      "num_tokens": 631624.0,
      "step": 340
    },
    {
      "entropy": 7.574361371994018,
      "epoch": 0.028985507246376812,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00017199999999999998,
      "loss": 7.0557,
      "mean_token_accuracy": 0.08923942148685456,
      "num_tokens": 640473.0,
      "step": 345
    },
    {
      "entropy": 7.541849613189697,
      "epoch": 0.029405587061541692,
      "grad_norm": 1.3125,
      "learning_rate": 0.00017449999999999999,
      "loss": 7.2383,
      "mean_token_accuracy": 0.08173563033342361,
      "num_tokens": 649692.0,
      "step": 350
    },
    {
      "entropy": 7.571516275405884,
      "epoch": 0.029825666876706573,
      "grad_norm": 1.484375,
      "learning_rate": 0.000177,
      "loss": 7.1875,
      "mean_token_accuracy": 0.08110572174191474,
      "num_tokens": 658236.0,
      "step": 355
    },
    {
      "entropy": 7.34685640335083,
      "epoch": 0.030245746691871456,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0001795,
      "loss": 6.9645,
      "mean_token_accuracy": 0.08569629490375519,
      "num_tokens": 667175.0,
      "step": 360
    },
    {
      "entropy": 7.556408214569092,
      "epoch": 0.030665826507036337,
      "grad_norm": 1.3203125,
      "learning_rate": 0.000182,
      "loss": 7.2834,
      "mean_token_accuracy": 0.08148858584463596,
      "num_tokens": 676456.0,
      "step": 365
    },
    {
      "entropy": 7.606632947921753,
      "epoch": 0.031085906322201217,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0001845,
      "loss": 7.2448,
      "mean_token_accuracy": 0.08052070513367653,
      "num_tokens": 686881.0,
      "step": 370
    },
    {
      "entropy": 7.371811389923096,
      "epoch": 0.0315059861373661,
      "grad_norm": 1.125,
      "learning_rate": 0.000187,
      "loss": 7.0307,
      "mean_token_accuracy": 0.08108055517077446,
      "num_tokens": 696045.0,
      "step": 375
    },
    {
      "entropy": 7.382633686065674,
      "epoch": 0.03192606595253098,
      "grad_norm": 1.359375,
      "learning_rate": 0.0001895,
      "loss": 7.003,
      "mean_token_accuracy": 0.09089459106326103,
      "num_tokens": 704729.0,
      "step": 380
    },
    {
      "entropy": 7.353933048248291,
      "epoch": 0.032346145767695865,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000192,
      "loss": 7.0639,
      "mean_token_accuracy": 0.08123919740319252,
      "num_tokens": 714331.0,
      "step": 385
    },
    {
      "entropy": 7.430750465393066,
      "epoch": 0.03276622558286074,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0001945,
      "loss": 7.0163,
      "mean_token_accuracy": 0.08898987770080566,
      "num_tokens": 722788.0,
      "step": 390
    },
    {
      "entropy": 7.388132476806641,
      "epoch": 0.033186305398025626,
      "grad_norm": 1.28125,
      "learning_rate": 0.00019700000000000002,
      "loss": 7.0996,
      "mean_token_accuracy": 0.0889863982796669,
      "num_tokens": 731417.0,
      "step": 395
    },
    {
      "entropy": 7.394377708435059,
      "epoch": 0.03360638521319051,
      "grad_norm": 1.15625,
      "learning_rate": 0.00019950000000000002,
      "loss": 7.0686,
      "mean_token_accuracy": 0.0865507885813713,
      "num_tokens": 741034.0,
      "step": 400
    },
    {
      "entropy": 7.370957660675049,
      "epoch": 0.034026465028355386,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000202,
      "loss": 7.063,
      "mean_token_accuracy": 0.08408316597342491,
      "num_tokens": 749596.0,
      "step": 405
    },
    {
      "entropy": 7.360737991333008,
      "epoch": 0.03444654484352027,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00020449999999999998,
      "loss": 7.0166,
      "mean_token_accuracy": 0.08443826884031295,
      "num_tokens": 758931.0,
      "step": 410
    },
    {
      "entropy": 7.253893661499023,
      "epoch": 0.03486662465868515,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000207,
      "loss": 6.9221,
      "mean_token_accuracy": 0.08874604031443596,
      "num_tokens": 767534.0,
      "step": 415
    },
    {
      "entropy": 7.336139726638794,
      "epoch": 0.03528670447385003,
      "grad_norm": 1.28125,
      "learning_rate": 0.0002095,
      "loss": 6.9742,
      "mean_token_accuracy": 0.08901742175221443,
      "num_tokens": 776456.0,
      "step": 420
    },
    {
      "entropy": 7.32063570022583,
      "epoch": 0.035706784289014915,
      "grad_norm": 1.21875,
      "learning_rate": 0.000212,
      "loss": 7.0512,
      "mean_token_accuracy": 0.0825334556400776,
      "num_tokens": 786172.0,
      "step": 425
    },
    {
      "entropy": 7.2836973667144775,
      "epoch": 0.03612686410417979,
      "grad_norm": 1.328125,
      "learning_rate": 0.0002145,
      "loss": 6.9281,
      "mean_token_accuracy": 0.09393875077366828,
      "num_tokens": 795081.0,
      "step": 430
    },
    {
      "entropy": 7.279390621185303,
      "epoch": 0.036546943919344675,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00021700000000000002,
      "loss": 6.9729,
      "mean_token_accuracy": 0.08336275964975357,
      "num_tokens": 804259.0,
      "step": 435
    },
    {
      "entropy": 7.3233130931854244,
      "epoch": 0.03696702373450956,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0002195,
      "loss": 6.9836,
      "mean_token_accuracy": 0.08346287980675697,
      "num_tokens": 813463.0,
      "step": 440
    },
    {
      "entropy": 7.265643119812012,
      "epoch": 0.037387103549674436,
      "grad_norm": 1.3125,
      "learning_rate": 0.000222,
      "loss": 6.915,
      "mean_token_accuracy": 0.09436434507369995,
      "num_tokens": 823029.0,
      "step": 445
    },
    {
      "entropy": 7.2830162525177,
      "epoch": 0.03780718336483932,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0002245,
      "loss": 6.9822,
      "mean_token_accuracy": 0.08020757511258125,
      "num_tokens": 832902.0,
      "step": 450
    },
    {
      "entropy": 7.172808027267456,
      "epoch": 0.0382272631800042,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00022700000000000002,
      "loss": 6.9269,
      "mean_token_accuracy": 0.08937018439173698,
      "num_tokens": 842162.0,
      "step": 455
    },
    {
      "entropy": 7.261403322219849,
      "epoch": 0.03864734299516908,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00022950000000000002,
      "loss": 6.9709,
      "mean_token_accuracy": 0.09120814129710197,
      "num_tokens": 852328.0,
      "step": 460
    },
    {
      "entropy": 7.207744789123535,
      "epoch": 0.039067422810333964,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00023200000000000003,
      "loss": 6.9283,
      "mean_token_accuracy": 0.08966456726193428,
      "num_tokens": 860929.0,
      "step": 465
    },
    {
      "entropy": 7.253277540206909,
      "epoch": 0.03948750262549885,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00023449999999999998,
      "loss": 7.0043,
      "mean_token_accuracy": 0.0854820430278778,
      "num_tokens": 869144.0,
      "step": 470
    },
    {
      "entropy": 7.303921031951904,
      "epoch": 0.039907582440663725,
      "grad_norm": 1.3671875,
      "learning_rate": 0.000237,
      "loss": 6.9451,
      "mean_token_accuracy": 0.09673570543527603,
      "num_tokens": 877447.0,
      "step": 475
    },
    {
      "entropy": 7.20126519203186,
      "epoch": 0.04032766225582861,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0002395,
      "loss": 6.9017,
      "mean_token_accuracy": 0.08463463708758354,
      "num_tokens": 887020.0,
      "step": 480
    },
    {
      "entropy": 7.1618622779846195,
      "epoch": 0.040747742070993485,
      "grad_norm": 1.3515625,
      "learning_rate": 0.000242,
      "loss": 6.9503,
      "mean_token_accuracy": 0.08903224021196365,
      "num_tokens": 895937.0,
      "step": 485
    },
    {
      "entropy": 7.172050189971924,
      "epoch": 0.04116782188615837,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0002445,
      "loss": 6.9573,
      "mean_token_accuracy": 0.08436014279723167,
      "num_tokens": 905446.0,
      "step": 490
    },
    {
      "entropy": 7.1261190414428714,
      "epoch": 0.04158790170132325,
      "grad_norm": 1.3046875,
      "learning_rate": 0.000247,
      "loss": 6.8507,
      "mean_token_accuracy": 0.09782563373446465,
      "num_tokens": 914547.0,
      "step": 495
    },
    {
      "entropy": 7.219514274597168,
      "epoch": 0.04200798151648813,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0002495,
      "loss": 6.8597,
      "mean_token_accuracy": 0.09429225027561187,
      "num_tokens": 922900.0,
      "step": 500
    },
    {
      "entropy": 7.174054384231567,
      "epoch": 0.042428061331653014,
      "grad_norm": 1.296875,
      "learning_rate": 0.000252,
      "loss": 6.9026,
      "mean_token_accuracy": 0.09461246877908706,
      "num_tokens": 930876.0,
      "step": 505
    },
    {
      "entropy": 7.149679851531983,
      "epoch": 0.0428481411468179,
      "grad_norm": 1.234375,
      "learning_rate": 0.0002545,
      "loss": 6.9327,
      "mean_token_accuracy": 0.09384474828839302,
      "num_tokens": 939871.0,
      "step": 510
    },
    {
      "entropy": 7.1536510467529295,
      "epoch": 0.043268220961982774,
      "grad_norm": 1.3203125,
      "learning_rate": 0.000257,
      "loss": 6.9204,
      "mean_token_accuracy": 0.08957441225647926,
      "num_tokens": 948673.0,
      "step": 515
    },
    {
      "entropy": 7.07887830734253,
      "epoch": 0.04368830077714766,
      "grad_norm": 1.1875,
      "learning_rate": 0.0002595,
      "loss": 6.8686,
      "mean_token_accuracy": 0.08727961704134941,
      "num_tokens": 957603.0,
      "step": 520
    },
    {
      "entropy": 7.11884388923645,
      "epoch": 0.04410838059231254,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000262,
      "loss": 6.9378,
      "mean_token_accuracy": 0.08589621968567371,
      "num_tokens": 967731.0,
      "step": 525
    },
    {
      "entropy": 7.1688611030578615,
      "epoch": 0.04452846040747742,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00026450000000000003,
      "loss": 6.9387,
      "mean_token_accuracy": 0.09485394582152366,
      "num_tokens": 977427.0,
      "step": 530
    },
    {
      "entropy": 7.146421909332275,
      "epoch": 0.0449485402226423,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00026700000000000004,
      "loss": 6.9243,
      "mean_token_accuracy": 0.08625848963856697,
      "num_tokens": 986758.0,
      "step": 535
    },
    {
      "entropy": 7.25874433517456,
      "epoch": 0.045368620037807186,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00026950000000000005,
      "loss": 6.92,
      "mean_token_accuracy": 0.09832347258925438,
      "num_tokens": 996377.0,
      "step": 540
    },
    {
      "entropy": 7.057836389541626,
      "epoch": 0.04578869985297206,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00027200000000000005,
      "loss": 6.9742,
      "mean_token_accuracy": 0.08528567403554917,
      "num_tokens": 1006483.0,
      "step": 545
    },
    {
      "entropy": 6.995539855957031,
      "epoch": 0.04620877966813695,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0002745,
      "loss": 6.8574,
      "mean_token_accuracy": 0.08858747258782387,
      "num_tokens": 1016132.0,
      "step": 550
    },
    {
      "entropy": 7.106180238723755,
      "epoch": 0.04662885948330183,
      "grad_norm": 1.109375,
      "learning_rate": 0.000277,
      "loss": 6.7984,
      "mean_token_accuracy": 0.09407598823308945,
      "num_tokens": 1024970.0,
      "step": 555
    },
    {
      "entropy": 7.142482328414917,
      "epoch": 0.04704893929846671,
      "grad_norm": 1.0625,
      "learning_rate": 0.0002795,
      "loss": 6.8936,
      "mean_token_accuracy": 0.08978619575500488,
      "num_tokens": 1034335.0,
      "step": 560
    },
    {
      "entropy": 7.139913558959961,
      "epoch": 0.04746901911363159,
      "grad_norm": 1.15625,
      "learning_rate": 0.00028199999999999997,
      "loss": 6.9495,
      "mean_token_accuracy": 0.0973325490951538,
      "num_tokens": 1043954.0,
      "step": 565
    },
    {
      "entropy": 7.08342981338501,
      "epoch": 0.04788909892879647,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0002845,
      "loss": 6.8806,
      "mean_token_accuracy": 0.09276892617344856,
      "num_tokens": 1053554.0,
      "step": 570
    },
    {
      "entropy": 7.0591119766235355,
      "epoch": 0.04830917874396135,
      "grad_norm": 1.203125,
      "learning_rate": 0.000287,
      "loss": 6.8354,
      "mean_token_accuracy": 0.09314879402518272,
      "num_tokens": 1062008.0,
      "step": 575
    },
    {
      "entropy": 7.029165410995484,
      "epoch": 0.048729258559126236,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0002895,
      "loss": 6.9074,
      "mean_token_accuracy": 0.09056607261300087,
      "num_tokens": 1070740.0,
      "step": 580
    },
    {
      "entropy": 7.027670526504517,
      "epoch": 0.04914933837429111,
      "grad_norm": 1.2890625,
      "learning_rate": 0.000292,
      "loss": 6.8895,
      "mean_token_accuracy": 0.09351922869682312,
      "num_tokens": 1079681.0,
      "step": 585
    },
    {
      "entropy": 7.076567363739014,
      "epoch": 0.049569418189456,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0002945,
      "loss": 6.7669,
      "mean_token_accuracy": 0.0963557355105877,
      "num_tokens": 1088979.0,
      "step": 590
    },
    {
      "entropy": 6.955168056488037,
      "epoch": 0.04998949800462088,
      "grad_norm": 1.2578125,
      "learning_rate": 0.000297,
      "loss": 6.7794,
      "mean_token_accuracy": 0.09716788977384568,
      "num_tokens": 1097870.0,
      "step": 595
    },
    {
      "entropy": 7.0498795986175535,
      "epoch": 0.05040957781978576,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0002995,
      "loss": 6.8985,
      "mean_token_accuracy": 0.08934849128127098,
      "num_tokens": 1107948.0,
      "step": 600
    },
    {
      "entropy": 7.038954401016236,
      "epoch": 0.05082965763495064,
      "grad_norm": 1.1875,
      "learning_rate": 0.000302,
      "loss": 6.8034,
      "mean_token_accuracy": 0.09711324200034141,
      "num_tokens": 1117032.0,
      "step": 605
    },
    {
      "entropy": 7.016556072235107,
      "epoch": 0.051249737450115525,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003045,
      "loss": 6.7736,
      "mean_token_accuracy": 0.10140406414866447,
      "num_tokens": 1127834.0,
      "step": 610
    },
    {
      "entropy": 7.053543567657471,
      "epoch": 0.0516698172652804,
      "grad_norm": 1.328125,
      "learning_rate": 0.000307,
      "loss": 6.8664,
      "mean_token_accuracy": 0.10583841800689697,
      "num_tokens": 1137382.0,
      "step": 615
    },
    {
      "entropy": 6.960672283172608,
      "epoch": 0.052089897080445285,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003095,
      "loss": 6.7295,
      "mean_token_accuracy": 0.09906250685453415,
      "num_tokens": 1146095.0,
      "step": 620
    },
    {
      "entropy": 6.916978216171264,
      "epoch": 0.05250997689561017,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000312,
      "loss": 6.7648,
      "mean_token_accuracy": 0.1004838652908802,
      "num_tokens": 1154981.0,
      "step": 625
    },
    {
      "entropy": 6.948708629608154,
      "epoch": 0.052930056710775046,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0003145,
      "loss": 6.7765,
      "mean_token_accuracy": 0.10312124192714692,
      "num_tokens": 1164939.0,
      "step": 630
    },
    {
      "entropy": 7.024917793273926,
      "epoch": 0.05335013652593993,
      "grad_norm": 1.2265625,
      "learning_rate": 0.000317,
      "loss": 6.8939,
      "mean_token_accuracy": 0.09090543612837791,
      "num_tokens": 1174991.0,
      "step": 635
    },
    {
      "entropy": 7.0208131790161135,
      "epoch": 0.05377021634110481,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003195,
      "loss": 6.9459,
      "mean_token_accuracy": 0.08811391443014145,
      "num_tokens": 1184885.0,
      "step": 640
    },
    {
      "entropy": 6.984617424011231,
      "epoch": 0.05419029615626969,
      "grad_norm": 1.265625,
      "learning_rate": 0.000322,
      "loss": 6.8348,
      "mean_token_accuracy": 0.09274234399199485,
      "num_tokens": 1193637.0,
      "step": 645
    },
    {
      "entropy": 6.901879405975341,
      "epoch": 0.054610375971434574,
      "grad_norm": 1.203125,
      "learning_rate": 0.00032450000000000003,
      "loss": 6.6237,
      "mean_token_accuracy": 0.10028594210743905,
      "num_tokens": 1202188.0,
      "step": 650
    },
    {
      "entropy": 6.964693355560303,
      "epoch": 0.05503045578659945,
      "grad_norm": 1.25,
      "learning_rate": 0.00032700000000000003,
      "loss": 6.7513,
      "mean_token_accuracy": 0.09297072812914849,
      "num_tokens": 1210768.0,
      "step": 655
    },
    {
      "entropy": 6.921257066726684,
      "epoch": 0.055450535601764335,
      "grad_norm": 1.296875,
      "learning_rate": 0.00032950000000000004,
      "loss": 6.7581,
      "mean_token_accuracy": 0.09513410851359368,
      "num_tokens": 1219819.0,
      "step": 660
    },
    {
      "entropy": 6.969961500167846,
      "epoch": 0.05587061541692922,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00033200000000000005,
      "loss": 6.8151,
      "mean_token_accuracy": 0.08720013573765754,
      "num_tokens": 1229703.0,
      "step": 665
    },
    {
      "entropy": 7.008356428146362,
      "epoch": 0.056290695232094096,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00033450000000000005,
      "loss": 6.8385,
      "mean_token_accuracy": 0.09394309446215629,
      "num_tokens": 1238942.0,
      "step": 670
    },
    {
      "entropy": 7.041683959960937,
      "epoch": 0.05671077504725898,
      "grad_norm": 1.0625,
      "learning_rate": 0.000337,
      "loss": 6.8901,
      "mean_token_accuracy": 0.0907767005264759,
      "num_tokens": 1248943.0,
      "step": 675
    },
    {
      "entropy": 6.869440269470215,
      "epoch": 0.05713085486242386,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003395,
      "loss": 6.7728,
      "mean_token_accuracy": 0.09719423428177834,
      "num_tokens": 1257761.0,
      "step": 680
    },
    {
      "entropy": 6.80675859451294,
      "epoch": 0.05755093467758874,
      "grad_norm": 1.21875,
      "learning_rate": 0.000342,
      "loss": 6.722,
      "mean_token_accuracy": 0.09433782026171685,
      "num_tokens": 1267216.0,
      "step": 685
    },
    {
      "entropy": 6.962690448760986,
      "epoch": 0.057971014492753624,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00034449999999999997,
      "loss": 6.8182,
      "mean_token_accuracy": 0.09524153247475624,
      "num_tokens": 1277210.0,
      "step": 690
    },
    {
      "entropy": 6.910012054443359,
      "epoch": 0.05839109430791851,
      "grad_norm": 1.15625,
      "learning_rate": 0.000347,
      "loss": 6.7268,
      "mean_token_accuracy": 0.09480128362774849,
      "num_tokens": 1285310.0,
      "step": 695
    },
    {
      "entropy": 6.9359142780303955,
      "epoch": 0.058811174123083385,
      "grad_norm": 1.21875,
      "learning_rate": 0.0003495,
      "loss": 6.7418,
      "mean_token_accuracy": 0.09830545634031296,
      "num_tokens": 1294421.0,
      "step": 700
    },
    {
      "entropy": 6.773298215866089,
      "epoch": 0.05923125393824827,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000352,
      "loss": 6.5648,
      "mean_token_accuracy": 0.10509093776345253,
      "num_tokens": 1303281.0,
      "step": 705
    },
    {
      "entropy": 6.848818397521972,
      "epoch": 0.059651333753413145,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003545,
      "loss": 6.7413,
      "mean_token_accuracy": 0.10247144997119903,
      "num_tokens": 1312280.0,
      "step": 710
    },
    {
      "entropy": 6.792526483535767,
      "epoch": 0.06007141356857803,
      "grad_norm": 1.09375,
      "learning_rate": 0.000357,
      "loss": 6.703,
      "mean_token_accuracy": 0.09476525709033012,
      "num_tokens": 1321243.0,
      "step": 715
    },
    {
      "entropy": 6.8667539119720455,
      "epoch": 0.06049149338374291,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003595,
      "loss": 6.8092,
      "mean_token_accuracy": 0.10024766996502876,
      "num_tokens": 1330324.0,
      "step": 720
    },
    {
      "entropy": 6.874475002288818,
      "epoch": 0.06091157319890779,
      "grad_norm": 1.2265625,
      "learning_rate": 0.000362,
      "loss": 6.6476,
      "mean_token_accuracy": 0.10230677276849746,
      "num_tokens": 1339485.0,
      "step": 725
    },
    {
      "entropy": 6.930787801742554,
      "epoch": 0.06133165301407267,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003645,
      "loss": 6.8065,
      "mean_token_accuracy": 0.09302590638399125,
      "num_tokens": 1348640.0,
      "step": 730
    },
    {
      "entropy": 6.799437236785889,
      "epoch": 0.06175173282923756,
      "grad_norm": 1.21875,
      "learning_rate": 0.000367,
      "loss": 6.6978,
      "mean_token_accuracy": 0.09949951842427254,
      "num_tokens": 1357581.0,
      "step": 735
    },
    {
      "entropy": 6.888378238677978,
      "epoch": 0.062171812644402434,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003695,
      "loss": 6.7652,
      "mean_token_accuracy": 0.09876005351543427,
      "num_tokens": 1367883.0,
      "step": 740
    },
    {
      "entropy": 6.812366771697998,
      "epoch": 0.06259189245956731,
      "grad_norm": 1.15625,
      "learning_rate": 0.000372,
      "loss": 6.7175,
      "mean_token_accuracy": 0.09678780436515808,
      "num_tokens": 1376936.0,
      "step": 745
    },
    {
      "entropy": 6.708990812301636,
      "epoch": 0.0630119722747322,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003745,
      "loss": 6.6402,
      "mean_token_accuracy": 0.09989499375224113,
      "num_tokens": 1386359.0,
      "step": 750
    },
    {
      "entropy": 6.86722469329834,
      "epoch": 0.06343205208989708,
      "grad_norm": 1.125,
      "learning_rate": 0.000377,
      "loss": 6.6965,
      "mean_token_accuracy": 0.10066593587398528,
      "num_tokens": 1395223.0,
      "step": 755
    },
    {
      "entropy": 6.944450616836548,
      "epoch": 0.06385213190506196,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003795,
      "loss": 6.847,
      "mean_token_accuracy": 0.09334802627563477,
      "num_tokens": 1404917.0,
      "step": 760
    },
    {
      "entropy": 6.823553276062012,
      "epoch": 0.06427221172022685,
      "grad_norm": 1.2578125,
      "learning_rate": 0.000382,
      "loss": 6.7474,
      "mean_token_accuracy": 0.10658529698848725,
      "num_tokens": 1413348.0,
      "step": 765
    },
    {
      "entropy": 6.7500804424285885,
      "epoch": 0.06469229153539173,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003845,
      "loss": 6.7193,
      "mean_token_accuracy": 0.09804128184914589,
      "num_tokens": 1421726.0,
      "step": 770
    },
    {
      "entropy": 6.822430419921875,
      "epoch": 0.0651123713505566,
      "grad_norm": 1.109375,
      "learning_rate": 0.00038700000000000003,
      "loss": 6.7314,
      "mean_token_accuracy": 0.09830505326390267,
      "num_tokens": 1430686.0,
      "step": 775
    },
    {
      "entropy": 6.889693403244019,
      "epoch": 0.06553245116572148,
      "grad_norm": 1.109375,
      "learning_rate": 0.00038950000000000003,
      "loss": 6.7193,
      "mean_token_accuracy": 0.1001870684325695,
      "num_tokens": 1439499.0,
      "step": 780
    },
    {
      "entropy": 6.836849641799927,
      "epoch": 0.06595253098088637,
      "grad_norm": 1.328125,
      "learning_rate": 0.00039200000000000004,
      "loss": 6.7144,
      "mean_token_accuracy": 0.10016432479023933,
      "num_tokens": 1448220.0,
      "step": 785
    },
    {
      "entropy": 6.703166866302491,
      "epoch": 0.06637261079605125,
      "grad_norm": 1.0,
      "learning_rate": 0.00039450000000000005,
      "loss": 6.7252,
      "mean_token_accuracy": 0.09049011170864105,
      "num_tokens": 1458217.0,
      "step": 790
    },
    {
      "entropy": 6.805354738235474,
      "epoch": 0.06679269061121614,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00039700000000000005,
      "loss": 6.6229,
      "mean_token_accuracy": 0.0928824745118618,
      "num_tokens": 1467422.0,
      "step": 795
    },
    {
      "entropy": 6.788901376724243,
      "epoch": 0.06721277042638102,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003995,
      "loss": 6.6204,
      "mean_token_accuracy": 0.10320913046598434,
      "num_tokens": 1476152.0,
      "step": 800
    },
    {
      "entropy": 6.731419372558594,
      "epoch": 0.06763285024154589,
      "grad_norm": 1.15625,
      "learning_rate": 0.000402,
      "loss": 6.7128,
      "mean_token_accuracy": 0.09539571255445481,
      "num_tokens": 1485248.0,
      "step": 805
    },
    {
      "entropy": 6.7255181789398195,
      "epoch": 0.06805293005671077,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004045,
      "loss": 6.6711,
      "mean_token_accuracy": 0.09965705946087837,
      "num_tokens": 1494248.0,
      "step": 810
    },
    {
      "entropy": 6.825131368637085,
      "epoch": 0.06847300987187566,
      "grad_norm": 1.265625,
      "learning_rate": 0.00040699999999999997,
      "loss": 6.785,
      "mean_token_accuracy": 0.09547284319996834,
      "num_tokens": 1503565.0,
      "step": 815
    },
    {
      "entropy": 6.932170867919922,
      "epoch": 0.06889308968704054,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004095,
      "loss": 6.8605,
      "mean_token_accuracy": 0.09502148702740669,
      "num_tokens": 1513227.0,
      "step": 820
    },
    {
      "entropy": 6.8283134460449215,
      "epoch": 0.06931316950220542,
      "grad_norm": 1.2109375,
      "learning_rate": 0.000412,
      "loss": 6.6616,
      "mean_token_accuracy": 0.1039304107427597,
      "num_tokens": 1522312.0,
      "step": 825
    },
    {
      "entropy": 6.6956737518310545,
      "epoch": 0.0697332493173703,
      "grad_norm": 1.125,
      "learning_rate": 0.0004145,
      "loss": 6.5989,
      "mean_token_accuracy": 0.10552669763565063,
      "num_tokens": 1531720.0,
      "step": 830
    },
    {
      "entropy": 6.70291919708252,
      "epoch": 0.07015332913253518,
      "grad_norm": 1.140625,
      "learning_rate": 0.000417,
      "loss": 6.7026,
      "mean_token_accuracy": 0.09495449438691139,
      "num_tokens": 1541238.0,
      "step": 835
    },
    {
      "entropy": 6.867031812667847,
      "epoch": 0.07057340894770006,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004195,
      "loss": 6.7955,
      "mean_token_accuracy": 0.09560235142707825,
      "num_tokens": 1550875.0,
      "step": 840
    },
    {
      "entropy": 6.679243516921997,
      "epoch": 0.07099348876286495,
      "grad_norm": 1.046875,
      "learning_rate": 0.000422,
      "loss": 6.7373,
      "mean_token_accuracy": 0.10205229669809342,
      "num_tokens": 1560287.0,
      "step": 845
    },
    {
      "entropy": 6.812178373336792,
      "epoch": 0.07141356857802983,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004245,
      "loss": 6.6139,
      "mean_token_accuracy": 0.10624400898814201,
      "num_tokens": 1569043.0,
      "step": 850
    },
    {
      "entropy": 6.66694450378418,
      "epoch": 0.07183364839319471,
      "grad_norm": 1.0625,
      "learning_rate": 0.000427,
      "loss": 6.6372,
      "mean_token_accuracy": 0.10226837545633316,
      "num_tokens": 1578112.0,
      "step": 855
    },
    {
      "entropy": 6.592900228500366,
      "epoch": 0.07225372820835958,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004295,
      "loss": 6.5542,
      "mean_token_accuracy": 0.10482543483376502,
      "num_tokens": 1586587.0,
      "step": 860
    },
    {
      "entropy": 6.831333017349243,
      "epoch": 0.07267380802352447,
      "grad_norm": 1.125,
      "learning_rate": 0.000432,
      "loss": 6.7191,
      "mean_token_accuracy": 0.0988001950085163,
      "num_tokens": 1595585.0,
      "step": 865
    },
    {
      "entropy": 6.7406104564666744,
      "epoch": 0.07309388783868935,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004345,
      "loss": 6.6715,
      "mean_token_accuracy": 0.1029144361615181,
      "num_tokens": 1605355.0,
      "step": 870
    },
    {
      "entropy": 6.673774909973145,
      "epoch": 0.07351396765385423,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000437,
      "loss": 6.7087,
      "mean_token_accuracy": 0.0972638413310051,
      "num_tokens": 1613637.0,
      "step": 875
    },
    {
      "entropy": 6.780192899703979,
      "epoch": 0.07393404746901912,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004395,
      "loss": 6.6547,
      "mean_token_accuracy": 0.10374342575669289,
      "num_tokens": 1622731.0,
      "step": 880
    },
    {
      "entropy": 6.733386611938476,
      "epoch": 0.074354127284184,
      "grad_norm": 1.09375,
      "learning_rate": 0.000442,
      "loss": 6.6411,
      "mean_token_accuracy": 0.09785914570093154,
      "num_tokens": 1632098.0,
      "step": 885
    },
    {
      "entropy": 6.656809377670288,
      "epoch": 0.07477420709934887,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004445,
      "loss": 6.6333,
      "mean_token_accuracy": 0.09908856153488159,
      "num_tokens": 1641259.0,
      "step": 890
    },
    {
      "entropy": 6.787235689163208,
      "epoch": 0.07519428691451376,
      "grad_norm": 1.2109375,
      "learning_rate": 0.000447,
      "loss": 6.7023,
      "mean_token_accuracy": 0.09753435328602791,
      "num_tokens": 1651362.0,
      "step": 895
    },
    {
      "entropy": 6.644986867904663,
      "epoch": 0.07561436672967864,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00044950000000000003,
      "loss": 6.6169,
      "mean_token_accuracy": 0.09910911172628403,
      "num_tokens": 1660190.0,
      "step": 900
    },
    {
      "entropy": 6.722699403762817,
      "epoch": 0.07603444654484352,
      "grad_norm": 1.234375,
      "learning_rate": 0.00045200000000000004,
      "loss": 6.659,
      "mean_token_accuracy": 0.09519267976284027,
      "num_tokens": 1669020.0,
      "step": 905
    },
    {
      "entropy": 6.747388315200806,
      "epoch": 0.0764545263600084,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00045450000000000004,
      "loss": 6.6775,
      "mean_token_accuracy": 0.10076266825199127,
      "num_tokens": 1678158.0,
      "step": 910
    },
    {
      "entropy": 6.702866649627685,
      "epoch": 0.07687460617517328,
      "grad_norm": 1.15625,
      "learning_rate": 0.00045700000000000005,
      "loss": 6.6868,
      "mean_token_accuracy": 0.09906790256500245,
      "num_tokens": 1687481.0,
      "step": 915
    },
    {
      "entropy": 6.647071504592896,
      "epoch": 0.07729468599033816,
      "grad_norm": 1.125,
      "learning_rate": 0.00045950000000000006,
      "loss": 6.6511,
      "mean_token_accuracy": 0.10402323752641678,
      "num_tokens": 1696782.0,
      "step": 920
    },
    {
      "entropy": 6.6832818508148195,
      "epoch": 0.07771476580550304,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000462,
      "loss": 6.6575,
      "mean_token_accuracy": 0.10666462555527687,
      "num_tokens": 1706153.0,
      "step": 925
    },
    {
      "entropy": 6.698217678070068,
      "epoch": 0.07813484562066793,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004645,
      "loss": 6.6895,
      "mean_token_accuracy": 0.10017500966787338,
      "num_tokens": 1715585.0,
      "step": 930
    },
    {
      "entropy": 6.823991441726685,
      "epoch": 0.07855492543583281,
      "grad_norm": 1.4921875,
      "learning_rate": 0.000467,
      "loss": 6.8005,
      "mean_token_accuracy": 0.09734346494078636,
      "num_tokens": 1724857.0,
      "step": 935
    },
    {
      "entropy": 6.700028705596924,
      "epoch": 0.0789750052509977,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004695,
      "loss": 6.6103,
      "mean_token_accuracy": 0.10624456107616424,
      "num_tokens": 1733528.0,
      "step": 940
    },
    {
      "entropy": 6.742655563354492,
      "epoch": 0.07939508506616257,
      "grad_norm": 0.99609375,
      "learning_rate": 0.000472,
      "loss": 6.7304,
      "mean_token_accuracy": 0.10352228581905365,
      "num_tokens": 1742953.0,
      "step": 945
    },
    {
      "entropy": 6.669600582122802,
      "epoch": 0.07981516488132745,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004745,
      "loss": 6.6746,
      "mean_token_accuracy": 0.10271603912115097,
      "num_tokens": 1752155.0,
      "step": 950
    },
    {
      "entropy": 6.660818243026734,
      "epoch": 0.08023524469649233,
      "grad_norm": 1.234375,
      "learning_rate": 0.000477,
      "loss": 6.5695,
      "mean_token_accuracy": 0.10144439786672592,
      "num_tokens": 1760562.0,
      "step": 955
    },
    {
      "entropy": 6.623502588272094,
      "epoch": 0.08065532451165722,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004795,
      "loss": 6.5902,
      "mean_token_accuracy": 0.1015326887369156,
      "num_tokens": 1769631.0,
      "step": 960
    },
    {
      "entropy": 6.647875261306763,
      "epoch": 0.0810754043268221,
      "grad_norm": 1.265625,
      "learning_rate": 0.000482,
      "loss": 6.624,
      "mean_token_accuracy": 0.10202456414699554,
      "num_tokens": 1779080.0,
      "step": 965
    },
    {
      "entropy": 6.654635858535767,
      "epoch": 0.08149548414198697,
      "grad_norm": 1.375,
      "learning_rate": 0.0004845,
      "loss": 6.6146,
      "mean_token_accuracy": 0.10121759623289109,
      "num_tokens": 1787830.0,
      "step": 970
    },
    {
      "entropy": 6.546731615066529,
      "epoch": 0.08191556395715185,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000487,
      "loss": 6.5331,
      "mean_token_accuracy": 0.10186785906553268,
      "num_tokens": 1796998.0,
      "step": 975
    },
    {
      "entropy": 6.6796527862548825,
      "epoch": 0.08233564377231674,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004895,
      "loss": 6.619,
      "mean_token_accuracy": 0.10591355115175247,
      "num_tokens": 1806194.0,
      "step": 980
    },
    {
      "entropy": 6.40926570892334,
      "epoch": 0.08275572358748162,
      "grad_norm": 1.046875,
      "learning_rate": 0.000492,
      "loss": 6.514,
      "mean_token_accuracy": 0.10517977550625801,
      "num_tokens": 1815751.0,
      "step": 985
    },
    {
      "entropy": 6.57440676689148,
      "epoch": 0.0831758034026465,
      "grad_norm": 1.0,
      "learning_rate": 0.0004945,
      "loss": 6.5942,
      "mean_token_accuracy": 0.10343918055295945,
      "num_tokens": 1825379.0,
      "step": 990
    },
    {
      "entropy": 6.637695789337158,
      "epoch": 0.08359588321781139,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000497,
      "loss": 6.5522,
      "mean_token_accuracy": 0.10346684157848358,
      "num_tokens": 1834158.0,
      "step": 995
    },
    {
      "entropy": 6.537919807434082,
      "epoch": 0.08401596303297626,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004995,
      "loss": 6.5098,
      "mean_token_accuracy": 0.10425886288285255,
      "num_tokens": 1842724.0,
      "step": 1000
    },
    {
      "entropy": 6.62498288154602,
      "epoch": 0.08443604284814114,
      "grad_norm": 1.015625,
      "learning_rate": 0.000499999998724557,
      "loss": 6.5288,
      "mean_token_accuracy": 0.10198150128126145,
      "num_tokens": 1852485.0,
      "step": 1005
    },
    {
      "entropy": 6.57701358795166,
      "epoch": 0.08485612266330603,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004999999935430703,
      "loss": 6.5545,
      "mean_token_accuracy": 0.11041983366012573,
      "num_tokens": 1861303.0,
      "step": 1010
    },
    {
      "entropy": 6.423639154434204,
      "epoch": 0.08527620247847091,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004999999843758243,
      "loss": 6.5428,
      "mean_token_accuracy": 0.11022127270698548,
      "num_tokens": 1870859.0,
      "step": 1015
    },
    {
      "entropy": 6.760848808288574,
      "epoch": 0.0856962822936358,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999999712228196,
      "loss": 6.7105,
      "mean_token_accuracy": 0.09618140533566474,
      "num_tokens": 1880295.0,
      "step": 1020
    },
    {
      "entropy": 6.645368003845215,
      "epoch": 0.08611636210880068,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999999540840562,
      "loss": 6.6079,
      "mean_token_accuracy": 0.1056639552116394,
      "num_tokens": 1889193.0,
      "step": 1025
    },
    {
      "entropy": 6.568785905838013,
      "epoch": 0.08653644192396555,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999999329595345,
      "loss": 6.7096,
      "mean_token_accuracy": 0.09398577436804771,
      "num_tokens": 1899437.0,
      "step": 1030
    },
    {
      "entropy": 6.708119821548462,
      "epoch": 0.08695652173913043,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999999078492548,
      "loss": 6.5939,
      "mean_token_accuracy": 0.1046712227165699,
      "num_tokens": 1907882.0,
      "step": 1035
    },
    {
      "entropy": 6.493611288070679,
      "epoch": 0.08737660155429532,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004999998787532176,
      "loss": 6.5021,
      "mean_token_accuracy": 0.10290396809577942,
      "num_tokens": 1916872.0,
      "step": 1040
    },
    {
      "entropy": 6.608988046646118,
      "epoch": 0.0877966813694602,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999998456714234,
      "loss": 6.675,
      "mean_token_accuracy": 0.10352342054247857,
      "num_tokens": 1926636.0,
      "step": 1045
    },
    {
      "entropy": 6.586896228790283,
      "epoch": 0.08821676118462508,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004999998086038729,
      "loss": 6.5742,
      "mean_token_accuracy": 0.10714709535241126,
      "num_tokens": 1935962.0,
      "step": 1050
    },
    {
      "entropy": 6.579021549224853,
      "epoch": 0.08863684099978995,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999997675505665,
      "loss": 6.5514,
      "mean_token_accuracy": 0.10487730801105499,
      "num_tokens": 1944600.0,
      "step": 1055
    },
    {
      "entropy": 6.625632095336914,
      "epoch": 0.08905692081495484,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004999997225115052,
      "loss": 6.7269,
      "mean_token_accuracy": 0.10071012005209923,
      "num_tokens": 1954234.0,
      "step": 1060
    },
    {
      "entropy": 6.7796577453613285,
      "epoch": 0.08947700063011972,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004999996734866896,
      "loss": 6.683,
      "mean_token_accuracy": 0.09888390973210334,
      "num_tokens": 1964499.0,
      "step": 1065
    },
    {
      "entropy": 6.377533006668091,
      "epoch": 0.0898970804452846,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004999996204761206,
      "loss": 6.3832,
      "mean_token_accuracy": 0.11216704472899437,
      "num_tokens": 1973635.0,
      "step": 1070
    },
    {
      "entropy": 6.54502387046814,
      "epoch": 0.09031716026044949,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004999995634797993,
      "loss": 6.5308,
      "mean_token_accuracy": 0.11021102443337441,
      "num_tokens": 1983509.0,
      "step": 1075
    },
    {
      "entropy": 6.567485332489014,
      "epoch": 0.09073724007561437,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004999995024977265,
      "loss": 6.5197,
      "mean_token_accuracy": 0.11247633025050163,
      "num_tokens": 1992336.0,
      "step": 1080
    },
    {
      "entropy": 6.545616102218628,
      "epoch": 0.09115731989077924,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999994375299034,
      "loss": 6.5532,
      "mean_token_accuracy": 0.10819393768906593,
      "num_tokens": 2001931.0,
      "step": 1085
    },
    {
      "entropy": 6.484406518936157,
      "epoch": 0.09157739970594413,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000499999368576331,
      "loss": 6.4218,
      "mean_token_accuracy": 0.11132358983159066,
      "num_tokens": 2010935.0,
      "step": 1090
    },
    {
      "entropy": 6.49219536781311,
      "epoch": 0.09199747952110901,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004999992956370109,
      "loss": 6.4842,
      "mean_token_accuracy": 0.10731736794114113,
      "num_tokens": 2020587.0,
      "step": 1095
    },
    {
      "entropy": 6.410812473297119,
      "epoch": 0.0924175593362739,
      "grad_norm": 1.0703125,
      "learning_rate": 0.000499999218711944,
      "loss": 6.5089,
      "mean_token_accuracy": 0.11067400127649307,
      "num_tokens": 2029743.0,
      "step": 1100
    },
    {
      "entropy": 6.581059837341309,
      "epoch": 0.09283763915143878,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004999991378011317,
      "loss": 6.5257,
      "mean_token_accuracy": 0.10916591510176658,
      "num_tokens": 2038468.0,
      "step": 1105
    },
    {
      "entropy": 6.456353855133057,
      "epoch": 0.09325771896660366,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999990529045757,
      "loss": 6.4482,
      "mean_token_accuracy": 0.10893432199954986,
      "num_tokens": 2047456.0,
      "step": 1110
    },
    {
      "entropy": 6.627411127090454,
      "epoch": 0.09367779878176853,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004999989640222771,
      "loss": 6.7525,
      "mean_token_accuracy": 0.09431043416261672,
      "num_tokens": 2056691.0,
      "step": 1115
    },
    {
      "entropy": 6.684362411499023,
      "epoch": 0.09409787859693342,
      "grad_norm": 1.015625,
      "learning_rate": 0.000499998871154238,
      "loss": 6.5462,
      "mean_token_accuracy": 0.10591837242245675,
      "num_tokens": 2066068.0,
      "step": 1120
    },
    {
      "entropy": 6.578407287597656,
      "epoch": 0.0945179584120983,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999987743004597,
      "loss": 6.4733,
      "mean_token_accuracy": 0.1102992869913578,
      "num_tokens": 2075113.0,
      "step": 1125
    },
    {
      "entropy": 6.506056404113769,
      "epoch": 0.09493803822726318,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004999986734609438,
      "loss": 6.6105,
      "mean_token_accuracy": 0.10494827926158905,
      "num_tokens": 2084557.0,
      "step": 1130
    },
    {
      "entropy": 6.6157310009002686,
      "epoch": 0.09535811804242807,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004999985686356923,
      "loss": 6.5139,
      "mean_token_accuracy": 0.1062320664525032,
      "num_tokens": 2093424.0,
      "step": 1135
    },
    {
      "entropy": 6.539625740051269,
      "epoch": 0.09577819785759294,
      "grad_norm": 1.078125,
      "learning_rate": 0.000499998459824707,
      "loss": 6.6346,
      "mean_token_accuracy": 0.10304314494132996,
      "num_tokens": 2103066.0,
      "step": 1140
    },
    {
      "entropy": 6.53157410621643,
      "epoch": 0.09619827767275782,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00049999834702799,
      "loss": 6.5013,
      "mean_token_accuracy": 0.10883507803082466,
      "num_tokens": 2112447.0,
      "step": 1145
    },
    {
      "entropy": 6.507535743713379,
      "epoch": 0.0966183574879227,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999982302455431,
      "loss": 6.5269,
      "mean_token_accuracy": 0.11191204637289047,
      "num_tokens": 2121949.0,
      "step": 1150
    },
    {
      "entropy": 6.507864904403687,
      "epoch": 0.09703843730308759,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999981094773683,
      "loss": 6.4328,
      "mean_token_accuracy": 0.11216317638754844,
      "num_tokens": 2130464.0,
      "step": 1155
    },
    {
      "entropy": 6.520567464828491,
      "epoch": 0.09745851711825247,
      "grad_norm": 1.140625,
      "learning_rate": 0.000499997984723468,
      "loss": 6.5942,
      "mean_token_accuracy": 0.10294081419706344,
      "num_tokens": 2139577.0,
      "step": 1160
    },
    {
      "entropy": 6.288797092437744,
      "epoch": 0.09787859693341736,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004999978559838441,
      "loss": 6.3204,
      "mean_token_accuracy": 0.11208199337124825,
      "num_tokens": 2147919.0,
      "step": 1165
    },
    {
      "entropy": 6.472030353546143,
      "epoch": 0.09829867674858223,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999977232584991,
      "loss": 6.4949,
      "mean_token_accuracy": 0.10832359045743942,
      "num_tokens": 2156936.0,
      "step": 1170
    },
    {
      "entropy": 6.558899450302124,
      "epoch": 0.09871875656374711,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999975865474354,
      "loss": 6.5512,
      "mean_token_accuracy": 0.10766256302595138,
      "num_tokens": 2165362.0,
      "step": 1175
    },
    {
      "entropy": 6.469175338745117,
      "epoch": 0.099138836378912,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004999974458506551,
      "loss": 6.4643,
      "mean_token_accuracy": 0.10836688205599784,
      "num_tokens": 2173665.0,
      "step": 1180
    },
    {
      "entropy": 6.551422071456909,
      "epoch": 0.09955891619407688,
      "grad_norm": 1.15625,
      "learning_rate": 0.000499997301168161,
      "loss": 6.4532,
      "mean_token_accuracy": 0.11138271391391755,
      "num_tokens": 2182222.0,
      "step": 1185
    },
    {
      "entropy": 6.531885147094727,
      "epoch": 0.09997899600924176,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999971524999556,
      "loss": 6.5228,
      "mean_token_accuracy": 0.11111016869544983,
      "num_tokens": 2192358.0,
      "step": 1190
    },
    {
      "entropy": 6.534890985488891,
      "epoch": 0.10039907582440663,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004999969998460414,
      "loss": 6.5355,
      "mean_token_accuracy": 0.10454710125923157,
      "num_tokens": 2201889.0,
      "step": 1195
    },
    {
      "entropy": 6.433488464355468,
      "epoch": 0.10081915563957151,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004999968432064213,
      "loss": 6.5322,
      "mean_token_accuracy": 0.1198379322886467,
      "num_tokens": 2211810.0,
      "step": 1200
    },
    {
      "entropy": 6.474250078201294,
      "epoch": 0.1012392354547364,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0004999966825810979,
      "loss": 6.4684,
      "mean_token_accuracy": 0.10700508952140808,
      "num_tokens": 2221123.0,
      "step": 1205
    },
    {
      "entropy": 6.384520959854126,
      "epoch": 0.10165931526990128,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999965179700742,
      "loss": 6.3986,
      "mean_token_accuracy": 0.11781087368726731,
      "num_tokens": 2230129.0,
      "step": 1210
    },
    {
      "entropy": 6.4176534652709964,
      "epoch": 0.10207939508506617,
      "grad_norm": 1.0078125,
      "learning_rate": 0.000499996349373353,
      "loss": 6.4609,
      "mean_token_accuracy": 0.10817519575357437,
      "num_tokens": 2239929.0,
      "step": 1215
    },
    {
      "entropy": 6.5110820770263675,
      "epoch": 0.10249947490023105,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999961767909374,
      "loss": 6.4372,
      "mean_token_accuracy": 0.1148509480059147,
      "num_tokens": 2248078.0,
      "step": 1220
    },
    {
      "entropy": 6.4125104427337645,
      "epoch": 0.10291955471539592,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004999960002228303,
      "loss": 6.5274,
      "mean_token_accuracy": 0.10999985039234161,
      "num_tokens": 2256975.0,
      "step": 1225
    },
    {
      "entropy": 6.474673461914063,
      "epoch": 0.1033396345305608,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004999958196690349,
      "loss": 6.3849,
      "mean_token_accuracy": 0.11320202201604843,
      "num_tokens": 2265797.0,
      "step": 1230
    },
    {
      "entropy": 6.479385900497436,
      "epoch": 0.10375971434572569,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999956351295545,
      "loss": 6.4946,
      "mean_token_accuracy": 0.11450825035572051,
      "num_tokens": 2274099.0,
      "step": 1235
    },
    {
      "entropy": 6.3540520668029785,
      "epoch": 0.10417979416089057,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999954466043922,
      "loss": 6.3917,
      "mean_token_accuracy": 0.11258968263864517,
      "num_tokens": 2282360.0,
      "step": 1240
    },
    {
      "entropy": 6.481705999374389,
      "epoch": 0.10459987397605545,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004999952540935514,
      "loss": 6.5009,
      "mean_token_accuracy": 0.10285271480679511,
      "num_tokens": 2292714.0,
      "step": 1245
    },
    {
      "entropy": 6.455303287506103,
      "epoch": 0.10501995379122034,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999950575970356,
      "loss": 6.426,
      "mean_token_accuracy": 0.11442826837301254,
      "num_tokens": 2301633.0,
      "step": 1250
    },
    {
      "entropy": 6.465747499465943,
      "epoch": 0.10544003360638521,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999948571148482,
      "loss": 6.4138,
      "mean_token_accuracy": 0.11426257789134979,
      "num_tokens": 2310067.0,
      "step": 1255
    },
    {
      "entropy": 6.466140460968018,
      "epoch": 0.10586011342155009,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004999946526469927,
      "loss": 6.4932,
      "mean_token_accuracy": 0.11244904398918151,
      "num_tokens": 2320090.0,
      "step": 1260
    },
    {
      "entropy": 6.438083505630493,
      "epoch": 0.10628019323671498,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004999944441934728,
      "loss": 6.4509,
      "mean_token_accuracy": 0.11593573912978172,
      "num_tokens": 2329255.0,
      "step": 1265
    },
    {
      "entropy": 6.467304992675781,
      "epoch": 0.10670027305187986,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004999942317542922,
      "loss": 6.5481,
      "mean_token_accuracy": 0.10965899974107743,
      "num_tokens": 2339535.0,
      "step": 1270
    },
    {
      "entropy": 6.434674501419067,
      "epoch": 0.10712035286704474,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999940153294546,
      "loss": 6.4448,
      "mean_token_accuracy": 0.11061845496296882,
      "num_tokens": 2348948.0,
      "step": 1275
    },
    {
      "entropy": 6.447847843170166,
      "epoch": 0.10754043268220961,
      "grad_norm": 1.046875,
      "learning_rate": 0.000499993794918964,
      "loss": 6.4628,
      "mean_token_accuracy": 0.10641181394457817,
      "num_tokens": 2359141.0,
      "step": 1280
    },
    {
      "entropy": 6.401166343688965,
      "epoch": 0.1079605124973745,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004999935705228241,
      "loss": 6.5084,
      "mean_token_accuracy": 0.1094856470823288,
      "num_tokens": 2368906.0,
      "step": 1285
    },
    {
      "entropy": 6.554097080230713,
      "epoch": 0.10838059231253938,
      "grad_norm": 1.125,
      "learning_rate": 0.0004999933421410389,
      "loss": 6.4839,
      "mean_token_accuracy": 0.11065066531300545,
      "num_tokens": 2377029.0,
      "step": 1290
    },
    {
      "entropy": 6.5027672290802006,
      "epoch": 0.10880067212770426,
      "grad_norm": 0.9140625,
      "learning_rate": 0.0004999931097736125,
      "loss": 6.5541,
      "mean_token_accuracy": 0.10604767650365829,
      "num_tokens": 2387088.0,
      "step": 1295
    },
    {
      "entropy": 6.470385646820068,
      "epoch": 0.10922075194286915,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004999928734205492,
      "loss": 6.4468,
      "mean_token_accuracy": 0.11056585833430291,
      "num_tokens": 2395596.0,
      "step": 1300
    },
    {
      "entropy": 6.403819370269775,
      "epoch": 0.10964083175803403,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999926330818528,
      "loss": 6.4393,
      "mean_token_accuracy": 0.11377019882202148,
      "num_tokens": 2404506.0,
      "step": 1305
    },
    {
      "entropy": 6.469174242019653,
      "epoch": 0.1100609115731989,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999923887575278,
      "loss": 6.4777,
      "mean_token_accuracy": 0.11094499379396439,
      "num_tokens": 2414342.0,
      "step": 1310
    },
    {
      "entropy": 6.476234006881714,
      "epoch": 0.11048099138836379,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004999921404475785,
      "loss": 6.4422,
      "mean_token_accuracy": 0.11336205825209618,
      "num_tokens": 2423076.0,
      "step": 1315
    },
    {
      "entropy": 6.415568065643311,
      "epoch": 0.11090107120352867,
      "grad_norm": 0.9453125,
      "learning_rate": 0.0004999918881520093,
      "loss": 6.391,
      "mean_token_accuracy": 0.11621783077716827,
      "num_tokens": 2432492.0,
      "step": 1320
    },
    {
      "entropy": 6.362053871154785,
      "epoch": 0.11132115101869355,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999916318708246,
      "loss": 6.354,
      "mean_token_accuracy": 0.11400164812803268,
      "num_tokens": 2441916.0,
      "step": 1325
    },
    {
      "entropy": 6.406490755081177,
      "epoch": 0.11174123083385844,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004999913716040291,
      "loss": 6.4072,
      "mean_token_accuracy": 0.11762610748410225,
      "num_tokens": 2450932.0,
      "step": 1330
    },
    {
      "entropy": 6.336502504348755,
      "epoch": 0.11216131064902331,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004999911073516272,
      "loss": 6.4319,
      "mean_token_accuracy": 0.11254018545150757,
      "num_tokens": 2460058.0,
      "step": 1335
    },
    {
      "entropy": 6.392711496353149,
      "epoch": 0.11258139046418819,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999908391136237,
      "loss": 6.3569,
      "mean_token_accuracy": 0.11563631743192673,
      "num_tokens": 2469607.0,
      "step": 1340
    },
    {
      "entropy": 6.441662883758545,
      "epoch": 0.11300147027935308,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004999905668900234,
      "loss": 6.4002,
      "mean_token_accuracy": 0.11395884156227112,
      "num_tokens": 2478345.0,
      "step": 1345
    },
    {
      "entropy": 6.438292360305786,
      "epoch": 0.11342155009451796,
      "grad_norm": 1.171875,
      "learning_rate": 0.000499990290680831,
      "loss": 6.3261,
      "mean_token_accuracy": 0.11877992302179337,
      "num_tokens": 2486662.0,
      "step": 1350
    },
    {
      "entropy": 6.379430055618286,
      "epoch": 0.11384162990968284,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999900104860516,
      "loss": 6.472,
      "mean_token_accuracy": 0.11443257331848145,
      "num_tokens": 2495392.0,
      "step": 1355
    },
    {
      "entropy": 6.437303638458252,
      "epoch": 0.11426170972484773,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004999897263056898,
      "loss": 6.4969,
      "mean_token_accuracy": 0.10801200717687606,
      "num_tokens": 2505254.0,
      "step": 1360
    },
    {
      "entropy": 6.457095766067505,
      "epoch": 0.1146817895400126,
      "grad_norm": 1.125,
      "learning_rate": 0.000499989438139751,
      "loss": 6.3155,
      "mean_token_accuracy": 0.11900854557752609,
      "num_tokens": 2514096.0,
      "step": 1365
    },
    {
      "entropy": 6.339952230453491,
      "epoch": 0.11510186935517748,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0004999891459882401,
      "loss": 6.3262,
      "mean_token_accuracy": 0.1178194098174572,
      "num_tokens": 2523635.0,
      "step": 1370
    },
    {
      "entropy": 6.318808507919312,
      "epoch": 0.11552194917034236,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999888498511624,
      "loss": 6.3954,
      "mean_token_accuracy": 0.11501155719161034,
      "num_tokens": 2532528.0,
      "step": 1375
    },
    {
      "entropy": 6.366592121124268,
      "epoch": 0.11594202898550725,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999885497285229,
      "loss": 6.307,
      "mean_token_accuracy": 0.11583952903747559,
      "num_tokens": 2541893.0,
      "step": 1380
    },
    {
      "entropy": 6.354608488082886,
      "epoch": 0.11636210880067213,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999882456203273,
      "loss": 6.3581,
      "mean_token_accuracy": 0.11632645949721336,
      "num_tokens": 2551551.0,
      "step": 1385
    },
    {
      "entropy": 6.349077987670898,
      "epoch": 0.11678218861583702,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004999879375265806,
      "loss": 6.3146,
      "mean_token_accuracy": 0.1158558964729309,
      "num_tokens": 2560183.0,
      "step": 1390
    },
    {
      "entropy": 6.344199848175049,
      "epoch": 0.11720226843100189,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004999876254472886,
      "loss": 6.1959,
      "mean_token_accuracy": 0.12459081262350083,
      "num_tokens": 2568697.0,
      "step": 1395
    },
    {
      "entropy": 6.348653078079224,
      "epoch": 0.11762234824616677,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0004999873093824565,
      "loss": 6.4194,
      "mean_token_accuracy": 0.11410524025559425,
      "num_tokens": 2578151.0,
      "step": 1400
    },
    {
      "entropy": 6.50674262046814,
      "epoch": 0.11804242806133165,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004999869893320902,
      "loss": 6.5289,
      "mean_token_accuracy": 0.1147321492433548,
      "num_tokens": 2585901.0,
      "step": 1405
    },
    {
      "entropy": 6.338491153717041,
      "epoch": 0.11846250787649654,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999866652961952,
      "loss": 6.3629,
      "mean_token_accuracy": 0.11298267319798469,
      "num_tokens": 2595655.0,
      "step": 1410
    },
    {
      "entropy": 6.389230489730835,
      "epoch": 0.11888258769166142,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999863372747773,
      "loss": 6.3335,
      "mean_token_accuracy": 0.11225836053490638,
      "num_tokens": 2604949.0,
      "step": 1415
    },
    {
      "entropy": 6.439256811141968,
      "epoch": 0.11930266750682629,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004999860052678423,
      "loss": 6.3989,
      "mean_token_accuracy": 0.11546840667724609,
      "num_tokens": 2614260.0,
      "step": 1420
    },
    {
      "entropy": 6.299542999267578,
      "epoch": 0.11972274732199117,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004999856692753959,
      "loss": 6.3905,
      "mean_token_accuracy": 0.11243033632636071,
      "num_tokens": 2623740.0,
      "step": 1425
    },
    {
      "entropy": 6.37091474533081,
      "epoch": 0.12014282713715606,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999853292974444,
      "loss": 6.2964,
      "mean_token_accuracy": 0.1178373210132122,
      "num_tokens": 2631998.0,
      "step": 1430
    },
    {
      "entropy": 6.372178649902343,
      "epoch": 0.12056290695232094,
      "grad_norm": 0.96484375,
      "learning_rate": 0.0004999849853339936,
      "loss": 6.4358,
      "mean_token_accuracy": 0.11526904925704003,
      "num_tokens": 2641169.0,
      "step": 1435
    },
    {
      "entropy": 6.44800329208374,
      "epoch": 0.12098298676748583,
      "grad_norm": 0.9296875,
      "learning_rate": 0.0004999846373850497,
      "loss": 6.2945,
      "mean_token_accuracy": 0.11855239495635032,
      "num_tokens": 2650576.0,
      "step": 1440
    },
    {
      "entropy": 6.257949161529541,
      "epoch": 0.12140306658265071,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004999842854506186,
      "loss": 6.3807,
      "mean_token_accuracy": 0.11334980726242065,
      "num_tokens": 2660817.0,
      "step": 1445
    },
    {
      "entropy": 6.38723406791687,
      "epoch": 0.12182314639781558,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999839295307069,
      "loss": 6.3212,
      "mean_token_accuracy": 0.11455826535820961,
      "num_tokens": 2669338.0,
      "step": 1450
    },
    {
      "entropy": 6.404263877868653,
      "epoch": 0.12224322621298046,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004999835696253206,
      "loss": 6.3789,
      "mean_token_accuracy": 0.11618088632822036,
      "num_tokens": 2679108.0,
      "step": 1455
    },
    {
      "entropy": 6.435732698440551,
      "epoch": 0.12266330602814535,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004999832057344664,
      "loss": 6.3325,
      "mean_token_accuracy": 0.1142914392054081,
      "num_tokens": 2688126.0,
      "step": 1460
    },
    {
      "entropy": 6.152384519577026,
      "epoch": 0.12308338584331023,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004999828378581504,
      "loss": 6.3063,
      "mean_token_accuracy": 0.12400648295879364,
      "num_tokens": 2697245.0,
      "step": 1465
    },
    {
      "entropy": 6.425075197219849,
      "epoch": 0.12350346565847511,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999824659963793,
      "loss": 6.3465,
      "mean_token_accuracy": 0.1198640413582325,
      "num_tokens": 2705934.0,
      "step": 1470
    },
    {
      "entropy": 6.265953540802002,
      "epoch": 0.12392354547364,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004999820901491598,
      "loss": 6.2796,
      "mean_token_accuracy": 0.12351771965622901,
      "num_tokens": 2714367.0,
      "step": 1475
    },
    {
      "entropy": 6.334036827087402,
      "epoch": 0.12434362528880487,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004999817103164983,
      "loss": 6.3413,
      "mean_token_accuracy": 0.11931266412138938,
      "num_tokens": 2724366.0,
      "step": 1480
    },
    {
      "entropy": 6.360864496231079,
      "epoch": 0.12476370510396975,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999813264984017,
      "loss": 6.3448,
      "mean_token_accuracy": 0.11467731669545174,
      "num_tokens": 2733980.0,
      "step": 1485
    },
    {
      "entropy": 6.366592979431152,
      "epoch": 0.12518378491913462,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999809386948767,
      "loss": 6.3342,
      "mean_token_accuracy": 0.12208072617650031,
      "num_tokens": 2744013.0,
      "step": 1490
    },
    {
      "entropy": 6.299022817611695,
      "epoch": 0.12560386473429952,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004999805469059302,
      "loss": 6.4186,
      "mean_token_accuracy": 0.11027913689613342,
      "num_tokens": 2753385.0,
      "step": 1495
    },
    {
      "entropy": 6.366168975830078,
      "epoch": 0.1260239445494644,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004999801511315693,
      "loss": 6.256,
      "mean_token_accuracy": 0.11804210916161537,
      "num_tokens": 2762875.0,
      "step": 1500
    },
    {
      "entropy": 6.342552661895752,
      "epoch": 0.1264440243646293,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004999797513718007,
      "loss": 6.3108,
      "mean_token_accuracy": 0.12443676739931106,
      "num_tokens": 2772182.0,
      "step": 1505
    },
    {
      "entropy": 6.206664896011352,
      "epoch": 0.12686410417979416,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999793476266317,
      "loss": 6.2711,
      "mean_token_accuracy": 0.12031201645731926,
      "num_tokens": 2780814.0,
      "step": 1510
    },
    {
      "entropy": 6.639998197555542,
      "epoch": 0.12728418399495905,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004999789398960695,
      "loss": 6.5474,
      "mean_token_accuracy": 0.1183062419295311,
      "num_tokens": 2791104.0,
      "step": 1515
    },
    {
      "entropy": 6.19776029586792,
      "epoch": 0.12770426381012392,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999785281801212,
      "loss": 6.256,
      "mean_token_accuracy": 0.11993122175335884,
      "num_tokens": 2800081.0,
      "step": 1520
    },
    {
      "entropy": 6.334916496276856,
      "epoch": 0.1281243436252888,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000499978112478794,
      "loss": 6.3835,
      "mean_token_accuracy": 0.11843734234571457,
      "num_tokens": 2809096.0,
      "step": 1525
    },
    {
      "entropy": 6.403998374938965,
      "epoch": 0.1285444234404537,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999776927920955,
      "loss": 6.3545,
      "mean_token_accuracy": 0.12085104510188102,
      "num_tokens": 2818857.0,
      "step": 1530
    },
    {
      "entropy": 6.3299469470977785,
      "epoch": 0.12896450325561856,
      "grad_norm": 1.0625,
      "learning_rate": 0.000499977269120033,
      "loss": 6.4167,
      "mean_token_accuracy": 0.11449578031897545,
      "num_tokens": 2829332.0,
      "step": 1535
    },
    {
      "entropy": 6.3263038158416744,
      "epoch": 0.12938458307078346,
      "grad_norm": 0.97265625,
      "learning_rate": 0.000499976841462614,
      "loss": 6.3436,
      "mean_token_accuracy": 0.11686776131391526,
      "num_tokens": 2839193.0,
      "step": 1540
    },
    {
      "entropy": 6.397625589370728,
      "epoch": 0.12980466288594833,
      "grad_norm": 0.95703125,
      "learning_rate": 0.000499976409819846,
      "loss": 6.3117,
      "mean_token_accuracy": 0.11800177842378616,
      "num_tokens": 2848535.0,
      "step": 1545
    },
    {
      "entropy": 6.116656970977783,
      "epoch": 0.1302247427011132,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004999759741917369,
      "loss": 6.2278,
      "mean_token_accuracy": 0.12729543596506118,
      "num_tokens": 2858090.0,
      "step": 1550
    },
    {
      "entropy": 6.364631414413452,
      "epoch": 0.1306448225162781,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004999755345782941,
      "loss": 6.378,
      "mean_token_accuracy": 0.11326263695955277,
      "num_tokens": 2866984.0,
      "step": 1555
    },
    {
      "entropy": 6.246821451187134,
      "epoch": 0.13106490233144297,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004999750909795256,
      "loss": 6.1885,
      "mean_token_accuracy": 0.1256905347108841,
      "num_tokens": 2876550.0,
      "step": 1560
    },
    {
      "entropy": 6.341800737380981,
      "epoch": 0.13148498214660786,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004999746433954394,
      "loss": 6.286,
      "mean_token_accuracy": 0.12146776840090752,
      "num_tokens": 2885782.0,
      "step": 1565
    },
    {
      "entropy": 6.275845241546631,
      "epoch": 0.13190506196177273,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000499974191826043,
      "loss": 6.2653,
      "mean_token_accuracy": 0.13301032781600952,
      "num_tokens": 2894807.0,
      "step": 1570
    },
    {
      "entropy": 6.351547765731811,
      "epoch": 0.1323251417769376,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004999737362713448,
      "loss": 6.304,
      "mean_token_accuracy": 0.12145641520619392,
      "num_tokens": 2904076.0,
      "step": 1575
    },
    {
      "entropy": 6.267245769500732,
      "epoch": 0.1327452215921025,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999732767313527,
      "loss": 6.2029,
      "mean_token_accuracy": 0.12209122702479362,
      "num_tokens": 2913761.0,
      "step": 1580
    },
    {
      "entropy": 6.383308267593383,
      "epoch": 0.13316530140726737,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004999728132060746,
      "loss": 6.439,
      "mean_token_accuracy": 0.12098384723067283,
      "num_tokens": 2922848.0,
      "step": 1585
    },
    {
      "entropy": 6.364631271362304,
      "epoch": 0.13358538122243227,
      "grad_norm": 0.92578125,
      "learning_rate": 0.0004999723456955192,
      "loss": 6.3245,
      "mean_token_accuracy": 0.11949731931090354,
      "num_tokens": 2932718.0,
      "step": 1590
    },
    {
      "entropy": 6.2494594097137455,
      "epoch": 0.13400546103759714,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004999718741996945,
      "loss": 6.2837,
      "mean_token_accuracy": 0.12003797963261605,
      "num_tokens": 2942686.0,
      "step": 1595
    },
    {
      "entropy": 6.2547472476959225,
      "epoch": 0.13442554085276204,
      "grad_norm": 1.0390625,
      "learning_rate": 0.000499971398718609,
      "loss": 6.2407,
      "mean_token_accuracy": 0.1179835021495819,
      "num_tokens": 2952096.0,
      "step": 1600
    },
    {
      "entropy": 6.3157384395599365,
      "epoch": 0.1348456206679269,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999709192522708,
      "loss": 6.3129,
      "mean_token_accuracy": 0.12474863901734352,
      "num_tokens": 2960660.0,
      "step": 1605
    },
    {
      "entropy": 6.379588079452515,
      "epoch": 0.13526570048309178,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004999704358006887,
      "loss": 6.3158,
      "mean_token_accuracy": 0.11744728311896324,
      "num_tokens": 2969834.0,
      "step": 1610
    },
    {
      "entropy": 6.285486459732056,
      "epoch": 0.13568578029825668,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004999699483638712,
      "loss": 6.311,
      "mean_token_accuracy": 0.12142582982778549,
      "num_tokens": 2979023.0,
      "step": 1615
    },
    {
      "entropy": 6.294291210174561,
      "epoch": 0.13610586011342155,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004999694569418269,
      "loss": 6.3063,
      "mean_token_accuracy": 0.12201808094978332,
      "num_tokens": 2988083.0,
      "step": 1620
    },
    {
      "entropy": 6.2657451152801515,
      "epoch": 0.13652593992858644,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999689615345645,
      "loss": 6.2388,
      "mean_token_accuracy": 0.1231310561299324,
      "num_tokens": 2997240.0,
      "step": 1625
    },
    {
      "entropy": 6.308252573013306,
      "epoch": 0.1369460197437513,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004999684621420928,
      "loss": 6.3111,
      "mean_token_accuracy": 0.1184695117175579,
      "num_tokens": 3007077.0,
      "step": 1630
    },
    {
      "entropy": 6.319302654266357,
      "epoch": 0.13736609955891618,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004999679587644205,
      "loss": 6.3497,
      "mean_token_accuracy": 0.11671060770750045,
      "num_tokens": 3015821.0,
      "step": 1635
    },
    {
      "entropy": 6.236631298065186,
      "epoch": 0.13778617937408108,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004999674514015568,
      "loss": 6.2724,
      "mean_token_accuracy": 0.11908711194992065,
      "num_tokens": 3025858.0,
      "step": 1640
    },
    {
      "entropy": 6.3658030986785885,
      "epoch": 0.13820625918924595,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999669400535105,
      "loss": 6.2416,
      "mean_token_accuracy": 0.11343135982751847,
      "num_tokens": 3035537.0,
      "step": 1645
    },
    {
      "entropy": 6.147812271118164,
      "epoch": 0.13862633900441085,
      "grad_norm": 1.125,
      "learning_rate": 0.0004999664247202907,
      "loss": 6.1617,
      "mean_token_accuracy": 0.11974595785140991,
      "num_tokens": 3044204.0,
      "step": 1650
    },
    {
      "entropy": 6.327428913116455,
      "epoch": 0.13904641881957572,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999659054019066,
      "loss": 6.3345,
      "mean_token_accuracy": 0.11974811106920243,
      "num_tokens": 3053111.0,
      "step": 1655
    },
    {
      "entropy": 6.258665418624878,
      "epoch": 0.1394664986347406,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004999653820983673,
      "loss": 6.2415,
      "mean_token_accuracy": 0.12036412507295609,
      "num_tokens": 3062456.0,
      "step": 1660
    },
    {
      "entropy": 6.2644579887390135,
      "epoch": 0.13988657844990549,
      "grad_norm": 1.015625,
      "learning_rate": 0.000499964854809682,
      "loss": 6.2627,
      "mean_token_accuracy": 0.12668107002973555,
      "num_tokens": 3071132.0,
      "step": 1665
    },
    {
      "entropy": 6.261227464675903,
      "epoch": 0.14030665826507036,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004999643235358602,
      "loss": 6.222,
      "mean_token_accuracy": 0.125965429097414,
      "num_tokens": 3080892.0,
      "step": 1670
    },
    {
      "entropy": 6.215318775177002,
      "epoch": 0.14072673808023525,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999637882769112,
      "loss": 6.1526,
      "mean_token_accuracy": 0.12532262802124022,
      "num_tokens": 3089874.0,
      "step": 1675
    },
    {
      "entropy": 6.308867406845093,
      "epoch": 0.14114681789540012,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0004999632490328447,
      "loss": 6.3008,
      "mean_token_accuracy": 0.12098695039749145,
      "num_tokens": 3099535.0,
      "step": 1680
    },
    {
      "entropy": 6.281496620178222,
      "epoch": 0.14156689771056502,
      "grad_norm": 1.0,
      "learning_rate": 0.0004999627058036699,
      "loss": 6.2552,
      "mean_token_accuracy": 0.12044425159692765,
      "num_tokens": 3108772.0,
      "step": 1685
    },
    {
      "entropy": 6.311051607131958,
      "epoch": 0.1419869775257299,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004999621585893966,
      "loss": 6.2799,
      "mean_token_accuracy": 0.11901640743017197,
      "num_tokens": 3118333.0,
      "step": 1690
    },
    {
      "entropy": 6.305313062667847,
      "epoch": 0.14240705734089476,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004999616073900346,
      "loss": 6.3091,
      "mean_token_accuracy": 0.12129790410399437,
      "num_tokens": 3127356.0,
      "step": 1695
    },
    {
      "entropy": 6.2683678150177,
      "epoch": 0.14282713715605966,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999610522055935,
      "loss": 6.2794,
      "mean_token_accuracy": 0.11691329404711723,
      "num_tokens": 3136859.0,
      "step": 1700
    },
    {
      "entropy": 6.303126668930053,
      "epoch": 0.14324721697122453,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004999604930360832,
      "loss": 6.304,
      "mean_token_accuracy": 0.11767303720116615,
      "num_tokens": 3146607.0,
      "step": 1705
    },
    {
      "entropy": 6.214645338058472,
      "epoch": 0.14366729678638943,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004999599298815136,
      "loss": 6.2515,
      "mean_token_accuracy": 0.12662419229745864,
      "num_tokens": 3156327.0,
      "step": 1710
    },
    {
      "entropy": 6.21446213722229,
      "epoch": 0.1440873766015543,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004999593627418947,
      "loss": 6.2009,
      "mean_token_accuracy": 0.1281860999763012,
      "num_tokens": 3165559.0,
      "step": 1715
    },
    {
      "entropy": 6.299745416641235,
      "epoch": 0.14450745641671917,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004999587916172365,
      "loss": 6.2848,
      "mean_token_accuracy": 0.11663243547081947,
      "num_tokens": 3173850.0,
      "step": 1720
    },
    {
      "entropy": 6.324022483825684,
      "epoch": 0.14492753623188406,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999582165075492,
      "loss": 6.2353,
      "mean_token_accuracy": 0.11788406521081925,
      "num_tokens": 3182838.0,
      "step": 1725
    },
    {
      "entropy": 6.144151782989502,
      "epoch": 0.14534761604704893,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999576374128429,
      "loss": 6.2299,
      "mean_token_accuracy": 0.1223968394100666,
      "num_tokens": 3191692.0,
      "step": 1730
    },
    {
      "entropy": 6.343899536132812,
      "epoch": 0.14576769586221383,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999570543331279,
      "loss": 6.2507,
      "mean_token_accuracy": 0.12281694263219833,
      "num_tokens": 3200069.0,
      "step": 1735
    },
    {
      "entropy": 6.2878196239471436,
      "epoch": 0.1461877756773787,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004999564672684145,
      "loss": 6.3406,
      "mean_token_accuracy": 0.11862553879618645,
      "num_tokens": 3209653.0,
      "step": 1740
    },
    {
      "entropy": 6.361492061614991,
      "epoch": 0.14660785549254357,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004999558762187131,
      "loss": 6.2041,
      "mean_token_accuracy": 0.12774061411619186,
      "num_tokens": 3218313.0,
      "step": 1745
    },
    {
      "entropy": 6.146276044845581,
      "epoch": 0.14702793530770847,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004999552811840342,
      "loss": 6.1521,
      "mean_token_accuracy": 0.1273271396756172,
      "num_tokens": 3227525.0,
      "step": 1750
    },
    {
      "entropy": 6.241751718521118,
      "epoch": 0.14744801512287334,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004999546821643884,
      "loss": 6.2657,
      "mean_token_accuracy": 0.121260417252779,
      "num_tokens": 3237022.0,
      "step": 1755
    },
    {
      "entropy": 6.169715499877929,
      "epoch": 0.14786809493803824,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999540791597861,
      "loss": 6.156,
      "mean_token_accuracy": 0.12248859778046609,
      "num_tokens": 3246605.0,
      "step": 1760
    },
    {
      "entropy": 6.1003180027008055,
      "epoch": 0.1482881747532031,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999534721702383,
      "loss": 6.1054,
      "mean_token_accuracy": 0.12855856791138648,
      "num_tokens": 3255587.0,
      "step": 1765
    },
    {
      "entropy": 6.226248407363892,
      "epoch": 0.148708254568368,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999528611957553,
      "loss": 6.2171,
      "mean_token_accuracy": 0.12187446802854537,
      "num_tokens": 3265669.0,
      "step": 1770
    },
    {
      "entropy": 6.278449535369873,
      "epoch": 0.14912833438353287,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004999522462363485,
      "loss": 6.1919,
      "mean_token_accuracy": 0.1278035633265972,
      "num_tokens": 3275013.0,
      "step": 1775
    },
    {
      "entropy": 6.265809679031372,
      "epoch": 0.14954841419869774,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004999516272920283,
      "loss": 6.311,
      "mean_token_accuracy": 0.1240921102464199,
      "num_tokens": 3284723.0,
      "step": 1780
    },
    {
      "entropy": 6.131893539428711,
      "epoch": 0.14996849401386264,
      "grad_norm": 1.0625,
      "learning_rate": 0.000499951004362806,
      "loss": 6.1325,
      "mean_token_accuracy": 0.12936908155679702,
      "num_tokens": 3293860.0,
      "step": 1785
    },
    {
      "entropy": 6.151740789413452,
      "epoch": 0.1503885738290275,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999503774486924,
      "loss": 6.1833,
      "mean_token_accuracy": 0.12577988132834433,
      "num_tokens": 3303158.0,
      "step": 1790
    },
    {
      "entropy": 6.184361696243286,
      "epoch": 0.1508086536441924,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004999497465496987,
      "loss": 6.1137,
      "mean_token_accuracy": 0.11985947787761689,
      "num_tokens": 3313068.0,
      "step": 1795
    },
    {
      "entropy": 6.191692352294922,
      "epoch": 0.15122873345935728,
      "grad_norm": 1.109375,
      "learning_rate": 0.000499949111665836,
      "loss": 6.2033,
      "mean_token_accuracy": 0.12312208265066146,
      "num_tokens": 3321885.0,
      "step": 1800
    },
    {
      "entropy": 6.25971827507019,
      "epoch": 0.15164881327452215,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999484727971158,
      "loss": 6.1858,
      "mean_token_accuracy": 0.12474783286452293,
      "num_tokens": 3330924.0,
      "step": 1805
    },
    {
      "entropy": 6.176667261123657,
      "epoch": 0.15206889308968705,
      "grad_norm": 1.03125,
      "learning_rate": 0.000499947829943549,
      "loss": 6.2248,
      "mean_token_accuracy": 0.12161886692047119,
      "num_tokens": 3340070.0,
      "step": 1810
    },
    {
      "entropy": 6.295008039474487,
      "epoch": 0.15248897290485192,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999471831051474,
      "loss": 6.213,
      "mean_token_accuracy": 0.13358828723430632,
      "num_tokens": 3349870.0,
      "step": 1815
    },
    {
      "entropy": 6.278341436386109,
      "epoch": 0.1529090527200168,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999465322819222,
      "loss": 6.2576,
      "mean_token_accuracy": 0.11560158357024193,
      "num_tokens": 3359573.0,
      "step": 1820
    },
    {
      "entropy": 6.279096603393555,
      "epoch": 0.15332913253518168,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004999458774738851,
      "loss": 6.1999,
      "mean_token_accuracy": 0.13126230910420417,
      "num_tokens": 3368577.0,
      "step": 1825
    },
    {
      "entropy": 6.1456389904022215,
      "epoch": 0.15374921235034655,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999452186810476,
      "loss": 6.1662,
      "mean_token_accuracy": 0.12922282814979552,
      "num_tokens": 3377801.0,
      "step": 1830
    },
    {
      "entropy": 6.282723903656006,
      "epoch": 0.15416929216551145,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004999445559034214,
      "loss": 6.2248,
      "mean_token_accuracy": 0.12709890604019164,
      "num_tokens": 3386666.0,
      "step": 1835
    },
    {
      "entropy": 6.3540504455566404,
      "epoch": 0.15458937198067632,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999438891410181,
      "loss": 6.3599,
      "mean_token_accuracy": 0.12122973501682281,
      "num_tokens": 3396086.0,
      "step": 1840
    },
    {
      "entropy": 6.2125379085540775,
      "epoch": 0.15500945179584122,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999432183938496,
      "loss": 6.2646,
      "mean_token_accuracy": 0.1275039754807949,
      "num_tokens": 3404894.0,
      "step": 1845
    },
    {
      "entropy": 6.214909315109253,
      "epoch": 0.1554295316110061,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004999425436619279,
      "loss": 6.2499,
      "mean_token_accuracy": 0.12167986705899239,
      "num_tokens": 3414172.0,
      "step": 1850
    },
    {
      "entropy": 6.310878896713257,
      "epoch": 0.15584961142617096,
      "grad_norm": 0.97265625,
      "learning_rate": 0.000499941864945265,
      "loss": 6.2176,
      "mean_token_accuracy": 0.11906537339091301,
      "num_tokens": 3423409.0,
      "step": 1855
    },
    {
      "entropy": 6.134654092788696,
      "epoch": 0.15626969124133586,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999411822438726,
      "loss": 6.1799,
      "mean_token_accuracy": 0.12394418343901634,
      "num_tokens": 3433047.0,
      "step": 1860
    },
    {
      "entropy": 6.2948554992675785,
      "epoch": 0.15668977105650073,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000499940495557763,
      "loss": 6.173,
      "mean_token_accuracy": 0.12352384477853776,
      "num_tokens": 3442490.0,
      "step": 1865
    },
    {
      "entropy": 6.233772277832031,
      "epoch": 0.15710985087166562,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999398048869485,
      "loss": 6.2356,
      "mean_token_accuracy": 0.1239772841334343,
      "num_tokens": 3451804.0,
      "step": 1870
    },
    {
      "entropy": 6.296554517745972,
      "epoch": 0.1575299306868305,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000499939110231441,
      "loss": 6.2223,
      "mean_token_accuracy": 0.12610766440629959,
      "num_tokens": 3461481.0,
      "step": 1875
    },
    {
      "entropy": 6.218039226531983,
      "epoch": 0.1579500105019954,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004999384115912531,
      "loss": 6.2673,
      "mean_token_accuracy": 0.1208581991493702,
      "num_tokens": 3471798.0,
      "step": 1880
    },
    {
      "entropy": 6.088755655288696,
      "epoch": 0.15837009031716026,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000499937708966397,
      "loss": 6.1755,
      "mean_token_accuracy": 0.12277546525001526,
      "num_tokens": 3481386.0,
      "step": 1885
    },
    {
      "entropy": 6.257310009002685,
      "epoch": 0.15879017013232513,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004999370023568853,
      "loss": 6.1643,
      "mean_token_accuracy": 0.12328559309244155,
      "num_tokens": 3489981.0,
      "step": 1890
    },
    {
      "entropy": 6.140112638473511,
      "epoch": 0.15921024994749003,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999362917627304,
      "loss": 6.1438,
      "mean_token_accuracy": 0.12805134281516076,
      "num_tokens": 3498551.0,
      "step": 1895
    },
    {
      "entropy": 6.224145746231079,
      "epoch": 0.1596303297626549,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004999355771839448,
      "loss": 6.1267,
      "mean_token_accuracy": 0.1276252895593643,
      "num_tokens": 3507921.0,
      "step": 1900
    },
    {
      "entropy": 6.316604804992676,
      "epoch": 0.1600504095778198,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004999348586205414,
      "loss": 6.2984,
      "mean_token_accuracy": 0.12361158952116966,
      "num_tokens": 3517570.0,
      "step": 1905
    },
    {
      "entropy": 6.265382909774781,
      "epoch": 0.16047048939298467,
      "grad_norm": 1.125,
      "learning_rate": 0.0004999341360725327,
      "loss": 6.2786,
      "mean_token_accuracy": 0.11925147697329522,
      "num_tokens": 3526774.0,
      "step": 1910
    },
    {
      "entropy": 6.244428873062134,
      "epoch": 0.16089056920814954,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999334095399317,
      "loss": 6.2167,
      "mean_token_accuracy": 0.1289656363427639,
      "num_tokens": 3535319.0,
      "step": 1915
    },
    {
      "entropy": 6.091944026947021,
      "epoch": 0.16131064902331443,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999326790227512,
      "loss": 6.1819,
      "mean_token_accuracy": 0.12599623277783395,
      "num_tokens": 3544468.0,
      "step": 1920
    },
    {
      "entropy": 6.069698667526245,
      "epoch": 0.1617307288384793,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004999319445210041,
      "loss": 6.0574,
      "mean_token_accuracy": 0.13135963827371597,
      "num_tokens": 3553529.0,
      "step": 1925
    },
    {
      "entropy": 6.176232147216797,
      "epoch": 0.1621508086536442,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004999312060347034,
      "loss": 6.1206,
      "mean_token_accuracy": 0.12521466836333275,
      "num_tokens": 3563053.0,
      "step": 1930
    },
    {
      "entropy": 6.155474901199341,
      "epoch": 0.16257088846880907,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0004999304635638621,
      "loss": 6.0713,
      "mean_token_accuracy": 0.13156753256917,
      "num_tokens": 3571877.0,
      "step": 1935
    },
    {
      "entropy": 6.117454576492309,
      "epoch": 0.16299096828397394,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004999297171084935,
      "loss": 6.1211,
      "mean_token_accuracy": 0.12843042388558387,
      "num_tokens": 3581496.0,
      "step": 1940
    },
    {
      "entropy": 6.246276712417602,
      "epoch": 0.16341104809913884,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999289666686109,
      "loss": 6.1408,
      "mean_token_accuracy": 0.12944318503141403,
      "num_tokens": 3590752.0,
      "step": 1945
    },
    {
      "entropy": 6.026504850387573,
      "epoch": 0.1638311279143037,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004999282122442274,
      "loss": 6.1427,
      "mean_token_accuracy": 0.12940528690814973,
      "num_tokens": 3599885.0,
      "step": 1950
    },
    {
      "entropy": 6.306515789031982,
      "epoch": 0.1642512077294686,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004999274538353564,
      "loss": 6.2127,
      "mean_token_accuracy": 0.12124313414096832,
      "num_tokens": 3610039.0,
      "step": 1955
    },
    {
      "entropy": 6.1400439739227295,
      "epoch": 0.16467128754463348,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999266914420114,
      "loss": 6.1432,
      "mean_token_accuracy": 0.12274663522839546,
      "num_tokens": 3619954.0,
      "step": 1960
    },
    {
      "entropy": 6.1886210441589355,
      "epoch": 0.16509136735979837,
      "grad_norm": 1.03125,
      "learning_rate": 0.000499925925064206,
      "loss": 6.0913,
      "mean_token_accuracy": 0.13008279874920844,
      "num_tokens": 3628164.0,
      "step": 1965
    },
    {
      "entropy": 6.256851673126221,
      "epoch": 0.16551144717496324,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004999251547019535,
      "loss": 6.2411,
      "mean_token_accuracy": 0.1288958877325058,
      "num_tokens": 3636778.0,
      "step": 1970
    },
    {
      "entropy": 6.259689378738403,
      "epoch": 0.16593152699012811,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004999243803552678,
      "loss": 6.2104,
      "mean_token_accuracy": 0.1265132576227188,
      "num_tokens": 3647046.0,
      "step": 1975
    },
    {
      "entropy": 6.134534025192261,
      "epoch": 0.166351606805293,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999236020241625,
      "loss": 6.1237,
      "mean_token_accuracy": 0.1289564423263073,
      "num_tokens": 3656130.0,
      "step": 1980
    },
    {
      "entropy": 6.189244413375855,
      "epoch": 0.16677168662045788,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999228197086514,
      "loss": 6.2018,
      "mean_token_accuracy": 0.11904976442456246,
      "num_tokens": 3666145.0,
      "step": 1985
    },
    {
      "entropy": 6.2379295349121096,
      "epoch": 0.16719176643562278,
      "grad_norm": 0.921875,
      "learning_rate": 0.0004999220334087484,
      "loss": 6.2356,
      "mean_token_accuracy": 0.12509587332606315,
      "num_tokens": 3676722.0,
      "step": 1990
    },
    {
      "entropy": 6.233392667770386,
      "epoch": 0.16761184625078765,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999212431244673,
      "loss": 6.2382,
      "mean_token_accuracy": 0.1240171104669571,
      "num_tokens": 3685880.0,
      "step": 1995
    },
    {
      "entropy": 6.1124889850616455,
      "epoch": 0.16803192606595252,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004999204488558222,
      "loss": 6.0582,
      "mean_token_accuracy": 0.13227254450321196,
      "num_tokens": 3695167.0,
      "step": 2000
    },
    {
      "entropy": 6.222057247161866,
      "epoch": 0.16845200588111742,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999196506028273,
      "loss": 6.1797,
      "mean_token_accuracy": 0.12606113404035568,
      "num_tokens": 3703700.0,
      "step": 2005
    },
    {
      "entropy": 6.204267930984497,
      "epoch": 0.1688720856962823,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004999188483654965,
      "loss": 6.1263,
      "mean_token_accuracy": 0.12780678346753122,
      "num_tokens": 3712825.0,
      "step": 2010
    },
    {
      "entropy": 6.068148231506347,
      "epoch": 0.16929216551144718,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004999180421438442,
      "loss": 6.0953,
      "mean_token_accuracy": 0.12944422513246537,
      "num_tokens": 3721807.0,
      "step": 2015
    },
    {
      "entropy": 6.252347660064697,
      "epoch": 0.16971224532661205,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004999172319378846,
      "loss": 6.2617,
      "mean_token_accuracy": 0.12066083624958993,
      "num_tokens": 3730502.0,
      "step": 2020
    },
    {
      "entropy": 6.223606538772583,
      "epoch": 0.17013232514177692,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004999164177476319,
      "loss": 6.1457,
      "mean_token_accuracy": 0.13003366217017173,
      "num_tokens": 3739696.0,
      "step": 2025
    },
    {
      "entropy": 6.0265522480010985,
      "epoch": 0.17055240495694182,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999155995731009,
      "loss": 6.1404,
      "mean_token_accuracy": 0.1299336552619934,
      "num_tokens": 3748675.0,
      "step": 2030
    },
    {
      "entropy": 6.380355882644653,
      "epoch": 0.1709724847721067,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004999147774143057,
      "loss": 6.2221,
      "mean_token_accuracy": 0.12048738449811935,
      "num_tokens": 3757714.0,
      "step": 2035
    },
    {
      "entropy": 6.067580938339233,
      "epoch": 0.1713925645872716,
      "grad_norm": 1.0078125,
      "learning_rate": 0.000499913951271261,
      "loss": 6.0375,
      "mean_token_accuracy": 0.13202561810612679,
      "num_tokens": 3767589.0,
      "step": 2040
    },
    {
      "entropy": 6.142302322387695,
      "epoch": 0.17181264440243646,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004999131211439816,
      "loss": 6.1596,
      "mean_token_accuracy": 0.12828587144613265,
      "num_tokens": 3777261.0,
      "step": 2045
    },
    {
      "entropy": 6.232779121398925,
      "epoch": 0.17223272421760136,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000499912287032482,
      "loss": 6.1001,
      "mean_token_accuracy": 0.1372594192624092,
      "num_tokens": 3786658.0,
      "step": 2050
    },
    {
      "entropy": 6.025224256515503,
      "epoch": 0.17265280403276623,
      "grad_norm": 1.09375,
      "learning_rate": 0.000499911448936777,
      "loss": 6.1026,
      "mean_token_accuracy": 0.13396917879581452,
      "num_tokens": 3794977.0,
      "step": 2055
    },
    {
      "entropy": 6.084959363937378,
      "epoch": 0.1730728838479311,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004999106068568816,
      "loss": 6.1787,
      "mean_token_accuracy": 0.12529570311307908,
      "num_tokens": 3805138.0,
      "step": 2060
    },
    {
      "entropy": 6.263661098480225,
      "epoch": 0.173492963663096,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004999097607928106,
      "loss": 6.1258,
      "mean_token_accuracy": 0.13813115134835244,
      "num_tokens": 3814444.0,
      "step": 2065
    },
    {
      "entropy": 6.166193580627441,
      "epoch": 0.17391304347826086,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004999089107445788,
      "loss": 6.0785,
      "mean_token_accuracy": 0.12874337583780288,
      "num_tokens": 3822859.0,
      "step": 2070
    },
    {
      "entropy": 6.0040192127227785,
      "epoch": 0.17433312329342576,
      "grad_norm": 1.0,
      "learning_rate": 0.0004999080567122016,
      "loss": 6.102,
      "mean_token_accuracy": 0.1266925446689129,
      "num_tokens": 3833159.0,
      "step": 2075
    },
    {
      "entropy": 6.185031747817993,
      "epoch": 0.17475320310859063,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004999071986956941,
      "loss": 6.1269,
      "mean_token_accuracy": 0.1295515276491642,
      "num_tokens": 3842136.0,
      "step": 2080
    },
    {
      "entropy": 6.116478013992309,
      "epoch": 0.1751732829237555,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004999063366950713,
      "loss": 6.1939,
      "mean_token_accuracy": 0.1253967322409153,
      "num_tokens": 3851406.0,
      "step": 2085
    },
    {
      "entropy": 6.1408590316772464,
      "epoch": 0.1755933627389204,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004999054707103486,
      "loss": 6.1026,
      "mean_token_accuracy": 0.1274511694908142,
      "num_tokens": 3861061.0,
      "step": 2090
    },
    {
      "entropy": 6.164148044586182,
      "epoch": 0.17601344255408527,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004999046007415412,
      "loss": 6.067,
      "mean_token_accuracy": 0.12591860070824623,
      "num_tokens": 3870357.0,
      "step": 2095
    },
    {
      "entropy": 6.192416858673096,
      "epoch": 0.17643352236925017,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004999037267886646,
      "loss": 6.0964,
      "mean_token_accuracy": 0.1299741767346859,
      "num_tokens": 3879393.0,
      "step": 2100
    },
    {
      "entropy": 6.0785363674163815,
      "epoch": 0.17685360218441504,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004999028488517343,
      "loss": 6.1037,
      "mean_token_accuracy": 0.12889744639396666,
      "num_tokens": 3888030.0,
      "step": 2105
    },
    {
      "entropy": 6.11736216545105,
      "epoch": 0.1772736819995799,
      "grad_norm": 1.125,
      "learning_rate": 0.0004999019669307659,
      "loss": 6.1275,
      "mean_token_accuracy": 0.13039418011903764,
      "num_tokens": 3897430.0,
      "step": 2110
    },
    {
      "entropy": 6.1809111595153805,
      "epoch": 0.1776937618147448,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004999010810257749,
      "loss": 6.1428,
      "mean_token_accuracy": 0.1269817218184471,
      "num_tokens": 3907711.0,
      "step": 2115
    },
    {
      "entropy": 6.062447786331177,
      "epoch": 0.17811384162990967,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004999001911367771,
      "loss": 6.0668,
      "mean_token_accuracy": 0.1323694571852684,
      "num_tokens": 3915816.0,
      "step": 2120
    },
    {
      "entropy": 6.1604491710662845,
      "epoch": 0.17853392144507457,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004998992972637883,
      "loss": 6.1943,
      "mean_token_accuracy": 0.1183660313487053,
      "num_tokens": 3925162.0,
      "step": 2125
    },
    {
      "entropy": 6.203741979598999,
      "epoch": 0.17895400126023944,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998983994068242,
      "loss": 6.0864,
      "mean_token_accuracy": 0.1282353989779949,
      "num_tokens": 3934476.0,
      "step": 2130
    },
    {
      "entropy": 6.044822025299072,
      "epoch": 0.17937408107540434,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004998974975659006,
      "loss": 6.124,
      "mean_token_accuracy": 0.12441963106393814,
      "num_tokens": 3943501.0,
      "step": 2135
    },
    {
      "entropy": 6.184865283966064,
      "epoch": 0.1797941608905692,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998965917410338,
      "loss": 6.1111,
      "mean_token_accuracy": 0.12969196289777757,
      "num_tokens": 3953663.0,
      "step": 2140
    },
    {
      "entropy": 6.129238748550415,
      "epoch": 0.18021424070573408,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004998956819322397,
      "loss": 6.0839,
      "mean_token_accuracy": 0.13072072938084603,
      "num_tokens": 3962634.0,
      "step": 2145
    },
    {
      "entropy": 6.135206937789917,
      "epoch": 0.18063432052089898,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004998947681395343,
      "loss": 6.0859,
      "mean_token_accuracy": 0.1366378679871559,
      "num_tokens": 3972496.0,
      "step": 2150
    },
    {
      "entropy": 6.271072053909302,
      "epoch": 0.18105440033606385,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000499893850362934,
      "loss": 6.3296,
      "mean_token_accuracy": 0.12187584564089775,
      "num_tokens": 3980724.0,
      "step": 2155
    },
    {
      "entropy": 6.224115467071533,
      "epoch": 0.18147448015122875,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004998929286024548,
      "loss": 6.1594,
      "mean_token_accuracy": 0.12844373360276223,
      "num_tokens": 3989842.0,
      "step": 2160
    },
    {
      "entropy": 6.123717546463013,
      "epoch": 0.18189455996639362,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004998920028581133,
      "loss": 6.0814,
      "mean_token_accuracy": 0.13656101748347282,
      "num_tokens": 3998534.0,
      "step": 2165
    },
    {
      "entropy": 6.150679874420166,
      "epoch": 0.18231463978155849,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004998910731299258,
      "loss": 6.1088,
      "mean_token_accuracy": 0.12456604689359665,
      "num_tokens": 4007677.0,
      "step": 2170
    },
    {
      "entropy": 6.126907587051392,
      "epoch": 0.18273471959672338,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004998901394179085,
      "loss": 6.1638,
      "mean_token_accuracy": 0.12525054216384887,
      "num_tokens": 4016347.0,
      "step": 2175
    },
    {
      "entropy": 6.135372829437256,
      "epoch": 0.18315479941188825,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004998892017220784,
      "loss": 6.0213,
      "mean_token_accuracy": 0.13323480933904647,
      "num_tokens": 4025199.0,
      "step": 2180
    },
    {
      "entropy": 6.137722158432007,
      "epoch": 0.18357487922705315,
      "grad_norm": 1.125,
      "learning_rate": 0.0004998882600424519,
      "loss": 6.0876,
      "mean_token_accuracy": 0.12551357075572014,
      "num_tokens": 4033933.0,
      "step": 2185
    },
    {
      "entropy": 6.108227968215942,
      "epoch": 0.18399495904221802,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004998873143790455,
      "loss": 6.0183,
      "mean_token_accuracy": 0.1379354938864708,
      "num_tokens": 4042891.0,
      "step": 2190
    },
    {
      "entropy": 6.1591612815856935,
      "epoch": 0.1844150388573829,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004998863647318763,
      "loss": 6.1366,
      "mean_token_accuracy": 0.1241612270474434,
      "num_tokens": 4051123.0,
      "step": 2195
    },
    {
      "entropy": 6.089571523666382,
      "epoch": 0.1848351186725478,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004998854111009608,
      "loss": 6.113,
      "mean_token_accuracy": 0.12376126572489739,
      "num_tokens": 4060025.0,
      "step": 2200
    },
    {
      "entropy": 6.11730580329895,
      "epoch": 0.18525519848771266,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004998844534863161,
      "loss": 6.0217,
      "mean_token_accuracy": 0.12926619052886962,
      "num_tokens": 4069363.0,
      "step": 2205
    },
    {
      "entropy": 6.176160907745361,
      "epoch": 0.18567527830287756,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004998834918879592,
      "loss": 6.1692,
      "mean_token_accuracy": 0.12947654128074645,
      "num_tokens": 4078855.0,
      "step": 2210
    },
    {
      "entropy": 6.131696176528931,
      "epoch": 0.18609535811804243,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000499882526305907,
      "loss": 6.1424,
      "mean_token_accuracy": 0.12837494984269143,
      "num_tokens": 4087801.0,
      "step": 2215
    },
    {
      "entropy": 6.191353893280029,
      "epoch": 0.18651543793320732,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998815567401765,
      "loss": 6.1351,
      "mean_token_accuracy": 0.12790770679712296,
      "num_tokens": 4096949.0,
      "step": 2220
    },
    {
      "entropy": 6.171415328979492,
      "epoch": 0.1869355177483722,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004998805831907851,
      "loss": 6.084,
      "mean_token_accuracy": 0.1275387942790985,
      "num_tokens": 4105399.0,
      "step": 2225
    },
    {
      "entropy": 6.12052903175354,
      "epoch": 0.18735559756353706,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004998796056577501,
      "loss": 6.0391,
      "mean_token_accuracy": 0.1234730213880539,
      "num_tokens": 4113873.0,
      "step": 2230
    },
    {
      "entropy": 6.033805179595947,
      "epoch": 0.18777567737870196,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004998786241410886,
      "loss": 6.1003,
      "mean_token_accuracy": 0.12796764224767684,
      "num_tokens": 4123528.0,
      "step": 2235
    },
    {
      "entropy": 6.244566345214844,
      "epoch": 0.18819575719386683,
      "grad_norm": 1.015625,
      "learning_rate": 0.000499877638640818,
      "loss": 6.1131,
      "mean_token_accuracy": 0.12414761930704117,
      "num_tokens": 4133370.0,
      "step": 2240
    },
    {
      "entropy": 6.0351306915283205,
      "epoch": 0.18861583700903173,
      "grad_norm": 1.0625,
      "learning_rate": 0.000499876649156956,
      "loss": 6.0237,
      "mean_token_accuracy": 0.13068948239088057,
      "num_tokens": 4142370.0,
      "step": 2245
    },
    {
      "entropy": 6.075446557998657,
      "epoch": 0.1890359168241966,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004998756556895196,
      "loss": 6.1176,
      "mean_token_accuracy": 0.12780525609850885,
      "num_tokens": 4152367.0,
      "step": 2250
    },
    {
      "entropy": 6.182886552810669,
      "epoch": 0.18945599663936147,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000499874658238527,
      "loss": 6.0979,
      "mean_token_accuracy": 0.1277949795126915,
      "num_tokens": 4161126.0,
      "step": 2255
    },
    {
      "entropy": 6.106898975372315,
      "epoch": 0.18987607645452637,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004998736568039957,
      "loss": 6.0094,
      "mean_token_accuracy": 0.13100193440914154,
      "num_tokens": 4169910.0,
      "step": 2260
    },
    {
      "entropy": 6.133787775039673,
      "epoch": 0.19029615626969124,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004998726513859432,
      "loss": 6.1599,
      "mean_token_accuracy": 0.12446666359901429,
      "num_tokens": 4179893.0,
      "step": 2265
    },
    {
      "entropy": 6.202354001998901,
      "epoch": 0.19071623608485613,
      "grad_norm": 0.984375,
      "learning_rate": 0.0004998716419843875,
      "loss": 6.1617,
      "mean_token_accuracy": 0.1319762259721756,
      "num_tokens": 4190065.0,
      "step": 2270
    },
    {
      "entropy": 6.011490678787231,
      "epoch": 0.191136315900021,
      "grad_norm": 1.125,
      "learning_rate": 0.0004998706285993465,
      "loss": 6.069,
      "mean_token_accuracy": 0.13331144750118257,
      "num_tokens": 4198395.0,
      "step": 2275
    },
    {
      "entropy": 6.173086833953858,
      "epoch": 0.19155639571518587,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004998696112308381,
      "loss": 6.093,
      "mean_token_accuracy": 0.1271330051124096,
      "num_tokens": 4207555.0,
      "step": 2280
    },
    {
      "entropy": 6.0555767059326175,
      "epoch": 0.19197647553035077,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998685898788803,
      "loss": 6.0375,
      "mean_token_accuracy": 0.1309538424015045,
      "num_tokens": 4216533.0,
      "step": 2285
    },
    {
      "entropy": 6.211866235733032,
      "epoch": 0.19239655534551564,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004998675645434914,
      "loss": 6.1419,
      "mean_token_accuracy": 0.1353093557059765,
      "num_tokens": 4225575.0,
      "step": 2290
    },
    {
      "entropy": 6.018606328964234,
      "epoch": 0.19281663516068054,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004998665352246891,
      "loss": 5.9193,
      "mean_token_accuracy": 0.13810657039284707,
      "num_tokens": 4234306.0,
      "step": 2295
    },
    {
      "entropy": 6.014672660827637,
      "epoch": 0.1932367149758454,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004998655019224921,
      "loss": 6.1267,
      "mean_token_accuracy": 0.12904786244034766,
      "num_tokens": 4243998.0,
      "step": 2300
    },
    {
      "entropy": 6.134347867965698,
      "epoch": 0.19365679479101028,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004998644646369185,
      "loss": 6.0238,
      "mean_token_accuracy": 0.12680166810750962,
      "num_tokens": 4253653.0,
      "step": 2305
    },
    {
      "entropy": 6.066501617431641,
      "epoch": 0.19407687460617518,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998634233679865,
      "loss": 6.0895,
      "mean_token_accuracy": 0.12311211153864861,
      "num_tokens": 4263305.0,
      "step": 2310
    },
    {
      "entropy": 6.049868440628051,
      "epoch": 0.19449695442134005,
      "grad_norm": 1.078125,
      "learning_rate": 0.000499862378115715,
      "loss": 5.983,
      "mean_token_accuracy": 0.13395097106695175,
      "num_tokens": 4272212.0,
      "step": 2315
    },
    {
      "entropy": 6.165916633605957,
      "epoch": 0.19491703423650494,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004998613288801221,
      "loss": 6.1922,
      "mean_token_accuracy": 0.1247316338121891,
      "num_tokens": 4281445.0,
      "step": 2320
    },
    {
      "entropy": 6.179806041717529,
      "epoch": 0.1953371140516698,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004998602756612267,
      "loss": 6.0898,
      "mean_token_accuracy": 0.12693395391106604,
      "num_tokens": 4290938.0,
      "step": 2325
    },
    {
      "entropy": 6.070136451721192,
      "epoch": 0.1957571938668347,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004998592184590471,
      "loss": 6.1397,
      "mean_token_accuracy": 0.12676772177219392,
      "num_tokens": 4300022.0,
      "step": 2330
    },
    {
      "entropy": 6.06673412322998,
      "epoch": 0.19617727368199958,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004998581572736024,
      "loss": 6.0179,
      "mean_token_accuracy": 0.13165862262248992,
      "num_tokens": 4308910.0,
      "step": 2335
    },
    {
      "entropy": 5.994941234588623,
      "epoch": 0.19659735349716445,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004998570921049112,
      "loss": 5.9863,
      "mean_token_accuracy": 0.135918989777565,
      "num_tokens": 4317136.0,
      "step": 2340
    },
    {
      "entropy": 6.102301931381225,
      "epoch": 0.19701743331232935,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004998560229529924,
      "loss": 6.0425,
      "mean_token_accuracy": 0.13503788635134698,
      "num_tokens": 4326163.0,
      "step": 2345
    },
    {
      "entropy": 6.227736186981201,
      "epoch": 0.19743751312749422,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998549498178649,
      "loss": 6.1881,
      "mean_token_accuracy": 0.13264173418283462,
      "num_tokens": 4335837.0,
      "step": 2350
    },
    {
      "entropy": 6.1506922245025635,
      "epoch": 0.19785759294265912,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004998538726995477,
      "loss": 6.1094,
      "mean_token_accuracy": 0.13223380818963051,
      "num_tokens": 4345108.0,
      "step": 2355
    },
    {
      "entropy": 6.144142389297485,
      "epoch": 0.198277672757824,
      "grad_norm": 1.046875,
      "learning_rate": 0.00049985279159806,
      "loss": 6.1229,
      "mean_token_accuracy": 0.1271647334098816,
      "num_tokens": 4353761.0,
      "step": 2360
    },
    {
      "entropy": 6.1053972244262695,
      "epoch": 0.19869775257298886,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004998517065134208,
      "loss": 6.0771,
      "mean_token_accuracy": 0.1304875746369362,
      "num_tokens": 4363244.0,
      "step": 2365
    },
    {
      "entropy": 6.125473690032959,
      "epoch": 0.19911783238815375,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004998506174456494,
      "loss": 6.0856,
      "mean_token_accuracy": 0.1269718214869499,
      "num_tokens": 4373034.0,
      "step": 2370
    },
    {
      "entropy": 6.056502437591552,
      "epoch": 0.19953791220331862,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004998495243947653,
      "loss": 6.0113,
      "mean_token_accuracy": 0.12611002326011658,
      "num_tokens": 4382554.0,
      "step": 2375
    },
    {
      "entropy": 6.116158485412598,
      "epoch": 0.19995799201848352,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004998484273607875,
      "loss": 6.0324,
      "mean_token_accuracy": 0.13722692728042601,
      "num_tokens": 4391001.0,
      "step": 2380
    },
    {
      "entropy": 5.908738136291504,
      "epoch": 0.2003780718336484,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004998473263437356,
      "loss": 5.9468,
      "mean_token_accuracy": 0.1328367456793785,
      "num_tokens": 4400632.0,
      "step": 2385
    },
    {
      "entropy": 6.068370723724366,
      "epoch": 0.20079815164881326,
      "grad_norm": 1.078125,
      "learning_rate": 0.000499846221343629,
      "loss": 6.0486,
      "mean_token_accuracy": 0.12969876527786256,
      "num_tokens": 4409565.0,
      "step": 2390
    },
    {
      "entropy": 6.078929996490478,
      "epoch": 0.20121823146397816,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004998451123604875,
      "loss": 5.9972,
      "mean_token_accuracy": 0.13624220937490464,
      "num_tokens": 4418384.0,
      "step": 2395
    },
    {
      "entropy": 6.103708171844483,
      "epoch": 0.20163831127914303,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004998439993943306,
      "loss": 6.11,
      "mean_token_accuracy": 0.13608327358961106,
      "num_tokens": 4427581.0,
      "step": 2400
    },
    {
      "entropy": 6.2018999576568605,
      "epoch": 0.20205839109430793,
      "grad_norm": 1.125,
      "learning_rate": 0.0004998428824451779,
      "loss": 6.1047,
      "mean_token_accuracy": 0.1272777199745178,
      "num_tokens": 4436572.0,
      "step": 2405
    },
    {
      "entropy": 6.056638908386231,
      "epoch": 0.2024784709094728,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004998417615130495,
      "loss": 6.1099,
      "mean_token_accuracy": 0.12568870037794114,
      "num_tokens": 4445230.0,
      "step": 2410
    },
    {
      "entropy": 6.192966461181641,
      "epoch": 0.2028985507246377,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004998406365979649,
      "loss": 6.1712,
      "mean_token_accuracy": 0.12947247475385665,
      "num_tokens": 4454251.0,
      "step": 2415
    },
    {
      "entropy": 6.0738544940948485,
      "epoch": 0.20331863053980256,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998395076999443,
      "loss": 6.0246,
      "mean_token_accuracy": 0.1331735722720623,
      "num_tokens": 4463949.0,
      "step": 2420
    },
    {
      "entropy": 6.164913845062256,
      "epoch": 0.20373871035496743,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004998383748190076,
      "loss": 6.2178,
      "mean_token_accuracy": 0.12642809972167016,
      "num_tokens": 4473373.0,
      "step": 2425
    },
    {
      "entropy": 6.169246625900269,
      "epoch": 0.20415879017013233,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004998372379551748,
      "loss": 6.0443,
      "mean_token_accuracy": 0.13512365892529488,
      "num_tokens": 4482303.0,
      "step": 2430
    },
    {
      "entropy": 6.000651454925537,
      "epoch": 0.2045788699852972,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004998360971084663,
      "loss": 6.0248,
      "mean_token_accuracy": 0.1257840245962143,
      "num_tokens": 4491214.0,
      "step": 2435
    },
    {
      "entropy": 6.060888242721558,
      "epoch": 0.2049989498004621,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004998349522789019,
      "loss": 5.9365,
      "mean_token_accuracy": 0.14086327105760574,
      "num_tokens": 4500099.0,
      "step": 2440
    },
    {
      "entropy": 6.020166492462158,
      "epoch": 0.20541902961562697,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004998338034665021,
      "loss": 6.0199,
      "mean_token_accuracy": 0.13966668471693994,
      "num_tokens": 4509893.0,
      "step": 2445
    },
    {
      "entropy": 6.064390420913696,
      "epoch": 0.20583910943079184,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004998326506712872,
      "loss": 5.9974,
      "mean_token_accuracy": 0.13378938734531404,
      "num_tokens": 4518606.0,
      "step": 2450
    },
    {
      "entropy": 6.097909021377563,
      "epoch": 0.20625918924595674,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004998314938932778,
      "loss": 6.0759,
      "mean_token_accuracy": 0.1298009656369686,
      "num_tokens": 4528392.0,
      "step": 2455
    },
    {
      "entropy": 6.1035826206207275,
      "epoch": 0.2066792690611216,
      "grad_norm": 1.125,
      "learning_rate": 0.0004998303331324943,
      "loss": 6.0416,
      "mean_token_accuracy": 0.13463694974780083,
      "num_tokens": 4536983.0,
      "step": 2460
    },
    {
      "entropy": 5.9858495712280275,
      "epoch": 0.2070993488762865,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004998291683889571,
      "loss": 5.9442,
      "mean_token_accuracy": 0.13662122339010238,
      "num_tokens": 4544967.0,
      "step": 2465
    },
    {
      "entropy": 6.056029415130615,
      "epoch": 0.20751942869145137,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000499827999662687,
      "loss": 6.0242,
      "mean_token_accuracy": 0.12964650020003318,
      "num_tokens": 4554646.0,
      "step": 2470
    },
    {
      "entropy": 6.118838214874268,
      "epoch": 0.20793950850661624,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004998268269537046,
      "loss": 6.0401,
      "mean_token_accuracy": 0.13539641574025155,
      "num_tokens": 4564040.0,
      "step": 2475
    },
    {
      "entropy": 6.022972631454468,
      "epoch": 0.20835958832178114,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004998256502620308,
      "loss": 6.0624,
      "mean_token_accuracy": 0.13345976546406746,
      "num_tokens": 4573758.0,
      "step": 2480
    },
    {
      "entropy": 6.193491125106812,
      "epoch": 0.208779668136946,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004998244695876864,
      "loss": 6.0874,
      "mean_token_accuracy": 0.13196430653333663,
      "num_tokens": 4582097.0,
      "step": 2485
    },
    {
      "entropy": 6.018001937866211,
      "epoch": 0.2091997479521109,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004998232849306921,
      "loss": 6.064,
      "mean_token_accuracy": 0.1368905283510685,
      "num_tokens": 4590687.0,
      "step": 2490
    },
    {
      "entropy": 6.152202367782593,
      "epoch": 0.20961982776727578,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004998220962910693,
      "loss": 6.0475,
      "mean_token_accuracy": 0.12533890679478646,
      "num_tokens": 4599497.0,
      "step": 2495
    },
    {
      "entropy": 6.059301280975342,
      "epoch": 0.21003990758244068,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004998209036688386,
      "loss": 6.0091,
      "mean_token_accuracy": 0.12979092076420784,
      "num_tokens": 4607958.0,
      "step": 2500
    },
    {
      "entropy": 6.12682089805603,
      "epoch": 0.21045998739760555,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004998197070640216,
      "loss": 6.1445,
      "mean_token_accuracy": 0.12323907017707825,
      "num_tokens": 4617515.0,
      "step": 2505
    },
    {
      "entropy": 6.13975419998169,
      "epoch": 0.21088006721277042,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004998185064766391,
      "loss": 6.028,
      "mean_token_accuracy": 0.13126113414764404,
      "num_tokens": 4627037.0,
      "step": 2510
    },
    {
      "entropy": 5.999127197265625,
      "epoch": 0.21130014702793531,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004998173019067127,
      "loss": 6.0335,
      "mean_token_accuracy": 0.13387575298547744,
      "num_tokens": 4637393.0,
      "step": 2515
    },
    {
      "entropy": 6.049172449111938,
      "epoch": 0.21172022684310018,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004998160933542633,
      "loss": 6.0685,
      "mean_token_accuracy": 0.12128801420331001,
      "num_tokens": 4646832.0,
      "step": 2520
    },
    {
      "entropy": 6.16112699508667,
      "epoch": 0.21214030665826508,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004998148808193128,
      "loss": 6.095,
      "mean_token_accuracy": 0.1346332848072052,
      "num_tokens": 4655719.0,
      "step": 2525
    },
    {
      "entropy": 6.126083850860596,
      "epoch": 0.21256038647342995,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004998136643018823,
      "loss": 6.0477,
      "mean_token_accuracy": 0.12910717576742173,
      "num_tokens": 4665364.0,
      "step": 2530
    },
    {
      "entropy": 6.087383460998535,
      "epoch": 0.21298046628859482,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004998124438019935,
      "loss": 6.0166,
      "mean_token_accuracy": 0.1316668502986431,
      "num_tokens": 4674760.0,
      "step": 2535
    },
    {
      "entropy": 5.993421936035157,
      "epoch": 0.21340054610375972,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004998112193196681,
      "loss": 5.9488,
      "mean_token_accuracy": 0.13391186147928238,
      "num_tokens": 4683900.0,
      "step": 2540
    },
    {
      "entropy": 5.969591331481934,
      "epoch": 0.2138206259189246,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004998099908549277,
      "loss": 5.9886,
      "mean_token_accuracy": 0.1273488573729992,
      "num_tokens": 4693915.0,
      "step": 2545
    },
    {
      "entropy": 5.9875883102417,
      "epoch": 0.2142407057340895,
      "grad_norm": 1.078125,
      "learning_rate": 0.000499808758407794,
      "loss": 5.8619,
      "mean_token_accuracy": 0.13991126343607901,
      "num_tokens": 4703102.0,
      "step": 2550
    },
    {
      "entropy": 6.031775951385498,
      "epoch": 0.21466078554925436,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004998075219782889,
      "loss": 6.0787,
      "mean_token_accuracy": 0.1323968604207039,
      "num_tokens": 4712925.0,
      "step": 2555
    },
    {
      "entropy": 6.099209594726562,
      "epoch": 0.21508086536441923,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004998062815664344,
      "loss": 6.0069,
      "mean_token_accuracy": 0.12949655801057816,
      "num_tokens": 4722641.0,
      "step": 2560
    },
    {
      "entropy": 6.046544742584229,
      "epoch": 0.21550094517958412,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004998050371722524,
      "loss": 6.0781,
      "mean_token_accuracy": 0.12990766763687134,
      "num_tokens": 4732603.0,
      "step": 2565
    },
    {
      "entropy": 5.932075929641724,
      "epoch": 0.215921024994749,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004998037887957649,
      "loss": 5.9211,
      "mean_token_accuracy": 0.13785294219851493,
      "num_tokens": 4742644.0,
      "step": 2570
    },
    {
      "entropy": 6.21406192779541,
      "epoch": 0.2163411048099139,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004998025364369939,
      "loss": 6.2335,
      "mean_token_accuracy": 0.1234040841460228,
      "num_tokens": 4751482.0,
      "step": 2575
    },
    {
      "entropy": 6.237205886840821,
      "epoch": 0.21676118462507876,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004998012800959619,
      "loss": 6.0891,
      "mean_token_accuracy": 0.12757375389337539,
      "num_tokens": 4760593.0,
      "step": 2580
    },
    {
      "entropy": 6.093921661376953,
      "epoch": 0.21718126444024366,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004998000197726909,
      "loss": 6.0827,
      "mean_token_accuracy": 0.13335589170455933,
      "num_tokens": 4769294.0,
      "step": 2585
    },
    {
      "entropy": 6.031546688079834,
      "epoch": 0.21760134425540853,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004997987554672033,
      "loss": 6.0081,
      "mean_token_accuracy": 0.13305121287703514,
      "num_tokens": 4779239.0,
      "step": 2590
    },
    {
      "entropy": 6.059205436706543,
      "epoch": 0.2180214240705734,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004997974871795215,
      "loss": 6.0716,
      "mean_token_accuracy": 0.13057481795549392,
      "num_tokens": 4788211.0,
      "step": 2595
    },
    {
      "entropy": 6.109251928329468,
      "epoch": 0.2184415038857383,
      "grad_norm": 1.0625,
      "learning_rate": 0.000499796214909668,
      "loss": 6.0447,
      "mean_token_accuracy": 0.13531798869371414,
      "num_tokens": 4797921.0,
      "step": 2600
    },
    {
      "entropy": 6.092241191864014,
      "epoch": 0.21886158370090317,
      "grad_norm": 1.125,
      "learning_rate": 0.0004997949386576653,
      "loss": 6.0378,
      "mean_token_accuracy": 0.13213689997792244,
      "num_tokens": 4807772.0,
      "step": 2605
    },
    {
      "entropy": 6.042962265014649,
      "epoch": 0.21928166351606806,
      "grad_norm": 1.0390625,
      "learning_rate": 0.000499793658423536,
      "loss": 6.0593,
      "mean_token_accuracy": 0.13149860948324205,
      "num_tokens": 4817999.0,
      "step": 2610
    },
    {
      "entropy": 6.057756137847901,
      "epoch": 0.21970174333123293,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004997923742073028,
      "loss": 6.0136,
      "mean_token_accuracy": 0.13949006497859956,
      "num_tokens": 4826679.0,
      "step": 2615
    },
    {
      "entropy": 5.998235082626342,
      "epoch": 0.2201218231463978,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004997910860089884,
      "loss": 6.0157,
      "mean_token_accuracy": 0.13456794619560242,
      "num_tokens": 4834998.0,
      "step": 2620
    },
    {
      "entropy": 6.064208889007569,
      "epoch": 0.2205419029615627,
      "grad_norm": 1.125,
      "learning_rate": 0.0004997897938286156,
      "loss": 5.9717,
      "mean_token_accuracy": 0.1337368108332157,
      "num_tokens": 4843635.0,
      "step": 2625
    },
    {
      "entropy": 6.085119295120239,
      "epoch": 0.22096198277672757,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004997884976662075,
      "loss": 6.0919,
      "mean_token_accuracy": 0.12607687711715698,
      "num_tokens": 4852027.0,
      "step": 2630
    },
    {
      "entropy": 6.183318328857422,
      "epoch": 0.22138206259189247,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004997871975217868,
      "loss": 6.0165,
      "mean_token_accuracy": 0.1429324761033058,
      "num_tokens": 4861244.0,
      "step": 2635
    },
    {
      "entropy": 5.912706756591797,
      "epoch": 0.22180214240705734,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004997858933953768,
      "loss": 5.9326,
      "mean_token_accuracy": 0.1404939979314804,
      "num_tokens": 4869902.0,
      "step": 2640
    },
    {
      "entropy": 5.963629674911499,
      "epoch": 0.2222222222222222,
      "grad_norm": 1.125,
      "learning_rate": 0.0004997845852870004,
      "loss": 5.8982,
      "mean_token_accuracy": 0.14085923954844476,
      "num_tokens": 4878502.0,
      "step": 2645
    },
    {
      "entropy": 5.986082458496094,
      "epoch": 0.2226423020373871,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004997832731966806,
      "loss": 5.964,
      "mean_token_accuracy": 0.14047276899218558,
      "num_tokens": 4888348.0,
      "step": 2650
    },
    {
      "entropy": 6.051373815536499,
      "epoch": 0.22306238185255198,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004997819571244411,
      "loss": 6.0172,
      "mean_token_accuracy": 0.13845039829611777,
      "num_tokens": 4897302.0,
      "step": 2655
    },
    {
      "entropy": 6.01381549835205,
      "epoch": 0.22348246166771688,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004997806370703049,
      "loss": 6.0476,
      "mean_token_accuracy": 0.13289312049746513,
      "num_tokens": 4907078.0,
      "step": 2660
    },
    {
      "entropy": 5.983912467956543,
      "epoch": 0.22390254148288175,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004997793130342954,
      "loss": 5.8784,
      "mean_token_accuracy": 0.1382697917521,
      "num_tokens": 4917489.0,
      "step": 2665
    },
    {
      "entropy": 5.94772891998291,
      "epoch": 0.22432262129804661,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004997779850164363,
      "loss": 5.9836,
      "mean_token_accuracy": 0.13369291126728058,
      "num_tokens": 4927073.0,
      "step": 2670
    },
    {
      "entropy": 6.121642923355102,
      "epoch": 0.2247427011132115,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004997766530167508,
      "loss": 6.0821,
      "mean_token_accuracy": 0.1270790107548237,
      "num_tokens": 4935464.0,
      "step": 2675
    },
    {
      "entropy": 6.221409273147583,
      "epoch": 0.22516278092837638,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004997753170352627,
      "loss": 6.1649,
      "mean_token_accuracy": 0.12717002481222153,
      "num_tokens": 4944718.0,
      "step": 2680
    },
    {
      "entropy": 6.084948205947876,
      "epoch": 0.22558286074354128,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004997739770719955,
      "loss": 6.0396,
      "mean_token_accuracy": 0.1332695096731186,
      "num_tokens": 4954223.0,
      "step": 2685
    },
    {
      "entropy": 6.003955984115601,
      "epoch": 0.22600294055870615,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000499772633126973,
      "loss": 6.0733,
      "mean_token_accuracy": 0.1317312702536583,
      "num_tokens": 4963371.0,
      "step": 2690
    },
    {
      "entropy": 6.013844203948975,
      "epoch": 0.22642302037387105,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004997712852002192,
      "loss": 5.9358,
      "mean_token_accuracy": 0.14093514010310174,
      "num_tokens": 4972973.0,
      "step": 2695
    },
    {
      "entropy": 6.059261226654053,
      "epoch": 0.22684310018903592,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004997699332917578,
      "loss": 6.1739,
      "mean_token_accuracy": 0.12389883399009705,
      "num_tokens": 4982808.0,
      "step": 2700
    },
    {
      "entropy": 6.180717802047729,
      "epoch": 0.2272631800042008,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004997685774016127,
      "loss": 6.0444,
      "mean_token_accuracy": 0.13330344706773758,
      "num_tokens": 4992427.0,
      "step": 2705
    },
    {
      "entropy": 6.1143828392028805,
      "epoch": 0.22768325981936569,
      "grad_norm": 0.96875,
      "learning_rate": 0.000499767217529808,
      "loss": 6.2262,
      "mean_token_accuracy": 0.12522902861237525,
      "num_tokens": 5003562.0,
      "step": 2710
    },
    {
      "entropy": 6.120408248901367,
      "epoch": 0.22810333963453056,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004997658536763678,
      "loss": 5.9207,
      "mean_token_accuracy": 0.13713482916355133,
      "num_tokens": 5013429.0,
      "step": 2715
    },
    {
      "entropy": 6.080751562118531,
      "epoch": 0.22852341944969545,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004997644858413163,
      "loss": 6.046,
      "mean_token_accuracy": 0.13544052764773368,
      "num_tokens": 5022045.0,
      "step": 2720
    },
    {
      "entropy": 5.984566640853882,
      "epoch": 0.22894349926486032,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004997631140246775,
      "loss": 5.8853,
      "mean_token_accuracy": 0.14113514721393586,
      "num_tokens": 5032260.0,
      "step": 2725
    },
    {
      "entropy": 5.9389331340789795,
      "epoch": 0.2293635790800252,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000499761738226476,
      "loss": 5.9276,
      "mean_token_accuracy": 0.13583676218986512,
      "num_tokens": 5041688.0,
      "step": 2730
    },
    {
      "entropy": 6.007482099533081,
      "epoch": 0.2297836588951901,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000499760358446736,
      "loss": 6.0417,
      "mean_token_accuracy": 0.1291549324989319,
      "num_tokens": 5051005.0,
      "step": 2735
    },
    {
      "entropy": 6.1208288192749025,
      "epoch": 0.23020373871035496,
      "grad_norm": 1.15625,
      "learning_rate": 0.000499758974685482,
      "loss": 5.9698,
      "mean_token_accuracy": 0.13492617905139923,
      "num_tokens": 5060084.0,
      "step": 2740
    },
    {
      "entropy": 6.010481119155884,
      "epoch": 0.23062381852551986,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004997575869427385,
      "loss": 5.9731,
      "mean_token_accuracy": 0.14254927188158034,
      "num_tokens": 5069081.0,
      "step": 2745
    },
    {
      "entropy": 6.021266603469849,
      "epoch": 0.23104389834068473,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00049975619521853,
      "loss": 5.9703,
      "mean_token_accuracy": 0.13409337997436524,
      "num_tokens": 5078597.0,
      "step": 2750
    },
    {
      "entropy": 5.943169069290161,
      "epoch": 0.2314639781558496,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004997547995128814,
      "loss": 6.0084,
      "mean_token_accuracy": 0.13727526888251304,
      "num_tokens": 5087607.0,
      "step": 2755
    },
    {
      "entropy": 6.111000204086304,
      "epoch": 0.2318840579710145,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004997533998258171,
      "loss": 6.0123,
      "mean_token_accuracy": 0.1351937808096409,
      "num_tokens": 5097412.0,
      "step": 2760
    },
    {
      "entropy": 6.129235696792603,
      "epoch": 0.23230413778617937,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004997519961573622,
      "loss": 6.0735,
      "mean_token_accuracy": 0.1282409645617008,
      "num_tokens": 5105817.0,
      "step": 2765
    },
    {
      "entropy": 6.1673665046691895,
      "epoch": 0.23272421760134426,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004997505885075414,
      "loss": 6.1269,
      "mean_token_accuracy": 0.12907201573252677,
      "num_tokens": 5114958.0,
      "step": 2770
    },
    {
      "entropy": 6.069322109222412,
      "epoch": 0.23314429741650913,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004997491768763795,
      "loss": 6.0425,
      "mean_token_accuracy": 0.13409897387027742,
      "num_tokens": 5123728.0,
      "step": 2775
    },
    {
      "entropy": 6.003434944152832,
      "epoch": 0.23356437723167403,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004997477612639018,
      "loss": 6.0871,
      "mean_token_accuracy": 0.12734304070472718,
      "num_tokens": 5134099.0,
      "step": 2780
    },
    {
      "entropy": 6.186435317993164,
      "epoch": 0.2339844570468389,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004997463416701332,
      "loss": 6.094,
      "mean_token_accuracy": 0.1274227410554886,
      "num_tokens": 5142934.0,
      "step": 2785
    },
    {
      "entropy": 6.043578577041626,
      "epoch": 0.23440453686200377,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004997449180950989,
      "loss": 5.9298,
      "mean_token_accuracy": 0.1532392293214798,
      "num_tokens": 5151835.0,
      "step": 2790
    },
    {
      "entropy": 5.953121995925903,
      "epoch": 0.23482461667716867,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004997434905388241,
      "loss": 5.9842,
      "mean_token_accuracy": 0.1413706734776497,
      "num_tokens": 5161136.0,
      "step": 2795
    },
    {
      "entropy": 6.0334107875823975,
      "epoch": 0.23524469649233354,
      "grad_norm": 1.09375,
      "learning_rate": 0.000499742059001334,
      "loss": 5.9191,
      "mean_token_accuracy": 0.1378956101834774,
      "num_tokens": 5170741.0,
      "step": 2800
    },
    {
      "entropy": 5.991379880905152,
      "epoch": 0.23566477630749844,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004997406234826541,
      "loss": 5.9539,
      "mean_token_accuracy": 0.14059103950858115,
      "num_tokens": 5180549.0,
      "step": 2805
    },
    {
      "entropy": 5.995284509658814,
      "epoch": 0.2360848561226633,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004997391839828098,
      "loss": 5.9249,
      "mean_token_accuracy": 0.14390118718147277,
      "num_tokens": 5189486.0,
      "step": 2810
    },
    {
      "entropy": 6.030531978607177,
      "epoch": 0.23650493593782818,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004997377405018266,
      "loss": 6.0032,
      "mean_token_accuracy": 0.13120983093976973,
      "num_tokens": 5198525.0,
      "step": 2815
    },
    {
      "entropy": 6.0725666046142575,
      "epoch": 0.23692501575299307,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00049973629303973,
      "loss": 6.0662,
      "mean_token_accuracy": 0.1294946141541004,
      "num_tokens": 5207124.0,
      "step": 2820
    },
    {
      "entropy": 5.958557415008545,
      "epoch": 0.23734509556815794,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004997348415965457,
      "loss": 5.878,
      "mean_token_accuracy": 0.13335178643465043,
      "num_tokens": 5216529.0,
      "step": 2825
    },
    {
      "entropy": 6.007561159133911,
      "epoch": 0.23776517538332284,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004997333861722995,
      "loss": 6.0169,
      "mean_token_accuracy": 0.13635273203253745,
      "num_tokens": 5225796.0,
      "step": 2830
    },
    {
      "entropy": 6.125902462005615,
      "epoch": 0.2381852551984877,
      "grad_norm": 1.203125,
      "learning_rate": 0.000499731926767017,
      "loss": 6.0359,
      "mean_token_accuracy": 0.1375264048576355,
      "num_tokens": 5233876.0,
      "step": 2835
    },
    {
      "entropy": 5.989985036849975,
      "epoch": 0.23860533501365258,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004997304633807242,
      "loss": 6.0396,
      "mean_token_accuracy": 0.12682786211371422,
      "num_tokens": 5244782.0,
      "step": 2840
    },
    {
      "entropy": 6.019674825668335,
      "epoch": 0.23902541482881748,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004997289960134468,
      "loss": 5.9886,
      "mean_token_accuracy": 0.13695719763636588,
      "num_tokens": 5253453.0,
      "step": 2845
    },
    {
      "entropy": 6.0026778221130375,
      "epoch": 0.23944549464398235,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004997275246652111,
      "loss": 6.0149,
      "mean_token_accuracy": 0.13926383331418038,
      "num_tokens": 5262355.0,
      "step": 2850
    },
    {
      "entropy": 5.99656400680542,
      "epoch": 0.23986557445914725,
      "grad_norm": 1.125,
      "learning_rate": 0.000499726049336043,
      "loss": 5.9374,
      "mean_token_accuracy": 0.13838583379983901,
      "num_tokens": 5271959.0,
      "step": 2855
    },
    {
      "entropy": 6.058608770370483,
      "epoch": 0.24028565427431212,
      "grad_norm": 1.125,
      "learning_rate": 0.0004997245700259686,
      "loss": 5.9673,
      "mean_token_accuracy": 0.1403045229613781,
      "num_tokens": 5281393.0,
      "step": 2860
    },
    {
      "entropy": 6.061829471588135,
      "epoch": 0.240705734089477,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004997230867350141,
      "loss": 6.0878,
      "mean_token_accuracy": 0.1320396728813648,
      "num_tokens": 5290979.0,
      "step": 2865
    },
    {
      "entropy": 6.128190040588379,
      "epoch": 0.24112581390464188,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004997215994632059,
      "loss": 6.0392,
      "mean_token_accuracy": 0.13521442338824272,
      "num_tokens": 5300263.0,
      "step": 2870
    },
    {
      "entropy": 6.065250301361084,
      "epoch": 0.24154589371980675,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004997201082105704,
      "loss": 6.0654,
      "mean_token_accuracy": 0.12793515026569366,
      "num_tokens": 5309522.0,
      "step": 2875
    },
    {
      "entropy": 6.059223175048828,
      "epoch": 0.24196597353497165,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004997186129771338,
      "loss": 6.0625,
      "mean_token_accuracy": 0.13326726630330085,
      "num_tokens": 5319770.0,
      "step": 2880
    },
    {
      "entropy": 6.18207311630249,
      "epoch": 0.24238605335013652,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004997171137629226,
      "loss": 6.0695,
      "mean_token_accuracy": 0.13562847971916198,
      "num_tokens": 5328400.0,
      "step": 2885
    },
    {
      "entropy": 5.968668270111084,
      "epoch": 0.24280613316530142,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004997156105679636,
      "loss": 5.8716,
      "mean_token_accuracy": 0.14514228701591492,
      "num_tokens": 5336338.0,
      "step": 2890
    },
    {
      "entropy": 5.89683952331543,
      "epoch": 0.2432262129804663,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004997141033922832,
      "loss": 5.9748,
      "mean_token_accuracy": 0.1309155747294426,
      "num_tokens": 5345391.0,
      "step": 2895
    },
    {
      "entropy": 6.103964805603027,
      "epoch": 0.24364629279563116,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004997125922359081,
      "loss": 6.0044,
      "mean_token_accuracy": 0.12651756703853606,
      "num_tokens": 5354709.0,
      "step": 2900
    },
    {
      "entropy": 6.039173555374146,
      "epoch": 0.24406637261079606,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004997110770988652,
      "loss": 5.9187,
      "mean_token_accuracy": 0.13533097133040428,
      "num_tokens": 5363738.0,
      "step": 2905
    },
    {
      "entropy": 6.009365177154541,
      "epoch": 0.24448645242596093,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004997095579811813,
      "loss": 6.0492,
      "mean_token_accuracy": 0.13356854170560836,
      "num_tokens": 5373583.0,
      "step": 2910
    },
    {
      "entropy": 6.10346941947937,
      "epoch": 0.24490653224112582,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004997080348828833,
      "loss": 6.0964,
      "mean_token_accuracy": 0.1329493686556816,
      "num_tokens": 5383486.0,
      "step": 2915
    },
    {
      "entropy": 6.022554492950439,
      "epoch": 0.2453266120562907,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004997065078039981,
      "loss": 5.995,
      "mean_token_accuracy": 0.1254143126308918,
      "num_tokens": 5391974.0,
      "step": 2920
    },
    {
      "entropy": 6.089977025985718,
      "epoch": 0.24574669187145556,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004997049767445529,
      "loss": 6.0288,
      "mean_token_accuracy": 0.12984034791588783,
      "num_tokens": 5400882.0,
      "step": 2925
    },
    {
      "entropy": 6.110510158538818,
      "epoch": 0.24616677168662046,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004997034417045746,
      "loss": 5.9927,
      "mean_token_accuracy": 0.1267140880227089,
      "num_tokens": 5410538.0,
      "step": 2930
    },
    {
      "entropy": 5.971307563781738,
      "epoch": 0.24658685150178533,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004997019026840907,
      "loss": 5.8743,
      "mean_token_accuracy": 0.13612414821982383,
      "num_tokens": 5419406.0,
      "step": 2935
    },
    {
      "entropy": 5.88221755027771,
      "epoch": 0.24700693131695023,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004997003596831282,
      "loss": 5.9978,
      "mean_token_accuracy": 0.13463943675160409,
      "num_tokens": 5428817.0,
      "step": 2940
    },
    {
      "entropy": 6.0984635829925535,
      "epoch": 0.2474270111321151,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004996988127017145,
      "loss": 6.0253,
      "mean_token_accuracy": 0.13181837573647498,
      "num_tokens": 5438277.0,
      "step": 2945
    },
    {
      "entropy": 6.0544061183929445,
      "epoch": 0.24784709094728,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004996972617398772,
      "loss": 6.042,
      "mean_token_accuracy": 0.13205936923623085,
      "num_tokens": 5447440.0,
      "step": 2950
    },
    {
      "entropy": 6.0680958271026615,
      "epoch": 0.24826717076244487,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004996957067976435,
      "loss": 5.9541,
      "mean_token_accuracy": 0.1357963502407074,
      "num_tokens": 5455988.0,
      "step": 2955
    },
    {
      "entropy": 6.0058001518249515,
      "epoch": 0.24868725057760974,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004996941478750411,
      "loss": 5.9769,
      "mean_token_accuracy": 0.1373401865363121,
      "num_tokens": 5464996.0,
      "step": 2960
    },
    {
      "entropy": 6.083559465408325,
      "epoch": 0.24910733039277463,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004996925849720975,
      "loss": 6.1025,
      "mean_token_accuracy": 0.12863337025046348,
      "num_tokens": 5474174.0,
      "step": 2965
    },
    {
      "entropy": 6.146986627578736,
      "epoch": 0.2495274102079395,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004996910180888405,
      "loss": 5.9994,
      "mean_token_accuracy": 0.13324794694781303,
      "num_tokens": 5482838.0,
      "step": 2970
    },
    {
      "entropy": 6.005090427398682,
      "epoch": 0.2499474900231044,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004996894472252977,
      "loss": 6.0195,
      "mean_token_accuracy": 0.13370491713285446,
      "num_tokens": 5491616.0,
      "step": 2975
    },
    {
      "entropy": 5.99453763961792,
      "epoch": 0.25036756983826924,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004996878723814973,
      "loss": 5.9972,
      "mean_token_accuracy": 0.12933446019887923,
      "num_tokens": 5500942.0,
      "step": 2980
    },
    {
      "entropy": 6.035016107559204,
      "epoch": 0.25078764965343414,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004996862935574667,
      "loss": 5.9539,
      "mean_token_accuracy": 0.13152176290750503,
      "num_tokens": 5510078.0,
      "step": 2985
    },
    {
      "entropy": 5.9494434833526615,
      "epoch": 0.25120772946859904,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004996847107532342,
      "loss": 5.9763,
      "mean_token_accuracy": 0.13343006893992423,
      "num_tokens": 5518924.0,
      "step": 2990
    },
    {
      "entropy": 6.115957880020142,
      "epoch": 0.25162780928376394,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004996831239688277,
      "loss": 5.9896,
      "mean_token_accuracy": 0.12950923070311546,
      "num_tokens": 5527385.0,
      "step": 2995
    },
    {
      "entropy": 5.96525821685791,
      "epoch": 0.2520478890989288,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004996815332042754,
      "loss": 5.8456,
      "mean_token_accuracy": 0.14307771176099776,
      "num_tokens": 5536781.0,
      "step": 3000
    },
    {
      "epoch": 0.2520478890989288,
      "eval_entropy": 5.826104599310177,
      "eval_loss": 6.01594352722168,
      "eval_mean_token_accuracy": 0.13980411247313787,
      "eval_num_tokens": 5536781.0,
      "eval_runtime": 27.3461,
      "eval_samples_per_second": 1366.412,
      "eval_steps_per_second": 170.811,
      "step": 3000
    },
    {
      "entropy": 6.008435201644898,
      "epoch": 0.2524679689140937,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004996799384596054,
      "loss": 6.0261,
      "mean_token_accuracy": 0.1376914620399475,
      "num_tokens": 5545893.0,
      "step": 3005
    },
    {
      "entropy": 6.02188720703125,
      "epoch": 0.2528880487292586,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004996783397348461,
      "loss": 5.9762,
      "mean_token_accuracy": 0.1329520359635353,
      "num_tokens": 5555818.0,
      "step": 3010
    },
    {
      "entropy": 6.045353794097901,
      "epoch": 0.2533081285444234,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004996767370300256,
      "loss": 5.9502,
      "mean_token_accuracy": 0.13486573100090027,
      "num_tokens": 5565331.0,
      "step": 3015
    },
    {
      "entropy": 6.056732606887818,
      "epoch": 0.2537282083595883,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004996751303451724,
      "loss": 5.9577,
      "mean_token_accuracy": 0.13709068223834037,
      "num_tokens": 5574003.0,
      "step": 3020
    },
    {
      "entropy": 5.993344259262085,
      "epoch": 0.2541482881747532,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004996735196803149,
      "loss": 5.8551,
      "mean_token_accuracy": 0.1428755633533001,
      "num_tokens": 5582517.0,
      "step": 3025
    },
    {
      "entropy": 5.977582693099976,
      "epoch": 0.2545683679899181,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004996719050354818,
      "loss": 6.0686,
      "mean_token_accuracy": 0.13471986055374147,
      "num_tokens": 5591952.0,
      "step": 3030
    },
    {
      "entropy": 6.0037376403808596,
      "epoch": 0.25498844780508295,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004996702864107015,
      "loss": 5.9609,
      "mean_token_accuracy": 0.1396644115447998,
      "num_tokens": 5601460.0,
      "step": 3035
    },
    {
      "entropy": 6.176335668563842,
      "epoch": 0.25540852762024785,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004996686638060028,
      "loss": 6.0902,
      "mean_token_accuracy": 0.1306911051273346,
      "num_tokens": 5610776.0,
      "step": 3040
    },
    {
      "entropy": 5.970763540267944,
      "epoch": 0.25582860743541275,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004996670372214144,
      "loss": 5.9871,
      "mean_token_accuracy": 0.13826777338981627,
      "num_tokens": 5619627.0,
      "step": 3045
    },
    {
      "entropy": 5.914526128768921,
      "epoch": 0.2562486872505776,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004996654066569651,
      "loss": 5.8622,
      "mean_token_accuracy": 0.14179132953286172,
      "num_tokens": 5628969.0,
      "step": 3050
    },
    {
      "entropy": 5.981579828262329,
      "epoch": 0.2566687670657425,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004996637721126839,
      "loss": 5.9332,
      "mean_token_accuracy": 0.13520999103784562,
      "num_tokens": 5638629.0,
      "step": 3055
    },
    {
      "entropy": 6.005596733093261,
      "epoch": 0.2570888468809074,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004996621335885996,
      "loss": 5.9991,
      "mean_token_accuracy": 0.13599340468645096,
      "num_tokens": 5647571.0,
      "step": 3060
    },
    {
      "entropy": 6.013420534133911,
      "epoch": 0.2575089266960722,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004996604910847413,
      "loss": 5.916,
      "mean_token_accuracy": 0.14960622489452363,
      "num_tokens": 5656709.0,
      "step": 3065
    },
    {
      "entropy": 6.038319206237793,
      "epoch": 0.2579290065112371,
      "grad_norm": 1.109375,
      "learning_rate": 0.000499658844601138,
      "loss": 6.1017,
      "mean_token_accuracy": 0.13502436354756356,
      "num_tokens": 5665714.0,
      "step": 3070
    },
    {
      "entropy": 6.07736644744873,
      "epoch": 0.258349086326402,
      "grad_norm": 1.0,
      "learning_rate": 0.000499657194137819,
      "loss": 6.0546,
      "mean_token_accuracy": 0.13854038044810296,
      "num_tokens": 5675854.0,
      "step": 3075
    },
    {
      "entropy": 6.074629402160644,
      "epoch": 0.2587691661415669,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004996555396948136,
      "loss": 5.8721,
      "mean_token_accuracy": 0.13419756293296814,
      "num_tokens": 5685690.0,
      "step": 3080
    },
    {
      "entropy": 5.940470170974732,
      "epoch": 0.25918924595673176,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004996538812721509,
      "loss": 5.9341,
      "mean_token_accuracy": 0.14152218475937844,
      "num_tokens": 5695766.0,
      "step": 3085
    },
    {
      "entropy": 6.018071937561035,
      "epoch": 0.25960932577189666,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004996522188698603,
      "loss": 5.9909,
      "mean_token_accuracy": 0.13503170683979987,
      "num_tokens": 5704365.0,
      "step": 3090
    },
    {
      "entropy": 6.13015513420105,
      "epoch": 0.26002940558706156,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004996505524879714,
      "loss": 6.0965,
      "mean_token_accuracy": 0.13045159131288528,
      "num_tokens": 5713345.0,
      "step": 3095
    },
    {
      "entropy": 6.053025817871093,
      "epoch": 0.2604494854022264,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004996488821265137,
      "loss": 5.8921,
      "mean_token_accuracy": 0.14050639048218727,
      "num_tokens": 5722907.0,
      "step": 3100
    },
    {
      "entropy": 5.928135585784912,
      "epoch": 0.2608695652173913,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004996472077855166,
      "loss": 5.9387,
      "mean_token_accuracy": 0.13793488591909409,
      "num_tokens": 5731589.0,
      "step": 3105
    },
    {
      "entropy": 5.923902750015259,
      "epoch": 0.2612896450325562,
      "grad_norm": 1.09375,
      "learning_rate": 0.00049964552946501,
      "loss": 5.9237,
      "mean_token_accuracy": 0.1389499545097351,
      "num_tokens": 5739922.0,
      "step": 3110
    },
    {
      "entropy": 5.905591726303101,
      "epoch": 0.2617097248477211,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004996438471650235,
      "loss": 5.8397,
      "mean_token_accuracy": 0.145526784658432,
      "num_tokens": 5749206.0,
      "step": 3115
    },
    {
      "entropy": 6.01796875,
      "epoch": 0.26212980466288593,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004996421608855869,
      "loss": 5.8992,
      "mean_token_accuracy": 0.1419477328658104,
      "num_tokens": 5758803.0,
      "step": 3120
    },
    {
      "entropy": 5.962277746200561,
      "epoch": 0.26254988447805083,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004996404706267301,
      "loss": 5.9991,
      "mean_token_accuracy": 0.1301351211965084,
      "num_tokens": 5768368.0,
      "step": 3125
    },
    {
      "entropy": 5.935734415054322,
      "epoch": 0.26296996429321573,
      "grad_norm": 1.203125,
      "learning_rate": 0.000499638776388483,
      "loss": 5.8424,
      "mean_token_accuracy": 0.14718177318572997,
      "num_tokens": 5776707.0,
      "step": 3130
    },
    {
      "entropy": 5.992966365814209,
      "epoch": 0.26339004410838057,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004996370781708757,
      "loss": 6.0208,
      "mean_token_accuracy": 0.13097626715898514,
      "num_tokens": 5787037.0,
      "step": 3135
    },
    {
      "entropy": 6.120069789886474,
      "epoch": 0.26381012392354547,
      "grad_norm": 1.375,
      "learning_rate": 0.0004996353759739382,
      "loss": 5.9819,
      "mean_token_accuracy": 0.140574112534523,
      "num_tokens": 5796630.0,
      "step": 3140
    },
    {
      "entropy": 5.9368353366851805,
      "epoch": 0.26423020373871037,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004996336697977007,
      "loss": 5.978,
      "mean_token_accuracy": 0.13346768617630006,
      "num_tokens": 5806402.0,
      "step": 3145
    },
    {
      "entropy": 5.97723422050476,
      "epoch": 0.2646502835538752,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004996319596421933,
      "loss": 5.9278,
      "mean_token_accuracy": 0.13734676092863082,
      "num_tokens": 5815742.0,
      "step": 3150
    },
    {
      "entropy": 5.945355033874511,
      "epoch": 0.2650703633690401,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004996302455074466,
      "loss": 5.9322,
      "mean_token_accuracy": 0.1382609039545059,
      "num_tokens": 5824915.0,
      "step": 3155
    },
    {
      "entropy": 6.0514014720916744,
      "epoch": 0.265490443184205,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004996285273934906,
      "loss": 5.9852,
      "mean_token_accuracy": 0.13715496361255647,
      "num_tokens": 5834978.0,
      "step": 3160
    },
    {
      "entropy": 6.052202987670898,
      "epoch": 0.2659105229993699,
      "grad_norm": 1.09375,
      "learning_rate": 0.000499626805300356,
      "loss": 6.1228,
      "mean_token_accuracy": 0.1326017878949642,
      "num_tokens": 5845684.0,
      "step": 3165
    },
    {
      "entropy": 6.146022653579712,
      "epoch": 0.26633060281453474,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004996250792280732,
      "loss": 5.9964,
      "mean_token_accuracy": 0.13485243916511536,
      "num_tokens": 5854905.0,
      "step": 3170
    },
    {
      "entropy": 6.040951061248779,
      "epoch": 0.26675068262969964,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004996233491766727,
      "loss": 6.0164,
      "mean_token_accuracy": 0.1350037656724453,
      "num_tokens": 5863654.0,
      "step": 3175
    },
    {
      "entropy": 6.058253955841065,
      "epoch": 0.26717076244486454,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004996216151461854,
      "loss": 6.0152,
      "mean_token_accuracy": 0.13996267989277839,
      "num_tokens": 5872442.0,
      "step": 3180
    },
    {
      "entropy": 6.012804937362671,
      "epoch": 0.2675908422600294,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004996198771366417,
      "loss": 5.9378,
      "mean_token_accuracy": 0.13716716319322586,
      "num_tokens": 5882372.0,
      "step": 3185
    },
    {
      "entropy": 5.8219091415405275,
      "epoch": 0.2680109220751943,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004996181351480726,
      "loss": 5.7487,
      "mean_token_accuracy": 0.14560527056455613,
      "num_tokens": 5891113.0,
      "step": 3190
    },
    {
      "entropy": 5.941916608810425,
      "epoch": 0.2684310018903592,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004996163891805089,
      "loss": 5.9892,
      "mean_token_accuracy": 0.14109294563531877,
      "num_tokens": 5899582.0,
      "step": 3195
    },
    {
      "entropy": 6.037355852127075,
      "epoch": 0.2688510817055241,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004996146392339815,
      "loss": 5.9353,
      "mean_token_accuracy": 0.1392637461423874,
      "num_tokens": 5908938.0,
      "step": 3200
    },
    {
      "entropy": 5.9513650894165036,
      "epoch": 0.2692711615206889,
      "grad_norm": 1.125,
      "learning_rate": 0.0004996128853085215,
      "loss": 5.9041,
      "mean_token_accuracy": 0.13895752876996995,
      "num_tokens": 5918055.0,
      "step": 3205
    },
    {
      "entropy": 5.997664451599121,
      "epoch": 0.2696912413358538,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004996111274041598,
      "loss": 5.8986,
      "mean_token_accuracy": 0.13369553461670874,
      "num_tokens": 5926744.0,
      "step": 3210
    },
    {
      "entropy": 5.959716939926148,
      "epoch": 0.2701113211510187,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004996093655209277,
      "loss": 5.9958,
      "mean_token_accuracy": 0.1349453993141651,
      "num_tokens": 5936521.0,
      "step": 3215
    },
    {
      "entropy": 6.088764905929565,
      "epoch": 0.27053140096618356,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004996075996588563,
      "loss": 6.0616,
      "mean_token_accuracy": 0.13318859413266182,
      "num_tokens": 5945010.0,
      "step": 3220
    },
    {
      "entropy": 6.052014112472534,
      "epoch": 0.27095148078134845,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000499605829817977,
      "loss": 5.9638,
      "mean_token_accuracy": 0.14223103746771812,
      "num_tokens": 5953766.0,
      "step": 3225
    },
    {
      "entropy": 5.979779624938965,
      "epoch": 0.27137156059651335,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000499604055998321,
      "loss": 5.875,
      "mean_token_accuracy": 0.13957174718379975,
      "num_tokens": 5962168.0,
      "step": 3230
    },
    {
      "entropy": 5.906911420822143,
      "epoch": 0.2717916404116782,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004996022781999198,
      "loss": 5.9063,
      "mean_token_accuracy": 0.13852998465299607,
      "num_tokens": 5971627.0,
      "step": 3235
    },
    {
      "entropy": 5.9631248950958256,
      "epoch": 0.2722117202268431,
      "grad_norm": 1.125,
      "learning_rate": 0.000499600496422805,
      "loss": 5.9925,
      "mean_token_accuracy": 0.13308593779802322,
      "num_tokens": 5981775.0,
      "step": 3240
    },
    {
      "entropy": 5.993693208694458,
      "epoch": 0.272631800042008,
      "grad_norm": 1.15625,
      "learning_rate": 0.000499598710667008,
      "loss": 5.9061,
      "mean_token_accuracy": 0.1379516489803791,
      "num_tokens": 5991097.0,
      "step": 3245
    },
    {
      "entropy": 5.984791469573975,
      "epoch": 0.2730518798571729,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004995969209325604,
      "loss": 5.9693,
      "mean_token_accuracy": 0.13060558065772057,
      "num_tokens": 5999517.0,
      "step": 3250
    },
    {
      "entropy": 5.930228567123413,
      "epoch": 0.2734719596723377,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004995951272194941,
      "loss": 5.9479,
      "mean_token_accuracy": 0.12969653084874153,
      "num_tokens": 6008545.0,
      "step": 3255
    },
    {
      "entropy": 6.119350004196167,
      "epoch": 0.2738920394875026,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004995933295278407,
      "loss": 5.9365,
      "mean_token_accuracy": 0.1350548431277275,
      "num_tokens": 6017366.0,
      "step": 3260
    },
    {
      "entropy": 5.9179764747619625,
      "epoch": 0.2743121193026675,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004995915278576321,
      "loss": 5.8875,
      "mean_token_accuracy": 0.14413413256406785,
      "num_tokens": 6025597.0,
      "step": 3265
    },
    {
      "entropy": 5.981735897064209,
      "epoch": 0.27473219911783237,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004995897222089004,
      "loss": 5.9867,
      "mean_token_accuracy": 0.13929954469203948,
      "num_tokens": 6034239.0,
      "step": 3270
    },
    {
      "entropy": 6.11962890625,
      "epoch": 0.27515227893299726,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004995879125816772,
      "loss": 6.0068,
      "mean_token_accuracy": 0.13686064183712005,
      "num_tokens": 6043837.0,
      "step": 3275
    },
    {
      "entropy": 5.9640697002410885,
      "epoch": 0.27557235874816216,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004995860989759949,
      "loss": 5.956,
      "mean_token_accuracy": 0.1416999839246273,
      "num_tokens": 6053217.0,
      "step": 3280
    },
    {
      "entropy": 6.0521222114562985,
      "epoch": 0.27599243856332706,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004995842813918855,
      "loss": 5.9551,
      "mean_token_accuracy": 0.13722361102700234,
      "num_tokens": 6061553.0,
      "step": 3285
    },
    {
      "entropy": 5.9697545051574705,
      "epoch": 0.2764125183784919,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004995824598293812,
      "loss": 5.8601,
      "mean_token_accuracy": 0.14069184213876723,
      "num_tokens": 6070080.0,
      "step": 3290
    },
    {
      "entropy": 5.995730686187744,
      "epoch": 0.2768325981936568,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004995806342885142,
      "loss": 5.9852,
      "mean_token_accuracy": 0.14142092764377595,
      "num_tokens": 6078438.0,
      "step": 3295
    },
    {
      "entropy": 6.019344282150269,
      "epoch": 0.2772526780088217,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000499578804769317,
      "loss": 5.9771,
      "mean_token_accuracy": 0.13406604304909706,
      "num_tokens": 6087794.0,
      "step": 3300
    },
    {
      "entropy": 6.085688066482544,
      "epoch": 0.27767275782398654,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004995769712718218,
      "loss": 6.0065,
      "mean_token_accuracy": 0.13597604855895043,
      "num_tokens": 6096709.0,
      "step": 3305
    },
    {
      "entropy": 5.9711473941802975,
      "epoch": 0.27809283763915144,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004995751337960613,
      "loss": 5.9269,
      "mean_token_accuracy": 0.13786234930157662,
      "num_tokens": 6105866.0,
      "step": 3310
    },
    {
      "entropy": 6.074538946151733,
      "epoch": 0.27851291745431633,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004995732923420679,
      "loss": 5.8813,
      "mean_token_accuracy": 0.13884977921843528,
      "num_tokens": 6114882.0,
      "step": 3315
    },
    {
      "entropy": 5.857705545425415,
      "epoch": 0.2789329972694812,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004995714469098743,
      "loss": 5.8412,
      "mean_token_accuracy": 0.13618046417832375,
      "num_tokens": 6123978.0,
      "step": 3320
    },
    {
      "entropy": 5.886438226699829,
      "epoch": 0.2793530770846461,
      "grad_norm": 1.171875,
      "learning_rate": 0.000499569597499513,
      "loss": 5.9946,
      "mean_token_accuracy": 0.1375075623393059,
      "num_tokens": 6133246.0,
      "step": 3325
    },
    {
      "entropy": 5.993762636184693,
      "epoch": 0.27977315689981097,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004995677441110172,
      "loss": 5.8559,
      "mean_token_accuracy": 0.14045721143484116,
      "num_tokens": 6142865.0,
      "step": 3330
    },
    {
      "entropy": 6.025714874267578,
      "epoch": 0.28019323671497587,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004995658867444192,
      "loss": 5.9512,
      "mean_token_accuracy": 0.13522876128554345,
      "num_tokens": 6152492.0,
      "step": 3335
    },
    {
      "entropy": 5.981087923049927,
      "epoch": 0.2806133165301407,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004995640253997523,
      "loss": 5.959,
      "mean_token_accuracy": 0.1329936422407627,
      "num_tokens": 6161953.0,
      "step": 3340
    },
    {
      "entropy": 5.841523504257202,
      "epoch": 0.2810333963453056,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004995621600770492,
      "loss": 5.8129,
      "mean_token_accuracy": 0.1412846788764,
      "num_tokens": 6171467.0,
      "step": 3345
    },
    {
      "entropy": 5.90531325340271,
      "epoch": 0.2814534761604705,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004995602907763431,
      "loss": 5.8859,
      "mean_token_accuracy": 0.13736898675560952,
      "num_tokens": 6180646.0,
      "step": 3350
    },
    {
      "entropy": 5.981820106506348,
      "epoch": 0.28187355597563535,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004995584174976672,
      "loss": 5.9116,
      "mean_token_accuracy": 0.13150710314512254,
      "num_tokens": 6189832.0,
      "step": 3355
    },
    {
      "entropy": 5.980225324630737,
      "epoch": 0.28229363579080025,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004995565402410544,
      "loss": 5.7994,
      "mean_token_accuracy": 0.14472294151782988,
      "num_tokens": 6198339.0,
      "step": 3360
    },
    {
      "entropy": 5.924914312362671,
      "epoch": 0.28271371560596514,
      "grad_norm": 1.25,
      "learning_rate": 0.0004995546590065383,
      "loss": 5.8935,
      "mean_token_accuracy": 0.1394026793539524,
      "num_tokens": 6207564.0,
      "step": 3365
    },
    {
      "entropy": 5.931164789199829,
      "epoch": 0.28313379542113004,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004995527737941518,
      "loss": 5.9781,
      "mean_token_accuracy": 0.13914698138833045,
      "num_tokens": 6216056.0,
      "step": 3370
    },
    {
      "entropy": 5.968091154098511,
      "epoch": 0.2835538752362949,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004995508846039287,
      "loss": 5.9114,
      "mean_token_accuracy": 0.13818917274475098,
      "num_tokens": 6225573.0,
      "step": 3375
    },
    {
      "entropy": 6.069493198394776,
      "epoch": 0.2839739550514598,
      "grad_norm": 1.125,
      "learning_rate": 0.0004995489914359023,
      "loss": 6.0417,
      "mean_token_accuracy": 0.13078732788562775,
      "num_tokens": 6235057.0,
      "step": 3380
    },
    {
      "entropy": 6.030756092071533,
      "epoch": 0.2843940348666247,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004995470942901061,
      "loss": 5.9557,
      "mean_token_accuracy": 0.13645285964012147,
      "num_tokens": 6244164.0,
      "step": 3385
    },
    {
      "entropy": 6.068174362182617,
      "epoch": 0.2848141146817895,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004995451931665738,
      "loss": 5.9588,
      "mean_token_accuracy": 0.13424528315663337,
      "num_tokens": 6253095.0,
      "step": 3390
    },
    {
      "entropy": 5.918725109100341,
      "epoch": 0.2852341944969544,
      "grad_norm": 1.21875,
      "learning_rate": 0.000499543288065339,
      "loss": 5.9038,
      "mean_token_accuracy": 0.13533290028572081,
      "num_tokens": 6261134.0,
      "step": 3395
    },
    {
      "entropy": 5.926444101333618,
      "epoch": 0.2856542743121193,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004995413789864354,
      "loss": 5.9066,
      "mean_token_accuracy": 0.1413659855723381,
      "num_tokens": 6270384.0,
      "step": 3400
    },
    {
      "entropy": 5.974505090713501,
      "epoch": 0.28607435412728416,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004995394659298971,
      "loss": 5.842,
      "mean_token_accuracy": 0.14783402383327485,
      "num_tokens": 6279702.0,
      "step": 3405
    },
    {
      "entropy": 5.924916839599609,
      "epoch": 0.28649443394244906,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004995375488957576,
      "loss": 5.8871,
      "mean_token_accuracy": 0.1403558671474457,
      "num_tokens": 6288297.0,
      "step": 3410
    },
    {
      "entropy": 5.979348230361938,
      "epoch": 0.28691451375761395,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000499535627884051,
      "loss": 5.983,
      "mean_token_accuracy": 0.12937102988362312,
      "num_tokens": 6297288.0,
      "step": 3415
    },
    {
      "entropy": 6.12882170677185,
      "epoch": 0.28733459357277885,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004995337028948115,
      "loss": 6.0094,
      "mean_token_accuracy": 0.13142260611057283,
      "num_tokens": 6306719.0,
      "step": 3420
    },
    {
      "entropy": 5.93622145652771,
      "epoch": 0.2877546733879437,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004995317739280731,
      "loss": 5.8256,
      "mean_token_accuracy": 0.14748729318380355,
      "num_tokens": 6316639.0,
      "step": 3425
    },
    {
      "entropy": 5.951609373092651,
      "epoch": 0.2881747532031086,
      "grad_norm": 1.125,
      "learning_rate": 0.0004995298409838699,
      "loss": 5.9555,
      "mean_token_accuracy": 0.1391440898180008,
      "num_tokens": 6326879.0,
      "step": 3430
    },
    {
      "entropy": 5.9383097171783445,
      "epoch": 0.2885948330182735,
      "grad_norm": 1.140625,
      "learning_rate": 0.000499527904062236,
      "loss": 5.8671,
      "mean_token_accuracy": 0.139659284055233,
      "num_tokens": 6335729.0,
      "step": 3435
    },
    {
      "entropy": 5.971969127655029,
      "epoch": 0.28901491283343833,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004995259631632061,
      "loss": 5.9185,
      "mean_token_accuracy": 0.1310904636979103,
      "num_tokens": 6345154.0,
      "step": 3440
    },
    {
      "entropy": 5.977327823638916,
      "epoch": 0.28943499264860323,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004995240182868143,
      "loss": 5.8858,
      "mean_token_accuracy": 0.14063168689608574,
      "num_tokens": 6354309.0,
      "step": 3445
    },
    {
      "entropy": 5.8834575653076175,
      "epoch": 0.2898550724637681,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004995220694330951,
      "loss": 5.8586,
      "mean_token_accuracy": 0.14082162082195282,
      "num_tokens": 6363389.0,
      "step": 3450
    },
    {
      "entropy": 5.92822527885437,
      "epoch": 0.290275152278933,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004995201166020832,
      "loss": 5.9065,
      "mean_token_accuracy": 0.13562884032726288,
      "num_tokens": 6372475.0,
      "step": 3455
    },
    {
      "entropy": 6.024522161483764,
      "epoch": 0.29069523209409787,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000499518159793813,
      "loss": 5.8677,
      "mean_token_accuracy": 0.14305904358625413,
      "num_tokens": 6380906.0,
      "step": 3460
    },
    {
      "entropy": 5.884508085250855,
      "epoch": 0.29111531190926276,
      "grad_norm": 1.125,
      "learning_rate": 0.000499516199008319,
      "loss": 5.8659,
      "mean_token_accuracy": 0.14293192625045775,
      "num_tokens": 6390085.0,
      "step": 3465
    },
    {
      "entropy": 6.008301162719727,
      "epoch": 0.29153539172442766,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004995142342456364,
      "loss": 5.9391,
      "mean_token_accuracy": 0.13623592853546143,
      "num_tokens": 6399441.0,
      "step": 3470
    },
    {
      "entropy": 6.066584539413452,
      "epoch": 0.2919554715395925,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004995122655057997,
      "loss": 6.0208,
      "mean_token_accuracy": 0.13953343629837037,
      "num_tokens": 6408995.0,
      "step": 3475
    },
    {
      "entropy": 5.888063764572143,
      "epoch": 0.2923755513547574,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004995102927888437,
      "loss": 5.7722,
      "mean_token_accuracy": 0.1459358014166355,
      "num_tokens": 6418080.0,
      "step": 3480
    },
    {
      "entropy": 5.952468156814575,
      "epoch": 0.2927956311699223,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004995083160948036,
      "loss": 5.9318,
      "mean_token_accuracy": 0.14023924767971038,
      "num_tokens": 6426732.0,
      "step": 3485
    },
    {
      "entropy": 5.971553039550781,
      "epoch": 0.29321571098508714,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004995063354237141,
      "loss": 5.9538,
      "mean_token_accuracy": 0.14043337404727935,
      "num_tokens": 6435957.0,
      "step": 3490
    },
    {
      "entropy": 5.94589900970459,
      "epoch": 0.29363579080025204,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004995043507756107,
      "loss": 5.9069,
      "mean_token_accuracy": 0.133124540746212,
      "num_tokens": 6445642.0,
      "step": 3495
    },
    {
      "entropy": 5.974902820587158,
      "epoch": 0.29405587061541694,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004995023621505282,
      "loss": 5.9363,
      "mean_token_accuracy": 0.1418766610324383,
      "num_tokens": 6454664.0,
      "step": 3500
    },
    {
      "entropy": 5.940143728256226,
      "epoch": 0.29447595043058183,
      "grad_norm": 1.265625,
      "learning_rate": 0.000499500369548502,
      "loss": 5.8583,
      "mean_token_accuracy": 0.1379205584526062,
      "num_tokens": 6463224.0,
      "step": 3505
    },
    {
      "entropy": 6.120481824874878,
      "epoch": 0.2948960302457467,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004994983729695674,
      "loss": 6.0926,
      "mean_token_accuracy": 0.1296972803771496,
      "num_tokens": 6473112.0,
      "step": 3510
    },
    {
      "entropy": 5.980841064453125,
      "epoch": 0.2953161100609116,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004994963724137595,
      "loss": 5.9214,
      "mean_token_accuracy": 0.1389226034283638,
      "num_tokens": 6482062.0,
      "step": 3515
    },
    {
      "entropy": 5.932737588882446,
      "epoch": 0.29573618987607647,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004994943678811142,
      "loss": 5.9004,
      "mean_token_accuracy": 0.13374803215265274,
      "num_tokens": 6490568.0,
      "step": 3520
    },
    {
      "entropy": 5.997820091247559,
      "epoch": 0.2961562696912413,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004994923593716667,
      "loss": 5.963,
      "mean_token_accuracy": 0.14052257165312768,
      "num_tokens": 6500815.0,
      "step": 3525
    },
    {
      "entropy": 5.916243839263916,
      "epoch": 0.2965763495064062,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004994903468854527,
      "loss": 5.8376,
      "mean_token_accuracy": 0.14926647543907165,
      "num_tokens": 6509529.0,
      "step": 3530
    },
    {
      "entropy": 5.922206735610962,
      "epoch": 0.2969964293215711,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004994883304225077,
      "loss": 5.8937,
      "mean_token_accuracy": 0.13852014467120172,
      "num_tokens": 6517934.0,
      "step": 3535
    },
    {
      "entropy": 5.9876025199890135,
      "epoch": 0.297416509136736,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004994863099828675,
      "loss": 5.8695,
      "mean_token_accuracy": 0.14087166935205458,
      "num_tokens": 6526098.0,
      "step": 3540
    },
    {
      "entropy": 5.935700082778931,
      "epoch": 0.29783658895190085,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000499484285566568,
      "loss": 5.906,
      "mean_token_accuracy": 0.13566448390483857,
      "num_tokens": 6535831.0,
      "step": 3545
    },
    {
      "entropy": 5.939550399780273,
      "epoch": 0.29825666876706575,
      "grad_norm": 1.125,
      "learning_rate": 0.0004994822571736449,
      "loss": 5.8255,
      "mean_token_accuracy": 0.13489115089178086,
      "num_tokens": 6545704.0,
      "step": 3550
    },
    {
      "entropy": 5.947116851806641,
      "epoch": 0.29867674858223064,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004994802248041342,
      "loss": 5.8548,
      "mean_token_accuracy": 0.14142827019095422,
      "num_tokens": 6554423.0,
      "step": 3555
    },
    {
      "entropy": 5.969081258773803,
      "epoch": 0.2990968283973955,
      "grad_norm": 1.2109375,
      "learning_rate": 0.000499478188458072,
      "loss": 5.9073,
      "mean_token_accuracy": 0.13533755540847778,
      "num_tokens": 6563989.0,
      "step": 3560
    },
    {
      "entropy": 5.9689305305480955,
      "epoch": 0.2995169082125604,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004994761481354943,
      "loss": 6.0328,
      "mean_token_accuracy": 0.13800237625837325,
      "num_tokens": 6572745.0,
      "step": 3565
    },
    {
      "entropy": 6.133339929580688,
      "epoch": 0.2999369880277253,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004994741038364371,
      "loss": 6.0333,
      "mean_token_accuracy": 0.13616435453295708,
      "num_tokens": 6581723.0,
      "step": 3570
    },
    {
      "entropy": 5.896167135238647,
      "epoch": 0.3003570678428901,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004994720555609369,
      "loss": 5.7604,
      "mean_token_accuracy": 0.1434899814426899,
      "num_tokens": 6590342.0,
      "step": 3575
    },
    {
      "entropy": 5.878182983398437,
      "epoch": 0.300777147658055,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004994700033090297,
      "loss": 5.8344,
      "mean_token_accuracy": 0.14836035221815108,
      "num_tokens": 6599206.0,
      "step": 3580
    },
    {
      "entropy": 6.036917591094971,
      "epoch": 0.3011972274732199,
      "grad_norm": 1.2421875,
      "learning_rate": 0.000499467947080752,
      "loss": 6.1289,
      "mean_token_accuracy": 0.13054108917713164,
      "num_tokens": 6608947.0,
      "step": 3585
    },
    {
      "entropy": 6.017320966720581,
      "epoch": 0.3016173072883848,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004994658868761402,
      "loss": 5.9128,
      "mean_token_accuracy": 0.14748418629169463,
      "num_tokens": 6618378.0,
      "step": 3590
    },
    {
      "entropy": 5.987727546691895,
      "epoch": 0.30203738710354966,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004994638226952307,
      "loss": 5.9681,
      "mean_token_accuracy": 0.13054394274950026,
      "num_tokens": 6627527.0,
      "step": 3595
    },
    {
      "entropy": 5.996758890151978,
      "epoch": 0.30245746691871456,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004994617545380604,
      "loss": 5.8919,
      "mean_token_accuracy": 0.13826094195246696,
      "num_tokens": 6636964.0,
      "step": 3600
    },
    {
      "entropy": 5.905787420272827,
      "epoch": 0.30287754673387945,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004994596824046656,
      "loss": 5.8569,
      "mean_token_accuracy": 0.141887067258358,
      "num_tokens": 6646074.0,
      "step": 3605
    },
    {
      "entropy": 5.99219708442688,
      "epoch": 0.3032976265490443,
      "grad_norm": 1.3359375,
      "learning_rate": 0.000499457606295083,
      "loss": 5.9311,
      "mean_token_accuracy": 0.13836071118712426,
      "num_tokens": 6655027.0,
      "step": 3610
    },
    {
      "entropy": 5.7845015048980715,
      "epoch": 0.3037177063642092,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004994555262093495,
      "loss": 5.713,
      "mean_token_accuracy": 0.15755455046892167,
      "num_tokens": 6663747.0,
      "step": 3615
    },
    {
      "entropy": 6.036468362808227,
      "epoch": 0.3041377861793741,
      "grad_norm": 1.234375,
      "learning_rate": 0.000499453442147502,
      "loss": 6.0392,
      "mean_token_accuracy": 0.13115543723106385,
      "num_tokens": 6672922.0,
      "step": 3620
    },
    {
      "entropy": 5.979010963439942,
      "epoch": 0.304557865994539,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004994513541095773,
      "loss": 5.8654,
      "mean_token_accuracy": 0.14586904942989348,
      "num_tokens": 6682233.0,
      "step": 3625
    },
    {
      "entropy": 5.928103733062744,
      "epoch": 0.30497794580970383,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004994492620956126,
      "loss": 5.9125,
      "mean_token_accuracy": 0.14258120208978653,
      "num_tokens": 6691593.0,
      "step": 3630
    },
    {
      "entropy": 5.953917217254639,
      "epoch": 0.30539802562486873,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004994471661056445,
      "loss": 5.9125,
      "mean_token_accuracy": 0.14142323583364486,
      "num_tokens": 6701318.0,
      "step": 3635
    },
    {
      "entropy": 5.986124277114868,
      "epoch": 0.3058181054400336,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004994450661397106,
      "loss": 5.9176,
      "mean_token_accuracy": 0.14466760009527208,
      "num_tokens": 6710059.0,
      "step": 3640
    },
    {
      "entropy": 6.110535717010498,
      "epoch": 0.30623818525519847,
      "grad_norm": 1.203125,
      "learning_rate": 0.000499442962197848,
      "loss": 6.0091,
      "mean_token_accuracy": 0.1349786825478077,
      "num_tokens": 6719811.0,
      "step": 3645
    },
    {
      "entropy": 5.885643482208252,
      "epoch": 0.30665826507036337,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004994408542800937,
      "loss": 5.8848,
      "mean_token_accuracy": 0.13900379538536073,
      "num_tokens": 6728789.0,
      "step": 3650
    },
    {
      "entropy": 5.929373550415039,
      "epoch": 0.30707834488552826,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004994387423864855,
      "loss": 5.8632,
      "mean_token_accuracy": 0.1396006353199482,
      "num_tokens": 6737706.0,
      "step": 3655
    },
    {
      "entropy": 5.928421974182129,
      "epoch": 0.3074984247006931,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004994366265170603,
      "loss": 5.8269,
      "mean_token_accuracy": 0.1530800625681877,
      "num_tokens": 6746861.0,
      "step": 3660
    },
    {
      "entropy": 6.01959867477417,
      "epoch": 0.307918504515858,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004994345066718558,
      "loss": 6.0207,
      "mean_token_accuracy": 0.13322951793670654,
      "num_tokens": 6755242.0,
      "step": 3665
    },
    {
      "entropy": 6.026466798782349,
      "epoch": 0.3083385843310229,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004994323828509098,
      "loss": 5.954,
      "mean_token_accuracy": 0.13347591310739518,
      "num_tokens": 6764549.0,
      "step": 3670
    },
    {
      "entropy": 5.915293598175049,
      "epoch": 0.3087586641461878,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004994302550542596,
      "loss": 5.9418,
      "mean_token_accuracy": 0.14316236823797227,
      "num_tokens": 6774123.0,
      "step": 3675
    },
    {
      "entropy": 5.850841808319092,
      "epoch": 0.30917874396135264,
      "grad_norm": 1.265625,
      "learning_rate": 0.000499428123281943,
      "loss": 5.7122,
      "mean_token_accuracy": 0.1474112629890442,
      "num_tokens": 6782922.0,
      "step": 3680
    },
    {
      "entropy": 5.9184730052948,
      "epoch": 0.30959882377651754,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004994259875339978,
      "loss": 5.9611,
      "mean_token_accuracy": 0.13746373876929283,
      "num_tokens": 6792042.0,
      "step": 3685
    },
    {
      "entropy": 6.05865330696106,
      "epoch": 0.31001890359168244,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004994238478104617,
      "loss": 5.9598,
      "mean_token_accuracy": 0.1366279661655426,
      "num_tokens": 6800994.0,
      "step": 3690
    },
    {
      "entropy": 5.93690128326416,
      "epoch": 0.3104389834068473,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004994217041113727,
      "loss": 5.8868,
      "mean_token_accuracy": 0.14316150173544884,
      "num_tokens": 6809938.0,
      "step": 3695
    },
    {
      "entropy": 6.014241790771484,
      "epoch": 0.3108590632220122,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004994195564367688,
      "loss": 6.0213,
      "mean_token_accuracy": 0.13116879239678383,
      "num_tokens": 6820289.0,
      "step": 3700
    },
    {
      "entropy": 6.002475690841675,
      "epoch": 0.3112791430371771,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004994174047866882,
      "loss": 5.8424,
      "mean_token_accuracy": 0.14203700423240662,
      "num_tokens": 6830068.0,
      "step": 3705
    },
    {
      "entropy": 5.788861274719238,
      "epoch": 0.3116992228523419,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004994152491611686,
      "loss": 5.8813,
      "mean_token_accuracy": 0.13960717990994453,
      "num_tokens": 6838591.0,
      "step": 3710
    },
    {
      "entropy": 5.89765567779541,
      "epoch": 0.3121193026675068,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004994130895602485,
      "loss": 5.8505,
      "mean_token_accuracy": 0.13729089125990868,
      "num_tokens": 6847796.0,
      "step": 3715
    },
    {
      "entropy": 6.010899591445923,
      "epoch": 0.3125393824826717,
      "grad_norm": 1.171875,
      "learning_rate": 0.000499410925983966,
      "loss": 5.941,
      "mean_token_accuracy": 0.13994767293334007,
      "num_tokens": 6856585.0,
      "step": 3720
    },
    {
      "entropy": 5.889919090270996,
      "epoch": 0.3129594622978366,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004994087584323596,
      "loss": 5.8502,
      "mean_token_accuracy": 0.14524889141321182,
      "num_tokens": 6865757.0,
      "step": 3725
    },
    {
      "entropy": 5.9244975566864015,
      "epoch": 0.31337954211300145,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004994065869054676,
      "loss": 5.9051,
      "mean_token_accuracy": 0.13346855491399764,
      "num_tokens": 6875371.0,
      "step": 3730
    },
    {
      "entropy": 5.990236139297485,
      "epoch": 0.31379962192816635,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004994044114033283,
      "loss": 5.9445,
      "mean_token_accuracy": 0.13406403809785844,
      "num_tokens": 6884050.0,
      "step": 3735
    },
    {
      "entropy": 6.023118162155152,
      "epoch": 0.31421970174333125,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004994022319259806,
      "loss": 5.9236,
      "mean_token_accuracy": 0.1428280971944332,
      "num_tokens": 6893079.0,
      "step": 3740
    },
    {
      "entropy": 5.977470397949219,
      "epoch": 0.3146397815584961,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004994000484734629,
      "loss": 6.0157,
      "mean_token_accuracy": 0.14197005555033684,
      "num_tokens": 6903100.0,
      "step": 3745
    },
    {
      "entropy": 5.968418455123901,
      "epoch": 0.315059861373661,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004993978610458137,
      "loss": 5.8564,
      "mean_token_accuracy": 0.1436561480164528,
      "num_tokens": 6912164.0,
      "step": 3750
    },
    {
      "entropy": 5.8913768291473385,
      "epoch": 0.3154799411888259,
      "grad_norm": 1.125,
      "learning_rate": 0.0004993956696430721,
      "loss": 5.8793,
      "mean_token_accuracy": 0.13736136257648468,
      "num_tokens": 6921183.0,
      "step": 3755
    },
    {
      "entropy": 6.017658281326294,
      "epoch": 0.3159000210039908,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004993934742652768,
      "loss": 5.9616,
      "mean_token_accuracy": 0.1389385998249054,
      "num_tokens": 6931325.0,
      "step": 3760
    },
    {
      "entropy": 6.002210426330566,
      "epoch": 0.3163201008191556,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004993912749124665,
      "loss": 5.8433,
      "mean_token_accuracy": 0.1487124353647232,
      "num_tokens": 6940234.0,
      "step": 3765
    },
    {
      "entropy": 5.929537010192871,
      "epoch": 0.3167401806343205,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004993890715846804,
      "loss": 5.9507,
      "mean_token_accuracy": 0.14044182747602463,
      "num_tokens": 6949067.0,
      "step": 3770
    },
    {
      "entropy": 5.998405647277832,
      "epoch": 0.3171602604494854,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004993868642819574,
      "loss": 5.9194,
      "mean_token_accuracy": 0.13718469440937042,
      "num_tokens": 6959085.0,
      "step": 3775
    },
    {
      "entropy": 5.961022281646729,
      "epoch": 0.31758034026465026,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004993846530043367,
      "loss": 5.9451,
      "mean_token_accuracy": 0.13289572075009345,
      "num_tokens": 6967392.0,
      "step": 3780
    },
    {
      "entropy": 5.938811779022217,
      "epoch": 0.31800042007981516,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004993824377518574,
      "loss": 5.8794,
      "mean_token_accuracy": 0.14492053985595704,
      "num_tokens": 6976369.0,
      "step": 3785
    },
    {
      "entropy": 6.007278203964233,
      "epoch": 0.31842049989498006,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004993802185245587,
      "loss": 5.8979,
      "mean_token_accuracy": 0.14349642321467398,
      "num_tokens": 6985889.0,
      "step": 3790
    },
    {
      "entropy": 5.902310371398926,
      "epoch": 0.3188405797101449,
      "grad_norm": 1.265625,
      "learning_rate": 0.00049937799532248,
      "loss": 5.9155,
      "mean_token_accuracy": 0.13254671469330787,
      "num_tokens": 6995396.0,
      "step": 3795
    },
    {
      "entropy": 6.108139371871948,
      "epoch": 0.3192606595253098,
      "grad_norm": 1.125,
      "learning_rate": 0.0004993757681456607,
      "loss": 5.974,
      "mean_token_accuracy": 0.13683522641658782,
      "num_tokens": 7004666.0,
      "step": 3800
    },
    {
      "entropy": 5.993764448165893,
      "epoch": 0.3196807393404747,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004993735369941401,
      "loss": 6.0094,
      "mean_token_accuracy": 0.13341464176774026,
      "num_tokens": 7014608.0,
      "step": 3805
    },
    {
      "entropy": 5.958604240417481,
      "epoch": 0.3201008191556396,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004993713018679579,
      "loss": 5.866,
      "mean_token_accuracy": 0.14026129618287086,
      "num_tokens": 7023671.0,
      "step": 3810
    },
    {
      "entropy": 5.995219898223877,
      "epoch": 0.32052089897080444,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004993690627671536,
      "loss": 5.9253,
      "mean_token_accuracy": 0.13401568681001663,
      "num_tokens": 7033786.0,
      "step": 3815
    },
    {
      "entropy": 5.926336812973022,
      "epoch": 0.32094097878596933,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004993668196917669,
      "loss": 5.8311,
      "mean_token_accuracy": 0.14573807418346404,
      "num_tokens": 7042162.0,
      "step": 3820
    },
    {
      "entropy": 5.96917757987976,
      "epoch": 0.32136105860113423,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004993645726418375,
      "loss": 5.981,
      "mean_token_accuracy": 0.13832971975207328,
      "num_tokens": 7051903.0,
      "step": 3825
    },
    {
      "entropy": 5.879901790618897,
      "epoch": 0.3217811384162991,
      "grad_norm": 1.125,
      "learning_rate": 0.0004993623216174053,
      "loss": 5.8013,
      "mean_token_accuracy": 0.15186585038900374,
      "num_tokens": 7060229.0,
      "step": 3830
    },
    {
      "entropy": 5.918556547164917,
      "epoch": 0.32220121823146397,
      "grad_norm": 1.25,
      "learning_rate": 0.00049936006661851,
      "loss": 5.8909,
      "mean_token_accuracy": 0.13876768276095391,
      "num_tokens": 7069040.0,
      "step": 3835
    },
    {
      "entropy": 5.9392224788665775,
      "epoch": 0.32262129804662887,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004993578076451917,
      "loss": 5.7726,
      "mean_token_accuracy": 0.14143876731395721,
      "num_tokens": 7078409.0,
      "step": 3840
    },
    {
      "entropy": 5.779048347473145,
      "epoch": 0.32304137786179377,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004993555446974903,
      "loss": 5.8733,
      "mean_token_accuracy": 0.13716461956501008,
      "num_tokens": 7087983.0,
      "step": 3845
    },
    {
      "entropy": 5.941289329528809,
      "epoch": 0.3234614576769586,
      "grad_norm": 1.21875,
      "learning_rate": 0.000499353277775446,
      "loss": 5.8228,
      "mean_token_accuracy": 0.14281788170337678,
      "num_tokens": 7097277.0,
      "step": 3850
    },
    {
      "entropy": 5.894749402999878,
      "epoch": 0.3238815374921235,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004993510068790989,
      "loss": 5.7164,
      "mean_token_accuracy": 0.15665216147899627,
      "num_tokens": 7105918.0,
      "step": 3855
    },
    {
      "entropy": 5.773345851898194,
      "epoch": 0.3243016173072884,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004993487320084892,
      "loss": 5.7838,
      "mean_token_accuracy": 0.15064965635538102,
      "num_tokens": 7115049.0,
      "step": 3860
    },
    {
      "entropy": 5.944450235366821,
      "epoch": 0.32472169712245325,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004993464531636573,
      "loss": 5.8883,
      "mean_token_accuracy": 0.13874924927949905,
      "num_tokens": 7124862.0,
      "step": 3865
    },
    {
      "entropy": 5.947724437713623,
      "epoch": 0.32514177693761814,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004993441703446435,
      "loss": 5.7816,
      "mean_token_accuracy": 0.1445206731557846,
      "num_tokens": 7133280.0,
      "step": 3870
    },
    {
      "entropy": 6.020012712478637,
      "epoch": 0.32556185675278304,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004993418835514882,
      "loss": 5.9743,
      "mean_token_accuracy": 0.1368774726986885,
      "num_tokens": 7142446.0,
      "step": 3875
    },
    {
      "entropy": 5.944014692306519,
      "epoch": 0.3259819365679479,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004993395927842321,
      "loss": 5.8824,
      "mean_token_accuracy": 0.1359010323882103,
      "num_tokens": 7152143.0,
      "step": 3880
    },
    {
      "entropy": 5.993379163742065,
      "epoch": 0.3264020163831128,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004993372980429155,
      "loss": 5.9617,
      "mean_token_accuracy": 0.13282209262251854,
      "num_tokens": 7162046.0,
      "step": 3885
    },
    {
      "entropy": 5.989493370056152,
      "epoch": 0.3268220961982777,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004993349993275792,
      "loss": 5.8488,
      "mean_token_accuracy": 0.14026510193943978,
      "num_tokens": 7171557.0,
      "step": 3890
    },
    {
      "entropy": 5.754479789733887,
      "epoch": 0.3272421760134426,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004993326966382639,
      "loss": 5.7423,
      "mean_token_accuracy": 0.14871106296777725,
      "num_tokens": 7180927.0,
      "step": 3895
    },
    {
      "entropy": 5.8972282886505125,
      "epoch": 0.3276622558286074,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004993303899750104,
      "loss": 5.8311,
      "mean_token_accuracy": 0.1395234152674675,
      "num_tokens": 7189552.0,
      "step": 3900
    },
    {
      "entropy": 6.021924352645874,
      "epoch": 0.3280823356437723,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004993280793378595,
      "loss": 5.8549,
      "mean_token_accuracy": 0.13788855373859404,
      "num_tokens": 7197857.0,
      "step": 3905
    },
    {
      "entropy": 5.914785861968994,
      "epoch": 0.3285024154589372,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004993257647268522,
      "loss": 5.8281,
      "mean_token_accuracy": 0.14489276185631753,
      "num_tokens": 7206785.0,
      "step": 3910
    },
    {
      "entropy": 5.945201826095581,
      "epoch": 0.32892249527410206,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004993234461420295,
      "loss": 5.9003,
      "mean_token_accuracy": 0.1415283761918545,
      "num_tokens": 7216360.0,
      "step": 3915
    },
    {
      "entropy": 5.844962692260742,
      "epoch": 0.32934257508926695,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004993211235834326,
      "loss": 5.7122,
      "mean_token_accuracy": 0.15939737260341644,
      "num_tokens": 7224890.0,
      "step": 3920
    },
    {
      "entropy": 5.77975697517395,
      "epoch": 0.32976265490443185,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004993187970511023,
      "loss": 5.7707,
      "mean_token_accuracy": 0.16336829960346222,
      "num_tokens": 7234442.0,
      "step": 3925
    },
    {
      "entropy": 5.964393234252929,
      "epoch": 0.33018273471959675,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004993164665450801,
      "loss": 5.9279,
      "mean_token_accuracy": 0.1439814858138561,
      "num_tokens": 7244023.0,
      "step": 3930
    },
    {
      "entropy": 5.916021871566772,
      "epoch": 0.3306028145347616,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004993141320654072,
      "loss": 5.7793,
      "mean_token_accuracy": 0.14671456664800644,
      "num_tokens": 7253548.0,
      "step": 3935
    },
    {
      "entropy": 5.898174810409546,
      "epoch": 0.3310228943499265,
      "grad_norm": 1.2578125,
      "learning_rate": 0.000499311793612125,
      "loss": 5.8402,
      "mean_token_accuracy": 0.1421785496175289,
      "num_tokens": 7262962.0,
      "step": 3940
    },
    {
      "entropy": 5.964570426940918,
      "epoch": 0.3314429741650914,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004993094511852748,
      "loss": 5.863,
      "mean_token_accuracy": 0.14184453189373017,
      "num_tokens": 7272234.0,
      "step": 3945
    },
    {
      "entropy": 5.929952716827392,
      "epoch": 0.33186305398025623,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004993071047848983,
      "loss": 5.8493,
      "mean_token_accuracy": 0.1383821338415146,
      "num_tokens": 7281524.0,
      "step": 3950
    },
    {
      "entropy": 5.838898372650147,
      "epoch": 0.3322831337954211,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004993047544110368,
      "loss": 5.7384,
      "mean_token_accuracy": 0.14712240919470787,
      "num_tokens": 7289601.0,
      "step": 3955
    },
    {
      "entropy": 5.791057062149048,
      "epoch": 0.332703213610586,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004993024000637321,
      "loss": 5.7137,
      "mean_token_accuracy": 0.15096415132284163,
      "num_tokens": 7298508.0,
      "step": 3960
    },
    {
      "entropy": 5.892502069473267,
      "epoch": 0.33312329342575087,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004993000417430259,
      "loss": 5.9339,
      "mean_token_accuracy": 0.1390118695795536,
      "num_tokens": 7309065.0,
      "step": 3965
    },
    {
      "entropy": 6.066646718978882,
      "epoch": 0.33354337324091576,
      "grad_norm": 1.125,
      "learning_rate": 0.00049929767944896,
      "loss": 5.953,
      "mean_token_accuracy": 0.1411003813147545,
      "num_tokens": 7319669.0,
      "step": 3970
    },
    {
      "entropy": 6.000399112701416,
      "epoch": 0.33396345305608066,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004992953131815761,
      "loss": 5.9022,
      "mean_token_accuracy": 0.1418354742228985,
      "num_tokens": 7328425.0,
      "step": 3975
    },
    {
      "entropy": 5.8749700546264645,
      "epoch": 0.33438353287124556,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004992929429409164,
      "loss": 5.775,
      "mean_token_accuracy": 0.1469979852437973,
      "num_tokens": 7337369.0,
      "step": 3980
    },
    {
      "entropy": 5.913109064102173,
      "epoch": 0.3348036126864104,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004992905687270225,
      "loss": 5.8411,
      "mean_token_accuracy": 0.1466023862361908,
      "num_tokens": 7346829.0,
      "step": 3985
    },
    {
      "entropy": 5.973616456985473,
      "epoch": 0.3352236925015753,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004992881905399368,
      "loss": 5.9044,
      "mean_token_accuracy": 0.14303565323352813,
      "num_tokens": 7355976.0,
      "step": 3990
    },
    {
      "entropy": 5.9362890243530275,
      "epoch": 0.3356437723167402,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004992858083797013,
      "loss": 5.8555,
      "mean_token_accuracy": 0.13833607137203216,
      "num_tokens": 7365210.0,
      "step": 3995
    },
    {
      "entropy": 5.910732650756836,
      "epoch": 0.33606385213190504,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004992834222463581,
      "loss": 5.9097,
      "mean_token_accuracy": 0.13066598325967788,
      "num_tokens": 7374175.0,
      "step": 4000
    },
    {
      "entropy": 6.022627830505371,
      "epoch": 0.33648393194706994,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004992810321399496,
      "loss": 5.936,
      "mean_token_accuracy": 0.13869498372077943,
      "num_tokens": 7383302.0,
      "step": 4005
    },
    {
      "entropy": 6.006158876419067,
      "epoch": 0.33690401176223483,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004992786380605182,
      "loss": 5.9162,
      "mean_token_accuracy": 0.13912810906767845,
      "num_tokens": 7392746.0,
      "step": 4010
    },
    {
      "entropy": 5.839102506637573,
      "epoch": 0.33732409157739973,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004992762400081062,
      "loss": 5.7562,
      "mean_token_accuracy": 0.1469271421432495,
      "num_tokens": 7401604.0,
      "step": 4015
    },
    {
      "entropy": 5.856449317932129,
      "epoch": 0.3377441713925646,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004992738379827559,
      "loss": 5.8677,
      "mean_token_accuracy": 0.13804834261536597,
      "num_tokens": 7410594.0,
      "step": 4020
    },
    {
      "entropy": 5.922429132461548,
      "epoch": 0.33816425120772947,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004992714319845101,
      "loss": 5.7704,
      "mean_token_accuracy": 0.15343396067619325,
      "num_tokens": 7418831.0,
      "step": 4025
    },
    {
      "entropy": 5.8475088596344,
      "epoch": 0.33858433102289437,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004992690220134116,
      "loss": 5.8188,
      "mean_token_accuracy": 0.144370898604393,
      "num_tokens": 7427731.0,
      "step": 4030
    },
    {
      "entropy": 6.030502510070801,
      "epoch": 0.3390044108380592,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004992666080695027,
      "loss": 5.9373,
      "mean_token_accuracy": 0.13586149737238884,
      "num_tokens": 7436447.0,
      "step": 4035
    },
    {
      "entropy": 5.901221179962159,
      "epoch": 0.3394244906532241,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004992641901528262,
      "loss": 5.8156,
      "mean_token_accuracy": 0.14270046576857567,
      "num_tokens": 7445352.0,
      "step": 4040
    },
    {
      "entropy": 5.946398782730102,
      "epoch": 0.339844570468389,
      "grad_norm": 1.125,
      "learning_rate": 0.0004992617682634252,
      "loss": 5.8858,
      "mean_token_accuracy": 0.1441212549805641,
      "num_tokens": 7454298.0,
      "step": 4045
    },
    {
      "entropy": 5.920703315734864,
      "epoch": 0.34026465028355385,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004992593424013424,
      "loss": 5.8948,
      "mean_token_accuracy": 0.13869627565145493,
      "num_tokens": 7463543.0,
      "step": 4050
    },
    {
      "entropy": 5.9791840553283695,
      "epoch": 0.34068473009871875,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004992569125666209,
      "loss": 5.9195,
      "mean_token_accuracy": 0.14178480133414267,
      "num_tokens": 7472701.0,
      "step": 4055
    },
    {
      "entropy": 6.054230260848999,
      "epoch": 0.34110480991388364,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004992544787593037,
      "loss": 5.9062,
      "mean_token_accuracy": 0.13785406127572059,
      "num_tokens": 7481123.0,
      "step": 4060
    },
    {
      "entropy": 5.989615964889526,
      "epoch": 0.34152488972904854,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004992520409794338,
      "loss": 5.9555,
      "mean_token_accuracy": 0.14264528974890708,
      "num_tokens": 7490439.0,
      "step": 4065
    },
    {
      "entropy": 5.894261217117309,
      "epoch": 0.3419449695442134,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004992495992270544,
      "loss": 5.8444,
      "mean_token_accuracy": 0.1425054393708706,
      "num_tokens": 7499326.0,
      "step": 4070
    },
    {
      "entropy": 5.95070858001709,
      "epoch": 0.3423650493593783,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004992471535022089,
      "loss": 5.8947,
      "mean_token_accuracy": 0.14209673926234245,
      "num_tokens": 7509407.0,
      "step": 4075
    },
    {
      "entropy": 5.978242111206055,
      "epoch": 0.3427851291745432,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004992447038049405,
      "loss": 5.9368,
      "mean_token_accuracy": 0.1432798534631729,
      "num_tokens": 7518443.0,
      "step": 4080
    },
    {
      "entropy": 5.854420137405396,
      "epoch": 0.343205208989708,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004992422501352927,
      "loss": 5.7979,
      "mean_token_accuracy": 0.15148040205240249,
      "num_tokens": 7527609.0,
      "step": 4085
    },
    {
      "entropy": 5.958763885498047,
      "epoch": 0.3436252888048729,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004992397924933089,
      "loss": 5.8829,
      "mean_token_accuracy": 0.14002160280942916,
      "num_tokens": 7536890.0,
      "step": 4090
    },
    {
      "entropy": 5.984218978881836,
      "epoch": 0.3440453686200378,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004992373308790325,
      "loss": 5.8445,
      "mean_token_accuracy": 0.14879057705402374,
      "num_tokens": 7546509.0,
      "step": 4095
    },
    {
      "entropy": 5.8121418952941895,
      "epoch": 0.3444654484352027,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004992348652925074,
      "loss": 5.8814,
      "mean_token_accuracy": 0.13877593278884887,
      "num_tokens": 7555336.0,
      "step": 4100
    },
    {
      "entropy": 5.959460878372193,
      "epoch": 0.34488552825036756,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004992323957337771,
      "loss": 5.8217,
      "mean_token_accuracy": 0.14075680449604988,
      "num_tokens": 7565210.0,
      "step": 4105
    },
    {
      "entropy": 5.997728681564331,
      "epoch": 0.34530560806553245,
      "grad_norm": 1.125,
      "learning_rate": 0.0004992299222028855,
      "loss": 5.9177,
      "mean_token_accuracy": 0.14632946625351906,
      "num_tokens": 7574516.0,
      "step": 4110
    },
    {
      "entropy": 5.837478542327881,
      "epoch": 0.34572568788069735,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004992274446998761,
      "loss": 5.7701,
      "mean_token_accuracy": 0.14613791555166245,
      "num_tokens": 7583219.0,
      "step": 4115
    },
    {
      "entropy": 5.990570783615112,
      "epoch": 0.3461457676958622,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004992249632247929,
      "loss": 5.9898,
      "mean_token_accuracy": 0.13541294783353805,
      "num_tokens": 7592050.0,
      "step": 4120
    },
    {
      "entropy": 6.017976236343384,
      "epoch": 0.3465658475110271,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004992224777776802,
      "loss": 5.8269,
      "mean_token_accuracy": 0.1406927302479744,
      "num_tokens": 7600718.0,
      "step": 4125
    },
    {
      "entropy": 5.928384780883789,
      "epoch": 0.346985927326192,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004992199883585816,
      "loss": 5.8623,
      "mean_token_accuracy": 0.14485160112380982,
      "num_tokens": 7609191.0,
      "step": 4130
    },
    {
      "entropy": 5.958423805236817,
      "epoch": 0.34740600714135683,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004992174949675413,
      "loss": 5.8819,
      "mean_token_accuracy": 0.14174177944660188,
      "num_tokens": 7618509.0,
      "step": 4135
    },
    {
      "entropy": 5.890047216415406,
      "epoch": 0.34782608695652173,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004992149976046037,
      "loss": 5.8117,
      "mean_token_accuracy": 0.14391598626971244,
      "num_tokens": 7627851.0,
      "step": 4140
    },
    {
      "entropy": 5.892529726028442,
      "epoch": 0.3482461667716866,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004992124962698128,
      "loss": 5.8894,
      "mean_token_accuracy": 0.13846235871315002,
      "num_tokens": 7636748.0,
      "step": 4145
    },
    {
      "entropy": 5.952128744125366,
      "epoch": 0.3486662465868515,
      "grad_norm": 1.203125,
      "learning_rate": 0.000499209990963213,
      "loss": 5.7996,
      "mean_token_accuracy": 0.14363356158137322,
      "num_tokens": 7645436.0,
      "step": 4150
    },
    {
      "entropy": 5.9340009689331055,
      "epoch": 0.34908632640201637,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004992074816848487,
      "loss": 5.9287,
      "mean_token_accuracy": 0.13951508998870848,
      "num_tokens": 7655414.0,
      "step": 4155
    },
    {
      "entropy": 5.832207345962525,
      "epoch": 0.34950640621718126,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004992049684347642,
      "loss": 5.7094,
      "mean_token_accuracy": 0.14780430346727372,
      "num_tokens": 7664295.0,
      "step": 4160
    },
    {
      "entropy": 5.929846525192261,
      "epoch": 0.34992648603234616,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004992024512130042,
      "loss": 5.8569,
      "mean_token_accuracy": 0.14193690866231917,
      "num_tokens": 7673295.0,
      "step": 4165
    },
    {
      "entropy": 5.905185222625732,
      "epoch": 0.350346565847511,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004991999300196132,
      "loss": 5.8475,
      "mean_token_accuracy": 0.13919475451111793,
      "num_tokens": 7682932.0,
      "step": 4170
    },
    {
      "entropy": 6.005189561843872,
      "epoch": 0.3507666456626759,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004991974048546359,
      "loss": 5.8699,
      "mean_token_accuracy": 0.13765867426991463,
      "num_tokens": 7692105.0,
      "step": 4175
    },
    {
      "entropy": 5.873351955413819,
      "epoch": 0.3511867254778408,
      "grad_norm": 1.171875,
      "learning_rate": 0.000499194875718117,
      "loss": 5.859,
      "mean_token_accuracy": 0.1459092453122139,
      "num_tokens": 7701294.0,
      "step": 4180
    },
    {
      "entropy": 5.976405239105224,
      "epoch": 0.3516068052930057,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004991923426101013,
      "loss": 5.8556,
      "mean_token_accuracy": 0.14097452014684678,
      "num_tokens": 7710964.0,
      "step": 4185
    },
    {
      "entropy": 5.988002777099609,
      "epoch": 0.35202688510817054,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004991898055306337,
      "loss": 5.9768,
      "mean_token_accuracy": 0.13131897300481796,
      "num_tokens": 7719938.0,
      "step": 4190
    },
    {
      "entropy": 5.942753410339355,
      "epoch": 0.35244696492333544,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004991872644797591,
      "loss": 5.8921,
      "mean_token_accuracy": 0.13939437940716742,
      "num_tokens": 7729129.0,
      "step": 4195
    },
    {
      "entropy": 5.955871152877807,
      "epoch": 0.35286704473850034,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004991847194575226,
      "loss": 5.8881,
      "mean_token_accuracy": 0.13834249898791312,
      "num_tokens": 7738506.0,
      "step": 4200
    },
    {
      "entropy": 6.041079711914063,
      "epoch": 0.3532871245536652,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004991821704639693,
      "loss": 5.9968,
      "mean_token_accuracy": 0.13867756947875023,
      "num_tokens": 7749320.0,
      "step": 4205
    },
    {
      "entropy": 6.0422234535217285,
      "epoch": 0.3537072043688301,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004991796174991443,
      "loss": 5.8516,
      "mean_token_accuracy": 0.14419358000159263,
      "num_tokens": 7758735.0,
      "step": 4210
    },
    {
      "entropy": 5.810104942321777,
      "epoch": 0.354127284183995,
      "grad_norm": 2.09375,
      "learning_rate": 0.0004991770605630927,
      "loss": 5.8115,
      "mean_token_accuracy": 0.14199010655283928,
      "num_tokens": 7767556.0,
      "step": 4215
    },
    {
      "entropy": 5.862843370437622,
      "epoch": 0.3545473639991598,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004991744996558599,
      "loss": 5.839,
      "mean_token_accuracy": 0.14548772126436232,
      "num_tokens": 7776615.0,
      "step": 4220
    },
    {
      "entropy": 5.955168771743774,
      "epoch": 0.3549674438143247,
      "grad_norm": 1.25,
      "learning_rate": 0.0004991719347774913,
      "loss": 5.8885,
      "mean_token_accuracy": 0.14509620741009713,
      "num_tokens": 7785288.0,
      "step": 4225
    },
    {
      "entropy": 5.897441482543945,
      "epoch": 0.3553875236294896,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004991693659280324,
      "loss": 5.7878,
      "mean_token_accuracy": 0.1456679493188858,
      "num_tokens": 7794381.0,
      "step": 4230
    },
    {
      "entropy": 5.895413112640381,
      "epoch": 0.3558076034446545,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004991667931075284,
      "loss": 5.7548,
      "mean_token_accuracy": 0.14165765419602394,
      "num_tokens": 7803265.0,
      "step": 4235
    },
    {
      "entropy": 5.8606267929077145,
      "epoch": 0.35622768325981935,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004991642163160252,
      "loss": 5.8796,
      "mean_token_accuracy": 0.13830938637256623,
      "num_tokens": 7812445.0,
      "step": 4240
    },
    {
      "entropy": 5.941714191436768,
      "epoch": 0.35664776307498425,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004991616355535684,
      "loss": 5.8695,
      "mean_token_accuracy": 0.1441208615899086,
      "num_tokens": 7822073.0,
      "step": 4245
    },
    {
      "entropy": 6.004122114181518,
      "epoch": 0.35706784289014915,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004991590508202036,
      "loss": 5.8472,
      "mean_token_accuracy": 0.13856493979692458,
      "num_tokens": 7831193.0,
      "step": 4250
    },
    {
      "entropy": 5.952021503448487,
      "epoch": 0.357487922705314,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004991564621159766,
      "loss": 5.8909,
      "mean_token_accuracy": 0.1399833530187607,
      "num_tokens": 7840311.0,
      "step": 4255
    },
    {
      "entropy": 5.902349615097046,
      "epoch": 0.3579080025204789,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004991538694409334,
      "loss": 5.8981,
      "mean_token_accuracy": 0.13640205860137938,
      "num_tokens": 7849622.0,
      "step": 4260
    },
    {
      "entropy": 5.93274884223938,
      "epoch": 0.3583280823356438,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004991512727951198,
      "loss": 5.8639,
      "mean_token_accuracy": 0.1423584371805191,
      "num_tokens": 7859494.0,
      "step": 4265
    },
    {
      "entropy": 6.066871976852417,
      "epoch": 0.3587481621508087,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004991486721785818,
      "loss": 5.9611,
      "mean_token_accuracy": 0.13798293545842172,
      "num_tokens": 7868526.0,
      "step": 4270
    },
    {
      "entropy": 5.916080617904663,
      "epoch": 0.3591682419659735,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004991460675913655,
      "loss": 5.7946,
      "mean_token_accuracy": 0.1431095890700817,
      "num_tokens": 7877631.0,
      "step": 4275
    },
    {
      "entropy": 5.9288982391357425,
      "epoch": 0.3595883217811384,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000499143459033517,
      "loss": 5.8525,
      "mean_token_accuracy": 0.14929330348968506,
      "num_tokens": 7886814.0,
      "step": 4280
    },
    {
      "entropy": 5.835088777542114,
      "epoch": 0.3600084015963033,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004991408465050825,
      "loss": 5.6819,
      "mean_token_accuracy": 0.15145567432045937,
      "num_tokens": 7896337.0,
      "step": 4285
    },
    {
      "entropy": 5.841267919540405,
      "epoch": 0.36042848141146816,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004991382300061084,
      "loss": 5.9429,
      "mean_token_accuracy": 0.13477055355906487,
      "num_tokens": 7906071.0,
      "step": 4290
    },
    {
      "entropy": 6.013036108016967,
      "epoch": 0.36084856122663306,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004991356095366409,
      "loss": 5.9236,
      "mean_token_accuracy": 0.14087440073490143,
      "num_tokens": 7915003.0,
      "step": 4295
    },
    {
      "entropy": 5.964684629440308,
      "epoch": 0.36126864104179796,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004991329850967266,
      "loss": 5.7748,
      "mean_token_accuracy": 0.14612130969762802,
      "num_tokens": 7924408.0,
      "step": 4300
    },
    {
      "entropy": 5.857362222671509,
      "epoch": 0.3616887208569628,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004991303566864118,
      "loss": 5.752,
      "mean_token_accuracy": 0.14585833102464676,
      "num_tokens": 7934717.0,
      "step": 4305
    },
    {
      "entropy": 5.800111103057861,
      "epoch": 0.3621088006721277,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004991277243057431,
      "loss": 5.8176,
      "mean_token_accuracy": 0.14245440661907197,
      "num_tokens": 7944278.0,
      "step": 4310
    },
    {
      "entropy": 5.853901958465576,
      "epoch": 0.3625288804872926,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004991250879547673,
      "loss": 5.8345,
      "mean_token_accuracy": 0.14364267513155937,
      "num_tokens": 7953344.0,
      "step": 4315
    },
    {
      "entropy": 5.9053857803344725,
      "epoch": 0.3629489603024575,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004991224476335309,
      "loss": 5.8601,
      "mean_token_accuracy": 0.1401130437850952,
      "num_tokens": 7962869.0,
      "step": 4320
    },
    {
      "entropy": 5.988316392898559,
      "epoch": 0.36336904011762233,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004991198033420807,
      "loss": 5.8527,
      "mean_token_accuracy": 0.14232899993658066,
      "num_tokens": 7971981.0,
      "step": 4325
    },
    {
      "entropy": 5.870962715148925,
      "epoch": 0.36378911993278723,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004991171550804636,
      "loss": 5.8073,
      "mean_token_accuracy": 0.139846058934927,
      "num_tokens": 7980979.0,
      "step": 4330
    },
    {
      "entropy": 5.898285436630249,
      "epoch": 0.36420919974795213,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004991145028487266,
      "loss": 5.8963,
      "mean_token_accuracy": 0.14070027470588684,
      "num_tokens": 7989607.0,
      "step": 4335
    },
    {
      "entropy": 5.864823675155639,
      "epoch": 0.36462927956311697,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004991118466469165,
      "loss": 5.713,
      "mean_token_accuracy": 0.14677212983369828,
      "num_tokens": 7998356.0,
      "step": 4340
    },
    {
      "entropy": 5.8904320240020756,
      "epoch": 0.36504935937828187,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004991091864750805,
      "loss": 5.818,
      "mean_token_accuracy": 0.14362581819295883,
      "num_tokens": 8007596.0,
      "step": 4345
    },
    {
      "entropy": 5.893006706237793,
      "epoch": 0.36546943919344677,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004991065223332655,
      "loss": 5.8754,
      "mean_token_accuracy": 0.13881655633449555,
      "num_tokens": 8016493.0,
      "step": 4350
    },
    {
      "entropy": 5.957713174819946,
      "epoch": 0.36588951900861166,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004991038542215191,
      "loss": 5.8451,
      "mean_token_accuracy": 0.1374589078128338,
      "num_tokens": 8025867.0,
      "step": 4355
    },
    {
      "entropy": 5.831826066970825,
      "epoch": 0.3663095988237765,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004991011821398882,
      "loss": 5.8861,
      "mean_token_accuracy": 0.1465972438454628,
      "num_tokens": 8036251.0,
      "step": 4360
    },
    {
      "entropy": 6.003261423110962,
      "epoch": 0.3667296786389414,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004990985060884202,
      "loss": 5.8444,
      "mean_token_accuracy": 0.1452535480260849,
      "num_tokens": 8045647.0,
      "step": 4365
    },
    {
      "entropy": 5.943668365478516,
      "epoch": 0.3671497584541063,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004990958260671627,
      "loss": 5.8987,
      "mean_token_accuracy": 0.13597789257764817,
      "num_tokens": 8056025.0,
      "step": 4370
    },
    {
      "entropy": 5.898333263397217,
      "epoch": 0.36756983826927114,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004990931420761629,
      "loss": 5.8364,
      "mean_token_accuracy": 0.14677493423223495,
      "num_tokens": 8065029.0,
      "step": 4375
    },
    {
      "entropy": 5.953028678894043,
      "epoch": 0.36798991808443604,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004990904541154685,
      "loss": 5.7841,
      "mean_token_accuracy": 0.15241612046957015,
      "num_tokens": 8073249.0,
      "step": 4380
    },
    {
      "entropy": 5.914327716827392,
      "epoch": 0.36840999789960094,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004990877621851271,
      "loss": 5.9274,
      "mean_token_accuracy": 0.13789283782243728,
      "num_tokens": 8082039.0,
      "step": 4385
    },
    {
      "entropy": 5.818746089935303,
      "epoch": 0.3688300777147658,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004990850662851863,
      "loss": 5.7546,
      "mean_token_accuracy": 0.14923306405544282,
      "num_tokens": 8090011.0,
      "step": 4390
    },
    {
      "entropy": 5.97280101776123,
      "epoch": 0.3692501575299307,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004990823664156941,
      "loss": 5.8789,
      "mean_token_accuracy": 0.1489357531070709,
      "num_tokens": 8099934.0,
      "step": 4395
    },
    {
      "entropy": 5.970620107650757,
      "epoch": 0.3696702373450956,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004990796625766981,
      "loss": 5.8822,
      "mean_token_accuracy": 0.13866196647286416,
      "num_tokens": 8108969.0,
      "step": 4400
    },
    {
      "entropy": 5.857716226577759,
      "epoch": 0.3700903171602605,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004990769547682462,
      "loss": 5.798,
      "mean_token_accuracy": 0.14401047080755233,
      "num_tokens": 8117372.0,
      "step": 4405
    },
    {
      "entropy": 6.015813732147217,
      "epoch": 0.3705103969754253,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004990742429903866,
      "loss": 5.9812,
      "mean_token_accuracy": 0.13605612963438035,
      "num_tokens": 8127108.0,
      "step": 4410
    },
    {
      "entropy": 6.0110640048980715,
      "epoch": 0.3709304767905902,
      "grad_norm": 1.2734375,
      "learning_rate": 0.000499071527243167,
      "loss": 5.9774,
      "mean_token_accuracy": 0.13931988626718522,
      "num_tokens": 8137392.0,
      "step": 4415
    },
    {
      "entropy": 5.916806697845459,
      "epoch": 0.3713505566057551,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004990688075266357,
      "loss": 5.8172,
      "mean_token_accuracy": 0.14630230888724327,
      "num_tokens": 8146257.0,
      "step": 4420
    },
    {
      "entropy": 5.90497236251831,
      "epoch": 0.37177063642091995,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004990660838408409,
      "loss": 5.7894,
      "mean_token_accuracy": 0.14007715433835982,
      "num_tokens": 8154952.0,
      "step": 4425
    },
    {
      "entropy": 5.948085355758667,
      "epoch": 0.37219071623608485,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004990633561858308,
      "loss": 5.8263,
      "mean_token_accuracy": 0.14142653867602348,
      "num_tokens": 8164365.0,
      "step": 4430
    },
    {
      "entropy": 5.9057210922241214,
      "epoch": 0.37261079605124975,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004990606245616537,
      "loss": 5.8405,
      "mean_token_accuracy": 0.13960912972688674,
      "num_tokens": 8172614.0,
      "step": 4435
    },
    {
      "entropy": 6.0053239345550535,
      "epoch": 0.37303087586641465,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004990578889683579,
      "loss": 5.8993,
      "mean_token_accuracy": 0.13672763109207153,
      "num_tokens": 8182445.0,
      "step": 4440
    },
    {
      "entropy": 5.912483501434326,
      "epoch": 0.3734509556815795,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004990551494059921,
      "loss": 5.7912,
      "mean_token_accuracy": 0.14882408380508422,
      "num_tokens": 8191871.0,
      "step": 4445
    },
    {
      "entropy": 5.91331787109375,
      "epoch": 0.3738710354967444,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004990524058746047,
      "loss": 5.9292,
      "mean_token_accuracy": 0.14731585383415222,
      "num_tokens": 8200658.0,
      "step": 4450
    },
    {
      "entropy": 5.922462463378906,
      "epoch": 0.3742911153119093,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004990496583742443,
      "loss": 5.8609,
      "mean_token_accuracy": 0.13896840661764145,
      "num_tokens": 8209776.0,
      "step": 4455
    },
    {
      "entropy": 5.8580132007598875,
      "epoch": 0.3747111951270741,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004990469069049596,
      "loss": 5.7933,
      "mean_token_accuracy": 0.14876351952552797,
      "num_tokens": 8219401.0,
      "step": 4460
    },
    {
      "entropy": 5.9017116069793705,
      "epoch": 0.375131274942239,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004990441514667993,
      "loss": 5.8399,
      "mean_token_accuracy": 0.1457892268896103,
      "num_tokens": 8228762.0,
      "step": 4465
    },
    {
      "entropy": 5.960052967071533,
      "epoch": 0.3755513547574039,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004990413920598121,
      "loss": 5.8364,
      "mean_token_accuracy": 0.1444413885474205,
      "num_tokens": 8236612.0,
      "step": 4470
    },
    {
      "entropy": 5.957969760894775,
      "epoch": 0.37597143457256876,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004990386286840471,
      "loss": 5.8452,
      "mean_token_accuracy": 0.14290711134672165,
      "num_tokens": 8245043.0,
      "step": 4475
    },
    {
      "entropy": 6.0023870944976805,
      "epoch": 0.37639151438773366,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004990358613395532,
      "loss": 5.9381,
      "mean_token_accuracy": 0.13609616905450822,
      "num_tokens": 8255270.0,
      "step": 4480
    },
    {
      "entropy": 5.976658725738526,
      "epoch": 0.37681159420289856,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004990330900263792,
      "loss": 5.896,
      "mean_token_accuracy": 0.13675653785467148,
      "num_tokens": 8264761.0,
      "step": 4485
    },
    {
      "entropy": 5.991942405700684,
      "epoch": 0.37723167401806346,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004990303147445745,
      "loss": 5.8568,
      "mean_token_accuracy": 0.14412947744131088,
      "num_tokens": 8274308.0,
      "step": 4490
    },
    {
      "entropy": 5.831737422943116,
      "epoch": 0.3776517538332283,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004990275354941881,
      "loss": 5.751,
      "mean_token_accuracy": 0.15253113806247712,
      "num_tokens": 8283323.0,
      "step": 4495
    },
    {
      "entropy": 5.965500402450561,
      "epoch": 0.3780718336483932,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004990247522752694,
      "loss": 6.0719,
      "mean_token_accuracy": 0.12804851979017257,
      "num_tokens": 8293452.0,
      "step": 4500
    },
    {
      "entropy": 5.9973039627075195,
      "epoch": 0.3784919134635581,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004990219650878674,
      "loss": 5.7459,
      "mean_token_accuracy": 0.14813876897096634,
      "num_tokens": 8302941.0,
      "step": 4505
    },
    {
      "entropy": 5.840318632125855,
      "epoch": 0.37891199327872294,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004990191739320318,
      "loss": 5.7706,
      "mean_token_accuracy": 0.15119873285293578,
      "num_tokens": 8311811.0,
      "step": 4510
    },
    {
      "entropy": 5.808368587493897,
      "epoch": 0.37933207309388783,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004990163788078117,
      "loss": 5.6889,
      "mean_token_accuracy": 0.1518329106271267,
      "num_tokens": 8321130.0,
      "step": 4515
    },
    {
      "entropy": 5.834763097763061,
      "epoch": 0.37975215290905273,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004990135797152569,
      "loss": 5.7997,
      "mean_token_accuracy": 0.14402930140495301,
      "num_tokens": 8330233.0,
      "step": 4520
    },
    {
      "entropy": 5.881337881088257,
      "epoch": 0.3801722327242176,
      "grad_norm": 2.15625,
      "learning_rate": 0.0004990107766544169,
      "loss": 5.7852,
      "mean_token_accuracy": 0.144415046274662,
      "num_tokens": 8338585.0,
      "step": 4525
    },
    {
      "entropy": 5.83257737159729,
      "epoch": 0.38059231253938247,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004990079696253413,
      "loss": 5.8118,
      "mean_token_accuracy": 0.14888912737369536,
      "num_tokens": 8346618.0,
      "step": 4530
    },
    {
      "entropy": 5.908400917053223,
      "epoch": 0.38101239235454737,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004990051586280799,
      "loss": 5.7942,
      "mean_token_accuracy": 0.14552049711346626,
      "num_tokens": 8356273.0,
      "step": 4535
    },
    {
      "entropy": 5.918098402023316,
      "epoch": 0.38143247216971227,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004990023436626824,
      "loss": 5.7951,
      "mean_token_accuracy": 0.14602155163884162,
      "num_tokens": 8366668.0,
      "step": 4540
    },
    {
      "entropy": 5.982459354400635,
      "epoch": 0.3818525519848771,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004989995247291988,
      "loss": 5.9163,
      "mean_token_accuracy": 0.14120357036590575,
      "num_tokens": 8375610.0,
      "step": 4545
    },
    {
      "entropy": 5.895563316345215,
      "epoch": 0.382272631800042,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004989967018276789,
      "loss": 5.774,
      "mean_token_accuracy": 0.15064741671085358,
      "num_tokens": 8384455.0,
      "step": 4550
    },
    {
      "entropy": 5.79692234992981,
      "epoch": 0.3826927116152069,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004989938749581727,
      "loss": 5.8123,
      "mean_token_accuracy": 0.14297219812870027,
      "num_tokens": 8393868.0,
      "step": 4555
    },
    {
      "entropy": 5.923454284667969,
      "epoch": 0.38311279143037175,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004989910441207305,
      "loss": 5.8328,
      "mean_token_accuracy": 0.1404195971786976,
      "num_tokens": 8402916.0,
      "step": 4560
    },
    {
      "entropy": 5.898684453964234,
      "epoch": 0.38353287124553664,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004989882093154023,
      "loss": 5.7638,
      "mean_token_accuracy": 0.14875229001045226,
      "num_tokens": 8411649.0,
      "step": 4565
    },
    {
      "entropy": 5.880671072006225,
      "epoch": 0.38395295106070154,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004989853705422381,
      "loss": 5.8801,
      "mean_token_accuracy": 0.13631365299224854,
      "num_tokens": 8420393.0,
      "step": 4570
    },
    {
      "entropy": 5.883023405075074,
      "epoch": 0.38437303087586644,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004989825278012886,
      "loss": 5.7743,
      "mean_token_accuracy": 0.14661871045827865,
      "num_tokens": 8429404.0,
      "step": 4575
    },
    {
      "entropy": 5.882754182815551,
      "epoch": 0.3847931106910313,
      "grad_norm": 1.3125,
      "learning_rate": 0.000498979681092604,
      "loss": 5.8106,
      "mean_token_accuracy": 0.14257726520299913,
      "num_tokens": 8438299.0,
      "step": 4580
    },
    {
      "entropy": 5.837142848968506,
      "epoch": 0.3852131905061962,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004989768304162345,
      "loss": 5.7554,
      "mean_token_accuracy": 0.14974153488874437,
      "num_tokens": 8447392.0,
      "step": 4585
    },
    {
      "entropy": 5.9916746616363525,
      "epoch": 0.3856332703213611,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004989739757722308,
      "loss": 5.8625,
      "mean_token_accuracy": 0.13722902536392212,
      "num_tokens": 8456361.0,
      "step": 4590
    },
    {
      "entropy": 5.905898475646973,
      "epoch": 0.3860533501365259,
      "grad_norm": 1.25,
      "learning_rate": 0.0004989711171606436,
      "loss": 5.7858,
      "mean_token_accuracy": 0.14541147351264955,
      "num_tokens": 8465548.0,
      "step": 4595
    },
    {
      "entropy": 5.921667671203613,
      "epoch": 0.3864734299516908,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004989682545815232,
      "loss": 5.8109,
      "mean_token_accuracy": 0.1411545142531395,
      "num_tokens": 8474454.0,
      "step": 4600
    },
    {
      "entropy": 5.837777233123779,
      "epoch": 0.3868935097668557,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004989653880349207,
      "loss": 5.7277,
      "mean_token_accuracy": 0.14593051224946976,
      "num_tokens": 8482694.0,
      "step": 4605
    },
    {
      "entropy": 5.864150905609131,
      "epoch": 0.38731358958202056,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004989625175208864,
      "loss": 5.8308,
      "mean_token_accuracy": 0.14381687343120575,
      "num_tokens": 8491162.0,
      "step": 4610
    },
    {
      "entropy": 5.819499731063843,
      "epoch": 0.38773366939718545,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004989596430394717,
      "loss": 5.6983,
      "mean_token_accuracy": 0.1608663707971573,
      "num_tokens": 8500716.0,
      "step": 4615
    },
    {
      "entropy": 5.8265057563781735,
      "epoch": 0.38815374921235035,
      "grad_norm": 1.2421875,
      "learning_rate": 0.000498956764590727,
      "loss": 5.7384,
      "mean_token_accuracy": 0.14157627001404763,
      "num_tokens": 8508871.0,
      "step": 4620
    },
    {
      "entropy": 5.979275703430176,
      "epoch": 0.38857382902751525,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004989538821747037,
      "loss": 5.9482,
      "mean_token_accuracy": 0.1420240134000778,
      "num_tokens": 8518450.0,
      "step": 4625
    },
    {
      "entropy": 5.9397321224212645,
      "epoch": 0.3889939088426801,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004989509957914527,
      "loss": 5.8528,
      "mean_token_accuracy": 0.1380702592432499,
      "num_tokens": 8528238.0,
      "step": 4630
    },
    {
      "entropy": 5.852479600906372,
      "epoch": 0.389413988657845,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004989481054410251,
      "loss": 5.7431,
      "mean_token_accuracy": 0.14131385385990142,
      "num_tokens": 8537587.0,
      "step": 4635
    },
    {
      "entropy": 5.9004875183105465,
      "epoch": 0.3898340684730099,
      "grad_norm": 1.25,
      "learning_rate": 0.0004989452111234721,
      "loss": 5.854,
      "mean_token_accuracy": 0.14011769965291024,
      "num_tokens": 8547703.0,
      "step": 4640
    },
    {
      "entropy": 5.860686302185059,
      "epoch": 0.39025414828817473,
      "grad_norm": 1.25,
      "learning_rate": 0.000498942312838845,
      "loss": 5.7958,
      "mean_token_accuracy": 0.14458008110523224,
      "num_tokens": 8557001.0,
      "step": 4645
    },
    {
      "entropy": 5.8804422378540036,
      "epoch": 0.3906742281033396,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004989394105871952,
      "loss": 5.692,
      "mean_token_accuracy": 0.15489965081214904,
      "num_tokens": 8565638.0,
      "step": 4650
    },
    {
      "entropy": 5.966875410079956,
      "epoch": 0.3910943079185045,
      "grad_norm": 1.734375,
      "learning_rate": 0.000498936504368574,
      "loss": 5.866,
      "mean_token_accuracy": 0.14225341156125068,
      "num_tokens": 8574428.0,
      "step": 4655
    },
    {
      "entropy": 5.759807777404785,
      "epoch": 0.3915143877336694,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004989335941830329,
      "loss": 5.816,
      "mean_token_accuracy": 0.14541401863098144,
      "num_tokens": 8583157.0,
      "step": 4660
    },
    {
      "entropy": 5.834117889404297,
      "epoch": 0.39193446754883426,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004989306800306236,
      "loss": 5.7781,
      "mean_token_accuracy": 0.14344885647296907,
      "num_tokens": 8592382.0,
      "step": 4665
    },
    {
      "entropy": 5.8663976192474365,
      "epoch": 0.39235454736399916,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0004989277619113975,
      "loss": 5.7604,
      "mean_token_accuracy": 0.15097892433404922,
      "num_tokens": 8601058.0,
      "step": 4670
    },
    {
      "entropy": 5.956953763961792,
      "epoch": 0.39277462717916406,
      "grad_norm": 1.75,
      "learning_rate": 0.0004989248398254065,
      "loss": 5.8591,
      "mean_token_accuracy": 0.1437965750694275,
      "num_tokens": 8609479.0,
      "step": 4675
    },
    {
      "entropy": 5.92048830986023,
      "epoch": 0.3931947069943289,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004989219137727021,
      "loss": 5.8058,
      "mean_token_accuracy": 0.14700522273778915,
      "num_tokens": 8618860.0,
      "step": 4680
    },
    {
      "entropy": 5.8700724124908445,
      "epoch": 0.3936147868094938,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004989189837533365,
      "loss": 5.7572,
      "mean_token_accuracy": 0.14664537757635115,
      "num_tokens": 8627462.0,
      "step": 4685
    },
    {
      "entropy": 5.981065273284912,
      "epoch": 0.3940348666246587,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004989160497673613,
      "loss": 5.9387,
      "mean_token_accuracy": 0.13696896955370902,
      "num_tokens": 8637569.0,
      "step": 4690
    },
    {
      "entropy": 5.918409252166748,
      "epoch": 0.39445494643982354,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004989131118148286,
      "loss": 5.7353,
      "mean_token_accuracy": 0.14450196400284768,
      "num_tokens": 8645440.0,
      "step": 4695
    },
    {
      "entropy": 5.836373901367187,
      "epoch": 0.39487502625498844,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004989101698957904,
      "loss": 5.9023,
      "mean_token_accuracy": 0.14248489439487458,
      "num_tokens": 8655077.0,
      "step": 4700
    },
    {
      "entropy": 5.941747808456421,
      "epoch": 0.39529510607015333,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004989072240102988,
      "loss": 5.8142,
      "mean_token_accuracy": 0.14740578532218934,
      "num_tokens": 8663126.0,
      "step": 4705
    },
    {
      "entropy": 5.973061513900757,
      "epoch": 0.39571518588531823,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004989042741584061,
      "loss": 5.7952,
      "mean_token_accuracy": 0.14338430240750313,
      "num_tokens": 8672386.0,
      "step": 4710
    },
    {
      "entropy": 5.720412731170654,
      "epoch": 0.3961352657004831,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004989013203401645,
      "loss": 5.7388,
      "mean_token_accuracy": 0.1476906917989254,
      "num_tokens": 8681930.0,
      "step": 4715
    },
    {
      "entropy": 5.883289384841919,
      "epoch": 0.396555345515648,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004988983625556264,
      "loss": 5.7919,
      "mean_token_accuracy": 0.14368573501706122,
      "num_tokens": 8690993.0,
      "step": 4720
    },
    {
      "entropy": 5.890859937667846,
      "epoch": 0.39697542533081287,
      "grad_norm": 1.25,
      "learning_rate": 0.0004988954008048438,
      "loss": 5.7809,
      "mean_token_accuracy": 0.14698703289031984,
      "num_tokens": 8699497.0,
      "step": 4725
    },
    {
      "entropy": 6.004160451889038,
      "epoch": 0.3973955051459777,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004988924350878697,
      "loss": 5.986,
      "mean_token_accuracy": 0.1333600528538227,
      "num_tokens": 8709274.0,
      "step": 4730
    },
    {
      "entropy": 5.947705507278442,
      "epoch": 0.3978155849611426,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004988894654047563,
      "loss": 5.8378,
      "mean_token_accuracy": 0.13920372053980828,
      "num_tokens": 8718158.0,
      "step": 4735
    },
    {
      "entropy": 5.82051944732666,
      "epoch": 0.3982356647763075,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004988864917555562,
      "loss": 5.7239,
      "mean_token_accuracy": 0.14391618072986603,
      "num_tokens": 8727459.0,
      "step": 4740
    },
    {
      "entropy": 5.940366458892822,
      "epoch": 0.3986557445914724,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004988835141403224,
      "loss": 5.8538,
      "mean_token_accuracy": 0.14721113741397857,
      "num_tokens": 8737614.0,
      "step": 4745
    },
    {
      "entropy": 5.819404935836792,
      "epoch": 0.39907582440663725,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004988805325591073,
      "loss": 5.6874,
      "mean_token_accuracy": 0.14453882575035096,
      "num_tokens": 8746799.0,
      "step": 4750
    },
    {
      "entropy": 5.84985032081604,
      "epoch": 0.39949590422180214,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004988775470119639,
      "loss": 5.8628,
      "mean_token_accuracy": 0.14014028683304786,
      "num_tokens": 8756555.0,
      "step": 4755
    },
    {
      "entropy": 5.867576169967651,
      "epoch": 0.39991598403696704,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004988745574989451,
      "loss": 5.8851,
      "mean_token_accuracy": 0.1480340264737606,
      "num_tokens": 8765849.0,
      "step": 4760
    },
    {
      "entropy": 6.094280099868774,
      "epoch": 0.4003360638521319,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004988715640201036,
      "loss": 5.954,
      "mean_token_accuracy": 0.13378295823931693,
      "num_tokens": 8775713.0,
      "step": 4765
    },
    {
      "entropy": 5.884061288833618,
      "epoch": 0.4007561436672968,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004988685665754928,
      "loss": 5.7775,
      "mean_token_accuracy": 0.14666623920202254,
      "num_tokens": 8784717.0,
      "step": 4770
    },
    {
      "entropy": 5.8814960479736325,
      "epoch": 0.4011762234824617,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004988655651651656,
      "loss": 5.7911,
      "mean_token_accuracy": 0.14413672238588332,
      "num_tokens": 8794388.0,
      "step": 4775
    },
    {
      "entropy": 5.836367225646972,
      "epoch": 0.4015963032976265,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004988625597891751,
      "loss": 5.8093,
      "mean_token_accuracy": 0.14697518199682236,
      "num_tokens": 8802436.0,
      "step": 4780
    },
    {
      "entropy": 5.912711811065674,
      "epoch": 0.4020163831127914,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004988595504475746,
      "loss": 5.7636,
      "mean_token_accuracy": 0.1465681880712509,
      "num_tokens": 8811184.0,
      "step": 4785
    },
    {
      "entropy": 5.9507347583770756,
      "epoch": 0.4024364629279563,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004988565371404175,
      "loss": 5.8423,
      "mean_token_accuracy": 0.14505148231983184,
      "num_tokens": 8820525.0,
      "step": 4790
    },
    {
      "entropy": 5.830136728286743,
      "epoch": 0.4028565427431212,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004988535198677571,
      "loss": 5.7011,
      "mean_token_accuracy": 0.153212571144104,
      "num_tokens": 8828928.0,
      "step": 4795
    },
    {
      "entropy": 5.90922179222107,
      "epoch": 0.40327662255828606,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004988504986296469,
      "loss": 5.907,
      "mean_token_accuracy": 0.1371180810034275,
      "num_tokens": 8838615.0,
      "step": 4800
    },
    {
      "entropy": 5.942590522766113,
      "epoch": 0.40369670237345096,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004988474734261404,
      "loss": 5.9047,
      "mean_token_accuracy": 0.13416762948036193,
      "num_tokens": 8848709.0,
      "step": 4805
    },
    {
      "entropy": 5.973557710647583,
      "epoch": 0.40411678218861585,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004988444442572911,
      "loss": 5.8479,
      "mean_token_accuracy": 0.1310623273253441,
      "num_tokens": 8858277.0,
      "step": 4810
    },
    {
      "entropy": 5.891769552230835,
      "epoch": 0.4045368620037807,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004988414111231528,
      "loss": 5.8161,
      "mean_token_accuracy": 0.14670211374759673,
      "num_tokens": 8868436.0,
      "step": 4815
    },
    {
      "entropy": 5.925015592575074,
      "epoch": 0.4049569418189456,
      "grad_norm": 1.2578125,
      "learning_rate": 0.000498838374023779,
      "loss": 5.7888,
      "mean_token_accuracy": 0.13960602283477783,
      "num_tokens": 8877740.0,
      "step": 4820
    },
    {
      "entropy": 5.908780908584594,
      "epoch": 0.4053770216341105,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004988353329592239,
      "loss": 5.7761,
      "mean_token_accuracy": 0.14475535228848457,
      "num_tokens": 8887408.0,
      "step": 4825
    },
    {
      "entropy": 5.893645095825195,
      "epoch": 0.4057971014492754,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004988322879295409,
      "loss": 5.929,
      "mean_token_accuracy": 0.13994188457727433,
      "num_tokens": 8897141.0,
      "step": 4830
    },
    {
      "entropy": 5.865872049331665,
      "epoch": 0.40621718126444023,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004988292389347844,
      "loss": 5.7105,
      "mean_token_accuracy": 0.15417256727814674,
      "num_tokens": 8905747.0,
      "step": 4835
    },
    {
      "entropy": 5.965148115158081,
      "epoch": 0.40663726107960513,
      "grad_norm": 1.265625,
      "learning_rate": 0.000498826185975008,
      "loss": 5.8673,
      "mean_token_accuracy": 0.14333693608641623,
      "num_tokens": 8914926.0,
      "step": 4840
    },
    {
      "entropy": 5.872843933105469,
      "epoch": 0.40705734089477,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004988231290502662,
      "loss": 5.8806,
      "mean_token_accuracy": 0.14108002185821533,
      "num_tokens": 8923956.0,
      "step": 4845
    },
    {
      "entropy": 5.925130224227905,
      "epoch": 0.40747742070993487,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004988200681606127,
      "loss": 5.7542,
      "mean_token_accuracy": 0.1388688787817955,
      "num_tokens": 8932654.0,
      "step": 4850
    },
    {
      "entropy": 5.9108325958251955,
      "epoch": 0.40789750052509977,
      "grad_norm": 1.1875,
      "learning_rate": 0.000498817003306102,
      "loss": 5.7364,
      "mean_token_accuracy": 0.1501722030341625,
      "num_tokens": 8941716.0,
      "step": 4855
    },
    {
      "entropy": 5.846788120269776,
      "epoch": 0.40831758034026466,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004988139344867884,
      "loss": 5.8122,
      "mean_token_accuracy": 0.14448407515883446,
      "num_tokens": 8950377.0,
      "step": 4860
    },
    {
      "entropy": 5.848782968521118,
      "epoch": 0.4087376601554295,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004988108617027261,
      "loss": 5.7679,
      "mean_token_accuracy": 0.14761658608913422,
      "num_tokens": 8959857.0,
      "step": 4865
    },
    {
      "entropy": 5.834667444229126,
      "epoch": 0.4091577399705944,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004988077849539698,
      "loss": 5.7183,
      "mean_token_accuracy": 0.1485067203640938,
      "num_tokens": 8968272.0,
      "step": 4870
    },
    {
      "entropy": 5.923686075210571,
      "epoch": 0.4095778197857593,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004988047042405736,
      "loss": 5.7969,
      "mean_token_accuracy": 0.14762237221002578,
      "num_tokens": 8977445.0,
      "step": 4875
    },
    {
      "entropy": 5.964400959014893,
      "epoch": 0.4099978996009242,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004988016195625924,
      "loss": 5.8644,
      "mean_token_accuracy": 0.13916484266519547,
      "num_tokens": 8987315.0,
      "step": 4880
    },
    {
      "entropy": 5.8641290187835695,
      "epoch": 0.41041797941608904,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004987985309200807,
      "loss": 5.8568,
      "mean_token_accuracy": 0.1417423367500305,
      "num_tokens": 8998119.0,
      "step": 4885
    },
    {
      "entropy": 5.7576408863067625,
      "epoch": 0.41083805923125394,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004987954383130934,
      "loss": 5.7477,
      "mean_token_accuracy": 0.1535985603928566,
      "num_tokens": 9007167.0,
      "step": 4890
    },
    {
      "entropy": 5.866803312301636,
      "epoch": 0.41125813904641884,
      "grad_norm": 1.203125,
      "learning_rate": 0.000498792341741685,
      "loss": 5.8006,
      "mean_token_accuracy": 0.13756236732006072,
      "num_tokens": 9016690.0,
      "step": 4895
    },
    {
      "entropy": 5.996728754043579,
      "epoch": 0.4116782188615837,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004987892412059106,
      "loss": 5.8881,
      "mean_token_accuracy": 0.1421562008559704,
      "num_tokens": 9026117.0,
      "step": 4900
    },
    {
      "entropy": 5.823458862304688,
      "epoch": 0.4120982986767486,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004987861367058251,
      "loss": 5.7583,
      "mean_token_accuracy": 0.1456121936440468,
      "num_tokens": 9035754.0,
      "step": 4905
    },
    {
      "entropy": 5.91724009513855,
      "epoch": 0.4125183784919135,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004987830282414833,
      "loss": 5.7614,
      "mean_token_accuracy": 0.15125717446208,
      "num_tokens": 9045453.0,
      "step": 4910
    },
    {
      "entropy": 5.882875871658325,
      "epoch": 0.41293845830707837,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004987799158129404,
      "loss": 5.8736,
      "mean_token_accuracy": 0.14322762489318847,
      "num_tokens": 9056045.0,
      "step": 4915
    },
    {
      "entropy": 5.822021722793579,
      "epoch": 0.4133585381222432,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004987767994202516,
      "loss": 5.7652,
      "mean_token_accuracy": 0.14132684618234634,
      "num_tokens": 9065728.0,
      "step": 4920
    },
    {
      "entropy": 5.874257898330688,
      "epoch": 0.4137786179374081,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004987736790634719,
      "loss": 5.7867,
      "mean_token_accuracy": 0.14259056150913238,
      "num_tokens": 9075522.0,
      "step": 4925
    },
    {
      "entropy": 5.868446731567383,
      "epoch": 0.414198697752573,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004987705547426568,
      "loss": 5.7633,
      "mean_token_accuracy": 0.14451717659831048,
      "num_tokens": 9084412.0,
      "step": 4930
    },
    {
      "entropy": 5.86938099861145,
      "epoch": 0.41461877756773785,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004987674264578615,
      "loss": 5.8382,
      "mean_token_accuracy": 0.1410167396068573,
      "num_tokens": 9094289.0,
      "step": 4935
    },
    {
      "entropy": 5.902176809310913,
      "epoch": 0.41503885738290275,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004987642942091414,
      "loss": 5.7413,
      "mean_token_accuracy": 0.14698186367750168,
      "num_tokens": 9103124.0,
      "step": 4940
    },
    {
      "entropy": 5.898521900177002,
      "epoch": 0.41545893719806765,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004987611579965523,
      "loss": 5.6945,
      "mean_token_accuracy": 0.1453884869813919,
      "num_tokens": 9112794.0,
      "step": 4945
    },
    {
      "entropy": 5.867249441146851,
      "epoch": 0.4158790170132325,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004987580178201492,
      "loss": 5.8508,
      "mean_token_accuracy": 0.15215325057506562,
      "num_tokens": 9122718.0,
      "step": 4950
    },
    {
      "entropy": 5.877714014053344,
      "epoch": 0.4162990968283974,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004987548736799882,
      "loss": 5.8851,
      "mean_token_accuracy": 0.13938734084367752,
      "num_tokens": 9131855.0,
      "step": 4955
    },
    {
      "entropy": 5.866538429260254,
      "epoch": 0.4167191766435623,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004987517255761248,
      "loss": 5.7248,
      "mean_token_accuracy": 0.14940666258335114,
      "num_tokens": 9141102.0,
      "step": 4960
    },
    {
      "entropy": 5.806973934173584,
      "epoch": 0.4171392564587272,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004987485735086148,
      "loss": 5.8043,
      "mean_token_accuracy": 0.14497776329517365,
      "num_tokens": 9150552.0,
      "step": 4965
    },
    {
      "entropy": 5.940771627426147,
      "epoch": 0.417559336273892,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000498745417477514,
      "loss": 5.7927,
      "mean_token_accuracy": 0.14460284858942032,
      "num_tokens": 9160105.0,
      "step": 4970
    },
    {
      "entropy": 5.864925670623779,
      "epoch": 0.4179794160890569,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004987422574828784,
      "loss": 5.7728,
      "mean_token_accuracy": 0.14519683197140693,
      "num_tokens": 9169367.0,
      "step": 4975
    },
    {
      "entropy": 5.846901607513428,
      "epoch": 0.4183994959042218,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004987390935247639,
      "loss": 5.6568,
      "mean_token_accuracy": 0.15195999220013617,
      "num_tokens": 9177872.0,
      "step": 4980
    },
    {
      "entropy": 5.892278623580933,
      "epoch": 0.41881957571938666,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004987359256032265,
      "loss": 5.8728,
      "mean_token_accuracy": 0.1392049200832844,
      "num_tokens": 9187879.0,
      "step": 4985
    },
    {
      "entropy": 5.834523773193359,
      "epoch": 0.41923965553455156,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004987327537183225,
      "loss": 5.7865,
      "mean_token_accuracy": 0.14359964653849602,
      "num_tokens": 9198281.0,
      "step": 4990
    },
    {
      "entropy": 5.898417997360229,
      "epoch": 0.41965973534971646,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004987295778701078,
      "loss": 5.7784,
      "mean_token_accuracy": 0.1480983316898346,
      "num_tokens": 9207670.0,
      "step": 4995
    },
    {
      "entropy": 5.903277587890625,
      "epoch": 0.42007981516488135,
      "grad_norm": 1.3828125,
      "learning_rate": 0.000498726398058639,
      "loss": 5.7986,
      "mean_token_accuracy": 0.1475730612874031,
      "num_tokens": 9216995.0,
      "step": 5000
    },
    {
      "entropy": 5.920054292678833,
      "epoch": 0.4204998949800462,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004987232142839723,
      "loss": 5.8785,
      "mean_token_accuracy": 0.13731264397501947,
      "num_tokens": 9227330.0,
      "step": 5005
    },
    {
      "entropy": 5.861970615386963,
      "epoch": 0.4209199747952111,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004987200265461638,
      "loss": 5.7885,
      "mean_token_accuracy": 0.15134866386651993,
      "num_tokens": 9236666.0,
      "step": 5010
    },
    {
      "entropy": 5.934697484970092,
      "epoch": 0.421340054610376,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004987168348452705,
      "loss": 5.7864,
      "mean_token_accuracy": 0.144124399125576,
      "num_tokens": 9246388.0,
      "step": 5015
    },
    {
      "entropy": 5.8499044418334964,
      "epoch": 0.42176013442554083,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004987136391813485,
      "loss": 5.7404,
      "mean_token_accuracy": 0.15391666144132615,
      "num_tokens": 9255239.0,
      "step": 5020
    },
    {
      "entropy": 5.773643350601196,
      "epoch": 0.42218021424070573,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004987104395544547,
      "loss": 5.7252,
      "mean_token_accuracy": 0.14332954734563827,
      "num_tokens": 9264468.0,
      "step": 5025
    },
    {
      "entropy": 5.859898376464844,
      "epoch": 0.42260029405587063,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004987072359646455,
      "loss": 5.7927,
      "mean_token_accuracy": 0.15058641731739045,
      "num_tokens": 9274140.0,
      "step": 5030
    },
    {
      "entropy": 5.917972660064697,
      "epoch": 0.42302037387103547,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004987040284119778,
      "loss": 5.7586,
      "mean_token_accuracy": 0.1428128033876419,
      "num_tokens": 9283539.0,
      "step": 5035
    },
    {
      "entropy": 5.781129264831543,
      "epoch": 0.42344045368620037,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004987008168965087,
      "loss": 5.7728,
      "mean_token_accuracy": 0.14332580342888832,
      "num_tokens": 9292664.0,
      "step": 5040
    },
    {
      "entropy": 5.946068525314331,
      "epoch": 0.42386053350136527,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004986976014182946,
      "loss": 5.8657,
      "mean_token_accuracy": 0.14432715028524398,
      "num_tokens": 9302814.0,
      "step": 5045
    },
    {
      "entropy": 5.980961608886719,
      "epoch": 0.42428061331653016,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004986943819773927,
      "loss": 5.858,
      "mean_token_accuracy": 0.14330325573682784,
      "num_tokens": 9312654.0,
      "step": 5050
    },
    {
      "entropy": 5.9505743980407715,
      "epoch": 0.424700693131695,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00049869115857386,
      "loss": 5.8737,
      "mean_token_accuracy": 0.13669376373291015,
      "num_tokens": 9322271.0,
      "step": 5055
    },
    {
      "entropy": 5.951388359069824,
      "epoch": 0.4251207729468599,
      "grad_norm": 1.125,
      "learning_rate": 0.0004986879312077536,
      "loss": 5.8193,
      "mean_token_accuracy": 0.14102528542280196,
      "num_tokens": 9331341.0,
      "step": 5060
    },
    {
      "entropy": 5.834031820297241,
      "epoch": 0.4255408527620248,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004986846998791308,
      "loss": 5.7561,
      "mean_token_accuracy": 0.1436670668423176,
      "num_tokens": 9339863.0,
      "step": 5065
    },
    {
      "entropy": 5.811039066314697,
      "epoch": 0.42596093257718964,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004986814645880485,
      "loss": 5.7236,
      "mean_token_accuracy": 0.14669884666800498,
      "num_tokens": 9349488.0,
      "step": 5070
    },
    {
      "entropy": 5.830924463272095,
      "epoch": 0.42638101239235454,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004986782253345645,
      "loss": 5.7333,
      "mean_token_accuracy": 0.14323149994015694,
      "num_tokens": 9357977.0,
      "step": 5075
    },
    {
      "entropy": 5.839050388336181,
      "epoch": 0.42680109220751944,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004986749821187358,
      "loss": 5.8394,
      "mean_token_accuracy": 0.14253177791833876,
      "num_tokens": 9367449.0,
      "step": 5080
    },
    {
      "entropy": 5.939317226409912,
      "epoch": 0.42722117202268434,
      "grad_norm": 1.375,
      "learning_rate": 0.00049867173494062,
      "loss": 5.8681,
      "mean_token_accuracy": 0.14768607616424562,
      "num_tokens": 9377070.0,
      "step": 5085
    },
    {
      "entropy": 5.813904285430908,
      "epoch": 0.4276412518378492,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004986684838002744,
      "loss": 5.6526,
      "mean_token_accuracy": 0.14204483926296235,
      "num_tokens": 9385881.0,
      "step": 5090
    },
    {
      "entropy": 5.823819637298584,
      "epoch": 0.4280613316530141,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004986652286977569,
      "loss": 5.7905,
      "mean_token_accuracy": 0.14255458265542983,
      "num_tokens": 9395159.0,
      "step": 5095
    },
    {
      "entropy": 5.877113628387451,
      "epoch": 0.428481411468179,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004986619696331252,
      "loss": 5.7486,
      "mean_token_accuracy": 0.14601895585656166,
      "num_tokens": 9404590.0,
      "step": 5100
    },
    {
      "entropy": 5.856746768951416,
      "epoch": 0.4289014912833438,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004986587066064367,
      "loss": 5.7708,
      "mean_token_accuracy": 0.1473971426486969,
      "num_tokens": 9414452.0,
      "step": 5105
    },
    {
      "entropy": 5.868241453170777,
      "epoch": 0.4293215710985087,
      "grad_norm": 1.25,
      "learning_rate": 0.0004986554396177494,
      "loss": 5.894,
      "mean_token_accuracy": 0.1396991342306137,
      "num_tokens": 9424004.0,
      "step": 5110
    },
    {
      "entropy": 5.933579587936402,
      "epoch": 0.4297416509136736,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004986521686671212,
      "loss": 5.7713,
      "mean_token_accuracy": 0.1551983118057251,
      "num_tokens": 9433487.0,
      "step": 5115
    },
    {
      "entropy": 5.856822824478149,
      "epoch": 0.43016173072883845,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00049864889375461,
      "loss": 5.8359,
      "mean_token_accuracy": 0.13958305045962333,
      "num_tokens": 9442742.0,
      "step": 5120
    },
    {
      "entropy": 5.880755043029785,
      "epoch": 0.43058181054400335,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004986456148802738,
      "loss": 5.8957,
      "mean_token_accuracy": 0.14121335968375207,
      "num_tokens": 9452550.0,
      "step": 5125
    },
    {
      "entropy": 6.039326620101929,
      "epoch": 0.43100189035916825,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004986423320441707,
      "loss": 5.8546,
      "mean_token_accuracy": 0.13762183710932732,
      "num_tokens": 9461920.0,
      "step": 5130
    },
    {
      "entropy": 5.904562616348267,
      "epoch": 0.43142197017433315,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004986390452463588,
      "loss": 5.7682,
      "mean_token_accuracy": 0.14276604056358339,
      "num_tokens": 9470817.0,
      "step": 5135
    },
    {
      "entropy": 5.710296773910523,
      "epoch": 0.431842049989498,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004986357544868964,
      "loss": 5.7258,
      "mean_token_accuracy": 0.15019231289625168,
      "num_tokens": 9479936.0,
      "step": 5140
    },
    {
      "entropy": 5.892205905914307,
      "epoch": 0.4322621298046629,
      "grad_norm": 1.25,
      "learning_rate": 0.0004986324597658418,
      "loss": 5.7581,
      "mean_token_accuracy": 0.15196042209863664,
      "num_tokens": 9489818.0,
      "step": 5145
    },
    {
      "entropy": 5.733763742446899,
      "epoch": 0.4326822096198278,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004986291610832533,
      "loss": 5.7455,
      "mean_token_accuracy": 0.14281522929668428,
      "num_tokens": 9499688.0,
      "step": 5150
    },
    {
      "entropy": 5.960237169265747,
      "epoch": 0.4331022894349926,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004986258584391892,
      "loss": 5.8063,
      "mean_token_accuracy": 0.14208860471844673,
      "num_tokens": 9509581.0,
      "step": 5155
    },
    {
      "entropy": 6.0035475730896,
      "epoch": 0.4335223692501575,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004986225518337084,
      "loss": 5.89,
      "mean_token_accuracy": 0.143732051551342,
      "num_tokens": 9518556.0,
      "step": 5160
    },
    {
      "entropy": 5.81024432182312,
      "epoch": 0.4339424490653224,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004986192412668692,
      "loss": 5.7931,
      "mean_token_accuracy": 0.14318298548460007,
      "num_tokens": 9527612.0,
      "step": 5165
    },
    {
      "entropy": 5.847835922241211,
      "epoch": 0.4343625288804873,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004986159267387302,
      "loss": 5.6856,
      "mean_token_accuracy": 0.1560652643442154,
      "num_tokens": 9535882.0,
      "step": 5170
    },
    {
      "entropy": 5.862061595916748,
      "epoch": 0.43478260869565216,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004986126082493502,
      "loss": 5.7914,
      "mean_token_accuracy": 0.14822041988372803,
      "num_tokens": 9544799.0,
      "step": 5175
    },
    {
      "entropy": 5.794046545028687,
      "epoch": 0.43520268851081706,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004986092857987881,
      "loss": 5.6968,
      "mean_token_accuracy": 0.15352533906698226,
      "num_tokens": 9553805.0,
      "step": 5180
    },
    {
      "entropy": 5.832414722442627,
      "epoch": 0.43562276832598196,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004986059593871026,
      "loss": 5.7414,
      "mean_token_accuracy": 0.14509093537926673,
      "num_tokens": 9563493.0,
      "step": 5185
    },
    {
      "entropy": 5.899970149993896,
      "epoch": 0.4360428481411468,
      "grad_norm": 2.0,
      "learning_rate": 0.0004986026290143527,
      "loss": 5.8201,
      "mean_token_accuracy": 0.14310061410069466,
      "num_tokens": 9572297.0,
      "step": 5190
    },
    {
      "entropy": 5.985169315338135,
      "epoch": 0.4364629279563117,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004985992946805973,
      "loss": 5.9499,
      "mean_token_accuracy": 0.1373360723257065,
      "num_tokens": 9581967.0,
      "step": 5195
    },
    {
      "entropy": 5.853709316253662,
      "epoch": 0.4368830077714766,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004985959563858955,
      "loss": 5.8611,
      "mean_token_accuracy": 0.14648908525705337,
      "num_tokens": 9590885.0,
      "step": 5200
    },
    {
      "entropy": 5.920672750473022,
      "epoch": 0.43730308758664144,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004985926141303066,
      "loss": 5.7766,
      "mean_token_accuracy": 0.14383909106254578,
      "num_tokens": 9599247.0,
      "step": 5205
    },
    {
      "entropy": 5.823170852661133,
      "epoch": 0.43772316740180633,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004985892679138896,
      "loss": 5.709,
      "mean_token_accuracy": 0.15263715162873268,
      "num_tokens": 9608296.0,
      "step": 5210
    },
    {
      "entropy": 5.922242307662964,
      "epoch": 0.43814324721697123,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004985859177367038,
      "loss": 5.7539,
      "mean_token_accuracy": 0.14295759946107864,
      "num_tokens": 9616734.0,
      "step": 5215
    },
    {
      "entropy": 5.933417272567749,
      "epoch": 0.43856332703213613,
      "grad_norm": 2.25,
      "learning_rate": 0.0004985825635988087,
      "loss": 5.839,
      "mean_token_accuracy": 0.14136623740196227,
      "num_tokens": 9626246.0,
      "step": 5220
    },
    {
      "entropy": 5.840227174758911,
      "epoch": 0.43898340684730097,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004985792055002635,
      "loss": 5.7156,
      "mean_token_accuracy": 0.1447908401489258,
      "num_tokens": 9634963.0,
      "step": 5225
    },
    {
      "entropy": 5.864311695098877,
      "epoch": 0.43940348666246587,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004985758434411278,
      "loss": 5.7954,
      "mean_token_accuracy": 0.1492132991552353,
      "num_tokens": 9643615.0,
      "step": 5230
    },
    {
      "entropy": 5.824445819854736,
      "epoch": 0.43982356647763077,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004985724774214613,
      "loss": 5.7572,
      "mean_token_accuracy": 0.14679911136627197,
      "num_tokens": 9653306.0,
      "step": 5235
    },
    {
      "entropy": 5.8889368057250975,
      "epoch": 0.4402436462927956,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004985691074413233,
      "loss": 5.7966,
      "mean_token_accuracy": 0.1408935308456421,
      "num_tokens": 9662389.0,
      "step": 5240
    },
    {
      "entropy": 5.806066703796387,
      "epoch": 0.4406637261079605,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004985657335007739,
      "loss": 5.7659,
      "mean_token_accuracy": 0.14551339596509932,
      "num_tokens": 9671183.0,
      "step": 5245
    },
    {
      "entropy": 5.852633047103882,
      "epoch": 0.4410838059231254,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004985623555998725,
      "loss": 5.778,
      "mean_token_accuracy": 0.1539351999759674,
      "num_tokens": 9680544.0,
      "step": 5250
    },
    {
      "entropy": 5.867886209487915,
      "epoch": 0.4415038857382903,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004985589737386791,
      "loss": 5.8053,
      "mean_token_accuracy": 0.1449089080095291,
      "num_tokens": 9690137.0,
      "step": 5255
    },
    {
      "entropy": 5.847021532058716,
      "epoch": 0.44192396555345514,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004985555879172535,
      "loss": 5.7433,
      "mean_token_accuracy": 0.14687602072954178,
      "num_tokens": 9699149.0,
      "step": 5260
    },
    {
      "entropy": 5.898943853378296,
      "epoch": 0.44234404536862004,
      "grad_norm": 1.2578125,
      "learning_rate": 0.000498552198135656,
      "loss": 5.8097,
      "mean_token_accuracy": 0.15019679218530654,
      "num_tokens": 9709308.0,
      "step": 5265
    },
    {
      "entropy": 5.844637632369995,
      "epoch": 0.44276412518378494,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004985488043939462,
      "loss": 5.7573,
      "mean_token_accuracy": 0.1442711167037487,
      "num_tokens": 9718462.0,
      "step": 5270
    },
    {
      "entropy": 5.853937387466431,
      "epoch": 0.4431842049989498,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004985454066921846,
      "loss": 5.6905,
      "mean_token_accuracy": 0.1537187710404396,
      "num_tokens": 9727626.0,
      "step": 5275
    },
    {
      "entropy": 5.747472763061523,
      "epoch": 0.4436042848141147,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004985420050304312,
      "loss": 5.7068,
      "mean_token_accuracy": 0.1498991407454014,
      "num_tokens": 9737091.0,
      "step": 5280
    },
    {
      "entropy": 5.846937942504883,
      "epoch": 0.4440243646292796,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004985385994087462,
      "loss": 5.7867,
      "mean_token_accuracy": 0.14585647359490395,
      "num_tokens": 9746135.0,
      "step": 5285
    },
    {
      "entropy": 5.949729108810425,
      "epoch": 0.4444444444444444,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004985351898271901,
      "loss": 5.719,
      "mean_token_accuracy": 0.1520434781908989,
      "num_tokens": 9754549.0,
      "step": 5290
    },
    {
      "entropy": 5.887947463989258,
      "epoch": 0.4448645242596093,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004985317762858231,
      "loss": 5.8567,
      "mean_token_accuracy": 0.14025997146964073,
      "num_tokens": 9764219.0,
      "step": 5295
    },
    {
      "entropy": 5.871951913833618,
      "epoch": 0.4452846040747742,
      "grad_norm": 1.5078125,
      "learning_rate": 0.000498528358784706,
      "loss": 5.6972,
      "mean_token_accuracy": 0.15001460164785385,
      "num_tokens": 9772234.0,
      "step": 5300
    },
    {
      "entropy": 5.811316633224488,
      "epoch": 0.4457046838899391,
      "grad_norm": 1.203125,
      "learning_rate": 0.000498524937323899,
      "loss": 5.7622,
      "mean_token_accuracy": 0.15125853270292283,
      "num_tokens": 9781417.0,
      "step": 5305
    },
    {
      "entropy": 5.981836175918579,
      "epoch": 0.44612476370510395,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004985215119034628,
      "loss": 5.8763,
      "mean_token_accuracy": 0.13692381381988525,
      "num_tokens": 9791286.0,
      "step": 5310
    },
    {
      "entropy": 5.866169118881226,
      "epoch": 0.44654484352026885,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004985180825234582,
      "loss": 5.8755,
      "mean_token_accuracy": 0.13873762115836144,
      "num_tokens": 9802157.0,
      "step": 5315
    },
    {
      "entropy": 5.981353807449341,
      "epoch": 0.44696492333543375,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004985146491839459,
      "loss": 5.8547,
      "mean_token_accuracy": 0.1320488214492798,
      "num_tokens": 9812646.0,
      "step": 5320
    },
    {
      "entropy": 5.9978625774383545,
      "epoch": 0.4473850031505986,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004985112118849865,
      "loss": 5.8664,
      "mean_token_accuracy": 0.13918881937861444,
      "num_tokens": 9822274.0,
      "step": 5325
    },
    {
      "entropy": 5.781670093536377,
      "epoch": 0.4478050829657635,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004985077706266412,
      "loss": 5.6507,
      "mean_token_accuracy": 0.14431787207722663,
      "num_tokens": 9831337.0,
      "step": 5330
    },
    {
      "entropy": 5.797645950317383,
      "epoch": 0.4482251627809284,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004985043254089708,
      "loss": 5.8111,
      "mean_token_accuracy": 0.13542471826076508,
      "num_tokens": 9840798.0,
      "step": 5335
    },
    {
      "entropy": 5.871469783782959,
      "epoch": 0.44864524259609323,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004985008762320364,
      "loss": 5.7666,
      "mean_token_accuracy": 0.14363950192928315,
      "num_tokens": 9850117.0,
      "step": 5340
    },
    {
      "entropy": 5.885560655593872,
      "epoch": 0.4490653224112581,
      "grad_norm": 1.328125,
      "learning_rate": 0.000498497423095899,
      "loss": 5.7176,
      "mean_token_accuracy": 0.15319354236125945,
      "num_tokens": 9858227.0,
      "step": 5345
    },
    {
      "entropy": 5.810570764541626,
      "epoch": 0.449485402226423,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004984939660006199,
      "loss": 5.8079,
      "mean_token_accuracy": 0.14338937029242516,
      "num_tokens": 9867157.0,
      "step": 5350
    },
    {
      "entropy": 5.811974906921387,
      "epoch": 0.4499054820415879,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004984905049462602,
      "loss": 5.7349,
      "mean_token_accuracy": 0.144259013235569,
      "num_tokens": 9877045.0,
      "step": 5355
    },
    {
      "entropy": 5.959705638885498,
      "epoch": 0.45032556185675277,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004984870399328814,
      "loss": 5.8617,
      "mean_token_accuracy": 0.14245471283793448,
      "num_tokens": 9886637.0,
      "step": 5360
    },
    {
      "entropy": 5.816979646682739,
      "epoch": 0.45074564167191766,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004984835709605446,
      "loss": 5.7271,
      "mean_token_accuracy": 0.15511318892240525,
      "num_tokens": 9895601.0,
      "step": 5365
    },
    {
      "entropy": 5.86139702796936,
      "epoch": 0.45116572148708256,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004984800980293116,
      "loss": 5.8807,
      "mean_token_accuracy": 0.14196527227759362,
      "num_tokens": 9904775.0,
      "step": 5370
    },
    {
      "entropy": 5.883301210403443,
      "epoch": 0.4515858013022474,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004984766211392435,
      "loss": 5.8184,
      "mean_token_accuracy": 0.13878512308001517,
      "num_tokens": 9913795.0,
      "step": 5375
    },
    {
      "entropy": 5.856382942199707,
      "epoch": 0.4520058811174123,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004984731402904024,
      "loss": 5.6546,
      "mean_token_accuracy": 0.15193988084793092,
      "num_tokens": 9922576.0,
      "step": 5380
    },
    {
      "entropy": 5.768913459777832,
      "epoch": 0.4524259609325772,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004984696554828496,
      "loss": 5.6446,
      "mean_token_accuracy": 0.15225213021039963,
      "num_tokens": 9930971.0,
      "step": 5385
    },
    {
      "entropy": 5.856381464004516,
      "epoch": 0.4528460407477421,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004984661667166468,
      "loss": 5.7606,
      "mean_token_accuracy": 0.1514030024409294,
      "num_tokens": 9939628.0,
      "step": 5390
    },
    {
      "entropy": 5.887900066375733,
      "epoch": 0.45326612056290694,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004984626739918561,
      "loss": 5.7294,
      "mean_token_accuracy": 0.15370103269815444,
      "num_tokens": 9948397.0,
      "step": 5395
    },
    {
      "entropy": 5.8639452934265135,
      "epoch": 0.45368620037807184,
      "grad_norm": 1.125,
      "learning_rate": 0.0004984591773085391,
      "loss": 5.8108,
      "mean_token_accuracy": 0.14718640744686126,
      "num_tokens": 9957683.0,
      "step": 5400
    },
    {
      "entropy": 5.911360502243042,
      "epoch": 0.45410628019323673,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004984556766667578,
      "loss": 5.7938,
      "mean_token_accuracy": 0.14773029685020447,
      "num_tokens": 9966756.0,
      "step": 5405
    },
    {
      "entropy": 5.876928043365479,
      "epoch": 0.4545263600084016,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004984521720665743,
      "loss": 5.7996,
      "mean_token_accuracy": 0.1499388188123703,
      "num_tokens": 9976000.0,
      "step": 5410
    },
    {
      "entropy": 5.9389279842376705,
      "epoch": 0.4549464398235665,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004984486635080507,
      "loss": 5.7922,
      "mean_token_accuracy": 0.146384534239769,
      "num_tokens": 9985509.0,
      "step": 5415
    },
    {
      "entropy": 5.7951904296875,
      "epoch": 0.45536651963873137,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004984451509912489,
      "loss": 5.744,
      "mean_token_accuracy": 0.1474005714058876,
      "num_tokens": 9994342.0,
      "step": 5420
    },
    {
      "entropy": 5.838972473144532,
      "epoch": 0.4557865994538962,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004984416345162315,
      "loss": 5.7889,
      "mean_token_accuracy": 0.14537926837801934,
      "num_tokens": 10004249.0,
      "step": 5425
    },
    {
      "entropy": 5.8457417488098145,
      "epoch": 0.4562066792690611,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004984381140830605,
      "loss": 5.7485,
      "mean_token_accuracy": 0.14723600521683694,
      "num_tokens": 10012430.0,
      "step": 5430
    },
    {
      "entropy": 5.878772354125976,
      "epoch": 0.456626759084226,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004984345896917984,
      "loss": 5.7605,
      "mean_token_accuracy": 0.14340553283691407,
      "num_tokens": 10021434.0,
      "step": 5435
    },
    {
      "entropy": 5.859716320037842,
      "epoch": 0.4570468388993909,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004984310613425076,
      "loss": 5.7662,
      "mean_token_accuracy": 0.1505170688033104,
      "num_tokens": 10030473.0,
      "step": 5440
    },
    {
      "entropy": 5.890053796768188,
      "epoch": 0.45746691871455575,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004984275290352506,
      "loss": 5.7347,
      "mean_token_accuracy": 0.1503530338406563,
      "num_tokens": 10039057.0,
      "step": 5445
    },
    {
      "entropy": 5.906252813339234,
      "epoch": 0.45788699852972065,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004984239927700899,
      "loss": 5.8309,
      "mean_token_accuracy": 0.14800925105810164,
      "num_tokens": 10047998.0,
      "step": 5450
    },
    {
      "entropy": 5.96235499382019,
      "epoch": 0.45830707834488554,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004984204525470883,
      "loss": 5.7626,
      "mean_token_accuracy": 0.14305243864655495,
      "num_tokens": 10057479.0,
      "step": 5455
    },
    {
      "entropy": 5.773991537094116,
      "epoch": 0.4587271581600504,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004984169083663084,
      "loss": 5.7318,
      "mean_token_accuracy": 0.14002140685915948,
      "num_tokens": 10067754.0,
      "step": 5460
    },
    {
      "entropy": 5.805001163482666,
      "epoch": 0.4591472379752153,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004984133602278129,
      "loss": 5.8253,
      "mean_token_accuracy": 0.1421283006668091,
      "num_tokens": 10076815.0,
      "step": 5465
    },
    {
      "entropy": 6.033328580856323,
      "epoch": 0.4595673177903802,
      "grad_norm": 1.25,
      "learning_rate": 0.000498409808131665,
      "loss": 5.8269,
      "mean_token_accuracy": 0.14671371206641198,
      "num_tokens": 10086300.0,
      "step": 5470
    },
    {
      "entropy": 5.823101377487182,
      "epoch": 0.4599873976055451,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004984062520779272,
      "loss": 5.7259,
      "mean_token_accuracy": 0.1552243560552597,
      "num_tokens": 10095383.0,
      "step": 5475
    },
    {
      "entropy": 5.773621034622193,
      "epoch": 0.4604074774207099,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004984026920666628,
      "loss": 5.7019,
      "mean_token_accuracy": 0.1514463573694229,
      "num_tokens": 10103971.0,
      "step": 5480
    },
    {
      "entropy": 5.798014068603516,
      "epoch": 0.4608275572358748,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004983991280979347,
      "loss": 5.6971,
      "mean_token_accuracy": 0.1502104952931404,
      "num_tokens": 10113028.0,
      "step": 5485
    },
    {
      "entropy": 5.823189973831177,
      "epoch": 0.4612476370510397,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004983955601718061,
      "loss": 5.6819,
      "mean_token_accuracy": 0.14814986884593964,
      "num_tokens": 10121890.0,
      "step": 5490
    },
    {
      "entropy": 5.896232748031617,
      "epoch": 0.46166771686620456,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004983919882883401,
      "loss": 5.8089,
      "mean_token_accuracy": 0.1452305495738983,
      "num_tokens": 10131655.0,
      "step": 5495
    },
    {
      "entropy": 5.876237583160401,
      "epoch": 0.46208779668136946,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004983884124476,
      "loss": 5.8051,
      "mean_token_accuracy": 0.14433109760284424,
      "num_tokens": 10140778.0,
      "step": 5500
    },
    {
      "entropy": 5.897982120513916,
      "epoch": 0.46250787649653435,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004983848326496494,
      "loss": 5.8699,
      "mean_token_accuracy": 0.1391661711037159,
      "num_tokens": 10150229.0,
      "step": 5505
    },
    {
      "entropy": 5.943829345703125,
      "epoch": 0.4629279563116992,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004983812488945513,
      "loss": 5.7502,
      "mean_token_accuracy": 0.14314467534422876,
      "num_tokens": 10158939.0,
      "step": 5510
    },
    {
      "entropy": 5.819750833511352,
      "epoch": 0.4633480361268641,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004983776611823696,
      "loss": 5.7489,
      "mean_token_accuracy": 0.14325918182730674,
      "num_tokens": 10168383.0,
      "step": 5515
    },
    {
      "entropy": 5.7525170803070065,
      "epoch": 0.463768115942029,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004983740695131676,
      "loss": 5.7483,
      "mean_token_accuracy": 0.1506567046046257,
      "num_tokens": 10178678.0,
      "step": 5520
    },
    {
      "entropy": 5.8393933296203615,
      "epoch": 0.4641881957571939,
      "grad_norm": 1.453125,
      "learning_rate": 0.000498370473887009,
      "loss": 5.7404,
      "mean_token_accuracy": 0.1451387256383896,
      "num_tokens": 10188964.0,
      "step": 5525
    },
    {
      "entropy": 5.9242652416229244,
      "epoch": 0.46460827557235873,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004983668743039573,
      "loss": 5.7722,
      "mean_token_accuracy": 0.15323825627565385,
      "num_tokens": 10198333.0,
      "step": 5530
    },
    {
      "entropy": 5.789677238464355,
      "epoch": 0.46502835538752363,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004983632707640766,
      "loss": 5.7876,
      "mean_token_accuracy": 0.14813560321927072,
      "num_tokens": 10207876.0,
      "step": 5535
    },
    {
      "entropy": 5.812788200378418,
      "epoch": 0.4654484352026885,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004983596632674306,
      "loss": 5.7229,
      "mean_token_accuracy": 0.14903474599123,
      "num_tokens": 10216822.0,
      "step": 5540
    },
    {
      "entropy": 5.883552932739258,
      "epoch": 0.46586851501785337,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004983560518140831,
      "loss": 5.8344,
      "mean_token_accuracy": 0.139993616938591,
      "num_tokens": 10226887.0,
      "step": 5545
    },
    {
      "entropy": 5.850424337387085,
      "epoch": 0.46628859483301827,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004983524364040982,
      "loss": 5.7004,
      "mean_token_accuracy": 0.1548854097723961,
      "num_tokens": 10235935.0,
      "step": 5550
    },
    {
      "entropy": 5.844246101379395,
      "epoch": 0.46670867464818316,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004983488170375399,
      "loss": 5.6405,
      "mean_token_accuracy": 0.1503463476896286,
      "num_tokens": 10245590.0,
      "step": 5555
    },
    {
      "entropy": 5.735381555557251,
      "epoch": 0.46712875446334806,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004983451937144723,
      "loss": 5.7345,
      "mean_token_accuracy": 0.1456381857395172,
      "num_tokens": 10255104.0,
      "step": 5560
    },
    {
      "entropy": 5.7118124008178714,
      "epoch": 0.4675488342785129,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004983415664349595,
      "loss": 5.6004,
      "mean_token_accuracy": 0.16290194243192674,
      "num_tokens": 10264236.0,
      "step": 5565
    },
    {
      "entropy": 5.817228507995606,
      "epoch": 0.4679689140936778,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004983379351990659,
      "loss": 5.7056,
      "mean_token_accuracy": 0.1503439575433731,
      "num_tokens": 10273335.0,
      "step": 5570
    },
    {
      "entropy": 5.7475629329681395,
      "epoch": 0.4683889939088427,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004983343000068559,
      "loss": 5.6682,
      "mean_token_accuracy": 0.1495598793029785,
      "num_tokens": 10282206.0,
      "step": 5575
    },
    {
      "entropy": 5.688462829589843,
      "epoch": 0.46880907372400754,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004983306608583937,
      "loss": 5.6189,
      "mean_token_accuracy": 0.16340474039316177,
      "num_tokens": 10290056.0,
      "step": 5580
    },
    {
      "entropy": 5.7730052947998045,
      "epoch": 0.46922915353917244,
      "grad_norm": 1.25,
      "learning_rate": 0.0004983270177537438,
      "loss": 5.7028,
      "mean_token_accuracy": 0.14809525161981582,
      "num_tokens": 10299726.0,
      "step": 5585
    },
    {
      "entropy": 5.84525089263916,
      "epoch": 0.46964923335433734,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004983233706929708,
      "loss": 5.7725,
      "mean_token_accuracy": 0.1471342384815216,
      "num_tokens": 10308696.0,
      "step": 5590
    },
    {
      "entropy": 5.880400562286377,
      "epoch": 0.4700693131695022,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004983197196761392,
      "loss": 5.8412,
      "mean_token_accuracy": 0.14054280817508696,
      "num_tokens": 10317845.0,
      "step": 5595
    },
    {
      "entropy": 5.84756875038147,
      "epoch": 0.4704893929846671,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004983160647033139,
      "loss": 5.737,
      "mean_token_accuracy": 0.150573068857193,
      "num_tokens": 10326563.0,
      "step": 5600
    },
    {
      "entropy": 5.826395320892334,
      "epoch": 0.470909472799832,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004983124057745595,
      "loss": 5.7235,
      "mean_token_accuracy": 0.14374103918671607,
      "num_tokens": 10335931.0,
      "step": 5605
    },
    {
      "entropy": 5.76983675956726,
      "epoch": 0.47132955261499687,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004983087428899408,
      "loss": 5.7216,
      "mean_token_accuracy": 0.1377339854836464,
      "num_tokens": 10344984.0,
      "step": 5610
    },
    {
      "entropy": 5.842723369598389,
      "epoch": 0.4717496324301617,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004983050760495227,
      "loss": 5.7638,
      "mean_token_accuracy": 0.14885966181755067,
      "num_tokens": 10353522.0,
      "step": 5615
    },
    {
      "entropy": 5.915482044219971,
      "epoch": 0.4721697122453266,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004983014052533702,
      "loss": 5.7678,
      "mean_token_accuracy": 0.14949656873941422,
      "num_tokens": 10363527.0,
      "step": 5620
    },
    {
      "entropy": 5.765365362167358,
      "epoch": 0.4725897920604915,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004982977305015481,
      "loss": 5.6942,
      "mean_token_accuracy": 0.1467475950717926,
      "num_tokens": 10372040.0,
      "step": 5625
    },
    {
      "entropy": 5.808851623535157,
      "epoch": 0.47300987187565635,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004982940517941219,
      "loss": 5.6732,
      "mean_token_accuracy": 0.14801965281367302,
      "num_tokens": 10381279.0,
      "step": 5630
    },
    {
      "entropy": 5.891337108612061,
      "epoch": 0.47342995169082125,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004982903691311564,
      "loss": 5.8457,
      "mean_token_accuracy": 0.1401650868356228,
      "num_tokens": 10390608.0,
      "step": 5635
    },
    {
      "entropy": 5.811560487747192,
      "epoch": 0.47385003150598615,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004982866825127172,
      "loss": 5.6437,
      "mean_token_accuracy": 0.1533919870853424,
      "num_tokens": 10399851.0,
      "step": 5640
    },
    {
      "entropy": 5.952455997467041,
      "epoch": 0.47427011132115104,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004982829919388692,
      "loss": 5.9303,
      "mean_token_accuracy": 0.1413193352520466,
      "num_tokens": 10410425.0,
      "step": 5645
    },
    {
      "entropy": 5.829264545440674,
      "epoch": 0.4746901911363159,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004982792974096781,
      "loss": 5.6844,
      "mean_token_accuracy": 0.15058013647794724,
      "num_tokens": 10418783.0,
      "step": 5650
    },
    {
      "entropy": 5.883219861984253,
      "epoch": 0.4751102709514808,
      "grad_norm": 1.375,
      "learning_rate": 0.000498275598925209,
      "loss": 5.8575,
      "mean_token_accuracy": 0.14019499495625495,
      "num_tokens": 10427360.0,
      "step": 5655
    },
    {
      "entropy": 5.982011365890503,
      "epoch": 0.4755303507666457,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004982718964855277,
      "loss": 5.8116,
      "mean_token_accuracy": 0.14399669840931892,
      "num_tokens": 10436613.0,
      "step": 5660
    },
    {
      "entropy": 5.872733783721924,
      "epoch": 0.4759504305818105,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004982681900907,
      "loss": 5.8526,
      "mean_token_accuracy": 0.1458025962114334,
      "num_tokens": 10445055.0,
      "step": 5665
    },
    {
      "entropy": 5.826623582839966,
      "epoch": 0.4763705103969754,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000498264479740791,
      "loss": 5.6666,
      "mean_token_accuracy": 0.15394981056451798,
      "num_tokens": 10454516.0,
      "step": 5670
    },
    {
      "entropy": 5.948064708709717,
      "epoch": 0.4767905902121403,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004982607654358668,
      "loss": 5.8096,
      "mean_token_accuracy": 0.147859063744545,
      "num_tokens": 10463771.0,
      "step": 5675
    },
    {
      "entropy": 5.835044527053833,
      "epoch": 0.47721067002730516,
      "grad_norm": 1.15625,
      "learning_rate": 0.000498257047175993,
      "loss": 5.7488,
      "mean_token_accuracy": 0.142615008354187,
      "num_tokens": 10473783.0,
      "step": 5680
    },
    {
      "entropy": 5.83440375328064,
      "epoch": 0.47763074984247006,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004982533249612357,
      "loss": 5.6997,
      "mean_token_accuracy": 0.14993957430124283,
      "num_tokens": 10483424.0,
      "step": 5685
    },
    {
      "entropy": 5.763900947570801,
      "epoch": 0.47805082965763496,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004982495987916607,
      "loss": 5.6455,
      "mean_token_accuracy": 0.15347654670476912,
      "num_tokens": 10492536.0,
      "step": 5690
    },
    {
      "entropy": 5.8370520114898685,
      "epoch": 0.47847090947279985,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004982458686673339,
      "loss": 5.7578,
      "mean_token_accuracy": 0.14936625212430954,
      "num_tokens": 10501616.0,
      "step": 5695
    },
    {
      "entropy": 5.956824541091919,
      "epoch": 0.4788909892879647,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004982421345883217,
      "loss": 5.8031,
      "mean_token_accuracy": 0.14071496576070786,
      "num_tokens": 10511190.0,
      "step": 5700
    },
    {
      "entropy": 5.793789196014404,
      "epoch": 0.4793110691031296,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004982383965546898,
      "loss": 5.7381,
      "mean_token_accuracy": 0.144473847001791,
      "num_tokens": 10520310.0,
      "step": 5705
    },
    {
      "entropy": 5.833015632629395,
      "epoch": 0.4797311489182945,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004982346545665048,
      "loss": 5.6941,
      "mean_token_accuracy": 0.1467716298997402,
      "num_tokens": 10528711.0,
      "step": 5710
    },
    {
      "entropy": 5.8455291271209715,
      "epoch": 0.48015122873345933,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004982309086238328,
      "loss": 5.8016,
      "mean_token_accuracy": 0.14259516224265098,
      "num_tokens": 10538484.0,
      "step": 5715
    },
    {
      "entropy": 5.898940181732177,
      "epoch": 0.48057130854862423,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004982271587267403,
      "loss": 5.747,
      "mean_token_accuracy": 0.14794613867998124,
      "num_tokens": 10547623.0,
      "step": 5720
    },
    {
      "entropy": 5.868904733657837,
      "epoch": 0.48099138836378913,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004982234048752935,
      "loss": 5.6997,
      "mean_token_accuracy": 0.14849727526307105,
      "num_tokens": 10556234.0,
      "step": 5725
    },
    {
      "entropy": 5.9389198303222654,
      "epoch": 0.481411468178954,
      "grad_norm": 1.578125,
      "learning_rate": 0.000498219647069559,
      "loss": 5.9273,
      "mean_token_accuracy": 0.13982586190104485,
      "num_tokens": 10566308.0,
      "step": 5730
    },
    {
      "entropy": 5.836957883834839,
      "epoch": 0.48183154799411887,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004982158853096035,
      "loss": 5.8519,
      "mean_token_accuracy": 0.1417085811495781,
      "num_tokens": 10575212.0,
      "step": 5735
    },
    {
      "entropy": 5.8836267471313475,
      "epoch": 0.48225162780928377,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004982121195954935,
      "loss": 5.6287,
      "mean_token_accuracy": 0.15638786405324936,
      "num_tokens": 10584590.0,
      "step": 5740
    },
    {
      "entropy": 5.817459297180176,
      "epoch": 0.48267170762444866,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004982083499272957,
      "loss": 5.7007,
      "mean_token_accuracy": 0.14900539070367813,
      "num_tokens": 10593997.0,
      "step": 5745
    },
    {
      "entropy": 5.799760389328003,
      "epoch": 0.4830917874396135,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004982045763050768,
      "loss": 5.8291,
      "mean_token_accuracy": 0.1467505380511284,
      "num_tokens": 10603299.0,
      "step": 5750
    },
    {
      "entropy": 5.825570392608642,
      "epoch": 0.4835118672547784,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004982007987289041,
      "loss": 5.7641,
      "mean_token_accuracy": 0.14574431553483008,
      "num_tokens": 10613546.0,
      "step": 5755
    },
    {
      "entropy": 5.833213567733765,
      "epoch": 0.4839319470699433,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004981970171988439,
      "loss": 5.7267,
      "mean_token_accuracy": 0.15680563673377038,
      "num_tokens": 10622966.0,
      "step": 5760
    },
    {
      "entropy": 5.918120956420898,
      "epoch": 0.48435202688510814,
      "grad_norm": 1.984375,
      "learning_rate": 0.0004981932317149636,
      "loss": 5.8074,
      "mean_token_accuracy": 0.14230270087718963,
      "num_tokens": 10633441.0,
      "step": 5765
    },
    {
      "entropy": 5.926499748229981,
      "epoch": 0.48477210670027304,
      "grad_norm": 1.296875,
      "learning_rate": 0.00049818944227733,
      "loss": 5.7829,
      "mean_token_accuracy": 0.145944182574749,
      "num_tokens": 10643124.0,
      "step": 5770
    },
    {
      "entropy": 5.8368360042572025,
      "epoch": 0.48519218651543794,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004981856488860105,
      "loss": 5.75,
      "mean_token_accuracy": 0.14405592083930968,
      "num_tokens": 10652517.0,
      "step": 5775
    },
    {
      "entropy": 5.827040672302246,
      "epoch": 0.48561226633060284,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004981818515410721,
      "loss": 5.8018,
      "mean_token_accuracy": 0.14195797815918923,
      "num_tokens": 10663352.0,
      "step": 5780
    },
    {
      "entropy": 5.911312675476074,
      "epoch": 0.4860323461457677,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004981780502425821,
      "loss": 5.8228,
      "mean_token_accuracy": 0.14514586478471755,
      "num_tokens": 10672430.0,
      "step": 5785
    },
    {
      "entropy": 5.858085298538208,
      "epoch": 0.4864524259609326,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004981742449906079,
      "loss": 5.7778,
      "mean_token_accuracy": 0.15105650201439857,
      "num_tokens": 10681908.0,
      "step": 5790
    },
    {
      "entropy": 5.876479959487915,
      "epoch": 0.4868725057760975,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004981704357852168,
      "loss": 5.7501,
      "mean_token_accuracy": 0.1459008663892746,
      "num_tokens": 10691259.0,
      "step": 5795
    },
    {
      "entropy": 5.803030967712402,
      "epoch": 0.4872925855912623,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004981666226264764,
      "loss": 5.6514,
      "mean_token_accuracy": 0.14785986095666886,
      "num_tokens": 10699668.0,
      "step": 5800
    },
    {
      "entropy": 5.827937030792237,
      "epoch": 0.4877126654064272,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004981628055144542,
      "loss": 5.7065,
      "mean_token_accuracy": 0.15127545595169067,
      "num_tokens": 10709146.0,
      "step": 5805
    },
    {
      "entropy": 5.876874828338623,
      "epoch": 0.4881327452215921,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004981589844492177,
      "loss": 5.8008,
      "mean_token_accuracy": 0.13951031863689423,
      "num_tokens": 10718724.0,
      "step": 5810
    },
    {
      "entropy": 5.814950895309448,
      "epoch": 0.488552825036757,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004981551594308349,
      "loss": 5.7424,
      "mean_token_accuracy": 0.14747670367360116,
      "num_tokens": 10728101.0,
      "step": 5815
    },
    {
      "entropy": 5.938137483596802,
      "epoch": 0.48897290485192185,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004981513304593733,
      "loss": 5.7721,
      "mean_token_accuracy": 0.15057093650102615,
      "num_tokens": 10736750.0,
      "step": 5820
    },
    {
      "entropy": 5.9004603862762455,
      "epoch": 0.48939298466708675,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004981474975349006,
      "loss": 5.9573,
      "mean_token_accuracy": 0.143083293735981,
      "num_tokens": 10746914.0,
      "step": 5825
    },
    {
      "entropy": 5.944899702072144,
      "epoch": 0.48981306448225165,
      "grad_norm": 1.3515625,
      "learning_rate": 0.000498143660657485,
      "loss": 5.7841,
      "mean_token_accuracy": 0.14469311460852624,
      "num_tokens": 10755786.0,
      "step": 5830
    },
    {
      "entropy": 5.719291877746582,
      "epoch": 0.4902331442974165,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004981398198271944,
      "loss": 5.6544,
      "mean_token_accuracy": 0.15054057389497758,
      "num_tokens": 10764821.0,
      "step": 5835
    },
    {
      "entropy": 5.821346855163574,
      "epoch": 0.4906532241125814,
      "grad_norm": 1.5,
      "learning_rate": 0.0004981359750440968,
      "loss": 5.7381,
      "mean_token_accuracy": 0.14619418531656264,
      "num_tokens": 10773569.0,
      "step": 5840
    },
    {
      "entropy": 5.812557601928711,
      "epoch": 0.4910733039277463,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004981321263082603,
      "loss": 5.7233,
      "mean_token_accuracy": 0.14379709362983703,
      "num_tokens": 10782298.0,
      "step": 5845
    },
    {
      "entropy": 5.7633030891418455,
      "epoch": 0.4914933837429111,
      "grad_norm": 1.3125,
      "learning_rate": 0.000498128273619753,
      "loss": 5.6964,
      "mean_token_accuracy": 0.15067172646522523,
      "num_tokens": 10792087.0,
      "step": 5850
    },
    {
      "entropy": 5.826433086395264,
      "epoch": 0.491913463558076,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004981244169786433,
      "loss": 5.7863,
      "mean_token_accuracy": 0.14527801647782326,
      "num_tokens": 10801641.0,
      "step": 5855
    },
    {
      "entropy": 5.962628364562988,
      "epoch": 0.4923335433732409,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004981205563849994,
      "loss": 5.8636,
      "mean_token_accuracy": 0.1445979543030262,
      "num_tokens": 10811612.0,
      "step": 5860
    },
    {
      "entropy": 5.84666166305542,
      "epoch": 0.4927536231884058,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004981166918388897,
      "loss": 5.6721,
      "mean_token_accuracy": 0.1496157467365265,
      "num_tokens": 10821608.0,
      "step": 5865
    },
    {
      "entropy": 5.758074522018433,
      "epoch": 0.49317370300357066,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004981128233403828,
      "loss": 5.6341,
      "mean_token_accuracy": 0.15541895031929015,
      "num_tokens": 10830679.0,
      "step": 5870
    },
    {
      "entropy": 5.810383653640747,
      "epoch": 0.49359378281873556,
      "grad_norm": 1.2109375,
      "learning_rate": 0.000498108950889547,
      "loss": 5.7028,
      "mean_token_accuracy": 0.15059976279735565,
      "num_tokens": 10839669.0,
      "step": 5875
    },
    {
      "entropy": 5.813056564331054,
      "epoch": 0.49401386263390046,
      "grad_norm": 1.25,
      "learning_rate": 0.0004981050744864512,
      "loss": 5.6876,
      "mean_token_accuracy": 0.14685238003730774,
      "num_tokens": 10849666.0,
      "step": 5880
    },
    {
      "entropy": 5.78202338218689,
      "epoch": 0.4944339424490653,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004981011941311638,
      "loss": 5.6093,
      "mean_token_accuracy": 0.1536119759082794,
      "num_tokens": 10858225.0,
      "step": 5885
    },
    {
      "entropy": 5.7550591945648195,
      "epoch": 0.4948540222642302,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004980973098237535,
      "loss": 5.7246,
      "mean_token_accuracy": 0.14252085834741593,
      "num_tokens": 10867466.0,
      "step": 5890
    },
    {
      "entropy": 5.849875020980835,
      "epoch": 0.4952741020793951,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004980934215642894,
      "loss": 5.7463,
      "mean_token_accuracy": 0.151506906747818,
      "num_tokens": 10875850.0,
      "step": 5895
    },
    {
      "entropy": 5.780202579498291,
      "epoch": 0.49569418189456,
      "grad_norm": 1.375,
      "learning_rate": 0.00049808952935284,
      "loss": 5.6809,
      "mean_token_accuracy": 0.15422153174877168,
      "num_tokens": 10885154.0,
      "step": 5900
    },
    {
      "entropy": 5.7728334903717045,
      "epoch": 0.49611426170972484,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004980856331894747,
      "loss": 5.7714,
      "mean_token_accuracy": 0.14351727366447448,
      "num_tokens": 10894080.0,
      "step": 5905
    },
    {
      "entropy": 5.794958066940308,
      "epoch": 0.49653434152488973,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004980817330742621,
      "loss": 5.7728,
      "mean_token_accuracy": 0.1406318761408329,
      "num_tokens": 10903248.0,
      "step": 5910
    },
    {
      "entropy": 5.890414190292359,
      "epoch": 0.49695442134005463,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004980778290072716,
      "loss": 5.7344,
      "mean_token_accuracy": 0.1520361930131912,
      "num_tokens": 10912939.0,
      "step": 5915
    },
    {
      "entropy": 5.844255971908569,
      "epoch": 0.4973745011552195,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004980739209885722,
      "loss": 5.7519,
      "mean_token_accuracy": 0.14798953309655188,
      "num_tokens": 10921505.0,
      "step": 5920
    },
    {
      "entropy": 5.894140291213989,
      "epoch": 0.49779458097038437,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004980700090182331,
      "loss": 5.8334,
      "mean_token_accuracy": 0.14881108254194259,
      "num_tokens": 10931861.0,
      "step": 5925
    },
    {
      "entropy": 5.870219659805298,
      "epoch": 0.49821466078554927,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004980660930963238,
      "loss": 5.7625,
      "mean_token_accuracy": 0.14495279788970947,
      "num_tokens": 10940810.0,
      "step": 5930
    },
    {
      "entropy": 5.808070087432862,
      "epoch": 0.4986347406007141,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004980621732229133,
      "loss": 5.6263,
      "mean_token_accuracy": 0.15171189308166505,
      "num_tokens": 10949514.0,
      "step": 5935
    },
    {
      "entropy": 5.853536224365234,
      "epoch": 0.499054820415879,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004980582493980714,
      "loss": 5.8402,
      "mean_token_accuracy": 0.13668815642595292,
      "num_tokens": 10959161.0,
      "step": 5940
    },
    {
      "entropy": 5.811306715011597,
      "epoch": 0.4994749002310439,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004980543216218674,
      "loss": 5.7084,
      "mean_token_accuracy": 0.1605042815208435,
      "num_tokens": 10968983.0,
      "step": 5945
    },
    {
      "entropy": 5.838724660873413,
      "epoch": 0.4998949800462088,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004980503898943711,
      "loss": 5.8486,
      "mean_token_accuracy": 0.14541933685541153,
      "num_tokens": 10978044.0,
      "step": 5950
    },
    {
      "entropy": 5.919149684906006,
      "epoch": 0.5003150598613737,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004980464542156519,
      "loss": 5.7474,
      "mean_token_accuracy": 0.15162651985883713,
      "num_tokens": 10986980.0,
      "step": 5955
    },
    {
      "entropy": 5.8385172367095945,
      "epoch": 0.5007351396765385,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004980425145857796,
      "loss": 5.6939,
      "mean_token_accuracy": 0.15786231756210328,
      "num_tokens": 10995163.0,
      "step": 5960
    },
    {
      "entropy": 5.755066156387329,
      "epoch": 0.5011552194917034,
      "grad_norm": 1.375,
      "learning_rate": 0.000498038571004824,
      "loss": 5.6211,
      "mean_token_accuracy": 0.159263913333416,
      "num_tokens": 11003722.0,
      "step": 5965
    },
    {
      "entropy": 5.732334613800049,
      "epoch": 0.5015752993068683,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004980346234728549,
      "loss": 5.6829,
      "mean_token_accuracy": 0.15636452287435532,
      "num_tokens": 11013176.0,
      "step": 5970
    },
    {
      "entropy": 5.856866264343262,
      "epoch": 0.5019953791220332,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004980306719899424,
      "loss": 5.7417,
      "mean_token_accuracy": 0.1482336312532425,
      "num_tokens": 11022636.0,
      "step": 5975
    },
    {
      "entropy": 5.81472544670105,
      "epoch": 0.5024154589371981,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004980267165561564,
      "loss": 5.6994,
      "mean_token_accuracy": 0.15061589032411576,
      "num_tokens": 11031896.0,
      "step": 5980
    },
    {
      "entropy": 5.8317889213562015,
      "epoch": 0.502835538752363,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004980227571715669,
      "loss": 5.7442,
      "mean_token_accuracy": 0.14868111461400985,
      "num_tokens": 11040802.0,
      "step": 5985
    },
    {
      "entropy": 5.817817497253418,
      "epoch": 0.5032556185675279,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004980187938362441,
      "loss": 5.6616,
      "mean_token_accuracy": 0.14449788331985475,
      "num_tokens": 11049701.0,
      "step": 5990
    },
    {
      "entropy": 5.8403524398803714,
      "epoch": 0.5036756983826927,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004980148265502581,
      "loss": 5.8553,
      "mean_token_accuracy": 0.1392398163676262,
      "num_tokens": 11059555.0,
      "step": 5995
    },
    {
      "entropy": 5.883025121688843,
      "epoch": 0.5040957781978576,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004980108553136795,
      "loss": 5.7762,
      "mean_token_accuracy": 0.14863402545452117,
      "num_tokens": 11068940.0,
      "step": 6000
    },
    {
      "epoch": 0.5040957781978576,
      "eval_entropy": 5.732787127158954,
      "eval_loss": 5.7686614990234375,
      "eval_mean_token_accuracy": 0.15331337192289018,
      "eval_num_tokens": 11068940.0,
      "eval_runtime": 27.3892,
      "eval_samples_per_second": 1364.261,
      "eval_steps_per_second": 170.542,
      "step": 6000
    },
    {
      "entropy": 5.908424186706543,
      "epoch": 0.5045158580130225,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004980068801265783,
      "loss": 5.7414,
      "mean_token_accuracy": 0.14692858532071112,
      "num_tokens": 11079014.0,
      "step": 6005
    },
    {
      "entropy": 5.866373205184937,
      "epoch": 0.5049359378281874,
      "grad_norm": 1.375,
      "learning_rate": 0.0004980029009890251,
      "loss": 5.8378,
      "mean_token_accuracy": 0.1466228261590004,
      "num_tokens": 11089526.0,
      "step": 6010
    },
    {
      "entropy": 5.839123296737671,
      "epoch": 0.5053560176433523,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004979989179010904,
      "loss": 5.7197,
      "mean_token_accuracy": 0.15178524404764177,
      "num_tokens": 11099156.0,
      "step": 6015
    },
    {
      "entropy": 5.760820007324218,
      "epoch": 0.5057760974585171,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004979949308628445,
      "loss": 5.7078,
      "mean_token_accuracy": 0.15017148554325105,
      "num_tokens": 11108242.0,
      "step": 6020
    },
    {
      "entropy": 5.7764500141143795,
      "epoch": 0.506196177273682,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004979909398743584,
      "loss": 5.7066,
      "mean_token_accuracy": 0.15099107772111892,
      "num_tokens": 11118076.0,
      "step": 6025
    },
    {
      "entropy": 5.893146562576294,
      "epoch": 0.5066162570888468,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004979869449357026,
      "loss": 5.7766,
      "mean_token_accuracy": 0.15781906694173814,
      "num_tokens": 11127265.0,
      "step": 6030
    },
    {
      "entropy": 5.810907363891602,
      "epoch": 0.5070363369040117,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004979829460469478,
      "loss": 5.6965,
      "mean_token_accuracy": 0.1483650103211403,
      "num_tokens": 11136429.0,
      "step": 6035
    },
    {
      "entropy": 5.813454437255859,
      "epoch": 0.5074564167191766,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004979789432081649,
      "loss": 5.7139,
      "mean_token_accuracy": 0.1487409368157387,
      "num_tokens": 11146201.0,
      "step": 6040
    },
    {
      "entropy": 5.864733123779297,
      "epoch": 0.5078764965343415,
      "grad_norm": 1.3984375,
      "learning_rate": 0.000497974936419425,
      "loss": 5.7222,
      "mean_token_accuracy": 0.15236361622810363,
      "num_tokens": 11154867.0,
      "step": 6045
    },
    {
      "entropy": 5.746392869949341,
      "epoch": 0.5082965763495064,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004979709256807989,
      "loss": 5.758,
      "mean_token_accuracy": 0.1480425164103508,
      "num_tokens": 11164092.0,
      "step": 6050
    },
    {
      "entropy": 5.840289688110351,
      "epoch": 0.5087166561646713,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004979669109923575,
      "loss": 5.7754,
      "mean_token_accuracy": 0.14666769057512283,
      "num_tokens": 11173176.0,
      "step": 6055
    },
    {
      "entropy": 5.953520202636719,
      "epoch": 0.5091367359798362,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004979628923541721,
      "loss": 5.7491,
      "mean_token_accuracy": 0.1458544984459877,
      "num_tokens": 11182397.0,
      "step": 6060
    },
    {
      "entropy": 5.871777105331421,
      "epoch": 0.509556815795001,
      "grad_norm": 1.296875,
      "learning_rate": 0.000497958869766314,
      "loss": 5.7938,
      "mean_token_accuracy": 0.14472762495279312,
      "num_tokens": 11191790.0,
      "step": 6065
    },
    {
      "entropy": 5.785938310623169,
      "epoch": 0.5099768956101659,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004979548432288543,
      "loss": 5.7104,
      "mean_token_accuracy": 0.1533594697713852,
      "num_tokens": 11201104.0,
      "step": 6070
    },
    {
      "entropy": 5.850540256500244,
      "epoch": 0.5103969754253308,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004979508127418643,
      "loss": 5.7179,
      "mean_token_accuracy": 0.1509293831884861,
      "num_tokens": 11209578.0,
      "step": 6075
    },
    {
      "entropy": 5.824426078796387,
      "epoch": 0.5108170552404957,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004979467783054155,
      "loss": 5.6559,
      "mean_token_accuracy": 0.15454075038433074,
      "num_tokens": 11218380.0,
      "step": 6080
    },
    {
      "entropy": 5.734690237045288,
      "epoch": 0.5112371350556606,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004979427399195793,
      "loss": 5.6795,
      "mean_token_accuracy": 0.1466882646083832,
      "num_tokens": 11227810.0,
      "step": 6085
    },
    {
      "entropy": 5.784052991867066,
      "epoch": 0.5116572148708255,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004979386975844274,
      "loss": 5.6925,
      "mean_token_accuracy": 0.1516873687505722,
      "num_tokens": 11236631.0,
      "step": 6090
    },
    {
      "entropy": 5.811602210998535,
      "epoch": 0.5120772946859904,
      "grad_norm": 1.125,
      "learning_rate": 0.0004979346513000311,
      "loss": 5.7643,
      "mean_token_accuracy": 0.14228157997131347,
      "num_tokens": 11247418.0,
      "step": 6095
    },
    {
      "entropy": 5.801711654663086,
      "epoch": 0.5124973745011552,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004979306010664623,
      "loss": 5.6482,
      "mean_token_accuracy": 0.15656405985355376,
      "num_tokens": 11256246.0,
      "step": 6100
    },
    {
      "entropy": 5.709601259231567,
      "epoch": 0.5129174543163201,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004979265468837927,
      "loss": 5.6377,
      "mean_token_accuracy": 0.15466838777065278,
      "num_tokens": 11265980.0,
      "step": 6105
    },
    {
      "entropy": 5.778408575057983,
      "epoch": 0.513337534131485,
      "grad_norm": 1.4375,
      "learning_rate": 0.000497922488752094,
      "loss": 5.6873,
      "mean_token_accuracy": 0.1463077425956726,
      "num_tokens": 11276158.0,
      "step": 6110
    },
    {
      "entropy": 5.757645797729492,
      "epoch": 0.5137576139466499,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004979184266714383,
      "loss": 5.6121,
      "mean_token_accuracy": 0.1554221287369728,
      "num_tokens": 11284957.0,
      "step": 6115
    },
    {
      "entropy": 5.694925689697266,
      "epoch": 0.5141776937618148,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004979143606418974,
      "loss": 5.6283,
      "mean_token_accuracy": 0.1562877871096134,
      "num_tokens": 11294340.0,
      "step": 6120
    },
    {
      "entropy": 5.903133296966553,
      "epoch": 0.5145977735769797,
      "grad_norm": 1.375,
      "learning_rate": 0.0004979102906635435,
      "loss": 5.8808,
      "mean_token_accuracy": 0.14421921372413635,
      "num_tokens": 11303344.0,
      "step": 6125
    },
    {
      "entropy": 5.9017737865447994,
      "epoch": 0.5150178533921445,
      "grad_norm": 1.375,
      "learning_rate": 0.0004979062167364486,
      "loss": 5.7468,
      "mean_token_accuracy": 0.15465227216482164,
      "num_tokens": 11311338.0,
      "step": 6130
    },
    {
      "entropy": 5.760764503479004,
      "epoch": 0.5154379332073094,
      "grad_norm": 1.375,
      "learning_rate": 0.0004979021388606847,
      "loss": 5.5793,
      "mean_token_accuracy": 0.16053801253437996,
      "num_tokens": 11320194.0,
      "step": 6135
    },
    {
      "entropy": 5.783118629455567,
      "epoch": 0.5158580130224742,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004978980570363243,
      "loss": 5.7606,
      "mean_token_accuracy": 0.15072498917579652,
      "num_tokens": 11329952.0,
      "step": 6140
    },
    {
      "entropy": 5.807923793792725,
      "epoch": 0.5162780928376391,
      "grad_norm": 1.375,
      "learning_rate": 0.0004978939712634396,
      "loss": 5.7097,
      "mean_token_accuracy": 0.1485825777053833,
      "num_tokens": 11339384.0,
      "step": 6145
    },
    {
      "entropy": 5.927007532119751,
      "epoch": 0.516698172652804,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004978898815421029,
      "loss": 5.882,
      "mean_token_accuracy": 0.14463590383529662,
      "num_tokens": 11348409.0,
      "step": 6150
    },
    {
      "entropy": 5.948485612869263,
      "epoch": 0.5171182524679689,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004978857878723867,
      "loss": 5.7826,
      "mean_token_accuracy": 0.1465214103460312,
      "num_tokens": 11357478.0,
      "step": 6155
    },
    {
      "entropy": 5.871764278411865,
      "epoch": 0.5175383322831338,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004978816902543636,
      "loss": 5.7924,
      "mean_token_accuracy": 0.14824822992086412,
      "num_tokens": 11366379.0,
      "step": 6160
    },
    {
      "entropy": 5.857372522354126,
      "epoch": 0.5179584120982986,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004978775886881062,
      "loss": 5.8228,
      "mean_token_accuracy": 0.144633187353611,
      "num_tokens": 11376357.0,
      "step": 6165
    },
    {
      "entropy": 5.790678644180298,
      "epoch": 0.5183784919134635,
      "grad_norm": 1.453125,
      "learning_rate": 0.000497873483173687,
      "loss": 5.682,
      "mean_token_accuracy": 0.1550826385617256,
      "num_tokens": 11384995.0,
      "step": 6170
    },
    {
      "entropy": 5.803675746917724,
      "epoch": 0.5187985717286284,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004978693737111787,
      "loss": 5.691,
      "mean_token_accuracy": 0.14901078641414642,
      "num_tokens": 11395363.0,
      "step": 6175
    },
    {
      "entropy": 5.773939752578736,
      "epoch": 0.5192186515437933,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004978652603006543,
      "loss": 5.6785,
      "mean_token_accuracy": 0.14922358542680741,
      "num_tokens": 11404511.0,
      "step": 6180
    },
    {
      "entropy": 5.83831205368042,
      "epoch": 0.5196387313589582,
      "grad_norm": 1.25,
      "learning_rate": 0.0004978611429421866,
      "loss": 5.7376,
      "mean_token_accuracy": 0.14898759126663208,
      "num_tokens": 11413400.0,
      "step": 6185
    },
    {
      "entropy": 5.867534255981445,
      "epoch": 0.5200588111741231,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004978570216358485,
      "loss": 5.7719,
      "mean_token_accuracy": 0.14096312299370767,
      "num_tokens": 11423693.0,
      "step": 6190
    },
    {
      "entropy": 5.85771164894104,
      "epoch": 0.520478890989288,
      "grad_norm": 1.3515625,
      "learning_rate": 0.000497852896381713,
      "loss": 5.7317,
      "mean_token_accuracy": 0.14528233110904692,
      "num_tokens": 11433195.0,
      "step": 6195
    },
    {
      "entropy": 5.8870384216308596,
      "epoch": 0.5208989708044528,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004978487671798531,
      "loss": 5.8604,
      "mean_token_accuracy": 0.13629197254776954,
      "num_tokens": 11443416.0,
      "step": 6200
    },
    {
      "entropy": 5.938678550720215,
      "epoch": 0.5213190506196177,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004978446340303422,
      "loss": 5.7271,
      "mean_token_accuracy": 0.15116187259554864,
      "num_tokens": 11452487.0,
      "step": 6205
    },
    {
      "entropy": 5.809211301803589,
      "epoch": 0.5217391304347826,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004978404969332533,
      "loss": 5.7517,
      "mean_token_accuracy": 0.15704237520694733,
      "num_tokens": 11461893.0,
      "step": 6210
    },
    {
      "entropy": 5.73575005531311,
      "epoch": 0.5221592102499475,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004978363558886597,
      "loss": 5.6754,
      "mean_token_accuracy": 0.14295373037457465,
      "num_tokens": 11471238.0,
      "step": 6215
    },
    {
      "entropy": 5.850252771377564,
      "epoch": 0.5225792900651124,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004978322108966348,
      "loss": 5.7739,
      "mean_token_accuracy": 0.14141838401556014,
      "num_tokens": 11480571.0,
      "step": 6220
    },
    {
      "entropy": 5.817096996307373,
      "epoch": 0.5229993698802773,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004978280619572521,
      "loss": 5.7567,
      "mean_token_accuracy": 0.14793166518211365,
      "num_tokens": 11489552.0,
      "step": 6225
    },
    {
      "entropy": 5.864131927490234,
      "epoch": 0.5234194496954422,
      "grad_norm": 1.375,
      "learning_rate": 0.000497823909070585,
      "loss": 5.8087,
      "mean_token_accuracy": 0.1432569444179535,
      "num_tokens": 11498715.0,
      "step": 6230
    },
    {
      "entropy": 5.847290849685669,
      "epoch": 0.523839529510607,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004978197522367071,
      "loss": 5.7472,
      "mean_token_accuracy": 0.14424416646361352,
      "num_tokens": 11508472.0,
      "step": 6235
    },
    {
      "entropy": 5.939693546295166,
      "epoch": 0.5242596093257719,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004978155914556919,
      "loss": 5.6864,
      "mean_token_accuracy": 0.15637651830911636,
      "num_tokens": 11517620.0,
      "step": 6240
    },
    {
      "entropy": 5.744783592224121,
      "epoch": 0.5246796891409368,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004978114267276134,
      "loss": 5.7336,
      "mean_token_accuracy": 0.14782111793756486,
      "num_tokens": 11526106.0,
      "step": 6245
    },
    {
      "entropy": 5.853097581863404,
      "epoch": 0.5250997689561017,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004978072580525451,
      "loss": 5.7751,
      "mean_token_accuracy": 0.14963556379079818,
      "num_tokens": 11535840.0,
      "step": 6250
    },
    {
      "entropy": 5.883814191818237,
      "epoch": 0.5255198487712666,
      "grad_norm": 1.359375,
      "learning_rate": 0.000497803085430561,
      "loss": 5.7622,
      "mean_token_accuracy": 0.15003612414002418,
      "num_tokens": 11545110.0,
      "step": 6255
    },
    {
      "entropy": 5.879300594329834,
      "epoch": 0.5259399285864315,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004977989088617349,
      "loss": 5.7805,
      "mean_token_accuracy": 0.1432628057897091,
      "num_tokens": 11554382.0,
      "step": 6260
    },
    {
      "entropy": 5.77400393486023,
      "epoch": 0.5263600084015964,
      "grad_norm": 1.546875,
      "learning_rate": 0.000497794728346141,
      "loss": 5.632,
      "mean_token_accuracy": 0.1552414707839489,
      "num_tokens": 11562821.0,
      "step": 6265
    },
    {
      "entropy": 5.952142190933228,
      "epoch": 0.5267800882167611,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004977905438838531,
      "loss": 5.8474,
      "mean_token_accuracy": 0.14172168597579002,
      "num_tokens": 11571705.0,
      "step": 6270
    },
    {
      "entropy": 5.71492829322815,
      "epoch": 0.527200168031926,
      "grad_norm": 2.296875,
      "learning_rate": 0.0004977863554749453,
      "loss": 5.6778,
      "mean_token_accuracy": 0.14525432735681534,
      "num_tokens": 11580692.0,
      "step": 6275
    },
    {
      "entropy": 5.727636861801147,
      "epoch": 0.5276202478470909,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004977821631194922,
      "loss": 5.686,
      "mean_token_accuracy": 0.14509947448968888,
      "num_tokens": 11589966.0,
      "step": 6280
    },
    {
      "entropy": 5.8679040431976315,
      "epoch": 0.5280403276622558,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004977779668175677,
      "loss": 5.7627,
      "mean_token_accuracy": 0.1469483494758606,
      "num_tokens": 11599627.0,
      "step": 6285
    },
    {
      "entropy": 5.856904077529907,
      "epoch": 0.5284604074774207,
      "grad_norm": 1.25,
      "learning_rate": 0.0004977737665692461,
      "loss": 5.7366,
      "mean_token_accuracy": 0.15558115839958192,
      "num_tokens": 11608431.0,
      "step": 6290
    },
    {
      "entropy": 5.841502332687378,
      "epoch": 0.5288804872925856,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004977695623746021,
      "loss": 5.6142,
      "mean_token_accuracy": 0.14905260503292084,
      "num_tokens": 11617552.0,
      "step": 6295
    },
    {
      "entropy": 5.712338972091675,
      "epoch": 0.5293005671077504,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004977653542337099,
      "loss": 5.6645,
      "mean_token_accuracy": 0.15581920593976975,
      "num_tokens": 11626828.0,
      "step": 6300
    },
    {
      "entropy": 5.804640913009644,
      "epoch": 0.5297206469229153,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004977611421466443,
      "loss": 5.746,
      "mean_token_accuracy": 0.14610961824655533,
      "num_tokens": 11635867.0,
      "step": 6305
    },
    {
      "entropy": 5.886562156677246,
      "epoch": 0.5301407267380802,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004977569261134797,
      "loss": 5.6601,
      "mean_token_accuracy": 0.15055324360728264,
      "num_tokens": 11644711.0,
      "step": 6310
    },
    {
      "entropy": 5.830437183380127,
      "epoch": 0.5305608065532451,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004977527061342908,
      "loss": 5.7385,
      "mean_token_accuracy": 0.15071533769369125,
      "num_tokens": 11653320.0,
      "step": 6315
    },
    {
      "entropy": 5.832324886322022,
      "epoch": 0.53098088636841,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004977484822091524,
      "loss": 5.703,
      "mean_token_accuracy": 0.15310411900281906,
      "num_tokens": 11662753.0,
      "step": 6320
    },
    {
      "entropy": 5.879701805114746,
      "epoch": 0.5314009661835749,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004977442543381394,
      "loss": 5.7395,
      "mean_token_accuracy": 0.1498982183635235,
      "num_tokens": 11671622.0,
      "step": 6325
    },
    {
      "entropy": 5.854084539413452,
      "epoch": 0.5318210459987398,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004977400225213266,
      "loss": 5.7196,
      "mean_token_accuracy": 0.14721598774194716,
      "num_tokens": 11679964.0,
      "step": 6330
    },
    {
      "entropy": 5.763905620574951,
      "epoch": 0.5322411258139046,
      "grad_norm": 1.375,
      "learning_rate": 0.000497735786758789,
      "loss": 5.6842,
      "mean_token_accuracy": 0.1521085247397423,
      "num_tokens": 11688700.0,
      "step": 6335
    },
    {
      "entropy": 5.846723842620849,
      "epoch": 0.5326612056290695,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004977315470506016,
      "loss": 5.8056,
      "mean_token_accuracy": 0.14883239492774009,
      "num_tokens": 11698425.0,
      "step": 6340
    },
    {
      "entropy": 5.966537141799927,
      "epoch": 0.5330812854442344,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004977273033968397,
      "loss": 5.791,
      "mean_token_accuracy": 0.13928466588258742,
      "num_tokens": 11707705.0,
      "step": 6345
    },
    {
      "entropy": 5.8435125827789305,
      "epoch": 0.5335013652593993,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004977230557975782,
      "loss": 5.6783,
      "mean_token_accuracy": 0.1494770586490631,
      "num_tokens": 11717079.0,
      "step": 6350
    },
    {
      "entropy": 5.791642379760742,
      "epoch": 0.5339214450745642,
      "grad_norm": 1.96875,
      "learning_rate": 0.0004977188042528923,
      "loss": 5.6678,
      "mean_token_accuracy": 0.14970564991235732,
      "num_tokens": 11725504.0,
      "step": 6355
    },
    {
      "entropy": 5.847938060760498,
      "epoch": 0.5343415248897291,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004977145487628576,
      "loss": 5.7572,
      "mean_token_accuracy": 0.14778463244438172,
      "num_tokens": 11735282.0,
      "step": 6360
    },
    {
      "entropy": 5.854086971282959,
      "epoch": 0.534761604704894,
      "grad_norm": 1.8125,
      "learning_rate": 0.0004977102893275494,
      "loss": 5.7377,
      "mean_token_accuracy": 0.14616001397371292,
      "num_tokens": 11744827.0,
      "step": 6365
    },
    {
      "entropy": 5.835380983352661,
      "epoch": 0.5351816845200588,
      "grad_norm": 1.4140625,
      "learning_rate": 0.000497706025947043,
      "loss": 5.7012,
      "mean_token_accuracy": 0.14849554300308226,
      "num_tokens": 11753066.0,
      "step": 6370
    },
    {
      "entropy": 5.829690742492676,
      "epoch": 0.5356017643352237,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004977017586214142,
      "loss": 5.7175,
      "mean_token_accuracy": 0.14658187404274942,
      "num_tokens": 11761190.0,
      "step": 6375
    },
    {
      "entropy": 5.845994329452514,
      "epoch": 0.5360218441503886,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004976974873507382,
      "loss": 5.6947,
      "mean_token_accuracy": 0.15390099734067916,
      "num_tokens": 11770321.0,
      "step": 6380
    },
    {
      "entropy": 5.7918110370635985,
      "epoch": 0.5364419239655535,
      "grad_norm": 1.3046875,
      "learning_rate": 0.000497693212135091,
      "loss": 5.7547,
      "mean_token_accuracy": 0.14563888013362886,
      "num_tokens": 11778388.0,
      "step": 6385
    },
    {
      "entropy": 5.857013368606568,
      "epoch": 0.5368620037807184,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004976889329745482,
      "loss": 5.6164,
      "mean_token_accuracy": 0.15133741348981858,
      "num_tokens": 11786250.0,
      "step": 6390
    },
    {
      "entropy": 5.720251989364624,
      "epoch": 0.5372820835958833,
      "grad_norm": 2.28125,
      "learning_rate": 0.0004976846498691857,
      "loss": 5.579,
      "mean_token_accuracy": 0.15662760883569718,
      "num_tokens": 11794831.0,
      "step": 6395
    },
    {
      "entropy": 5.777666759490967,
      "epoch": 0.5377021634110482,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004976803628190792,
      "loss": 5.6537,
      "mean_token_accuracy": 0.15591528862714768,
      "num_tokens": 11803550.0,
      "step": 6400
    },
    {
      "entropy": 5.767534923553467,
      "epoch": 0.5381222432262129,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004976760718243047,
      "loss": 5.7165,
      "mean_token_accuracy": 0.14894714206457138,
      "num_tokens": 11812478.0,
      "step": 6405
    },
    {
      "entropy": 5.8361043453216555,
      "epoch": 0.5385423230413778,
      "grad_norm": 2.109375,
      "learning_rate": 0.0004976717768849383,
      "loss": 5.6892,
      "mean_token_accuracy": 0.14339745715260505,
      "num_tokens": 11822463.0,
      "step": 6410
    },
    {
      "entropy": 5.79760046005249,
      "epoch": 0.5389624028565427,
      "grad_norm": 2.59375,
      "learning_rate": 0.0004976674780010561,
      "loss": 5.7244,
      "mean_token_accuracy": 0.13902894631028176,
      "num_tokens": 11831853.0,
      "step": 6415
    },
    {
      "entropy": 5.824806070327758,
      "epoch": 0.5393824826717076,
      "grad_norm": 1.59375,
      "learning_rate": 0.000497663175172734,
      "loss": 5.7457,
      "mean_token_accuracy": 0.1442998580634594,
      "num_tokens": 11841574.0,
      "step": 6420
    },
    {
      "entropy": 5.9099555015563965,
      "epoch": 0.5398025624868725,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004976588684000486,
      "loss": 5.8432,
      "mean_token_accuracy": 0.13176233023405076,
      "num_tokens": 11852489.0,
      "step": 6425
    },
    {
      "entropy": 5.846707534790039,
      "epoch": 0.5402226423020374,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004976545576830759,
      "loss": 5.6999,
      "mean_token_accuracy": 0.1471443608403206,
      "num_tokens": 11861499.0,
      "step": 6430
    },
    {
      "entropy": 5.810786867141724,
      "epoch": 0.5406427221172023,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004976502430218924,
      "loss": 5.776,
      "mean_token_accuracy": 0.14316292852163315,
      "num_tokens": 11871685.0,
      "step": 6435
    },
    {
      "entropy": 5.8063677787780765,
      "epoch": 0.5410628019323671,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004976459244165744,
      "loss": 5.6983,
      "mean_token_accuracy": 0.14863400161266327,
      "num_tokens": 11881340.0,
      "step": 6440
    },
    {
      "entropy": 5.772097444534301,
      "epoch": 0.541482881747532,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004976416018671986,
      "loss": 5.7131,
      "mean_token_accuracy": 0.14742937684059143,
      "num_tokens": 11890700.0,
      "step": 6445
    },
    {
      "entropy": 5.814801359176636,
      "epoch": 0.5419029615626969,
      "grad_norm": 1.5,
      "learning_rate": 0.0004976372753738415,
      "loss": 5.7129,
      "mean_token_accuracy": 0.14111651703715325,
      "num_tokens": 11900329.0,
      "step": 6450
    },
    {
      "entropy": 5.9360603332519535,
      "epoch": 0.5423230413778618,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004976329449365795,
      "loss": 5.754,
      "mean_token_accuracy": 0.1429471679031849,
      "num_tokens": 11909915.0,
      "step": 6455
    },
    {
      "entropy": 5.787397623062134,
      "epoch": 0.5427431211930267,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004976286105554897,
      "loss": 5.7645,
      "mean_token_accuracy": 0.14958669245243073,
      "num_tokens": 11918302.0,
      "step": 6460
    },
    {
      "entropy": 5.77375168800354,
      "epoch": 0.5431632010081916,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004976242722306487,
      "loss": 5.7198,
      "mean_token_accuracy": 0.14630756974220277,
      "num_tokens": 11927794.0,
      "step": 6465
    },
    {
      "entropy": 5.919241952896118,
      "epoch": 0.5435832808233564,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004976199299621333,
      "loss": 5.747,
      "mean_token_accuracy": 0.14924167543649675,
      "num_tokens": 11937701.0,
      "step": 6470
    },
    {
      "entropy": 5.725202035903931,
      "epoch": 0.5440033606385213,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004976155837500205,
      "loss": 5.6509,
      "mean_token_accuracy": 0.15285194665193558,
      "num_tokens": 11946106.0,
      "step": 6475
    },
    {
      "entropy": 5.793752574920655,
      "epoch": 0.5444234404536862,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004976112335943872,
      "loss": 5.5899,
      "mean_token_accuracy": 0.15264788568019866,
      "num_tokens": 11954604.0,
      "step": 6480
    },
    {
      "entropy": 5.727561092376709,
      "epoch": 0.5448435202688511,
      "grad_norm": 1.375,
      "learning_rate": 0.0004976068794953106,
      "loss": 5.655,
      "mean_token_accuracy": 0.15496142357587814,
      "num_tokens": 11963664.0,
      "step": 6485
    },
    {
      "entropy": 5.800908708572388,
      "epoch": 0.545263600084016,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004976025214528677,
      "loss": 5.6569,
      "mean_token_accuracy": 0.15130768865346908,
      "num_tokens": 11973426.0,
      "step": 6490
    },
    {
      "entropy": 5.773944950103759,
      "epoch": 0.5456836798991809,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004975981594671359,
      "loss": 5.6981,
      "mean_token_accuracy": 0.14681158736348152,
      "num_tokens": 11982339.0,
      "step": 6495
    },
    {
      "entropy": 5.846315574645996,
      "epoch": 0.5461037597143458,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004975937935381921,
      "loss": 5.7408,
      "mean_token_accuracy": 0.15329586565494538,
      "num_tokens": 11992016.0,
      "step": 6500
    },
    {
      "entropy": 5.7528393268585205,
      "epoch": 0.5465238395295106,
      "grad_norm": 1.40625,
      "learning_rate": 0.000497589423666114,
      "loss": 5.7341,
      "mean_token_accuracy": 0.1440807357430458,
      "num_tokens": 12000616.0,
      "step": 6505
    },
    {
      "entropy": 5.6946946144104,
      "epoch": 0.5469439193446755,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004975850498509789,
      "loss": 5.6253,
      "mean_token_accuracy": 0.15553901046514512,
      "num_tokens": 12009717.0,
      "step": 6510
    },
    {
      "entropy": 5.767681360244751,
      "epoch": 0.5473639991598404,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004975806720928642,
      "loss": 5.713,
      "mean_token_accuracy": 0.1479937508702278,
      "num_tokens": 12018020.0,
      "step": 6515
    },
    {
      "entropy": 5.797775173187256,
      "epoch": 0.5477840789750053,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004975762903918475,
      "loss": 5.7163,
      "mean_token_accuracy": 0.14613735526800156,
      "num_tokens": 12027119.0,
      "step": 6520
    },
    {
      "entropy": 5.875396728515625,
      "epoch": 0.5482041587901701,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004975719047480064,
      "loss": 5.6829,
      "mean_token_accuracy": 0.15304642170667648,
      "num_tokens": 12035566.0,
      "step": 6525
    },
    {
      "entropy": 5.761675643920898,
      "epoch": 0.548624238605335,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004975675151614187,
      "loss": 5.6105,
      "mean_token_accuracy": 0.15602717846632003,
      "num_tokens": 12044505.0,
      "step": 6530
    },
    {
      "entropy": 5.709016609191894,
      "epoch": 0.5490443184204999,
      "grad_norm": 1.5234375,
      "learning_rate": 0.000497563121632162,
      "loss": 5.6827,
      "mean_token_accuracy": 0.15345038324594498,
      "num_tokens": 12053338.0,
      "step": 6535
    },
    {
      "entropy": 5.784457445144653,
      "epoch": 0.5494643982356647,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004975587241603142,
      "loss": 5.676,
      "mean_token_accuracy": 0.14854272603988647,
      "num_tokens": 12063235.0,
      "step": 6540
    },
    {
      "entropy": 5.909809684753418,
      "epoch": 0.5498844780508296,
      "grad_norm": 1.375,
      "learning_rate": 0.0004975543227459533,
      "loss": 5.7491,
      "mean_token_accuracy": 0.1429952785372734,
      "num_tokens": 12072490.0,
      "step": 6545
    },
    {
      "entropy": 5.8736042976379395,
      "epoch": 0.5503045578659945,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004975499173891571,
      "loss": 5.818,
      "mean_token_accuracy": 0.14217820167541503,
      "num_tokens": 12081474.0,
      "step": 6550
    },
    {
      "entropy": 5.804098796844483,
      "epoch": 0.5507246376811594,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004975455080900037,
      "loss": 5.6739,
      "mean_token_accuracy": 0.15498915761709214,
      "num_tokens": 12090963.0,
      "step": 6555
    },
    {
      "entropy": 5.811689233779907,
      "epoch": 0.5511447174963243,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004975410948485713,
      "loss": 5.6853,
      "mean_token_accuracy": 0.1526065543293953,
      "num_tokens": 12099786.0,
      "step": 6560
    },
    {
      "entropy": 5.74642539024353,
      "epoch": 0.5515647973114892,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004975366776649379,
      "loss": 5.695,
      "mean_token_accuracy": 0.14672838300466537,
      "num_tokens": 12108469.0,
      "step": 6565
    },
    {
      "entropy": 5.774152183532715,
      "epoch": 0.5519848771266541,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004975322565391818,
      "loss": 5.6804,
      "mean_token_accuracy": 0.1517785020172596,
      "num_tokens": 12118287.0,
      "step": 6570
    },
    {
      "entropy": 5.879052972793579,
      "epoch": 0.5524049569418189,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004975278314713814,
      "loss": 5.8381,
      "mean_token_accuracy": 0.14230698868632316,
      "num_tokens": 12127122.0,
      "step": 6575
    },
    {
      "entropy": 5.914984178543091,
      "epoch": 0.5528250367569838,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004975234024616152,
      "loss": 5.731,
      "mean_token_accuracy": 0.15133389160037042,
      "num_tokens": 12136395.0,
      "step": 6580
    },
    {
      "entropy": 5.734422016143799,
      "epoch": 0.5532451165721487,
      "grad_norm": 1.84375,
      "learning_rate": 0.0004975189695099613,
      "loss": 5.6943,
      "mean_token_accuracy": 0.15051371306180955,
      "num_tokens": 12145025.0,
      "step": 6585
    },
    {
      "entropy": 5.800812196731568,
      "epoch": 0.5536651963873136,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004975145326164985,
      "loss": 5.7429,
      "mean_token_accuracy": 0.1447499178349972,
      "num_tokens": 12154352.0,
      "step": 6590
    },
    {
      "entropy": 5.8064220428466795,
      "epoch": 0.5540852762024785,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004975100917813055,
      "loss": 5.6588,
      "mean_token_accuracy": 0.15041681826114656,
      "num_tokens": 12163802.0,
      "step": 6595
    },
    {
      "entropy": 5.750297594070434,
      "epoch": 0.5545053560176434,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004975056470044606,
      "loss": 5.682,
      "mean_token_accuracy": 0.14631521701812744,
      "num_tokens": 12173111.0,
      "step": 6600
    },
    {
      "entropy": 5.8171515464782715,
      "epoch": 0.5549254358328082,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004975011982860428,
      "loss": 5.7383,
      "mean_token_accuracy": 0.14391349628567696,
      "num_tokens": 12182048.0,
      "step": 6605
    },
    {
      "entropy": 5.812657642364502,
      "epoch": 0.5553455156479731,
      "grad_norm": 1.5,
      "learning_rate": 0.0004974967456261309,
      "loss": 5.7159,
      "mean_token_accuracy": 0.15039578825235367,
      "num_tokens": 12191501.0,
      "step": 6610
    },
    {
      "entropy": 5.857609844207763,
      "epoch": 0.555765595463138,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004974922890248036,
      "loss": 5.7249,
      "mean_token_accuracy": 0.15451397448778154,
      "num_tokens": 12201132.0,
      "step": 6615
    },
    {
      "entropy": 5.899567031860352,
      "epoch": 0.5561856752783029,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00049748782848214,
      "loss": 5.8549,
      "mean_token_accuracy": 0.14553611800074578,
      "num_tokens": 12211082.0,
      "step": 6620
    },
    {
      "entropy": 5.807045125961304,
      "epoch": 0.5566057550934678,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004974833639982192,
      "loss": 5.6909,
      "mean_token_accuracy": 0.15329068303108215,
      "num_tokens": 12219946.0,
      "step": 6625
    },
    {
      "entropy": 5.925949478149414,
      "epoch": 0.5570258349086327,
      "grad_norm": 1.484375,
      "learning_rate": 0.00049747889557312,
      "loss": 5.7931,
      "mean_token_accuracy": 0.14512094482779503,
      "num_tokens": 12229668.0,
      "step": 6630
    },
    {
      "entropy": 5.886264276504517,
      "epoch": 0.5574459147237976,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004974744232069219,
      "loss": 5.7574,
      "mean_token_accuracy": 0.14679303765296936,
      "num_tokens": 12238750.0,
      "step": 6635
    },
    {
      "entropy": 5.809984493255615,
      "epoch": 0.5578659945389624,
      "grad_norm": 2.109375,
      "learning_rate": 0.0004974699468997038,
      "loss": 5.7017,
      "mean_token_accuracy": 0.14905162900686264,
      "num_tokens": 12246825.0,
      "step": 6640
    },
    {
      "entropy": 5.811229848861695,
      "epoch": 0.5582860743541272,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004974654666515452,
      "loss": 5.6602,
      "mean_token_accuracy": 0.14834603071212768,
      "num_tokens": 12256413.0,
      "step": 6645
    },
    {
      "entropy": 5.882418012619018,
      "epoch": 0.5587061541692921,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004974609824625254,
      "loss": 5.6729,
      "mean_token_accuracy": 0.1607891857624054,
      "num_tokens": 12265458.0,
      "step": 6650
    },
    {
      "entropy": 5.649556875228882,
      "epoch": 0.559126233984457,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004974564943327239,
      "loss": 5.6227,
      "mean_token_accuracy": 0.15252939462661744,
      "num_tokens": 12274124.0,
      "step": 6655
    },
    {
      "entropy": 5.668555736541748,
      "epoch": 0.5595463137996219,
      "grad_norm": 1.390625,
      "learning_rate": 0.00049745200226222,
      "loss": 5.5888,
      "mean_token_accuracy": 0.16476203203201295,
      "num_tokens": 12283513.0,
      "step": 6660
    },
    {
      "entropy": 5.861951494216919,
      "epoch": 0.5599663936147868,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004974475062510936,
      "loss": 5.7171,
      "mean_token_accuracy": 0.15322822630405425,
      "num_tokens": 12292396.0,
      "step": 6665
    },
    {
      "entropy": 5.834360265731812,
      "epoch": 0.5603864734299517,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004974430062994242,
      "loss": 5.754,
      "mean_token_accuracy": 0.1490551695227623,
      "num_tokens": 12301604.0,
      "step": 6670
    },
    {
      "entropy": 5.901991987228394,
      "epoch": 0.5608065532451165,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004974385024072912,
      "loss": 5.7881,
      "mean_token_accuracy": 0.14175782203674317,
      "num_tokens": 12310458.0,
      "step": 6675
    },
    {
      "entropy": 5.967726707458496,
      "epoch": 0.5612266330602814,
      "grad_norm": 1.4296875,
      "learning_rate": 0.000497433994574775,
      "loss": 5.7835,
      "mean_token_accuracy": 0.1453966811299324,
      "num_tokens": 12319620.0,
      "step": 6680
    },
    {
      "entropy": 5.85808310508728,
      "epoch": 0.5616467128754463,
      "grad_norm": 1.4453125,
      "learning_rate": 0.000497429482801955,
      "loss": 5.8356,
      "mean_token_accuracy": 0.1476121611893177,
      "num_tokens": 12329518.0,
      "step": 6685
    },
    {
      "entropy": 5.773319292068481,
      "epoch": 0.5620667926906112,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004974249670889111,
      "loss": 5.6512,
      "mean_token_accuracy": 0.15055545866489412,
      "num_tokens": 12338244.0,
      "step": 6690
    },
    {
      "entropy": 5.965986871719361,
      "epoch": 0.5624868725057761,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004974204474357237,
      "loss": 5.8233,
      "mean_token_accuracy": 0.14185196608304979,
      "num_tokens": 12347962.0,
      "step": 6695
    },
    {
      "entropy": 5.896701097488403,
      "epoch": 0.562906952320941,
      "grad_norm": 1.625,
      "learning_rate": 0.0004974159238424723,
      "loss": 5.7434,
      "mean_token_accuracy": 0.14349103569984437,
      "num_tokens": 12357020.0,
      "step": 6700
    },
    {
      "entropy": 5.812654113769531,
      "epoch": 0.5633270321361059,
      "grad_norm": 1.5,
      "learning_rate": 0.0004974113963092376,
      "loss": 5.7151,
      "mean_token_accuracy": 0.1478872776031494,
      "num_tokens": 12366108.0,
      "step": 6705
    },
    {
      "entropy": 5.879363203048706,
      "epoch": 0.5637471119512707,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004974068648360995,
      "loss": 5.646,
      "mean_token_accuracy": 0.15770871341228485,
      "num_tokens": 12374508.0,
      "step": 6710
    },
    {
      "entropy": 5.793216609954834,
      "epoch": 0.5641671917664356,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004974023294231383,
      "loss": 5.652,
      "mean_token_accuracy": 0.15676265954971313,
      "num_tokens": 12383555.0,
      "step": 6715
    },
    {
      "entropy": 5.762006092071533,
      "epoch": 0.5645872715816005,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004973977900704342,
      "loss": 5.7612,
      "mean_token_accuracy": 0.1457872360944748,
      "num_tokens": 12392680.0,
      "step": 6720
    },
    {
      "entropy": 5.872710561752319,
      "epoch": 0.5650073513967654,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004973932467780679,
      "loss": 5.7963,
      "mean_token_accuracy": 0.14350106567144394,
      "num_tokens": 12401881.0,
      "step": 6725
    },
    {
      "entropy": 5.897738790512085,
      "epoch": 0.5654274312119303,
      "grad_norm": 1.5,
      "learning_rate": 0.0004973886995461197,
      "loss": 5.7755,
      "mean_token_accuracy": 0.14316605031490326,
      "num_tokens": 12411487.0,
      "step": 6730
    },
    {
      "entropy": 5.799207353591919,
      "epoch": 0.5658475110270952,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004973841483746703,
      "loss": 5.594,
      "mean_token_accuracy": 0.16017859652638436,
      "num_tokens": 12420376.0,
      "step": 6735
    },
    {
      "entropy": 5.6296477794647215,
      "epoch": 0.5662675908422601,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004973795932638001,
      "loss": 5.639,
      "mean_token_accuracy": 0.15424187034368514,
      "num_tokens": 12429518.0,
      "step": 6740
    },
    {
      "entropy": 5.768233728408814,
      "epoch": 0.5666876706574249,
      "grad_norm": 1.3125,
      "learning_rate": 0.00049737503421359,
      "loss": 5.6208,
      "mean_token_accuracy": 0.15618278905749322,
      "num_tokens": 12438952.0,
      "step": 6745
    },
    {
      "entropy": 5.762353801727295,
      "epoch": 0.5671077504725898,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004973704712241206,
      "loss": 5.6399,
      "mean_token_accuracy": 0.14973016381263732,
      "num_tokens": 12448576.0,
      "step": 6750
    },
    {
      "entropy": 5.758606004714966,
      "epoch": 0.5675278302877547,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004973659042954729,
      "loss": 5.666,
      "mean_token_accuracy": 0.15317632332444192,
      "num_tokens": 12458166.0,
      "step": 6755
    },
    {
      "entropy": 5.703948211669922,
      "epoch": 0.5679479101029196,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004973613334277277,
      "loss": 5.5962,
      "mean_token_accuracy": 0.15764016062021255,
      "num_tokens": 12467271.0,
      "step": 6760
    },
    {
      "entropy": 5.815484666824341,
      "epoch": 0.5683679899180845,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004973567586209658,
      "loss": 5.7679,
      "mean_token_accuracy": 0.1427201583981514,
      "num_tokens": 12476255.0,
      "step": 6765
    },
    {
      "entropy": 5.838050889968872,
      "epoch": 0.5687880697332494,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004973521798752686,
      "loss": 5.7306,
      "mean_token_accuracy": 0.1476944074034691,
      "num_tokens": 12485096.0,
      "step": 6770
    },
    {
      "entropy": 5.906451845169068,
      "epoch": 0.5692081495484141,
      "grad_norm": 1.5234375,
      "learning_rate": 0.000497347597190717,
      "loss": 5.7558,
      "mean_token_accuracy": 0.1506843164563179,
      "num_tokens": 12494405.0,
      "step": 6775
    },
    {
      "entropy": 5.792209434509277,
      "epoch": 0.569628229363579,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004973430105673921,
      "loss": 5.6821,
      "mean_token_accuracy": 0.14848777875304223,
      "num_tokens": 12503349.0,
      "step": 6780
    },
    {
      "entropy": 5.828717470169067,
      "epoch": 0.5700483091787439,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004973384200053754,
      "loss": 5.7518,
      "mean_token_accuracy": 0.15347943902015687,
      "num_tokens": 12513122.0,
      "step": 6785
    },
    {
      "entropy": 5.784585285186767,
      "epoch": 0.5704683889939088,
      "grad_norm": 1.3515625,
      "learning_rate": 0.000497333825504748,
      "loss": 5.695,
      "mean_token_accuracy": 0.14986882135272026,
      "num_tokens": 12523614.0,
      "step": 6790
    },
    {
      "entropy": 5.838396644592285,
      "epoch": 0.5708884688090737,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004973292270655914,
      "loss": 5.7434,
      "mean_token_accuracy": 0.143761482834816,
      "num_tokens": 12532031.0,
      "step": 6795
    },
    {
      "entropy": 5.926707601547241,
      "epoch": 0.5713085486242386,
      "grad_norm": 1.3671875,
      "learning_rate": 0.000497324624687987,
      "loss": 5.8378,
      "mean_token_accuracy": 0.1392517074942589,
      "num_tokens": 12542239.0,
      "step": 6800
    },
    {
      "entropy": 5.917767190933228,
      "epoch": 0.5717286284394035,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004973200183720164,
      "loss": 5.7483,
      "mean_token_accuracy": 0.14240999147295952,
      "num_tokens": 12552608.0,
      "step": 6805
    },
    {
      "entropy": 5.775180721282959,
      "epoch": 0.5721487082545683,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004973154081177611,
      "loss": 5.593,
      "mean_token_accuracy": 0.15000374913215636,
      "num_tokens": 12562020.0,
      "step": 6810
    },
    {
      "entropy": 5.760695695877075,
      "epoch": 0.5725687880697332,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004973107939253027,
      "loss": 5.6762,
      "mean_token_accuracy": 0.1592295289039612,
      "num_tokens": 12570519.0,
      "step": 6815
    },
    {
      "entropy": 5.706324434280395,
      "epoch": 0.5729888678848981,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004973061757947233,
      "loss": 5.6616,
      "mean_token_accuracy": 0.15384514778852462,
      "num_tokens": 12579324.0,
      "step": 6820
    },
    {
      "entropy": 5.790519523620605,
      "epoch": 0.573408947700063,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004973015537261043,
      "loss": 5.7372,
      "mean_token_accuracy": 0.1493046186864376,
      "num_tokens": 12588014.0,
      "step": 6825
    },
    {
      "entropy": 5.890619230270386,
      "epoch": 0.5738290275152279,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004972969277195279,
      "loss": 5.7305,
      "mean_token_accuracy": 0.15202558934688568,
      "num_tokens": 12596882.0,
      "step": 6830
    },
    {
      "entropy": 5.819242668151856,
      "epoch": 0.5742491073303928,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004972922977750757,
      "loss": 5.6515,
      "mean_token_accuracy": 0.1478489086031914,
      "num_tokens": 12606069.0,
      "step": 6835
    },
    {
      "entropy": 5.829999208450317,
      "epoch": 0.5746691871455577,
      "grad_norm": 2.21875,
      "learning_rate": 0.00049728766389283,
      "loss": 5.6783,
      "mean_token_accuracy": 0.1460999220609665,
      "num_tokens": 12615167.0,
      "step": 6840
    },
    {
      "entropy": 5.775484275817871,
      "epoch": 0.5750892669607225,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004972830260728729,
      "loss": 5.7111,
      "mean_token_accuracy": 0.15089115351438523,
      "num_tokens": 12624230.0,
      "step": 6845
    },
    {
      "entropy": 5.81471266746521,
      "epoch": 0.5755093467758874,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004972783843152863,
      "loss": 5.6964,
      "mean_token_accuracy": 0.15319516360759736,
      "num_tokens": 12633158.0,
      "step": 6850
    },
    {
      "entropy": 5.742516231536865,
      "epoch": 0.5759294265910523,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004972737386201527,
      "loss": 5.6358,
      "mean_token_accuracy": 0.1493402510881424,
      "num_tokens": 12641465.0,
      "step": 6855
    },
    {
      "entropy": 5.772433757781982,
      "epoch": 0.5763495064062172,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004972690889875541,
      "loss": 5.6115,
      "mean_token_accuracy": 0.15269945561885834,
      "num_tokens": 12650437.0,
      "step": 6860
    },
    {
      "entropy": 5.9466852188110355,
      "epoch": 0.5767695862213821,
      "grad_norm": 1.5,
      "learning_rate": 0.0004972644354175732,
      "loss": 5.8321,
      "mean_token_accuracy": 0.14773827642202378,
      "num_tokens": 12660072.0,
      "step": 6865
    },
    {
      "entropy": 5.8965418338775635,
      "epoch": 0.577189666036547,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004972597779102922,
      "loss": 5.844,
      "mean_token_accuracy": 0.14816712588071823,
      "num_tokens": 12670405.0,
      "step": 6870
    },
    {
      "entropy": 5.826220703125,
      "epoch": 0.5776097458517119,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004972551164657937,
      "loss": 5.7126,
      "mean_token_accuracy": 0.15028751343488694,
      "num_tokens": 12679992.0,
      "step": 6875
    },
    {
      "entropy": 5.9022228717803955,
      "epoch": 0.5780298256668767,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004972504510841602,
      "loss": 5.7796,
      "mean_token_accuracy": 0.14697190523147582,
      "num_tokens": 12690289.0,
      "step": 6880
    },
    {
      "entropy": 5.883794593811035,
      "epoch": 0.5784499054820416,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004972457817654745,
      "loss": 5.7709,
      "mean_token_accuracy": 0.14337689578533172,
      "num_tokens": 12700518.0,
      "step": 6885
    },
    {
      "entropy": 5.896582746505738,
      "epoch": 0.5788699852972065,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004972411085098191,
      "loss": 5.8202,
      "mean_token_accuracy": 0.138790999352932,
      "num_tokens": 12710603.0,
      "step": 6890
    },
    {
      "entropy": 5.896594381332397,
      "epoch": 0.5792900651123714,
      "grad_norm": 1.296875,
      "learning_rate": 0.000497236431317277,
      "loss": 5.7086,
      "mean_token_accuracy": 0.14955383241176606,
      "num_tokens": 12719298.0,
      "step": 6895
    },
    {
      "entropy": 5.828510808944702,
      "epoch": 0.5797101449275363,
      "grad_norm": 1.484375,
      "learning_rate": 0.000497231750187931,
      "loss": 5.7051,
      "mean_token_accuracy": 0.1494380295276642,
      "num_tokens": 12728368.0,
      "step": 6900
    },
    {
      "entropy": 5.847594785690307,
      "epoch": 0.5801302247427012,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004972270651218638,
      "loss": 5.769,
      "mean_token_accuracy": 0.15052054449915886,
      "num_tokens": 12737898.0,
      "step": 6905
    },
    {
      "entropy": 5.896743059158325,
      "epoch": 0.580550304557866,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004972223761191587,
      "loss": 5.7024,
      "mean_token_accuracy": 0.1484552301466465,
      "num_tokens": 12746761.0,
      "step": 6910
    },
    {
      "entropy": 5.748441457748413,
      "epoch": 0.5809703843730308,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004972176831798986,
      "loss": 5.6317,
      "mean_token_accuracy": 0.1558982439339161,
      "num_tokens": 12755128.0,
      "step": 6915
    },
    {
      "entropy": 5.8237542629241945,
      "epoch": 0.5813904641881957,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004972129863041667,
      "loss": 5.8145,
      "mean_token_accuracy": 0.1419169031083584,
      "num_tokens": 12764727.0,
      "step": 6920
    },
    {
      "entropy": 5.825289487838745,
      "epoch": 0.5818105440033606,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004972082854920462,
      "loss": 5.6682,
      "mean_token_accuracy": 0.15212180316448212,
      "num_tokens": 12773557.0,
      "step": 6925
    },
    {
      "entropy": 5.780522108078003,
      "epoch": 0.5822306238185255,
      "grad_norm": 1.375,
      "learning_rate": 0.0004972035807436203,
      "loss": 5.6741,
      "mean_token_accuracy": 0.15388695299625396,
      "num_tokens": 12782525.0,
      "step": 6930
    },
    {
      "entropy": 5.874711608886718,
      "epoch": 0.5826507036336904,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004971988720589723,
      "loss": 5.7714,
      "mean_token_accuracy": 0.14911144897341727,
      "num_tokens": 12791534.0,
      "step": 6935
    },
    {
      "entropy": 5.865447235107422,
      "epoch": 0.5830707834488553,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004971941594381858,
      "loss": 5.6622,
      "mean_token_accuracy": 0.1520915597677231,
      "num_tokens": 12800662.0,
      "step": 6940
    },
    {
      "entropy": 5.833262968063354,
      "epoch": 0.5834908632640201,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004971894428813441,
      "loss": 5.7134,
      "mean_token_accuracy": 0.15022262334823608,
      "num_tokens": 12809440.0,
      "step": 6945
    },
    {
      "entropy": 5.89053783416748,
      "epoch": 0.583910943079185,
      "grad_norm": 1.453125,
      "learning_rate": 0.000497184722388531,
      "loss": 5.7974,
      "mean_token_accuracy": 0.14950450211763383,
      "num_tokens": 12818560.0,
      "step": 6950
    },
    {
      "entropy": 5.910626697540283,
      "epoch": 0.5843310228943499,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004971799979598297,
      "loss": 5.7158,
      "mean_token_accuracy": 0.15047362595796585,
      "num_tokens": 12827898.0,
      "step": 6955
    },
    {
      "entropy": 5.736415719985962,
      "epoch": 0.5847511027095148,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004971752695953243,
      "loss": 5.6673,
      "mean_token_accuracy": 0.15286629199981688,
      "num_tokens": 12837199.0,
      "step": 6960
    },
    {
      "entropy": 5.841268587112427,
      "epoch": 0.5851711825246797,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004971705372950984,
      "loss": 5.6889,
      "mean_token_accuracy": 0.14883269965648652,
      "num_tokens": 12846493.0,
      "step": 6965
    },
    {
      "entropy": 5.862727975845337,
      "epoch": 0.5855912623398446,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004971658010592358,
      "loss": 5.7059,
      "mean_token_accuracy": 0.14308914840221404,
      "num_tokens": 12855026.0,
      "step": 6970
    },
    {
      "entropy": 5.807987260818481,
      "epoch": 0.5860113421550095,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004971610608878205,
      "loss": 5.7711,
      "mean_token_accuracy": 0.14490452259778977,
      "num_tokens": 12864563.0,
      "step": 6975
    },
    {
      "entropy": 5.884010982513428,
      "epoch": 0.5864314219701743,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004971563167809363,
      "loss": 5.7237,
      "mean_token_accuracy": 0.15075904428958892,
      "num_tokens": 12874358.0,
      "step": 6980
    },
    {
      "entropy": 5.7711278915405275,
      "epoch": 0.5868515017853392,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004971515687386674,
      "loss": 5.7117,
      "mean_token_accuracy": 0.1473625972867012,
      "num_tokens": 12883110.0,
      "step": 6985
    },
    {
      "entropy": 5.803575611114502,
      "epoch": 0.5872715816005041,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004971468167610978,
      "loss": 5.7851,
      "mean_token_accuracy": 0.15010628029704093,
      "num_tokens": 12892977.0,
      "step": 6990
    },
    {
      "entropy": 5.790566396713257,
      "epoch": 0.587691661415669,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004971420608483117,
      "loss": 5.6004,
      "mean_token_accuracy": 0.1545809641480446,
      "num_tokens": 12902327.0,
      "step": 6995
    },
    {
      "entropy": 5.741348314285278,
      "epoch": 0.5881117412308339,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004971373010003936,
      "loss": 5.6022,
      "mean_token_accuracy": 0.16168920323252678,
      "num_tokens": 12911957.0,
      "step": 7000
    },
    {
      "entropy": 5.8003096103668215,
      "epoch": 0.5885318210459988,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004971325372174274,
      "loss": 5.6907,
      "mean_token_accuracy": 0.14657490849494934,
      "num_tokens": 12920380.0,
      "step": 7005
    },
    {
      "entropy": 5.811933612823486,
      "epoch": 0.5889519008611637,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004971277694994976,
      "loss": 5.7533,
      "mean_token_accuracy": 0.15078987032175065,
      "num_tokens": 12929670.0,
      "step": 7010
    },
    {
      "entropy": 5.819301414489746,
      "epoch": 0.5893719806763285,
      "grad_norm": 1.5390625,
      "learning_rate": 0.000497122997846689,
      "loss": 5.6612,
      "mean_token_accuracy": 0.1566910207271576,
      "num_tokens": 12938185.0,
      "step": 7015
    },
    {
      "entropy": 5.85056962966919,
      "epoch": 0.5897920604914934,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004971182222590857,
      "loss": 5.6984,
      "mean_token_accuracy": 0.15590957552194595,
      "num_tokens": 12947706.0,
      "step": 7020
    },
    {
      "entropy": 5.766946744918823,
      "epoch": 0.5902121403066583,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004971134427367725,
      "loss": 5.6836,
      "mean_token_accuracy": 0.14876563102006912,
      "num_tokens": 12957393.0,
      "step": 7025
    },
    {
      "entropy": 5.863473749160766,
      "epoch": 0.5906322201218231,
      "grad_norm": 1.375,
      "learning_rate": 0.000497108659279834,
      "loss": 5.5813,
      "mean_token_accuracy": 0.1580106034874916,
      "num_tokens": 12967165.0,
      "step": 7030
    },
    {
      "entropy": 5.893796777725219,
      "epoch": 0.591052299936988,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004971038718883551,
      "loss": 5.7311,
      "mean_token_accuracy": 0.14258148968219758,
      "num_tokens": 12976490.0,
      "step": 7035
    },
    {
      "entropy": 5.8169300079345705,
      "epoch": 0.5914723797521529,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004970990805624203,
      "loss": 5.7245,
      "mean_token_accuracy": 0.1458576127886772,
      "num_tokens": 12985423.0,
      "step": 7040
    },
    {
      "entropy": 5.806120443344116,
      "epoch": 0.5918924595673178,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004970942853021147,
      "loss": 5.6187,
      "mean_token_accuracy": 0.15678810328245163,
      "num_tokens": 12994510.0,
      "step": 7045
    },
    {
      "entropy": 5.8349559783935545,
      "epoch": 0.5923125393824826,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004970894861075232,
      "loss": 5.734,
      "mean_token_accuracy": 0.1486038699746132,
      "num_tokens": 13003383.0,
      "step": 7050
    },
    {
      "entropy": 5.833832693099976,
      "epoch": 0.5927326191976475,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004970846829787309,
      "loss": 5.6695,
      "mean_token_accuracy": 0.15129955112934113,
      "num_tokens": 13012550.0,
      "step": 7055
    },
    {
      "entropy": 5.845009517669678,
      "epoch": 0.5931526990128124,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004970798759158227,
      "loss": 5.7421,
      "mean_token_accuracy": 0.14426639974117278,
      "num_tokens": 13022066.0,
      "step": 7060
    },
    {
      "entropy": 5.804647397994995,
      "epoch": 0.5935727788279773,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004970750649188839,
      "loss": 5.711,
      "mean_token_accuracy": 0.15260717198252677,
      "num_tokens": 13031008.0,
      "step": 7065
    },
    {
      "entropy": 5.774487495422363,
      "epoch": 0.5939928586431422,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004970702499879998,
      "loss": 5.6978,
      "mean_token_accuracy": 0.14794613867998124,
      "num_tokens": 13040366.0,
      "step": 7070
    },
    {
      "entropy": 5.774663066864013,
      "epoch": 0.5944129384583071,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004970654311232554,
      "loss": 5.7282,
      "mean_token_accuracy": 0.14623787105083466,
      "num_tokens": 13051140.0,
      "step": 7075
    },
    {
      "entropy": 5.849271965026856,
      "epoch": 0.594833018273472,
      "grad_norm": 1.96875,
      "learning_rate": 0.0004970606083247362,
      "loss": 5.6443,
      "mean_token_accuracy": 0.15294349193572998,
      "num_tokens": 13059835.0,
      "step": 7080
    },
    {
      "entropy": 5.7127063274383545,
      "epoch": 0.5952530980886368,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004970557815925278,
      "loss": 5.5898,
      "mean_token_accuracy": 0.14923029839992524,
      "num_tokens": 13068909.0,
      "step": 7085
    },
    {
      "entropy": 5.729467248916626,
      "epoch": 0.5956731779038017,
      "grad_norm": 3.078125,
      "learning_rate": 0.0004970509509267155,
      "loss": 5.6618,
      "mean_token_accuracy": 0.14696715027093887,
      "num_tokens": 13078380.0,
      "step": 7090
    },
    {
      "entropy": 5.90779447555542,
      "epoch": 0.5960932577189666,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004970461163273849,
      "loss": 5.7102,
      "mean_token_accuracy": 0.15209844410419465,
      "num_tokens": 13087774.0,
      "step": 7095
    },
    {
      "entropy": 5.781322765350342,
      "epoch": 0.5965133375341315,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004970412777946219,
      "loss": 5.5491,
      "mean_token_accuracy": 0.1548515573143959,
      "num_tokens": 13095938.0,
      "step": 7100
    },
    {
      "entropy": 5.7372105598449705,
      "epoch": 0.5969334173492964,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004970364353285117,
      "loss": 5.6888,
      "mean_token_accuracy": 0.15444473102688788,
      "num_tokens": 13104661.0,
      "step": 7105
    },
    {
      "entropy": 5.844806241989136,
      "epoch": 0.5973534971644613,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004970315889291405,
      "loss": 5.6731,
      "mean_token_accuracy": 0.1474146157503128,
      "num_tokens": 13114505.0,
      "step": 7110
    },
    {
      "entropy": 5.694882488250732,
      "epoch": 0.5977735769796261,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004970267385965941,
      "loss": 5.6245,
      "mean_token_accuracy": 0.15627836883068086,
      "num_tokens": 13124590.0,
      "step": 7115
    },
    {
      "entropy": 5.715419483184815,
      "epoch": 0.598193656794791,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004970218843309583,
      "loss": 5.6087,
      "mean_token_accuracy": 0.1559140369296074,
      "num_tokens": 13134026.0,
      "step": 7120
    },
    {
      "entropy": 5.890923166275025,
      "epoch": 0.5986137366099559,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004970170261323192,
      "loss": 5.7662,
      "mean_token_accuracy": 0.15187639147043228,
      "num_tokens": 13142654.0,
      "step": 7125
    },
    {
      "entropy": 5.7584481716156,
      "epoch": 0.5990338164251208,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004970121640007627,
      "loss": 5.6728,
      "mean_token_accuracy": 0.1504793107509613,
      "num_tokens": 13151177.0,
      "step": 7130
    },
    {
      "entropy": 5.807246541976928,
      "epoch": 0.5994538962402857,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004970072979363751,
      "loss": 5.6657,
      "mean_token_accuracy": 0.1458762139081955,
      "num_tokens": 13159689.0,
      "step": 7135
    },
    {
      "entropy": 5.796993541717529,
      "epoch": 0.5998739760554506,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004970024279392425,
      "loss": 5.7087,
      "mean_token_accuracy": 0.1491813488304615,
      "num_tokens": 13168601.0,
      "step": 7140
    },
    {
      "entropy": 5.799499607086181,
      "epoch": 0.6002940558706155,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004969975540094513,
      "loss": 5.6911,
      "mean_token_accuracy": 0.1491454616189003,
      "num_tokens": 13177035.0,
      "step": 7145
    },
    {
      "entropy": 5.840288925170898,
      "epoch": 0.6007141356857802,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004969926761470876,
      "loss": 5.6471,
      "mean_token_accuracy": 0.15894681811332703,
      "num_tokens": 13185444.0,
      "step": 7150
    },
    {
      "entropy": 5.787335777282715,
      "epoch": 0.6011342155009451,
      "grad_norm": 1.5234375,
      "learning_rate": 0.000496987794352238,
      "loss": 5.6543,
      "mean_token_accuracy": 0.15718057453632356,
      "num_tokens": 13194987.0,
      "step": 7155
    },
    {
      "entropy": 5.711384534835815,
      "epoch": 0.60155429531611,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004969829086249889,
      "loss": 5.6887,
      "mean_token_accuracy": 0.14929505437612534,
      "num_tokens": 13203807.0,
      "step": 7160
    },
    {
      "entropy": 5.874243068695068,
      "epoch": 0.6019743751312749,
      "grad_norm": 1.3984375,
      "learning_rate": 0.000496978018965427,
      "loss": 5.7803,
      "mean_token_accuracy": 0.14797215312719345,
      "num_tokens": 13214362.0,
      "step": 7165
    },
    {
      "entropy": 5.938519763946533,
      "epoch": 0.6023944549464398,
      "grad_norm": 1.78125,
      "learning_rate": 0.0004969731253736387,
      "loss": 5.7816,
      "mean_token_accuracy": 0.14409856349229813,
      "num_tokens": 13224192.0,
      "step": 7170
    },
    {
      "entropy": 5.824232769012451,
      "epoch": 0.6028145347616047,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004969682278497109,
      "loss": 5.7438,
      "mean_token_accuracy": 0.149906075745821,
      "num_tokens": 13234430.0,
      "step": 7175
    },
    {
      "entropy": 5.766725778579712,
      "epoch": 0.6032346145767696,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004969633263937301,
      "loss": 5.6477,
      "mean_token_accuracy": 0.15190263986587524,
      "num_tokens": 13243681.0,
      "step": 7180
    },
    {
      "entropy": 5.959778547286987,
      "epoch": 0.6036546943919344,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004969584210057832,
      "loss": 5.9315,
      "mean_token_accuracy": 0.13914565443992616,
      "num_tokens": 13254334.0,
      "step": 7185
    },
    {
      "entropy": 5.908876419067383,
      "epoch": 0.6040747742070993,
      "grad_norm": 1.25,
      "learning_rate": 0.0004969535116859573,
      "loss": 5.7233,
      "mean_token_accuracy": 0.15498362332582474,
      "num_tokens": 13263781.0,
      "step": 7190
    },
    {
      "entropy": 5.757447004318237,
      "epoch": 0.6044948540222642,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004969485984343392,
      "loss": 5.633,
      "mean_token_accuracy": 0.15214563608169557,
      "num_tokens": 13272831.0,
      "step": 7195
    },
    {
      "entropy": 5.840635204315186,
      "epoch": 0.6049149338374291,
      "grad_norm": 1.671875,
      "learning_rate": 0.000496943681251016,
      "loss": 5.6943,
      "mean_token_accuracy": 0.15125853568315506,
      "num_tokens": 13281621.0,
      "step": 7200
    },
    {
      "entropy": 5.772113513946533,
      "epoch": 0.605335013652594,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004969387601360747,
      "loss": 5.6754,
      "mean_token_accuracy": 0.1471445269882679,
      "num_tokens": 13291021.0,
      "step": 7205
    },
    {
      "entropy": 5.837057733535767,
      "epoch": 0.6057550934677589,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004969338350896026,
      "loss": 5.6877,
      "mean_token_accuracy": 0.15487841069698333,
      "num_tokens": 13299752.0,
      "step": 7210
    },
    {
      "entropy": 5.855220079421997,
      "epoch": 0.6061751732829238,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004969289061116869,
      "loss": 5.7219,
      "mean_token_accuracy": 0.14336248189210893,
      "num_tokens": 13309112.0,
      "step": 7215
    },
    {
      "entropy": 5.829800653457641,
      "epoch": 0.6065952530980886,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004969239732024148,
      "loss": 5.7305,
      "mean_token_accuracy": 0.15485918670892715,
      "num_tokens": 13318328.0,
      "step": 7220
    },
    {
      "entropy": 5.693413162231446,
      "epoch": 0.6070153329132535,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004969190363618739,
      "loss": 5.6063,
      "mean_token_accuracy": 0.149900983273983,
      "num_tokens": 13328940.0,
      "step": 7225
    },
    {
      "entropy": 5.717437219619751,
      "epoch": 0.6074354127284184,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004969140955901516,
      "loss": 5.6137,
      "mean_token_accuracy": 0.15410374999046325,
      "num_tokens": 13337829.0,
      "step": 7230
    },
    {
      "entropy": 5.903831624984742,
      "epoch": 0.6078554925435833,
      "grad_norm": 1.5,
      "learning_rate": 0.0004969091508873352,
      "loss": 5.804,
      "mean_token_accuracy": 0.14683766812086105,
      "num_tokens": 13348289.0,
      "step": 7235
    },
    {
      "entropy": 5.835478973388672,
      "epoch": 0.6082755723587482,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004969042022535126,
      "loss": 5.708,
      "mean_token_accuracy": 0.15235030949115752,
      "num_tokens": 13357292.0,
      "step": 7240
    },
    {
      "entropy": 5.843629169464111,
      "epoch": 0.6086956521739131,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004968992496887713,
      "loss": 5.7554,
      "mean_token_accuracy": 0.14912576526403426,
      "num_tokens": 13366640.0,
      "step": 7245
    },
    {
      "entropy": 5.844546985626221,
      "epoch": 0.609115731989078,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004968942931931989,
      "loss": 5.6594,
      "mean_token_accuracy": 0.1629155233502388,
      "num_tokens": 13377509.0,
      "step": 7250
    },
    {
      "entropy": 5.813440895080566,
      "epoch": 0.6095358118042428,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004968893327668835,
      "loss": 5.749,
      "mean_token_accuracy": 0.14384781569242477,
      "num_tokens": 13386573.0,
      "step": 7255
    },
    {
      "entropy": 5.739164876937866,
      "epoch": 0.6099558916194077,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004968843684099128,
      "loss": 5.607,
      "mean_token_accuracy": 0.1540288582444191,
      "num_tokens": 13395790.0,
      "step": 7260
    },
    {
      "entropy": 5.730731964111328,
      "epoch": 0.6103759714345726,
      "grad_norm": 1.375,
      "learning_rate": 0.0004968794001223747,
      "loss": 5.658,
      "mean_token_accuracy": 0.1504225805401802,
      "num_tokens": 13405265.0,
      "step": 7265
    },
    {
      "entropy": 5.77107720375061,
      "epoch": 0.6107960512497375,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004968744279043574,
      "loss": 5.6733,
      "mean_token_accuracy": 0.15312831848859787,
      "num_tokens": 13413796.0,
      "step": 7270
    },
    {
      "entropy": 5.86907844543457,
      "epoch": 0.6112161310649024,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004968694517559488,
      "loss": 5.7213,
      "mean_token_accuracy": 0.15257197394967079,
      "num_tokens": 13423299.0,
      "step": 7275
    },
    {
      "entropy": 5.709070634841919,
      "epoch": 0.6116362108800673,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004968644716772371,
      "loss": 5.6292,
      "mean_token_accuracy": 0.15693681687116623,
      "num_tokens": 13432267.0,
      "step": 7280
    },
    {
      "entropy": 5.737072992324829,
      "epoch": 0.612056290695232,
      "grad_norm": 1.765625,
      "learning_rate": 0.0004968594876683105,
      "loss": 5.733,
      "mean_token_accuracy": 0.14609354361891747,
      "num_tokens": 13442332.0,
      "step": 7285
    },
    {
      "entropy": 5.8117883682250975,
      "epoch": 0.6124763705103969,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004968544997292572,
      "loss": 5.6747,
      "mean_token_accuracy": 0.15259024500846863,
      "num_tokens": 13451700.0,
      "step": 7290
    },
    {
      "entropy": 5.812619876861572,
      "epoch": 0.6128964503255618,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004968495078601659,
      "loss": 5.7774,
      "mean_token_accuracy": 0.14332814291119575,
      "num_tokens": 13461009.0,
      "step": 7295
    },
    {
      "entropy": 5.858203887939453,
      "epoch": 0.6133165301407267,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004968445120611247,
      "loss": 5.7707,
      "mean_token_accuracy": 0.15080213099718093,
      "num_tokens": 13470341.0,
      "step": 7300
    },
    {
      "entropy": 5.905436229705811,
      "epoch": 0.6137366099558916,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004968395123322223,
      "loss": 5.7003,
      "mean_token_accuracy": 0.1523931697010994,
      "num_tokens": 13479898.0,
      "step": 7305
    },
    {
      "entropy": 5.742975854873658,
      "epoch": 0.6141566897710565,
      "grad_norm": 1.4140625,
      "learning_rate": 0.000496834508673547,
      "loss": 5.6046,
      "mean_token_accuracy": 0.15081604719161987,
      "num_tokens": 13488116.0,
      "step": 7310
    },
    {
      "entropy": 5.723895263671875,
      "epoch": 0.6145767695862214,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004968295010851877,
      "loss": 5.6474,
      "mean_token_accuracy": 0.15416487902402878,
      "num_tokens": 13497814.0,
      "step": 7315
    },
    {
      "entropy": 5.786228084564209,
      "epoch": 0.6149968494013862,
      "grad_norm": 1.90625,
      "learning_rate": 0.0004968244895672331,
      "loss": 5.6679,
      "mean_token_accuracy": 0.14462938904762268,
      "num_tokens": 13506617.0,
      "step": 7320
    },
    {
      "entropy": 5.833630132675171,
      "epoch": 0.6154169292165511,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004968194741197718,
      "loss": 5.8051,
      "mean_token_accuracy": 0.1436678983271122,
      "num_tokens": 13516632.0,
      "step": 7325
    },
    {
      "entropy": 5.897484588623047,
      "epoch": 0.615837009031716,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004968144547428927,
      "loss": 5.7291,
      "mean_token_accuracy": 0.15222294852137566,
      "num_tokens": 13526452.0,
      "step": 7330
    },
    {
      "entropy": 5.792807674407959,
      "epoch": 0.6162570888468809,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004968094314366848,
      "loss": 5.6406,
      "mean_token_accuracy": 0.150718155503273,
      "num_tokens": 13535663.0,
      "step": 7335
    },
    {
      "entropy": 5.687614870071411,
      "epoch": 0.6166771686620458,
      "grad_norm": 1.6484375,
      "learning_rate": 0.000496804404201237,
      "loss": 5.558,
      "mean_token_accuracy": 0.16134363710880278,
      "num_tokens": 13544574.0,
      "step": 7340
    },
    {
      "entropy": 5.88130555152893,
      "epoch": 0.6170972484772107,
      "grad_norm": 1.375,
      "learning_rate": 0.0004967993730366385,
      "loss": 5.7309,
      "mean_token_accuracy": 0.15020160600543023,
      "num_tokens": 13553041.0,
      "step": 7345
    },
    {
      "entropy": 5.799270153045654,
      "epoch": 0.6175173282923756,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004967943379429781,
      "loss": 5.7106,
      "mean_token_accuracy": 0.14654484167695045,
      "num_tokens": 13562108.0,
      "step": 7350
    },
    {
      "entropy": 5.930500316619873,
      "epoch": 0.6179374081075404,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004967892989203454,
      "loss": 5.8659,
      "mean_token_accuracy": 0.14354829862713814,
      "num_tokens": 13571500.0,
      "step": 7355
    },
    {
      "entropy": 5.872519779205322,
      "epoch": 0.6183574879227053,
      "grad_norm": 1.5,
      "learning_rate": 0.0004967842559688295,
      "loss": 5.7577,
      "mean_token_accuracy": 0.14510439038276673,
      "num_tokens": 13581304.0,
      "step": 7360
    },
    {
      "entropy": 5.81227593421936,
      "epoch": 0.6187775677378702,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0004967792090885195,
      "loss": 5.6444,
      "mean_token_accuracy": 0.15179503858089446,
      "num_tokens": 13590734.0,
      "step": 7365
    },
    {
      "entropy": 5.746864557266235,
      "epoch": 0.6191976475530351,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004967741582795052,
      "loss": 5.6924,
      "mean_token_accuracy": 0.14929923564195632,
      "num_tokens": 13600486.0,
      "step": 7370
    },
    {
      "entropy": 5.881101942062378,
      "epoch": 0.6196177273682,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004967691035418758,
      "loss": 5.7268,
      "mean_token_accuracy": 0.14389215558767318,
      "num_tokens": 13610542.0,
      "step": 7375
    },
    {
      "entropy": 5.792819786071777,
      "epoch": 0.6200378071833649,
      "grad_norm": 2.25,
      "learning_rate": 0.000496764044875721,
      "loss": 5.6759,
      "mean_token_accuracy": 0.15460289865732194,
      "num_tokens": 13619431.0,
      "step": 7380
    },
    {
      "entropy": 5.761080598831176,
      "epoch": 0.6204578869985298,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004967589822811303,
      "loss": 5.6957,
      "mean_token_accuracy": 0.14801864922046662,
      "num_tokens": 13629930.0,
      "step": 7385
    },
    {
      "entropy": 5.956879663467407,
      "epoch": 0.6208779668136946,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004967539157581934,
      "loss": 5.8424,
      "mean_token_accuracy": 0.14267176687717437,
      "num_tokens": 13639439.0,
      "step": 7390
    },
    {
      "entropy": 5.9114847660064695,
      "epoch": 0.6212980466288595,
      "grad_norm": 1.4140625,
      "learning_rate": 0.000496748845307,
      "loss": 5.7476,
      "mean_token_accuracy": 0.15258604139089585,
      "num_tokens": 13648548.0,
      "step": 7395
    },
    {
      "entropy": 5.858182144165039,
      "epoch": 0.6217181264440244,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004967437709276401,
      "loss": 5.7985,
      "mean_token_accuracy": 0.15154744163155556,
      "num_tokens": 13657658.0,
      "step": 7400
    },
    {
      "entropy": 5.721544599533081,
      "epoch": 0.6221382062591893,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004967386926202034,
      "loss": 5.5518,
      "mean_token_accuracy": 0.15903828144073487,
      "num_tokens": 13666763.0,
      "step": 7405
    },
    {
      "entropy": 5.837467288970947,
      "epoch": 0.6225582860743542,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00049673361038478,
      "loss": 5.8103,
      "mean_token_accuracy": 0.14174049571156502,
      "num_tokens": 13676527.0,
      "step": 7410
    },
    {
      "entropy": 5.855217123031617,
      "epoch": 0.622978365889519,
      "grad_norm": 1.5,
      "learning_rate": 0.0004967285242214599,
      "loss": 5.7674,
      "mean_token_accuracy": 0.149812014400959,
      "num_tokens": 13685404.0,
      "step": 7415
    },
    {
      "entropy": 5.782896041870117,
      "epoch": 0.6233984457046838,
      "grad_norm": 1.4609375,
      "learning_rate": 0.000496723434130333,
      "loss": 5.5821,
      "mean_token_accuracy": 0.15357585549354552,
      "num_tokens": 13693118.0,
      "step": 7420
    },
    {
      "entropy": 5.7227521419525145,
      "epoch": 0.6238185255198487,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004967183401114898,
      "loss": 5.6601,
      "mean_token_accuracy": 0.15249475762248038,
      "num_tokens": 13702015.0,
      "step": 7425
    },
    {
      "entropy": 5.806180191040039,
      "epoch": 0.6242386053350136,
      "grad_norm": 2.203125,
      "learning_rate": 0.0004967132421650203,
      "loss": 5.6877,
      "mean_token_accuracy": 0.14611244574189186,
      "num_tokens": 13711658.0,
      "step": 7430
    },
    {
      "entropy": 5.766854763031006,
      "epoch": 0.6246586851501785,
      "grad_norm": 1.625,
      "learning_rate": 0.0004967081402910149,
      "loss": 5.6979,
      "mean_token_accuracy": 0.14979787766933442,
      "num_tokens": 13720718.0,
      "step": 7435
    },
    {
      "entropy": 5.728975391387939,
      "epoch": 0.6250787649653434,
      "grad_norm": 1.359375,
      "learning_rate": 0.000496703034489564,
      "loss": 5.5606,
      "mean_token_accuracy": 0.1568959876894951,
      "num_tokens": 13729364.0,
      "step": 7440
    },
    {
      "entropy": 5.909390020370483,
      "epoch": 0.6254988447805083,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004966979247607579,
      "loss": 5.8725,
      "mean_token_accuracy": 0.14035747721791267,
      "num_tokens": 13739436.0,
      "step": 7445
    },
    {
      "entropy": 5.9296684741973875,
      "epoch": 0.6259189245956732,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004966928111046873,
      "loss": 5.7708,
      "mean_token_accuracy": 0.15743647813796996,
      "num_tokens": 13749196.0,
      "step": 7450
    },
    {
      "entropy": 5.783377313613892,
      "epoch": 0.626339004410838,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004966876935214426,
      "loss": 5.6254,
      "mean_token_accuracy": 0.15206747651100158,
      "num_tokens": 13758414.0,
      "step": 7455
    },
    {
      "entropy": 5.766037368774414,
      "epoch": 0.6267590842260029,
      "grad_norm": 2.5625,
      "learning_rate": 0.0004966825720111147,
      "loss": 5.6562,
      "mean_token_accuracy": 0.14928966909646987,
      "num_tokens": 13767496.0,
      "step": 7460
    },
    {
      "entropy": 5.811860084533691,
      "epoch": 0.6271791640411678,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004966774465737942,
      "loss": 5.8047,
      "mean_token_accuracy": 0.15070491954684256,
      "num_tokens": 13777033.0,
      "step": 7465
    },
    {
      "entropy": 5.844302463531494,
      "epoch": 0.6275992438563327,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004966723172095717,
      "loss": 5.7583,
      "mean_token_accuracy": 0.14748911708593368,
      "num_tokens": 13786313.0,
      "step": 7470
    },
    {
      "entropy": 5.826303386688233,
      "epoch": 0.6280193236714976,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004966671839185384,
      "loss": 5.691,
      "mean_token_accuracy": 0.1544649474322796,
      "num_tokens": 13795257.0,
      "step": 7475
    },
    {
      "entropy": 5.733129787445068,
      "epoch": 0.6284394034866625,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004966620467007851,
      "loss": 5.6151,
      "mean_token_accuracy": 0.15482667088508606,
      "num_tokens": 13804582.0,
      "step": 7480
    },
    {
      "entropy": 5.708710527420044,
      "epoch": 0.6288594833018274,
      "grad_norm": 1.859375,
      "learning_rate": 0.0004966569055564027,
      "loss": 5.5858,
      "mean_token_accuracy": 0.1517590843141079,
      "num_tokens": 13813248.0,
      "step": 7485
    },
    {
      "entropy": 5.892451477050781,
      "epoch": 0.6292795631169922,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004966517604854823,
      "loss": 5.8557,
      "mean_token_accuracy": 0.13463475033640862,
      "num_tokens": 13823301.0,
      "step": 7490
    },
    {
      "entropy": 5.816387891769409,
      "epoch": 0.6296996429321571,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004966466114881152,
      "loss": 5.5904,
      "mean_token_accuracy": 0.15593330711126327,
      "num_tokens": 13832040.0,
      "step": 7495
    },
    {
      "entropy": 5.830536413192749,
      "epoch": 0.630119722747322,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004966414585643925,
      "loss": 5.7743,
      "mean_token_accuracy": 0.14742243885993958,
      "num_tokens": 13841874.0,
      "step": 7500
    },
    {
      "entropy": 5.7584226608276365,
      "epoch": 0.6305398025624869,
      "grad_norm": 1.5,
      "learning_rate": 0.0004966363017144055,
      "loss": 5.6126,
      "mean_token_accuracy": 0.15902097374200821,
      "num_tokens": 13850755.0,
      "step": 7505
    },
    {
      "entropy": 5.788242483139038,
      "epoch": 0.6309598823776518,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004966311409382455,
      "loss": 5.6797,
      "mean_token_accuracy": 0.14931050986051558,
      "num_tokens": 13860009.0,
      "step": 7510
    },
    {
      "entropy": 5.736308908462524,
      "epoch": 0.6313799621928167,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004966259762360039,
      "loss": 5.5946,
      "mean_token_accuracy": 0.15429836511611938,
      "num_tokens": 13868476.0,
      "step": 7515
    },
    {
      "entropy": 5.711131143569946,
      "epoch": 0.6318000420079816,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004966208076077723,
      "loss": 5.6093,
      "mean_token_accuracy": 0.15463593304157258,
      "num_tokens": 13877367.0,
      "step": 7520
    },
    {
      "entropy": 5.750036096572876,
      "epoch": 0.6322201218231464,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004966156350536422,
      "loss": 5.6935,
      "mean_token_accuracy": 0.14963461458683014,
      "num_tokens": 13885985.0,
      "step": 7525
    },
    {
      "entropy": 5.755751752853394,
      "epoch": 0.6326402016383113,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004966104585737054,
      "loss": 5.61,
      "mean_token_accuracy": 0.15479331612586975,
      "num_tokens": 13895059.0,
      "step": 7530
    },
    {
      "entropy": 5.780548143386841,
      "epoch": 0.6330602814534761,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004966052781680534,
      "loss": 5.6767,
      "mean_token_accuracy": 0.14704100489616395,
      "num_tokens": 13903789.0,
      "step": 7535
    },
    {
      "entropy": 5.845569133758545,
      "epoch": 0.633480361268641,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004966000938367778,
      "loss": 5.6591,
      "mean_token_accuracy": 0.15396612286567687,
      "num_tokens": 13913377.0,
      "step": 7540
    },
    {
      "entropy": 5.6942973136901855,
      "epoch": 0.6339004410838059,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004965949055799708,
      "loss": 5.6186,
      "mean_token_accuracy": 0.1588241770863533,
      "num_tokens": 13922141.0,
      "step": 7545
    },
    {
      "entropy": 5.787711143493652,
      "epoch": 0.6343205208989708,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004965897133977241,
      "loss": 5.6597,
      "mean_token_accuracy": 0.1402692511677742,
      "num_tokens": 13930717.0,
      "step": 7550
    },
    {
      "entropy": 5.825317001342773,
      "epoch": 0.6347406007141357,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004965845172901298,
      "loss": 5.7464,
      "mean_token_accuracy": 0.14808339700102807,
      "num_tokens": 13940344.0,
      "step": 7555
    },
    {
      "entropy": 5.7218469142913815,
      "epoch": 0.6351606805293005,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004965793172572798,
      "loss": 5.58,
      "mean_token_accuracy": 0.15380775630474092,
      "num_tokens": 13948400.0,
      "step": 7560
    },
    {
      "entropy": 5.710135746002197,
      "epoch": 0.6355807603444654,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004965741132992663,
      "loss": 5.6947,
      "mean_token_accuracy": 0.14487617537379266,
      "num_tokens": 13957939.0,
      "step": 7565
    },
    {
      "entropy": 5.832439231872558,
      "epoch": 0.6360008401596303,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004965689054161814,
      "loss": 5.6573,
      "mean_token_accuracy": 0.1547864407300949,
      "num_tokens": 13966943.0,
      "step": 7570
    },
    {
      "entropy": 5.738895320892334,
      "epoch": 0.6364209199747952,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004965636936081176,
      "loss": 5.5722,
      "mean_token_accuracy": 0.1546689599752426,
      "num_tokens": 13975850.0,
      "step": 7575
    },
    {
      "entropy": 5.806326103210449,
      "epoch": 0.6368409997899601,
      "grad_norm": 1.5390625,
      "learning_rate": 0.000496558477875167,
      "loss": 5.6725,
      "mean_token_accuracy": 0.15719727128744126,
      "num_tokens": 13985059.0,
      "step": 7580
    },
    {
      "entropy": 5.77093358039856,
      "epoch": 0.637261079605125,
      "grad_norm": 1.359375,
      "learning_rate": 0.000496553258217422,
      "loss": 5.7215,
      "mean_token_accuracy": 0.1449730947613716,
      "num_tokens": 13993571.0,
      "step": 7585
    },
    {
      "entropy": 5.842133378982544,
      "epoch": 0.6376811594202898,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004965480346349751,
      "loss": 5.7185,
      "mean_token_accuracy": 0.15069702565670012,
      "num_tokens": 14002326.0,
      "step": 7590
    },
    {
      "entropy": 5.9778131484985355,
      "epoch": 0.6381012392354547,
      "grad_norm": 1.984375,
      "learning_rate": 0.000496542807127919,
      "loss": 5.8686,
      "mean_token_accuracy": 0.14351749792695045,
      "num_tokens": 14012002.0,
      "step": 7595
    },
    {
      "entropy": 5.788293838500977,
      "epoch": 0.6385213190506196,
      "grad_norm": 1.359375,
      "learning_rate": 0.000496537575696346,
      "loss": 5.7363,
      "mean_token_accuracy": 0.14434802830219268,
      "num_tokens": 14022085.0,
      "step": 7600
    },
    {
      "entropy": 5.704484844207764,
      "epoch": 0.6389413988657845,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004965323403403488,
      "loss": 5.6045,
      "mean_token_accuracy": 0.15442810356616973,
      "num_tokens": 14030706.0,
      "step": 7605
    },
    {
      "entropy": 5.77836651802063,
      "epoch": 0.6393614786809494,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004965271010600205,
      "loss": 5.6262,
      "mean_token_accuracy": 0.15519261509180068,
      "num_tokens": 14039520.0,
      "step": 7610
    },
    {
      "entropy": 5.822714900970459,
      "epoch": 0.6397815584961143,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004965218578554535,
      "loss": 5.7178,
      "mean_token_accuracy": 0.15360228195786477,
      "num_tokens": 14048407.0,
      "step": 7615
    },
    {
      "entropy": 5.711956024169922,
      "epoch": 0.6402016383112792,
      "grad_norm": 1.375,
      "learning_rate": 0.000496516610726741,
      "loss": 5.6573,
      "mean_token_accuracy": 0.158063705265522,
      "num_tokens": 14057534.0,
      "step": 7620
    },
    {
      "entropy": 5.765710496902466,
      "epoch": 0.640621718126444,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004965113596739759,
      "loss": 5.6129,
      "mean_token_accuracy": 0.1602526545524597,
      "num_tokens": 14065992.0,
      "step": 7625
    },
    {
      "entropy": 5.712855339050293,
      "epoch": 0.6410417979416089,
      "grad_norm": 1.625,
      "learning_rate": 0.0004965061046972508,
      "loss": 5.6062,
      "mean_token_accuracy": 0.15307263806462287,
      "num_tokens": 14074806.0,
      "step": 7630
    },
    {
      "entropy": 5.752716493606568,
      "epoch": 0.6414618777567738,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004965008457966594,
      "loss": 5.6501,
      "mean_token_accuracy": 0.15263762921094895,
      "num_tokens": 14083813.0,
      "step": 7635
    },
    {
      "entropy": 5.762417888641357,
      "epoch": 0.6418819575719387,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0004964955829722945,
      "loss": 5.5858,
      "mean_token_accuracy": 0.1599087104201317,
      "num_tokens": 14092193.0,
      "step": 7640
    },
    {
      "entropy": 5.84725341796875,
      "epoch": 0.6423020373871036,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0004964903162242493,
      "loss": 5.7916,
      "mean_token_accuracy": 0.14413690567016602,
      "num_tokens": 14102797.0,
      "step": 7645
    },
    {
      "entropy": 5.76859679222107,
      "epoch": 0.6427221172022685,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004964850455526173,
      "loss": 5.6637,
      "mean_token_accuracy": 0.15364854410290718,
      "num_tokens": 14112226.0,
      "step": 7650
    },
    {
      "entropy": 5.661821556091309,
      "epoch": 0.6431421970174334,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004964797709574917,
      "loss": 5.5939,
      "mean_token_accuracy": 0.15402402132749557,
      "num_tokens": 14121775.0,
      "step": 7655
    },
    {
      "entropy": 5.719243478775025,
      "epoch": 0.6435622768325981,
      "grad_norm": 1.4453125,
      "learning_rate": 0.000496474492438966,
      "loss": 5.5856,
      "mean_token_accuracy": 0.15579498410224915,
      "num_tokens": 14130415.0,
      "step": 7660
    },
    {
      "entropy": 5.75182991027832,
      "epoch": 0.643982356647763,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004964692099971338,
      "loss": 5.6058,
      "mean_token_accuracy": 0.1568465366959572,
      "num_tokens": 14140204.0,
      "step": 7665
    },
    {
      "entropy": 5.736771440505981,
      "epoch": 0.6444024364629279,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004964639236320885,
      "loss": 5.567,
      "mean_token_accuracy": 0.15371138900518416,
      "num_tokens": 14149595.0,
      "step": 7670
    },
    {
      "entropy": 5.714345407485962,
      "epoch": 0.6448225162780928,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004964586333439239,
      "loss": 5.6346,
      "mean_token_accuracy": 0.15398874282836914,
      "num_tokens": 14158865.0,
      "step": 7675
    },
    {
      "entropy": 5.78523097038269,
      "epoch": 0.6452425960932577,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004964533391327335,
      "loss": 5.5938,
      "mean_token_accuracy": 0.158450847864151,
      "num_tokens": 14167962.0,
      "step": 7680
    },
    {
      "entropy": 5.816212701797485,
      "epoch": 0.6456626759084226,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004964480409986113,
      "loss": 5.6465,
      "mean_token_accuracy": 0.1606015980243683,
      "num_tokens": 14176479.0,
      "step": 7685
    },
    {
      "entropy": 5.829603910446167,
      "epoch": 0.6460827557235875,
      "grad_norm": 1.5,
      "learning_rate": 0.0004964427389416512,
      "loss": 5.6739,
      "mean_token_accuracy": 0.14969076216220856,
      "num_tokens": 14185408.0,
      "step": 7690
    },
    {
      "entropy": 5.702767419815063,
      "epoch": 0.6465028355387523,
      "grad_norm": 1.5390625,
      "learning_rate": 0.000496437432961947,
      "loss": 5.6745,
      "mean_token_accuracy": 0.15580256432294845,
      "num_tokens": 14194155.0,
      "step": 7695
    },
    {
      "entropy": 5.729840040206909,
      "epoch": 0.6469229153539172,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004964321230595925,
      "loss": 5.6916,
      "mean_token_accuracy": 0.1505993440747261,
      "num_tokens": 14202779.0,
      "step": 7700
    },
    {
      "entropy": 5.923639154434204,
      "epoch": 0.6473429951690821,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004964268092346821,
      "loss": 5.868,
      "mean_token_accuracy": 0.14160000756382943,
      "num_tokens": 14212552.0,
      "step": 7705
    },
    {
      "entropy": 5.925770807266235,
      "epoch": 0.647763074984247,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004964214914873098,
      "loss": 5.6684,
      "mean_token_accuracy": 0.14924321398139,
      "num_tokens": 14222783.0,
      "step": 7710
    },
    {
      "entropy": 5.70919623374939,
      "epoch": 0.6481831547994119,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004964161698175697,
      "loss": 5.5477,
      "mean_token_accuracy": 0.15285850167274476,
      "num_tokens": 14232085.0,
      "step": 7715
    },
    {
      "entropy": 5.768083095550537,
      "epoch": 0.6486032346145768,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004964108442255562,
      "loss": 5.7039,
      "mean_token_accuracy": 0.14666701555252076,
      "num_tokens": 14241969.0,
      "step": 7720
    },
    {
      "entropy": 5.75738754272461,
      "epoch": 0.6490233144297417,
      "grad_norm": 1.75,
      "learning_rate": 0.0004964055147113637,
      "loss": 5.616,
      "mean_token_accuracy": 0.1562434285879135,
      "num_tokens": 14251012.0,
      "step": 7725
    },
    {
      "entropy": 5.841613340377807,
      "epoch": 0.6494433942449065,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004964001812750864,
      "loss": 5.7414,
      "mean_token_accuracy": 0.15030983835458755,
      "num_tokens": 14261110.0,
      "step": 7730
    },
    {
      "entropy": 5.793753337860108,
      "epoch": 0.6498634740600714,
      "grad_norm": 1.6953125,
      "learning_rate": 0.000496394843916819,
      "loss": 5.7123,
      "mean_token_accuracy": 0.15001400411128998,
      "num_tokens": 14270869.0,
      "step": 7735
    },
    {
      "entropy": 5.8021101474761965,
      "epoch": 0.6502835538752363,
      "grad_norm": 1.625,
      "learning_rate": 0.0004963895026366558,
      "loss": 5.6624,
      "mean_token_accuracy": 0.14703597128391266,
      "num_tokens": 14279607.0,
      "step": 7740
    },
    {
      "entropy": 5.798326921463013,
      "epoch": 0.6507036336904012,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004963841574346917,
      "loss": 5.6664,
      "mean_token_accuracy": 0.15177475959062575,
      "num_tokens": 14289282.0,
      "step": 7745
    },
    {
      "entropy": 5.785371494293213,
      "epoch": 0.6511237135055661,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004963788083110212,
      "loss": 5.5947,
      "mean_token_accuracy": 0.15618948638439178,
      "num_tokens": 14298658.0,
      "step": 7750
    },
    {
      "entropy": 5.867933845520019,
      "epoch": 0.651543793320731,
      "grad_norm": 1.4375,
      "learning_rate": 0.000496373455265739,
      "loss": 5.6715,
      "mean_token_accuracy": 0.15167464911937714,
      "num_tokens": 14307832.0,
      "step": 7755
    },
    {
      "entropy": 5.737640428543091,
      "epoch": 0.6519638731358958,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004963680982989402,
      "loss": 5.5745,
      "mean_token_accuracy": 0.15618224889039994,
      "num_tokens": 14317122.0,
      "step": 7760
    },
    {
      "entropy": 5.728768348693848,
      "epoch": 0.6523839529510607,
      "grad_norm": 1.625,
      "learning_rate": 0.0004963627374107195,
      "loss": 5.624,
      "mean_token_accuracy": 0.15685338973999025,
      "num_tokens": 14326069.0,
      "step": 7765
    },
    {
      "entropy": 5.735061359405518,
      "epoch": 0.6528040327662256,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004963573726011717,
      "loss": 5.6154,
      "mean_token_accuracy": 0.152651646733284,
      "num_tokens": 14335260.0,
      "step": 7770
    },
    {
      "entropy": 5.89712963104248,
      "epoch": 0.6532241125813905,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004963520038703922,
      "loss": 5.7147,
      "mean_token_accuracy": 0.14169859886169434,
      "num_tokens": 14345823.0,
      "step": 7775
    },
    {
      "entropy": 5.8055966854095455,
      "epoch": 0.6536441923965554,
      "grad_norm": 1.4296875,
      "learning_rate": 0.000496346631218476,
      "loss": 5.5901,
      "mean_token_accuracy": 0.151746928691864,
      "num_tokens": 14354316.0,
      "step": 7780
    },
    {
      "entropy": 5.731487655639649,
      "epoch": 0.6540642722117203,
      "grad_norm": 1.8515625,
      "learning_rate": 0.000496341254645518,
      "loss": 5.637,
      "mean_token_accuracy": 0.15558102428913118,
      "num_tokens": 14364539.0,
      "step": 7785
    },
    {
      "entropy": 5.791000318527222,
      "epoch": 0.6544843520268852,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004963358741516138,
      "loss": 5.7568,
      "mean_token_accuracy": 0.14070456251502036,
      "num_tokens": 14374081.0,
      "step": 7790
    },
    {
      "entropy": 5.791856861114502,
      "epoch": 0.6549044318420499,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004963304897368585,
      "loss": 5.6421,
      "mean_token_accuracy": 0.14869485646486283,
      "num_tokens": 14383255.0,
      "step": 7795
    },
    {
      "entropy": 5.887608623504638,
      "epoch": 0.6553245116572148,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004963251014013475,
      "loss": 5.7709,
      "mean_token_accuracy": 0.14988299310207367,
      "num_tokens": 14392417.0,
      "step": 7800
    },
    {
      "entropy": 5.925739812850952,
      "epoch": 0.6557445914723797,
      "grad_norm": 2.265625,
      "learning_rate": 0.0004963197091451763,
      "loss": 5.8171,
      "mean_token_accuracy": 0.14091493040323258,
      "num_tokens": 14401899.0,
      "step": 7805
    },
    {
      "entropy": 5.8610601902008055,
      "epoch": 0.6561646712875446,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004963143129684405,
      "loss": 5.7865,
      "mean_token_accuracy": 0.14567770585417747,
      "num_tokens": 14411245.0,
      "step": 7810
    },
    {
      "entropy": 5.733341979980469,
      "epoch": 0.6565847511027095,
      "grad_norm": 2.09375,
      "learning_rate": 0.0004963089128712355,
      "loss": 5.6357,
      "mean_token_accuracy": 0.15616341382265092,
      "num_tokens": 14419710.0,
      "step": 7815
    },
    {
      "entropy": 5.761330413818359,
      "epoch": 0.6570048309178744,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004963035088536571,
      "loss": 5.6196,
      "mean_token_accuracy": 0.16149473637342454,
      "num_tokens": 14430266.0,
      "step": 7820
    },
    {
      "entropy": 5.832095336914063,
      "epoch": 0.6574249107330393,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004962981009158012,
      "loss": 5.5946,
      "mean_token_accuracy": 0.14890647828578948,
      "num_tokens": 14439515.0,
      "step": 7825
    },
    {
      "entropy": 5.783193588256836,
      "epoch": 0.6578449905482041,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004962926890577632,
      "loss": 5.6537,
      "mean_token_accuracy": 0.1543855309486389,
      "num_tokens": 14448091.0,
      "step": 7830
    },
    {
      "entropy": 5.762275314331054,
      "epoch": 0.658265070363369,
      "grad_norm": 1.4296875,
      "learning_rate": 0.000496287273279639,
      "loss": 5.6831,
      "mean_token_accuracy": 0.14809218272566796,
      "num_tokens": 14457744.0,
      "step": 7835
    },
    {
      "entropy": 5.830176925659179,
      "epoch": 0.6586851501785339,
      "grad_norm": 1.375,
      "learning_rate": 0.000496281853581525,
      "loss": 5.6747,
      "mean_token_accuracy": 0.15542599856853484,
      "num_tokens": 14467597.0,
      "step": 7840
    },
    {
      "entropy": 5.816223096847534,
      "epoch": 0.6591052299936988,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004962764299635168,
      "loss": 5.6557,
      "mean_token_accuracy": 0.15143783688545226,
      "num_tokens": 14476662.0,
      "step": 7845
    },
    {
      "entropy": 5.868206977844238,
      "epoch": 0.6595253098088637,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0004962710024257105,
      "loss": 5.7365,
      "mean_token_accuracy": 0.15013337954878808,
      "num_tokens": 14486583.0,
      "step": 7850
    },
    {
      "entropy": 5.866771793365478,
      "epoch": 0.6599453896240286,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004962655709682025,
      "loss": 5.7422,
      "mean_token_accuracy": 0.14670923799276353,
      "num_tokens": 14496528.0,
      "step": 7855
    },
    {
      "entropy": 5.847543859481812,
      "epoch": 0.6603654694391935,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004962601355910887,
      "loss": 5.7216,
      "mean_token_accuracy": 0.14750941842794418,
      "num_tokens": 14507026.0,
      "step": 7860
    },
    {
      "entropy": 5.714229869842529,
      "epoch": 0.6607855492543583,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004962546962944656,
      "loss": 5.5896,
      "mean_token_accuracy": 0.1554133415222168,
      "num_tokens": 14516480.0,
      "step": 7865
    },
    {
      "entropy": 5.7652284622192385,
      "epoch": 0.6612056290695232,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004962492530784295,
      "loss": 5.5384,
      "mean_token_accuracy": 0.16685622930526733,
      "num_tokens": 14525068.0,
      "step": 7870
    },
    {
      "entropy": 5.764181613922119,
      "epoch": 0.6616257088846881,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004962438059430768,
      "loss": 5.6811,
      "mean_token_accuracy": 0.15448692589998245,
      "num_tokens": 14534441.0,
      "step": 7875
    },
    {
      "entropy": 5.791794538497925,
      "epoch": 0.662045788699853,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004962383548885039,
      "loss": 5.7416,
      "mean_token_accuracy": 0.15312327668070794,
      "num_tokens": 14543026.0,
      "step": 7880
    },
    {
      "entropy": 5.810564088821411,
      "epoch": 0.6624658685150179,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004962328999148075,
      "loss": 5.6235,
      "mean_token_accuracy": 0.15815748721361161,
      "num_tokens": 14552068.0,
      "step": 7885
    },
    {
      "entropy": 5.795226907730102,
      "epoch": 0.6628859483301828,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004962274410220842,
      "loss": 5.748,
      "mean_token_accuracy": 0.14739178717136384,
      "num_tokens": 14561587.0,
      "step": 7890
    },
    {
      "entropy": 5.840717220306397,
      "epoch": 0.6633060281453477,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004962219782104308,
      "loss": 5.7455,
      "mean_token_accuracy": 0.15566187649965285,
      "num_tokens": 14571020.0,
      "step": 7895
    },
    {
      "entropy": 5.857281494140625,
      "epoch": 0.6637261079605125,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004962165114799439,
      "loss": 5.7013,
      "mean_token_accuracy": 0.14193924963474275,
      "num_tokens": 14580638.0,
      "step": 7900
    },
    {
      "entropy": 5.753746509552002,
      "epoch": 0.6641461877756774,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004962110408307204,
      "loss": 5.6411,
      "mean_token_accuracy": 0.1508389577269554,
      "num_tokens": 14590173.0,
      "step": 7905
    },
    {
      "entropy": 5.771540355682373,
      "epoch": 0.6645662675908423,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004962055662628571,
      "loss": 5.6088,
      "mean_token_accuracy": 0.1546558991074562,
      "num_tokens": 14598635.0,
      "step": 7910
    },
    {
      "entropy": 5.824790573120117,
      "epoch": 0.6649863474060071,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004962000877764513,
      "loss": 5.6465,
      "mean_token_accuracy": 0.15380171239376067,
      "num_tokens": 14607233.0,
      "step": 7915
    },
    {
      "entropy": 5.900277614593506,
      "epoch": 0.665406427221172,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004961946053715998,
      "loss": 5.811,
      "mean_token_accuracy": 0.14116770774126053,
      "num_tokens": 14617483.0,
      "step": 7920
    },
    {
      "entropy": 5.774311876296997,
      "epoch": 0.665826507036337,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004961891190483997,
      "loss": 5.6337,
      "mean_token_accuracy": 0.15262163281440735,
      "num_tokens": 14625805.0,
      "step": 7925
    },
    {
      "entropy": 5.750567626953125,
      "epoch": 0.6662465868515017,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004961836288069483,
      "loss": 5.56,
      "mean_token_accuracy": 0.15181114226579667,
      "num_tokens": 14634605.0,
      "step": 7930
    },
    {
      "entropy": 5.866780996322632,
      "epoch": 0.6666666666666666,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004961781346473428,
      "loss": 5.754,
      "mean_token_accuracy": 0.1443464897572994,
      "num_tokens": 14644970.0,
      "step": 7935
    },
    {
      "entropy": 5.8288147926330565,
      "epoch": 0.6670867464818315,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004961726365696805,
      "loss": 5.6444,
      "mean_token_accuracy": 0.1512111656367779,
      "num_tokens": 14655043.0,
      "step": 7940
    },
    {
      "entropy": 5.81706018447876,
      "epoch": 0.6675068262969964,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004961671345740589,
      "loss": 5.624,
      "mean_token_accuracy": 0.1498358130455017,
      "num_tokens": 14663994.0,
      "step": 7945
    },
    {
      "entropy": 5.73077392578125,
      "epoch": 0.6679269061121613,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004961616286605753,
      "loss": 5.6285,
      "mean_token_accuracy": 0.14595297276973723,
      "num_tokens": 14674101.0,
      "step": 7950
    },
    {
      "entropy": 5.793763732910156,
      "epoch": 0.6683469859273262,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004961561188293273,
      "loss": 5.7245,
      "mean_token_accuracy": 0.14435067921876907,
      "num_tokens": 14684156.0,
      "step": 7955
    },
    {
      "entropy": 5.726213026046753,
      "epoch": 0.6687670657424911,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004961506050804126,
      "loss": 5.6178,
      "mean_token_accuracy": 0.15918601751327516,
      "num_tokens": 14693223.0,
      "step": 7960
    },
    {
      "entropy": 5.852010822296142,
      "epoch": 0.6691871455576559,
      "grad_norm": 1.34375,
      "learning_rate": 0.000496145087413929,
      "loss": 5.6258,
      "mean_token_accuracy": 0.14910822063684465,
      "num_tokens": 14702959.0,
      "step": 7965
    },
    {
      "entropy": 5.876345634460449,
      "epoch": 0.6696072253728208,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004961395658299737,
      "loss": 5.737,
      "mean_token_accuracy": 0.1483006753027439,
      "num_tokens": 14712146.0,
      "step": 7970
    },
    {
      "entropy": 5.710770320892334,
      "epoch": 0.6700273051879857,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004961340403286451,
      "loss": 5.6515,
      "mean_token_accuracy": 0.14912314414978028,
      "num_tokens": 14721932.0,
      "step": 7975
    },
    {
      "entropy": 5.775924396514893,
      "epoch": 0.6704473850031506,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004961285109100408,
      "loss": 5.5857,
      "mean_token_accuracy": 0.15742873400449753,
      "num_tokens": 14731080.0,
      "step": 7980
    },
    {
      "entropy": 5.719264698028565,
      "epoch": 0.6708674648183155,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004961229775742587,
      "loss": 5.5991,
      "mean_token_accuracy": 0.16006802767515182,
      "num_tokens": 14740057.0,
      "step": 7985
    },
    {
      "entropy": 5.813319492340088,
      "epoch": 0.6712875446334804,
      "grad_norm": 1.4453125,
      "learning_rate": 0.000496117440321397,
      "loss": 5.6828,
      "mean_token_accuracy": 0.15654956847429274,
      "num_tokens": 14748399.0,
      "step": 7990
    },
    {
      "entropy": 5.8324696063995365,
      "epoch": 0.6717076244486453,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004961118991515537,
      "loss": 5.6881,
      "mean_token_accuracy": 0.14406146556138993,
      "num_tokens": 14757215.0,
      "step": 7995
    },
    {
      "entropy": 5.786386203765869,
      "epoch": 0.6721277042638101,
      "grad_norm": 1.609375,
      "learning_rate": 0.000496106354064827,
      "loss": 5.6868,
      "mean_token_accuracy": 0.15685203224420546,
      "num_tokens": 14766191.0,
      "step": 8000
    },
    {
      "entropy": 5.8651642322540285,
      "epoch": 0.672547784078975,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004961008050613149,
      "loss": 5.7521,
      "mean_token_accuracy": 0.14210513085126877,
      "num_tokens": 14775220.0,
      "step": 8005
    },
    {
      "entropy": 5.838468170166015,
      "epoch": 0.6729678638941399,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004960952521411161,
      "loss": 5.7078,
      "mean_token_accuracy": 0.14716721177101136,
      "num_tokens": 14784287.0,
      "step": 8010
    },
    {
      "entropy": 5.932072496414184,
      "epoch": 0.6733879437093048,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004960896953043287,
      "loss": 5.7759,
      "mean_token_accuracy": 0.14442920163273812,
      "num_tokens": 14794219.0,
      "step": 8015
    },
    {
      "entropy": 5.824687051773071,
      "epoch": 0.6738080235244697,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004960841345510511,
      "loss": 5.6703,
      "mean_token_accuracy": 0.1518692597746849,
      "num_tokens": 14803324.0,
      "step": 8020
    },
    {
      "entropy": 5.7951741218566895,
      "epoch": 0.6742281033396346,
      "grad_norm": 1.5859375,
      "learning_rate": 0.000496078569881382,
      "loss": 5.6876,
      "mean_token_accuracy": 0.1539413034915924,
      "num_tokens": 14811963.0,
      "step": 8025
    },
    {
      "entropy": 5.747313785552978,
      "epoch": 0.6746481831547995,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004960730012954198,
      "loss": 5.6526,
      "mean_token_accuracy": 0.14589986428618432,
      "num_tokens": 14821903.0,
      "step": 8030
    },
    {
      "entropy": 5.716427040100098,
      "epoch": 0.6750682629699643,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004960674287932634,
      "loss": 5.6271,
      "mean_token_accuracy": 0.14554727971553802,
      "num_tokens": 14831215.0,
      "step": 8035
    },
    {
      "entropy": 5.827300643920898,
      "epoch": 0.6754883427851291,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004960618523750111,
      "loss": 5.5552,
      "mean_token_accuracy": 0.1551190733909607,
      "num_tokens": 14840354.0,
      "step": 8040
    },
    {
      "entropy": 5.817133188247681,
      "epoch": 0.675908422600294,
      "grad_norm": 1.59375,
      "learning_rate": 0.000496056272040762,
      "loss": 5.7402,
      "mean_token_accuracy": 0.14943507611751555,
      "num_tokens": 14849660.0,
      "step": 8045
    },
    {
      "entropy": 5.807599830627441,
      "epoch": 0.6763285024154589,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004960506877906149,
      "loss": 5.6648,
      "mean_token_accuracy": 0.14764449894428253,
      "num_tokens": 14859819.0,
      "step": 8050
    },
    {
      "entropy": 5.801334857940674,
      "epoch": 0.6767485822306238,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004960450996246686,
      "loss": 5.6585,
      "mean_token_accuracy": 0.15806604847311972,
      "num_tokens": 14869260.0,
      "step": 8055
    },
    {
      "entropy": 5.7306236743927,
      "epoch": 0.6771686620457887,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004960395075430222,
      "loss": 5.6336,
      "mean_token_accuracy": 0.15279667675495148,
      "num_tokens": 14878685.0,
      "step": 8060
    },
    {
      "entropy": 5.749643182754516,
      "epoch": 0.6775887418609536,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004960339115457748,
      "loss": 5.6372,
      "mean_token_accuracy": 0.1503060542047024,
      "num_tokens": 14888456.0,
      "step": 8065
    },
    {
      "entropy": 5.7973710060119625,
      "epoch": 0.6780088216761184,
      "grad_norm": 1.890625,
      "learning_rate": 0.0004960283116330255,
      "loss": 5.731,
      "mean_token_accuracy": 0.14978916943073273,
      "num_tokens": 14897401.0,
      "step": 8070
    },
    {
      "entropy": 5.807585668563843,
      "epoch": 0.6784289014912833,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004960227078048735,
      "loss": 5.6567,
      "mean_token_accuracy": 0.15412394553422928,
      "num_tokens": 14906741.0,
      "step": 8075
    },
    {
      "entropy": 5.760078573226929,
      "epoch": 0.6788489813064482,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004960171000614179,
      "loss": 5.5427,
      "mean_token_accuracy": 0.16074198186397554,
      "num_tokens": 14916002.0,
      "step": 8080
    },
    {
      "entropy": 5.638378715515136,
      "epoch": 0.6792690611216131,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004960114884027583,
      "loss": 5.4776,
      "mean_token_accuracy": 0.16621290147304535,
      "num_tokens": 14925247.0,
      "step": 8085
    },
    {
      "entropy": 5.708978319168091,
      "epoch": 0.679689140936778,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004960058728289939,
      "loss": 5.608,
      "mean_token_accuracy": 0.15026133954524995,
      "num_tokens": 14933925.0,
      "step": 8090
    },
    {
      "entropy": 5.904026126861572,
      "epoch": 0.6801092207519429,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004960002533402243,
      "loss": 5.6881,
      "mean_token_accuracy": 0.15241528823971748,
      "num_tokens": 14943368.0,
      "step": 8095
    },
    {
      "entropy": 5.790306043624878,
      "epoch": 0.6805293005671077,
      "grad_norm": 1.375,
      "learning_rate": 0.0004959946299365491,
      "loss": 5.6953,
      "mean_token_accuracy": 0.14710961580276488,
      "num_tokens": 14953710.0,
      "step": 8100
    },
    {
      "entropy": 5.816765403747558,
      "epoch": 0.6809493803822726,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004959890026180677,
      "loss": 5.7182,
      "mean_token_accuracy": 0.14748610258102418,
      "num_tokens": 14962814.0,
      "step": 8105
    },
    {
      "entropy": 5.688648128509522,
      "epoch": 0.6813694601974375,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00049598337138488,
      "loss": 5.5964,
      "mean_token_accuracy": 0.16184311360120773,
      "num_tokens": 14971631.0,
      "step": 8110
    },
    {
      "entropy": 5.8211281299591064,
      "epoch": 0.6817895400126024,
      "grad_norm": 1.78125,
      "learning_rate": 0.0004959777362370855,
      "loss": 5.5884,
      "mean_token_accuracy": 0.15286847501993178,
      "num_tokens": 14980528.0,
      "step": 8115
    },
    {
      "entropy": 5.87521915435791,
      "epoch": 0.6822096198277673,
      "grad_norm": 2.3125,
      "learning_rate": 0.0004959720971747843,
      "loss": 5.6149,
      "mean_token_accuracy": 0.15216847509145737,
      "num_tokens": 14989331.0,
      "step": 8120
    },
    {
      "entropy": 5.713017272949219,
      "epoch": 0.6826296996429322,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004959664541980762,
      "loss": 5.598,
      "mean_token_accuracy": 0.15774561017751693,
      "num_tokens": 14999403.0,
      "step": 8125
    },
    {
      "entropy": 5.737113285064697,
      "epoch": 0.6830497794580971,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004959608073070612,
      "loss": 5.6958,
      "mean_token_accuracy": 0.14559513479471206,
      "num_tokens": 15009388.0,
      "step": 8130
    },
    {
      "entropy": 5.837254619598388,
      "epoch": 0.6834698592732619,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004959551565018392,
      "loss": 5.6286,
      "mean_token_accuracy": 0.15535787492990494,
      "num_tokens": 15018586.0,
      "step": 8135
    },
    {
      "entropy": 5.778875064849854,
      "epoch": 0.6838899390884268,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004959495017825104,
      "loss": 5.6407,
      "mean_token_accuracy": 0.15465399324893953,
      "num_tokens": 15027982.0,
      "step": 8140
    },
    {
      "entropy": 5.739845132827758,
      "epoch": 0.6843100189035917,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004959438431491749,
      "loss": 5.6278,
      "mean_token_accuracy": 0.15651622265577317,
      "num_tokens": 15037103.0,
      "step": 8145
    },
    {
      "entropy": 5.728132820129394,
      "epoch": 0.6847300987187566,
      "grad_norm": 1.453125,
      "learning_rate": 0.000495938180601933,
      "loss": 5.7184,
      "mean_token_accuracy": 0.14796946495771407,
      "num_tokens": 15046739.0,
      "step": 8150
    },
    {
      "entropy": 5.822361660003662,
      "epoch": 0.6851501785339215,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004959325141408851,
      "loss": 5.666,
      "mean_token_accuracy": 0.15593857914209366,
      "num_tokens": 15056586.0,
      "step": 8155
    },
    {
      "entropy": 5.768631410598755,
      "epoch": 0.6855702583490864,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004959268437661313,
      "loss": 5.641,
      "mean_token_accuracy": 0.15448189303278922,
      "num_tokens": 15066622.0,
      "step": 8160
    },
    {
      "entropy": 5.767803955078125,
      "epoch": 0.6859903381642513,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004959211694777724,
      "loss": 5.6293,
      "mean_token_accuracy": 0.15781602412462234,
      "num_tokens": 15075415.0,
      "step": 8165
    },
    {
      "entropy": 5.731510210037231,
      "epoch": 0.686410417979416,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004959154912759086,
      "loss": 5.6134,
      "mean_token_accuracy": 0.15285183787345885,
      "num_tokens": 15085087.0,
      "step": 8170
    },
    {
      "entropy": 5.772061681747436,
      "epoch": 0.6868304977945809,
      "grad_norm": 2.0,
      "learning_rate": 0.0004959098091606406,
      "loss": 5.6231,
      "mean_token_accuracy": 0.1562209889292717,
      "num_tokens": 15093580.0,
      "step": 8175
    },
    {
      "entropy": 5.681428337097168,
      "epoch": 0.6872505776097458,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004959041231320692,
      "loss": 5.5996,
      "mean_token_accuracy": 0.15760979950428008,
      "num_tokens": 15104033.0,
      "step": 8180
    },
    {
      "entropy": 5.769718980789184,
      "epoch": 0.6876706574249107,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004958984331902951,
      "loss": 5.6773,
      "mean_token_accuracy": 0.14753246530890465,
      "num_tokens": 15113164.0,
      "step": 8185
    },
    {
      "entropy": 5.745969009399414,
      "epoch": 0.6880907372400756,
      "grad_norm": 1.75,
      "learning_rate": 0.0004958927393354188,
      "loss": 5.6297,
      "mean_token_accuracy": 0.15737390518188477,
      "num_tokens": 15122215.0,
      "step": 8190
    },
    {
      "entropy": 5.765387773513794,
      "epoch": 0.6885108170552405,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004958870415675415,
      "loss": 5.6091,
      "mean_token_accuracy": 0.15159644484519957,
      "num_tokens": 15130877.0,
      "step": 8195
    },
    {
      "entropy": 5.7833487033844,
      "epoch": 0.6889308968704054,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004958813398867639,
      "loss": 5.5909,
      "mean_token_accuracy": 0.1610761597752571,
      "num_tokens": 15140227.0,
      "step": 8200
    },
    {
      "entropy": 5.874035358428955,
      "epoch": 0.6893509766855702,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004958756342931872,
      "loss": 5.7618,
      "mean_token_accuracy": 0.14578953385353088,
      "num_tokens": 15150006.0,
      "step": 8205
    },
    {
      "entropy": 5.7979443073272705,
      "epoch": 0.6897710565007351,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004958699247869122,
      "loss": 5.6734,
      "mean_token_accuracy": 0.15173593461513518,
      "num_tokens": 15160032.0,
      "step": 8210
    },
    {
      "entropy": 5.775300407409668,
      "epoch": 0.6901911363159,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004958642113680404,
      "loss": 5.607,
      "mean_token_accuracy": 0.15672277957201003,
      "num_tokens": 15168966.0,
      "step": 8215
    },
    {
      "entropy": 5.886404323577881,
      "epoch": 0.6906112161310649,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004958584940366727,
      "loss": 5.7931,
      "mean_token_accuracy": 0.1462364301085472,
      "num_tokens": 15179337.0,
      "step": 8220
    },
    {
      "entropy": 5.845329141616821,
      "epoch": 0.6910312959462298,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004958527727929106,
      "loss": 5.6901,
      "mean_token_accuracy": 0.15126113295555116,
      "num_tokens": 15188395.0,
      "step": 8225
    },
    {
      "entropy": 5.777632856369019,
      "epoch": 0.6914513757613947,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004958470476368552,
      "loss": 5.6175,
      "mean_token_accuracy": 0.1590783603489399,
      "num_tokens": 15198669.0,
      "step": 8230
    },
    {
      "entropy": 5.717659664154053,
      "epoch": 0.6918714555765595,
      "grad_norm": 2.0625,
      "learning_rate": 0.0004958413185686082,
      "loss": 5.637,
      "mean_token_accuracy": 0.15654054433107376,
      "num_tokens": 15207371.0,
      "step": 8235
    },
    {
      "entropy": 5.771133661270142,
      "epoch": 0.6922915353917244,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004958355855882709,
      "loss": 5.6623,
      "mean_token_accuracy": 0.15609176307916642,
      "num_tokens": 15215694.0,
      "step": 8240
    },
    {
      "entropy": 5.838139247894287,
      "epoch": 0.6927116152068893,
      "grad_norm": 1.59375,
      "learning_rate": 0.000495829848695945,
      "loss": 5.6462,
      "mean_token_accuracy": 0.15314621180295945,
      "num_tokens": 15224963.0,
      "step": 8245
    },
    {
      "entropy": 5.6792638301849365,
      "epoch": 0.6931316950220542,
      "grad_norm": 1.5078125,
      "learning_rate": 0.000495824107891732,
      "loss": 5.4601,
      "mean_token_accuracy": 0.16161370724439622,
      "num_tokens": 15233569.0,
      "step": 8250
    },
    {
      "entropy": 5.702935647964478,
      "epoch": 0.6935517748372191,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004958183631757336,
      "loss": 5.6456,
      "mean_token_accuracy": 0.15384626239538193,
      "num_tokens": 15242671.0,
      "step": 8255
    },
    {
      "entropy": 5.757969760894776,
      "epoch": 0.693971854652384,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004958126145480517,
      "loss": 5.6062,
      "mean_token_accuracy": 0.15589472502470017,
      "num_tokens": 15251698.0,
      "step": 8260
    },
    {
      "entropy": 5.881031131744384,
      "epoch": 0.6943919344675489,
      "grad_norm": 2.265625,
      "learning_rate": 0.0004958068620087879,
      "loss": 5.7131,
      "mean_token_accuracy": 0.15278587341308594,
      "num_tokens": 15260608.0,
      "step": 8265
    },
    {
      "entropy": 5.7654228687286375,
      "epoch": 0.6948120142827137,
      "grad_norm": 1.78125,
      "learning_rate": 0.0004958011055580443,
      "loss": 5.5824,
      "mean_token_accuracy": 0.1566091775894165,
      "num_tokens": 15268866.0,
      "step": 8270
    },
    {
      "entropy": 5.691988468170166,
      "epoch": 0.6952320940978786,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004957953451959229,
      "loss": 5.5428,
      "mean_token_accuracy": 0.1687786027789116,
      "num_tokens": 15277600.0,
      "step": 8275
    },
    {
      "entropy": 5.712690019607544,
      "epoch": 0.6956521739130435,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004957895809225254,
      "loss": 5.577,
      "mean_token_accuracy": 0.15904618948698043,
      "num_tokens": 15286016.0,
      "step": 8280
    },
    {
      "entropy": 5.791261529922485,
      "epoch": 0.6960722537282084,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004957838127379544,
      "loss": 5.6203,
      "mean_token_accuracy": 0.15775981694459915,
      "num_tokens": 15294676.0,
      "step": 8285
    },
    {
      "entropy": 5.787760162353516,
      "epoch": 0.6964923335433733,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004957780406423118,
      "loss": 5.6093,
      "mean_token_accuracy": 0.1520596593618393,
      "num_tokens": 15304084.0,
      "step": 8290
    },
    {
      "entropy": 5.732133674621582,
      "epoch": 0.6969124133585382,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004957722646356999,
      "loss": 5.6145,
      "mean_token_accuracy": 0.15437885522842407,
      "num_tokens": 15314182.0,
      "step": 8295
    },
    {
      "entropy": 5.82383394241333,
      "epoch": 0.697332493173703,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004957664847182209,
      "loss": 5.7321,
      "mean_token_accuracy": 0.14916351363062857,
      "num_tokens": 15324213.0,
      "step": 8300
    },
    {
      "entropy": 5.901606464385987,
      "epoch": 0.6977525729888678,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004957607008899774,
      "loss": 5.6654,
      "mean_token_accuracy": 0.14808408319950103,
      "num_tokens": 15333122.0,
      "step": 8305
    },
    {
      "entropy": 5.821764516830444,
      "epoch": 0.6981726528040327,
      "grad_norm": 1.75,
      "learning_rate": 0.0004957549131510717,
      "loss": 5.7587,
      "mean_token_accuracy": 0.14488900303840638,
      "num_tokens": 15342199.0,
      "step": 8310
    },
    {
      "entropy": 5.85214409828186,
      "epoch": 0.6985927326191976,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004957491215016065,
      "loss": 5.7068,
      "mean_token_accuracy": 0.14899201691150665,
      "num_tokens": 15352463.0,
      "step": 8315
    },
    {
      "entropy": 5.7340789318084715,
      "epoch": 0.6990128124343625,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0004957433259416841,
      "loss": 5.5519,
      "mean_token_accuracy": 0.15695535391569138,
      "num_tokens": 15361815.0,
      "step": 8320
    },
    {
      "entropy": 5.829116296768189,
      "epoch": 0.6994328922495274,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004957375264714075,
      "loss": 5.6665,
      "mean_token_accuracy": 0.14441719949245452,
      "num_tokens": 15371773.0,
      "step": 8325
    },
    {
      "entropy": 5.731393432617187,
      "epoch": 0.6998529720646923,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004957317230908792,
      "loss": 5.6078,
      "mean_token_accuracy": 0.153985595703125,
      "num_tokens": 15380881.0,
      "step": 8330
    },
    {
      "entropy": 5.69814658164978,
      "epoch": 0.7002730518798572,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004957259158002022,
      "loss": 5.4853,
      "mean_token_accuracy": 0.16338536590337754,
      "num_tokens": 15389310.0,
      "step": 8335
    },
    {
      "entropy": 5.65314564704895,
      "epoch": 0.700693131695022,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004957201045994791,
      "loss": 5.585,
      "mean_token_accuracy": 0.15192776024341584,
      "num_tokens": 15398584.0,
      "step": 8340
    },
    {
      "entropy": 5.752124881744384,
      "epoch": 0.7011132115101869,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004957142894888131,
      "loss": 5.6244,
      "mean_token_accuracy": 0.1605387285351753,
      "num_tokens": 15407208.0,
      "step": 8345
    },
    {
      "entropy": 5.781596279144287,
      "epoch": 0.7015332913253518,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004957084704683071,
      "loss": 5.6552,
      "mean_token_accuracy": 0.15119443833827972,
      "num_tokens": 15416474.0,
      "step": 8350
    },
    {
      "entropy": 5.796496915817261,
      "epoch": 0.7019533711405167,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004957026475380642,
      "loss": 5.6589,
      "mean_token_accuracy": 0.1581042394042015,
      "num_tokens": 15426101.0,
      "step": 8355
    },
    {
      "entropy": 5.8482013702392575,
      "epoch": 0.7023734509556816,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004956968206981875,
      "loss": 5.6866,
      "mean_token_accuracy": 0.1528375506401062,
      "num_tokens": 15435910.0,
      "step": 8360
    },
    {
      "entropy": 5.838450860977173,
      "epoch": 0.7027935307708465,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0004956909899487803,
      "loss": 5.7297,
      "mean_token_accuracy": 0.14721868485212325,
      "num_tokens": 15445494.0,
      "step": 8365
    },
    {
      "entropy": 5.773874664306641,
      "epoch": 0.7032136105860114,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004956851552899459,
      "loss": 5.6133,
      "mean_token_accuracy": 0.15867630988359452,
      "num_tokens": 15455332.0,
      "step": 8370
    },
    {
      "entropy": 5.7730677127838135,
      "epoch": 0.7036336904011762,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004956793167217874,
      "loss": 5.6813,
      "mean_token_accuracy": 0.1490170478820801,
      "num_tokens": 15464241.0,
      "step": 8375
    },
    {
      "entropy": 5.8777241706848145,
      "epoch": 0.7040537702163411,
      "grad_norm": 2.0625,
      "learning_rate": 0.0004956734742444087,
      "loss": 5.6821,
      "mean_token_accuracy": 0.15121965557336808,
      "num_tokens": 15473473.0,
      "step": 8380
    },
    {
      "entropy": 5.744890403747559,
      "epoch": 0.704473850031506,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004956676278579129,
      "loss": 5.563,
      "mean_token_accuracy": 0.15540574193000795,
      "num_tokens": 15482494.0,
      "step": 8385
    },
    {
      "entropy": 5.676463556289673,
      "epoch": 0.7048939298466709,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004956617775624037,
      "loss": 5.5724,
      "mean_token_accuracy": 0.15146812200546264,
      "num_tokens": 15491180.0,
      "step": 8390
    },
    {
      "entropy": 5.786671447753906,
      "epoch": 0.7053140096618358,
      "grad_norm": 2.078125,
      "learning_rate": 0.0004956559233579848,
      "loss": 5.6148,
      "mean_token_accuracy": 0.15258617997169494,
      "num_tokens": 15501035.0,
      "step": 8395
    },
    {
      "entropy": 5.7913405418396,
      "epoch": 0.7057340894770007,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004956500652447598,
      "loss": 5.5994,
      "mean_token_accuracy": 0.15323785319924355,
      "num_tokens": 15510191.0,
      "step": 8400
    },
    {
      "entropy": 5.706702041625976,
      "epoch": 0.7061541692921655,
      "grad_norm": 1.5,
      "learning_rate": 0.0004956442032228324,
      "loss": 5.6875,
      "mean_token_accuracy": 0.15146460086107255,
      "num_tokens": 15519253.0,
      "step": 8405
    },
    {
      "entropy": 5.7468561172485355,
      "epoch": 0.7065742491073304,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004956383372923067,
      "loss": 5.6573,
      "mean_token_accuracy": 0.15219423472881316,
      "num_tokens": 15528348.0,
      "step": 8410
    },
    {
      "entropy": 5.909702920913697,
      "epoch": 0.7069943289224953,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004956324674532864,
      "loss": 5.7312,
      "mean_token_accuracy": 0.14496915340423583,
      "num_tokens": 15537557.0,
      "step": 8415
    },
    {
      "entropy": 5.853457021713257,
      "epoch": 0.7074144087376601,
      "grad_norm": 1.375,
      "learning_rate": 0.0004956265937058757,
      "loss": 5.6662,
      "mean_token_accuracy": 0.14985378384590148,
      "num_tokens": 15546745.0,
      "step": 8420
    },
    {
      "entropy": 5.753704071044922,
      "epoch": 0.707834488552825,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004956207160501784,
      "loss": 5.5646,
      "mean_token_accuracy": 0.15850543081760407,
      "num_tokens": 15555532.0,
      "step": 8425
    },
    {
      "entropy": 5.728769159317016,
      "epoch": 0.70825456836799,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004956148344862987,
      "loss": 5.6209,
      "mean_token_accuracy": 0.1560587242245674,
      "num_tokens": 15564189.0,
      "step": 8430
    },
    {
      "entropy": 5.664771509170532,
      "epoch": 0.7086746481831548,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004956089490143408,
      "loss": 5.6492,
      "mean_token_accuracy": 0.15197667628526687,
      "num_tokens": 15574116.0,
      "step": 8435
    },
    {
      "entropy": 5.824323844909668,
      "epoch": 0.7090947279983196,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004956030596344089,
      "loss": 5.6473,
      "mean_token_accuracy": 0.149012803286314,
      "num_tokens": 15583031.0,
      "step": 8440
    },
    {
      "entropy": 5.836510467529297,
      "epoch": 0.7095148078134845,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004955971663466075,
      "loss": 5.7671,
      "mean_token_accuracy": 0.15028237402439118,
      "num_tokens": 15592576.0,
      "step": 8445
    },
    {
      "entropy": 5.823656129837036,
      "epoch": 0.7099348876286494,
      "grad_norm": 1.78125,
      "learning_rate": 0.0004955912691510407,
      "loss": 5.697,
      "mean_token_accuracy": 0.15281013548374175,
      "num_tokens": 15601065.0,
      "step": 8450
    },
    {
      "entropy": 5.751941967010498,
      "epoch": 0.7103549674438143,
      "grad_norm": 1.890625,
      "learning_rate": 0.0004955853680478134,
      "loss": 5.633,
      "mean_token_accuracy": 0.14754925668239594,
      "num_tokens": 15610112.0,
      "step": 8455
    },
    {
      "entropy": 5.778195095062256,
      "epoch": 0.7107750472589792,
      "grad_norm": 1.859375,
      "learning_rate": 0.0004955794630370297,
      "loss": 5.6139,
      "mean_token_accuracy": 0.15469905436038972,
      "num_tokens": 15618890.0,
      "step": 8460
    },
    {
      "entropy": 5.750346851348877,
      "epoch": 0.7111951270741441,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0004955735541187945,
      "loss": 5.6397,
      "mean_token_accuracy": 0.15139740109443664,
      "num_tokens": 15627678.0,
      "step": 8465
    },
    {
      "entropy": 5.838537120819092,
      "epoch": 0.711615206889309,
      "grad_norm": 2.265625,
      "learning_rate": 0.0004955676412932124,
      "loss": 5.6254,
      "mean_token_accuracy": 0.15495479255914688,
      "num_tokens": 15636833.0,
      "step": 8470
    },
    {
      "entropy": 5.758643341064453,
      "epoch": 0.7120352867044738,
      "grad_norm": 2.390625,
      "learning_rate": 0.0004955617245603881,
      "loss": 5.6441,
      "mean_token_accuracy": 0.1475740984082222,
      "num_tokens": 15646571.0,
      "step": 8475
    },
    {
      "entropy": 5.771809864044189,
      "epoch": 0.7124553665196387,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004955558039204263,
      "loss": 5.6883,
      "mean_token_accuracy": 0.1559377834200859,
      "num_tokens": 15654907.0,
      "step": 8480
    },
    {
      "entropy": 5.87169828414917,
      "epoch": 0.7128754463348036,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004955498793734321,
      "loss": 5.6259,
      "mean_token_accuracy": 0.15253366231918336,
      "num_tokens": 15664336.0,
      "step": 8485
    },
    {
      "entropy": 5.775359678268432,
      "epoch": 0.7132955261499685,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004955439509195103,
      "loss": 5.6818,
      "mean_token_accuracy": 0.15552834868431092,
      "num_tokens": 15674000.0,
      "step": 8490
    },
    {
      "entropy": 5.817126750946045,
      "epoch": 0.7137156059651334,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004955380185587661,
      "loss": 5.6655,
      "mean_token_accuracy": 0.15541905909776688,
      "num_tokens": 15684214.0,
      "step": 8495
    },
    {
      "entropy": 5.823128080368042,
      "epoch": 0.7141356857802983,
      "grad_norm": 2.65625,
      "learning_rate": 0.0004955320822913043,
      "loss": 5.695,
      "mean_token_accuracy": 0.14909214079380034,
      "num_tokens": 15693546.0,
      "step": 8500
    },
    {
      "entropy": 5.796035861968994,
      "epoch": 0.7145557655954632,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004955261421172302,
      "loss": 5.6006,
      "mean_token_accuracy": 0.15094921365380287,
      "num_tokens": 15702310.0,
      "step": 8505
    },
    {
      "entropy": 5.765657234191894,
      "epoch": 0.714975845410628,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004955201980366493,
      "loss": 5.6549,
      "mean_token_accuracy": 0.1583261877298355,
      "num_tokens": 15711544.0,
      "step": 8510
    },
    {
      "entropy": 5.701775074005127,
      "epoch": 0.7153959252257929,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004955142500496665,
      "loss": 5.5378,
      "mean_token_accuracy": 0.15932040065526962,
      "num_tokens": 15720914.0,
      "step": 8515
    },
    {
      "entropy": 5.806231927871704,
      "epoch": 0.7158160050409578,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004955082981563872,
      "loss": 5.636,
      "mean_token_accuracy": 0.1497705653309822,
      "num_tokens": 15729825.0,
      "step": 8520
    },
    {
      "entropy": 5.731112813949585,
      "epoch": 0.7162360848561227,
      "grad_norm": 1.984375,
      "learning_rate": 0.000495502342356917,
      "loss": 5.6407,
      "mean_token_accuracy": 0.15358344316482545,
      "num_tokens": 15739649.0,
      "step": 8525
    },
    {
      "entropy": 5.775957298278809,
      "epoch": 0.7166561646712876,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004954963826513614,
      "loss": 5.5312,
      "mean_token_accuracy": 0.15533651560544967,
      "num_tokens": 15747805.0,
      "step": 8530
    },
    {
      "entropy": 5.848172760009765,
      "epoch": 0.7170762444864525,
      "grad_norm": 1.7421875,
      "learning_rate": 0.000495490419039826,
      "loss": 5.6763,
      "mean_token_accuracy": 0.15182012543082238,
      "num_tokens": 15757267.0,
      "step": 8535
    },
    {
      "entropy": 5.734999704360962,
      "epoch": 0.7174963243016174,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004954844515224162,
      "loss": 5.6442,
      "mean_token_accuracy": 0.15498089045286179,
      "num_tokens": 15767412.0,
      "step": 8540
    },
    {
      "entropy": 5.702851438522339,
      "epoch": 0.7179164041167821,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004954784800992379,
      "loss": 5.6434,
      "mean_token_accuracy": 0.1511929914355278,
      "num_tokens": 15776813.0,
      "step": 8545
    },
    {
      "entropy": 5.8534894466400145,
      "epoch": 0.718336483931947,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004954725047703969,
      "loss": 5.6771,
      "mean_token_accuracy": 0.152647565305233,
      "num_tokens": 15786258.0,
      "step": 8550
    },
    {
      "entropy": 5.836289310455323,
      "epoch": 0.7187565637471119,
      "grad_norm": 2.09375,
      "learning_rate": 0.000495466525535999,
      "loss": 5.6667,
      "mean_token_accuracy": 0.15143323093652725,
      "num_tokens": 15795673.0,
      "step": 8555
    },
    {
      "entropy": 5.811659526824951,
      "epoch": 0.7191766435622768,
      "grad_norm": 2.234375,
      "learning_rate": 0.0004954605423961501,
      "loss": 5.6561,
      "mean_token_accuracy": 0.15157762318849563,
      "num_tokens": 15805050.0,
      "step": 8560
    },
    {
      "entropy": 5.681427240371704,
      "epoch": 0.7195967233774417,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004954545553509562,
      "loss": 5.606,
      "mean_token_accuracy": 0.16409880369901658,
      "num_tokens": 15813347.0,
      "step": 8565
    },
    {
      "entropy": 5.839797496795654,
      "epoch": 0.7200168031926066,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004954485644005235,
      "loss": 5.7266,
      "mean_token_accuracy": 0.1489485539495945,
      "num_tokens": 15823528.0,
      "step": 8570
    },
    {
      "entropy": 5.8334362506866455,
      "epoch": 0.7204368830077714,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004954425695449578,
      "loss": 5.6173,
      "mean_token_accuracy": 0.15086468532681466,
      "num_tokens": 15832727.0,
      "step": 8575
    },
    {
      "entropy": 5.822533702850341,
      "epoch": 0.7208569628229363,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004954365707843657,
      "loss": 5.6976,
      "mean_token_accuracy": 0.14436446502804756,
      "num_tokens": 15842402.0,
      "step": 8580
    },
    {
      "entropy": 5.748192930221558,
      "epoch": 0.7212770426381012,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004954305681188531,
      "loss": 5.5623,
      "mean_token_accuracy": 0.1519525095820427,
      "num_tokens": 15850886.0,
      "step": 8585
    },
    {
      "entropy": 5.9683891296386715,
      "epoch": 0.7216971224532661,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004954245615485265,
      "loss": 5.8576,
      "mean_token_accuracy": 0.14881062209606172,
      "num_tokens": 15860093.0,
      "step": 8590
    },
    {
      "entropy": 5.825228261947632,
      "epoch": 0.722117202268431,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004954185510734924,
      "loss": 5.5603,
      "mean_token_accuracy": 0.15691882967948914,
      "num_tokens": 15868681.0,
      "step": 8595
    },
    {
      "entropy": 5.775141906738281,
      "epoch": 0.7225372820835959,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004954125366938571,
      "loss": 5.6425,
      "mean_token_accuracy": 0.15889365077018738,
      "num_tokens": 15878041.0,
      "step": 8600
    },
    {
      "entropy": 5.759042358398437,
      "epoch": 0.7229573618987608,
      "grad_norm": 2.328125,
      "learning_rate": 0.0004954065184097271,
      "loss": 5.6357,
      "mean_token_accuracy": 0.15483569353818893,
      "num_tokens": 15887562.0,
      "step": 8605
    },
    {
      "entropy": 5.751525020599365,
      "epoch": 0.7233774417139256,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004954004962212092,
      "loss": 5.5541,
      "mean_token_accuracy": 0.1643654190003872,
      "num_tokens": 15896480.0,
      "step": 8610
    },
    {
      "entropy": 5.911052465438843,
      "epoch": 0.7237975215290905,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004953944701284101,
      "loss": 5.7752,
      "mean_token_accuracy": 0.1463731437921524,
      "num_tokens": 15906743.0,
      "step": 8615
    },
    {
      "entropy": 5.830478382110596,
      "epoch": 0.7242176013442554,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004953884401314363,
      "loss": 5.7213,
      "mean_token_accuracy": 0.13995275720953942,
      "num_tokens": 15915981.0,
      "step": 8620
    },
    {
      "entropy": 5.8113525867462155,
      "epoch": 0.7246376811594203,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004953824062303949,
      "loss": 5.5765,
      "mean_token_accuracy": 0.1530995100736618,
      "num_tokens": 15924117.0,
      "step": 8625
    },
    {
      "entropy": 5.7734462261199955,
      "epoch": 0.7250577609745852,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004953763684253926,
      "loss": 5.6054,
      "mean_token_accuracy": 0.16219132840633393,
      "num_tokens": 15933124.0,
      "step": 8630
    },
    {
      "entropy": 5.7224249839782715,
      "epoch": 0.7254778407897501,
      "grad_norm": 1.96875,
      "learning_rate": 0.0004953703267165364,
      "loss": 5.5024,
      "mean_token_accuracy": 0.1558832585811615,
      "num_tokens": 15942422.0,
      "step": 8635
    },
    {
      "entropy": 5.749732875823975,
      "epoch": 0.725897920604915,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004953642811039332,
      "loss": 5.7128,
      "mean_token_accuracy": 0.14854123890399934,
      "num_tokens": 15950989.0,
      "step": 8640
    },
    {
      "entropy": 5.855362319946289,
      "epoch": 0.7263180004200798,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004953582315876904,
      "loss": 5.7185,
      "mean_token_accuracy": 0.15013131573796273,
      "num_tokens": 15959659.0,
      "step": 8645
    },
    {
      "entropy": 5.837911462783813,
      "epoch": 0.7267380802352447,
      "grad_norm": 1.859375,
      "learning_rate": 0.000495352178167915,
      "loss": 5.5977,
      "mean_token_accuracy": 0.16410948783159257,
      "num_tokens": 15968102.0,
      "step": 8650
    },
    {
      "entropy": 5.854554653167725,
      "epoch": 0.7271581600504096,
      "grad_norm": 2.28125,
      "learning_rate": 0.0004953461208447143,
      "loss": 5.7132,
      "mean_token_accuracy": 0.14808624759316444,
      "num_tokens": 15977705.0,
      "step": 8655
    },
    {
      "entropy": 5.801808023452759,
      "epoch": 0.7275782398655745,
      "grad_norm": 2.328125,
      "learning_rate": 0.0004953400596181953,
      "loss": 5.7244,
      "mean_token_accuracy": 0.1447308510541916,
      "num_tokens": 15986703.0,
      "step": 8660
    },
    {
      "entropy": 5.839752292633056,
      "epoch": 0.7279983196807394,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004953339944884657,
      "loss": 5.6309,
      "mean_token_accuracy": 0.15707603991031646,
      "num_tokens": 15995672.0,
      "step": 8665
    },
    {
      "entropy": 5.702234554290771,
      "epoch": 0.7284183994959043,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004953279254556329,
      "loss": 5.5683,
      "mean_token_accuracy": 0.16529579162597657,
      "num_tokens": 16004437.0,
      "step": 8670
    },
    {
      "entropy": 5.786400604248047,
      "epoch": 0.7288384793110692,
      "grad_norm": 1.5,
      "learning_rate": 0.0004953218525198043,
      "loss": 5.6136,
      "mean_token_accuracy": 0.1482889771461487,
      "num_tokens": 16012847.0,
      "step": 8675
    },
    {
      "entropy": 5.820078039169312,
      "epoch": 0.7292585591262339,
      "grad_norm": 9.3125,
      "learning_rate": 0.0004953157756810876,
      "loss": 5.6444,
      "mean_token_accuracy": 0.15196260213851928,
      "num_tokens": 16022213.0,
      "step": 8680
    },
    {
      "entropy": 5.784472417831421,
      "epoch": 0.7296786389413988,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004953096949395902,
      "loss": 5.6938,
      "mean_token_accuracy": 0.15605147629976274,
      "num_tokens": 16031411.0,
      "step": 8685
    },
    {
      "entropy": 5.822618913650513,
      "epoch": 0.7300987187565637,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004953036102954202,
      "loss": 5.7282,
      "mean_token_accuracy": 0.14967211931943894,
      "num_tokens": 16041227.0,
      "step": 8690
    },
    {
      "entropy": 5.778734588623047,
      "epoch": 0.7305187985717286,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004952975217486852,
      "loss": 5.5479,
      "mean_token_accuracy": 0.1602558448910713,
      "num_tokens": 16049777.0,
      "step": 8695
    },
    {
      "entropy": 5.83000955581665,
      "epoch": 0.7309388783868935,
      "grad_norm": 2.609375,
      "learning_rate": 0.0004952914292994928,
      "loss": 5.659,
      "mean_token_accuracy": 0.15439933240413667,
      "num_tokens": 16059093.0,
      "step": 8700
    },
    {
      "entropy": 5.840744495391846,
      "epoch": 0.7313589582020584,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004952853329479514,
      "loss": 5.6861,
      "mean_token_accuracy": 0.15537820011377335,
      "num_tokens": 16068550.0,
      "step": 8705
    },
    {
      "entropy": 5.810123777389526,
      "epoch": 0.7317790380172233,
      "grad_norm": 2.015625,
      "learning_rate": 0.0004952792326941686,
      "loss": 5.7191,
      "mean_token_accuracy": 0.14849043488502503,
      "num_tokens": 16078286.0,
      "step": 8710
    },
    {
      "entropy": 5.814086198806763,
      "epoch": 0.7321991178323881,
      "grad_norm": 2.03125,
      "learning_rate": 0.0004952731285382527,
      "loss": 5.6667,
      "mean_token_accuracy": 0.15178068578243256,
      "num_tokens": 16087560.0,
      "step": 8715
    },
    {
      "entropy": 5.787434864044189,
      "epoch": 0.732619197647553,
      "grad_norm": 2.515625,
      "learning_rate": 0.0004952670204803118,
      "loss": 5.6204,
      "mean_token_accuracy": 0.1559364140033722,
      "num_tokens": 16097478.0,
      "step": 8720
    },
    {
      "entropy": 5.850944232940674,
      "epoch": 0.7330392774627179,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004952609085204539,
      "loss": 5.7189,
      "mean_token_accuracy": 0.15533626079559326,
      "num_tokens": 16106884.0,
      "step": 8725
    },
    {
      "entropy": 5.731724834442138,
      "epoch": 0.7334593572778828,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0004952547926587876,
      "loss": 5.6334,
      "mean_token_accuracy": 0.15004593282938003,
      "num_tokens": 16115689.0,
      "step": 8730
    },
    {
      "entropy": 5.7415611743927,
      "epoch": 0.7338794370930477,
      "grad_norm": 2.375,
      "learning_rate": 0.0004952486728954209,
      "loss": 5.5761,
      "mean_token_accuracy": 0.1599406212568283,
      "num_tokens": 16125237.0,
      "step": 8735
    },
    {
      "entropy": 5.7435039520263675,
      "epoch": 0.7342995169082126,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004952425492304624,
      "loss": 5.5816,
      "mean_token_accuracy": 0.15830608755350112,
      "num_tokens": 16133940.0,
      "step": 8740
    },
    {
      "entropy": 5.803058242797851,
      "epoch": 0.7347195967233774,
      "grad_norm": 2.546875,
      "learning_rate": 0.0004952364216640207,
      "loss": 5.6865,
      "mean_token_accuracy": 0.15288463681936265,
      "num_tokens": 16143256.0,
      "step": 8745
    },
    {
      "entropy": 5.834009265899658,
      "epoch": 0.7351396765385423,
      "grad_norm": 1.609375,
      "learning_rate": 0.000495230290196204,
      "loss": 5.5648,
      "mean_token_accuracy": 0.15222593396902084,
      "num_tokens": 16153259.0,
      "step": 8750
    },
    {
      "entropy": 5.86444673538208,
      "epoch": 0.7355597563537072,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0004952241548271212,
      "loss": 5.8055,
      "mean_token_accuracy": 0.14142679050564766,
      "num_tokens": 16162125.0,
      "step": 8755
    },
    {
      "entropy": 5.84849967956543,
      "epoch": 0.7359798361688721,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004952180155568809,
      "loss": 5.7224,
      "mean_token_accuracy": 0.14703101068735122,
      "num_tokens": 16171680.0,
      "step": 8760
    },
    {
      "entropy": 5.853292989730835,
      "epoch": 0.736399915984037,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004952118723855919,
      "loss": 5.7153,
      "mean_token_accuracy": 0.15350899547338487,
      "num_tokens": 16181559.0,
      "step": 8765
    },
    {
      "entropy": 5.755408191680909,
      "epoch": 0.7368199957992019,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004952057253133628,
      "loss": 5.668,
      "mean_token_accuracy": 0.15180395692586898,
      "num_tokens": 16190611.0,
      "step": 8770
    },
    {
      "entropy": 5.833858060836792,
      "epoch": 0.7372400756143668,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004951995743403028,
      "loss": 5.6769,
      "mean_token_accuracy": 0.15253981202840805,
      "num_tokens": 16200156.0,
      "step": 8775
    },
    {
      "entropy": 5.824840307235718,
      "epoch": 0.7376601554295316,
      "grad_norm": 1.859375,
      "learning_rate": 0.0004951934194665208,
      "loss": 5.6458,
      "mean_token_accuracy": 0.14709821194410325,
      "num_tokens": 16209808.0,
      "step": 8780
    },
    {
      "entropy": 5.756002902984619,
      "epoch": 0.7380802352446965,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004951872606921257,
      "loss": 5.6136,
      "mean_token_accuracy": 0.15270906686782837,
      "num_tokens": 16219243.0,
      "step": 8785
    },
    {
      "entropy": 5.72284197807312,
      "epoch": 0.7385003150598614,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004951810980172265,
      "loss": 5.627,
      "mean_token_accuracy": 0.1641955330967903,
      "num_tokens": 16228180.0,
      "step": 8790
    },
    {
      "entropy": 5.785319805145264,
      "epoch": 0.7389203948750263,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004951749314419327,
      "loss": 5.6417,
      "mean_token_accuracy": 0.15115589275956154,
      "num_tokens": 16237045.0,
      "step": 8795
    },
    {
      "entropy": 5.791619110107422,
      "epoch": 0.7393404746901912,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004951687609663533,
      "loss": 5.5589,
      "mean_token_accuracy": 0.15952047407627107,
      "num_tokens": 16245307.0,
      "step": 8800
    },
    {
      "entropy": 5.765593528747559,
      "epoch": 0.739760554505356,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004951625865905977,
      "loss": 5.5974,
      "mean_token_accuracy": 0.14921371787786483,
      "num_tokens": 16255047.0,
      "step": 8805
    },
    {
      "entropy": 5.749333095550537,
      "epoch": 0.740180634320521,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004951564083147753,
      "loss": 5.6447,
      "mean_token_accuracy": 0.1600167080760002,
      "num_tokens": 16264969.0,
      "step": 8810
    },
    {
      "entropy": 5.81842737197876,
      "epoch": 0.7406007141356857,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004951502261389953,
      "loss": 5.7327,
      "mean_token_accuracy": 0.14656912833452224,
      "num_tokens": 16274757.0,
      "step": 8815
    },
    {
      "entropy": 5.780880069732666,
      "epoch": 0.7410207939508506,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004951440400633677,
      "loss": 5.6351,
      "mean_token_accuracy": 0.16265199482440948,
      "num_tokens": 16283409.0,
      "step": 8820
    },
    {
      "entropy": 5.687593412399292,
      "epoch": 0.7414408737660155,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004951378500880015,
      "loss": 5.5962,
      "mean_token_accuracy": 0.1549723207950592,
      "num_tokens": 16293206.0,
      "step": 8825
    },
    {
      "entropy": 5.82498950958252,
      "epoch": 0.7418609535811804,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004951316562130067,
      "loss": 5.6332,
      "mean_token_accuracy": 0.15318880528211593,
      "num_tokens": 16303121.0,
      "step": 8830
    },
    {
      "entropy": 5.778778553009033,
      "epoch": 0.7422810333963453,
      "grad_norm": 1.46875,
      "learning_rate": 0.000495125458438493,
      "loss": 5.5975,
      "mean_token_accuracy": 0.16230110377073287,
      "num_tokens": 16312710.0,
      "step": 8835
    },
    {
      "entropy": 5.8864704132080075,
      "epoch": 0.7427011132115102,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004951192567645702,
      "loss": 5.7853,
      "mean_token_accuracy": 0.14685365781188012,
      "num_tokens": 16322280.0,
      "step": 8840
    },
    {
      "entropy": 5.721866273880005,
      "epoch": 0.7431211930266751,
      "grad_norm": 1.625,
      "learning_rate": 0.0004951130511913481,
      "loss": 5.635,
      "mean_token_accuracy": 0.15453375428915023,
      "num_tokens": 16331656.0,
      "step": 8845
    },
    {
      "entropy": 5.7635541439056395,
      "epoch": 0.7435412728418399,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004951068417189366,
      "loss": 5.6607,
      "mean_token_accuracy": 0.15400536656379699,
      "num_tokens": 16341074.0,
      "step": 8850
    },
    {
      "entropy": 5.806599426269531,
      "epoch": 0.7439613526570048,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004951006283474457,
      "loss": 5.6525,
      "mean_token_accuracy": 0.15177395343780517,
      "num_tokens": 16350097.0,
      "step": 8855
    },
    {
      "entropy": 5.6168114185333256,
      "epoch": 0.7443814324721697,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004950944110769856,
      "loss": 5.5518,
      "mean_token_accuracy": 0.16385273784399032,
      "num_tokens": 16359274.0,
      "step": 8860
    },
    {
      "entropy": 5.655103158950806,
      "epoch": 0.7448015122873346,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004950881899076663,
      "loss": 5.5365,
      "mean_token_accuracy": 0.1682687819004059,
      "num_tokens": 16368445.0,
      "step": 8865
    },
    {
      "entropy": 5.878038167953491,
      "epoch": 0.7452215921024995,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004950819648395979,
      "loss": 5.6423,
      "mean_token_accuracy": 0.1565190926194191,
      "num_tokens": 16377689.0,
      "step": 8870
    },
    {
      "entropy": 5.772777366638183,
      "epoch": 0.7456416719176644,
      "grad_norm": 1.5390625,
      "learning_rate": 0.000495075735872891,
      "loss": 5.5949,
      "mean_token_accuracy": 0.1571029394865036,
      "num_tokens": 16386713.0,
      "step": 8875
    },
    {
      "entropy": 5.772426748275757,
      "epoch": 0.7460617517328293,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0004950695030076557,
      "loss": 5.6116,
      "mean_token_accuracy": 0.152817103266716,
      "num_tokens": 16395390.0,
      "step": 8880
    },
    {
      "entropy": 5.862038803100586,
      "epoch": 0.7464818315479941,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004950632662440027,
      "loss": 5.6909,
      "mean_token_accuracy": 0.15143778100609778,
      "num_tokens": 16404531.0,
      "step": 8885
    },
    {
      "entropy": 5.734190988540649,
      "epoch": 0.746901911363159,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004950570255820419,
      "loss": 5.5892,
      "mean_token_accuracy": 0.15557831078767775,
      "num_tokens": 16413649.0,
      "step": 8890
    },
    {
      "entropy": 5.679434442520142,
      "epoch": 0.7473219911783239,
      "grad_norm": 1.96875,
      "learning_rate": 0.0004950507810218843,
      "loss": 5.7074,
      "mean_token_accuracy": 0.14878712072968484,
      "num_tokens": 16423247.0,
      "step": 8895
    },
    {
      "entropy": 5.8338196754455565,
      "epoch": 0.7477420709934888,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004950445325636405,
      "loss": 5.649,
      "mean_token_accuracy": 0.14864842891693114,
      "num_tokens": 16432190.0,
      "step": 8900
    },
    {
      "entropy": 5.864486503601074,
      "epoch": 0.7481621508086537,
      "grad_norm": 2.15625,
      "learning_rate": 0.0004950382802074211,
      "loss": 5.6038,
      "mean_token_accuracy": 0.15934911370277405,
      "num_tokens": 16443091.0,
      "step": 8905
    },
    {
      "entropy": 5.711412811279297,
      "epoch": 0.7485822306238186,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004950320239533369,
      "loss": 5.6338,
      "mean_token_accuracy": 0.15670278668403625,
      "num_tokens": 16452077.0,
      "step": 8910
    },
    {
      "entropy": 5.8399248123168945,
      "epoch": 0.7490023104389834,
      "grad_norm": 1.859375,
      "learning_rate": 0.0004950257638014986,
      "loss": 5.7602,
      "mean_token_accuracy": 0.14474717825651168,
      "num_tokens": 16461893.0,
      "step": 8915
    },
    {
      "entropy": 5.905817985534668,
      "epoch": 0.7494223902541483,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004950194997520172,
      "loss": 5.5814,
      "mean_token_accuracy": 0.1564013957977295,
      "num_tokens": 16470904.0,
      "step": 8920
    },
    {
      "entropy": 5.779659080505371,
      "epoch": 0.7498424700693131,
      "grad_norm": 2.078125,
      "learning_rate": 0.0004950132318050037,
      "loss": 5.6502,
      "mean_token_accuracy": 0.14872682839632034,
      "num_tokens": 16480130.0,
      "step": 8925
    },
    {
      "entropy": 5.735926008224487,
      "epoch": 0.750262549884478,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004950069599605691,
      "loss": 5.7004,
      "mean_token_accuracy": 0.1561155989766121,
      "num_tokens": 16489485.0,
      "step": 8930
    },
    {
      "entropy": 5.7690812110900875,
      "epoch": 0.750682629699643,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004950006842188245,
      "loss": 5.6526,
      "mean_token_accuracy": 0.15704655051231384,
      "num_tokens": 16498529.0,
      "step": 8935
    },
    {
      "entropy": 5.776333618164062,
      "epoch": 0.7511027095148078,
      "grad_norm": 1.6875,
      "learning_rate": 0.000494994404579881,
      "loss": 5.5733,
      "mean_token_accuracy": 0.1540952205657959,
      "num_tokens": 16508094.0,
      "step": 8940
    },
    {
      "entropy": 5.810970735549927,
      "epoch": 0.7515227893299727,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00049498812104385,
      "loss": 5.6854,
      "mean_token_accuracy": 0.14840709492564202,
      "num_tokens": 16517620.0,
      "step": 8945
    },
    {
      "entropy": 5.717817068099976,
      "epoch": 0.7519428691451375,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0004949818336108425,
      "loss": 5.6743,
      "mean_token_accuracy": 0.1453969433903694,
      "num_tokens": 16526720.0,
      "step": 8950
    },
    {
      "entropy": 5.782077789306641,
      "epoch": 0.7523629489603024,
      "grad_norm": 1.8125,
      "learning_rate": 0.0004949755422809703,
      "loss": 5.6349,
      "mean_token_accuracy": 0.15297809839248658,
      "num_tokens": 16535979.0,
      "step": 8955
    },
    {
      "entropy": 5.789309072494507,
      "epoch": 0.7527830287754673,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0004949692470543446,
      "loss": 5.518,
      "mean_token_accuracy": 0.16405045241117477,
      "num_tokens": 16544538.0,
      "step": 8960
    },
    {
      "entropy": 5.700740957260132,
      "epoch": 0.7532031085906322,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004949629479310769,
      "loss": 5.6021,
      "mean_token_accuracy": 0.15271754264831544,
      "num_tokens": 16553962.0,
      "step": 8965
    },
    {
      "entropy": 5.7723414421081545,
      "epoch": 0.7536231884057971,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004949566449112788,
      "loss": 5.5341,
      "mean_token_accuracy": 0.1600716605782509,
      "num_tokens": 16562652.0,
      "step": 8970
    },
    {
      "entropy": 5.816875839233399,
      "epoch": 0.754043268220962,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004949503379950621,
      "loss": 5.6381,
      "mean_token_accuracy": 0.15340977758169175,
      "num_tokens": 16570887.0,
      "step": 8975
    },
    {
      "entropy": 5.825795125961304,
      "epoch": 0.7544633480361269,
      "grad_norm": 2.140625,
      "learning_rate": 0.0004949440271825385,
      "loss": 5.7669,
      "mean_token_accuracy": 0.15065207779407502,
      "num_tokens": 16581469.0,
      "step": 8980
    },
    {
      "entropy": 5.783386135101319,
      "epoch": 0.7548834278512917,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004949377124738196,
      "loss": 5.6376,
      "mean_token_accuracy": 0.15028667375445365,
      "num_tokens": 16590213.0,
      "step": 8985
    },
    {
      "entropy": 5.759113931655884,
      "epoch": 0.7553035076664566,
      "grad_norm": 1.5,
      "learning_rate": 0.0004949313938690174,
      "loss": 5.6301,
      "mean_token_accuracy": 0.1542770192027092,
      "num_tokens": 16598384.0,
      "step": 8990
    },
    {
      "entropy": 5.692385244369507,
      "epoch": 0.7557235874816215,
      "grad_norm": 1.953125,
      "learning_rate": 0.0004949250713682438,
      "loss": 5.6114,
      "mean_token_accuracy": 0.15893905013799667,
      "num_tokens": 16607670.0,
      "step": 8995
    },
    {
      "entropy": 5.830786418914795,
      "epoch": 0.7561436672967864,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004949187449716107,
      "loss": 5.6932,
      "mean_token_accuracy": 0.15244348496198654,
      "num_tokens": 16617560.0,
      "step": 9000
    },
    {
      "epoch": 0.7561436672967864,
      "eval_entropy": 5.638838640603793,
      "eval_loss": 5.66161584854126,
      "eval_mean_token_accuracy": 0.1600216546673523,
      "eval_num_tokens": 16617560.0,
      "eval_runtime": 27.3107,
      "eval_samples_per_second": 1368.184,
      "eval_steps_per_second": 171.032,
      "step": 9000
    },
    {
      "entropy": 5.768628692626953,
      "epoch": 0.7565637471119513,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004949124146792304,
      "loss": 5.6053,
      "mean_token_accuracy": 0.15778433308005332,
      "num_tokens": 16626038.0,
      "step": 9005
    },
    {
      "entropy": 5.731417560577393,
      "epoch": 0.7569838269271162,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004949060804912149,
      "loss": 5.6189,
      "mean_token_accuracy": 0.15456314831972123,
      "num_tokens": 16636490.0,
      "step": 9010
    },
    {
      "entropy": 5.799277114868164,
      "epoch": 0.7574039067422811,
      "grad_norm": 1.5,
      "learning_rate": 0.0004948997424076764,
      "loss": 5.6171,
      "mean_token_accuracy": 0.15356937795877457,
      "num_tokens": 16645369.0,
      "step": 9015
    },
    {
      "entropy": 5.897463607788086,
      "epoch": 0.7578239865574459,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004948934004287272,
      "loss": 5.7045,
      "mean_token_accuracy": 0.15171536356210708,
      "num_tokens": 16654348.0,
      "step": 9020
    },
    {
      "entropy": 5.868229866027832,
      "epoch": 0.7582440663726108,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004948870545544796,
      "loss": 5.6922,
      "mean_token_accuracy": 0.14805838614702224,
      "num_tokens": 16664009.0,
      "step": 9025
    },
    {
      "entropy": 5.773172187805176,
      "epoch": 0.7586641461877757,
      "grad_norm": 1.6171875,
      "learning_rate": 0.000494880704785046,
      "loss": 5.7196,
      "mean_token_accuracy": 0.14663708806037903,
      "num_tokens": 16674079.0,
      "step": 9030
    },
    {
      "entropy": 5.847867155075074,
      "epoch": 0.7590842260029406,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004948743511205392,
      "loss": 5.6426,
      "mean_token_accuracy": 0.1503751888871193,
      "num_tokens": 16683687.0,
      "step": 9035
    },
    {
      "entropy": 5.763606691360474,
      "epoch": 0.7595043058181055,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004948679935610712,
      "loss": 5.5392,
      "mean_token_accuracy": 0.1664429262280464,
      "num_tokens": 16693311.0,
      "step": 9040
    },
    {
      "entropy": 5.767797994613647,
      "epoch": 0.7599243856332704,
      "grad_norm": 1.34375,
      "learning_rate": 0.000494861632106755,
      "loss": 5.5897,
      "mean_token_accuracy": 0.15403168946504592,
      "num_tokens": 16702121.0,
      "step": 9045
    },
    {
      "entropy": 5.778069067001343,
      "epoch": 0.7603444654484351,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004948552667577033,
      "loss": 5.6211,
      "mean_token_accuracy": 0.1538814291357994,
      "num_tokens": 16711883.0,
      "step": 9050
    },
    {
      "entropy": 5.786386919021607,
      "epoch": 0.7607645452636,
      "grad_norm": 2.34375,
      "learning_rate": 0.0004948488975140286,
      "loss": 5.6847,
      "mean_token_accuracy": 0.1501935139298439,
      "num_tokens": 16721449.0,
      "step": 9055
    },
    {
      "entropy": 5.747914838790893,
      "epoch": 0.7611846250787649,
      "grad_norm": 1.75,
      "learning_rate": 0.000494842524375844,
      "loss": 5.6196,
      "mean_token_accuracy": 0.15546474158763884,
      "num_tokens": 16730068.0,
      "step": 9060
    },
    {
      "entropy": 5.748115968704224,
      "epoch": 0.7616047048939298,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004948361473432623,
      "loss": 5.6365,
      "mean_token_accuracy": 0.15265990495681764,
      "num_tokens": 16739970.0,
      "step": 9065
    },
    {
      "entropy": 5.84217677116394,
      "epoch": 0.7620247847090947,
      "grad_norm": 1.953125,
      "learning_rate": 0.0004948297664163964,
      "loss": 5.7024,
      "mean_token_accuracy": 0.1518349438905716,
      "num_tokens": 16749461.0,
      "step": 9070
    },
    {
      "entropy": 5.866002225875855,
      "epoch": 0.7624448645242596,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004948233815953593,
      "loss": 5.7617,
      "mean_token_accuracy": 0.15022132098674773,
      "num_tokens": 16758747.0,
      "step": 9075
    },
    {
      "entropy": 5.733387041091919,
      "epoch": 0.7628649443394245,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004948169928802643,
      "loss": 5.4962,
      "mean_token_accuracy": 0.1622622489929199,
      "num_tokens": 16767212.0,
      "step": 9080
    },
    {
      "entropy": 5.798452520370484,
      "epoch": 0.7632850241545893,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004948106002712245,
      "loss": 5.6462,
      "mean_token_accuracy": 0.15284293740987778,
      "num_tokens": 16776514.0,
      "step": 9085
    },
    {
      "entropy": 5.7934057235717775,
      "epoch": 0.7637051039697542,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004948042037683529,
      "loss": 5.6197,
      "mean_token_accuracy": 0.15112117901444436,
      "num_tokens": 16786310.0,
      "step": 9090
    },
    {
      "entropy": 5.78909387588501,
      "epoch": 0.7641251837849191,
      "grad_norm": 1.5,
      "learning_rate": 0.0004947978033717632,
      "loss": 5.6515,
      "mean_token_accuracy": 0.1501218557357788,
      "num_tokens": 16795551.0,
      "step": 9095
    },
    {
      "entropy": 5.803013610839844,
      "epoch": 0.764545263600084,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0004947913990815684,
      "loss": 5.6264,
      "mean_token_accuracy": 0.15242374390363694,
      "num_tokens": 16805099.0,
      "step": 9100
    },
    {
      "entropy": 5.776360607147216,
      "epoch": 0.7649653434152489,
      "grad_norm": 1.375,
      "learning_rate": 0.0004947849908978824,
      "loss": 5.6647,
      "mean_token_accuracy": 0.15367067903280257,
      "num_tokens": 16813963.0,
      "step": 9105
    },
    {
      "entropy": 5.838750600814819,
      "epoch": 0.7653854232304138,
      "grad_norm": 1.5,
      "learning_rate": 0.0004947785788208182,
      "loss": 5.6921,
      "mean_token_accuracy": 0.1523756965994835,
      "num_tokens": 16822814.0,
      "step": 9110
    },
    {
      "entropy": 5.851981353759766,
      "epoch": 0.7658055030455787,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004947721628504898,
      "loss": 5.7322,
      "mean_token_accuracy": 0.15000171959400177,
      "num_tokens": 16831906.0,
      "step": 9115
    },
    {
      "entropy": 5.700230932235717,
      "epoch": 0.7662255828607435,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004947657429870108,
      "loss": 5.5446,
      "mean_token_accuracy": 0.1595570996403694,
      "num_tokens": 16840050.0,
      "step": 9120
    },
    {
      "entropy": 5.705719661712647,
      "epoch": 0.7666456626759084,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004947593192304946,
      "loss": 5.5713,
      "mean_token_accuracy": 0.15321452915668488,
      "num_tokens": 16848404.0,
      "step": 9125
    },
    {
      "entropy": 5.759864425659179,
      "epoch": 0.7670657424910733,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004947528915810554,
      "loss": 5.5722,
      "mean_token_accuracy": 0.1579087942838669,
      "num_tokens": 16856568.0,
      "step": 9130
    },
    {
      "entropy": 5.756204128265381,
      "epoch": 0.7674858223062382,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004947464600388066,
      "loss": 5.6034,
      "mean_token_accuracy": 0.15562164336442946,
      "num_tokens": 16864936.0,
      "step": 9135
    },
    {
      "entropy": 5.9225013732910154,
      "epoch": 0.7679059021214031,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004947400246038627,
      "loss": 5.7416,
      "mean_token_accuracy": 0.14872185736894608,
      "num_tokens": 16874504.0,
      "step": 9140
    },
    {
      "entropy": 5.684078311920166,
      "epoch": 0.768325981936568,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004947335852763374,
      "loss": 5.4846,
      "mean_token_accuracy": 0.15627673268318176,
      "num_tokens": 16883365.0,
      "step": 9145
    },
    {
      "entropy": 5.801791000366211,
      "epoch": 0.7687460617517329,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004947271420563447,
      "loss": 5.7415,
      "mean_token_accuracy": 0.14208680838346482,
      "num_tokens": 16892701.0,
      "step": 9150
    },
    {
      "entropy": 5.769952487945557,
      "epoch": 0.7691661415668977,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004947206949439989,
      "loss": 5.553,
      "mean_token_accuracy": 0.15000357180833818,
      "num_tokens": 16901864.0,
      "step": 9155
    },
    {
      "entropy": 5.736040306091309,
      "epoch": 0.7695862213820626,
      "grad_norm": 1.4609375,
      "learning_rate": 0.000494714243939414,
      "loss": 5.608,
      "mean_token_accuracy": 0.15939729958772658,
      "num_tokens": 16910908.0,
      "step": 9160
    },
    {
      "entropy": 5.721309995651245,
      "epoch": 0.7700063011972275,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004947077890427045,
      "loss": 5.6325,
      "mean_token_accuracy": 0.15240202248096466,
      "num_tokens": 16920299.0,
      "step": 9165
    },
    {
      "entropy": 5.880091524124145,
      "epoch": 0.7704263810123924,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004947013302539846,
      "loss": 5.7698,
      "mean_token_accuracy": 0.1435159295797348,
      "num_tokens": 16930027.0,
      "step": 9170
    },
    {
      "entropy": 5.877429723739624,
      "epoch": 0.7708464608275573,
      "grad_norm": 2.84375,
      "learning_rate": 0.0004946948675733688,
      "loss": 5.6626,
      "mean_token_accuracy": 0.15365543216466904,
      "num_tokens": 16939387.0,
      "step": 9175
    },
    {
      "entropy": 5.743030834197998,
      "epoch": 0.7712665406427222,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004946884010009714,
      "loss": 5.6303,
      "mean_token_accuracy": 0.15409868359565734,
      "num_tokens": 16950024.0,
      "step": 9180
    },
    {
      "entropy": 5.677621221542358,
      "epoch": 0.771686620457887,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004946819305369073,
      "loss": 5.525,
      "mean_token_accuracy": 0.16152018159627915,
      "num_tokens": 16958219.0,
      "step": 9185
    },
    {
      "entropy": 5.728807067871093,
      "epoch": 0.7721067002730518,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004946754561812909,
      "loss": 5.5102,
      "mean_token_accuracy": 0.16226852238178252,
      "num_tokens": 16966829.0,
      "step": 9190
    },
    {
      "entropy": 5.733729887008667,
      "epoch": 0.7725267800882167,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004946689779342367,
      "loss": 5.6145,
      "mean_token_accuracy": 0.15137282758951187,
      "num_tokens": 16975585.0,
      "step": 9195
    },
    {
      "entropy": 5.743972539901733,
      "epoch": 0.7729468599033816,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004946624957958599,
      "loss": 5.5951,
      "mean_token_accuracy": 0.15704918652772903,
      "num_tokens": 16984848.0,
      "step": 9200
    },
    {
      "entropy": 5.737395524978638,
      "epoch": 0.7733669397185465,
      "grad_norm": 1.4765625,
      "learning_rate": 0.000494656009766275,
      "loss": 5.5839,
      "mean_token_accuracy": 0.16066163033246994,
      "num_tokens": 16993179.0,
      "step": 9205
    },
    {
      "entropy": 5.7287391185760494,
      "epoch": 0.7737870195337114,
      "grad_norm": 1.8828125,
      "learning_rate": 0.000494649519845597,
      "loss": 5.62,
      "mean_token_accuracy": 0.15363839864730836,
      "num_tokens": 17002563.0,
      "step": 9210
    },
    {
      "entropy": 5.80807056427002,
      "epoch": 0.7742070993488763,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004946430260339409,
      "loss": 5.6284,
      "mean_token_accuracy": 0.15289961099624633,
      "num_tokens": 17011805.0,
      "step": 9215
    },
    {
      "entropy": 5.779461622238159,
      "epoch": 0.7746271791640411,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004946365283314216,
      "loss": 5.5989,
      "mean_token_accuracy": 0.1561885267496109,
      "num_tokens": 17020398.0,
      "step": 9220
    },
    {
      "entropy": 5.694942331314087,
      "epoch": 0.775047258979206,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004946300267381545,
      "loss": 5.5753,
      "mean_token_accuracy": 0.15811678916215896,
      "num_tokens": 17030805.0,
      "step": 9225
    },
    {
      "entropy": 5.794308614730835,
      "epoch": 0.7754673387943709,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0004946235212542544,
      "loss": 5.597,
      "mean_token_accuracy": 0.1565954014658928,
      "num_tokens": 17040164.0,
      "step": 9230
    },
    {
      "entropy": 5.77291522026062,
      "epoch": 0.7758874186095358,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004946170118798367,
      "loss": 5.67,
      "mean_token_accuracy": 0.14761753827333451,
      "num_tokens": 17049519.0,
      "step": 9235
    },
    {
      "entropy": 5.802110385894776,
      "epoch": 0.7763074984247007,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004946104986150167,
      "loss": 5.5979,
      "mean_token_accuracy": 0.15635768324136734,
      "num_tokens": 17058042.0,
      "step": 9240
    },
    {
      "entropy": 5.77113904953003,
      "epoch": 0.7767275782398656,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004946039814599099,
      "loss": 5.624,
      "mean_token_accuracy": 0.15740283727645873,
      "num_tokens": 17067107.0,
      "step": 9245
    },
    {
      "entropy": 5.784947872161865,
      "epoch": 0.7771476580550305,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004945974604146316,
      "loss": 5.7176,
      "mean_token_accuracy": 0.15673644915223123,
      "num_tokens": 17076975.0,
      "step": 9250
    },
    {
      "entropy": 5.760613203048706,
      "epoch": 0.7775677378701953,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004945909354792974,
      "loss": 5.5674,
      "mean_token_accuracy": 0.15634535551071166,
      "num_tokens": 17086405.0,
      "step": 9255
    },
    {
      "entropy": 5.718491649627685,
      "epoch": 0.7779878176853602,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004945844066540229,
      "loss": 5.6449,
      "mean_token_accuracy": 0.1455477386713028,
      "num_tokens": 17095333.0,
      "step": 9260
    },
    {
      "entropy": 5.7345335483551025,
      "epoch": 0.7784078975005251,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004945778739389236,
      "loss": 5.684,
      "mean_token_accuracy": 0.150144724547863,
      "num_tokens": 17103631.0,
      "step": 9265
    },
    {
      "entropy": 5.794864368438721,
      "epoch": 0.77882797731569,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0004945713373341152,
      "loss": 5.5715,
      "mean_token_accuracy": 0.15383470058441162,
      "num_tokens": 17112612.0,
      "step": 9270
    },
    {
      "entropy": 5.823299360275269,
      "epoch": 0.7792480571308549,
      "grad_norm": 3.109375,
      "learning_rate": 0.0004945647968397139,
      "loss": 5.6242,
      "mean_token_accuracy": 0.15435410290956497,
      "num_tokens": 17121592.0,
      "step": 9275
    },
    {
      "entropy": 5.742037677764893,
      "epoch": 0.7796681369460198,
      "grad_norm": 1.75,
      "learning_rate": 0.0004945582524558352,
      "loss": 5.6497,
      "mean_token_accuracy": 0.15522131621837615,
      "num_tokens": 17131003.0,
      "step": 9280
    },
    {
      "entropy": 5.8117687702178955,
      "epoch": 0.7800882167611847,
      "grad_norm": 1.546875,
      "learning_rate": 0.000494551704182595,
      "loss": 5.6434,
      "mean_token_accuracy": 0.1501818783581257,
      "num_tokens": 17140013.0,
      "step": 9285
    },
    {
      "entropy": 5.904456377029419,
      "epoch": 0.7805082965763495,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004945451520201095,
      "loss": 5.7995,
      "mean_token_accuracy": 0.1440419152379036,
      "num_tokens": 17150406.0,
      "step": 9290
    },
    {
      "entropy": 5.804939079284668,
      "epoch": 0.7809283763915144,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004945385959684947,
      "loss": 5.643,
      "mean_token_accuracy": 0.15583974719047547,
      "num_tokens": 17159757.0,
      "step": 9295
    },
    {
      "entropy": 5.787489128112793,
      "epoch": 0.7813484562066793,
      "grad_norm": 1.859375,
      "learning_rate": 0.0004945320360278667,
      "loss": 5.6665,
      "mean_token_accuracy": 0.15916707813739778,
      "num_tokens": 17169317.0,
      "step": 9300
    },
    {
      "entropy": 5.814616775512695,
      "epoch": 0.7817685360218442,
      "grad_norm": 2.203125,
      "learning_rate": 0.0004945254721983416,
      "loss": 5.6676,
      "mean_token_accuracy": 0.1608291007578373,
      "num_tokens": 17178410.0,
      "step": 9305
    },
    {
      "entropy": 5.825447988510132,
      "epoch": 0.782188615837009,
      "grad_norm": 1.9296875,
      "learning_rate": 0.000494518904480036,
      "loss": 5.5898,
      "mean_token_accuracy": 0.15593952387571336,
      "num_tokens": 17186922.0,
      "step": 9310
    },
    {
      "entropy": 5.802917385101319,
      "epoch": 0.782608695652174,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004945123328730659,
      "loss": 5.6666,
      "mean_token_accuracy": 0.1478397913277149,
      "num_tokens": 17197125.0,
      "step": 9315
    },
    {
      "entropy": 5.739556694030762,
      "epoch": 0.7830287754673388,
      "grad_norm": 2.09375,
      "learning_rate": 0.000494505757377548,
      "loss": 5.597,
      "mean_token_accuracy": 0.15432032942771912,
      "num_tokens": 17206169.0,
      "step": 9320
    },
    {
      "entropy": 5.679258155822754,
      "epoch": 0.7834488552825036,
      "grad_norm": 1.8125,
      "learning_rate": 0.0004944991779935985,
      "loss": 5.538,
      "mean_token_accuracy": 0.15561339557170867,
      "num_tokens": 17214607.0,
      "step": 9325
    },
    {
      "entropy": 5.689110612869262,
      "epoch": 0.7838689350976685,
      "grad_norm": 1.7890625,
      "learning_rate": 0.000494492594721334,
      "loss": 5.5188,
      "mean_token_accuracy": 0.15666710287332536,
      "num_tokens": 17223616.0,
      "step": 9330
    },
    {
      "entropy": 5.764066362380982,
      "epoch": 0.7842890149128334,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004944860075608715,
      "loss": 5.607,
      "mean_token_accuracy": 0.15148743987083435,
      "num_tokens": 17232729.0,
      "step": 9335
    },
    {
      "entropy": 5.747860622406006,
      "epoch": 0.7847090947279983,
      "grad_norm": 1.84375,
      "learning_rate": 0.0004944794165123272,
      "loss": 5.6633,
      "mean_token_accuracy": 0.1552363008260727,
      "num_tokens": 17242128.0,
      "step": 9340
    },
    {
      "entropy": 5.7937798500061035,
      "epoch": 0.7851291745431632,
      "grad_norm": 1.8984375,
      "learning_rate": 0.000494472821575818,
      "loss": 5.572,
      "mean_token_accuracy": 0.15619071274995805,
      "num_tokens": 17250806.0,
      "step": 9345
    },
    {
      "entropy": 5.884761095046997,
      "epoch": 0.7855492543583281,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004944662227514609,
      "loss": 5.796,
      "mean_token_accuracy": 0.14290329068899155,
      "num_tokens": 17260888.0,
      "step": 9350
    },
    {
      "entropy": 5.765118503570557,
      "epoch": 0.785969334173493,
      "grad_norm": 1.921875,
      "learning_rate": 0.0004944596200393726,
      "loss": 5.5632,
      "mean_token_accuracy": 0.1571262151002884,
      "num_tokens": 17270387.0,
      "step": 9355
    },
    {
      "entropy": 5.790839576721192,
      "epoch": 0.7863894139886578,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004944530134396702,
      "loss": 5.5971,
      "mean_token_accuracy": 0.1504202328622341,
      "num_tokens": 17279866.0,
      "step": 9360
    },
    {
      "entropy": 5.764979267120362,
      "epoch": 0.7868094938038227,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004944464029524707,
      "loss": 5.5927,
      "mean_token_accuracy": 0.15793014466762542,
      "num_tokens": 17289233.0,
      "step": 9365
    },
    {
      "entropy": 5.78815860748291,
      "epoch": 0.7872295736189876,
      "grad_norm": 1.59375,
      "learning_rate": 0.000494439788577891,
      "loss": 5.6811,
      "mean_token_accuracy": 0.15233502089977263,
      "num_tokens": 17298705.0,
      "step": 9370
    },
    {
      "entropy": 5.803197431564331,
      "epoch": 0.7876496534341525,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0004944331703160486,
      "loss": 5.6262,
      "mean_token_accuracy": 0.1556847333908081,
      "num_tokens": 17307793.0,
      "step": 9375
    },
    {
      "entropy": 5.768749332427978,
      "epoch": 0.7880697332493174,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004944265481670605,
      "loss": 5.7109,
      "mean_token_accuracy": 0.14565183371305465,
      "num_tokens": 17318248.0,
      "step": 9380
    },
    {
      "entropy": 5.781773900985717,
      "epoch": 0.7884898130644823,
      "grad_norm": 2.328125,
      "learning_rate": 0.0004944199221310441,
      "loss": 5.6174,
      "mean_token_accuracy": 0.15221924781799318,
      "num_tokens": 17327281.0,
      "step": 9385
    },
    {
      "entropy": 5.823486852645874,
      "epoch": 0.7889098928796471,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004944132922081168,
      "loss": 5.6269,
      "mean_token_accuracy": 0.15858044922351838,
      "num_tokens": 17336805.0,
      "step": 9390
    },
    {
      "entropy": 5.736378765106201,
      "epoch": 0.789329972694812,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004944066583983961,
      "loss": 5.5747,
      "mean_token_accuracy": 0.15340599566698074,
      "num_tokens": 17346024.0,
      "step": 9395
    },
    {
      "entropy": 5.739033269882202,
      "epoch": 0.7897500525099769,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004944000207019992,
      "loss": 5.6743,
      "mean_token_accuracy": 0.15382137894630432,
      "num_tokens": 17355100.0,
      "step": 9400
    },
    {
      "entropy": 5.865094900131226,
      "epoch": 0.7901701323251418,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004943933791190441,
      "loss": 5.7171,
      "mean_token_accuracy": 0.14582199305295945,
      "num_tokens": 17364769.0,
      "step": 9405
    },
    {
      "entropy": 5.805460023880005,
      "epoch": 0.7905902121403067,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004943867336496482,
      "loss": 5.5593,
      "mean_token_accuracy": 0.156871497631073,
      "num_tokens": 17374082.0,
      "step": 9410
    },
    {
      "entropy": 5.704965591430664,
      "epoch": 0.7910102919554716,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004943800842939293,
      "loss": 5.6061,
      "mean_token_accuracy": 0.1573358103632927,
      "num_tokens": 17383570.0,
      "step": 9415
    },
    {
      "entropy": 5.762260246276855,
      "epoch": 0.7914303717706365,
      "grad_norm": 1.8671875,
      "learning_rate": 0.000494373431052005,
      "loss": 5.6136,
      "mean_token_accuracy": 0.15585907325148582,
      "num_tokens": 17392105.0,
      "step": 9420
    },
    {
      "entropy": 5.754047203063965,
      "epoch": 0.7918504515858013,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004943667739239935,
      "loss": 5.5694,
      "mean_token_accuracy": 0.1567780628800392,
      "num_tokens": 17401363.0,
      "step": 9425
    },
    {
      "entropy": 5.831571578979492,
      "epoch": 0.7922705314009661,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004943601129100125,
      "loss": 5.5907,
      "mean_token_accuracy": 0.15667269229888917,
      "num_tokens": 17411333.0,
      "step": 9430
    },
    {
      "entropy": 5.808466386795044,
      "epoch": 0.792690611216131,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004943534480101801,
      "loss": 5.6449,
      "mean_token_accuracy": 0.1564931645989418,
      "num_tokens": 17421162.0,
      "step": 9435
    },
    {
      "entropy": 5.764466953277588,
      "epoch": 0.793110691031296,
      "grad_norm": 2.625,
      "learning_rate": 0.0004943467792246142,
      "loss": 5.5917,
      "mean_token_accuracy": 0.1545848786830902,
      "num_tokens": 17430119.0,
      "step": 9440
    },
    {
      "entropy": 5.799530792236328,
      "epoch": 0.7935307708464608,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004943401065534332,
      "loss": 5.6028,
      "mean_token_accuracy": 0.1538163974881172,
      "num_tokens": 17439617.0,
      "step": 9445
    },
    {
      "entropy": 5.715310573577881,
      "epoch": 0.7939508506616257,
      "grad_norm": 2.0,
      "learning_rate": 0.0004943334299967551,
      "loss": 5.7132,
      "mean_token_accuracy": 0.14998757019639014,
      "num_tokens": 17448720.0,
      "step": 9450
    },
    {
      "entropy": 5.697250175476074,
      "epoch": 0.7943709304767906,
      "grad_norm": 1.84375,
      "learning_rate": 0.0004943267495546982,
      "loss": 5.5917,
      "mean_token_accuracy": 0.16172372549772263,
      "num_tokens": 17457458.0,
      "step": 9455
    },
    {
      "entropy": 5.81586275100708,
      "epoch": 0.7947910102919554,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004943200652273809,
      "loss": 5.6191,
      "mean_token_accuracy": 0.15560947209596634,
      "num_tokens": 17467095.0,
      "step": 9460
    },
    {
      "entropy": 5.75570330619812,
      "epoch": 0.7952110901071203,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004943133770149216,
      "loss": 5.657,
      "mean_token_accuracy": 0.14877953082323075,
      "num_tokens": 17476247.0,
      "step": 9465
    },
    {
      "entropy": 5.799701309204101,
      "epoch": 0.7956311699222852,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004943066849174386,
      "loss": 5.6635,
      "mean_token_accuracy": 0.1575782373547554,
      "num_tokens": 17486352.0,
      "step": 9470
    },
    {
      "entropy": 5.821471929550171,
      "epoch": 0.7960512497374501,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004942999889350508,
      "loss": 5.6216,
      "mean_token_accuracy": 0.15541253834962845,
      "num_tokens": 17495633.0,
      "step": 9475
    },
    {
      "entropy": 5.826534175872803,
      "epoch": 0.796471329552615,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0004942932890678765,
      "loss": 5.6665,
      "mean_token_accuracy": 0.14694230481982232,
      "num_tokens": 17504325.0,
      "step": 9480
    },
    {
      "entropy": 5.7822521209716795,
      "epoch": 0.7968914093677799,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004942865853160346,
      "loss": 5.6862,
      "mean_token_accuracy": 0.1536302775144577,
      "num_tokens": 17513265.0,
      "step": 9485
    },
    {
      "entropy": 5.799659156799317,
      "epoch": 0.7973114891829448,
      "grad_norm": 2.03125,
      "learning_rate": 0.0004942798776796436,
      "loss": 5.6811,
      "mean_token_accuracy": 0.1501378260552883,
      "num_tokens": 17522939.0,
      "step": 9490
    },
    {
      "entropy": 5.848496150970459,
      "epoch": 0.7977315689981096,
      "grad_norm": 1.890625,
      "learning_rate": 0.0004942731661588226,
      "loss": 5.699,
      "mean_token_accuracy": 0.1455768197774887,
      "num_tokens": 17532250.0,
      "step": 9495
    },
    {
      "entropy": 5.859736204147339,
      "epoch": 0.7981516488132745,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0004942664507536904,
      "loss": 5.7145,
      "mean_token_accuracy": 0.1528845690190792,
      "num_tokens": 17541368.0,
      "step": 9500
    },
    {
      "entropy": 5.775320148468017,
      "epoch": 0.7985717286284394,
      "grad_norm": 2.109375,
      "learning_rate": 0.0004942597314643659,
      "loss": 5.6473,
      "mean_token_accuracy": 0.15444121211767198,
      "num_tokens": 17550871.0,
      "step": 9505
    },
    {
      "entropy": 5.797231960296631,
      "epoch": 0.7989918084436043,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004942530082909681,
      "loss": 5.5808,
      "mean_token_accuracy": 0.16195199489593506,
      "num_tokens": 17559683.0,
      "step": 9510
    },
    {
      "entropy": 5.815419673919678,
      "epoch": 0.7994118882587692,
      "grad_norm": 2.578125,
      "learning_rate": 0.0004942462812336163,
      "loss": 5.5933,
      "mean_token_accuracy": 0.1550535589456558,
      "num_tokens": 17568877.0,
      "step": 9515
    },
    {
      "entropy": 5.879213762283325,
      "epoch": 0.7998319680739341,
      "grad_norm": 2.09375,
      "learning_rate": 0.0004942395502924293,
      "loss": 5.7466,
      "mean_token_accuracy": 0.14571947157382964,
      "num_tokens": 17578202.0,
      "step": 9520
    },
    {
      "entropy": 5.797115516662598,
      "epoch": 0.800252047889099,
      "grad_norm": 1.859375,
      "learning_rate": 0.0004942328154675268,
      "loss": 5.577,
      "mean_token_accuracy": 0.15988959819078447,
      "num_tokens": 17587342.0,
      "step": 9525
    },
    {
      "entropy": 5.750249338150025,
      "epoch": 0.8006721277042638,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0004942260767590277,
      "loss": 5.4334,
      "mean_token_accuracy": 0.16428305059671403,
      "num_tokens": 17595671.0,
      "step": 9530
    },
    {
      "entropy": 5.749629020690918,
      "epoch": 0.8010922075194287,
      "grad_norm": 2.3125,
      "learning_rate": 0.0004942193341670516,
      "loss": 5.7607,
      "mean_token_accuracy": 0.1483020693063736,
      "num_tokens": 17605649.0,
      "step": 9535
    },
    {
      "entropy": 5.763780164718628,
      "epoch": 0.8015122873345936,
      "grad_norm": 3.171875,
      "learning_rate": 0.0004942125876917178,
      "loss": 5.6478,
      "mean_token_accuracy": 0.1507388584315777,
      "num_tokens": 17615286.0,
      "step": 9540
    },
    {
      "entropy": 5.7505041599273685,
      "epoch": 0.8019323671497585,
      "grad_norm": 2.046875,
      "learning_rate": 0.000494205837333146,
      "loss": 5.636,
      "mean_token_accuracy": 0.1552906632423401,
      "num_tokens": 17624583.0,
      "step": 9545
    },
    {
      "entropy": 5.812001085281372,
      "epoch": 0.8023524469649234,
      "grad_norm": 1.84375,
      "learning_rate": 0.0004941990830914557,
      "loss": 5.6149,
      "mean_token_accuracy": 0.15935958474874495,
      "num_tokens": 17633894.0,
      "step": 9550
    },
    {
      "entropy": 5.8303131580352785,
      "epoch": 0.8027725267800883,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004941923249667663,
      "loss": 5.71,
      "mean_token_accuracy": 0.149199178814888,
      "num_tokens": 17643172.0,
      "step": 9555
    },
    {
      "entropy": 5.764499855041504,
      "epoch": 0.803192606595253,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004941855629591979,
      "loss": 5.5945,
      "mean_token_accuracy": 0.15305460765957832,
      "num_tokens": 17651901.0,
      "step": 9560
    },
    {
      "entropy": 5.755572938919068,
      "epoch": 0.8036126864104179,
      "grad_norm": 2.03125,
      "learning_rate": 0.0004941787970688701,
      "loss": 5.5957,
      "mean_token_accuracy": 0.15799273997545243,
      "num_tokens": 17660806.0,
      "step": 9565
    },
    {
      "entropy": 5.837345361709595,
      "epoch": 0.8040327662255828,
      "grad_norm": 3.4375,
      "learning_rate": 0.0004941720272959027,
      "loss": 5.6559,
      "mean_token_accuracy": 0.16126096546649932,
      "num_tokens": 17669157.0,
      "step": 9570
    },
    {
      "entropy": 5.719307231903076,
      "epoch": 0.8044528460407477,
      "grad_norm": 1.9375,
      "learning_rate": 0.0004941652536404157,
      "loss": 5.5632,
      "mean_token_accuracy": 0.15555428415536882,
      "num_tokens": 17678664.0,
      "step": 9575
    },
    {
      "entropy": 5.79267258644104,
      "epoch": 0.8048729258559126,
      "grad_norm": 4.625,
      "learning_rate": 0.0004941584761025291,
      "loss": 5.6044,
      "mean_token_accuracy": 0.15480156391859054,
      "num_tokens": 17688252.0,
      "step": 9580
    },
    {
      "entropy": 5.7286498069763185,
      "epoch": 0.8052930056710775,
      "grad_norm": 2.171875,
      "learning_rate": 0.000494151694682363,
      "loss": 5.6334,
      "mean_token_accuracy": 0.1567763715982437,
      "num_tokens": 17696473.0,
      "step": 9585
    },
    {
      "entropy": 5.752206754684448,
      "epoch": 0.8057130854862424,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004941449093800374,
      "loss": 5.6529,
      "mean_token_accuracy": 0.15852190256118776,
      "num_tokens": 17706177.0,
      "step": 9590
    },
    {
      "entropy": 5.7514872550964355,
      "epoch": 0.8061331653014072,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004941381201956726,
      "loss": 5.5015,
      "mean_token_accuracy": 0.16315654218196868,
      "num_tokens": 17715355.0,
      "step": 9595
    },
    {
      "entropy": 5.747640895843506,
      "epoch": 0.8065532451165721,
      "grad_norm": 1.90625,
      "learning_rate": 0.0004941313271293889,
      "loss": 5.6008,
      "mean_token_accuracy": 0.1622050292789936,
      "num_tokens": 17724345.0,
      "step": 9600
    },
    {
      "entropy": 5.7168864727020265,
      "epoch": 0.806973324931737,
      "grad_norm": 1.859375,
      "learning_rate": 0.0004941245301813065,
      "loss": 5.5143,
      "mean_token_accuracy": 0.16414132565259934,
      "num_tokens": 17732805.0,
      "step": 9605
    },
    {
      "entropy": 5.737041282653808,
      "epoch": 0.8073934047469019,
      "grad_norm": 1.75,
      "learning_rate": 0.0004941177293515459,
      "loss": 5.5799,
      "mean_token_accuracy": 0.157880100607872,
      "num_tokens": 17741963.0,
      "step": 9610
    },
    {
      "entropy": 5.705282735824585,
      "epoch": 0.8078134845620668,
      "grad_norm": 2.1875,
      "learning_rate": 0.0004941109246402275,
      "loss": 5.5938,
      "mean_token_accuracy": 0.151243394613266,
      "num_tokens": 17751858.0,
      "step": 9615
    },
    {
      "entropy": 5.866819715499878,
      "epoch": 0.8082335643772317,
      "grad_norm": 2.65625,
      "learning_rate": 0.0004941041160474721,
      "loss": 5.7059,
      "mean_token_accuracy": 0.1499703124165535,
      "num_tokens": 17761152.0,
      "step": 9620
    },
    {
      "entropy": 5.859082937240601,
      "epoch": 0.8086536441923966,
      "grad_norm": 1.921875,
      "learning_rate": 0.0004940973035733999,
      "loss": 5.6428,
      "mean_token_accuracy": 0.15314959064126016,
      "num_tokens": 17770493.0,
      "step": 9625
    },
    {
      "entropy": 5.887163877487183,
      "epoch": 0.8090737240075614,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004940904872181318,
      "loss": 5.6534,
      "mean_token_accuracy": 0.15107578188180923,
      "num_tokens": 17779871.0,
      "step": 9630
    },
    {
      "entropy": 5.8648134708404545,
      "epoch": 0.8094938038227263,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004940836669817887,
      "loss": 5.6633,
      "mean_token_accuracy": 0.1496044009923935,
      "num_tokens": 17788606.0,
      "step": 9635
    },
    {
      "entropy": 5.72215781211853,
      "epoch": 0.8099138836378912,
      "grad_norm": 4.96875,
      "learning_rate": 0.0004940768428644911,
      "loss": 5.5938,
      "mean_token_accuracy": 0.1555838018655777,
      "num_tokens": 17797458.0,
      "step": 9640
    },
    {
      "entropy": 5.666493082046509,
      "epoch": 0.8103339634530561,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004940700148663601,
      "loss": 5.5519,
      "mean_token_accuracy": 0.1551619812846184,
      "num_tokens": 17806902.0,
      "step": 9645
    },
    {
      "entropy": 5.774869537353515,
      "epoch": 0.810754043268221,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004940631829875165,
      "loss": 5.6878,
      "mean_token_accuracy": 0.1476306848227978,
      "num_tokens": 17816374.0,
      "step": 9650
    },
    {
      "entropy": 5.793194580078125,
      "epoch": 0.8111741230833859,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004940563472280815,
      "loss": 5.6585,
      "mean_token_accuracy": 0.15614343285560608,
      "num_tokens": 17825267.0,
      "step": 9655
    },
    {
      "entropy": 5.768211507797242,
      "epoch": 0.8115942028985508,
      "grad_norm": 2.078125,
      "learning_rate": 0.0004940495075881761,
      "loss": 5.5722,
      "mean_token_accuracy": 0.15710717141628266,
      "num_tokens": 17834027.0,
      "step": 9660
    },
    {
      "entropy": 5.728369903564453,
      "epoch": 0.8120142827137156,
      "grad_norm": 2.3125,
      "learning_rate": 0.0004940426640679214,
      "loss": 5.5753,
      "mean_token_accuracy": 0.15249805226922036,
      "num_tokens": 17843587.0,
      "step": 9665
    },
    {
      "entropy": 5.8064950466156,
      "epoch": 0.8124343625288805,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0004940358166674388,
      "loss": 5.6147,
      "mean_token_accuracy": 0.15565043687820435,
      "num_tokens": 17852284.0,
      "step": 9670
    },
    {
      "entropy": 5.845684242248535,
      "epoch": 0.8128544423440454,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004940289653868494,
      "loss": 5.6262,
      "mean_token_accuracy": 0.15545963644981384,
      "num_tokens": 17860896.0,
      "step": 9675
    },
    {
      "entropy": 5.703367519378662,
      "epoch": 0.8132745221592103,
      "grad_norm": 2.0625,
      "learning_rate": 0.0004940221102262747,
      "loss": 5.5942,
      "mean_token_accuracy": 0.15159963369369506,
      "num_tokens": 17870796.0,
      "step": 9680
    },
    {
      "entropy": 5.789257049560547,
      "epoch": 0.8136946019743752,
      "grad_norm": 2.859375,
      "learning_rate": 0.0004940152511858361,
      "loss": 5.6788,
      "mean_token_accuracy": 0.14908051788806914,
      "num_tokens": 17880016.0,
      "step": 9685
    },
    {
      "entropy": 5.866326093673706,
      "epoch": 0.81411468178954,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004940083882656551,
      "loss": 5.7101,
      "mean_token_accuracy": 0.14765079468488693,
      "num_tokens": 17889348.0,
      "step": 9690
    },
    {
      "entropy": 5.818946790695191,
      "epoch": 0.814534761604705,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004940015214658532,
      "loss": 5.5647,
      "mean_token_accuracy": 0.16243199706077577,
      "num_tokens": 17898392.0,
      "step": 9695
    },
    {
      "entropy": 5.796739816665649,
      "epoch": 0.8149548414198697,
      "grad_norm": 2.21875,
      "learning_rate": 0.0004939946507865522,
      "loss": 5.6743,
      "mean_token_accuracy": 0.1524437814950943,
      "num_tokens": 17907141.0,
      "step": 9700
    },
    {
      "entropy": 5.688076829910278,
      "epoch": 0.8153749212350346,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004939877762278737,
      "loss": 5.5548,
      "mean_token_accuracy": 0.15888291895389556,
      "num_tokens": 17915792.0,
      "step": 9705
    },
    {
      "entropy": 5.819617366790771,
      "epoch": 0.8157950010501995,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004939808977899396,
      "loss": 5.7061,
      "mean_token_accuracy": 0.14910464882850646,
      "num_tokens": 17925603.0,
      "step": 9710
    },
    {
      "entropy": 5.840267324447632,
      "epoch": 0.8162150808653644,
      "grad_norm": 1.78125,
      "learning_rate": 0.0004939740154728716,
      "loss": 5.6424,
      "mean_token_accuracy": 0.15840867161750793,
      "num_tokens": 17934436.0,
      "step": 9715
    },
    {
      "entropy": 5.819521951675415,
      "epoch": 0.8166351606805293,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004939671292767915,
      "loss": 5.595,
      "mean_token_accuracy": 0.16303292959928511,
      "num_tokens": 17942969.0,
      "step": 9720
    },
    {
      "entropy": 5.824506616592407,
      "epoch": 0.8170552404956942,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004939602392018216,
      "loss": 5.6782,
      "mean_token_accuracy": 0.15368429720401763,
      "num_tokens": 17952053.0,
      "step": 9725
    },
    {
      "entropy": 5.7638860702514645,
      "epoch": 0.817475320310859,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004939533452480839,
      "loss": 5.6463,
      "mean_token_accuracy": 0.15662853494286538,
      "num_tokens": 17960707.0,
      "step": 9730
    },
    {
      "entropy": 5.850724697113037,
      "epoch": 0.8178954001260239,
      "grad_norm": 2.21875,
      "learning_rate": 0.0004939464474157003,
      "loss": 5.7485,
      "mean_token_accuracy": 0.143310609459877,
      "num_tokens": 17971035.0,
      "step": 9735
    },
    {
      "entropy": 5.811854696273803,
      "epoch": 0.8183154799411888,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004939395457047932,
      "loss": 5.6147,
      "mean_token_accuracy": 0.1503463938832283,
      "num_tokens": 17980656.0,
      "step": 9740
    },
    {
      "entropy": 5.849935054779053,
      "epoch": 0.8187355597563537,
      "grad_norm": 1.765625,
      "learning_rate": 0.0004939326401154847,
      "loss": 5.6425,
      "mean_token_accuracy": 0.14753958508372306,
      "num_tokens": 17990977.0,
      "step": 9745
    },
    {
      "entropy": 5.72039909362793,
      "epoch": 0.8191556395715186,
      "grad_norm": 1.921875,
      "learning_rate": 0.0004939257306478973,
      "loss": 5.6386,
      "mean_token_accuracy": 0.15436331778764725,
      "num_tokens": 18000186.0,
      "step": 9750
    },
    {
      "entropy": 5.743032836914063,
      "epoch": 0.8195757193866835,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004939188173021532,
      "loss": 5.6294,
      "mean_token_accuracy": 0.15535037443041802,
      "num_tokens": 18010269.0,
      "step": 9755
    },
    {
      "entropy": 5.837440872192383,
      "epoch": 0.8199957992018484,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004939119000783751,
      "loss": 5.5548,
      "mean_token_accuracy": 0.1628822222352028,
      "num_tokens": 18018461.0,
      "step": 9760
    },
    {
      "entropy": 5.726272964477539,
      "epoch": 0.8204158790170132,
      "grad_norm": 1.625,
      "learning_rate": 0.0004939049789766855,
      "loss": 5.5727,
      "mean_token_accuracy": 0.1559150367975235,
      "num_tokens": 18027173.0,
      "step": 9765
    },
    {
      "entropy": 5.681005191802979,
      "epoch": 0.8208359588321781,
      "grad_norm": 1.953125,
      "learning_rate": 0.0004938980539972068,
      "loss": 5.6704,
      "mean_token_accuracy": 0.15305837988853455,
      "num_tokens": 18036791.0,
      "step": 9770
    },
    {
      "entropy": 5.741180467605591,
      "epoch": 0.821256038647343,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004938911251400617,
      "loss": 5.6164,
      "mean_token_accuracy": 0.15979565382003785,
      "num_tokens": 18046908.0,
      "step": 9775
    },
    {
      "entropy": 5.690343570709229,
      "epoch": 0.8216761184625079,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004938841924053731,
      "loss": 5.5305,
      "mean_token_accuracy": 0.166619610786438,
      "num_tokens": 18055825.0,
      "step": 9780
    },
    {
      "entropy": 5.83678789138794,
      "epoch": 0.8220961982776728,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004938772557932637,
      "loss": 5.7218,
      "mean_token_accuracy": 0.1443665809929371,
      "num_tokens": 18065334.0,
      "step": 9785
    },
    {
      "entropy": 5.830995225906372,
      "epoch": 0.8225162780928377,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004938703153038565,
      "loss": 5.585,
      "mean_token_accuracy": 0.15924161821603774,
      "num_tokens": 18073999.0,
      "step": 9790
    },
    {
      "entropy": 5.664001035690307,
      "epoch": 0.8229363579080026,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004938633709372744,
      "loss": 5.6106,
      "mean_token_accuracy": 0.15344761908054352,
      "num_tokens": 18083665.0,
      "step": 9795
    },
    {
      "entropy": 5.735060787200927,
      "epoch": 0.8233564377231674,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004938564226936403,
      "loss": 5.6081,
      "mean_token_accuracy": 0.15541263967752456,
      "num_tokens": 18092501.0,
      "step": 9800
    },
    {
      "entropy": 5.726347208023071,
      "epoch": 0.8237765175383323,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004938494705730773,
      "loss": 5.5879,
      "mean_token_accuracy": 0.15256380438804626,
      "num_tokens": 18101320.0,
      "step": 9805
    },
    {
      "entropy": 5.76941032409668,
      "epoch": 0.8241965973534972,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004938425145757087,
      "loss": 5.6155,
      "mean_token_accuracy": 0.15062929540872574,
      "num_tokens": 18110190.0,
      "step": 9810
    },
    {
      "entropy": 5.77293291091919,
      "epoch": 0.824616677168662,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004938355547016577,
      "loss": 5.6121,
      "mean_token_accuracy": 0.15612404122948648,
      "num_tokens": 18119301.0,
      "step": 9815
    },
    {
      "entropy": 5.836658191680908,
      "epoch": 0.825036756983827,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004938285909510474,
      "loss": 5.6581,
      "mean_token_accuracy": 0.15127312690019606,
      "num_tokens": 18128959.0,
      "step": 9820
    },
    {
      "entropy": 5.728819894790649,
      "epoch": 0.8254568367989918,
      "grad_norm": 1.859375,
      "learning_rate": 0.0004938216233240014,
      "loss": 5.6313,
      "mean_token_accuracy": 0.15713003724813462,
      "num_tokens": 18138156.0,
      "step": 9825
    },
    {
      "entropy": 5.834373140335083,
      "epoch": 0.8258769166141567,
      "grad_norm": 1.578125,
      "learning_rate": 0.000493814651820643,
      "loss": 5.6643,
      "mean_token_accuracy": 0.14810227751731872,
      "num_tokens": 18147244.0,
      "step": 9830
    },
    {
      "entropy": 5.870449686050415,
      "epoch": 0.8262969964293215,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004938076764410956,
      "loss": 5.6655,
      "mean_token_accuracy": 0.15398952662944793,
      "num_tokens": 18156040.0,
      "step": 9835
    },
    {
      "entropy": 5.834972286224366,
      "epoch": 0.8267170762444864,
      "grad_norm": 1.8359375,
      "learning_rate": 0.000493800697185483,
      "loss": 5.5916,
      "mean_token_accuracy": 0.14924859553575515,
      "num_tokens": 18165210.0,
      "step": 9840
    },
    {
      "entropy": 5.787695646286011,
      "epoch": 0.8271371560596513,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004937937140539288,
      "loss": 5.6591,
      "mean_token_accuracy": 0.15217285007238388,
      "num_tokens": 18174841.0,
      "step": 9845
    },
    {
      "entropy": 5.705031299591065,
      "epoch": 0.8275572358748162,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0004937867270465564,
      "loss": 5.5282,
      "mean_token_accuracy": 0.1546058475971222,
      "num_tokens": 18184112.0,
      "step": 9850
    },
    {
      "entropy": 5.810121345520019,
      "epoch": 0.8279773156899811,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004937797361634899,
      "loss": 5.7327,
      "mean_token_accuracy": 0.15010684877634048,
      "num_tokens": 18193564.0,
      "step": 9855
    },
    {
      "entropy": 5.696271514892578,
      "epoch": 0.828397395505146,
      "grad_norm": 1.5859375,
      "learning_rate": 0.000493772741404853,
      "loss": 5.4681,
      "mean_token_accuracy": 0.1613880753517151,
      "num_tokens": 18202836.0,
      "step": 9860
    },
    {
      "entropy": 5.766516923904419,
      "epoch": 0.8288174753203108,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004937657427707698,
      "loss": 5.5918,
      "mean_token_accuracy": 0.16525972336530687,
      "num_tokens": 18212098.0,
      "step": 9865
    },
    {
      "entropy": 5.790452575683593,
      "epoch": 0.8292375551354757,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0004937587402613639,
      "loss": 5.6181,
      "mean_token_accuracy": 0.15452115386724471,
      "num_tokens": 18221541.0,
      "step": 9870
    },
    {
      "entropy": 5.693503141403198,
      "epoch": 0.8296576349506406,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004937517338767597,
      "loss": 5.6181,
      "mean_token_accuracy": 0.14959986433386802,
      "num_tokens": 18231015.0,
      "step": 9875
    },
    {
      "entropy": 5.776920127868652,
      "epoch": 0.8300777147658055,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004937447236170811,
      "loss": 5.6442,
      "mean_token_accuracy": 0.15097325891256333,
      "num_tokens": 18239729.0,
      "step": 9880
    },
    {
      "entropy": 5.846532917022705,
      "epoch": 0.8304977945809704,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004937377094824523,
      "loss": 5.6934,
      "mean_token_accuracy": 0.14850014224648475,
      "num_tokens": 18249773.0,
      "step": 9885
    },
    {
      "entropy": 5.829236078262329,
      "epoch": 0.8309178743961353,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004937306914729977,
      "loss": 5.6466,
      "mean_token_accuracy": 0.14962287619709969,
      "num_tokens": 18259179.0,
      "step": 9890
    },
    {
      "entropy": 5.640655469894409,
      "epoch": 0.8313379542113002,
      "grad_norm": 1.625,
      "learning_rate": 0.0004937236695888416,
      "loss": 5.5285,
      "mean_token_accuracy": 0.16359366923570634,
      "num_tokens": 18268164.0,
      "step": 9895
    },
    {
      "entropy": 5.7921144485473635,
      "epoch": 0.831758034026465,
      "grad_norm": 1.765625,
      "learning_rate": 0.0004937166438301082,
      "loss": 5.7047,
      "mean_token_accuracy": 0.15264711230993272,
      "num_tokens": 18276259.0,
      "step": 9900
    },
    {
      "entropy": 5.795594167709351,
      "epoch": 0.8321781138416299,
      "grad_norm": 1.953125,
      "learning_rate": 0.0004937096141969221,
      "loss": 5.6749,
      "mean_token_accuracy": 0.15689299032092094,
      "num_tokens": 18285729.0,
      "step": 9905
    },
    {
      "entropy": 5.905335474014282,
      "epoch": 0.8325981936567948,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004937025806894077,
      "loss": 5.8351,
      "mean_token_accuracy": 0.139414294809103,
      "num_tokens": 18295873.0,
      "step": 9910
    },
    {
      "entropy": 5.881864213943482,
      "epoch": 0.8330182734719597,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0004936955433076899,
      "loss": 5.6606,
      "mean_token_accuracy": 0.15778864026069642,
      "num_tokens": 18305135.0,
      "step": 9915
    },
    {
      "entropy": 5.854172706604004,
      "epoch": 0.8334383532871246,
      "grad_norm": 2.015625,
      "learning_rate": 0.000493688502051893,
      "loss": 5.7077,
      "mean_token_accuracy": 0.15348225384950637,
      "num_tokens": 18314251.0,
      "step": 9920
    },
    {
      "entropy": 5.7477837085723875,
      "epoch": 0.8338584331022895,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004936814569221421,
      "loss": 5.5373,
      "mean_token_accuracy": 0.16807708740234376,
      "num_tokens": 18322863.0,
      "step": 9925
    },
    {
      "entropy": 5.710943984985351,
      "epoch": 0.8342785129174544,
      "grad_norm": 2.046875,
      "learning_rate": 0.0004936744079185616,
      "loss": 5.5515,
      "mean_token_accuracy": 0.15136271864175796,
      "num_tokens": 18332129.0,
      "step": 9930
    },
    {
      "entropy": 5.780642127990722,
      "epoch": 0.8346985927326191,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004936673550412767,
      "loss": 5.6502,
      "mean_token_accuracy": 0.15562164932489395,
      "num_tokens": 18341457.0,
      "step": 9935
    },
    {
      "entropy": 5.817247200012207,
      "epoch": 0.835118672547784,
      "grad_norm": 1.515625,
      "learning_rate": 0.000493660298290412,
      "loss": 5.6352,
      "mean_token_accuracy": 0.14964016079902648,
      "num_tokens": 18351397.0,
      "step": 9940
    },
    {
      "entropy": 5.7535981178283695,
      "epoch": 0.8355387523629489,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004936532376660929,
      "loss": 5.5601,
      "mean_token_accuracy": 0.15686817914247514,
      "num_tokens": 18360005.0,
      "step": 9945
    },
    {
      "entropy": 5.856048727035523,
      "epoch": 0.8359588321781138,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004936461731684442,
      "loss": 5.6621,
      "mean_token_accuracy": 0.15645960420370103,
      "num_tokens": 18369707.0,
      "step": 9950
    },
    {
      "entropy": 5.904961681365966,
      "epoch": 0.8363789119932787,
      "grad_norm": 2.875,
      "learning_rate": 0.0004936391047975912,
      "loss": 5.7951,
      "mean_token_accuracy": 0.14975984990596772,
      "num_tokens": 18379514.0,
      "step": 9955
    },
    {
      "entropy": 5.728058910369873,
      "epoch": 0.8367989918084436,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004936320325536589,
      "loss": 5.4989,
      "mean_token_accuracy": 0.15699619948863983,
      "num_tokens": 18388854.0,
      "step": 9960
    },
    {
      "entropy": 5.80841555595398,
      "epoch": 0.8372190716236085,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004936249564367729,
      "loss": 5.6713,
      "mean_token_accuracy": 0.15378804504871368,
      "num_tokens": 18397806.0,
      "step": 9965
    },
    {
      "entropy": 5.713347768783569,
      "epoch": 0.8376391514387733,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004936178764470583,
      "loss": 5.5296,
      "mean_token_accuracy": 0.1534825384616852,
      "num_tokens": 18406645.0,
      "step": 9970
    },
    {
      "entropy": 5.6835887908935545,
      "epoch": 0.8380592312539382,
      "grad_norm": 1.625,
      "learning_rate": 0.0004936107925846405,
      "loss": 5.5458,
      "mean_token_accuracy": 0.15742876827716829,
      "num_tokens": 18415730.0,
      "step": 9975
    },
    {
      "entropy": 5.7930676460266115,
      "epoch": 0.8384793110691031,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004936037048496452,
      "loss": 5.6499,
      "mean_token_accuracy": 0.1560029774904251,
      "num_tokens": 18424638.0,
      "step": 9980
    },
    {
      "entropy": 5.799233627319336,
      "epoch": 0.838899390884268,
      "grad_norm": 1.75,
      "learning_rate": 0.0004935966132421977,
      "loss": 5.6852,
      "mean_token_accuracy": 0.14873172864317893,
      "num_tokens": 18434090.0,
      "step": 9985
    },
    {
      "entropy": 5.67788405418396,
      "epoch": 0.8393194706994329,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004935895177624239,
      "loss": 5.5532,
      "mean_token_accuracy": 0.1584454283118248,
      "num_tokens": 18442965.0,
      "step": 9990
    },
    {
      "entropy": 5.811638116836548,
      "epoch": 0.8397395505145978,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004935824184104493,
      "loss": 5.5789,
      "mean_token_accuracy": 0.1549446702003479,
      "num_tokens": 18451553.0,
      "step": 9995
    },
    {
      "entropy": 5.778439950942993,
      "epoch": 0.8401596303297627,
      "grad_norm": 2.046875,
      "learning_rate": 0.0004935753151863997,
      "loss": 5.6168,
      "mean_token_accuracy": 0.15213518738746643,
      "num_tokens": 18461325.0,
      "step": 10000
    },
    {
      "entropy": 5.781700515747071,
      "epoch": 0.8405797101449275,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004935682080904009,
      "loss": 5.6206,
      "mean_token_accuracy": 0.16005493104457855,
      "num_tokens": 18469977.0,
      "step": 10005
    },
    {
      "entropy": 5.758043384552002,
      "epoch": 0.8409997899600924,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004935610971225789,
      "loss": 5.5862,
      "mean_token_accuracy": 0.1575999900698662,
      "num_tokens": 18479534.0,
      "step": 10010
    },
    {
      "entropy": 5.688985300064087,
      "epoch": 0.8414198697752573,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004935539822830597,
      "loss": 5.6943,
      "mean_token_accuracy": 0.14613962322473525,
      "num_tokens": 18488800.0,
      "step": 10015
    },
    {
      "entropy": 5.7671685218811035,
      "epoch": 0.8418399495904222,
      "grad_norm": 1.5078125,
      "learning_rate": 0.000493546863571969,
      "loss": 5.6557,
      "mean_token_accuracy": 0.1554260805249214,
      "num_tokens": 18498083.0,
      "step": 10020
    },
    {
      "entropy": 5.817663335800171,
      "epoch": 0.8422600294055871,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004935397409894333,
      "loss": 5.6099,
      "mean_token_accuracy": 0.14785023778676987,
      "num_tokens": 18508265.0,
      "step": 10025
    },
    {
      "entropy": 5.810160112380982,
      "epoch": 0.842680109220752,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004935326145355787,
      "loss": 5.6445,
      "mean_token_accuracy": 0.15227773338556289,
      "num_tokens": 18517283.0,
      "step": 10030
    },
    {
      "entropy": 5.775955724716186,
      "epoch": 0.8431001890359168,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004935254842105311,
      "loss": 5.6577,
      "mean_token_accuracy": 0.158540278673172,
      "num_tokens": 18526482.0,
      "step": 10035
    },
    {
      "entropy": 5.6810362339019775,
      "epoch": 0.8435202688510817,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004935183500144173,
      "loss": 5.4966,
      "mean_token_accuracy": 0.16830503046512604,
      "num_tokens": 18536150.0,
      "step": 10040
    },
    {
      "entropy": 5.821089220046997,
      "epoch": 0.8439403486662466,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004935112119473634,
      "loss": 5.6978,
      "mean_token_accuracy": 0.15066490024328233,
      "num_tokens": 18545168.0,
      "step": 10045
    },
    {
      "entropy": 5.785538864135742,
      "epoch": 0.8443604284814115,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004935040700094959,
      "loss": 5.6256,
      "mean_token_accuracy": 0.15842598676681519,
      "num_tokens": 18553363.0,
      "step": 10050
    },
    {
      "entropy": 5.740128374099731,
      "epoch": 0.8447805082965764,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004934969242009412,
      "loss": 5.5817,
      "mean_token_accuracy": 0.15919749736785888,
      "num_tokens": 18562546.0,
      "step": 10055
    },
    {
      "entropy": 5.705161762237549,
      "epoch": 0.8452005881117413,
      "grad_norm": 1.96875,
      "learning_rate": 0.0004934897745218262,
      "loss": 5.6338,
      "mean_token_accuracy": 0.15164628773927688,
      "num_tokens": 18572149.0,
      "step": 10060
    },
    {
      "entropy": 5.729842662811279,
      "epoch": 0.8456206679269062,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004934826209722772,
      "loss": 5.5077,
      "mean_token_accuracy": 0.1547485738992691,
      "num_tokens": 18580842.0,
      "step": 10065
    },
    {
      "entropy": 5.7600654602050785,
      "epoch": 0.8460407477420709,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0004934754635524211,
      "loss": 5.6115,
      "mean_token_accuracy": 0.15985522121191026,
      "num_tokens": 18589765.0,
      "step": 10070
    },
    {
      "entropy": 5.762496757507324,
      "epoch": 0.8464608275572358,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004934683022623847,
      "loss": 5.6401,
      "mean_token_accuracy": 0.15011052042245865,
      "num_tokens": 18599532.0,
      "step": 10075
    },
    {
      "entropy": 5.685576343536377,
      "epoch": 0.8468809073724007,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004934611371022947,
      "loss": 5.5281,
      "mean_token_accuracy": 0.16043669879436492,
      "num_tokens": 18608438.0,
      "step": 10080
    },
    {
      "entropy": 5.787454748153687,
      "epoch": 0.8473009871875656,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004934539680722783,
      "loss": 5.6793,
      "mean_token_accuracy": 0.1521899461746216,
      "num_tokens": 18617313.0,
      "step": 10085
    },
    {
      "entropy": 5.731491613388061,
      "epoch": 0.8477210670027305,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004934467951724622,
      "loss": 5.5123,
      "mean_token_accuracy": 0.1605857416987419,
      "num_tokens": 18625880.0,
      "step": 10090
    },
    {
      "entropy": 5.730096912384033,
      "epoch": 0.8481411468178954,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004934396184029737,
      "loss": 5.6046,
      "mean_token_accuracy": 0.15527373552322388,
      "num_tokens": 18635727.0,
      "step": 10095
    },
    {
      "entropy": 5.769042825698852,
      "epoch": 0.8485612266330603,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004934324377639398,
      "loss": 5.662,
      "mean_token_accuracy": 0.15308721214532853,
      "num_tokens": 18645619.0,
      "step": 10100
    },
    {
      "entropy": 5.736938428878784,
      "epoch": 0.8489813064482251,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004934252532554878,
      "loss": 5.5544,
      "mean_token_accuracy": 0.1575164332985878,
      "num_tokens": 18654901.0,
      "step": 10105
    },
    {
      "entropy": 5.844228029251099,
      "epoch": 0.84940138626339,
      "grad_norm": 2.171875,
      "learning_rate": 0.0004934180648777449,
      "loss": 5.8122,
      "mean_token_accuracy": 0.15224194526672363,
      "num_tokens": 18664523.0,
      "step": 10110
    },
    {
      "entropy": 5.8306056499481205,
      "epoch": 0.8498214660785549,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004934108726308384,
      "loss": 5.6362,
      "mean_token_accuracy": 0.14759955704212188,
      "num_tokens": 18673685.0,
      "step": 10115
    },
    {
      "entropy": 5.767707586288452,
      "epoch": 0.8502415458937198,
      "grad_norm": 1.78125,
      "learning_rate": 0.0004934036765148958,
      "loss": 5.6142,
      "mean_token_accuracy": 0.14617660790681838,
      "num_tokens": 18682889.0,
      "step": 10120
    },
    {
      "entropy": 5.758945083618164,
      "epoch": 0.8506616257088847,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004933964765300446,
      "loss": 5.6533,
      "mean_token_accuracy": 0.15302490592002868,
      "num_tokens": 18692978.0,
      "step": 10125
    },
    {
      "entropy": 5.750522422790527,
      "epoch": 0.8510817055240496,
      "grad_norm": 1.7265625,
      "learning_rate": 0.000493389272676412,
      "loss": 5.5705,
      "mean_token_accuracy": 0.1600403904914856,
      "num_tokens": 18701846.0,
      "step": 10130
    },
    {
      "entropy": 5.79836106300354,
      "epoch": 0.8515017853392145,
      "grad_norm": 1.859375,
      "learning_rate": 0.0004933820649541262,
      "loss": 5.5935,
      "mean_token_accuracy": 0.16571370661258697,
      "num_tokens": 18711492.0,
      "step": 10135
    },
    {
      "entropy": 5.670457267761231,
      "epoch": 0.8519218651543793,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004933748533633145,
      "loss": 5.5244,
      "mean_token_accuracy": 0.16938419491052628,
      "num_tokens": 18720407.0,
      "step": 10140
    },
    {
      "entropy": 5.713903999328613,
      "epoch": 0.8523419449695442,
      "grad_norm": 1.921875,
      "learning_rate": 0.0004933676379041045,
      "loss": 5.5771,
      "mean_token_accuracy": 0.1604509249329567,
      "num_tokens": 18729968.0,
      "step": 10145
    },
    {
      "entropy": 5.8019672393798825,
      "epoch": 0.8527620247847091,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004933604185766245,
      "loss": 5.6939,
      "mean_token_accuracy": 0.1484614282846451,
      "num_tokens": 18739525.0,
      "step": 10150
    },
    {
      "entropy": 5.755314731597901,
      "epoch": 0.853182104599874,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004933531953810019,
      "loss": 5.5984,
      "mean_token_accuracy": 0.15788624286651612,
      "num_tokens": 18749087.0,
      "step": 10155
    },
    {
      "entropy": 5.818537855148316,
      "epoch": 0.8536021844150389,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004933459683173652,
      "loss": 5.6259,
      "mean_token_accuracy": 0.1562245801091194,
      "num_tokens": 18758174.0,
      "step": 10160
    },
    {
      "entropy": 5.796029376983642,
      "epoch": 0.8540222642302038,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004933387373858418,
      "loss": 5.6637,
      "mean_token_accuracy": 0.15472310557961463,
      "num_tokens": 18767679.0,
      "step": 10165
    },
    {
      "entropy": 5.743490171432495,
      "epoch": 0.8544423440453687,
      "grad_norm": 2.140625,
      "learning_rate": 0.0004933315025865602,
      "loss": 5.5875,
      "mean_token_accuracy": 0.15303896814584733,
      "num_tokens": 18776749.0,
      "step": 10170
    },
    {
      "entropy": 5.814285850524902,
      "epoch": 0.8548624238605335,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004933242639196485,
      "loss": 5.7667,
      "mean_token_accuracy": 0.14032013416290284,
      "num_tokens": 18786313.0,
      "step": 10175
    },
    {
      "entropy": 5.87596173286438,
      "epoch": 0.8552825036756984,
      "grad_norm": 2.171875,
      "learning_rate": 0.0004933170213852348,
      "loss": 5.632,
      "mean_token_accuracy": 0.15269517451524733,
      "num_tokens": 18795340.0,
      "step": 10180
    },
    {
      "entropy": 5.749491739273071,
      "epoch": 0.8557025834908633,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004933097749834476,
      "loss": 5.5675,
      "mean_token_accuracy": 0.1547122523188591,
      "num_tokens": 18804114.0,
      "step": 10185
    },
    {
      "entropy": 5.750264501571655,
      "epoch": 0.8561226633060282,
      "grad_norm": 1.9921875,
      "learning_rate": 0.000493302524714415,
      "loss": 5.5798,
      "mean_token_accuracy": 0.1528068631887436,
      "num_tokens": 18813797.0,
      "step": 10190
    },
    {
      "entropy": 5.751224422454834,
      "epoch": 0.856542743121193,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004932952705782657,
      "loss": 5.631,
      "mean_token_accuracy": 0.15325366854667663,
      "num_tokens": 18822410.0,
      "step": 10195
    },
    {
      "entropy": 5.709691667556763,
      "epoch": 0.856962822936358,
      "grad_norm": 1.546875,
      "learning_rate": 0.000493288012575128,
      "loss": 5.5632,
      "mean_token_accuracy": 0.1608235776424408,
      "num_tokens": 18832091.0,
      "step": 10200
    },
    {
      "entropy": 5.747391223907471,
      "epoch": 0.8573829027515227,
      "grad_norm": 1.890625,
      "learning_rate": 0.0004932807507051307,
      "loss": 5.5981,
      "mean_token_accuracy": 0.14849429577589035,
      "num_tokens": 18841298.0,
      "step": 10205
    },
    {
      "entropy": 5.7065764427185055,
      "epoch": 0.8578029825666876,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004932734849684022,
      "loss": 5.5663,
      "mean_token_accuracy": 0.15466026067733765,
      "num_tokens": 18849683.0,
      "step": 10210
    },
    {
      "entropy": 5.744755029678345,
      "epoch": 0.8582230623818525,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0004932662153650712,
      "loss": 5.5082,
      "mean_token_accuracy": 0.15981326550245284,
      "num_tokens": 18858832.0,
      "step": 10215
    },
    {
      "entropy": 5.647493553161621,
      "epoch": 0.8586431421970174,
      "grad_norm": 2.171875,
      "learning_rate": 0.0004932589418952668,
      "loss": 5.5438,
      "mean_token_accuracy": 0.15799610018730165,
      "num_tokens": 18867652.0,
      "step": 10220
    },
    {
      "entropy": 5.78511266708374,
      "epoch": 0.8590632220121823,
      "grad_norm": 1.984375,
      "learning_rate": 0.0004932516645591175,
      "loss": 5.6315,
      "mean_token_accuracy": 0.1554282858967781,
      "num_tokens": 18877282.0,
      "step": 10225
    },
    {
      "entropy": 5.833698844909668,
      "epoch": 0.8594833018273472,
      "grad_norm": 1.765625,
      "learning_rate": 0.0004932443833567524,
      "loss": 5.7462,
      "mean_token_accuracy": 0.1505351722240448,
      "num_tokens": 18886565.0,
      "step": 10230
    },
    {
      "entropy": 5.777234220504761,
      "epoch": 0.8599033816425121,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004932370982883003,
      "loss": 5.6656,
      "mean_token_accuracy": 0.15549270063638687,
      "num_tokens": 18896440.0,
      "step": 10235
    },
    {
      "entropy": 5.8239048480987545,
      "epoch": 0.8603234614576769,
      "grad_norm": 2.25,
      "learning_rate": 0.0004932298093538905,
      "loss": 5.6887,
      "mean_token_accuracy": 0.15299588292837143,
      "num_tokens": 18906246.0,
      "step": 10240
    },
    {
      "entropy": 5.746791028976441,
      "epoch": 0.8607435412728418,
      "grad_norm": 1.4375,
      "learning_rate": 0.000493222516553652,
      "loss": 5.5925,
      "mean_token_accuracy": 0.1533835083246231,
      "num_tokens": 18915108.0,
      "step": 10245
    },
    {
      "entropy": 5.781469821929932,
      "epoch": 0.8611636210880067,
      "grad_norm": 1.765625,
      "learning_rate": 0.0004932152198877139,
      "loss": 5.6,
      "mean_token_accuracy": 0.15372219830751419,
      "num_tokens": 18923664.0,
      "step": 10250
    },
    {
      "entropy": 5.7778332233428955,
      "epoch": 0.8615837009031716,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004932079193562057,
      "loss": 5.697,
      "mean_token_accuracy": 0.15252179205417632,
      "num_tokens": 18933496.0,
      "step": 10255
    },
    {
      "entropy": 5.733058881759644,
      "epoch": 0.8620037807183365,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004932006149592564,
      "loss": 5.5788,
      "mean_token_accuracy": 0.15552108436822892,
      "num_tokens": 18942222.0,
      "step": 10260
    },
    {
      "entropy": 5.810169363021851,
      "epoch": 0.8624238605335014,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0004931933066969957,
      "loss": 5.5888,
      "mean_token_accuracy": 0.15849068462848664,
      "num_tokens": 18952057.0,
      "step": 10265
    },
    {
      "entropy": 5.738401651382446,
      "epoch": 0.8628439403486663,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004931859945695528,
      "loss": 5.6356,
      "mean_token_accuracy": 0.15441264659166337,
      "num_tokens": 18961664.0,
      "step": 10270
    },
    {
      "entropy": 5.665639925003052,
      "epoch": 0.8632640201638311,
      "grad_norm": 2.296875,
      "learning_rate": 0.0004931786785770575,
      "loss": 5.429,
      "mean_token_accuracy": 0.16940231174230574,
      "num_tokens": 18969900.0,
      "step": 10275
    },
    {
      "entropy": 5.793166017532348,
      "epoch": 0.863684099978996,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004931713587196392,
      "loss": 5.7206,
      "mean_token_accuracy": 0.1475231796503067,
      "num_tokens": 18979286.0,
      "step": 10280
    },
    {
      "entropy": 5.855304002761841,
      "epoch": 0.8641041797941609,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004931640349974275,
      "loss": 5.603,
      "mean_token_accuracy": 0.1532246984541416,
      "num_tokens": 18987553.0,
      "step": 10285
    },
    {
      "entropy": 5.77991795539856,
      "epoch": 0.8645242596093258,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004931567074105524,
      "loss": 5.6872,
      "mean_token_accuracy": 0.15210114121437074,
      "num_tokens": 18996354.0,
      "step": 10290
    },
    {
      "entropy": 5.688443899154663,
      "epoch": 0.8649443394244907,
      "grad_norm": 3.109375,
      "learning_rate": 0.0004931493759591435,
      "loss": 5.5749,
      "mean_token_accuracy": 0.15452788174152374,
      "num_tokens": 19005150.0,
      "step": 10295
    },
    {
      "entropy": 5.801825380325317,
      "epoch": 0.8653644192396556,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0004931420406433308,
      "loss": 5.5793,
      "mean_token_accuracy": 0.15020548403263093,
      "num_tokens": 19014572.0,
      "step": 10300
    },
    {
      "entropy": 5.703862047195434,
      "epoch": 0.8657844990548205,
      "grad_norm": 1.6171875,
      "learning_rate": 0.000493134701463244,
      "loss": 5.4508,
      "mean_token_accuracy": 0.16280461698770524,
      "num_tokens": 19023462.0,
      "step": 10305
    },
    {
      "entropy": 5.649288606643677,
      "epoch": 0.8662045788699853,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004931273584190135,
      "loss": 5.5405,
      "mean_token_accuracy": 0.15991990268230438,
      "num_tokens": 19032460.0,
      "step": 10310
    },
    {
      "entropy": 5.731163692474365,
      "epoch": 0.8666246586851502,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0004931200115107691,
      "loss": 5.579,
      "mean_token_accuracy": 0.16041069328784943,
      "num_tokens": 19041734.0,
      "step": 10315
    },
    {
      "entropy": 5.697036027908325,
      "epoch": 0.867044738500315,
      "grad_norm": 1.7109375,
      "learning_rate": 0.000493112660738641,
      "loss": 5.5608,
      "mean_token_accuracy": 0.15314172506332396,
      "num_tokens": 19050867.0,
      "step": 10320
    },
    {
      "entropy": 5.708456945419312,
      "epoch": 0.86746481831548,
      "grad_norm": 1.90625,
      "learning_rate": 0.0004931053061027594,
      "loss": 5.5539,
      "mean_token_accuracy": 0.15272417664527893,
      "num_tokens": 19060518.0,
      "step": 10325
    },
    {
      "entropy": 5.742541694641114,
      "epoch": 0.8678848981306448,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004930979476032546,
      "loss": 5.5539,
      "mean_token_accuracy": 0.15664585381746293,
      "num_tokens": 19069588.0,
      "step": 10330
    },
    {
      "entropy": 5.725212717056275,
      "epoch": 0.8683049779458097,
      "grad_norm": 1.65625,
      "learning_rate": 0.000493090585240257,
      "loss": 5.6005,
      "mean_token_accuracy": 0.14247507825493813,
      "num_tokens": 19079060.0,
      "step": 10335
    },
    {
      "entropy": 5.6803240299224855,
      "epoch": 0.8687250577609746,
      "grad_norm": 1.9375,
      "learning_rate": 0.0004930832190138969,
      "loss": 5.533,
      "mean_token_accuracy": 0.15190561562776567,
      "num_tokens": 19087721.0,
      "step": 10340
    },
    {
      "entropy": 5.769875383377075,
      "epoch": 0.8691451375761394,
      "grad_norm": 1.5078125,
      "learning_rate": 0.000493075848924305,
      "loss": 5.5676,
      "mean_token_accuracy": 0.1551969662308693,
      "num_tokens": 19096800.0,
      "step": 10345
    },
    {
      "entropy": 5.790397357940674,
      "epoch": 0.8695652173913043,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004930684749716117,
      "loss": 5.6411,
      "mean_token_accuracy": 0.15215054303407669,
      "num_tokens": 19106774.0,
      "step": 10350
    },
    {
      "entropy": 5.751374912261963,
      "epoch": 0.8699852972064692,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0004930610971559476,
      "loss": 5.5861,
      "mean_token_accuracy": 0.1551279380917549,
      "num_tokens": 19116413.0,
      "step": 10355
    },
    {
      "entropy": 5.739291095733643,
      "epoch": 0.8704053770216341,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004930537154774436,
      "loss": 5.6015,
      "mean_token_accuracy": 0.15086202025413514,
      "num_tokens": 19125363.0,
      "step": 10360
    },
    {
      "entropy": 5.794745826721192,
      "epoch": 0.870825456836799,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004930463299362302,
      "loss": 5.6984,
      "mean_token_accuracy": 0.14360912814736365,
      "num_tokens": 19135461.0,
      "step": 10365
    },
    {
      "entropy": 5.806246614456176,
      "epoch": 0.8712455366519639,
      "grad_norm": 2.296875,
      "learning_rate": 0.0004930389405324383,
      "loss": 5.5582,
      "mean_token_accuracy": 0.16600679904222487,
      "num_tokens": 19144085.0,
      "step": 10370
    },
    {
      "entropy": 5.762925720214843,
      "epoch": 0.8716656164671287,
      "grad_norm": 2.15625,
      "learning_rate": 0.0004930315472661987,
      "loss": 5.5741,
      "mean_token_accuracy": 0.15904655829071998,
      "num_tokens": 19153291.0,
      "step": 10375
    },
    {
      "entropy": 5.732652473449707,
      "epoch": 0.8720856962822936,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004930241501376428,
      "loss": 5.5947,
      "mean_token_accuracy": 0.15122335851192475,
      "num_tokens": 19163514.0,
      "step": 10380
    },
    {
      "entropy": 5.602568197250366,
      "epoch": 0.8725057760974585,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004930167491469013,
      "loss": 5.4792,
      "mean_token_accuracy": 0.1624978721141815,
      "num_tokens": 19172103.0,
      "step": 10385
    },
    {
      "entropy": 5.75473918914795,
      "epoch": 0.8729258559126234,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004930093442941053,
      "loss": 5.5509,
      "mean_token_accuracy": 0.15365159437060355,
      "num_tokens": 19180893.0,
      "step": 10390
    },
    {
      "entropy": 5.764384841918945,
      "epoch": 0.8733459357277883,
      "grad_norm": 1.375,
      "learning_rate": 0.0004930019355793858,
      "loss": 5.4714,
      "mean_token_accuracy": 0.1572717860341072,
      "num_tokens": 19190495.0,
      "step": 10395
    },
    {
      "entropy": 5.709274530410767,
      "epoch": 0.8737660155429532,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004929945230028746,
      "loss": 5.5633,
      "mean_token_accuracy": 0.16117294877767563,
      "num_tokens": 19198988.0,
      "step": 10400
    },
    {
      "entropy": 5.656596994400024,
      "epoch": 0.8741860953581181,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0004929871065647024,
      "loss": 5.4723,
      "mean_token_accuracy": 0.1623318910598755,
      "num_tokens": 19208014.0,
      "step": 10405
    },
    {
      "entropy": 5.754249525070191,
      "epoch": 0.8746061751732829,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004929796862650011,
      "loss": 5.6686,
      "mean_token_accuracy": 0.15798502415418625,
      "num_tokens": 19218220.0,
      "step": 10410
    },
    {
      "entropy": 5.750339126586914,
      "epoch": 0.8750262549884478,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004929722621039018,
      "loss": 5.5613,
      "mean_token_accuracy": 0.1570570647716522,
      "num_tokens": 19227176.0,
      "step": 10415
    },
    {
      "entropy": 5.721258115768433,
      "epoch": 0.8754463348036127,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004929648340815362,
      "loss": 5.5929,
      "mean_token_accuracy": 0.15091799348592758,
      "num_tokens": 19236085.0,
      "step": 10420
    },
    {
      "entropy": 5.767314195632935,
      "epoch": 0.8758664146187776,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004929574021980355,
      "loss": 5.643,
      "mean_token_accuracy": 0.1486381933093071,
      "num_tokens": 19246671.0,
      "step": 10425
    },
    {
      "entropy": 5.76701602935791,
      "epoch": 0.8762864944339425,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004929499664535319,
      "loss": 5.5492,
      "mean_token_accuracy": 0.15346565693616868,
      "num_tokens": 19256321.0,
      "step": 10430
    },
    {
      "entropy": 5.763290786743164,
      "epoch": 0.8767065742491074,
      "grad_norm": 2.296875,
      "learning_rate": 0.0004929425268481569,
      "loss": 5.5126,
      "mean_token_accuracy": 0.1608709618449211,
      "num_tokens": 19265518.0,
      "step": 10435
    },
    {
      "entropy": 5.718894052505493,
      "epoch": 0.8771266540642723,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004929350833820422,
      "loss": 5.5147,
      "mean_token_accuracy": 0.15873141810297967,
      "num_tokens": 19274120.0,
      "step": 10440
    },
    {
      "entropy": 5.731625127792358,
      "epoch": 0.877546733879437,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004929276360553197,
      "loss": 5.5882,
      "mean_token_accuracy": 0.16043589189648627,
      "num_tokens": 19284377.0,
      "step": 10445
    },
    {
      "entropy": 5.711872720718384,
      "epoch": 0.8779668136946019,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004929201848681213,
      "loss": 5.4576,
      "mean_token_accuracy": 0.15541169792413712,
      "num_tokens": 19293326.0,
      "step": 10450
    },
    {
      "entropy": 5.690513658523559,
      "epoch": 0.8783868935097668,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004929127298205792,
      "loss": 5.5079,
      "mean_token_accuracy": 0.1659105733036995,
      "num_tokens": 19302086.0,
      "step": 10455
    },
    {
      "entropy": 5.804715394973755,
      "epoch": 0.8788069733249317,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004929052709128251,
      "loss": 5.5488,
      "mean_token_accuracy": 0.1627936765551567,
      "num_tokens": 19310124.0,
      "step": 10460
    },
    {
      "entropy": 5.633396434783935,
      "epoch": 0.8792270531400966,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004928978081449914,
      "loss": 5.5709,
      "mean_token_accuracy": 0.15216370820999145,
      "num_tokens": 19321269.0,
      "step": 10465
    },
    {
      "entropy": 5.696399784088134,
      "epoch": 0.8796471329552615,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004928903415172103,
      "loss": 5.5728,
      "mean_token_accuracy": 0.15912040174007416,
      "num_tokens": 19330390.0,
      "step": 10470
    },
    {
      "entropy": 5.818605709075928,
      "epoch": 0.8800672127704264,
      "grad_norm": 1.6015625,
      "learning_rate": 0.000492882871029614,
      "loss": 5.5743,
      "mean_token_accuracy": 0.15722174644470216,
      "num_tokens": 19339457.0,
      "step": 10475
    },
    {
      "entropy": 5.749679517745972,
      "epoch": 0.8804872925855912,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004928753966823348,
      "loss": 5.638,
      "mean_token_accuracy": 0.15191923528909684,
      "num_tokens": 19348710.0,
      "step": 10480
    },
    {
      "entropy": 5.747959899902344,
      "epoch": 0.8809073724007561,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004928679184755051,
      "loss": 5.6689,
      "mean_token_accuracy": 0.15637236088514328,
      "num_tokens": 19357215.0,
      "step": 10485
    },
    {
      "entropy": 5.747460222244262,
      "epoch": 0.881327452215921,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004928604364092574,
      "loss": 5.6071,
      "mean_token_accuracy": 0.15696584284305573,
      "num_tokens": 19366043.0,
      "step": 10490
    },
    {
      "entropy": 5.8075761795043945,
      "epoch": 0.8817475320310859,
      "grad_norm": 2.078125,
      "learning_rate": 0.0004928529504837243,
      "loss": 5.6882,
      "mean_token_accuracy": 0.15294934064149857,
      "num_tokens": 19375468.0,
      "step": 10495
    },
    {
      "entropy": 5.845993375778198,
      "epoch": 0.8821676118462508,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004928454606990383,
      "loss": 5.5475,
      "mean_token_accuracy": 0.16165847033262254,
      "num_tokens": 19384467.0,
      "step": 10500
    },
    {
      "entropy": 5.70394549369812,
      "epoch": 0.8825876916614157,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004928379670553322,
      "loss": 5.5885,
      "mean_token_accuracy": 0.15876393169164657,
      "num_tokens": 19393618.0,
      "step": 10505
    },
    {
      "entropy": 5.758576488494873,
      "epoch": 0.8830077714765806,
      "grad_norm": 1.5,
      "learning_rate": 0.0004928304695527387,
      "loss": 5.6432,
      "mean_token_accuracy": 0.15267120897769929,
      "num_tokens": 19402921.0,
      "step": 10510
    },
    {
      "entropy": 5.864232301712036,
      "epoch": 0.8834278512917454,
      "grad_norm": 1.890625,
      "learning_rate": 0.0004928229681913905,
      "loss": 5.6261,
      "mean_token_accuracy": 0.15496253222227097,
      "num_tokens": 19412048.0,
      "step": 10515
    },
    {
      "entropy": 5.862086200714112,
      "epoch": 0.8838479311069103,
      "grad_norm": 2.703125,
      "learning_rate": 0.0004928154629714207,
      "loss": 5.6081,
      "mean_token_accuracy": 0.15387734174728393,
      "num_tokens": 19420993.0,
      "step": 10520
    },
    {
      "entropy": 5.727069139480591,
      "epoch": 0.8842680109220752,
      "grad_norm": 2.1875,
      "learning_rate": 0.000492807953892962,
      "loss": 5.5841,
      "mean_token_accuracy": 0.15330443829298018,
      "num_tokens": 19430145.0,
      "step": 10525
    },
    {
      "entropy": 5.723509407043457,
      "epoch": 0.8846880907372401,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004928004409561476,
      "loss": 5.4892,
      "mean_token_accuracy": 0.15867023319005966,
      "num_tokens": 19438918.0,
      "step": 10530
    },
    {
      "entropy": 5.691130256652832,
      "epoch": 0.885108170552405,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004927929241611106,
      "loss": 5.5303,
      "mean_token_accuracy": 0.1610460638999939,
      "num_tokens": 19448490.0,
      "step": 10535
    },
    {
      "entropy": 5.709879350662232,
      "epoch": 0.8855282503675699,
      "grad_norm": 1.625,
      "learning_rate": 0.000492785403507984,
      "loss": 5.6012,
      "mean_token_accuracy": 0.1556025877594948,
      "num_tokens": 19457098.0,
      "step": 10540
    },
    {
      "entropy": 5.761733865737915,
      "epoch": 0.8859483301827347,
      "grad_norm": 1.953125,
      "learning_rate": 0.0004927778789969012,
      "loss": 5.5863,
      "mean_token_accuracy": 0.15728465467691422,
      "num_tokens": 19466419.0,
      "step": 10545
    },
    {
      "entropy": 5.740839338302612,
      "epoch": 0.8863684099978996,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004927703506279955,
      "loss": 5.6421,
      "mean_token_accuracy": 0.14617049992084502,
      "num_tokens": 19475882.0,
      "step": 10550
    },
    {
      "entropy": 5.88862247467041,
      "epoch": 0.8867884898130645,
      "grad_norm": 2.0625,
      "learning_rate": 0.0004927628184014,
      "loss": 5.6836,
      "mean_token_accuracy": 0.15036097317934036,
      "num_tokens": 19485917.0,
      "step": 10555
    },
    {
      "entropy": 5.807638216018677,
      "epoch": 0.8872085696282294,
      "grad_norm": 1.84375,
      "learning_rate": 0.0004927552823172483,
      "loss": 5.608,
      "mean_token_accuracy": 0.1534525066614151,
      "num_tokens": 19494984.0,
      "step": 10560
    },
    {
      "entropy": 5.803097820281982,
      "epoch": 0.8876286494433943,
      "grad_norm": 1.6484375,
      "learning_rate": 0.000492747742375674,
      "loss": 5.5521,
      "mean_token_accuracy": 0.16029339879751206,
      "num_tokens": 19504087.0,
      "step": 10565
    },
    {
      "entropy": 5.809068632125855,
      "epoch": 0.8880487292585592,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004927401985768106,
      "loss": 5.6142,
      "mean_token_accuracy": 0.15856605321168898,
      "num_tokens": 19512880.0,
      "step": 10570
    },
    {
      "entropy": 5.732918643951416,
      "epoch": 0.888468809073724,
      "grad_norm": 2.296875,
      "learning_rate": 0.0004927326509207915,
      "loss": 5.5741,
      "mean_token_accuracy": 0.1594431221485138,
      "num_tokens": 19521723.0,
      "step": 10575
    },
    {
      "entropy": 5.782747840881347,
      "epoch": 0.8888888888888888,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004927250994077508,
      "loss": 5.66,
      "mean_token_accuracy": 0.15072188079357146,
      "num_tokens": 19531352.0,
      "step": 10580
    },
    {
      "entropy": 5.858024024963379,
      "epoch": 0.8893089687040537,
      "grad_norm": 2.046875,
      "learning_rate": 0.000492717544037822,
      "loss": 5.7545,
      "mean_token_accuracy": 0.15927736610174179,
      "num_tokens": 19540943.0,
      "step": 10585
    },
    {
      "entropy": 5.770633697509766,
      "epoch": 0.8897290485192186,
      "grad_norm": 1.640625,
      "learning_rate": 0.000492709984811139,
      "loss": 5.5227,
      "mean_token_accuracy": 0.1598847970366478,
      "num_tokens": 19550527.0,
      "step": 10590
    },
    {
      "entropy": 5.72091121673584,
      "epoch": 0.8901491283343835,
      "grad_norm": 2.078125,
      "learning_rate": 0.0004927024217278358,
      "loss": 5.5219,
      "mean_token_accuracy": 0.16189746409654618,
      "num_tokens": 19559746.0,
      "step": 10595
    },
    {
      "entropy": 5.759682607650757,
      "epoch": 0.8905692081495484,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004926948547880462,
      "loss": 5.6816,
      "mean_token_accuracy": 0.14713766053318977,
      "num_tokens": 19569286.0,
      "step": 10600
    },
    {
      "entropy": 5.684707307815552,
      "epoch": 0.8909892879647133,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0004926872839919044,
      "loss": 5.5681,
      "mean_token_accuracy": 0.15598509460687637,
      "num_tokens": 19578245.0,
      "step": 10605
    },
    {
      "entropy": 5.722670841217041,
      "epoch": 0.8914093677798782,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004926797093395446,
      "loss": 5.5325,
      "mean_token_accuracy": 0.16016458123922347,
      "num_tokens": 19587244.0,
      "step": 10610
    },
    {
      "entropy": 5.762173748016357,
      "epoch": 0.891829447595043,
      "grad_norm": 2.953125,
      "learning_rate": 0.0004926721308311006,
      "loss": 5.615,
      "mean_token_accuracy": 0.15994844064116479,
      "num_tokens": 19596932.0,
      "step": 10615
    },
    {
      "entropy": 5.879995727539063,
      "epoch": 0.8922495274102079,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0004926645484667069,
      "loss": 5.7186,
      "mean_token_accuracy": 0.14976566582918166,
      "num_tokens": 19606256.0,
      "step": 10620
    },
    {
      "entropy": 5.882073593139649,
      "epoch": 0.8926696072253728,
      "grad_norm": 2.0625,
      "learning_rate": 0.0004926569622464979,
      "loss": 5.7089,
      "mean_token_accuracy": 0.15212067142128943,
      "num_tokens": 19615726.0,
      "step": 10625
    },
    {
      "entropy": 5.8041211605072025,
      "epoch": 0.8930896870405377,
      "grad_norm": 2.84375,
      "learning_rate": 0.0004926493721706079,
      "loss": 5.5764,
      "mean_token_accuracy": 0.1547590583562851,
      "num_tokens": 19624037.0,
      "step": 10630
    },
    {
      "entropy": 5.756782007217407,
      "epoch": 0.8935097668557026,
      "grad_norm": 1.78125,
      "learning_rate": 0.0004926417782391713,
      "loss": 5.5781,
      "mean_token_accuracy": 0.16269729286432266,
      "num_tokens": 19632882.0,
      "step": 10635
    },
    {
      "entropy": 5.793702459335327,
      "epoch": 0.8939298466708675,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004926341804523227,
      "loss": 5.6828,
      "mean_token_accuracy": 0.15286366492509842,
      "num_tokens": 19642686.0,
      "step": 10640
    },
    {
      "entropy": 5.759325933456421,
      "epoch": 0.8943499264860324,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004926265788101966,
      "loss": 5.5821,
      "mean_token_accuracy": 0.15535581558942796,
      "num_tokens": 19651380.0,
      "step": 10645
    },
    {
      "entropy": 5.718085050582886,
      "epoch": 0.8947700063011972,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004926189733129278,
      "loss": 5.5035,
      "mean_token_accuracy": 0.15965501517057418,
      "num_tokens": 19660136.0,
      "step": 10650
    },
    {
      "entropy": 5.696755981445312,
      "epoch": 0.8951900861163621,
      "grad_norm": 2.1875,
      "learning_rate": 0.0004926113639606509,
      "loss": 5.5569,
      "mean_token_accuracy": 0.16951919198036194,
      "num_tokens": 19669146.0,
      "step": 10655
    },
    {
      "entropy": 5.8493866443634035,
      "epoch": 0.895610165931527,
      "grad_norm": 1.875,
      "learning_rate": 0.0004926037507535008,
      "loss": 5.6893,
      "mean_token_accuracy": 0.15577448457479476,
      "num_tokens": 19678627.0,
      "step": 10660
    },
    {
      "entropy": 5.76816759109497,
      "epoch": 0.8960302457466919,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004925961336916122,
      "loss": 5.6246,
      "mean_token_accuracy": 0.15917440131306648,
      "num_tokens": 19688033.0,
      "step": 10665
    },
    {
      "entropy": 5.772870635986328,
      "epoch": 0.8964503255618568,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0004925885127751202,
      "loss": 5.6191,
      "mean_token_accuracy": 0.15711403042078018,
      "num_tokens": 19696523.0,
      "step": 10670
    },
    {
      "entropy": 5.815629243850708,
      "epoch": 0.8968704053770217,
      "grad_norm": 2.09375,
      "learning_rate": 0.0004925808880041596,
      "loss": 5.5466,
      "mean_token_accuracy": 0.1619081273674965,
      "num_tokens": 19706339.0,
      "step": 10675
    },
    {
      "entropy": 5.771422576904297,
      "epoch": 0.8972904851921865,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0004925732593788658,
      "loss": 5.5756,
      "mean_token_accuracy": 0.15582350715994836,
      "num_tokens": 19714779.0,
      "step": 10680
    },
    {
      "entropy": 5.788242959976197,
      "epoch": 0.8977105650073514,
      "grad_norm": 2.109375,
      "learning_rate": 0.0004925656268993737,
      "loss": 5.6434,
      "mean_token_accuracy": 0.15538930594921113,
      "num_tokens": 19723727.0,
      "step": 10685
    },
    {
      "entropy": 5.679297971725464,
      "epoch": 0.8981306448225163,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0004925579905658185,
      "loss": 5.6078,
      "mean_token_accuracy": 0.15833698809146882,
      "num_tokens": 19732783.0,
      "step": 10690
    },
    {
      "entropy": 5.815406656265258,
      "epoch": 0.8985507246376812,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0004925503503783355,
      "loss": 5.5923,
      "mean_token_accuracy": 0.14969452172517778,
      "num_tokens": 19741268.0,
      "step": 10695
    },
    {
      "entropy": 5.8421392917633055,
      "epoch": 0.898970804452846,
      "grad_norm": 2.03125,
      "learning_rate": 0.0004925427063370601,
      "loss": 5.5229,
      "mean_token_accuracy": 0.1585152953863144,
      "num_tokens": 19751490.0,
      "step": 10700
    },
    {
      "entropy": 5.75557165145874,
      "epoch": 0.899390884268011,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004925350584421278,
      "loss": 5.5722,
      "mean_token_accuracy": 0.15308883041143417,
      "num_tokens": 19760487.0,
      "step": 10705
    },
    {
      "entropy": 5.820067501068115,
      "epoch": 0.8998109640831758,
      "grad_norm": 1.78125,
      "learning_rate": 0.0004925274066936738,
      "loss": 5.5441,
      "mean_token_accuracy": 0.16286628544330597,
      "num_tokens": 19768984.0,
      "step": 10710
    },
    {
      "entropy": 5.693412828445434,
      "epoch": 0.9002310438983406,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004925197510918339,
      "loss": 5.5163,
      "mean_token_accuracy": 0.1612228661775589,
      "num_tokens": 19778335.0,
      "step": 10715
    },
    {
      "entropy": 5.740248203277588,
      "epoch": 0.9006511237135055,
      "grad_norm": 1.78125,
      "learning_rate": 0.0004925120916367435,
      "loss": 5.66,
      "mean_token_accuracy": 0.14562905877828597,
      "num_tokens": 19789082.0,
      "step": 10720
    },
    {
      "entropy": 5.676235198974609,
      "epoch": 0.9010712035286704,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004925044283285384,
      "loss": 5.3958,
      "mean_token_accuracy": 0.17226272374391555,
      "num_tokens": 19797902.0,
      "step": 10725
    },
    {
      "entropy": 5.674381303787231,
      "epoch": 0.9014912833438353,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004924967611673544,
      "loss": 5.567,
      "mean_token_accuracy": 0.15973830968141556,
      "num_tokens": 19806481.0,
      "step": 10730
    },
    {
      "entropy": 5.625586986541748,
      "epoch": 0.9019113631590002,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004924890901533273,
      "loss": 5.4518,
      "mean_token_accuracy": 0.16687363982200623,
      "num_tokens": 19815226.0,
      "step": 10735
    },
    {
      "entropy": 5.865736722946167,
      "epoch": 0.9023314429741651,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004924814152865929,
      "loss": 5.6794,
      "mean_token_accuracy": 0.14995559379458429,
      "num_tokens": 19824577.0,
      "step": 10740
    },
    {
      "entropy": 5.814121675491333,
      "epoch": 0.90275152278933,
      "grad_norm": 1.5,
      "learning_rate": 0.0004924737365672873,
      "loss": 5.5908,
      "mean_token_accuracy": 0.15056767463684081,
      "num_tokens": 19832936.0,
      "step": 10745
    },
    {
      "entropy": 5.820723390579223,
      "epoch": 0.9031716026044948,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004924660539955463,
      "loss": 5.7351,
      "mean_token_accuracy": 0.15998328030109404,
      "num_tokens": 19841946.0,
      "step": 10750
    },
    {
      "entropy": 5.750902080535889,
      "epoch": 0.9035916824196597,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004924583675715063,
      "loss": 5.6077,
      "mean_token_accuracy": 0.15404654592275618,
      "num_tokens": 19851469.0,
      "step": 10755
    },
    {
      "entropy": 5.799461030960083,
      "epoch": 0.9040117622348246,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004924506772953031,
      "loss": 5.678,
      "mean_token_accuracy": 0.15529222413897514,
      "num_tokens": 19860731.0,
      "step": 10760
    },
    {
      "entropy": 5.758323049545288,
      "epoch": 0.9044318420499895,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004924429831670733,
      "loss": 5.6852,
      "mean_token_accuracy": 0.14765787720680237,
      "num_tokens": 19869717.0,
      "step": 10765
    },
    {
      "entropy": 5.825065422058105,
      "epoch": 0.9048519218651544,
      "grad_norm": 1.609375,
      "learning_rate": 0.000492435285186953,
      "loss": 5.6377,
      "mean_token_accuracy": 0.15890030115842818,
      "num_tokens": 19879229.0,
      "step": 10770
    },
    {
      "entropy": 5.873213052749634,
      "epoch": 0.9052720016803193,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004924275833550785,
      "loss": 5.6228,
      "mean_token_accuracy": 0.1515662133693695,
      "num_tokens": 19888260.0,
      "step": 10775
    },
    {
      "entropy": 5.827171325683594,
      "epoch": 0.9056920814954842,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004924198776715865,
      "loss": 5.6436,
      "mean_token_accuracy": 0.16024628281593323,
      "num_tokens": 19897070.0,
      "step": 10780
    },
    {
      "entropy": 5.7876802444458,
      "epoch": 0.906112161310649,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004924121681366132,
      "loss": 5.6284,
      "mean_token_accuracy": 0.15037994906306268,
      "num_tokens": 19907170.0,
      "step": 10785
    },
    {
      "entropy": 5.804350471496582,
      "epoch": 0.9065322411258139,
      "grad_norm": 1.859375,
      "learning_rate": 0.0004924044547502951,
      "loss": 5.5682,
      "mean_token_accuracy": 0.1583652213215828,
      "num_tokens": 19917220.0,
      "step": 10790
    },
    {
      "entropy": 5.744189023971558,
      "epoch": 0.9069523209409788,
      "grad_norm": 1.84375,
      "learning_rate": 0.0004923967375127692,
      "loss": 5.6334,
      "mean_token_accuracy": 0.15887839794158937,
      "num_tokens": 19926724.0,
      "step": 10795
    },
    {
      "entropy": 5.845341348648072,
      "epoch": 0.9073724007561437,
      "grad_norm": 1.9140625,
      "learning_rate": 0.000492389016424172,
      "loss": 5.7404,
      "mean_token_accuracy": 0.15144012570381166,
      "num_tokens": 19936429.0,
      "step": 10800
    },
    {
      "entropy": 5.758127307891845,
      "epoch": 0.9077924805713086,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004923812914846404,
      "loss": 5.5099,
      "mean_token_accuracy": 0.15872399806976317,
      "num_tokens": 19945096.0,
      "step": 10805
    },
    {
      "entropy": 5.708646059036255,
      "epoch": 0.9082125603864735,
      "grad_norm": 2.078125,
      "learning_rate": 0.0004923735626943111,
      "loss": 5.5856,
      "mean_token_accuracy": 0.16495954543352126,
      "num_tokens": 19953560.0,
      "step": 10810
    },
    {
      "entropy": 5.765500879287719,
      "epoch": 0.9086326402016384,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004923658300533211,
      "loss": 5.5682,
      "mean_token_accuracy": 0.1555124580860138,
      "num_tokens": 19962669.0,
      "step": 10815
    },
    {
      "entropy": 5.802539348602295,
      "epoch": 0.9090527200168032,
      "grad_norm": 1.625,
      "learning_rate": 0.0004923580935618073,
      "loss": 5.612,
      "mean_token_accuracy": 0.1580589756369591,
      "num_tokens": 19971990.0,
      "step": 10820
    },
    {
      "entropy": 5.759839391708374,
      "epoch": 0.909472799831968,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004923503532199069,
      "loss": 5.6108,
      "mean_token_accuracy": 0.15835360288619996,
      "num_tokens": 19981850.0,
      "step": 10825
    },
    {
      "entropy": 5.804291439056397,
      "epoch": 0.909892879647133,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004923426090277567,
      "loss": 5.6433,
      "mean_token_accuracy": 0.15101254507899284,
      "num_tokens": 19991574.0,
      "step": 10830
    },
    {
      "entropy": 5.788902282714844,
      "epoch": 0.9103129594622978,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004923348609854943,
      "loss": 5.6121,
      "mean_token_accuracy": 0.16281114518642426,
      "num_tokens": 20001392.0,
      "step": 10835
    },
    {
      "entropy": 5.778925085067749,
      "epoch": 0.9107330392774627,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0004923271090932566,
      "loss": 5.6512,
      "mean_token_accuracy": 0.1461693450808525,
      "num_tokens": 20011277.0,
      "step": 10840
    },
    {
      "entropy": 5.704980707168579,
      "epoch": 0.9111531190926276,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004923193533511812,
      "loss": 5.5568,
      "mean_token_accuracy": 0.1563573181629181,
      "num_tokens": 20021171.0,
      "step": 10845
    },
    {
      "entropy": 5.873466444015503,
      "epoch": 0.9115731989077924,
      "grad_norm": 1.96875,
      "learning_rate": 0.0004923115937594053,
      "loss": 5.6403,
      "mean_token_accuracy": 0.15872172266244888,
      "num_tokens": 20030189.0,
      "step": 10850
    },
    {
      "entropy": 5.826998519897461,
      "epoch": 0.9119932787229573,
      "grad_norm": 1.875,
      "learning_rate": 0.0004923038303180664,
      "loss": 5.6089,
      "mean_token_accuracy": 0.16154826879501344,
      "num_tokens": 20038287.0,
      "step": 10855
    },
    {
      "entropy": 5.704780101776123,
      "epoch": 0.9124133585381222,
      "grad_norm": 1.5859375,
      "learning_rate": 0.000492296063027302,
      "loss": 5.6242,
      "mean_token_accuracy": 0.1486751489341259,
      "num_tokens": 20047653.0,
      "step": 10860
    },
    {
      "entropy": 5.720272779464722,
      "epoch": 0.9128334383532871,
      "grad_norm": 2.296875,
      "learning_rate": 0.0004922882918872498,
      "loss": 5.611,
      "mean_token_accuracy": 0.15257783234119415,
      "num_tokens": 20057415.0,
      "step": 10865
    },
    {
      "entropy": 5.843525409698486,
      "epoch": 0.913253518168452,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0004922805168980475,
      "loss": 5.6436,
      "mean_token_accuracy": 0.1583248570561409,
      "num_tokens": 20065996.0,
      "step": 10870
    },
    {
      "entropy": 5.765225791931153,
      "epoch": 0.9136735979836169,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0004922727380598326,
      "loss": 5.5794,
      "mean_token_accuracy": 0.15503590703010559,
      "num_tokens": 20075376.0,
      "step": 10875
    },
    {
      "entropy": 5.7751857280731205,
      "epoch": 0.9140936777987818,
      "grad_norm": 1.71875,
      "learning_rate": 0.000492264955372743,
      "loss": 5.6108,
      "mean_token_accuracy": 0.14910593926906585,
      "num_tokens": 20084950.0,
      "step": 10880
    },
    {
      "entropy": 5.851974725723267,
      "epoch": 0.9145137576139466,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004922571688369165,
      "loss": 5.5881,
      "mean_token_accuracy": 0.1583369717001915,
      "num_tokens": 20094011.0,
      "step": 10885
    },
    {
      "entropy": 5.7428583145141605,
      "epoch": 0.9149338374291115,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004922493784524914,
      "loss": 5.56,
      "mean_token_accuracy": 0.1584095723927021,
      "num_tokens": 20103037.0,
      "step": 10890
    },
    {
      "entropy": 5.741644382476807,
      "epoch": 0.9153539172442764,
      "grad_norm": 1.625,
      "learning_rate": 0.0004922415842196052,
      "loss": 5.7116,
      "mean_token_accuracy": 0.14545977264642715,
      "num_tokens": 20112727.0,
      "step": 10895
    },
    {
      "entropy": 5.699281311035156,
      "epoch": 0.9157739970594413,
      "grad_norm": 2.15625,
      "learning_rate": 0.0004922337861383963,
      "loss": 5.522,
      "mean_token_accuracy": 0.1605138972401619,
      "num_tokens": 20122341.0,
      "step": 10900
    },
    {
      "entropy": 5.7933906555175785,
      "epoch": 0.9161940768746062,
      "grad_norm": 1.765625,
      "learning_rate": 0.0004922259842090027,
      "loss": 5.5088,
      "mean_token_accuracy": 0.15630880296230315,
      "num_tokens": 20131354.0,
      "step": 10905
    },
    {
      "entropy": 5.752344179153442,
      "epoch": 0.9166141566897711,
      "grad_norm": 1.953125,
      "learning_rate": 0.0004922181784315627,
      "loss": 5.5565,
      "mean_token_accuracy": 0.1608913227915764,
      "num_tokens": 20140440.0,
      "step": 10910
    },
    {
      "entropy": 5.673103618621826,
      "epoch": 0.917034236504936,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004922103688062145,
      "loss": 5.556,
      "mean_token_accuracy": 0.1585061579942703,
      "num_tokens": 20149331.0,
      "step": 10915
    },
    {
      "entropy": 5.721803379058838,
      "epoch": 0.9174543163201008,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004922025553330964,
      "loss": 5.5308,
      "mean_token_accuracy": 0.16434049159288405,
      "num_tokens": 20158566.0,
      "step": 10920
    },
    {
      "entropy": 5.820386266708374,
      "epoch": 0.9178743961352657,
      "grad_norm": 1.59375,
      "learning_rate": 0.000492194738012347,
      "loss": 5.6422,
      "mean_token_accuracy": 0.15888736993074418,
      "num_tokens": 20168339.0,
      "step": 10925
    },
    {
      "entropy": 5.8344615459442135,
      "epoch": 0.9182944759504306,
      "grad_norm": 2.0625,
      "learning_rate": 0.0004921869168441045,
      "loss": 5.6482,
      "mean_token_accuracy": 0.15219517126679422,
      "num_tokens": 20177967.0,
      "step": 10930
    },
    {
      "entropy": 5.748171138763428,
      "epoch": 0.9187145557655955,
      "grad_norm": 1.875,
      "learning_rate": 0.0004921790918285077,
      "loss": 5.6339,
      "mean_token_accuracy": 0.1555405542254448,
      "num_tokens": 20187279.0,
      "step": 10935
    },
    {
      "entropy": 5.775131797790527,
      "epoch": 0.9191346355807604,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004921712629656951,
      "loss": 5.7308,
      "mean_token_accuracy": 0.16442956626415253,
      "num_tokens": 20195324.0,
      "step": 10940
    },
    {
      "entropy": 5.864813995361328,
      "epoch": 0.9195547153959253,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004921634302558054,
      "loss": 5.6618,
      "mean_token_accuracy": 0.1532442182302475,
      "num_tokens": 20204985.0,
      "step": 10945
    },
    {
      "entropy": 5.7605233669281,
      "epoch": 0.9199747952110902,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004921555936989773,
      "loss": 5.6693,
      "mean_token_accuracy": 0.15000807642936706,
      "num_tokens": 20214553.0,
      "step": 10950
    },
    {
      "entropy": 5.815750789642334,
      "epoch": 0.9203948750262549,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004921477532953497,
      "loss": 5.5867,
      "mean_token_accuracy": 0.15734840780496598,
      "num_tokens": 20224118.0,
      "step": 10955
    },
    {
      "entropy": 5.770743799209595,
      "epoch": 0.9208149548414198,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004921399090450616,
      "loss": 5.5348,
      "mean_token_accuracy": 0.15028709322214126,
      "num_tokens": 20233719.0,
      "step": 10960
    },
    {
      "entropy": 5.767902183532715,
      "epoch": 0.9212350346565847,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004921320609482517,
      "loss": 5.6305,
      "mean_token_accuracy": 0.15462984144687653,
      "num_tokens": 20242311.0,
      "step": 10965
    },
    {
      "entropy": 5.807157325744629,
      "epoch": 0.9216551144717496,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004921242090050591,
      "loss": 5.6595,
      "mean_token_accuracy": 0.14994974732398986,
      "num_tokens": 20252998.0,
      "step": 10970
    },
    {
      "entropy": 5.818349123001099,
      "epoch": 0.9220751942869145,
      "grad_norm": 1.890625,
      "learning_rate": 0.000492116353215623,
      "loss": 5.7205,
      "mean_token_accuracy": 0.15557870492339135,
      "num_tokens": 20262456.0,
      "step": 10975
    },
    {
      "entropy": 5.695267009735107,
      "epoch": 0.9224952741020794,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004921084935800825,
      "loss": 5.4788,
      "mean_token_accuracy": 0.16470759660005568,
      "num_tokens": 20271516.0,
      "step": 10980
    },
    {
      "entropy": 5.735180997848511,
      "epoch": 0.9229153539172443,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004921006300985768,
      "loss": 5.5278,
      "mean_token_accuracy": 0.1622763454914093,
      "num_tokens": 20280373.0,
      "step": 10985
    },
    {
      "entropy": 5.715144777297974,
      "epoch": 0.9233354337324091,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004920927627712453,
      "loss": 5.5267,
      "mean_token_accuracy": 0.1575745850801468,
      "num_tokens": 20289426.0,
      "step": 10990
    },
    {
      "entropy": 5.809565830230713,
      "epoch": 0.923755513547574,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004920848915982273,
      "loss": 5.6718,
      "mean_token_accuracy": 0.15313809663057326,
      "num_tokens": 20298045.0,
      "step": 10995
    },
    {
      "entropy": 5.710923767089843,
      "epoch": 0.9241755933627389,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004920770165796622,
      "loss": 5.5569,
      "mean_token_accuracy": 0.1600003331899643,
      "num_tokens": 20307352.0,
      "step": 11000
    },
    {
      "entropy": 5.757216310501098,
      "epoch": 0.9245956731779038,
      "grad_norm": 1.625,
      "learning_rate": 0.0004920691377156895,
      "loss": 5.5865,
      "mean_token_accuracy": 0.15644698292016984,
      "num_tokens": 20316448.0,
      "step": 11005
    },
    {
      "entropy": 5.867019748687744,
      "epoch": 0.9250157529930687,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004920612550064488,
      "loss": 5.7449,
      "mean_token_accuracy": 0.1475832186639309,
      "num_tokens": 20326440.0,
      "step": 11010
    },
    {
      "entropy": 5.769907808303833,
      "epoch": 0.9254358328082336,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004920533684520797,
      "loss": 5.5086,
      "mean_token_accuracy": 0.15823858827352524,
      "num_tokens": 20335447.0,
      "step": 11015
    },
    {
      "entropy": 5.750536823272705,
      "epoch": 0.9258559126233984,
      "grad_norm": 1.6796875,
      "learning_rate": 0.000492045478052722,
      "loss": 5.6596,
      "mean_token_accuracy": 0.15351206958293914,
      "num_tokens": 20344523.0,
      "step": 11020
    },
    {
      "entropy": 5.741793203353882,
      "epoch": 0.9262759924385633,
      "grad_norm": 1.921875,
      "learning_rate": 0.0004920375838085154,
      "loss": 5.6171,
      "mean_token_accuracy": 0.1559000790119171,
      "num_tokens": 20354267.0,
      "step": 11025
    },
    {
      "entropy": 5.798118543624878,
      "epoch": 0.9266960722537282,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004920296857195998,
      "loss": 5.6771,
      "mean_token_accuracy": 0.15482696294784545,
      "num_tokens": 20364137.0,
      "step": 11030
    },
    {
      "entropy": 5.799237871170044,
      "epoch": 0.9271161520688931,
      "grad_norm": 1.53125,
      "learning_rate": 0.000492021783786115,
      "loss": 5.5804,
      "mean_token_accuracy": 0.16075632423162461,
      "num_tokens": 20372583.0,
      "step": 11035
    },
    {
      "entropy": 5.6686241149902346,
      "epoch": 0.927536231884058,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004920138780082011,
      "loss": 5.5397,
      "mean_token_accuracy": 0.15648741349577905,
      "num_tokens": 20382050.0,
      "step": 11040
    },
    {
      "entropy": 5.725726461410522,
      "epoch": 0.9279563116992229,
      "grad_norm": 1.875,
      "learning_rate": 0.0004920059683859981,
      "loss": 5.4955,
      "mean_token_accuracy": 0.1606592372059822,
      "num_tokens": 20391425.0,
      "step": 11045
    },
    {
      "entropy": 5.798936271667481,
      "epoch": 0.9283763915143878,
      "grad_norm": 1.921875,
      "learning_rate": 0.0004919980549196461,
      "loss": 5.6647,
      "mean_token_accuracy": 0.15349570661783218,
      "num_tokens": 20400559.0,
      "step": 11050
    },
    {
      "entropy": 5.767499828338623,
      "epoch": 0.9287964713295526,
      "grad_norm": 1.875,
      "learning_rate": 0.0004919901376092853,
      "loss": 5.5783,
      "mean_token_accuracy": 0.16081294864416124,
      "num_tokens": 20408985.0,
      "step": 11055
    },
    {
      "entropy": 5.7440389633178714,
      "epoch": 0.9292165511447175,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004919822164550559,
      "loss": 5.6773,
      "mean_token_accuracy": 0.14321673214435576,
      "num_tokens": 20417855.0,
      "step": 11060
    },
    {
      "entropy": 5.744246864318848,
      "epoch": 0.9296366309598824,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004919742914570983,
      "loss": 5.6304,
      "mean_token_accuracy": 0.1557525396347046,
      "num_tokens": 20426191.0,
      "step": 11065
    },
    {
      "entropy": 5.765243244171143,
      "epoch": 0.9300567107750473,
      "grad_norm": 1.53125,
      "learning_rate": 0.000491966362615553,
      "loss": 5.6006,
      "mean_token_accuracy": 0.15035101026296616,
      "num_tokens": 20435592.0,
      "step": 11070
    },
    {
      "entropy": 5.85240740776062,
      "epoch": 0.9304767905902122,
      "grad_norm": 1.578125,
      "learning_rate": 0.00049195842993056,
      "loss": 5.634,
      "mean_token_accuracy": 0.15329790860414505,
      "num_tokens": 20445504.0,
      "step": 11075
    },
    {
      "entropy": 5.803719425201416,
      "epoch": 0.930896870405377,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004919504934022604,
      "loss": 5.578,
      "mean_token_accuracy": 0.15457095801830292,
      "num_tokens": 20455153.0,
      "step": 11080
    },
    {
      "entropy": 5.7237049579620365,
      "epoch": 0.931316950220542,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004919425530307943,
      "loss": 5.5681,
      "mean_token_accuracy": 0.15656672269105912,
      "num_tokens": 20465101.0,
      "step": 11085
    },
    {
      "entropy": 5.742412662506103,
      "epoch": 0.9317370300357067,
      "grad_norm": 2.015625,
      "learning_rate": 0.0004919346088163028,
      "loss": 5.615,
      "mean_token_accuracy": 0.1582319989800453,
      "num_tokens": 20474700.0,
      "step": 11090
    },
    {
      "entropy": 5.835652637481689,
      "epoch": 0.9321571098508716,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004919266607589263,
      "loss": 5.6564,
      "mean_token_accuracy": 0.15037914365530014,
      "num_tokens": 20483945.0,
      "step": 11095
    },
    {
      "entropy": 5.8025538444519045,
      "epoch": 0.9325771896660365,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004919187088588057,
      "loss": 5.6307,
      "mean_token_accuracy": 0.15815725028514863,
      "num_tokens": 20493307.0,
      "step": 11100
    },
    {
      "entropy": 5.722408819198608,
      "epoch": 0.9329972694812014,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004919107531160819,
      "loss": 5.5552,
      "mean_token_accuracy": 0.1643086478114128,
      "num_tokens": 20501889.0,
      "step": 11105
    },
    {
      "entropy": 5.729394769668579,
      "epoch": 0.9334173492963663,
      "grad_norm": 1.8125,
      "learning_rate": 0.0004919027935308957,
      "loss": 5.5785,
      "mean_token_accuracy": 0.15731487423181534,
      "num_tokens": 20510577.0,
      "step": 11110
    },
    {
      "entropy": 5.651753997802734,
      "epoch": 0.9338374291115312,
      "grad_norm": 1.75,
      "learning_rate": 0.0004918948301033884,
      "loss": 5.5583,
      "mean_token_accuracy": 0.15677412003278732,
      "num_tokens": 20520025.0,
      "step": 11115
    },
    {
      "entropy": 5.799631404876709,
      "epoch": 0.9342575089266961,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004918868628337007,
      "loss": 5.6042,
      "mean_token_accuracy": 0.15233962684869767,
      "num_tokens": 20528989.0,
      "step": 11120
    },
    {
      "entropy": 5.779157257080078,
      "epoch": 0.9346775887418609,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004918788917219739,
      "loss": 5.5609,
      "mean_token_accuracy": 0.15591868460178376,
      "num_tokens": 20538328.0,
      "step": 11125
    },
    {
      "entropy": 5.714973402023316,
      "epoch": 0.9350976685570258,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004918709167683493,
      "loss": 5.686,
      "mean_token_accuracy": 0.15123260617256165,
      "num_tokens": 20548069.0,
      "step": 11130
    },
    {
      "entropy": 5.690325927734375,
      "epoch": 0.9355177483721907,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004918629379729681,
      "loss": 5.4379,
      "mean_token_accuracy": 0.16827901899814607,
      "num_tokens": 20557128.0,
      "step": 11135
    },
    {
      "entropy": 5.725959730148316,
      "epoch": 0.9359378281873556,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004918549553359715,
      "loss": 5.5616,
      "mean_token_accuracy": 0.15457266718149185,
      "num_tokens": 20566352.0,
      "step": 11140
    },
    {
      "entropy": 5.780063915252685,
      "epoch": 0.9363579080025205,
      "grad_norm": 2.0,
      "learning_rate": 0.0004918469688575012,
      "loss": 5.6077,
      "mean_token_accuracy": 0.1547131732106209,
      "num_tokens": 20575814.0,
      "step": 11145
    },
    {
      "entropy": 5.752800464630127,
      "epoch": 0.9367779878176854,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004918389785376983,
      "loss": 5.4704,
      "mean_token_accuracy": 0.16297883689403533,
      "num_tokens": 20584715.0,
      "step": 11150
    },
    {
      "entropy": 5.691038417816162,
      "epoch": 0.9371980676328503,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004918309843767047,
      "loss": 5.563,
      "mean_token_accuracy": 0.15457476824522018,
      "num_tokens": 20594630.0,
      "step": 11155
    },
    {
      "entropy": 5.705981302261352,
      "epoch": 0.9376181474480151,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004918229863746618,
      "loss": 5.5344,
      "mean_token_accuracy": 0.15329102724790572,
      "num_tokens": 20603653.0,
      "step": 11160
    },
    {
      "entropy": 5.809178400039673,
      "epoch": 0.93803822726318,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004918149845317114,
      "loss": 5.6041,
      "mean_token_accuracy": 0.15675780922174454,
      "num_tokens": 20612188.0,
      "step": 11165
    },
    {
      "entropy": 5.743681907653809,
      "epoch": 0.9384583070783449,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004918069788479952,
      "loss": 5.5291,
      "mean_token_accuracy": 0.16411179453134536,
      "num_tokens": 20620933.0,
      "step": 11170
    },
    {
      "entropy": 5.689119815826416,
      "epoch": 0.9388783868935098,
      "grad_norm": 1.625,
      "learning_rate": 0.0004917989693236549,
      "loss": 5.5733,
      "mean_token_accuracy": 0.1595962554216385,
      "num_tokens": 20629919.0,
      "step": 11175
    },
    {
      "entropy": 5.739494895935058,
      "epoch": 0.9392984667086747,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004917909559588326,
      "loss": 5.5402,
      "mean_token_accuracy": 0.1560191825032234,
      "num_tokens": 20638475.0,
      "step": 11180
    },
    {
      "entropy": 5.911345434188843,
      "epoch": 0.9397185465238396,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00049178293875367,
      "loss": 5.6769,
      "mean_token_accuracy": 0.1469906136393547,
      "num_tokens": 20648105.0,
      "step": 11185
    },
    {
      "entropy": 5.764797687530518,
      "epoch": 0.9401386263390044,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004917749177083094,
      "loss": 5.5703,
      "mean_token_accuracy": 0.1515391141176224,
      "num_tokens": 20657527.0,
      "step": 11190
    },
    {
      "entropy": 5.723624420166016,
      "epoch": 0.9405587061541693,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004917668928228927,
      "loss": 5.5763,
      "mean_token_accuracy": 0.1612919121980667,
      "num_tokens": 20666375.0,
      "step": 11195
    },
    {
      "entropy": 5.723942565917969,
      "epoch": 0.9409787859693342,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004917588640975622,
      "loss": 5.5232,
      "mean_token_accuracy": 0.1613648310303688,
      "num_tokens": 20675350.0,
      "step": 11200
    },
    {
      "entropy": 5.659457588195801,
      "epoch": 0.941398865784499,
      "grad_norm": 2.03125,
      "learning_rate": 0.00049175083153246,
      "loss": 5.4574,
      "mean_token_accuracy": 0.15883690416812896,
      "num_tokens": 20684072.0,
      "step": 11205
    },
    {
      "entropy": 5.678450441360473,
      "epoch": 0.941818945599664,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004917427951277284,
      "loss": 5.5619,
      "mean_token_accuracy": 0.16161370575428008,
      "num_tokens": 20692989.0,
      "step": 11210
    },
    {
      "entropy": 5.763214254379273,
      "epoch": 0.9422390254148288,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004917347548835097,
      "loss": 5.5035,
      "mean_token_accuracy": 0.16200087666511537,
      "num_tokens": 20701269.0,
      "step": 11215
    },
    {
      "entropy": 5.759133005142212,
      "epoch": 0.9426591052299937,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004917267107999466,
      "loss": 5.6106,
      "mean_token_accuracy": 0.15289842039346696,
      "num_tokens": 20709739.0,
      "step": 11220
    },
    {
      "entropy": 5.739570665359497,
      "epoch": 0.9430791850451585,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004917186628771812,
      "loss": 5.5576,
      "mean_token_accuracy": 0.16139040291309356,
      "num_tokens": 20718950.0,
      "step": 11225
    },
    {
      "entropy": 5.755300760269165,
      "epoch": 0.9434992648603234,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004917106111153565,
      "loss": 5.5673,
      "mean_token_accuracy": 0.1547436758875847,
      "num_tokens": 20729469.0,
      "step": 11230
    },
    {
      "entropy": 5.775959253311157,
      "epoch": 0.9439193446754883,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0004917025555146148,
      "loss": 5.5744,
      "mean_token_accuracy": 0.1662562906742096,
      "num_tokens": 20738231.0,
      "step": 11235
    },
    {
      "entropy": 5.756017684936523,
      "epoch": 0.9443394244906532,
      "grad_norm": 1.3203125,
      "learning_rate": 0.000491694496075099,
      "loss": 5.7704,
      "mean_token_accuracy": 0.14358580783009528,
      "num_tokens": 20748578.0,
      "step": 11240
    },
    {
      "entropy": 5.837352752685547,
      "epoch": 0.9447595043058181,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004916864327969517,
      "loss": 5.7026,
      "mean_token_accuracy": 0.14462515115737914,
      "num_tokens": 20759284.0,
      "step": 11245
    },
    {
      "entropy": 5.8536529541015625,
      "epoch": 0.945179584120983,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0004916783656803158,
      "loss": 5.6316,
      "mean_token_accuracy": 0.15945006310939788,
      "num_tokens": 20768186.0,
      "step": 11250
    },
    {
      "entropy": 5.695327425003052,
      "epoch": 0.9455996639361479,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004916702947253342,
      "loss": 5.5009,
      "mean_token_accuracy": 0.16529642790555954,
      "num_tokens": 20776711.0,
      "step": 11255
    },
    {
      "entropy": 5.7685582637786865,
      "epoch": 0.9460197437513127,
      "grad_norm": 2.234375,
      "learning_rate": 0.0004916622199321501,
      "loss": 5.5766,
      "mean_token_accuracy": 0.15894216895103455,
      "num_tokens": 20785154.0,
      "step": 11260
    },
    {
      "entropy": 5.80894103050232,
      "epoch": 0.9464398235664776,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004916541413009062,
      "loss": 5.5194,
      "mean_token_accuracy": 0.16128009110689162,
      "num_tokens": 20794114.0,
      "step": 11265
    },
    {
      "entropy": 5.7742784976959225,
      "epoch": 0.9468599033816425,
      "grad_norm": 1.953125,
      "learning_rate": 0.0004916460588317458,
      "loss": 5.6258,
      "mean_token_accuracy": 0.14817884638905526,
      "num_tokens": 20803892.0,
      "step": 11270
    },
    {
      "entropy": 5.641349744796753,
      "epoch": 0.9472799831968074,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004916379725248118,
      "loss": 5.511,
      "mean_token_accuracy": 0.16303833425045014,
      "num_tokens": 20812892.0,
      "step": 11275
    },
    {
      "entropy": 5.743069410324097,
      "epoch": 0.9477000630119723,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004916298823802479,
      "loss": 5.5676,
      "mean_token_accuracy": 0.1500309720635414,
      "num_tokens": 20821934.0,
      "step": 11280
    },
    {
      "entropy": 5.725360774993897,
      "epoch": 0.9481201428271372,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004916217883981971,
      "loss": 5.4977,
      "mean_token_accuracy": 0.15707524865865707,
      "num_tokens": 20830100.0,
      "step": 11285
    },
    {
      "entropy": 5.692885828018189,
      "epoch": 0.9485402226423021,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004916136905788029,
      "loss": 5.5708,
      "mean_token_accuracy": 0.15760752707719802,
      "num_tokens": 20839890.0,
      "step": 11290
    },
    {
      "entropy": 5.779399299621582,
      "epoch": 0.9489603024574669,
      "grad_norm": 1.78125,
      "learning_rate": 0.0004916055889222087,
      "loss": 5.6962,
      "mean_token_accuracy": 0.14309152886271476,
      "num_tokens": 20848670.0,
      "step": 11295
    },
    {
      "entropy": 5.753837442398071,
      "epoch": 0.9493803822726318,
      "grad_norm": 1.796875,
      "learning_rate": 0.000491597483428558,
      "loss": 5.5372,
      "mean_token_accuracy": 0.16605689823627473,
      "num_tokens": 20857291.0,
      "step": 11300
    },
    {
      "entropy": 5.653014183044434,
      "epoch": 0.9498004620877967,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0004915893740979944,
      "loss": 5.4998,
      "mean_token_accuracy": 0.16381447315216063,
      "num_tokens": 20865341.0,
      "step": 11305
    },
    {
      "entropy": 5.805274391174317,
      "epoch": 0.9502205419029616,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004915812609306617,
      "loss": 5.6431,
      "mean_token_accuracy": 0.15660493373870848,
      "num_tokens": 20875194.0,
      "step": 11310
    },
    {
      "entropy": 5.8244353294372555,
      "epoch": 0.9506406217181265,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004915731439267034,
      "loss": 5.5483,
      "mean_token_accuracy": 0.1535589724779129,
      "num_tokens": 20884831.0,
      "step": 11315
    },
    {
      "entropy": 5.66036376953125,
      "epoch": 0.9510607015332914,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004915650230862634,
      "loss": 5.431,
      "mean_token_accuracy": 0.16502011716365814,
      "num_tokens": 20893790.0,
      "step": 11320
    },
    {
      "entropy": 5.638264322280884,
      "epoch": 0.9514807813484563,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004915568984094854,
      "loss": 5.5594,
      "mean_token_accuracy": 0.15512819588184357,
      "num_tokens": 20902175.0,
      "step": 11325
    },
    {
      "entropy": 5.824262189865112,
      "epoch": 0.951900861163621,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004915487698965136,
      "loss": 5.694,
      "mean_token_accuracy": 0.14529131203889847,
      "num_tokens": 20911484.0,
      "step": 11330
    },
    {
      "entropy": 5.88162055015564,
      "epoch": 0.952320940978786,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004915406375474917,
      "loss": 5.6445,
      "mean_token_accuracy": 0.14643194004893303,
      "num_tokens": 20920916.0,
      "step": 11335
    },
    {
      "entropy": 5.807900476455688,
      "epoch": 0.9527410207939508,
      "grad_norm": 1.4453125,
      "learning_rate": 0.000491532501362564,
      "loss": 5.6522,
      "mean_token_accuracy": 0.15773532688617706,
      "num_tokens": 20930219.0,
      "step": 11340
    },
    {
      "entropy": 5.679394388198853,
      "epoch": 0.9531611006091157,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004915243613418745,
      "loss": 5.482,
      "mean_token_accuracy": 0.16191438734531402,
      "num_tokens": 20939591.0,
      "step": 11345
    },
    {
      "entropy": 5.767440366744995,
      "epoch": 0.9535811804242806,
      "grad_norm": 1.78125,
      "learning_rate": 0.0004915162174855675,
      "loss": 5.6543,
      "mean_token_accuracy": 0.15383701771497726,
      "num_tokens": 20950035.0,
      "step": 11350
    },
    {
      "entropy": 5.7626283168792725,
      "epoch": 0.9540012602394455,
      "grad_norm": 1.8125,
      "learning_rate": 0.0004915080697937872,
      "loss": 5.5616,
      "mean_token_accuracy": 0.15663446485996246,
      "num_tokens": 20959168.0,
      "step": 11355
    },
    {
      "entropy": 5.7188849449157715,
      "epoch": 0.9544213400546103,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004914999182666779,
      "loss": 5.4866,
      "mean_token_accuracy": 0.1626068413257599,
      "num_tokens": 20967887.0,
      "step": 11360
    },
    {
      "entropy": 5.763808012008667,
      "epoch": 0.9548414198697752,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0004914917629043839,
      "loss": 5.5862,
      "mean_token_accuracy": 0.15319453924894333,
      "num_tokens": 20977558.0,
      "step": 11365
    },
    {
      "entropy": 5.650288105010986,
      "epoch": 0.9552614996849401,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00049148360370705,
      "loss": 5.5436,
      "mean_token_accuracy": 0.16097380816936493,
      "num_tokens": 20986118.0,
      "step": 11370
    },
    {
      "entropy": 5.754954528808594,
      "epoch": 0.955681579500105,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004914754406748204,
      "loss": 5.4839,
      "mean_token_accuracy": 0.16297108978033065,
      "num_tokens": 20994623.0,
      "step": 11375
    },
    {
      "entropy": 5.77275652885437,
      "epoch": 0.9561016593152699,
      "grad_norm": 1.46875,
      "learning_rate": 0.00049146727380784,
      "loss": 5.6615,
      "mean_token_accuracy": 0.15102900862693786,
      "num_tokens": 21004193.0,
      "step": 11380
    },
    {
      "entropy": 5.690639591217041,
      "epoch": 0.9565217391304348,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004914591031062531,
      "loss": 5.4908,
      "mean_token_accuracy": 0.16743318736553192,
      "num_tokens": 21013125.0,
      "step": 11385
    },
    {
      "entropy": 5.655840444564819,
      "epoch": 0.9569418189455997,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004914509285702048,
      "loss": 5.4135,
      "mean_token_accuracy": 0.16690310835838318,
      "num_tokens": 21021402.0,
      "step": 11390
    },
    {
      "entropy": 5.710651922225952,
      "epoch": 0.9573618987607645,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004914427501998397,
      "loss": 5.5028,
      "mean_token_accuracy": 0.15886269211769105,
      "num_tokens": 21029639.0,
      "step": 11395
    },
    {
      "entropy": 5.7445274829864506,
      "epoch": 0.9577819785759294,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004914345679953027,
      "loss": 5.5347,
      "mean_token_accuracy": 0.16092265099287034,
      "num_tokens": 21037525.0,
      "step": 11400
    },
    {
      "entropy": 5.767073345184326,
      "epoch": 0.9582020583910943,
      "grad_norm": 1.75,
      "learning_rate": 0.0004914263819567388,
      "loss": 5.6295,
      "mean_token_accuracy": 0.1497710943222046,
      "num_tokens": 21047702.0,
      "step": 11405
    },
    {
      "entropy": 5.790897989273072,
      "epoch": 0.9586221382062592,
      "grad_norm": 1.53125,
      "learning_rate": 0.000491418192084293,
      "loss": 5.5474,
      "mean_token_accuracy": 0.16184664964675904,
      "num_tokens": 21056379.0,
      "step": 11410
    },
    {
      "entropy": 5.7481053352355955,
      "epoch": 0.9590422180214241,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004914099983781104,
      "loss": 5.5489,
      "mean_token_accuracy": 0.16056970357894898,
      "num_tokens": 21065283.0,
      "step": 11415
    },
    {
      "entropy": 5.769461059570313,
      "epoch": 0.959462297836589,
      "grad_norm": 1.8125,
      "learning_rate": 0.000491401800838336,
      "loss": 5.6633,
      "mean_token_accuracy": 0.15242091715335845,
      "num_tokens": 21074938.0,
      "step": 11420
    },
    {
      "entropy": 5.7138519287109375,
      "epoch": 0.9598823776517539,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004913935994651153,
      "loss": 5.514,
      "mean_token_accuracy": 0.16224966198205948,
      "num_tokens": 21084729.0,
      "step": 11425
    },
    {
      "entropy": 5.642538785934448,
      "epoch": 0.9603024574669187,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004913853942585932,
      "loss": 5.4117,
      "mean_token_accuracy": 0.16488994657993317,
      "num_tokens": 21093456.0,
      "step": 11430
    },
    {
      "entropy": 5.686456680297852,
      "epoch": 0.9607225372820836,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004913771852189155,
      "loss": 5.5451,
      "mean_token_accuracy": 0.15687460005283355,
      "num_tokens": 21102980.0,
      "step": 11435
    },
    {
      "entropy": 5.848186016082764,
      "epoch": 0.9611426170972485,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004913689723462271,
      "loss": 5.7858,
      "mean_token_accuracy": 0.16201310455799103,
      "num_tokens": 21112777.0,
      "step": 11440
    },
    {
      "entropy": 5.803880500793457,
      "epoch": 0.9615626969124134,
      "grad_norm": 1.625,
      "learning_rate": 0.000491360755640674,
      "loss": 5.6636,
      "mean_token_accuracy": 0.15397086888551711,
      "num_tokens": 21122139.0,
      "step": 11445
    },
    {
      "entropy": 5.7530255794525145,
      "epoch": 0.9619827767275783,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004913525351024014,
      "loss": 5.5361,
      "mean_token_accuracy": 0.15754189491271972,
      "num_tokens": 21131425.0,
      "step": 11450
    },
    {
      "entropy": 5.708436107635498,
      "epoch": 0.9624028565427432,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004913443107315552,
      "loss": 5.5081,
      "mean_token_accuracy": 0.15728521049022676,
      "num_tokens": 21140784.0,
      "step": 11455
    },
    {
      "entropy": 5.700329685211182,
      "epoch": 0.962822936357908,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004913360825282807,
      "loss": 5.5271,
      "mean_token_accuracy": 0.16611011624336242,
      "num_tokens": 21150408.0,
      "step": 11460
    },
    {
      "entropy": 5.716848659515381,
      "epoch": 0.9632430161730728,
      "grad_norm": 1.6640625,
      "learning_rate": 0.000491327850492724,
      "loss": 5.6151,
      "mean_token_accuracy": 0.1602442279458046,
      "num_tokens": 21158915.0,
      "step": 11465
    },
    {
      "entropy": 5.630804204940796,
      "epoch": 0.9636630959882377,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004913196146250309,
      "loss": 5.4172,
      "mean_token_accuracy": 0.16883472204208375,
      "num_tokens": 21167336.0,
      "step": 11470
    },
    {
      "entropy": 5.830715799331665,
      "epoch": 0.9640831758034026,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004913113749253472,
      "loss": 5.7333,
      "mean_token_accuracy": 0.15114703625440598,
      "num_tokens": 21177499.0,
      "step": 11475
    },
    {
      "entropy": 5.8909022331237795,
      "epoch": 0.9645032556185675,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0004913031313938188,
      "loss": 5.6341,
      "mean_token_accuracy": 0.15465849339962007,
      "num_tokens": 21186961.0,
      "step": 11480
    },
    {
      "entropy": 5.749186849594116,
      "epoch": 0.9649233354337324,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004912948840305919,
      "loss": 5.5207,
      "mean_token_accuracy": 0.1647267997264862,
      "num_tokens": 21196364.0,
      "step": 11485
    },
    {
      "entropy": 5.710730838775635,
      "epoch": 0.9653434152488973,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004912866328358125,
      "loss": 5.5995,
      "mean_token_accuracy": 0.15677765160799026,
      "num_tokens": 21206376.0,
      "step": 11490
    },
    {
      "entropy": 5.779667091369629,
      "epoch": 0.9657634950640621,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004912783778096266,
      "loss": 5.5689,
      "mean_token_accuracy": 0.16532181650400163,
      "num_tokens": 21215889.0,
      "step": 11495
    },
    {
      "entropy": 5.756943035125732,
      "epoch": 0.966183574879227,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004912701189521808,
      "loss": 5.5847,
      "mean_token_accuracy": 0.16167923510074617,
      "num_tokens": 21224959.0,
      "step": 11500
    },
    {
      "entropy": 5.824455404281617,
      "epoch": 0.9666036546943919,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004912618562636211,
      "loss": 5.6996,
      "mean_token_accuracy": 0.1518427163362503,
      "num_tokens": 21234495.0,
      "step": 11505
    },
    {
      "entropy": 5.704730606079101,
      "epoch": 0.9670237345095568,
      "grad_norm": 1.3984375,
      "learning_rate": 0.000491253589744094,
      "loss": 5.5344,
      "mean_token_accuracy": 0.1582339495420456,
      "num_tokens": 21244555.0,
      "step": 11510
    },
    {
      "entropy": 5.786595106124878,
      "epoch": 0.9674438143247217,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0004912453193937459,
      "loss": 5.6929,
      "mean_token_accuracy": 0.1545358881354332,
      "num_tokens": 21254199.0,
      "step": 11515
    },
    {
      "entropy": 5.79626088142395,
      "epoch": 0.9678638941398866,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004912370452127234,
      "loss": 5.5811,
      "mean_token_accuracy": 0.15614356994628906,
      "num_tokens": 21262723.0,
      "step": 11520
    },
    {
      "entropy": 5.749001598358154,
      "epoch": 0.9682839739550515,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004912287672011728,
      "loss": 5.498,
      "mean_token_accuracy": 0.16639503091573715,
      "num_tokens": 21271283.0,
      "step": 11525
    },
    {
      "entropy": 5.694228219985962,
      "epoch": 0.9687040537702163,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004912204853592411,
      "loss": 5.5549,
      "mean_token_accuracy": 0.1661546677350998,
      "num_tokens": 21279542.0,
      "step": 11530
    },
    {
      "entropy": 5.738241815567017,
      "epoch": 0.9691241335853812,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004912121996870748,
      "loss": 5.5345,
      "mean_token_accuracy": 0.16057475954294204,
      "num_tokens": 21288678.0,
      "step": 11535
    },
    {
      "entropy": 5.781418895721435,
      "epoch": 0.9695442134005461,
      "grad_norm": 1.25,
      "learning_rate": 0.0004912039101848207,
      "loss": 5.6681,
      "mean_token_accuracy": 0.1558816574513912,
      "num_tokens": 21298982.0,
      "step": 11540
    },
    {
      "entropy": 5.759183168411255,
      "epoch": 0.969964293215711,
      "grad_norm": 2.015625,
      "learning_rate": 0.0004911956168526257,
      "loss": 5.609,
      "mean_token_accuracy": 0.1565386489033699,
      "num_tokens": 21307663.0,
      "step": 11545
    },
    {
      "entropy": 5.845695209503174,
      "epoch": 0.9703843730308759,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004911873196906366,
      "loss": 5.6214,
      "mean_token_accuracy": 0.1554511606693268,
      "num_tokens": 21318004.0,
      "step": 11550
    },
    {
      "entropy": 5.676923847198486,
      "epoch": 0.9708044528460408,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004911790186990005,
      "loss": 5.4377,
      "mean_token_accuracy": 0.16938215047121047,
      "num_tokens": 21327373.0,
      "step": 11555
    },
    {
      "entropy": 5.664393568038941,
      "epoch": 0.9712245326612057,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004911707138778643,
      "loss": 5.5261,
      "mean_token_accuracy": 0.15850266367197036,
      "num_tokens": 21335654.0,
      "step": 11560
    },
    {
      "entropy": 5.805261135101318,
      "epoch": 0.9716446124763705,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004911624052273754,
      "loss": 5.5917,
      "mean_token_accuracy": 0.15714938044548035,
      "num_tokens": 21344464.0,
      "step": 11565
    },
    {
      "entropy": 5.811971664428711,
      "epoch": 0.9720646922915354,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004911540927476807,
      "loss": 5.6846,
      "mean_token_accuracy": 0.15539554506540298,
      "num_tokens": 21354121.0,
      "step": 11570
    },
    {
      "entropy": 5.761470699310303,
      "epoch": 0.9724847721067003,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004911457764389275,
      "loss": 5.6129,
      "mean_token_accuracy": 0.16058044135570526,
      "num_tokens": 21363395.0,
      "step": 11575
    },
    {
      "entropy": 5.740648984909058,
      "epoch": 0.9729048519218652,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004911374563012633,
      "loss": 5.5736,
      "mean_token_accuracy": 0.15647933781147003,
      "num_tokens": 21372126.0,
      "step": 11580
    },
    {
      "entropy": 5.771029758453369,
      "epoch": 0.97332493173703,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004911291323348352,
      "loss": 5.6557,
      "mean_token_accuracy": 0.14915687441825867,
      "num_tokens": 21380554.0,
      "step": 11585
    },
    {
      "entropy": 5.70338454246521,
      "epoch": 0.973745011552195,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004911208045397909,
      "loss": 5.5306,
      "mean_token_accuracy": 0.15759393125772475,
      "num_tokens": 21389317.0,
      "step": 11590
    },
    {
      "entropy": 5.784313058853149,
      "epoch": 0.9741650913673598,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004911124729162778,
      "loss": 5.66,
      "mean_token_accuracy": 0.1539946123957634,
      "num_tokens": 21398926.0,
      "step": 11595
    },
    {
      "entropy": 5.741526746749878,
      "epoch": 0.9745851711825246,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0004911041374644435,
      "loss": 5.4636,
      "mean_token_accuracy": 0.16005127429962157,
      "num_tokens": 21406962.0,
      "step": 11600
    },
    {
      "entropy": 5.734314489364624,
      "epoch": 0.9750052509976895,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004910957981844357,
      "loss": 5.5654,
      "mean_token_accuracy": 0.16124276220798492,
      "num_tokens": 21415868.0,
      "step": 11605
    },
    {
      "entropy": 5.803146696090698,
      "epoch": 0.9754253308128544,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004910874550764022,
      "loss": 5.6967,
      "mean_token_accuracy": 0.15788596943020822,
      "num_tokens": 21424544.0,
      "step": 11610
    },
    {
      "entropy": 5.653631067276001,
      "epoch": 0.9758454106280193,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004910791081404907,
      "loss": 5.5587,
      "mean_token_accuracy": 0.16439975649118424,
      "num_tokens": 21433589.0,
      "step": 11615
    },
    {
      "entropy": 5.75174469947815,
      "epoch": 0.9762654904431842,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004910707573768489,
      "loss": 5.6188,
      "mean_token_accuracy": 0.15351523384451865,
      "num_tokens": 21442084.0,
      "step": 11620
    },
    {
      "entropy": 5.711339998245239,
      "epoch": 0.9766855702583491,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004910624027856251,
      "loss": 5.5242,
      "mean_token_accuracy": 0.15779978781938553,
      "num_tokens": 21450962.0,
      "step": 11625
    },
    {
      "entropy": 5.761394453048706,
      "epoch": 0.977105650073514,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004910540443669669,
      "loss": 5.616,
      "mean_token_accuracy": 0.15358125492930413,
      "num_tokens": 21461322.0,
      "step": 11630
    },
    {
      "entropy": 5.790155363082886,
      "epoch": 0.9775257298886788,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004910456821210227,
      "loss": 5.5963,
      "mean_token_accuracy": 0.16139813885092735,
      "num_tokens": 21470800.0,
      "step": 11635
    },
    {
      "entropy": 5.705955171585083,
      "epoch": 0.9779458097038437,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004910373160479404,
      "loss": 5.4578,
      "mean_token_accuracy": 0.1623155578970909,
      "num_tokens": 21479707.0,
      "step": 11640
    },
    {
      "entropy": 5.705592966079712,
      "epoch": 0.9783658895190086,
      "grad_norm": 1.765625,
      "learning_rate": 0.0004910289461478683,
      "loss": 5.6531,
      "mean_token_accuracy": 0.14903590232133865,
      "num_tokens": 21489469.0,
      "step": 11645
    },
    {
      "entropy": 5.782165670394898,
      "epoch": 0.9787859693341735,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004910205724209547,
      "loss": 5.6102,
      "mean_token_accuracy": 0.15439205691218377,
      "num_tokens": 21499226.0,
      "step": 11650
    },
    {
      "entropy": 5.662615633010864,
      "epoch": 0.9792060491493384,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004910121948673478,
      "loss": 5.4725,
      "mean_token_accuracy": 0.16271869242191314,
      "num_tokens": 21508129.0,
      "step": 11655
    },
    {
      "entropy": 5.677742385864258,
      "epoch": 0.9796261289645033,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004910038134871962,
      "loss": 5.5133,
      "mean_token_accuracy": 0.16307872533798218,
      "num_tokens": 21516293.0,
      "step": 11660
    },
    {
      "entropy": 5.8114800453186035,
      "epoch": 0.9800462087796681,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004909954282806482,
      "loss": 5.663,
      "mean_token_accuracy": 0.15625039413571357,
      "num_tokens": 21525393.0,
      "step": 11665
    },
    {
      "entropy": 5.650265026092529,
      "epoch": 0.980466288594833,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004909870392478524,
      "loss": 5.5162,
      "mean_token_accuracy": 0.15820949375629426,
      "num_tokens": 21534585.0,
      "step": 11670
    },
    {
      "entropy": 5.637864255905152,
      "epoch": 0.9808863684099979,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004909786463889575,
      "loss": 5.4578,
      "mean_token_accuracy": 0.16383379697799683,
      "num_tokens": 21542947.0,
      "step": 11675
    },
    {
      "entropy": 5.737944889068603,
      "epoch": 0.9813064482251628,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004909702497041121,
      "loss": 5.5743,
      "mean_token_accuracy": 0.16033673286437988,
      "num_tokens": 21552168.0,
      "step": 11680
    },
    {
      "entropy": 5.723841714859009,
      "epoch": 0.9817265280403277,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004909618491934648,
      "loss": 5.577,
      "mean_token_accuracy": 0.16168997883796693,
      "num_tokens": 21562131.0,
      "step": 11685
    },
    {
      "entropy": 5.690407085418701,
      "epoch": 0.9821466078554926,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004909534448571647,
      "loss": 5.5295,
      "mean_token_accuracy": 0.1657412603497505,
      "num_tokens": 21571363.0,
      "step": 11690
    },
    {
      "entropy": 5.723976564407349,
      "epoch": 0.9825666876706575,
      "grad_norm": 1.625,
      "learning_rate": 0.0004909450366953604,
      "loss": 5.5015,
      "mean_token_accuracy": 0.16331232860684394,
      "num_tokens": 21580754.0,
      "step": 11695
    },
    {
      "entropy": 5.728280305862427,
      "epoch": 0.9829867674858223,
      "grad_norm": 1.390625,
      "learning_rate": 0.000490936624708201,
      "loss": 5.6055,
      "mean_token_accuracy": 0.15559826791286469,
      "num_tokens": 21590053.0,
      "step": 11700
    },
    {
      "entropy": 5.720153570175171,
      "epoch": 0.9834068473009872,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004909282088958356,
      "loss": 5.5648,
      "mean_token_accuracy": 0.1572035074234009,
      "num_tokens": 21598681.0,
      "step": 11705
    },
    {
      "entropy": 5.809522724151611,
      "epoch": 0.983826927116152,
      "grad_norm": 1.6953125,
      "learning_rate": 0.000490919789258413,
      "loss": 5.5901,
      "mean_token_accuracy": 0.1646919757127762,
      "num_tokens": 21607465.0,
      "step": 11710
    },
    {
      "entropy": 5.760197687149048,
      "epoch": 0.984247006931317,
      "grad_norm": 2.0,
      "learning_rate": 0.0004909113657960826,
      "loss": 5.6859,
      "mean_token_accuracy": 0.1438727371394634,
      "num_tokens": 21617480.0,
      "step": 11715
    },
    {
      "entropy": 5.747771978378296,
      "epoch": 0.9846670867464818,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004909029385089935,
      "loss": 5.5799,
      "mean_token_accuracy": 0.16191355288028716,
      "num_tokens": 21626434.0,
      "step": 11720
    },
    {
      "entropy": 5.759758377075196,
      "epoch": 0.9850871665616467,
      "grad_norm": 1.5546875,
      "learning_rate": 0.000490894507397295,
      "loss": 5.5507,
      "mean_token_accuracy": 0.1621351957321167,
      "num_tokens": 21635627.0,
      "step": 11725
    },
    {
      "entropy": 5.738065910339356,
      "epoch": 0.9855072463768116,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004908860724611365,
      "loss": 5.5608,
      "mean_token_accuracy": 0.1566981017589569,
      "num_tokens": 21644789.0,
      "step": 11730
    },
    {
      "entropy": 5.63734655380249,
      "epoch": 0.9859273261919764,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004908776337006675,
      "loss": 5.5664,
      "mean_token_accuracy": 0.15962323546409607,
      "num_tokens": 21653696.0,
      "step": 11735
    },
    {
      "entropy": 5.737686443328857,
      "epoch": 0.9863474060071413,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004908691911160373,
      "loss": 5.5614,
      "mean_token_accuracy": 0.15139272063970566,
      "num_tokens": 21664420.0,
      "step": 11740
    },
    {
      "entropy": 5.753671407699585,
      "epoch": 0.9867674858223062,
      "grad_norm": 1.625,
      "learning_rate": 0.0004908607447073954,
      "loss": 5.5481,
      "mean_token_accuracy": 0.15880379527807237,
      "num_tokens": 21673716.0,
      "step": 11745
    },
    {
      "entropy": 5.73064112663269,
      "epoch": 0.9871875656374711,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004908522944748917,
      "loss": 5.5493,
      "mean_token_accuracy": 0.16386302858591079,
      "num_tokens": 21682860.0,
      "step": 11750
    },
    {
      "entropy": 5.609640121459961,
      "epoch": 0.987607645452636,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004908438404186758,
      "loss": 5.5444,
      "mean_token_accuracy": 0.1676987513899803,
      "num_tokens": 21691915.0,
      "step": 11755
    },
    {
      "entropy": 5.773650169372559,
      "epoch": 0.9880277252678009,
      "grad_norm": 1.875,
      "learning_rate": 0.0004908353825388973,
      "loss": 5.6686,
      "mean_token_accuracy": 0.1477293998003006,
      "num_tokens": 21701666.0,
      "step": 11760
    },
    {
      "entropy": 5.837761163711548,
      "epoch": 0.9884478050829658,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0004908269208357062,
      "loss": 5.6005,
      "mean_token_accuracy": 0.16498832553625106,
      "num_tokens": 21709267.0,
      "step": 11765
    },
    {
      "entropy": 5.687007045745849,
      "epoch": 0.9888678848981306,
      "grad_norm": 2.171875,
      "learning_rate": 0.0004908184553092523,
      "loss": 5.4664,
      "mean_token_accuracy": 0.16219521760940553,
      "num_tokens": 21718117.0,
      "step": 11770
    },
    {
      "entropy": 5.74579439163208,
      "epoch": 0.9892879647132955,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0004908099859596856,
      "loss": 5.6226,
      "mean_token_accuracy": 0.16140222251415254,
      "num_tokens": 21727952.0,
      "step": 11775
    },
    {
      "entropy": 5.798332405090332,
      "epoch": 0.9897080445284604,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0004908015127871561,
      "loss": 5.5076,
      "mean_token_accuracy": 0.15737968385219575,
      "num_tokens": 21737878.0,
      "step": 11780
    },
    {
      "entropy": 5.66026086807251,
      "epoch": 0.9901281243436253,
      "grad_norm": 1.40625,
      "learning_rate": 0.000490793035791814,
      "loss": 5.4333,
      "mean_token_accuracy": 0.16479237079620362,
      "num_tokens": 21747391.0,
      "step": 11785
    },
    {
      "entropy": 5.639067459106445,
      "epoch": 0.9905482041587902,
      "grad_norm": 1.765625,
      "learning_rate": 0.0004907845549738093,
      "loss": 5.4825,
      "mean_token_accuracy": 0.1608181118965149,
      "num_tokens": 21756791.0,
      "step": 11790
    },
    {
      "entropy": 5.626802778244018,
      "epoch": 0.9909682839739551,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004907760703332923,
      "loss": 5.514,
      "mean_token_accuracy": 0.16045965999364853,
      "num_tokens": 21766020.0,
      "step": 11795
    },
    {
      "entropy": 5.7946771621704105,
      "epoch": 0.99138836378912,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004907675818704134,
      "loss": 5.6332,
      "mean_token_accuracy": 0.15098711997270584,
      "num_tokens": 21775895.0,
      "step": 11800
    },
    {
      "entropy": 5.720692729949951,
      "epoch": 0.9918084436042848,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004907590895853228,
      "loss": 5.5368,
      "mean_token_accuracy": 0.16272979229688644,
      "num_tokens": 21784543.0,
      "step": 11805
    },
    {
      "entropy": 5.734677982330322,
      "epoch": 0.9922285234194497,
      "grad_norm": 1.890625,
      "learning_rate": 0.0004907505934781712,
      "loss": 5.5898,
      "mean_token_accuracy": 0.15340466499328614,
      "num_tokens": 21793938.0,
      "step": 11810
    },
    {
      "entropy": 5.73793478012085,
      "epoch": 0.9926486032346146,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004907420935491087,
      "loss": 5.5694,
      "mean_token_accuracy": 0.15643597394227982,
      "num_tokens": 21803641.0,
      "step": 11815
    },
    {
      "entropy": 5.734190273284912,
      "epoch": 0.9930686830497795,
      "grad_norm": 1.875,
      "learning_rate": 0.0004907335897982862,
      "loss": 5.4978,
      "mean_token_accuracy": 0.1619450032711029,
      "num_tokens": 21812542.0,
      "step": 11820
    },
    {
      "entropy": 5.653626728057861,
      "epoch": 0.9934887628649444,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004907250822258543,
      "loss": 5.5806,
      "mean_token_accuracy": 0.15819441080093383,
      "num_tokens": 21821847.0,
      "step": 11825
    },
    {
      "entropy": 5.8374409675598145,
      "epoch": 0.9939088426801093,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004907165708319637,
      "loss": 5.6198,
      "mean_token_accuracy": 0.15984491556882857,
      "num_tokens": 21830799.0,
      "step": 11830
    },
    {
      "entropy": 5.780798053741455,
      "epoch": 0.994328922495274,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004907080556167651,
      "loss": 5.5597,
      "mean_token_accuracy": 0.15932203084230423,
      "num_tokens": 21840202.0,
      "step": 11835
    },
    {
      "entropy": 5.827149820327759,
      "epoch": 0.994749002310439,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004906995365804093,
      "loss": 5.665,
      "mean_token_accuracy": 0.15373467579483985,
      "num_tokens": 21849701.0,
      "step": 11840
    },
    {
      "entropy": 5.745590162277222,
      "epoch": 0.9951690821256038,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004906910137230472,
      "loss": 5.5375,
      "mean_token_accuracy": 0.161653570830822,
      "num_tokens": 21859191.0,
      "step": 11845
    },
    {
      "entropy": 5.722856521606445,
      "epoch": 0.9955891619407687,
      "grad_norm": 1.34375,
      "learning_rate": 0.00049068248704483,
      "loss": 5.5202,
      "mean_token_accuracy": 0.157266703248024,
      "num_tokens": 21867944.0,
      "step": 11850
    },
    {
      "entropy": 5.644532155990601,
      "epoch": 0.9960092417559336,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004906739565459085,
      "loss": 5.5632,
      "mean_token_accuracy": 0.15848701894283296,
      "num_tokens": 21876368.0,
      "step": 11855
    },
    {
      "entropy": 5.863846969604492,
      "epoch": 0.9964293215710985,
      "grad_norm": 1.375,
      "learning_rate": 0.000490665422226434,
      "loss": 5.6436,
      "mean_token_accuracy": 0.1514528512954712,
      "num_tokens": 21885634.0,
      "step": 11860
    },
    {
      "entropy": 5.6821434020996096,
      "epoch": 0.9968494013862634,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004906568840865576,
      "loss": 5.4504,
      "mean_token_accuracy": 0.16308265626430513,
      "num_tokens": 21894315.0,
      "step": 11865
    },
    {
      "entropy": 5.626799726486206,
      "epoch": 0.9972694812014282,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0004906483421264305,
      "loss": 5.5695,
      "mean_token_accuracy": 0.159691222012043,
      "num_tokens": 21903342.0,
      "step": 11870
    },
    {
      "entropy": 5.7634326934814455,
      "epoch": 0.9976895610165931,
      "grad_norm": 1.9296875,
      "learning_rate": 0.000490639796346204,
      "loss": 5.686,
      "mean_token_accuracy": 0.15302741080522536,
      "num_tokens": 21914158.0,
      "step": 11875
    },
    {
      "entropy": 5.901743459701538,
      "epoch": 0.998109640831758,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004906312467460297,
      "loss": 5.5633,
      "mean_token_accuracy": 0.16004915833473204,
      "num_tokens": 21922639.0,
      "step": 11880
    },
    {
      "entropy": 5.736720323562622,
      "epoch": 0.9985297206469229,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004906226933260588,
      "loss": 5.5645,
      "mean_token_accuracy": 0.15823576152324675,
      "num_tokens": 21931385.0,
      "step": 11885
    },
    {
      "entropy": 5.78201150894165,
      "epoch": 0.9989498004620878,
      "grad_norm": 1.859375,
      "learning_rate": 0.0004906141360864429,
      "loss": 5.5746,
      "mean_token_accuracy": 0.15795834213495255,
      "num_tokens": 21940788.0,
      "step": 11890
    },
    {
      "entropy": 5.749546051025391,
      "epoch": 0.9993698802772527,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004906055750273336,
      "loss": 5.5854,
      "mean_token_accuracy": 0.15715595483779907,
      "num_tokens": 21950309.0,
      "step": 11895
    },
    {
      "entropy": 5.691565322875976,
      "epoch": 0.9997899600924176,
      "grad_norm": 2.03125,
      "learning_rate": 0.0004905970101488826,
      "loss": 5.5724,
      "mean_token_accuracy": 0.15797929465770721,
      "num_tokens": 21959141.0,
      "step": 11900
    },
    {
      "entropy": 5.813778877258301,
      "epoch": 1.000168031926066,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0004905884414512416,
      "loss": 5.6073,
      "mean_token_accuracy": 0.15993836356533897,
      "num_tokens": 21966665.0,
      "step": 11905
    },
    {
      "entropy": 5.747717571258545,
      "epoch": 1.0005881117412307,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004905798689345623,
      "loss": 5.5985,
      "mean_token_accuracy": 0.15958280488848686,
      "num_tokens": 21976728.0,
      "step": 11910
    },
    {
      "entropy": 5.70471978187561,
      "epoch": 1.0010081915563958,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004905712925989968,
      "loss": 5.4321,
      "mean_token_accuracy": 0.1577399954199791,
      "num_tokens": 21985915.0,
      "step": 11915
    },
    {
      "entropy": 5.717014789581299,
      "epoch": 1.0014282713715605,
      "grad_norm": 2.15625,
      "learning_rate": 0.0004905627124446967,
      "loss": 5.4817,
      "mean_token_accuracy": 0.16125397384166718,
      "num_tokens": 21995826.0,
      "step": 11920
    },
    {
      "entropy": 5.673809146881103,
      "epoch": 1.0018483511867255,
      "grad_norm": 1.625,
      "learning_rate": 0.0004905541284718142,
      "loss": 5.441,
      "mean_token_accuracy": 0.16078125834465026,
      "num_tokens": 22005299.0,
      "step": 11925
    },
    {
      "entropy": 5.688680934906006,
      "epoch": 1.0022684310018903,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0004905455406805011,
      "loss": 5.48,
      "mean_token_accuracy": 0.160285322368145,
      "num_tokens": 22014499.0,
      "step": 11930
    },
    {
      "entropy": 5.827605724334717,
      "epoch": 1.0026885108170553,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00049053694907091,
      "loss": 5.6404,
      "mean_token_accuracy": 0.15083224773406984,
      "num_tokens": 22024531.0,
      "step": 11935
    },
    {
      "entropy": 5.765188217163086,
      "epoch": 1.0031085906322201,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004905283536431928,
      "loss": 5.546,
      "mean_token_accuracy": 0.16389428079128265,
      "num_tokens": 22034036.0,
      "step": 11940
    },
    {
      "entropy": 5.673288774490357,
      "epoch": 1.003528670447385,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004905197543975017,
      "loss": 5.4413,
      "mean_token_accuracy": 0.16298594772815705,
      "num_tokens": 22042910.0,
      "step": 11945
    },
    {
      "entropy": 5.742687463760376,
      "epoch": 1.00394875026255,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004905111513339892,
      "loss": 5.5236,
      "mean_token_accuracy": 0.16467590481042862,
      "num_tokens": 22052242.0,
      "step": 11950
    },
    {
      "entropy": 5.723882246017456,
      "epoch": 1.0043688300777147,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004905025444528076,
      "loss": 5.4865,
      "mean_token_accuracy": 0.15788668096065522,
      "num_tokens": 22061467.0,
      "step": 11955
    },
    {
      "entropy": 5.6063799381256105,
      "epoch": 1.0047889098928797,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004904939337541093,
      "loss": 5.3608,
      "mean_token_accuracy": 0.1663319230079651,
      "num_tokens": 22070300.0,
      "step": 11960
    },
    {
      "entropy": 5.7507532119750975,
      "epoch": 1.0052089897080445,
      "grad_norm": 1.625,
      "learning_rate": 0.0004904853192380472,
      "loss": 5.5215,
      "mean_token_accuracy": 0.158057052642107,
      "num_tokens": 22078960.0,
      "step": 11965
    },
    {
      "entropy": 5.719160795211792,
      "epoch": 1.0056290695232095,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004904767009047733,
      "loss": 5.458,
      "mean_token_accuracy": 0.1630512699484825,
      "num_tokens": 22088135.0,
      "step": 11970
    },
    {
      "entropy": 5.731142950057984,
      "epoch": 1.0060491493383743,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004904680787544408,
      "loss": 5.582,
      "mean_token_accuracy": 0.15549475252628325,
      "num_tokens": 22098004.0,
      "step": 11975
    },
    {
      "entropy": 5.818147802352906,
      "epoch": 1.006469229153539,
      "grad_norm": 1.5,
      "learning_rate": 0.0004904594527872022,
      "loss": 5.5522,
      "mean_token_accuracy": 0.15604811310768127,
      "num_tokens": 22107680.0,
      "step": 11980
    },
    {
      "entropy": 5.7786630153656,
      "epoch": 1.006889308968704,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004904508230032103,
      "loss": 5.5677,
      "mean_token_accuracy": 0.1585972711443901,
      "num_tokens": 22118004.0,
      "step": 11985
    },
    {
      "entropy": 5.7285055160522464,
      "epoch": 1.0073093887838689,
      "grad_norm": 1.7109375,
      "learning_rate": 0.000490442189402618,
      "loss": 5.5151,
      "mean_token_accuracy": 0.17011249363422393,
      "num_tokens": 22127825.0,
      "step": 11990
    },
    {
      "entropy": 5.711953926086426,
      "epoch": 1.007729468599034,
      "grad_norm": 1.5,
      "learning_rate": 0.0004904335519855783,
      "loss": 5.4227,
      "mean_token_accuracy": 0.16442998498678207,
      "num_tokens": 22136448.0,
      "step": 11995
    },
    {
      "entropy": 5.657416820526123,
      "epoch": 1.0081495484141987,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004904249107522442,
      "loss": 5.5436,
      "mean_token_accuracy": 0.15949945598840715,
      "num_tokens": 22146415.0,
      "step": 12000
    },
    {
      "epoch": 1.0081495484141987,
      "eval_entropy": 5.525661500662507,
      "eval_loss": 5.590455532073975,
      "eval_mean_token_accuracy": 0.16449697244313435,
      "eval_num_tokens": 22146415.0,
      "eval_runtime": 27.36,
      "eval_samples_per_second": 1365.715,
      "eval_steps_per_second": 170.724,
      "step": 12000
    },
    {
      "entropy": 5.816870403289795,
      "epoch": 1.0085696282293637,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004904162657027685,
      "loss": 5.6473,
      "mean_token_accuracy": 0.1565300554037094,
      "num_tokens": 22156327.0,
      "step": 12005
    },
    {
      "entropy": 5.738042402267456,
      "epoch": 1.0089897080445285,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004904076168373049,
      "loss": 5.4672,
      "mean_token_accuracy": 0.1601177304983139,
      "num_tokens": 22165677.0,
      "step": 12010
    },
    {
      "entropy": 5.727717494964599,
      "epoch": 1.0094097878596933,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004903989641560061,
      "loss": 5.5975,
      "mean_token_accuracy": 0.1590371698141098,
      "num_tokens": 22175232.0,
      "step": 12015
    },
    {
      "entropy": 5.758626651763916,
      "epoch": 1.0098298676748583,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004903903076590256,
      "loss": 5.473,
      "mean_token_accuracy": 0.15314906388521193,
      "num_tokens": 22184026.0,
      "step": 12020
    },
    {
      "entropy": 5.663096857070923,
      "epoch": 1.010249947490023,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004903816473465167,
      "loss": 5.3778,
      "mean_token_accuracy": 0.1727016821503639,
      "num_tokens": 22192020.0,
      "step": 12025
    },
    {
      "entropy": 5.613332319259643,
      "epoch": 1.010670027305188,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004903729832186328,
      "loss": 5.3511,
      "mean_token_accuracy": 0.16883303374052047,
      "num_tokens": 22200060.0,
      "step": 12030
    },
    {
      "entropy": 5.620872068405151,
      "epoch": 1.0110901071203529,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004903643152755274,
      "loss": 5.407,
      "mean_token_accuracy": 0.1603987216949463,
      "num_tokens": 22208625.0,
      "step": 12035
    },
    {
      "entropy": 5.685234689712525,
      "epoch": 1.0115101869355176,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004903556435173541,
      "loss": 5.3922,
      "mean_token_accuracy": 0.1666228473186493,
      "num_tokens": 22217781.0,
      "step": 12040
    },
    {
      "entropy": 5.746535110473633,
      "epoch": 1.0119302667506826,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004903469679442665,
      "loss": 5.5318,
      "mean_token_accuracy": 0.16123737245798112,
      "num_tokens": 22226432.0,
      "step": 12045
    },
    {
      "entropy": 5.652414417266845,
      "epoch": 1.0123503465658474,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004903382885564181,
      "loss": 5.5297,
      "mean_token_accuracy": 0.16408767104148864,
      "num_tokens": 22234811.0,
      "step": 12050
    },
    {
      "entropy": 5.5869992733001705,
      "epoch": 1.0127704263810124,
      "grad_norm": 1.6328125,
      "learning_rate": 0.000490329605353963,
      "loss": 5.4075,
      "mean_token_accuracy": 0.17152390927076339,
      "num_tokens": 22242808.0,
      "step": 12055
    },
    {
      "entropy": 5.75869345664978,
      "epoch": 1.0131905061961772,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004903209183370547,
      "loss": 5.4738,
      "mean_token_accuracy": 0.1645299270749092,
      "num_tokens": 22251371.0,
      "step": 12060
    },
    {
      "entropy": 5.830525541305542,
      "epoch": 1.0136105860113422,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004903122275058472,
      "loss": 5.5546,
      "mean_token_accuracy": 0.16162935346364976,
      "num_tokens": 22260868.0,
      "step": 12065
    },
    {
      "entropy": 5.650126838684082,
      "epoch": 1.014030665826507,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004903035328604944,
      "loss": 5.4551,
      "mean_token_accuracy": 0.16388770192861557,
      "num_tokens": 22270554.0,
      "step": 12070
    },
    {
      "entropy": 5.599603319168091,
      "epoch": 1.0144507456416718,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004902948344011506,
      "loss": 5.4471,
      "mean_token_accuracy": 0.16133227497339248,
      "num_tokens": 22279170.0,
      "step": 12075
    },
    {
      "entropy": 5.739398241043091,
      "epoch": 1.0148708254568368,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004902861321279694,
      "loss": 5.6051,
      "mean_token_accuracy": 0.1532390832901001,
      "num_tokens": 22288788.0,
      "step": 12080
    },
    {
      "entropy": 5.6841353416442875,
      "epoch": 1.0152909052720016,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004902774260411055,
      "loss": 5.385,
      "mean_token_accuracy": 0.1635892152786255,
      "num_tokens": 22297501.0,
      "step": 12085
    },
    {
      "entropy": 5.612368249893189,
      "epoch": 1.0157109850871666,
      "grad_norm": 1.75,
      "learning_rate": 0.0004902687161407126,
      "loss": 5.3466,
      "mean_token_accuracy": 0.17515814155340195,
      "num_tokens": 22306181.0,
      "step": 12090
    },
    {
      "entropy": 5.670634174346924,
      "epoch": 1.0161310649023314,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004902600024269454,
      "loss": 5.5072,
      "mean_token_accuracy": 0.16697340905666352,
      "num_tokens": 22315762.0,
      "step": 12095
    },
    {
      "entropy": 5.626059675216675,
      "epoch": 1.0165511447174964,
      "grad_norm": 1.84375,
      "learning_rate": 0.000490251284899958,
      "loss": 5.439,
      "mean_token_accuracy": 0.16588278263807296,
      "num_tokens": 22325127.0,
      "step": 12100
    },
    {
      "entropy": 5.649977350234986,
      "epoch": 1.0169712245326612,
      "grad_norm": 1.5234375,
      "learning_rate": 0.000490242563559905,
      "loss": 5.5278,
      "mean_token_accuracy": 0.15909326523542405,
      "num_tokens": 22334038.0,
      "step": 12105
    },
    {
      "entropy": 5.681149196624756,
      "epoch": 1.017391304347826,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004902338384069408,
      "loss": 5.3772,
      "mean_token_accuracy": 0.16700164079666138,
      "num_tokens": 22342658.0,
      "step": 12110
    },
    {
      "entropy": 5.748837232589722,
      "epoch": 1.017811384162991,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00049022510944122,
      "loss": 5.5592,
      "mean_token_accuracy": 0.1559050902724266,
      "num_tokens": 22352559.0,
      "step": 12115
    },
    {
      "entropy": 5.741272211074829,
      "epoch": 1.0182314639781558,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004902163766628972,
      "loss": 5.4663,
      "mean_token_accuracy": 0.16664180606603624,
      "num_tokens": 22361455.0,
      "step": 12120
    },
    {
      "entropy": 5.761194944381714,
      "epoch": 1.0186515437933208,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004902076400721271,
      "loss": 5.5025,
      "mean_token_accuracy": 0.15924629420042039,
      "num_tokens": 22371163.0,
      "step": 12125
    },
    {
      "entropy": 5.786735534667969,
      "epoch": 1.0190716236084856,
      "grad_norm": 1.890625,
      "learning_rate": 0.0004901988996690645,
      "loss": 5.4939,
      "mean_token_accuracy": 0.16901676952838898,
      "num_tokens": 22379975.0,
      "step": 12130
    },
    {
      "entropy": 5.794359588623047,
      "epoch": 1.0194917034236506,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004901901554538641,
      "loss": 5.5351,
      "mean_token_accuracy": 0.16184651851654053,
      "num_tokens": 22389657.0,
      "step": 12135
    },
    {
      "entropy": 5.626089334487915,
      "epoch": 1.0199117832388154,
      "grad_norm": 1.5625,
      "learning_rate": 0.000490181407426681,
      "loss": 5.3773,
      "mean_token_accuracy": 0.16764698773622513,
      "num_tokens": 22398320.0,
      "step": 12140
    },
    {
      "entropy": 5.705850219726562,
      "epoch": 1.0203318630539802,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0004901726555876701,
      "loss": 5.573,
      "mean_token_accuracy": 0.1539936549961567,
      "num_tokens": 22406634.0,
      "step": 12145
    },
    {
      "entropy": 5.800102376937867,
      "epoch": 1.0207519428691452,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004901638999369862,
      "loss": 5.6111,
      "mean_token_accuracy": 0.15667299777269364,
      "num_tokens": 22415939.0,
      "step": 12150
    },
    {
      "entropy": 5.758721494674683,
      "epoch": 1.02117202268431,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004901551404747847,
      "loss": 5.5353,
      "mean_token_accuracy": 0.1576780617237091,
      "num_tokens": 22425256.0,
      "step": 12155
    },
    {
      "entropy": 5.758379936218262,
      "epoch": 1.021592102499475,
      "grad_norm": 1.625,
      "learning_rate": 0.0004901463772012209,
      "loss": 5.6105,
      "mean_token_accuracy": 0.15414702594280244,
      "num_tokens": 22434750.0,
      "step": 12160
    },
    {
      "entropy": 5.7319268703460695,
      "epoch": 1.0220121823146397,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004901376101164495,
      "loss": 5.4788,
      "mean_token_accuracy": 0.16012528240680696,
      "num_tokens": 22443426.0,
      "step": 12165
    },
    {
      "entropy": 5.718150901794433,
      "epoch": 1.0224322621298048,
      "grad_norm": 2.53125,
      "learning_rate": 0.0004901288392206263,
      "loss": 5.496,
      "mean_token_accuracy": 0.15628497451543807,
      "num_tokens": 22452778.0,
      "step": 12170
    },
    {
      "entropy": 5.683122968673706,
      "epoch": 1.0228523419449695,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004901200645139064,
      "loss": 5.4532,
      "mean_token_accuracy": 0.1657660871744156,
      "num_tokens": 22462864.0,
      "step": 12175
    },
    {
      "entropy": 5.715426301956176,
      "epoch": 1.0232724217601343,
      "grad_norm": 2.3125,
      "learning_rate": 0.0004901112859964454,
      "loss": 5.515,
      "mean_token_accuracy": 0.1562432289123535,
      "num_tokens": 22472849.0,
      "step": 12180
    },
    {
      "entropy": 5.6747640609741214,
      "epoch": 1.0236925015752993,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004901025036683987,
      "loss": 5.4378,
      "mean_token_accuracy": 0.15990415960550308,
      "num_tokens": 22481693.0,
      "step": 12185
    },
    {
      "entropy": 5.717993688583374,
      "epoch": 1.0241125813904641,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004900937175299219,
      "loss": 5.4283,
      "mean_token_accuracy": 0.16626838445663453,
      "num_tokens": 22490934.0,
      "step": 12190
    },
    {
      "entropy": 5.723482513427735,
      "epoch": 1.0245326612056291,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004900849275811707,
      "loss": 5.488,
      "mean_token_accuracy": 0.16016919761896134,
      "num_tokens": 22500457.0,
      "step": 12195
    },
    {
      "entropy": 5.739189004898071,
      "epoch": 1.024952741020794,
      "grad_norm": 1.875,
      "learning_rate": 0.0004900761338223007,
      "loss": 5.4461,
      "mean_token_accuracy": 0.15878349542617798,
      "num_tokens": 22509641.0,
      "step": 12200
    },
    {
      "entropy": 5.648697996139527,
      "epoch": 1.025372820835959,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004900673362534677,
      "loss": 5.3597,
      "mean_token_accuracy": 0.16653590351343156,
      "num_tokens": 22518616.0,
      "step": 12205
    },
    {
      "entropy": 5.73726167678833,
      "epoch": 1.0257929006511237,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004900585348748277,
      "loss": 5.5152,
      "mean_token_accuracy": 0.1678289592266083,
      "num_tokens": 22527599.0,
      "step": 12210
    },
    {
      "entropy": 5.699249696731568,
      "epoch": 1.0262129804662885,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004900497296865365,
      "loss": 5.522,
      "mean_token_accuracy": 0.15160454586148261,
      "num_tokens": 22537399.0,
      "step": 12215
    },
    {
      "entropy": 5.909937381744385,
      "epoch": 1.0266330602814535,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004900409206887499,
      "loss": 5.7361,
      "mean_token_accuracy": 0.1503012202680111,
      "num_tokens": 22546746.0,
      "step": 12220
    },
    {
      "entropy": 5.758369112014771,
      "epoch": 1.0270531400966183,
      "grad_norm": 2.25,
      "learning_rate": 0.0004900321078816243,
      "loss": 5.4986,
      "mean_token_accuracy": 0.16833491176366805,
      "num_tokens": 22555735.0,
      "step": 12225
    },
    {
      "entropy": 5.747727394104004,
      "epoch": 1.0274732199117833,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004900232912653156,
      "loss": 5.5011,
      "mean_token_accuracy": 0.16442441418766976,
      "num_tokens": 22565010.0,
      "step": 12230
    },
    {
      "entropy": 5.755198526382446,
      "epoch": 1.027893299726948,
      "grad_norm": 1.796875,
      "learning_rate": 0.00049001447083998,
      "loss": 5.4897,
      "mean_token_accuracy": 0.15753853023052217,
      "num_tokens": 22573565.0,
      "step": 12235
    },
    {
      "entropy": 5.751472043991089,
      "epoch": 1.028313379542113,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004900056466057737,
      "loss": 5.4754,
      "mean_token_accuracy": 0.15711085349321366,
      "num_tokens": 22582549.0,
      "step": 12240
    },
    {
      "entropy": 5.6773108959198,
      "epoch": 1.028733459357278,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004899968185628531,
      "loss": 5.5407,
      "mean_token_accuracy": 0.15574416965246202,
      "num_tokens": 22592112.0,
      "step": 12245
    },
    {
      "entropy": 5.632958936691284,
      "epoch": 1.0291535391724427,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004899879867113746,
      "loss": 5.3852,
      "mean_token_accuracy": 0.16619622707366943,
      "num_tokens": 22600581.0,
      "step": 12250
    },
    {
      "entropy": 5.809205341339111,
      "epoch": 1.0295736189876077,
      "grad_norm": 1.625,
      "learning_rate": 0.0004899791510514945,
      "loss": 5.5897,
      "mean_token_accuracy": 0.15455610007047654,
      "num_tokens": 22610822.0,
      "step": 12255
    },
    {
      "entropy": 5.765147113800049,
      "epoch": 1.0299936988027725,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004899703115833696,
      "loss": 5.5785,
      "mean_token_accuracy": 0.1628772124648094,
      "num_tokens": 22619484.0,
      "step": 12260
    },
    {
      "entropy": 5.693212890625,
      "epoch": 1.0304137786179375,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0004899614683071563,
      "loss": 5.4248,
      "mean_token_accuracy": 0.16597820073366165,
      "num_tokens": 22629038.0,
      "step": 12265
    },
    {
      "entropy": 5.7034484386444095,
      "epoch": 1.0308338584331023,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004899526212230112,
      "loss": 5.516,
      "mean_token_accuracy": 0.15537500530481338,
      "num_tokens": 22638619.0,
      "step": 12270
    },
    {
      "entropy": 5.658185815811157,
      "epoch": 1.0312539382482673,
      "grad_norm": 2.296875,
      "learning_rate": 0.0004899437703310912,
      "loss": 5.5003,
      "mean_token_accuracy": 0.16062938123941423,
      "num_tokens": 22648065.0,
      "step": 12275
    },
    {
      "entropy": 5.798764753341675,
      "epoch": 1.031674018063432,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0004899349156315529,
      "loss": 5.5658,
      "mean_token_accuracy": 0.15393222272396087,
      "num_tokens": 22658107.0,
      "step": 12280
    },
    {
      "entropy": 5.730508184432983,
      "epoch": 1.0320940978785969,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004899260571245533,
      "loss": 5.4466,
      "mean_token_accuracy": 0.16231588870286942,
      "num_tokens": 22667103.0,
      "step": 12285
    },
    {
      "entropy": 5.6667787551879885,
      "epoch": 1.0325141776937619,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004899171948102492,
      "loss": 5.4168,
      "mean_token_accuracy": 0.16460922211408616,
      "num_tokens": 22676792.0,
      "step": 12290
    },
    {
      "entropy": 5.648167705535888,
      "epoch": 1.0329342575089266,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004899083286887977,
      "loss": 5.452,
      "mean_token_accuracy": 0.1632228210568428,
      "num_tokens": 22685344.0,
      "step": 12295
    },
    {
      "entropy": 5.778263664245605,
      "epoch": 1.0333543373240917,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004898994587603559,
      "loss": 5.5131,
      "mean_token_accuracy": 0.16273818016052247,
      "num_tokens": 22694387.0,
      "step": 12300
    },
    {
      "entropy": 5.695818853378296,
      "epoch": 1.0337744171392564,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004898905850250807,
      "loss": 5.542,
      "mean_token_accuracy": 0.16002353727817537,
      "num_tokens": 22704203.0,
      "step": 12305
    },
    {
      "entropy": 5.760842561721802,
      "epoch": 1.0341944969544214,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004898817074831295,
      "loss": 5.5913,
      "mean_token_accuracy": 0.1574055314064026,
      "num_tokens": 22713518.0,
      "step": 12310
    },
    {
      "entropy": 5.756874465942383,
      "epoch": 1.0346145767695862,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004898728261346595,
      "loss": 5.593,
      "mean_token_accuracy": 0.15683950930833818,
      "num_tokens": 22722997.0,
      "step": 12315
    },
    {
      "entropy": 5.767385387420655,
      "epoch": 1.035034656584751,
      "grad_norm": 1.53125,
      "learning_rate": 0.000489863940979828,
      "loss": 5.534,
      "mean_token_accuracy": 0.15978951305150985,
      "num_tokens": 22732385.0,
      "step": 12320
    },
    {
      "entropy": 5.693596649169922,
      "epoch": 1.035454736399916,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004898550520187925,
      "loss": 5.4096,
      "mean_token_accuracy": 0.16672670543193818,
      "num_tokens": 22741148.0,
      "step": 12325
    },
    {
      "entropy": 5.675939607620239,
      "epoch": 1.0358748162150808,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004898461592517103,
      "loss": 5.4109,
      "mean_token_accuracy": 0.16389408260583876,
      "num_tokens": 22750239.0,
      "step": 12330
    },
    {
      "entropy": 5.783782148361206,
      "epoch": 1.0362948960302458,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004898372626787391,
      "loss": 5.5538,
      "mean_token_accuracy": 0.15868894159793853,
      "num_tokens": 22759290.0,
      "step": 12335
    },
    {
      "entropy": 5.806813049316406,
      "epoch": 1.0367149758454106,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004898283623000364,
      "loss": 5.5762,
      "mean_token_accuracy": 0.15626893192529678,
      "num_tokens": 22768450.0,
      "step": 12340
    },
    {
      "entropy": 5.7313658714294435,
      "epoch": 1.0371350556605754,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0004898194581157598,
      "loss": 5.434,
      "mean_token_accuracy": 0.15717112123966218,
      "num_tokens": 22777711.0,
      "step": 12345
    },
    {
      "entropy": 5.695150518417359,
      "epoch": 1.0375551354757404,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004898105501260671,
      "loss": 5.5217,
      "mean_token_accuracy": 0.16438411176204681,
      "num_tokens": 22787153.0,
      "step": 12350
    },
    {
      "entropy": 5.763386631011963,
      "epoch": 1.0379752152909052,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004898016383311163,
      "loss": 5.525,
      "mean_token_accuracy": 0.1668378531932831,
      "num_tokens": 22797125.0,
      "step": 12355
    },
    {
      "entropy": 5.720566844940185,
      "epoch": 1.0383952951060702,
      "grad_norm": 1.5546875,
      "learning_rate": 0.000489792722731065,
      "loss": 5.5131,
      "mean_token_accuracy": 0.1580943688750267,
      "num_tokens": 22806478.0,
      "step": 12360
    },
    {
      "entropy": 5.739205694198608,
      "epoch": 1.038815374921235,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004897838033260712,
      "loss": 5.5264,
      "mean_token_accuracy": 0.1504399910569191,
      "num_tokens": 22815375.0,
      "step": 12365
    },
    {
      "entropy": 5.783780193328857,
      "epoch": 1.0392354547364,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004897748801162929,
      "loss": 5.4899,
      "mean_token_accuracy": 0.16633763164281845,
      "num_tokens": 22824401.0,
      "step": 12370
    },
    {
      "entropy": 5.735202741622925,
      "epoch": 1.0396555345515648,
      "grad_norm": 1.5,
      "learning_rate": 0.0004897659531018882,
      "loss": 5.6045,
      "mean_token_accuracy": 0.16063894852995872,
      "num_tokens": 22833933.0,
      "step": 12375
    },
    {
      "entropy": 5.695873117446899,
      "epoch": 1.0400756143667296,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0004897570222830152,
      "loss": 5.4862,
      "mean_token_accuracy": 0.15706607103347778,
      "num_tokens": 22843779.0,
      "step": 12380
    },
    {
      "entropy": 5.765497493743896,
      "epoch": 1.0404956941818946,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004897480876598322,
      "loss": 5.5739,
      "mean_token_accuracy": 0.15584344267845154,
      "num_tokens": 22852951.0,
      "step": 12385
    },
    {
      "entropy": 5.787726879119873,
      "epoch": 1.0409157739970594,
      "grad_norm": 2.078125,
      "learning_rate": 0.0004897391492324974,
      "loss": 5.5851,
      "mean_token_accuracy": 0.15543406456708908,
      "num_tokens": 22861398.0,
      "step": 12390
    },
    {
      "entropy": 5.713971185684204,
      "epoch": 1.0413358538122244,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004897302070011691,
      "loss": 5.4643,
      "mean_token_accuracy": 0.1621120572090149,
      "num_tokens": 22870518.0,
      "step": 12395
    },
    {
      "entropy": 5.669089317321777,
      "epoch": 1.0417559336273892,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004897212609660058,
      "loss": 5.533,
      "mean_token_accuracy": 0.15619430541992188,
      "num_tokens": 22879389.0,
      "step": 12400
    },
    {
      "entropy": 5.724472951889038,
      "epoch": 1.0421760134425542,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004897123111271659,
      "loss": 5.5315,
      "mean_token_accuracy": 0.16127124577760696,
      "num_tokens": 22888977.0,
      "step": 12405
    },
    {
      "entropy": 5.853266382217408,
      "epoch": 1.042596093257719,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004897033574848079,
      "loss": 5.548,
      "mean_token_accuracy": 0.16196577847003937,
      "num_tokens": 22898446.0,
      "step": 12410
    },
    {
      "entropy": 5.70566611289978,
      "epoch": 1.0430161730728837,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004896944000390907,
      "loss": 5.5245,
      "mean_token_accuracy": 0.16506237536668777,
      "num_tokens": 22908044.0,
      "step": 12415
    },
    {
      "entropy": 5.778344535827637,
      "epoch": 1.0434362528880488,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004896854387901725,
      "loss": 5.5804,
      "mean_token_accuracy": 0.15366130471229553,
      "num_tokens": 22917330.0,
      "step": 12420
    },
    {
      "entropy": 5.807542943954468,
      "epoch": 1.0438563327032135,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004896764737382124,
      "loss": 5.5466,
      "mean_token_accuracy": 0.16622493267059327,
      "num_tokens": 22927160.0,
      "step": 12425
    },
    {
      "entropy": 5.792239236831665,
      "epoch": 1.0442764125183785,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004896675048833691,
      "loss": 5.4966,
      "mean_token_accuracy": 0.1603910431265831,
      "num_tokens": 22936755.0,
      "step": 12430
    },
    {
      "entropy": 5.707068347930909,
      "epoch": 1.0446964923335433,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004896585322258014,
      "loss": 5.4971,
      "mean_token_accuracy": 0.16156308948993683,
      "num_tokens": 22945699.0,
      "step": 12435
    },
    {
      "entropy": 5.714017152786255,
      "epoch": 1.0451165721487083,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004896495557656685,
      "loss": 5.4759,
      "mean_token_accuracy": 0.17006804645061493,
      "num_tokens": 22954001.0,
      "step": 12440
    },
    {
      "entropy": 5.808580160140991,
      "epoch": 1.0455366519638731,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004896405755031293,
      "loss": 5.5673,
      "mean_token_accuracy": 0.15997690260410308,
      "num_tokens": 22963805.0,
      "step": 12445
    },
    {
      "entropy": 5.6800487518310545,
      "epoch": 1.045956731779038,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004896315914383427,
      "loss": 5.5063,
      "mean_token_accuracy": 0.15431105494499206,
      "num_tokens": 22973542.0,
      "step": 12450
    },
    {
      "entropy": 5.643172407150269,
      "epoch": 1.046376811594203,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004896226035714679,
      "loss": 5.3786,
      "mean_token_accuracy": 0.16473590731620788,
      "num_tokens": 22982417.0,
      "step": 12455
    },
    {
      "entropy": 5.706238555908203,
      "epoch": 1.0467968914093677,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004896136119026642,
      "loss": 5.5078,
      "mean_token_accuracy": 0.15882690697908403,
      "num_tokens": 22992879.0,
      "step": 12460
    },
    {
      "entropy": 5.697173643112182,
      "epoch": 1.0472169712245327,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004896046164320911,
      "loss": 5.3948,
      "mean_token_accuracy": 0.16620510965585708,
      "num_tokens": 23001344.0,
      "step": 12465
    },
    {
      "entropy": 5.659090280532837,
      "epoch": 1.0476370510396975,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004895956171599075,
      "loss": 5.4216,
      "mean_token_accuracy": 0.1704336553812027,
      "num_tokens": 23010007.0,
      "step": 12470
    },
    {
      "entropy": 5.747759056091309,
      "epoch": 1.0480571308548625,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004895866140862731,
      "loss": 5.557,
      "mean_token_accuracy": 0.15872435867786408,
      "num_tokens": 23019120.0,
      "step": 12475
    },
    {
      "entropy": 5.71089186668396,
      "epoch": 1.0484772106700273,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004895776072113473,
      "loss": 5.5359,
      "mean_token_accuracy": 0.16418685615062714,
      "num_tokens": 23028562.0,
      "step": 12480
    },
    {
      "entropy": 5.689389705657959,
      "epoch": 1.048897290485192,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004895685965352898,
      "loss": 5.4731,
      "mean_token_accuracy": 0.16231704950332643,
      "num_tokens": 23037687.0,
      "step": 12485
    },
    {
      "entropy": 5.757169103622436,
      "epoch": 1.049317370300357,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004895595820582601,
      "loss": 5.4789,
      "mean_token_accuracy": 0.15927850753068923,
      "num_tokens": 23047475.0,
      "step": 12490
    },
    {
      "entropy": 5.649786186218262,
      "epoch": 1.0497374501155219,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004895505637804177,
      "loss": 5.5069,
      "mean_token_accuracy": 0.15920701920986174,
      "num_tokens": 23057475.0,
      "step": 12495
    },
    {
      "entropy": 5.599431371688842,
      "epoch": 1.050157529930687,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004895415417019227,
      "loss": 5.4847,
      "mean_token_accuracy": 0.15794518887996672,
      "num_tokens": 23066419.0,
      "step": 12500
    },
    {
      "entropy": 5.765432214736938,
      "epoch": 1.0505776097458517,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004895325158229346,
      "loss": 5.5385,
      "mean_token_accuracy": 0.1619092509150505,
      "num_tokens": 23075516.0,
      "step": 12505
    },
    {
      "entropy": 5.721098899841309,
      "epoch": 1.0509976895610167,
      "grad_norm": 1.875,
      "learning_rate": 0.0004895234861436136,
      "loss": 5.4198,
      "mean_token_accuracy": 0.1697925642132759,
      "num_tokens": 23084132.0,
      "step": 12510
    },
    {
      "entropy": 5.783330011367798,
      "epoch": 1.0514177693761815,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0004895144526641194,
      "loss": 5.5043,
      "mean_token_accuracy": 0.16086599081754685,
      "num_tokens": 23093958.0,
      "step": 12515
    },
    {
      "entropy": 5.783671569824219,
      "epoch": 1.0518378491913463,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004895054153846123,
      "loss": 5.5409,
      "mean_token_accuracy": 0.1583005540072918,
      "num_tokens": 23103524.0,
      "step": 12520
    },
    {
      "entropy": 5.631361865997315,
      "epoch": 1.0522579290065113,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004894963743052521,
      "loss": 5.451,
      "mean_token_accuracy": 0.15645991861820222,
      "num_tokens": 23112445.0,
      "step": 12525
    },
    {
      "entropy": 5.749525880813598,
      "epoch": 1.052678008821676,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004894873294261991,
      "loss": 5.5179,
      "mean_token_accuracy": 0.15921320170164108,
      "num_tokens": 23121299.0,
      "step": 12530
    },
    {
      "entropy": 5.767481660842895,
      "epoch": 1.053098088636841,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004894782807476134,
      "loss": 5.5333,
      "mean_token_accuracy": 0.1522089034318924,
      "num_tokens": 23130260.0,
      "step": 12535
    },
    {
      "entropy": 5.74699182510376,
      "epoch": 1.0535181684520059,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004894692282696555,
      "loss": 5.4622,
      "mean_token_accuracy": 0.16261095851659774,
      "num_tokens": 23139335.0,
      "step": 12540
    },
    {
      "entropy": 5.656941652297974,
      "epoch": 1.0539382482671709,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004894601719924857,
      "loss": 5.4648,
      "mean_token_accuracy": 0.16428751796483992,
      "num_tokens": 23149299.0,
      "step": 12545
    },
    {
      "entropy": 5.598066186904907,
      "epoch": 1.0543583280823356,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004894511119162644,
      "loss": 5.414,
      "mean_token_accuracy": 0.16812524497509002,
      "num_tokens": 23158651.0,
      "step": 12550
    },
    {
      "entropy": 5.759066200256347,
      "epoch": 1.0547784078975004,
      "grad_norm": 1.375,
      "learning_rate": 0.000489442048041152,
      "loss": 5.5022,
      "mean_token_accuracy": 0.15415302515029908,
      "num_tokens": 23167629.0,
      "step": 12555
    },
    {
      "entropy": 5.7550407409667965,
      "epoch": 1.0551984877126654,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004894329803673092,
      "loss": 5.4926,
      "mean_token_accuracy": 0.15900574922561644,
      "num_tokens": 23177026.0,
      "step": 12560
    },
    {
      "entropy": 5.696121501922607,
      "epoch": 1.0556185675278302,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004894239088948964,
      "loss": 5.4628,
      "mean_token_accuracy": 0.1633963868021965,
      "num_tokens": 23185297.0,
      "step": 12565
    },
    {
      "entropy": 5.640616607666016,
      "epoch": 1.0560386473429952,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004894148336240747,
      "loss": 5.4745,
      "mean_token_accuracy": 0.1665568009018898,
      "num_tokens": 23194804.0,
      "step": 12570
    },
    {
      "entropy": 5.749676895141602,
      "epoch": 1.05645872715816,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004894057545550045,
      "loss": 5.5094,
      "mean_token_accuracy": 0.15964649617671967,
      "num_tokens": 23205063.0,
      "step": 12575
    },
    {
      "entropy": 5.691761779785156,
      "epoch": 1.056878806973325,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004893966716878467,
      "loss": 5.4411,
      "mean_token_accuracy": 0.15895105600357057,
      "num_tokens": 23215038.0,
      "step": 12580
    },
    {
      "entropy": 5.763622140884399,
      "epoch": 1.0572988867884898,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004893875850227624,
      "loss": 5.614,
      "mean_token_accuracy": 0.151802134513855,
      "num_tokens": 23223530.0,
      "step": 12585
    },
    {
      "entropy": 5.740535259246826,
      "epoch": 1.0577189666036546,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004893784945599124,
      "loss": 5.5385,
      "mean_token_accuracy": 0.16195468753576278,
      "num_tokens": 23232547.0,
      "step": 12590
    },
    {
      "entropy": 5.704318332672119,
      "epoch": 1.0581390464188196,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004893694002994577,
      "loss": 5.5753,
      "mean_token_accuracy": 0.16065402403473855,
      "num_tokens": 23241305.0,
      "step": 12595
    },
    {
      "entropy": 5.854096460342407,
      "epoch": 1.0585591262339844,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004893603022415595,
      "loss": 5.6043,
      "mean_token_accuracy": 0.1608058363199234,
      "num_tokens": 23250708.0,
      "step": 12600
    },
    {
      "entropy": 5.792645645141602,
      "epoch": 1.0589792060491494,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004893512003863788,
      "loss": 5.5117,
      "mean_token_accuracy": 0.15551188662648202,
      "num_tokens": 23260161.0,
      "step": 12605
    },
    {
      "entropy": 5.682678604125977,
      "epoch": 1.0593992858643142,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004893420947340771,
      "loss": 5.4161,
      "mean_token_accuracy": 0.1580376446247101,
      "num_tokens": 23268932.0,
      "step": 12610
    },
    {
      "entropy": 5.680995082855224,
      "epoch": 1.0598193656794792,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004893329852848155,
      "loss": 5.5111,
      "mean_token_accuracy": 0.16238304674625398,
      "num_tokens": 23277741.0,
      "step": 12615
    },
    {
      "entropy": 5.706674957275391,
      "epoch": 1.060239445494644,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004893238720387555,
      "loss": 5.5094,
      "mean_token_accuracy": 0.16012922972440718,
      "num_tokens": 23286982.0,
      "step": 12620
    },
    {
      "entropy": 5.713710308074951,
      "epoch": 1.0606595253098088,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0004893147549960584,
      "loss": 5.4361,
      "mean_token_accuracy": 0.16573359668254853,
      "num_tokens": 23296902.0,
      "step": 12625
    },
    {
      "entropy": 5.671449041366577,
      "epoch": 1.0610796051249738,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004893056341568857,
      "loss": 5.4432,
      "mean_token_accuracy": 0.16855929046869278,
      "num_tokens": 23305443.0,
      "step": 12630
    },
    {
      "entropy": 5.694199895858764,
      "epoch": 1.0614996849401386,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004892965095213992,
      "loss": 5.4203,
      "mean_token_accuracy": 0.16460745334625243,
      "num_tokens": 23315420.0,
      "step": 12635
    },
    {
      "entropy": 5.759862661361694,
      "epoch": 1.0619197647553036,
      "grad_norm": 1.375,
      "learning_rate": 0.0004892873810897604,
      "loss": 5.5089,
      "mean_token_accuracy": 0.1558899015188217,
      "num_tokens": 23324540.0,
      "step": 12640
    },
    {
      "entropy": 5.739316987991333,
      "epoch": 1.0623398445704684,
      "grad_norm": 2.25,
      "learning_rate": 0.0004892782488621308,
      "loss": 5.4567,
      "mean_token_accuracy": 0.16644190847873688,
      "num_tokens": 23334282.0,
      "step": 12645
    },
    {
      "entropy": 5.712379074096679,
      "epoch": 1.0627599243856332,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004892691128386725,
      "loss": 5.453,
      "mean_token_accuracy": 0.1627206951379776,
      "num_tokens": 23342836.0,
      "step": 12650
    },
    {
      "entropy": 5.702242517471314,
      "epoch": 1.0631800042007982,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004892599730195471,
      "loss": 5.4406,
      "mean_token_accuracy": 0.16527725458145143,
      "num_tokens": 23351863.0,
      "step": 12655
    },
    {
      "entropy": 5.809025621414184,
      "epoch": 1.063600084015963,
      "grad_norm": 2.0,
      "learning_rate": 0.0004892508294049167,
      "loss": 5.6074,
      "mean_token_accuracy": 0.1642581820487976,
      "num_tokens": 23361788.0,
      "step": 12660
    },
    {
      "entropy": 5.716249179840088,
      "epoch": 1.064020163831128,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004892416819949431,
      "loss": 5.4403,
      "mean_token_accuracy": 0.15782576352357863,
      "num_tokens": 23370175.0,
      "step": 12665
    },
    {
      "entropy": 5.668329477310181,
      "epoch": 1.0644402436462927,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004892325307897886,
      "loss": 5.4826,
      "mean_token_accuracy": 0.16445921808481218,
      "num_tokens": 23378835.0,
      "step": 12670
    },
    {
      "entropy": 5.684893798828125,
      "epoch": 1.0648603234614578,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004892233757896149,
      "loss": 5.4898,
      "mean_token_accuracy": 0.16239043474197387,
      "num_tokens": 23389390.0,
      "step": 12675
    },
    {
      "entropy": 5.731085300445557,
      "epoch": 1.0652804032766225,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004892142169945845,
      "loss": 5.4812,
      "mean_token_accuracy": 0.15869970321655275,
      "num_tokens": 23398802.0,
      "step": 12680
    },
    {
      "entropy": 5.663789510726929,
      "epoch": 1.0657004830917876,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004892050544048596,
      "loss": 5.4592,
      "mean_token_accuracy": 0.16194516718387603,
      "num_tokens": 23407731.0,
      "step": 12685
    },
    {
      "entropy": 5.708717679977417,
      "epoch": 1.0661205629069523,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004891958880206024,
      "loss": 5.5059,
      "mean_token_accuracy": 0.15976526141166686,
      "num_tokens": 23417046.0,
      "step": 12690
    },
    {
      "entropy": 5.7145740509033205,
      "epoch": 1.0665406427221171,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004891867178419753,
      "loss": 5.5009,
      "mean_token_accuracy": 0.1623055413365364,
      "num_tokens": 23426107.0,
      "step": 12695
    },
    {
      "entropy": 5.758947944641113,
      "epoch": 1.0669607225372821,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004891775438691408,
      "loss": 5.5391,
      "mean_token_accuracy": 0.1586405709385872,
      "num_tokens": 23435523.0,
      "step": 12700
    },
    {
      "entropy": 5.691416501998901,
      "epoch": 1.067380802352447,
      "grad_norm": 2.515625,
      "learning_rate": 0.0004891683661022615,
      "loss": 5.4907,
      "mean_token_accuracy": 0.16506600081920625,
      "num_tokens": 23444185.0,
      "step": 12705
    },
    {
      "entropy": 5.812458419799805,
      "epoch": 1.067800882167612,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0004891591845414997,
      "loss": 5.678,
      "mean_token_accuracy": 0.14658654034137725,
      "num_tokens": 23454100.0,
      "step": 12710
    },
    {
      "entropy": 5.816659593582154,
      "epoch": 1.0682209619827767,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004891499991870184,
      "loss": 5.5766,
      "mean_token_accuracy": 0.15168848782777786,
      "num_tokens": 23463415.0,
      "step": 12715
    },
    {
      "entropy": 5.723210430145263,
      "epoch": 1.0686410417979415,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00048914081003898,
      "loss": 5.4731,
      "mean_token_accuracy": 0.15874896347522735,
      "num_tokens": 23471515.0,
      "step": 12720
    },
    {
      "entropy": 5.743414497375488,
      "epoch": 1.0690611216131065,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004891316170975475,
      "loss": 5.5173,
      "mean_token_accuracy": 0.15784869194030762,
      "num_tokens": 23481696.0,
      "step": 12725
    },
    {
      "entropy": 5.7783526420593265,
      "epoch": 1.0694812014282713,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004891224203628836,
      "loss": 5.4774,
      "mean_token_accuracy": 0.16449615508317947,
      "num_tokens": 23490714.0,
      "step": 12730
    },
    {
      "entropy": 5.63666844367981,
      "epoch": 1.0699012812434363,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004891132198351514,
      "loss": 5.4621,
      "mean_token_accuracy": 0.1659099578857422,
      "num_tokens": 23500368.0,
      "step": 12735
    },
    {
      "entropy": 5.526670217514038,
      "epoch": 1.070321361058601,
      "grad_norm": 1.90625,
      "learning_rate": 0.0004891040155145137,
      "loss": 5.4048,
      "mean_token_accuracy": 0.17042581588029862,
      "num_tokens": 23508857.0,
      "step": 12740
    },
    {
      "entropy": 5.627542209625244,
      "epoch": 1.070741440873766,
      "grad_norm": 2.328125,
      "learning_rate": 0.0004890948074011335,
      "loss": 5.3897,
      "mean_token_accuracy": 0.17012525349855423,
      "num_tokens": 23518128.0,
      "step": 12745
    },
    {
      "entropy": 5.748180818557739,
      "epoch": 1.071161520688931,
      "grad_norm": 1.84375,
      "learning_rate": 0.0004890855954951741,
      "loss": 5.4948,
      "mean_token_accuracy": 0.16303456127643584,
      "num_tokens": 23527292.0,
      "step": 12750
    },
    {
      "entropy": 5.744745492935181,
      "epoch": 1.0715816005040957,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0004890763797967987,
      "loss": 5.4885,
      "mean_token_accuracy": 0.16271119713783264,
      "num_tokens": 23535694.0,
      "step": 12755
    },
    {
      "entropy": 5.706960821151734,
      "epoch": 1.0720016803192607,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0004890671603061704,
      "loss": 5.4966,
      "mean_token_accuracy": 0.15939076095819474,
      "num_tokens": 23544766.0,
      "step": 12760
    },
    {
      "entropy": 5.706810760498047,
      "epoch": 1.0724217601344255,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004890579370234526,
      "loss": 5.4554,
      "mean_token_accuracy": 0.1673600748181343,
      "num_tokens": 23554037.0,
      "step": 12765
    },
    {
      "entropy": 5.774952697753906,
      "epoch": 1.0728418399495905,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004890487099488086,
      "loss": 5.5179,
      "mean_token_accuracy": 0.15788703113794328,
      "num_tokens": 23562282.0,
      "step": 12770
    },
    {
      "entropy": 5.792991018295288,
      "epoch": 1.0732619197647553,
      "grad_norm": 1.71875,
      "learning_rate": 0.000489039479082402,
      "loss": 5.5865,
      "mean_token_accuracy": 0.15591855943202973,
      "num_tokens": 23571955.0,
      "step": 12775
    },
    {
      "entropy": 5.676628351211548,
      "epoch": 1.0736819995799203,
      "grad_norm": 2.265625,
      "learning_rate": 0.0004890302444243962,
      "loss": 5.4755,
      "mean_token_accuracy": 0.15936234593391418,
      "num_tokens": 23580996.0,
      "step": 12780
    },
    {
      "entropy": 5.745807313919068,
      "epoch": 1.074102079395085,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004890210059749549,
      "loss": 5.5674,
      "mean_token_accuracy": 0.1499895855784416,
      "num_tokens": 23589618.0,
      "step": 12785
    },
    {
      "entropy": 5.733888244628906,
      "epoch": 1.0745221592102498,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004890117637342416,
      "loss": 5.4154,
      "mean_token_accuracy": 0.1605689197778702,
      "num_tokens": 23599574.0,
      "step": 12790
    },
    {
      "entropy": 5.7341142177581785,
      "epoch": 1.0749422390254149,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0004890025177024202,
      "loss": 5.486,
      "mean_token_accuracy": 0.15659692734479905,
      "num_tokens": 23609205.0,
      "step": 12795
    },
    {
      "entropy": 5.678049373626709,
      "epoch": 1.0753623188405796,
      "grad_norm": 1.875,
      "learning_rate": 0.0004889932678796543,
      "loss": 5.5044,
      "mean_token_accuracy": 0.15572902113199233,
      "num_tokens": 23617554.0,
      "step": 12800
    },
    {
      "entropy": 5.7471010208129885,
      "epoch": 1.0757823986557447,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004889840142661078,
      "loss": 5.5599,
      "mean_token_accuracy": 0.1572861537337303,
      "num_tokens": 23626757.0,
      "step": 12805
    },
    {
      "entropy": 5.770623016357422,
      "epoch": 1.0762024784709094,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004889747568619447,
      "loss": 5.5106,
      "mean_token_accuracy": 0.1615568682551384,
      "num_tokens": 23636111.0,
      "step": 12810
    },
    {
      "entropy": 5.72378830909729,
      "epoch": 1.0766225582860744,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004889654956673291,
      "loss": 5.494,
      "mean_token_accuracy": 0.16236085295677186,
      "num_tokens": 23644579.0,
      "step": 12815
    },
    {
      "entropy": 5.700385427474975,
      "epoch": 1.0770426381012392,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004889562306824248,
      "loss": 5.4095,
      "mean_token_accuracy": 0.1597435638308525,
      "num_tokens": 23653263.0,
      "step": 12820
    },
    {
      "entropy": 5.591032648086548,
      "epoch": 1.077462717916404,
      "grad_norm": 1.7265625,
      "learning_rate": 0.000488946961907396,
      "loss": 5.3843,
      "mean_token_accuracy": 0.1746201902627945,
      "num_tokens": 23662529.0,
      "step": 12825
    },
    {
      "entropy": 5.608241891860962,
      "epoch": 1.077882797731569,
      "grad_norm": 1.75,
      "learning_rate": 0.0004889376893424071,
      "loss": 5.421,
      "mean_token_accuracy": 0.1713373154401779,
      "num_tokens": 23671491.0,
      "step": 12830
    },
    {
      "entropy": 5.640907621383667,
      "epoch": 1.0783028775467338,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004889284129876221,
      "loss": 5.4005,
      "mean_token_accuracy": 0.15988982617855071,
      "num_tokens": 23680121.0,
      "step": 12835
    },
    {
      "entropy": 5.662772226333618,
      "epoch": 1.0787229573618988,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004889191328432054,
      "loss": 5.4614,
      "mean_token_accuracy": 0.16260750889778136,
      "num_tokens": 23689008.0,
      "step": 12840
    },
    {
      "entropy": 5.742505121231079,
      "epoch": 1.0791430371770636,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004889098489093215,
      "loss": 5.5053,
      "mean_token_accuracy": 0.1597042962908745,
      "num_tokens": 23698551.0,
      "step": 12845
    },
    {
      "entropy": 5.8218427181243895,
      "epoch": 1.0795631169922286,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004889005611861347,
      "loss": 5.6635,
      "mean_token_accuracy": 0.15463445335626602,
      "num_tokens": 23707438.0,
      "step": 12850
    },
    {
      "entropy": 5.734436941146851,
      "epoch": 1.0799831968073934,
      "grad_norm": 2.046875,
      "learning_rate": 0.0004888912696738096,
      "loss": 5.5045,
      "mean_token_accuracy": 0.16258185505867004,
      "num_tokens": 23715822.0,
      "step": 12855
    },
    {
      "entropy": 5.743537902832031,
      "epoch": 1.0804032766225582,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004888819743725108,
      "loss": 5.5265,
      "mean_token_accuracy": 0.1599157154560089,
      "num_tokens": 23725426.0,
      "step": 12860
    },
    {
      "entropy": 5.762011289596558,
      "epoch": 1.0808233564377232,
      "grad_norm": 1.46875,
      "learning_rate": 0.000488872675282403,
      "loss": 5.5143,
      "mean_token_accuracy": 0.16166198402643203,
      "num_tokens": 23735092.0,
      "step": 12865
    },
    {
      "entropy": 5.754138803482055,
      "epoch": 1.081243436252888,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004888633724036509,
      "loss": 5.5018,
      "mean_token_accuracy": 0.16174346208572388,
      "num_tokens": 23744255.0,
      "step": 12870
    },
    {
      "entropy": 5.657329463958741,
      "epoch": 1.081663516068053,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004888540657364192,
      "loss": 5.3593,
      "mean_token_accuracy": 0.1702010914683342,
      "num_tokens": 23752978.0,
      "step": 12875
    },
    {
      "entropy": 5.6576941967010494,
      "epoch": 1.0820835958832178,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004888447552808729,
      "loss": 5.4421,
      "mean_token_accuracy": 0.16415699273347856,
      "num_tokens": 23761051.0,
      "step": 12880
    },
    {
      "entropy": 5.763893032073975,
      "epoch": 1.0825036756983828,
      "grad_norm": 2.15625,
      "learning_rate": 0.0004888354410371768,
      "loss": 5.5546,
      "mean_token_accuracy": 0.15805445313453675,
      "num_tokens": 23770818.0,
      "step": 12885
    },
    {
      "entropy": 5.810835695266723,
      "epoch": 1.0829237555135476,
      "grad_norm": 1.9375,
      "learning_rate": 0.000488826123005496,
      "loss": 5.5714,
      "mean_token_accuracy": 0.16120226234197615,
      "num_tokens": 23780597.0,
      "step": 12890
    },
    {
      "entropy": 5.69043231010437,
      "epoch": 1.0833438353287124,
      "grad_norm": 3.21875,
      "learning_rate": 0.0004888168011859957,
      "loss": 5.4083,
      "mean_token_accuracy": 0.16143542230129243,
      "num_tokens": 23790119.0,
      "step": 12895
    },
    {
      "entropy": 5.687187528610229,
      "epoch": 1.0837639151438774,
      "grad_norm": 2.109375,
      "learning_rate": 0.0004888074755788407,
      "loss": 5.4772,
      "mean_token_accuracy": 0.16725920587778093,
      "num_tokens": 23798972.0,
      "step": 12900
    },
    {
      "entropy": 5.722570514678955,
      "epoch": 1.0841839949590422,
      "grad_norm": 2.578125,
      "learning_rate": 0.0004887981461841963,
      "loss": 5.4527,
      "mean_token_accuracy": 0.17206404507160186,
      "num_tokens": 23808685.0,
      "step": 12905
    },
    {
      "entropy": 5.765744590759278,
      "epoch": 1.0846040747742072,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004887888130022279,
      "loss": 5.4663,
      "mean_token_accuracy": 0.16214465647935866,
      "num_tokens": 23817721.0,
      "step": 12910
    },
    {
      "entropy": 5.631449890136719,
      "epoch": 1.085024154589372,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004887794760331008,
      "loss": 5.4193,
      "mean_token_accuracy": 0.16689784675836564,
      "num_tokens": 23826892.0,
      "step": 12915
    },
    {
      "entropy": 5.683791780471802,
      "epoch": 1.085444234404537,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0004887701352769804,
      "loss": 5.3724,
      "mean_token_accuracy": 0.17175290137529373,
      "num_tokens": 23835717.0,
      "step": 12920
    },
    {
      "entropy": 5.697872066497803,
      "epoch": 1.0858643142197018,
      "grad_norm": 1.625,
      "learning_rate": 0.000488760790734032,
      "loss": 5.472,
      "mean_token_accuracy": 0.16542189866304396,
      "num_tokens": 23845814.0,
      "step": 12925
    },
    {
      "entropy": 5.738125276565552,
      "epoch": 1.0862843940348665,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004887514424044214,
      "loss": 5.4563,
      "mean_token_accuracy": 0.153540675342083,
      "num_tokens": 23854779.0,
      "step": 12930
    },
    {
      "entropy": 5.688271474838257,
      "epoch": 1.0867044738500315,
      "grad_norm": 2.09375,
      "learning_rate": 0.000488742090288314,
      "loss": 5.5074,
      "mean_token_accuracy": 0.16052113920450212,
      "num_tokens": 23863533.0,
      "step": 12935
    },
    {
      "entropy": 5.7345654487609865,
      "epoch": 1.0871245536651963,
      "grad_norm": 2.09375,
      "learning_rate": 0.0004887327343858755,
      "loss": 5.5325,
      "mean_token_accuracy": 0.1583286091685295,
      "num_tokens": 23872725.0,
      "step": 12940
    },
    {
      "entropy": 5.735647916793823,
      "epoch": 1.0875446334803613,
      "grad_norm": 1.890625,
      "learning_rate": 0.0004887233746972717,
      "loss": 5.5094,
      "mean_token_accuracy": 0.1608467683196068,
      "num_tokens": 23881799.0,
      "step": 12945
    },
    {
      "entropy": 5.736598634719849,
      "epoch": 1.0879647132955261,
      "grad_norm": 1.75,
      "learning_rate": 0.0004887140112226684,
      "loss": 5.5438,
      "mean_token_accuracy": 0.15989564061164857,
      "num_tokens": 23890628.0,
      "step": 12950
    },
    {
      "entropy": 5.667224788665772,
      "epoch": 1.088384793110691,
      "grad_norm": 3.46875,
      "learning_rate": 0.0004887046439622314,
      "loss": 5.5216,
      "mean_token_accuracy": 0.16750244051218033,
      "num_tokens": 23899968.0,
      "step": 12955
    },
    {
      "entropy": 5.747261238098145,
      "epoch": 1.088804872925856,
      "grad_norm": 2.421875,
      "learning_rate": 0.0004886952729161267,
      "loss": 5.3932,
      "mean_token_accuracy": 0.16512321233749389,
      "num_tokens": 23908634.0,
      "step": 12960
    },
    {
      "entropy": 5.779636716842651,
      "epoch": 1.0892249527410207,
      "grad_norm": 5.5625,
      "learning_rate": 0.0004886858980845202,
      "loss": 5.5616,
      "mean_token_accuracy": 0.15966024100780488,
      "num_tokens": 23917925.0,
      "step": 12965
    },
    {
      "entropy": 5.65394434928894,
      "epoch": 1.0896450325561857,
      "grad_norm": 2.90625,
      "learning_rate": 0.0004886765194675782,
      "loss": 5.4445,
      "mean_token_accuracy": 0.1655475303530693,
      "num_tokens": 23927173.0,
      "step": 12970
    },
    {
      "entropy": 5.667041397094726,
      "epoch": 1.0900651123713505,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004886671370654665,
      "loss": 5.4196,
      "mean_token_accuracy": 0.1653660088777542,
      "num_tokens": 23936258.0,
      "step": 12975
    },
    {
      "entropy": 5.676847219467163,
      "epoch": 1.0904851921865155,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004886577508783516,
      "loss": 5.3862,
      "mean_token_accuracy": 0.16707207411527633,
      "num_tokens": 23944215.0,
      "step": 12980
    },
    {
      "entropy": 5.730111455917358,
      "epoch": 1.0909052720016803,
      "grad_norm": 3.203125,
      "learning_rate": 0.0004886483609063997,
      "loss": 5.4505,
      "mean_token_accuracy": 0.16068692207336427,
      "num_tokens": 23953151.0,
      "step": 12985
    },
    {
      "entropy": 5.592217302322387,
      "epoch": 1.0913253518168453,
      "grad_norm": 2.359375,
      "learning_rate": 0.0004886389671497769,
      "loss": 5.4724,
      "mean_token_accuracy": 0.16959808766841888,
      "num_tokens": 23962919.0,
      "step": 12990
    },
    {
      "entropy": 5.735597896575928,
      "epoch": 1.09174543163201,
      "grad_norm": 2.53125,
      "learning_rate": 0.00048862956960865,
      "loss": 5.4779,
      "mean_token_accuracy": 0.15886924266815186,
      "num_tokens": 23971900.0,
      "step": 12995
    },
    {
      "entropy": 5.7348557472229,
      "epoch": 1.0921655114471749,
      "grad_norm": 1.75,
      "learning_rate": 0.0004886201682831852,
      "loss": 5.4471,
      "mean_token_accuracy": 0.16426561921834945,
      "num_tokens": 23980945.0,
      "step": 13000
    },
    {
      "entropy": 5.678046464920044,
      "epoch": 1.09258559126234,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004886107631735491,
      "loss": 5.4056,
      "mean_token_accuracy": 0.16405817568302156,
      "num_tokens": 23990460.0,
      "step": 13005
    },
    {
      "entropy": 5.714896297454834,
      "epoch": 1.0930056710775047,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004886013542799083,
      "loss": 5.5804,
      "mean_token_accuracy": 0.15213673710823059,
      "num_tokens": 23999925.0,
      "step": 13010
    },
    {
      "entropy": 5.658804130554199,
      "epoch": 1.0934257508926697,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004885919416024296,
      "loss": 5.4217,
      "mean_token_accuracy": 0.1613025948405266,
      "num_tokens": 24009039.0,
      "step": 13015
    },
    {
      "entropy": 5.759115076065063,
      "epoch": 1.0938458307078345,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004885825251412796,
      "loss": 5.4736,
      "mean_token_accuracy": 0.16182312816381456,
      "num_tokens": 24017725.0,
      "step": 13020
    },
    {
      "entropy": 5.735840749740601,
      "epoch": 1.0942659105229993,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004885731048966252,
      "loss": 5.503,
      "mean_token_accuracy": 0.1575954094529152,
      "num_tokens": 24027158.0,
      "step": 13025
    },
    {
      "entropy": 5.6926501274108885,
      "epoch": 1.0946859903381643,
      "grad_norm": 1.890625,
      "learning_rate": 0.0004885636808686331,
      "loss": 5.5293,
      "mean_token_accuracy": 0.16384944021701814,
      "num_tokens": 24037224.0,
      "step": 13030
    },
    {
      "entropy": 5.738328456878662,
      "epoch": 1.095106070153329,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004885542530574705,
      "loss": 5.5052,
      "mean_token_accuracy": 0.1625734105706215,
      "num_tokens": 24046097.0,
      "step": 13035
    },
    {
      "entropy": 5.693251371383667,
      "epoch": 1.095526149968494,
      "grad_norm": 2.1875,
      "learning_rate": 0.0004885448214633042,
      "loss": 5.4044,
      "mean_token_accuracy": 0.1620977535843849,
      "num_tokens": 24055270.0,
      "step": 13040
    },
    {
      "entropy": 5.73248519897461,
      "epoch": 1.0959462297836589,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004885353860863013,
      "loss": 5.5641,
      "mean_token_accuracy": 0.15346422791481018,
      "num_tokens": 24064995.0,
      "step": 13045
    },
    {
      "entropy": 5.779075717926025,
      "epoch": 1.0963663095988239,
      "grad_norm": 1.921875,
      "learning_rate": 0.000488525946926629,
      "loss": 5.6107,
      "mean_token_accuracy": 0.15505203902721404,
      "num_tokens": 24075523.0,
      "step": 13050
    },
    {
      "entropy": 5.737312889099121,
      "epoch": 1.0967863894139886,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0004885165039844545,
      "loss": 5.4789,
      "mean_token_accuracy": 0.16420630365610123,
      "num_tokens": 24084933.0,
      "step": 13055
    },
    {
      "entropy": 5.698319673538208,
      "epoch": 1.0972064692291534,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004885070572599452,
      "loss": 5.503,
      "mean_token_accuracy": 0.15282038301229478,
      "num_tokens": 24093964.0,
      "step": 13060
    },
    {
      "entropy": 5.724235200881958,
      "epoch": 1.0976265490443184,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004884976067532681,
      "loss": 5.452,
      "mean_token_accuracy": 0.15377498120069505,
      "num_tokens": 24103951.0,
      "step": 13065
    },
    {
      "entropy": 5.679253768920899,
      "epoch": 1.0980466288594832,
      "grad_norm": 1.5234375,
      "learning_rate": 0.000488488152464591,
      "loss": 5.5711,
      "mean_token_accuracy": 0.15378451496362686,
      "num_tokens": 24113392.0,
      "step": 13070
    },
    {
      "entropy": 5.718753099441528,
      "epoch": 1.0984667086746482,
      "grad_norm": 2.171875,
      "learning_rate": 0.0004884786943940812,
      "loss": 5.4403,
      "mean_token_accuracy": 0.15815389901399612,
      "num_tokens": 24123165.0,
      "step": 13075
    },
    {
      "entropy": 5.713952112197876,
      "epoch": 1.098886788489813,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004884692325419063,
      "loss": 5.479,
      "mean_token_accuracy": 0.15968940854072572,
      "num_tokens": 24132176.0,
      "step": 13080
    },
    {
      "entropy": 5.682787561416626,
      "epoch": 1.099306868304978,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004884597669082336,
      "loss": 5.5387,
      "mean_token_accuracy": 0.15351806879043578,
      "num_tokens": 24141737.0,
      "step": 13085
    },
    {
      "entropy": 5.712856578826904,
      "epoch": 1.0997269481201428,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004884502974932313,
      "loss": 5.4785,
      "mean_token_accuracy": 0.16513199657201766,
      "num_tokens": 24150477.0,
      "step": 13090
    },
    {
      "entropy": 5.806832218170166,
      "epoch": 1.1001470279353076,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0004884408242970668,
      "loss": 5.5721,
      "mean_token_accuracy": 0.15941140204668044,
      "num_tokens": 24158739.0,
      "step": 13095
    },
    {
      "entropy": 5.651869440078736,
      "epoch": 1.1005671077504726,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004884313473199081,
      "loss": 5.4125,
      "mean_token_accuracy": 0.16672947108745576,
      "num_tokens": 24167511.0,
      "step": 13100
    },
    {
      "entropy": 5.65992579460144,
      "epoch": 1.1009871875656374,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004884218665619229,
      "loss": 5.4252,
      "mean_token_accuracy": 0.1618572935461998,
      "num_tokens": 24176413.0,
      "step": 13105
    },
    {
      "entropy": 5.691173410415649,
      "epoch": 1.1014072673808024,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004884123820232792,
      "loss": 5.3662,
      "mean_token_accuracy": 0.17088967561721802,
      "num_tokens": 24185135.0,
      "step": 13110
    },
    {
      "entropy": 5.688163566589355,
      "epoch": 1.1018273471959672,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004884028937041451,
      "loss": 5.4519,
      "mean_token_accuracy": 0.16832585632801056,
      "num_tokens": 24193273.0,
      "step": 13115
    },
    {
      "entropy": 5.6593669891357425,
      "epoch": 1.1022474270111322,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004883934016046886,
      "loss": 5.5176,
      "mean_token_accuracy": 0.15427347868680955,
      "num_tokens": 24202509.0,
      "step": 13120
    },
    {
      "entropy": 5.783310222625732,
      "epoch": 1.102667506826297,
      "grad_norm": 1.3984375,
      "learning_rate": 0.000488383905725078,
      "loss": 5.5096,
      "mean_token_accuracy": 0.15751553177833558,
      "num_tokens": 24212644.0,
      "step": 13125
    },
    {
      "entropy": 5.7312768459320065,
      "epoch": 1.1030875866414618,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004883744060654811,
      "loss": 5.4135,
      "mean_token_accuracy": 0.16013285517692566,
      "num_tokens": 24221838.0,
      "step": 13130
    },
    {
      "entropy": 5.651692819595337,
      "epoch": 1.1035076664566268,
      "grad_norm": 1.96875,
      "learning_rate": 0.0004883649026260667,
      "loss": 5.4813,
      "mean_token_accuracy": 0.16545673757791518,
      "num_tokens": 24230987.0,
      "step": 13135
    },
    {
      "entropy": 5.6557066440582275,
      "epoch": 1.1039277462717916,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004883553954070028,
      "loss": 5.4491,
      "mean_token_accuracy": 0.16192631274461747,
      "num_tokens": 24240523.0,
      "step": 13140
    },
    {
      "entropy": 5.724129486083984,
      "epoch": 1.1043478260869566,
      "grad_norm": 1.5078125,
      "learning_rate": 0.000488345884408458,
      "loss": 5.5421,
      "mean_token_accuracy": 0.1672690689563751,
      "num_tokens": 24249799.0,
      "step": 13145
    },
    {
      "entropy": 5.723703002929687,
      "epoch": 1.1047679059021214,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004883363696306007,
      "loss": 5.4621,
      "mean_token_accuracy": 0.1656269609928131,
      "num_tokens": 24259361.0,
      "step": 13150
    },
    {
      "entropy": 5.718085622787475,
      "epoch": 1.1051879857172864,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0004883268510735995,
      "loss": 5.4368,
      "mean_token_accuracy": 0.15831930935382843,
      "num_tokens": 24268010.0,
      "step": 13155
    },
    {
      "entropy": 5.5756614208221436,
      "epoch": 1.1056080655324512,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004883173287376229,
      "loss": 5.4839,
      "mean_token_accuracy": 0.1586616076529026,
      "num_tokens": 24277416.0,
      "step": 13160
    },
    {
      "entropy": 5.7934998035430905,
      "epoch": 1.106028145347616,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004883078026228397,
      "loss": 5.5608,
      "mean_token_accuracy": 0.16097336113452912,
      "num_tokens": 24286185.0,
      "step": 13165
    },
    {
      "entropy": 5.741655588150024,
      "epoch": 1.106448225162781,
      "grad_norm": 1.75,
      "learning_rate": 0.0004882982727294187,
      "loss": 5.428,
      "mean_token_accuracy": 0.1603280246257782,
      "num_tokens": 24295382.0,
      "step": 13170
    },
    {
      "entropy": 5.676276683807373,
      "epoch": 1.1068683049779457,
      "grad_norm": 5.4375,
      "learning_rate": 0.0004882887390575284,
      "loss": 5.4468,
      "mean_token_accuracy": 0.1647188439965248,
      "num_tokens": 24305197.0,
      "step": 13175
    },
    {
      "entropy": 5.706903171539307,
      "epoch": 1.1072883847931108,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0004882792016073381,
      "loss": 5.541,
      "mean_token_accuracy": 0.15018792897462846,
      "num_tokens": 24314149.0,
      "step": 13180
    },
    {
      "entropy": 5.755481195449829,
      "epoch": 1.1077084646082755,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00048826966037901655,
      "loss": 5.4681,
      "mean_token_accuracy": 0.1623881921172142,
      "num_tokens": 24323737.0,
      "step": 13185
    },
    {
      "entropy": 5.675417709350586,
      "epoch": 1.1081285444234406,
      "grad_norm": 2.5,
      "learning_rate": 0.00048826011537273276,
      "loss": 5.4406,
      "mean_token_accuracy": 0.1623774915933609,
      "num_tokens": 24332853.0,
      "step": 13190
    },
    {
      "entropy": 5.705647706985474,
      "epoch": 1.1085486242386053,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004882505665886558,
      "loss": 5.5693,
      "mean_token_accuracy": 0.15558527559041976,
      "num_tokens": 24342632.0,
      "step": 13195
    },
    {
      "entropy": 5.6826183795928955,
      "epoch": 1.1089687040537701,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00048824101402695493,
      "loss": 5.4113,
      "mean_token_accuracy": 0.16228149831295013,
      "num_tokens": 24351659.0,
      "step": 13200
    },
    {
      "entropy": 5.612444162368774,
      "epoch": 1.1093887838689351,
      "grad_norm": 2.171875,
      "learning_rate": 0.0004882314576877993,
      "loss": 5.4479,
      "mean_token_accuracy": 0.1650165230035782,
      "num_tokens": 24360938.0,
      "step": 13205
    },
    {
      "entropy": 5.7091968059539795,
      "epoch": 1.1098088636841,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004882218975713581,
      "loss": 5.5041,
      "mean_token_accuracy": 0.1613766685128212,
      "num_tokens": 24369603.0,
      "step": 13210
    },
    {
      "entropy": 5.702196216583252,
      "epoch": 1.110228943499265,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004882123336778009,
      "loss": 5.4355,
      "mean_token_accuracy": 0.16338066160678863,
      "num_tokens": 24377605.0,
      "step": 13215
    },
    {
      "entropy": 5.725568962097168,
      "epoch": 1.1106490233144297,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004882027660072969,
      "loss": 5.5007,
      "mean_token_accuracy": 0.15481040328741075,
      "num_tokens": 24386930.0,
      "step": 13220
    },
    {
      "entropy": 5.700316143035889,
      "epoch": 1.1110691031295947,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0004881931945600157,
      "loss": 5.4679,
      "mean_token_accuracy": 0.16834752559661864,
      "num_tokens": 24396473.0,
      "step": 13225
    },
    {
      "entropy": 5.72724027633667,
      "epoch": 1.1114891829447595,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004881836193361269,
      "loss": 5.5465,
      "mean_token_accuracy": 0.1676660493016243,
      "num_tokens": 24405461.0,
      "step": 13230
    },
    {
      "entropy": 5.7355544090271,
      "epoch": 1.1119092627599243,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004881740403358,
      "loss": 5.4901,
      "mean_token_accuracy": 0.16505587697029114,
      "num_tokens": 24414138.0,
      "step": 13235
    },
    {
      "entropy": 5.717983341217041,
      "epoch": 1.1123293425750893,
      "grad_norm": 1.671875,
      "learning_rate": 0.00048816445755920474,
      "loss": 5.5038,
      "mean_token_accuracy": 0.15973408818244933,
      "num_tokens": 24423386.0,
      "step": 13240
    },
    {
      "entropy": 5.685654735565185,
      "epoch": 1.112749422390254,
      "grad_norm": 2.125,
      "learning_rate": 0.0004881548710065109,
      "loss": 5.4944,
      "mean_token_accuracy": 0.15903386771678923,
      "num_tokens": 24433637.0,
      "step": 13245
    },
    {
      "entropy": 5.740741491317749,
      "epoch": 1.113169502205419,
      "grad_norm": 2.328125,
      "learning_rate": 0.0004881452806778883,
      "loss": 5.5311,
      "mean_token_accuracy": 0.16349861323833464,
      "num_tokens": 24443677.0,
      "step": 13250
    },
    {
      "entropy": 5.709890747070313,
      "epoch": 1.113589582020584,
      "grad_norm": 1.53125,
      "learning_rate": 0.00048813568657350676,
      "loss": 5.4317,
      "mean_token_accuracy": 0.16741538047790527,
      "num_tokens": 24452317.0,
      "step": 13255
    },
    {
      "entropy": 5.704727077484131,
      "epoch": 1.1140096618357487,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004881260886935363,
      "loss": 5.449,
      "mean_token_accuracy": 0.16238080710172653,
      "num_tokens": 24460626.0,
      "step": 13260
    },
    {
      "entropy": 5.757587671279907,
      "epoch": 1.1144297416509137,
      "grad_norm": 2.03125,
      "learning_rate": 0.00048811648703814693,
      "loss": 5.546,
      "mean_token_accuracy": 0.1519101120531559,
      "num_tokens": 24469583.0,
      "step": 13265
    },
    {
      "entropy": 5.741657829284668,
      "epoch": 1.1148498214660785,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004881068816075087,
      "loss": 5.4811,
      "mean_token_accuracy": 0.15867555439472197,
      "num_tokens": 24478811.0,
      "step": 13270
    },
    {
      "entropy": 5.706976461410522,
      "epoch": 1.1152699012812435,
      "grad_norm": 1.78125,
      "learning_rate": 0.00048809727240179193,
      "loss": 5.5147,
      "mean_token_accuracy": 0.1607096463441849,
      "num_tokens": 24487818.0,
      "step": 13275
    },
    {
      "entropy": 5.676044464111328,
      "epoch": 1.1156899810964083,
      "grad_norm": 2.0625,
      "learning_rate": 0.0004880876594211665,
      "loss": 5.4882,
      "mean_token_accuracy": 0.15960678607225418,
      "num_tokens": 24497087.0,
      "step": 13280
    },
    {
      "entropy": 5.743713235855102,
      "epoch": 1.1161100609115733,
      "grad_norm": 2.109375,
      "learning_rate": 0.00048807804266580304,
      "loss": 5.4398,
      "mean_token_accuracy": 0.15841995030641556,
      "num_tokens": 24505347.0,
      "step": 13285
    },
    {
      "entropy": 5.774560213088989,
      "epoch": 1.116530140726738,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004880684221358717,
      "loss": 5.4756,
      "mean_token_accuracy": 0.16267163306474686,
      "num_tokens": 24514732.0,
      "step": 13290
    },
    {
      "entropy": 5.7229407787322994,
      "epoch": 1.116950220541903,
      "grad_norm": 1.671875,
      "learning_rate": 0.00048805879783154305,
      "loss": 5.5052,
      "mean_token_accuracy": 0.16089607030153275,
      "num_tokens": 24523295.0,
      "step": 13295
    },
    {
      "entropy": 5.651921367645263,
      "epoch": 1.1173703003570679,
      "grad_norm": 1.53125,
      "learning_rate": 0.00048804916975298744,
      "loss": 5.4123,
      "mean_token_accuracy": 0.16294008493423462,
      "num_tokens": 24532415.0,
      "step": 13300
    },
    {
      "entropy": 5.739264678955078,
      "epoch": 1.1177903801722326,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004880395379003755,
      "loss": 5.5434,
      "mean_token_accuracy": 0.15819203555583955,
      "num_tokens": 24541856.0,
      "step": 13305
    },
    {
      "entropy": 5.685423040390015,
      "epoch": 1.1182104599873977,
      "grad_norm": 1.8125,
      "learning_rate": 0.00048802990227387797,
      "loss": 5.5277,
      "mean_token_accuracy": 0.1538828618824482,
      "num_tokens": 24550982.0,
      "step": 13310
    },
    {
      "entropy": 5.771675062179566,
      "epoch": 1.1186305398025624,
      "grad_norm": 1.59375,
      "learning_rate": 0.00048802026287366525,
      "loss": 5.5966,
      "mean_token_accuracy": 0.1531897470355034,
      "num_tokens": 24561176.0,
      "step": 13315
    },
    {
      "entropy": 5.749803829193115,
      "epoch": 1.1190506196177274,
      "grad_norm": 1.984375,
      "learning_rate": 0.00048801061969990834,
      "loss": 5.47,
      "mean_token_accuracy": 0.16135310828685762,
      "num_tokens": 24570741.0,
      "step": 13320
    },
    {
      "entropy": 5.661540126800537,
      "epoch": 1.1194706994328922,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00048800097275277795,
      "loss": 5.4795,
      "mean_token_accuracy": 0.16684099435806274,
      "num_tokens": 24580175.0,
      "step": 13325
    },
    {
      "entropy": 5.715025186538696,
      "epoch": 1.119890779248057,
      "grad_norm": 1.578125,
      "learning_rate": 0.000487991322032445,
      "loss": 5.4763,
      "mean_token_accuracy": 0.16523855775594712,
      "num_tokens": 24588754.0,
      "step": 13330
    },
    {
      "entropy": 5.864963054656982,
      "epoch": 1.120310859063222,
      "grad_norm": 1.75,
      "learning_rate": 0.0004879816675390805,
      "loss": 5.6524,
      "mean_token_accuracy": 0.15361952036619186,
      "num_tokens": 24599429.0,
      "step": 13335
    },
    {
      "entropy": 5.661528491973877,
      "epoch": 1.1207309388783868,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00048797200927285547,
      "loss": 5.3917,
      "mean_token_accuracy": 0.1662903368473053,
      "num_tokens": 24608767.0,
      "step": 13340
    },
    {
      "entropy": 5.678159713745117,
      "epoch": 1.1211510186935518,
      "grad_norm": 1.859375,
      "learning_rate": 0.0004879623472339409,
      "loss": 5.5641,
      "mean_token_accuracy": 0.16006904989480972,
      "num_tokens": 24618232.0,
      "step": 13345
    },
    {
      "entropy": 5.752752017974854,
      "epoch": 1.1215710985087166,
      "grad_norm": 1.6640625,
      "learning_rate": 0.000487952681422508,
      "loss": 5.4368,
      "mean_token_accuracy": 0.16255403459072112,
      "num_tokens": 24626986.0,
      "step": 13350
    },
    {
      "entropy": 5.588898992538452,
      "epoch": 1.1219911783238816,
      "grad_norm": 1.4453125,
      "learning_rate": 0.000487943011838728,
      "loss": 5.3223,
      "mean_token_accuracy": 0.16933453232049941,
      "num_tokens": 24635283.0,
      "step": 13355
    },
    {
      "entropy": 5.555433702468872,
      "epoch": 1.1224112581390464,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004879333384827722,
      "loss": 5.4317,
      "mean_token_accuracy": 0.1646237164735794,
      "num_tokens": 24644451.0,
      "step": 13360
    },
    {
      "entropy": 5.796985626220703,
      "epoch": 1.1228313379542114,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004879236613548119,
      "loss": 5.5727,
      "mean_token_accuracy": 0.15768791288137435,
      "num_tokens": 24654811.0,
      "step": 13365
    },
    {
      "entropy": 5.751317977905273,
      "epoch": 1.1232514177693762,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004879139804550187,
      "loss": 5.4907,
      "mean_token_accuracy": 0.15994445979595184,
      "num_tokens": 24663712.0,
      "step": 13370
    },
    {
      "entropy": 5.733260011672973,
      "epoch": 1.123671497584541,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00048790429578356387,
      "loss": 5.588,
      "mean_token_accuracy": 0.15311638191342353,
      "num_tokens": 24672518.0,
      "step": 13375
    },
    {
      "entropy": 5.719970655441284,
      "epoch": 1.124091577399706,
      "grad_norm": 1.453125,
      "learning_rate": 0.00048789460734061915,
      "loss": 5.5207,
      "mean_token_accuracy": 0.160324390232563,
      "num_tokens": 24681900.0,
      "step": 13380
    },
    {
      "entropy": 5.720213317871094,
      "epoch": 1.1245116572148708,
      "grad_norm": 4.53125,
      "learning_rate": 0.0004878849151263561,
      "loss": 5.4909,
      "mean_token_accuracy": 0.16072850972414016,
      "num_tokens": 24691760.0,
      "step": 13385
    },
    {
      "entropy": 5.71978440284729,
      "epoch": 1.1249317370300358,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004878752191409463,
      "loss": 5.4247,
      "mean_token_accuracy": 0.16750899255275725,
      "num_tokens": 24700742.0,
      "step": 13390
    },
    {
      "entropy": 5.660094261169434,
      "epoch": 1.1253518168452006,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004878655193845616,
      "loss": 5.5156,
      "mean_token_accuracy": 0.15948394387960435,
      "num_tokens": 24709329.0,
      "step": 13395
    },
    {
      "entropy": 5.693703031539917,
      "epoch": 1.1257718966603654,
      "grad_norm": 1.921875,
      "learning_rate": 0.00048785581585737394,
      "loss": 5.6359,
      "mean_token_accuracy": 0.15693159401416779,
      "num_tokens": 24718475.0,
      "step": 13400
    },
    {
      "entropy": 5.770649480819702,
      "epoch": 1.1261919764755304,
      "grad_norm": 2.375,
      "learning_rate": 0.000487846108559555,
      "loss": 5.5083,
      "mean_token_accuracy": 0.16890775114297868,
      "num_tokens": 24727817.0,
      "step": 13405
    },
    {
      "entropy": 5.703707599639893,
      "epoch": 1.1266120562906952,
      "grad_norm": 1.515625,
      "learning_rate": 0.00048783639749127694,
      "loss": 5.4892,
      "mean_token_accuracy": 0.16033429354429246,
      "num_tokens": 24737057.0,
      "step": 13410
    },
    {
      "entropy": 5.686640310287475,
      "epoch": 1.1270321361058602,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004878266826527116,
      "loss": 5.5297,
      "mean_token_accuracy": 0.15543637573719024,
      "num_tokens": 24746016.0,
      "step": 13415
    },
    {
      "entropy": 5.779524898529052,
      "epoch": 1.127452215921025,
      "grad_norm": 1.578125,
      "learning_rate": 0.00048781696404403126,
      "loss": 5.527,
      "mean_token_accuracy": 0.163545098900795,
      "num_tokens": 24755978.0,
      "step": 13420
    },
    {
      "entropy": 5.694488048553467,
      "epoch": 1.12787229573619,
      "grad_norm": 1.5625,
      "learning_rate": 0.00048780724166540794,
      "loss": 5.423,
      "mean_token_accuracy": 0.1599399358034134,
      "num_tokens": 24765255.0,
      "step": 13425
    },
    {
      "entropy": 5.662991142272949,
      "epoch": 1.1282923755513548,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004877975155170139,
      "loss": 5.4922,
      "mean_token_accuracy": 0.15767267495393752,
      "num_tokens": 24774339.0,
      "step": 13430
    },
    {
      "entropy": 5.680190658569336,
      "epoch": 1.1287124553665198,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004877877855990215,
      "loss": 5.4979,
      "mean_token_accuracy": 0.1563847467303276,
      "num_tokens": 24783236.0,
      "step": 13435
    },
    {
      "entropy": 5.642968368530274,
      "epoch": 1.1291325351816845,
      "grad_norm": 1.609375,
      "learning_rate": 0.000487778051911603,
      "loss": 5.4033,
      "mean_token_accuracy": 0.1693968042731285,
      "num_tokens": 24792168.0,
      "step": 13440
    },
    {
      "entropy": 5.761270141601562,
      "epoch": 1.1295526149968493,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004877683144549308,
      "loss": 5.5611,
      "mean_token_accuracy": 0.16145953834056853,
      "num_tokens": 24800843.0,
      "step": 13445
    },
    {
      "entropy": 5.7103941440582275,
      "epoch": 1.1299726948120143,
      "grad_norm": 1.59375,
      "learning_rate": 0.00048775857322917753,
      "loss": 5.4436,
      "mean_token_accuracy": 0.15832821130752564,
      "num_tokens": 24810475.0,
      "step": 13450
    },
    {
      "entropy": 5.657360696792603,
      "epoch": 1.1303927746271791,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004877488282345158,
      "loss": 5.5202,
      "mean_token_accuracy": 0.16295383870601654,
      "num_tokens": 24820486.0,
      "step": 13455
    },
    {
      "entropy": 5.752575635910034,
      "epoch": 1.1308128544423441,
      "grad_norm": 1.6953125,
      "learning_rate": 0.000487739079471118,
      "loss": 5.5749,
      "mean_token_accuracy": 0.16365474909543992,
      "num_tokens": 24830243.0,
      "step": 13460
    },
    {
      "entropy": 5.7682483196258545,
      "epoch": 1.131232934257509,
      "grad_norm": 1.75,
      "learning_rate": 0.000487729326939157,
      "loss": 5.4805,
      "mean_token_accuracy": 0.16092797219753266,
      "num_tokens": 24839090.0,
      "step": 13465
    },
    {
      "entropy": 5.685783910751343,
      "epoch": 1.1316530140726737,
      "grad_norm": 2.203125,
      "learning_rate": 0.00048771957063880553,
      "loss": 5.4632,
      "mean_token_accuracy": 0.1614797055721283,
      "num_tokens": 24847933.0,
      "step": 13470
    },
    {
      "entropy": 5.772010850906372,
      "epoch": 1.1320730938878387,
      "grad_norm": 2.015625,
      "learning_rate": 0.0004877098105702363,
      "loss": 5.4886,
      "mean_token_accuracy": 0.163765586912632,
      "num_tokens": 24857037.0,
      "step": 13475
    },
    {
      "entropy": 5.617125749588013,
      "epoch": 1.1324931737030035,
      "grad_norm": 1.59375,
      "learning_rate": 0.00048770004673362243,
      "loss": 5.3125,
      "mean_token_accuracy": 0.1722439780831337,
      "num_tokens": 24866042.0,
      "step": 13480
    },
    {
      "entropy": 5.561356925964356,
      "epoch": 1.1329132535181685,
      "grad_norm": 1.734375,
      "learning_rate": 0.00048769027912913673,
      "loss": 5.2843,
      "mean_token_accuracy": 0.1734999194741249,
      "num_tokens": 24873735.0,
      "step": 13485
    },
    {
      "entropy": 5.528507661819458,
      "epoch": 1.1333333333333333,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0004876805077569522,
      "loss": 5.353,
      "mean_token_accuracy": 0.16299628913402558,
      "num_tokens": 24882277.0,
      "step": 13490
    },
    {
      "entropy": 5.604131412506104,
      "epoch": 1.133753413148498,
      "grad_norm": 2.03125,
      "learning_rate": 0.00048767073261724204,
      "loss": 5.4774,
      "mean_token_accuracy": 0.16074343770742416,
      "num_tokens": 24891354.0,
      "step": 13495
    },
    {
      "entropy": 5.686602067947388,
      "epoch": 1.134173492963663,
      "grad_norm": 1.875,
      "learning_rate": 0.0004876609537101793,
      "loss": 5.4689,
      "mean_token_accuracy": 0.1579518973827362,
      "num_tokens": 24899887.0,
      "step": 13500
    },
    {
      "entropy": 5.832871198654175,
      "epoch": 1.1345935727788279,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0004876511710359374,
      "loss": 5.4771,
      "mean_token_accuracy": 0.16068532615900039,
      "num_tokens": 24908616.0,
      "step": 13505
    },
    {
      "entropy": 5.792671775817871,
      "epoch": 1.135013652593993,
      "grad_norm": 1.71875,
      "learning_rate": 0.00048764138459468935,
      "loss": 5.5377,
      "mean_token_accuracy": 0.16124322265386581,
      "num_tokens": 24917864.0,
      "step": 13510
    },
    {
      "entropy": 5.755936479568481,
      "epoch": 1.1354337324091577,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00048763159438660876,
      "loss": 5.551,
      "mean_token_accuracy": 0.1572817325592041,
      "num_tokens": 24927864.0,
      "step": 13515
    },
    {
      "entropy": 5.621814107894897,
      "epoch": 1.1358538122243227,
      "grad_norm": 1.8125,
      "learning_rate": 0.00048762180041186893,
      "loss": 5.4411,
      "mean_token_accuracy": 0.16689430475234984,
      "num_tokens": 24937146.0,
      "step": 13520
    },
    {
      "entropy": 5.737927103042603,
      "epoch": 1.1362738920394875,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004876120026706434,
      "loss": 5.5174,
      "mean_token_accuracy": 0.16046024858951569,
      "num_tokens": 24945694.0,
      "step": 13525
    },
    {
      "entropy": 5.7014954566955565,
      "epoch": 1.1366939718546525,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004876022011631057,
      "loss": 5.4271,
      "mean_token_accuracy": 0.165780770778656,
      "num_tokens": 24955325.0,
      "step": 13530
    },
    {
      "entropy": 5.640952110290527,
      "epoch": 1.1371140516698173,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004875923958894295,
      "loss": 5.2981,
      "mean_token_accuracy": 0.1672575891017914,
      "num_tokens": 24964028.0,
      "step": 13535
    },
    {
      "entropy": 5.672315645217895,
      "epoch": 1.137534131484982,
      "grad_norm": 2.078125,
      "learning_rate": 0.00048758258684978846,
      "loss": 5.498,
      "mean_token_accuracy": 0.1611057698726654,
      "num_tokens": 24972923.0,
      "step": 13540
    },
    {
      "entropy": 5.699390411376953,
      "epoch": 1.137954211300147,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00048757277404435636,
      "loss": 5.3845,
      "mean_token_accuracy": 0.16409458816051484,
      "num_tokens": 24982156.0,
      "step": 13545
    },
    {
      "entropy": 5.678975343704224,
      "epoch": 1.1383742911153119,
      "grad_norm": 1.7109375,
      "learning_rate": 0.000487562957473307,
      "loss": 5.4364,
      "mean_token_accuracy": 0.16643529236316681,
      "num_tokens": 24991616.0,
      "step": 13550
    },
    {
      "entropy": 5.650065231323242,
      "epoch": 1.1387943709304769,
      "grad_norm": 1.953125,
      "learning_rate": 0.0004875531371368144,
      "loss": 5.5046,
      "mean_token_accuracy": 0.1579531379044056,
      "num_tokens": 25001140.0,
      "step": 13555
    },
    {
      "entropy": 5.72753210067749,
      "epoch": 1.1392144507456416,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00048754331303505236,
      "loss": 5.4148,
      "mean_token_accuracy": 0.16427789330482484,
      "num_tokens": 25010863.0,
      "step": 13560
    },
    {
      "entropy": 5.72626485824585,
      "epoch": 1.1396345305608064,
      "grad_norm": 1.703125,
      "learning_rate": 0.00048753348516819496,
      "loss": 5.5148,
      "mean_token_accuracy": 0.15984421372413635,
      "num_tokens": 25019770.0,
      "step": 13565
    },
    {
      "entropy": 5.761800861358642,
      "epoch": 1.1400546103759714,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004875236535364163,
      "loss": 5.5556,
      "mean_token_accuracy": 0.15370625630021095,
      "num_tokens": 25029900.0,
      "step": 13570
    },
    {
      "entropy": 5.775524997711182,
      "epoch": 1.1404746901911362,
      "grad_norm": 2.375,
      "learning_rate": 0.0004875138181398906,
      "loss": 5.516,
      "mean_token_accuracy": 0.16178728863596917,
      "num_tokens": 25039428.0,
      "step": 13575
    },
    {
      "entropy": 5.739251804351807,
      "epoch": 1.1408947700063012,
      "grad_norm": 1.8671875,
      "learning_rate": 0.000487503978978792,
      "loss": 5.5084,
      "mean_token_accuracy": 0.1567676842212677,
      "num_tokens": 25049145.0,
      "step": 13580
    },
    {
      "entropy": 5.7199629783630375,
      "epoch": 1.141314849821466,
      "grad_norm": 1.53125,
      "learning_rate": 0.00048749413605329487,
      "loss": 5.5387,
      "mean_token_accuracy": 0.15968952625989913,
      "num_tokens": 25058772.0,
      "step": 13585
    },
    {
      "entropy": 5.715544176101685,
      "epoch": 1.141734929636631,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00048748428936357346,
      "loss": 5.4386,
      "mean_token_accuracy": 0.1636001095175743,
      "num_tokens": 25067249.0,
      "step": 13590
    },
    {
      "entropy": 5.647507381439209,
      "epoch": 1.1421550094517958,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004874744389098024,
      "loss": 5.405,
      "mean_token_accuracy": 0.1577477991580963,
      "num_tokens": 25076893.0,
      "step": 13595
    },
    {
      "entropy": 5.634746408462524,
      "epoch": 1.1425750892669608,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004874645846921559,
      "loss": 5.4148,
      "mean_token_accuracy": 0.16532657518982888,
      "num_tokens": 25086238.0,
      "step": 13600
    },
    {
      "entropy": 5.669492626190186,
      "epoch": 1.1429951690821256,
      "grad_norm": 2.171875,
      "learning_rate": 0.00048745472671080884,
      "loss": 5.4414,
      "mean_token_accuracy": 0.1582840844988823,
      "num_tokens": 25095334.0,
      "step": 13605
    },
    {
      "entropy": 5.686340093612671,
      "epoch": 1.1434152488972904,
      "grad_norm": 2.046875,
      "learning_rate": 0.00048744486496593565,
      "loss": 5.4259,
      "mean_token_accuracy": 0.1654140532016754,
      "num_tokens": 25104136.0,
      "step": 13610
    },
    {
      "entropy": 5.6616381168365475,
      "epoch": 1.1438353287124554,
      "grad_norm": 1.6328125,
      "learning_rate": 0.000487434999457711,
      "loss": 5.4213,
      "mean_token_accuracy": 0.17221303135156632,
      "num_tokens": 25112629.0,
      "step": 13615
    },
    {
      "entropy": 5.7070547580719,
      "epoch": 1.1442554085276202,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004874251301863098,
      "loss": 5.4605,
      "mean_token_accuracy": 0.1610724672675133,
      "num_tokens": 25121014.0,
      "step": 13620
    },
    {
      "entropy": 5.658392524719238,
      "epoch": 1.1446754883427852,
      "grad_norm": 4.03125,
      "learning_rate": 0.00048741525715190675,
      "loss": 5.4949,
      "mean_token_accuracy": 0.1595884680747986,
      "num_tokens": 25130097.0,
      "step": 13625
    },
    {
      "entropy": 5.7246985912323,
      "epoch": 1.14509556815795,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004874053803546769,
      "loss": 5.5002,
      "mean_token_accuracy": 0.16293734163045884,
      "num_tokens": 25139065.0,
      "step": 13630
    },
    {
      "entropy": 5.713643646240234,
      "epoch": 1.1455156479731148,
      "grad_norm": 1.984375,
      "learning_rate": 0.000487395499794795,
      "loss": 5.4796,
      "mean_token_accuracy": 0.1665970802307129,
      "num_tokens": 25148852.0,
      "step": 13635
    },
    {
      "entropy": 5.620668411254883,
      "epoch": 1.1459357277882798,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004873856154724362,
      "loss": 5.3741,
      "mean_token_accuracy": 0.17443220168352128,
      "num_tokens": 25157580.0,
      "step": 13640
    },
    {
      "entropy": 5.670327091217041,
      "epoch": 1.1463558076034446,
      "grad_norm": 2.1875,
      "learning_rate": 0.0004873757273877756,
      "loss": 5.4831,
      "mean_token_accuracy": 0.1579154871404171,
      "num_tokens": 25166243.0,
      "step": 13645
    },
    {
      "entropy": 5.720182752609253,
      "epoch": 1.1467758874186096,
      "grad_norm": 1.796875,
      "learning_rate": 0.00048736583554098836,
      "loss": 5.49,
      "mean_token_accuracy": 0.16273559033870696,
      "num_tokens": 25174674.0,
      "step": 13650
    },
    {
      "entropy": 5.649949932098389,
      "epoch": 1.1471959672337744,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00048735593993224973,
      "loss": 5.4028,
      "mean_token_accuracy": 0.1695830523967743,
      "num_tokens": 25183892.0,
      "step": 13655
    },
    {
      "entropy": 5.677073192596436,
      "epoch": 1.1476160470489394,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00048734604056173495,
      "loss": 5.4464,
      "mean_token_accuracy": 0.1643107756972313,
      "num_tokens": 25192731.0,
      "step": 13660
    },
    {
      "entropy": 5.715389537811279,
      "epoch": 1.1480361268641042,
      "grad_norm": 2.828125,
      "learning_rate": 0.00048733613742961933,
      "loss": 5.5484,
      "mean_token_accuracy": 0.16420064717531205,
      "num_tokens": 25201280.0,
      "step": 13665
    },
    {
      "entropy": 5.67736177444458,
      "epoch": 1.1484562066792692,
      "grad_norm": 2.5625,
      "learning_rate": 0.00048732623053607846,
      "loss": 5.4255,
      "mean_token_accuracy": 0.1610700160264969,
      "num_tokens": 25209929.0,
      "step": 13670
    },
    {
      "entropy": 5.672457456588745,
      "epoch": 1.148876286494434,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004873163198812877,
      "loss": 5.3544,
      "mean_token_accuracy": 0.16796983331441878,
      "num_tokens": 25218583.0,
      "step": 13675
    },
    {
      "entropy": 5.768982076644898,
      "epoch": 1.1492963663095987,
      "grad_norm": 2.421875,
      "learning_rate": 0.0004873064054654227,
      "loss": 5.5805,
      "mean_token_accuracy": 0.15605029240250587,
      "num_tokens": 25228949.0,
      "step": 13680
    },
    {
      "entropy": 5.741779899597168,
      "epoch": 1.1497164461247638,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00048729648728865904,
      "loss": 5.4092,
      "mean_token_accuracy": 0.17617493420839309,
      "num_tokens": 25238603.0,
      "step": 13685
    },
    {
      "entropy": 5.68451452255249,
      "epoch": 1.1501365259399285,
      "grad_norm": 1.671875,
      "learning_rate": 0.00048728656535117237,
      "loss": 5.5239,
      "mean_token_accuracy": 0.15241808593273162,
      "num_tokens": 25248265.0,
      "step": 13690
    },
    {
      "entropy": 5.671699285507202,
      "epoch": 1.1505566057550936,
      "grad_norm": 2.046875,
      "learning_rate": 0.0004872766396531386,
      "loss": 5.5062,
      "mean_token_accuracy": 0.16589785665273665,
      "num_tokens": 25258195.0,
      "step": 13695
    },
    {
      "entropy": 5.758512020111084,
      "epoch": 1.1509766855702583,
      "grad_norm": 2.28125,
      "learning_rate": 0.00048726671019473335,
      "loss": 5.4622,
      "mean_token_accuracy": 0.16697300374507903,
      "num_tokens": 25267886.0,
      "step": 13700
    },
    {
      "entropy": 5.720304870605469,
      "epoch": 1.1513967653854231,
      "grad_norm": 1.703125,
      "learning_rate": 0.00048725677697613267,
      "loss": 5.5039,
      "mean_token_accuracy": 0.16215680837631224,
      "num_tokens": 25277304.0,
      "step": 13705
    },
    {
      "entropy": 5.701442766189575,
      "epoch": 1.1518168452005881,
      "grad_norm": 1.984375,
      "learning_rate": 0.0004872468399975125,
      "loss": 5.5047,
      "mean_token_accuracy": 0.15424503684043883,
      "num_tokens": 25286771.0,
      "step": 13710
    },
    {
      "entropy": 5.780902290344239,
      "epoch": 1.152236925015753,
      "grad_norm": 1.90625,
      "learning_rate": 0.00048723689925904884,
      "loss": 5.5656,
      "mean_token_accuracy": 0.15876710936427116,
      "num_tokens": 25296018.0,
      "step": 13715
    },
    {
      "entropy": 5.713040781021118,
      "epoch": 1.152657004830918,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004872269547609179,
      "loss": 5.5103,
      "mean_token_accuracy": 0.1646754786372185,
      "num_tokens": 25305737.0,
      "step": 13720
    },
    {
      "entropy": 5.65469765663147,
      "epoch": 1.1530770846460827,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004872170065032956,
      "loss": 5.3432,
      "mean_token_accuracy": 0.1650144189596176,
      "num_tokens": 25314625.0,
      "step": 13725
    },
    {
      "entropy": 5.688196754455566,
      "epoch": 1.1534971644612477,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004872070544863584,
      "loss": 5.4849,
      "mean_token_accuracy": 0.15882542431354524,
      "num_tokens": 25323453.0,
      "step": 13730
    },
    {
      "entropy": 5.685961675643921,
      "epoch": 1.1539172442764125,
      "grad_norm": 1.75,
      "learning_rate": 0.0004871970987102824,
      "loss": 5.4906,
      "mean_token_accuracy": 0.166608627140522,
      "num_tokens": 25333236.0,
      "step": 13735
    },
    {
      "entropy": 5.751754331588745,
      "epoch": 1.1543373240915775,
      "grad_norm": 2.171875,
      "learning_rate": 0.0004871871391752442,
      "loss": 5.3968,
      "mean_token_accuracy": 0.16037501096725465,
      "num_tokens": 25341993.0,
      "step": 13740
    },
    {
      "entropy": 5.743503475189209,
      "epoch": 1.1547574039067423,
      "grad_norm": 2.21875,
      "learning_rate": 0.00048717717588141993,
      "loss": 5.4382,
      "mean_token_accuracy": 0.16419214904308319,
      "num_tokens": 25350695.0,
      "step": 13745
    },
    {
      "entropy": 5.695055913925171,
      "epoch": 1.155177483721907,
      "grad_norm": 1.859375,
      "learning_rate": 0.0004871672088289863,
      "loss": 5.4726,
      "mean_token_accuracy": 0.1616984099149704,
      "num_tokens": 25359044.0,
      "step": 13750
    },
    {
      "entropy": 5.670234966278076,
      "epoch": 1.155597563537072,
      "grad_norm": 1.78125,
      "learning_rate": 0.00048715723801811986,
      "loss": 5.4911,
      "mean_token_accuracy": 0.16160673201084136,
      "num_tokens": 25367959.0,
      "step": 13755
    },
    {
      "entropy": 5.719758939743042,
      "epoch": 1.156017643352237,
      "grad_norm": 1.796875,
      "learning_rate": 0.00048714726344899716,
      "loss": 5.51,
      "mean_token_accuracy": 0.16625330299139024,
      "num_tokens": 25376968.0,
      "step": 13760
    },
    {
      "entropy": 5.6630126953125,
      "epoch": 1.156437723167402,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004871372851217949,
      "loss": 5.3763,
      "mean_token_accuracy": 0.16886330991983414,
      "num_tokens": 25385381.0,
      "step": 13765
    },
    {
      "entropy": 5.691815996170044,
      "epoch": 1.1568578029825667,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004871273030366899,
      "loss": 5.4938,
      "mean_token_accuracy": 0.15851637423038484,
      "num_tokens": 25394647.0,
      "step": 13770
    },
    {
      "entropy": 5.671438503265381,
      "epoch": 1.1572778827977315,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004871173171938589,
      "loss": 5.4387,
      "mean_token_accuracy": 0.1735491305589676,
      "num_tokens": 25403973.0,
      "step": 13775
    },
    {
      "entropy": 5.642987537384033,
      "epoch": 1.1576979626128965,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0004871073275934789,
      "loss": 5.4258,
      "mean_token_accuracy": 0.1666042447090149,
      "num_tokens": 25412319.0,
      "step": 13780
    },
    {
      "entropy": 5.623088264465332,
      "epoch": 1.1581180424280613,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00048709733423572685,
      "loss": 5.4618,
      "mean_token_accuracy": 0.16146773099899292,
      "num_tokens": 25420558.0,
      "step": 13785
    },
    {
      "entropy": 5.629000854492188,
      "epoch": 1.1585381222432263,
      "grad_norm": 1.65625,
      "learning_rate": 0.00048708733712077973,
      "loss": 5.4071,
      "mean_token_accuracy": 0.16649366915225983,
      "num_tokens": 25429258.0,
      "step": 13790
    },
    {
      "entropy": 5.719772052764893,
      "epoch": 1.158958202058391,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004870773362488146,
      "loss": 5.3748,
      "mean_token_accuracy": 0.1697326421737671,
      "num_tokens": 25438005.0,
      "step": 13795
    },
    {
      "entropy": 5.681618309020996,
      "epoch": 1.159378281873556,
      "grad_norm": 2.03125,
      "learning_rate": 0.0004870673316200087,
      "loss": 5.4003,
      "mean_token_accuracy": 0.16728533059358597,
      "num_tokens": 25447120.0,
      "step": 13800
    },
    {
      "entropy": 5.646628332138062,
      "epoch": 1.1597983616887209,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004870573232345392,
      "loss": 5.3916,
      "mean_token_accuracy": 0.16811733990907668,
      "num_tokens": 25456216.0,
      "step": 13805
    },
    {
      "entropy": 5.839818906784058,
      "epoch": 1.1602184415038856,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004870473110925834,
      "loss": 5.6768,
      "mean_token_accuracy": 0.15327301174402236,
      "num_tokens": 25466456.0,
      "step": 13810
    },
    {
      "entropy": 5.657715559005737,
      "epoch": 1.1606385213190507,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004870372951943187,
      "loss": 5.3212,
      "mean_token_accuracy": 0.1731086015701294,
      "num_tokens": 25475217.0,
      "step": 13815
    },
    {
      "entropy": 5.764273929595947,
      "epoch": 1.1610586011342154,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00048702727553992243,
      "loss": 5.6252,
      "mean_token_accuracy": 0.15146582424640656,
      "num_tokens": 25484617.0,
      "step": 13820
    },
    {
      "entropy": 5.661474609375,
      "epoch": 1.1614786809493804,
      "grad_norm": 2.59375,
      "learning_rate": 0.00048701725212957223,
      "loss": 5.4056,
      "mean_token_accuracy": 0.17106336653232573,
      "num_tokens": 25493936.0,
      "step": 13825
    },
    {
      "entropy": 5.615126895904541,
      "epoch": 1.1618987607645452,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004870072249634455,
      "loss": 5.3846,
      "mean_token_accuracy": 0.16981288492679597,
      "num_tokens": 25502306.0,
      "step": 13830
    },
    {
      "entropy": 5.586185503005981,
      "epoch": 1.1623188405797102,
      "grad_norm": 1.5,
      "learning_rate": 0.00048699719404172006,
      "loss": 5.4546,
      "mean_token_accuracy": 0.1651104733347893,
      "num_tokens": 25511247.0,
      "step": 13835
    },
    {
      "entropy": 5.713759469985962,
      "epoch": 1.162738920394875,
      "grad_norm": 1.609375,
      "learning_rate": 0.00048698715936457344,
      "loss": 5.5012,
      "mean_token_accuracy": 0.15939352810382842,
      "num_tokens": 25520482.0,
      "step": 13840
    },
    {
      "entropy": 5.726053237915039,
      "epoch": 1.1631590002100398,
      "grad_norm": 1.5,
      "learning_rate": 0.00048697712093218336,
      "loss": 5.3974,
      "mean_token_accuracy": 0.1690056636929512,
      "num_tokens": 25529854.0,
      "step": 13845
    },
    {
      "entropy": 5.624899101257324,
      "epoch": 1.1635790800252048,
      "grad_norm": 2.328125,
      "learning_rate": 0.0004869670787447279,
      "loss": 5.3395,
      "mean_token_accuracy": 0.16676997542381286,
      "num_tokens": 25538251.0,
      "step": 13850
    },
    {
      "entropy": 5.618051338195801,
      "epoch": 1.1639991598403696,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004869570328023846,
      "loss": 5.4133,
      "mean_token_accuracy": 0.16560969799757003,
      "num_tokens": 25546889.0,
      "step": 13855
    },
    {
      "entropy": 5.655919551849365,
      "epoch": 1.1644192396555346,
      "grad_norm": 2.21875,
      "learning_rate": 0.00048694698310533177,
      "loss": 5.48,
      "mean_token_accuracy": 0.16459716558456422,
      "num_tokens": 25557040.0,
      "step": 13860
    },
    {
      "entropy": 5.7215770244598385,
      "epoch": 1.1648393194706994,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0004869369296537472,
      "loss": 5.6387,
      "mean_token_accuracy": 0.1548250749707222,
      "num_tokens": 25565798.0,
      "step": 13865
    },
    {
      "entropy": 5.826737976074218,
      "epoch": 1.1652593992858642,
      "grad_norm": 2.515625,
      "learning_rate": 0.0004869268724478091,
      "loss": 5.4626,
      "mean_token_accuracy": 0.1656502142548561,
      "num_tokens": 25575039.0,
      "step": 13870
    },
    {
      "entropy": 5.779808759689331,
      "epoch": 1.1656794791010292,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00048691681148769545,
      "loss": 5.4698,
      "mean_token_accuracy": 0.16209751814603807,
      "num_tokens": 25584635.0,
      "step": 13875
    },
    {
      "entropy": 5.579784250259399,
      "epoch": 1.166099558916194,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004869067467735847,
      "loss": 5.4154,
      "mean_token_accuracy": 0.16798000484704972,
      "num_tokens": 25593736.0,
      "step": 13880
    },
    {
      "entropy": 5.613956546783447,
      "epoch": 1.166519638731359,
      "grad_norm": 2.90625,
      "learning_rate": 0.0004868966783056551,
      "loss": 5.3718,
      "mean_token_accuracy": 0.17804049104452133,
      "num_tokens": 25602685.0,
      "step": 13885
    },
    {
      "entropy": 5.671496915817261,
      "epoch": 1.1669397185465238,
      "grad_norm": 1.765625,
      "learning_rate": 0.00048688660608408484,
      "loss": 5.4521,
      "mean_token_accuracy": 0.16123623102903367,
      "num_tokens": 25610690.0,
      "step": 13890
    },
    {
      "entropy": 5.615883159637451,
      "epoch": 1.1673597983616888,
      "grad_norm": 1.5,
      "learning_rate": 0.00048687653010905254,
      "loss": 5.3419,
      "mean_token_accuracy": 0.16897291988134383,
      "num_tokens": 25619805.0,
      "step": 13895
    },
    {
      "entropy": 5.767966794967651,
      "epoch": 1.1677798781768536,
      "grad_norm": 1.59375,
      "learning_rate": 0.00048686645038073664,
      "loss": 5.5659,
      "mean_token_accuracy": 0.15139710083603858,
      "num_tokens": 25629447.0,
      "step": 13900
    },
    {
      "entropy": 5.700986623764038,
      "epoch": 1.1681999579920186,
      "grad_norm": 2.03125,
      "learning_rate": 0.00048685636689931554,
      "loss": 5.4057,
      "mean_token_accuracy": 0.16528156250715256,
      "num_tokens": 25638619.0,
      "step": 13905
    },
    {
      "entropy": 5.720313978195191,
      "epoch": 1.1686200378071834,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00048684627966496803,
      "loss": 5.4855,
      "mean_token_accuracy": 0.16764382421970367,
      "num_tokens": 25648255.0,
      "step": 13910
    },
    {
      "entropy": 5.695196580886841,
      "epoch": 1.1690401176223482,
      "grad_norm": 1.796875,
      "learning_rate": 0.00048683618867787284,
      "loss": 5.494,
      "mean_token_accuracy": 0.15946254581212999,
      "num_tokens": 25657881.0,
      "step": 13915
    },
    {
      "entropy": 5.7503081321716305,
      "epoch": 1.1694601974375132,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004868260939382086,
      "loss": 5.545,
      "mean_token_accuracy": 0.16139545887708664,
      "num_tokens": 25666773.0,
      "step": 13920
    },
    {
      "entropy": 5.727688646316528,
      "epoch": 1.169880277252678,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004868159954461542,
      "loss": 5.4278,
      "mean_token_accuracy": 0.16332051604986192,
      "num_tokens": 25675152.0,
      "step": 13925
    },
    {
      "entropy": 5.8233521461486815,
      "epoch": 1.170300357067843,
      "grad_norm": 1.890625,
      "learning_rate": 0.00048680589320188847,
      "loss": 5.563,
      "mean_token_accuracy": 0.15545087233185767,
      "num_tokens": 25684962.0,
      "step": 13930
    },
    {
      "entropy": 5.67341160774231,
      "epoch": 1.1707204368830078,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004867957872055904,
      "loss": 5.4358,
      "mean_token_accuracy": 0.166546930372715,
      "num_tokens": 25693782.0,
      "step": 13935
    },
    {
      "entropy": 5.649929618835449,
      "epoch": 1.1711405166981725,
      "grad_norm": 2.046875,
      "learning_rate": 0.00048678567745743905,
      "loss": 5.4121,
      "mean_token_accuracy": 0.16831570118665695,
      "num_tokens": 25703081.0,
      "step": 13940
    },
    {
      "entropy": 5.6604838371276855,
      "epoch": 1.1715605965133375,
      "grad_norm": 1.8125,
      "learning_rate": 0.0004867755639576135,
      "loss": 5.4141,
      "mean_token_accuracy": 0.17139442414045333,
      "num_tokens": 25711628.0,
      "step": 13945
    },
    {
      "entropy": 5.6378460884094235,
      "epoch": 1.1719806763285023,
      "grad_norm": 2.234375,
      "learning_rate": 0.0004867654467062928,
      "loss": 5.4509,
      "mean_token_accuracy": 0.16958941370248795,
      "num_tokens": 25720676.0,
      "step": 13950
    },
    {
      "entropy": 5.623021745681763,
      "epoch": 1.1724007561436673,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00048675532570365633,
      "loss": 5.418,
      "mean_token_accuracy": 0.16936941295862198,
      "num_tokens": 25729920.0,
      "step": 13955
    },
    {
      "entropy": 5.644413042068481,
      "epoch": 1.1728208359588321,
      "grad_norm": 1.765625,
      "learning_rate": 0.00048674520094988327,
      "loss": 5.4047,
      "mean_token_accuracy": 0.1689576655626297,
      "num_tokens": 25739745.0,
      "step": 13960
    },
    {
      "entropy": 5.673465824127197,
      "epoch": 1.1732409157739971,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00048673507244515303,
      "loss": 5.421,
      "mean_token_accuracy": 0.16571830958127975,
      "num_tokens": 25748636.0,
      "step": 13965
    },
    {
      "entropy": 5.774284315109253,
      "epoch": 1.173660995589162,
      "grad_norm": 1.7109375,
      "learning_rate": 0.000486724940189645,
      "loss": 5.5623,
      "mean_token_accuracy": 0.15929994434118272,
      "num_tokens": 25758393.0,
      "step": 13970
    },
    {
      "entropy": 5.73808479309082,
      "epoch": 1.174081075404327,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004867148041835386,
      "loss": 5.5378,
      "mean_token_accuracy": 0.15335596948862076,
      "num_tokens": 25768520.0,
      "step": 13975
    },
    {
      "entropy": 5.613088512420655,
      "epoch": 1.1745011552194917,
      "grad_norm": 2.03125,
      "learning_rate": 0.0004867046644270136,
      "loss": 5.3398,
      "mean_token_accuracy": 0.17122806012630462,
      "num_tokens": 25777168.0,
      "step": 13980
    },
    {
      "entropy": 5.7978432178497314,
      "epoch": 1.1749212350346565,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004866945209202494,
      "loss": 5.6517,
      "mean_token_accuracy": 0.14711768478155135,
      "num_tokens": 25787042.0,
      "step": 13985
    },
    {
      "entropy": 5.7582615375518795,
      "epoch": 1.1753413148498215,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004866843736634258,
      "loss": 5.5287,
      "mean_token_accuracy": 0.16342772543430328,
      "num_tokens": 25796784.0,
      "step": 13990
    },
    {
      "entropy": 5.7990720748901365,
      "epoch": 1.1757613946649863,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004866742226567225,
      "loss": 5.561,
      "mean_token_accuracy": 0.1599314257502556,
      "num_tokens": 25806285.0,
      "step": 13995
    },
    {
      "entropy": 5.723859405517578,
      "epoch": 1.1761814744801513,
      "grad_norm": 2.265625,
      "learning_rate": 0.00048666406790031936,
      "loss": 5.4036,
      "mean_token_accuracy": 0.16107962131500245,
      "num_tokens": 25814889.0,
      "step": 14000
    },
    {
      "entropy": 5.662409734725952,
      "epoch": 1.176601554295316,
      "grad_norm": 1.953125,
      "learning_rate": 0.0004866539093943962,
      "loss": 5.4512,
      "mean_token_accuracy": 0.16538093835115433,
      "num_tokens": 25824551.0,
      "step": 14005
    },
    {
      "entropy": 5.746952390670776,
      "epoch": 1.1770216341104809,
      "grad_norm": 1.734375,
      "learning_rate": 0.00048664374713913304,
      "loss": 5.517,
      "mean_token_accuracy": 0.15985865890979767,
      "num_tokens": 25834482.0,
      "step": 14010
    },
    {
      "entropy": 5.755951976776123,
      "epoch": 1.177441713925646,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004866335811347099,
      "loss": 5.5288,
      "mean_token_accuracy": 0.1602414257824421,
      "num_tokens": 25843274.0,
      "step": 14015
    },
    {
      "entropy": 5.80555944442749,
      "epoch": 1.1778617937408107,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00048662341138130683,
      "loss": 5.521,
      "mean_token_accuracy": 0.15339552462100983,
      "num_tokens": 25852482.0,
      "step": 14020
    },
    {
      "entropy": 5.730782413482666,
      "epoch": 1.1782818735559757,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00048661323787910405,
      "loss": 5.4969,
      "mean_token_accuracy": 0.1554713472723961,
      "num_tokens": 25862657.0,
      "step": 14025
    },
    {
      "entropy": 5.663182163238526,
      "epoch": 1.1787019533711405,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004866030606282817,
      "loss": 5.4568,
      "mean_token_accuracy": 0.16776310056447982,
      "num_tokens": 25871492.0,
      "step": 14030
    },
    {
      "entropy": 5.734621810913086,
      "epoch": 1.1791220331863055,
      "grad_norm": 2.046875,
      "learning_rate": 0.00048659287962902006,
      "loss": 5.4536,
      "mean_token_accuracy": 0.1627289742231369,
      "num_tokens": 25880979.0,
      "step": 14035
    },
    {
      "entropy": 5.732399988174438,
      "epoch": 1.1795421130014703,
      "grad_norm": 2.25,
      "learning_rate": 0.00048658269488149945,
      "loss": 5.4554,
      "mean_token_accuracy": 0.16046008914709092,
      "num_tokens": 25891060.0,
      "step": 14040
    },
    {
      "entropy": 5.822850942611694,
      "epoch": 1.1799621928166353,
      "grad_norm": 2.359375,
      "learning_rate": 0.0004865725063859005,
      "loss": 5.5659,
      "mean_token_accuracy": 0.16293970942497255,
      "num_tokens": 25900421.0,
      "step": 14045
    },
    {
      "entropy": 5.73273401260376,
      "epoch": 1.1803822726318,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00048656231414240345,
      "loss": 5.458,
      "mean_token_accuracy": 0.15972733795642852,
      "num_tokens": 25909614.0,
      "step": 14050
    },
    {
      "entropy": 5.668324518203735,
      "epoch": 1.1808023524469649,
      "grad_norm": 1.90625,
      "learning_rate": 0.000486552118151189,
      "loss": 5.4895,
      "mean_token_accuracy": 0.15764440298080445,
      "num_tokens": 25919324.0,
      "step": 14055
    },
    {
      "entropy": 5.670943117141723,
      "epoch": 1.1812224322621299,
      "grad_norm": 2.0625,
      "learning_rate": 0.00048654191841243763,
      "loss": 5.4993,
      "mean_token_accuracy": 0.1652704119682312,
      "num_tokens": 25928818.0,
      "step": 14060
    },
    {
      "entropy": 5.75603985786438,
      "epoch": 1.1816425120772946,
      "grad_norm": 2.25,
      "learning_rate": 0.0004865317149263301,
      "loss": 5.5482,
      "mean_token_accuracy": 0.16319168210029603,
      "num_tokens": 25938148.0,
      "step": 14065
    },
    {
      "entropy": 5.6569633960723875,
      "epoch": 1.1820625918924597,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004865215076930473,
      "loss": 5.4529,
      "mean_token_accuracy": 0.16367049515247345,
      "num_tokens": 25947210.0,
      "step": 14070
    },
    {
      "entropy": 5.660248327255249,
      "epoch": 1.1824826717076244,
      "grad_norm": 2.4375,
      "learning_rate": 0.0004865112967127697,
      "loss": 5.4428,
      "mean_token_accuracy": 0.16496210247278215,
      "num_tokens": 25955949.0,
      "step": 14075
    },
    {
      "entropy": 5.648013925552368,
      "epoch": 1.1829027515227892,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004865010819856786,
      "loss": 5.3959,
      "mean_token_accuracy": 0.16307084411382675,
      "num_tokens": 25964193.0,
      "step": 14080
    },
    {
      "entropy": 5.673745965957641,
      "epoch": 1.1833228313379542,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004864908635119546,
      "loss": 5.4612,
      "mean_token_accuracy": 0.1630059838294983,
      "num_tokens": 25973141.0,
      "step": 14085
    },
    {
      "entropy": 5.725007057189941,
      "epoch": 1.183742911153119,
      "grad_norm": 2.046875,
      "learning_rate": 0.0004864806412917788,
      "loss": 5.5398,
      "mean_token_accuracy": 0.158825521171093,
      "num_tokens": 25982650.0,
      "step": 14090
    },
    {
      "entropy": 5.773545980453491,
      "epoch": 1.184162990968284,
      "grad_norm": 1.8125,
      "learning_rate": 0.0004864704153253325,
      "loss": 5.5371,
      "mean_token_accuracy": 0.1549429714679718,
      "num_tokens": 25992096.0,
      "step": 14095
    },
    {
      "entropy": 5.772162914276123,
      "epoch": 1.1845830707834488,
      "grad_norm": 3.703125,
      "learning_rate": 0.00048646018561279665,
      "loss": 5.5104,
      "mean_token_accuracy": 0.16160587966442108,
      "num_tokens": 26002063.0,
      "step": 14100
    },
    {
      "entropy": 5.648436164855957,
      "epoch": 1.1850031505986138,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00048644995215435245,
      "loss": 5.3414,
      "mean_token_accuracy": 0.1703270673751831,
      "num_tokens": 26010716.0,
      "step": 14105
    },
    {
      "entropy": 5.677743911743164,
      "epoch": 1.1854232304137786,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0004864397149501812,
      "loss": 5.4265,
      "mean_token_accuracy": 0.16840701997280122,
      "num_tokens": 26019136.0,
      "step": 14110
    },
    {
      "entropy": 5.679789972305298,
      "epoch": 1.1858433102289434,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00048642947400046434,
      "loss": 5.4571,
      "mean_token_accuracy": 0.17166182398796082,
      "num_tokens": 26028029.0,
      "step": 14115
    },
    {
      "entropy": 5.77405161857605,
      "epoch": 1.1862633900441084,
      "grad_norm": 1.65625,
      "learning_rate": 0.00048641922930538325,
      "loss": 5.6101,
      "mean_token_accuracy": 0.15164516270160674,
      "num_tokens": 26038025.0,
      "step": 14120
    },
    {
      "entropy": 5.7644017219543455,
      "epoch": 1.1866834698592732,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004864089808651193,
      "loss": 5.5754,
      "mean_token_accuracy": 0.14774202257394792,
      "num_tokens": 26048427.0,
      "step": 14125
    },
    {
      "entropy": 5.729209041595459,
      "epoch": 1.1871035496744382,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004863987286798541,
      "loss": 5.3801,
      "mean_token_accuracy": 0.16284161061048508,
      "num_tokens": 26057682.0,
      "step": 14130
    },
    {
      "entropy": 5.64456000328064,
      "epoch": 1.187523629489603,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004863884727497693,
      "loss": 5.4509,
      "mean_token_accuracy": 0.1594451993703842,
      "num_tokens": 26066562.0,
      "step": 14135
    },
    {
      "entropy": 5.6487713813781735,
      "epoch": 1.187943709304768,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004863782130750466,
      "loss": 5.3779,
      "mean_token_accuracy": 0.16446612328290938,
      "num_tokens": 26075633.0,
      "step": 14140
    },
    {
      "entropy": 5.723405551910401,
      "epoch": 1.1883637891199328,
      "grad_norm": 1.953125,
      "learning_rate": 0.00048636794965586764,
      "loss": 5.5428,
      "mean_token_accuracy": 0.1594787582755089,
      "num_tokens": 26085160.0,
      "step": 14145
    },
    {
      "entropy": 5.711528730392456,
      "epoch": 1.1887838689350976,
      "grad_norm": 1.84375,
      "learning_rate": 0.00048635768249241434,
      "loss": 5.4197,
      "mean_token_accuracy": 0.16347247660160064,
      "num_tokens": 26094157.0,
      "step": 14150
    },
    {
      "entropy": 5.7905010223388675,
      "epoch": 1.1892039487502626,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004863474115848685,
      "loss": 5.5487,
      "mean_token_accuracy": 0.16446382999420167,
      "num_tokens": 26104459.0,
      "step": 14155
    },
    {
      "entropy": 5.677060556411743,
      "epoch": 1.1896240285654274,
      "grad_norm": 1.71875,
      "learning_rate": 0.00048633713693341214,
      "loss": 5.4867,
      "mean_token_accuracy": 0.16067123413085938,
      "num_tokens": 26114468.0,
      "step": 14160
    },
    {
      "entropy": 5.663212585449219,
      "epoch": 1.1900441083805924,
      "grad_norm": 1.484375,
      "learning_rate": 0.00048632685853822714,
      "loss": 5.4469,
      "mean_token_accuracy": 0.1624838277697563,
      "num_tokens": 26123408.0,
      "step": 14165
    },
    {
      "entropy": 5.629336786270142,
      "epoch": 1.1904641881957572,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004863165763994957,
      "loss": 5.4641,
      "mean_token_accuracy": 0.15543654710054397,
      "num_tokens": 26132692.0,
      "step": 14170
    },
    {
      "entropy": 5.753988409042359,
      "epoch": 1.190884268010922,
      "grad_norm": 2.28125,
      "learning_rate": 0.0004863062905173999,
      "loss": 5.6279,
      "mean_token_accuracy": 0.15481553226709366,
      "num_tokens": 26142259.0,
      "step": 14175
    },
    {
      "entropy": 5.779358720779419,
      "epoch": 1.191304347826087,
      "grad_norm": 1.7109375,
      "learning_rate": 0.000486296000892122,
      "loss": 5.4794,
      "mean_token_accuracy": 0.16091232895851135,
      "num_tokens": 26151782.0,
      "step": 14180
    },
    {
      "entropy": 5.650760316848755,
      "epoch": 1.1917244276412517,
      "grad_norm": 1.859375,
      "learning_rate": 0.00048628570752384424,
      "loss": 5.3234,
      "mean_token_accuracy": 0.16556781977415086,
      "num_tokens": 26160449.0,
      "step": 14185
    },
    {
      "entropy": 5.700650358200074,
      "epoch": 1.1921445074564168,
      "grad_norm": 2.015625,
      "learning_rate": 0.00048627541041274897,
      "loss": 5.5649,
      "mean_token_accuracy": 0.1567431628704071,
      "num_tokens": 26169764.0,
      "step": 14190
    },
    {
      "entropy": 5.703988265991211,
      "epoch": 1.1925645872715815,
      "grad_norm": 1.8125,
      "learning_rate": 0.00048626510955901854,
      "loss": 5.4088,
      "mean_token_accuracy": 0.15994867235422133,
      "num_tokens": 26178759.0,
      "step": 14195
    },
    {
      "entropy": 5.739314889907837,
      "epoch": 1.1929846670867466,
      "grad_norm": 2.421875,
      "learning_rate": 0.0004862548049628356,
      "loss": 5.5509,
      "mean_token_accuracy": 0.1646982505917549,
      "num_tokens": 26187904.0,
      "step": 14200
    },
    {
      "entropy": 5.734980583190918,
      "epoch": 1.1934047469019113,
      "grad_norm": 2.015625,
      "learning_rate": 0.0004862444966243824,
      "loss": 5.4643,
      "mean_token_accuracy": 0.1669871285557747,
      "num_tokens": 26196563.0,
      "step": 14205
    },
    {
      "entropy": 5.778663492202758,
      "epoch": 1.1938248267170763,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004862341845438419,
      "loss": 5.4847,
      "mean_token_accuracy": 0.16169409304857255,
      "num_tokens": 26206573.0,
      "step": 14210
    },
    {
      "entropy": 5.661051893234253,
      "epoch": 1.1942449065322411,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00048622386872139645,
      "loss": 5.3909,
      "mean_token_accuracy": 0.16438209414482116,
      "num_tokens": 26215308.0,
      "step": 14215
    },
    {
      "entropy": 5.587487888336182,
      "epoch": 1.194664986347406,
      "grad_norm": 2.0,
      "learning_rate": 0.000486213549157229,
      "loss": 5.4567,
      "mean_token_accuracy": 0.1640901729464531,
      "num_tokens": 26224379.0,
      "step": 14220
    },
    {
      "entropy": 5.664547252655029,
      "epoch": 1.195085066162571,
      "grad_norm": 1.78125,
      "learning_rate": 0.0004862032258515222,
      "loss": 5.4358,
      "mean_token_accuracy": 0.1679796889424324,
      "num_tokens": 26233620.0,
      "step": 14225
    },
    {
      "entropy": 5.725254678726197,
      "epoch": 1.1955051459777357,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004861928988044592,
      "loss": 5.5138,
      "mean_token_accuracy": 0.15623046904802323,
      "num_tokens": 26242556.0,
      "step": 14230
    },
    {
      "entropy": 5.718895196914673,
      "epoch": 1.1959252257929007,
      "grad_norm": 2.53125,
      "learning_rate": 0.0004861825680162226,
      "loss": 5.4946,
      "mean_token_accuracy": 0.16485830694437026,
      "num_tokens": 26251561.0,
      "step": 14235
    },
    {
      "entropy": 5.664663934707642,
      "epoch": 1.1963453056080655,
      "grad_norm": 1.890625,
      "learning_rate": 0.00048617223348699546,
      "loss": 5.4329,
      "mean_token_accuracy": 0.16026019304990768,
      "num_tokens": 26261115.0,
      "step": 14240
    },
    {
      "entropy": 5.770184707641602,
      "epoch": 1.1967653854232303,
      "grad_norm": 2.75,
      "learning_rate": 0.0004861618952169611,
      "loss": 5.591,
      "mean_token_accuracy": 0.1603381484746933,
      "num_tokens": 26271165.0,
      "step": 14245
    },
    {
      "entropy": 5.695276260375977,
      "epoch": 1.1971854652383953,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004861515532063025,
      "loss": 5.5429,
      "mean_token_accuracy": 0.16051559895277023,
      "num_tokens": 26280822.0,
      "step": 14250
    },
    {
      "entropy": 5.69549150466919,
      "epoch": 1.19760554505356,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00048614120745520275,
      "loss": 5.4191,
      "mean_token_accuracy": 0.16700200736522675,
      "num_tokens": 26288747.0,
      "step": 14255
    },
    {
      "entropy": 5.7050079822540285,
      "epoch": 1.198025624868725,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00048613085796384524,
      "loss": 5.4945,
      "mean_token_accuracy": 0.15817514955997466,
      "num_tokens": 26298387.0,
      "step": 14260
    },
    {
      "entropy": 5.639023733139038,
      "epoch": 1.19844570468389,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00048612050473241335,
      "loss": 5.3966,
      "mean_token_accuracy": 0.16590498983860016,
      "num_tokens": 26307016.0,
      "step": 14265
    },
    {
      "entropy": 5.690613889694214,
      "epoch": 1.198865784499055,
      "grad_norm": 2.40625,
      "learning_rate": 0.0004861101477610905,
      "loss": 5.5035,
      "mean_token_accuracy": 0.16300584375858307,
      "num_tokens": 26316296.0,
      "step": 14270
    },
    {
      "entropy": 5.692527532577515,
      "epoch": 1.1992858643142197,
      "grad_norm": 1.875,
      "learning_rate": 0.00048609978705006,
      "loss": 5.4837,
      "mean_token_accuracy": 0.1594039648771286,
      "num_tokens": 26325525.0,
      "step": 14275
    },
    {
      "entropy": 5.666857576370239,
      "epoch": 1.1997059441293847,
      "grad_norm": 2.109375,
      "learning_rate": 0.0004860894225995055,
      "loss": 5.377,
      "mean_token_accuracy": 0.16849509179592131,
      "num_tokens": 26334195.0,
      "step": 14280
    },
    {
      "entropy": 5.684696054458618,
      "epoch": 1.2001260239445495,
      "grad_norm": 1.890625,
      "learning_rate": 0.00048607905440961054,
      "loss": 5.512,
      "mean_token_accuracy": 0.16250620037317276,
      "num_tokens": 26343933.0,
      "step": 14285
    },
    {
      "entropy": 5.738911294937134,
      "epoch": 1.2005461037597143,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00048606868248055887,
      "loss": 5.4441,
      "mean_token_accuracy": 0.16386907249689103,
      "num_tokens": 26353455.0,
      "step": 14290
    },
    {
      "entropy": 5.790994453430176,
      "epoch": 1.2009661835748793,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004860583068125341,
      "loss": 5.458,
      "mean_token_accuracy": 0.16346363723278046,
      "num_tokens": 26362662.0,
      "step": 14295
    },
    {
      "entropy": 5.692120361328125,
      "epoch": 1.201386263390044,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004860479274057202,
      "loss": 5.4509,
      "mean_token_accuracy": 0.1605956733226776,
      "num_tokens": 26371536.0,
      "step": 14300
    },
    {
      "entropy": 5.720314931869507,
      "epoch": 1.201806343205209,
      "grad_norm": 1.46875,
      "learning_rate": 0.00048603754426030087,
      "loss": 5.5496,
      "mean_token_accuracy": 0.1566978722810745,
      "num_tokens": 26381925.0,
      "step": 14305
    },
    {
      "entropy": 5.662918376922607,
      "epoch": 1.2022264230203739,
      "grad_norm": 1.625,
      "learning_rate": 0.00048602715737646016,
      "loss": 5.4158,
      "mean_token_accuracy": 0.16778195053339004,
      "num_tokens": 26391111.0,
      "step": 14310
    },
    {
      "entropy": 5.84964919090271,
      "epoch": 1.2026465028355386,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00048601676675438197,
      "loss": 5.5865,
      "mean_token_accuracy": 0.1477577805519104,
      "num_tokens": 26401667.0,
      "step": 14315
    },
    {
      "entropy": 5.686867713928223,
      "epoch": 1.2030665826507037,
      "grad_norm": 2.21875,
      "learning_rate": 0.00048600637239425045,
      "loss": 5.3949,
      "mean_token_accuracy": 0.1717774584889412,
      "num_tokens": 26411261.0,
      "step": 14320
    },
    {
      "entropy": 5.671998596191406,
      "epoch": 1.2034866624658684,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00048599597429624966,
      "loss": 5.5392,
      "mean_token_accuracy": 0.15727996453642845,
      "num_tokens": 26419808.0,
      "step": 14325
    },
    {
      "entropy": 5.687448644638062,
      "epoch": 1.2039067422810334,
      "grad_norm": 1.734375,
      "learning_rate": 0.00048598557246056385,
      "loss": 5.458,
      "mean_token_accuracy": 0.16296297758817674,
      "num_tokens": 26429160.0,
      "step": 14330
    },
    {
      "entropy": 5.683249378204346,
      "epoch": 1.2043268220961982,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00048597516688737727,
      "loss": 5.4074,
      "mean_token_accuracy": 0.16682589650154114,
      "num_tokens": 26437675.0,
      "step": 14335
    },
    {
      "entropy": 5.6975466251373295,
      "epoch": 1.2047469019113632,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00048596475757687425,
      "loss": 5.4681,
      "mean_token_accuracy": 0.16042584478855132,
      "num_tokens": 26446317.0,
      "step": 14340
    },
    {
      "entropy": 5.708725118637085,
      "epoch": 1.205166981726528,
      "grad_norm": 1.859375,
      "learning_rate": 0.00048595434452923915,
      "loss": 5.5139,
      "mean_token_accuracy": 0.16216087639331817,
      "num_tokens": 26456183.0,
      "step": 14345
    },
    {
      "entropy": 5.6849305629730225,
      "epoch": 1.205587061541693,
      "grad_norm": 2.15625,
      "learning_rate": 0.00048594392774465656,
      "loss": 5.4568,
      "mean_token_accuracy": 0.15838514566421508,
      "num_tokens": 26466324.0,
      "step": 14350
    },
    {
      "entropy": 5.690262508392334,
      "epoch": 1.2060071413568578,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00048593350722331074,
      "loss": 5.4705,
      "mean_token_accuracy": 0.1616607829928398,
      "num_tokens": 26475560.0,
      "step": 14355
    },
    {
      "entropy": 5.686220169067383,
      "epoch": 1.2064272211720226,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00048592308296538654,
      "loss": 5.4449,
      "mean_token_accuracy": 0.16128322407603263,
      "num_tokens": 26484955.0,
      "step": 14360
    },
    {
      "entropy": 5.690824508666992,
      "epoch": 1.2068473009871876,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004859126549710686,
      "loss": 5.4025,
      "mean_token_accuracy": 0.17448743879795076,
      "num_tokens": 26494306.0,
      "step": 14365
    },
    {
      "entropy": 5.605901575088501,
      "epoch": 1.2072673808023524,
      "grad_norm": 1.40625,
      "learning_rate": 0.00048590222324054153,
      "loss": 5.4058,
      "mean_token_accuracy": 0.16911747306585312,
      "num_tokens": 26503871.0,
      "step": 14370
    },
    {
      "entropy": 5.741916131973267,
      "epoch": 1.2076874606175174,
      "grad_norm": 2.515625,
      "learning_rate": 0.0004858917877739901,
      "loss": 5.5106,
      "mean_token_accuracy": 0.16466034948825836,
      "num_tokens": 26511929.0,
      "step": 14375
    },
    {
      "entropy": 5.765912389755249,
      "epoch": 1.2081075404326822,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004858813485715994,
      "loss": 5.5129,
      "mean_token_accuracy": 0.15352574586868287,
      "num_tokens": 26520469.0,
      "step": 14380
    },
    {
      "entropy": 5.6565714359283445,
      "epoch": 1.208527620247847,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004858709056335541,
      "loss": 5.4803,
      "mean_token_accuracy": 0.16136947721242906,
      "num_tokens": 26530102.0,
      "step": 14385
    },
    {
      "entropy": 5.6539154052734375,
      "epoch": 1.208947700063012,
      "grad_norm": 1.71875,
      "learning_rate": 0.00048586045896003926,
      "loss": 5.4784,
      "mean_token_accuracy": 0.15783216953277587,
      "num_tokens": 26538705.0,
      "step": 14390
    },
    {
      "entropy": 5.786140489578247,
      "epoch": 1.2093677798781768,
      "grad_norm": 1.875,
      "learning_rate": 0.0004858500085512401,
      "loss": 5.5837,
      "mean_token_accuracy": 0.15772880017757415,
      "num_tokens": 26548315.0,
      "step": 14395
    },
    {
      "entropy": 5.7165955066680905,
      "epoch": 1.2097878596933418,
      "grad_norm": 1.828125,
      "learning_rate": 0.00048583955440734144,
      "loss": 5.4101,
      "mean_token_accuracy": 0.1629326745867729,
      "num_tokens": 26556412.0,
      "step": 14400
    },
    {
      "entropy": 5.70180230140686,
      "epoch": 1.2102079395085066,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00048582909652852873,
      "loss": 5.5744,
      "mean_token_accuracy": 0.16115047186613082,
      "num_tokens": 26566146.0,
      "step": 14405
    },
    {
      "entropy": 5.715734386444092,
      "epoch": 1.2106280193236716,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004858186349149871,
      "loss": 5.4691,
      "mean_token_accuracy": 0.16265431568026542,
      "num_tokens": 26576019.0,
      "step": 14410
    },
    {
      "entropy": 5.612696838378906,
      "epoch": 1.2110480991388364,
      "grad_norm": 2.265625,
      "learning_rate": 0.000485808169566902,
      "loss": 5.3309,
      "mean_token_accuracy": 0.1696453645825386,
      "num_tokens": 26585461.0,
      "step": 14415
    },
    {
      "entropy": 5.62654824256897,
      "epoch": 1.2114681789540014,
      "grad_norm": 1.65625,
      "learning_rate": 0.00048579770048445863,
      "loss": 5.3726,
      "mean_token_accuracy": 0.18201425969600676,
      "num_tokens": 26594021.0,
      "step": 14420
    },
    {
      "entropy": 5.753058910369873,
      "epoch": 1.2118882587691662,
      "grad_norm": 1.734375,
      "learning_rate": 0.00048578722766784253,
      "loss": 5.5086,
      "mean_token_accuracy": 0.16204283237457276,
      "num_tokens": 26602712.0,
      "step": 14425
    },
    {
      "entropy": 5.593479490280151,
      "epoch": 1.212308338584331,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00048577675111723925,
      "loss": 5.2025,
      "mean_token_accuracy": 0.18278668075799942,
      "num_tokens": 26610970.0,
      "step": 14430
    },
    {
      "entropy": 5.615044832229614,
      "epoch": 1.212728418399496,
      "grad_norm": 2.03125,
      "learning_rate": 0.00048576627083283435,
      "loss": 5.4954,
      "mean_token_accuracy": 0.16862737089395524,
      "num_tokens": 26619840.0,
      "step": 14435
    },
    {
      "entropy": 5.663373374938965,
      "epoch": 1.2131484982146608,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0004857557868148136,
      "loss": 5.4002,
      "mean_token_accuracy": 0.16440703421831132,
      "num_tokens": 26629271.0,
      "step": 14440
    },
    {
      "entropy": 5.672978448867798,
      "epoch": 1.2135685780298258,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004857452990633625,
      "loss": 5.4333,
      "mean_token_accuracy": 0.16087207645177842,
      "num_tokens": 26638610.0,
      "step": 14445
    },
    {
      "entropy": 5.792498302459717,
      "epoch": 1.2139886578449905,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00048573480757866695,
      "loss": 5.5919,
      "mean_token_accuracy": 0.15683359503746033,
      "num_tokens": 26648504.0,
      "step": 14450
    },
    {
      "entropy": 5.720464372634888,
      "epoch": 1.2144087376601553,
      "grad_norm": 1.84375,
      "learning_rate": 0.00048572431236091284,
      "loss": 5.4654,
      "mean_token_accuracy": 0.16139672845602035,
      "num_tokens": 26658084.0,
      "step": 14455
    },
    {
      "entropy": 5.712548398971558,
      "epoch": 1.2148288174753203,
      "grad_norm": 1.8125,
      "learning_rate": 0.00048571381341028604,
      "loss": 5.5517,
      "mean_token_accuracy": 0.16073913276195526,
      "num_tokens": 26666933.0,
      "step": 14460
    },
    {
      "entropy": 5.752342224121094,
      "epoch": 1.2152488972904851,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004857033107269725,
      "loss": 5.4182,
      "mean_token_accuracy": 0.16725114732980728,
      "num_tokens": 26675049.0,
      "step": 14465
    },
    {
      "entropy": 5.664717102050782,
      "epoch": 1.2156689771056501,
      "grad_norm": 1.546875,
      "learning_rate": 0.00048569280431115823,
      "loss": 5.4942,
      "mean_token_accuracy": 0.16280431896448136,
      "num_tokens": 26684223.0,
      "step": 14470
    },
    {
      "entropy": 5.666110849380493,
      "epoch": 1.216089056920815,
      "grad_norm": 1.8125,
      "learning_rate": 0.0004856822941630296,
      "loss": 5.4388,
      "mean_token_accuracy": 0.15747048407793046,
      "num_tokens": 26693605.0,
      "step": 14475
    },
    {
      "entropy": 5.7499290943145756,
      "epoch": 1.2165091367359797,
      "grad_norm": 1.953125,
      "learning_rate": 0.00048567178028277255,
      "loss": 5.5114,
      "mean_token_accuracy": 0.16667446196079255,
      "num_tokens": 26702829.0,
      "step": 14480
    },
    {
      "entropy": 5.765132427215576,
      "epoch": 1.2169292165511447,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004856612626705733,
      "loss": 5.5496,
      "mean_token_accuracy": 0.15713531970977784,
      "num_tokens": 26712466.0,
      "step": 14485
    },
    {
      "entropy": 5.745383930206299,
      "epoch": 1.2173492963663095,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0004856507413266183,
      "loss": 5.4247,
      "mean_token_accuracy": 0.16737874001264572,
      "num_tokens": 26721730.0,
      "step": 14490
    },
    {
      "entropy": 5.637966871261597,
      "epoch": 1.2177693761814745,
      "grad_norm": 1.6953125,
      "learning_rate": 0.000485640216251094,
      "loss": 5.5088,
      "mean_token_accuracy": 0.16009110063314438,
      "num_tokens": 26731017.0,
      "step": 14495
    },
    {
      "entropy": 5.674624824523926,
      "epoch": 1.2181894559966393,
      "grad_norm": 2.09375,
      "learning_rate": 0.00048562968744418665,
      "loss": 5.4761,
      "mean_token_accuracy": 0.16008124649524688,
      "num_tokens": 26739588.0,
      "step": 14500
    },
    {
      "entropy": 5.764046764373779,
      "epoch": 1.2186095358118043,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0004856191549060828,
      "loss": 5.6018,
      "mean_token_accuracy": 0.15619692504405974,
      "num_tokens": 26748889.0,
      "step": 14505
    },
    {
      "entropy": 5.754044675827027,
      "epoch": 1.219029615626969,
      "grad_norm": 1.546875,
      "learning_rate": 0.00048560861863696913,
      "loss": 5.5297,
      "mean_token_accuracy": 0.15980444252490997,
      "num_tokens": 26757979.0,
      "step": 14510
    },
    {
      "entropy": 5.707068204879761,
      "epoch": 1.219449695442134,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004855980786370322,
      "loss": 5.4485,
      "mean_token_accuracy": 0.16127097010612487,
      "num_tokens": 26767225.0,
      "step": 14515
    },
    {
      "entropy": 5.6698870182037355,
      "epoch": 1.219869775257299,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004855875349064588,
      "loss": 5.3966,
      "mean_token_accuracy": 0.16548994332551956,
      "num_tokens": 26776289.0,
      "step": 14520
    },
    {
      "entropy": 5.744715166091919,
      "epoch": 1.2202898550724637,
      "grad_norm": 1.625,
      "learning_rate": 0.0004855769874454356,
      "loss": 5.5192,
      "mean_token_accuracy": 0.16024302393198014,
      "num_tokens": 26785631.0,
      "step": 14525
    },
    {
      "entropy": 5.691872644424438,
      "epoch": 1.2207099348876287,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004855664362541495,
      "loss": 5.5232,
      "mean_token_accuracy": 0.16038859486579896,
      "num_tokens": 26795285.0,
      "step": 14530
    },
    {
      "entropy": 5.651829099655151,
      "epoch": 1.2211300147027935,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00048555588133278744,
      "loss": 5.4307,
      "mean_token_accuracy": 0.16211945861577987,
      "num_tokens": 26804584.0,
      "step": 14535
    },
    {
      "entropy": 5.604468536376953,
      "epoch": 1.2215500945179585,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004855453226815363,
      "loss": 5.3061,
      "mean_token_accuracy": 0.17006382644176482,
      "num_tokens": 26814354.0,
      "step": 14540
    },
    {
      "entropy": 5.626403427124023,
      "epoch": 1.2219701743331233,
      "grad_norm": 2.0625,
      "learning_rate": 0.00048553476030058326,
      "loss": 5.3466,
      "mean_token_accuracy": 0.17612583935260773,
      "num_tokens": 26824274.0,
      "step": 14545
    },
    {
      "entropy": 5.616889381408692,
      "epoch": 1.222390254148288,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00048552419419011536,
      "loss": 5.4738,
      "mean_token_accuracy": 0.16051012128591538,
      "num_tokens": 26833155.0,
      "step": 14550
    },
    {
      "entropy": 5.667688083648682,
      "epoch": 1.222810333963453,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004855136243503196,
      "loss": 5.3997,
      "mean_token_accuracy": 0.1646553486585617,
      "num_tokens": 26842545.0,
      "step": 14555
    },
    {
      "entropy": 5.739150142669677,
      "epoch": 1.2232304137786179,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00048550305078138363,
      "loss": 5.481,
      "mean_token_accuracy": 0.16481468081474304,
      "num_tokens": 26851772.0,
      "step": 14560
    },
    {
      "entropy": 5.648625612258911,
      "epoch": 1.2236504935937829,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00048549247348349435,
      "loss": 5.3863,
      "mean_token_accuracy": 0.16550036519765854,
      "num_tokens": 26860884.0,
      "step": 14565
    },
    {
      "entropy": 5.679945564270019,
      "epoch": 1.2240705734089476,
      "grad_norm": 2.140625,
      "learning_rate": 0.00048548189245683934,
      "loss": 5.5126,
      "mean_token_accuracy": 0.1663243889808655,
      "num_tokens": 26869435.0,
      "step": 14570
    },
    {
      "entropy": 5.681559896469116,
      "epoch": 1.2244906532241127,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00048547130770160596,
      "loss": 5.4131,
      "mean_token_accuracy": 0.16150881946086884,
      "num_tokens": 26878852.0,
      "step": 14575
    },
    {
      "entropy": 5.70316162109375,
      "epoch": 1.2249107330392774,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004854607192179817,
      "loss": 5.3864,
      "mean_token_accuracy": 0.1695043832063675,
      "num_tokens": 26887532.0,
      "step": 14580
    },
    {
      "entropy": 5.844434452056885,
      "epoch": 1.2253308128544425,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004854501270061543,
      "loss": 5.6029,
      "mean_token_accuracy": 0.15792314410209657,
      "num_tokens": 26897459.0,
      "step": 14585
    },
    {
      "entropy": 5.618150424957276,
      "epoch": 1.2257508926696072,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00048543953106631115,
      "loss": 5.3795,
      "mean_token_accuracy": 0.16793021261692048,
      "num_tokens": 26907156.0,
      "step": 14590
    },
    {
      "entropy": 5.732923221588135,
      "epoch": 1.226170972484772,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004854289313986401,
      "loss": 5.4648,
      "mean_token_accuracy": 0.16741324663162233,
      "num_tokens": 26915764.0,
      "step": 14595
    },
    {
      "entropy": 5.644811153411865,
      "epoch": 1.226591052299937,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004854183280033289,
      "loss": 5.3429,
      "mean_token_accuracy": 0.16403224915266038,
      "num_tokens": 26924166.0,
      "step": 14600
    },
    {
      "entropy": 5.6976734638214115,
      "epoch": 1.2270111321151018,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004854077208805654,
      "loss": 5.5704,
      "mean_token_accuracy": 0.1540565922856331,
      "num_tokens": 26933546.0,
      "step": 14605
    },
    {
      "entropy": 5.7353489875793455,
      "epoch": 1.2274312119302668,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004853971100305374,
      "loss": 5.4901,
      "mean_token_accuracy": 0.1645752012729645,
      "num_tokens": 26943213.0,
      "step": 14610
    },
    {
      "entropy": 5.752119350433349,
      "epoch": 1.2278512917454316,
      "grad_norm": 1.4296875,
      "learning_rate": 0.000485386495453433,
      "loss": 5.4702,
      "mean_token_accuracy": 0.16524574309587478,
      "num_tokens": 26952968.0,
      "step": 14615
    },
    {
      "entropy": 5.690602731704712,
      "epoch": 1.2282713715605964,
      "grad_norm": 1.640625,
      "learning_rate": 0.00048537587714944007,
      "loss": 5.431,
      "mean_token_accuracy": 0.16387941986322402,
      "num_tokens": 26962230.0,
      "step": 14620
    },
    {
      "entropy": 5.637970733642578,
      "epoch": 1.2286914513757614,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004853652551187469,
      "loss": 5.5035,
      "mean_token_accuracy": 0.16774664968252181,
      "num_tokens": 26970985.0,
      "step": 14625
    },
    {
      "entropy": 5.707252836227417,
      "epoch": 1.2291115311909262,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00048535462936154147,
      "loss": 5.5344,
      "mean_token_accuracy": 0.16012766510248183,
      "num_tokens": 26981138.0,
      "step": 14630
    },
    {
      "entropy": 5.622266340255737,
      "epoch": 1.2295316110060912,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004853439998780122,
      "loss": 5.3687,
      "mean_token_accuracy": 0.17002979367971421,
      "num_tokens": 26990158.0,
      "step": 14635
    },
    {
      "entropy": 5.6507940769195555,
      "epoch": 1.229951690821256,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004853333666683472,
      "loss": 5.5224,
      "mean_token_accuracy": 0.15614334493875504,
      "num_tokens": 26998889.0,
      "step": 14640
    },
    {
      "entropy": 5.708015727996826,
      "epoch": 1.230371770636421,
      "grad_norm": 2.203125,
      "learning_rate": 0.00048532272973273496,
      "loss": 5.4656,
      "mean_token_accuracy": 0.16113510280847548,
      "num_tokens": 27008912.0,
      "step": 14645
    },
    {
      "entropy": 5.671196317672729,
      "epoch": 1.2307918504515858,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00048531208907136384,
      "loss": 5.3541,
      "mean_token_accuracy": 0.17473920732736586,
      "num_tokens": 27017573.0,
      "step": 14650
    },
    {
      "entropy": 5.658402824401856,
      "epoch": 1.2312119302667508,
      "grad_norm": 1.484375,
      "learning_rate": 0.00048530144468442236,
      "loss": 5.4297,
      "mean_token_accuracy": 0.1590592809021473,
      "num_tokens": 27027205.0,
      "step": 14655
    },
    {
      "entropy": 5.66589732170105,
      "epoch": 1.2316320100819156,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00048529079657209906,
      "loss": 5.3827,
      "mean_token_accuracy": 0.16773709654808044,
      "num_tokens": 27035882.0,
      "step": 14660
    },
    {
      "entropy": 5.628454732894897,
      "epoch": 1.2320520898970804,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004852801447345826,
      "loss": 5.4555,
      "mean_token_accuracy": 0.17012043595314025,
      "num_tokens": 27044761.0,
      "step": 14665
    },
    {
      "entropy": 5.6688700199127195,
      "epoch": 1.2324721697122454,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004852694891720617,
      "loss": 5.4815,
      "mean_token_accuracy": 0.16467399448156356,
      "num_tokens": 27054149.0,
      "step": 14670
    },
    {
      "entropy": 5.725511741638184,
      "epoch": 1.2328922495274102,
      "grad_norm": 1.4375,
      "learning_rate": 0.000485258829884725,
      "loss": 5.524,
      "mean_token_accuracy": 0.1634502664208412,
      "num_tokens": 27063145.0,
      "step": 14675
    },
    {
      "entropy": 5.7596677303314205,
      "epoch": 1.2333123293425752,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004852481668727614,
      "loss": 5.4697,
      "mean_token_accuracy": 0.16408599615097047,
      "num_tokens": 27072378.0,
      "step": 14680
    },
    {
      "entropy": 5.588124799728393,
      "epoch": 1.23373240915774,
      "grad_norm": 1.703125,
      "learning_rate": 0.00048523750013635986,
      "loss": 5.354,
      "mean_token_accuracy": 0.16549673229455947,
      "num_tokens": 27082241.0,
      "step": 14685
    },
    {
      "entropy": 5.605792379379272,
      "epoch": 1.2341524889729047,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004852268296757092,
      "loss": 5.3762,
      "mean_token_accuracy": 0.16784797310829164,
      "num_tokens": 27091488.0,
      "step": 14690
    },
    {
      "entropy": 5.743075704574585,
      "epoch": 1.2345725687880698,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004852161554909985,
      "loss": 5.4272,
      "mean_token_accuracy": 0.16824524402618407,
      "num_tokens": 27100378.0,
      "step": 14695
    },
    {
      "entropy": 5.69188551902771,
      "epoch": 1.2349926486032345,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00048520547758241686,
      "loss": 5.4522,
      "mean_token_accuracy": 0.16235414147377014,
      "num_tokens": 27110341.0,
      "step": 14700
    },
    {
      "entropy": 5.656498527526855,
      "epoch": 1.2354127284183996,
      "grad_norm": 1.375,
      "learning_rate": 0.00048519479595015343,
      "loss": 5.3965,
      "mean_token_accuracy": 0.1622692197561264,
      "num_tokens": 27119381.0,
      "step": 14705
    },
    {
      "entropy": 5.605996942520141,
      "epoch": 1.2358328082335643,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00048518411059439746,
      "loss": 5.4951,
      "mean_token_accuracy": 0.1566877394914627,
      "num_tokens": 27129167.0,
      "step": 14710
    },
    {
      "entropy": 5.697007560729981,
      "epoch": 1.2362528880487293,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00048517342151533813,
      "loss": 5.5005,
      "mean_token_accuracy": 0.1557912290096283,
      "num_tokens": 27138479.0,
      "step": 14715
    },
    {
      "entropy": 5.697368383407593,
      "epoch": 1.2366729678638941,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004851627287131649,
      "loss": 5.3838,
      "mean_token_accuracy": 0.16886205822229386,
      "num_tokens": 27147197.0,
      "step": 14720
    },
    {
      "entropy": 5.643680572509766,
      "epoch": 1.2370930476790591,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004851520321880672,
      "loss": 5.4126,
      "mean_token_accuracy": 0.1719201013445854,
      "num_tokens": 27155854.0,
      "step": 14725
    },
    {
      "entropy": 5.657077169418335,
      "epoch": 1.237513127494224,
      "grad_norm": 1.75,
      "learning_rate": 0.0004851413319402344,
      "loss": 5.3862,
      "mean_token_accuracy": 0.1578731968998909,
      "num_tokens": 27165069.0,
      "step": 14730
    },
    {
      "entropy": 5.684050750732422,
      "epoch": 1.2379332073093887,
      "grad_norm": 1.859375,
      "learning_rate": 0.0004851306279698561,
      "loss": 5.4352,
      "mean_token_accuracy": 0.16021962463855743,
      "num_tokens": 27174070.0,
      "step": 14735
    },
    {
      "entropy": 5.788384103775025,
      "epoch": 1.2383532871245537,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004851199202771219,
      "loss": 5.5038,
      "mean_token_accuracy": 0.1639639750123024,
      "num_tokens": 27182903.0,
      "step": 14740
    },
    {
      "entropy": 5.693592119216919,
      "epoch": 1.2387733669397185,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004851092088622216,
      "loss": 5.4264,
      "mean_token_accuracy": 0.17083500623703002,
      "num_tokens": 27192747.0,
      "step": 14745
    },
    {
      "entropy": 5.670225000381469,
      "epoch": 1.2391934467548835,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004850984937253448,
      "loss": 5.4402,
      "mean_token_accuracy": 0.1658121481537819,
      "num_tokens": 27201657.0,
      "step": 14750
    },
    {
      "entropy": 5.693979692459107,
      "epoch": 1.2396135265700483,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004850877748666814,
      "loss": 5.4621,
      "mean_token_accuracy": 0.16480949372053147,
      "num_tokens": 27211794.0,
      "step": 14755
    },
    {
      "entropy": 5.638466024398804,
      "epoch": 1.240033606385213,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00048507705228642117,
      "loss": 5.4174,
      "mean_token_accuracy": 0.1595284804701805,
      "num_tokens": 27221852.0,
      "step": 14760
    },
    {
      "entropy": 5.654482078552246,
      "epoch": 1.240453686200378,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004850663259847542,
      "loss": 5.4612,
      "mean_token_accuracy": 0.158142551779747,
      "num_tokens": 27231558.0,
      "step": 14765
    },
    {
      "entropy": 5.628722333908081,
      "epoch": 1.240873766015543,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00048505559596187037,
      "loss": 5.451,
      "mean_token_accuracy": 0.16363227218389512,
      "num_tokens": 27241053.0,
      "step": 14770
    },
    {
      "entropy": 5.614446783065796,
      "epoch": 1.241293845830708,
      "grad_norm": 2.0,
      "learning_rate": 0.0004850448622179599,
      "loss": 5.3357,
      "mean_token_accuracy": 0.1671755015850067,
      "num_tokens": 27249770.0,
      "step": 14775
    },
    {
      "entropy": 5.800767087936402,
      "epoch": 1.2417139256458727,
      "grad_norm": 2.390625,
      "learning_rate": 0.0004850341247532128,
      "loss": 5.5805,
      "mean_token_accuracy": 0.15848884508013725,
      "num_tokens": 27258883.0,
      "step": 14780
    },
    {
      "entropy": 5.751977014541626,
      "epoch": 1.2421340054610377,
      "grad_norm": 1.75,
      "learning_rate": 0.0004850233835678194,
      "loss": 5.4846,
      "mean_token_accuracy": 0.1624804139137268,
      "num_tokens": 27268056.0,
      "step": 14785
    },
    {
      "entropy": 5.669937515258789,
      "epoch": 1.2425540852762025,
      "grad_norm": 2.21875,
      "learning_rate": 0.0004850126386619699,
      "loss": 5.3487,
      "mean_token_accuracy": 0.17517259567975998,
      "num_tokens": 27276965.0,
      "step": 14790
    },
    {
      "entropy": 5.600133562088013,
      "epoch": 1.2429741650913673,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004850018900358545,
      "loss": 5.4149,
      "mean_token_accuracy": 0.16797211319208144,
      "num_tokens": 27286173.0,
      "step": 14795
    },
    {
      "entropy": 5.646801853179932,
      "epoch": 1.2433942449065323,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00048499113768966386,
      "loss": 5.4173,
      "mean_token_accuracy": 0.16762335151433944,
      "num_tokens": 27294863.0,
      "step": 14800
    },
    {
      "entropy": 5.730639934539795,
      "epoch": 1.243814324721697,
      "grad_norm": 1.625,
      "learning_rate": 0.0004849803816235884,
      "loss": 5.4551,
      "mean_token_accuracy": 0.16181258857250214,
      "num_tokens": 27304427.0,
      "step": 14805
    },
    {
      "entropy": 5.7499453067779545,
      "epoch": 1.244234404536862,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004849696218378185,
      "loss": 5.53,
      "mean_token_accuracy": 0.16161169856786728,
      "num_tokens": 27313716.0,
      "step": 14810
    },
    {
      "entropy": 5.7411253452301025,
      "epoch": 1.2446544843520269,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004849588583325449,
      "loss": 5.4179,
      "mean_token_accuracy": 0.17681172788143157,
      "num_tokens": 27322342.0,
      "step": 14815
    },
    {
      "entropy": 5.742122983932495,
      "epoch": 1.2450745641671919,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004849480911079583,
      "loss": 5.4983,
      "mean_token_accuracy": 0.15292923152446747,
      "num_tokens": 27331892.0,
      "step": 14820
    },
    {
      "entropy": 5.687739038467408,
      "epoch": 1.2454946439823567,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004849373201642493,
      "loss": 5.4674,
      "mean_token_accuracy": 0.15925178527832032,
      "num_tokens": 27340428.0,
      "step": 14825
    },
    {
      "entropy": 5.6958386421203615,
      "epoch": 1.2459147237975214,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004849265455016088,
      "loss": 5.4664,
      "mean_token_accuracy": 0.16365174651145936,
      "num_tokens": 27349224.0,
      "step": 14830
    },
    {
      "entropy": 5.661598014831543,
      "epoch": 1.2463348036126864,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004849157671202277,
      "loss": 5.4434,
      "mean_token_accuracy": 0.16567779928445817,
      "num_tokens": 27357480.0,
      "step": 14835
    },
    {
      "entropy": 5.658696794509888,
      "epoch": 1.2467548834278512,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004849049850202968,
      "loss": 5.3717,
      "mean_token_accuracy": 0.17218401432037353,
      "num_tokens": 27366732.0,
      "step": 14840
    },
    {
      "entropy": 5.671054315567017,
      "epoch": 1.2471749632430162,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004848941992020072,
      "loss": 5.4774,
      "mean_token_accuracy": 0.15841912627220153,
      "num_tokens": 27375834.0,
      "step": 14845
    },
    {
      "entropy": 5.730887794494629,
      "epoch": 1.247595043058181,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004848834096655499,
      "loss": 5.4563,
      "mean_token_accuracy": 0.16432572156190872,
      "num_tokens": 27385311.0,
      "step": 14850
    },
    {
      "entropy": 5.700474452972412,
      "epoch": 1.2480151228733458,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00048487261641111607,
      "loss": 5.5133,
      "mean_token_accuracy": 0.16188574731349945,
      "num_tokens": 27394587.0,
      "step": 14855
    },
    {
      "entropy": 5.581315422058106,
      "epoch": 1.2484352026885108,
      "grad_norm": 1.3203125,
      "learning_rate": 0.000484861819438897,
      "loss": 5.3722,
      "mean_token_accuracy": 0.1629566103219986,
      "num_tokens": 27403316.0,
      "step": 14860
    },
    {
      "entropy": 5.674688768386841,
      "epoch": 1.2488552825036756,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004848510187490838,
      "loss": 5.4211,
      "mean_token_accuracy": 0.16881508529186248,
      "num_tokens": 27412709.0,
      "step": 14865
    },
    {
      "entropy": 5.717575883865356,
      "epoch": 1.2492753623188406,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004848402143418679,
      "loss": 5.4867,
      "mean_token_accuracy": 0.16073511987924577,
      "num_tokens": 27422004.0,
      "step": 14870
    },
    {
      "entropy": 5.667223167419434,
      "epoch": 1.2496954421340054,
      "grad_norm": 1.78125,
      "learning_rate": 0.00048482940621744053,
      "loss": 5.5146,
      "mean_token_accuracy": 0.16103297472000122,
      "num_tokens": 27431931.0,
      "step": 14875
    },
    {
      "entropy": 5.64241132736206,
      "epoch": 1.2501155219491704,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004848185943759934,
      "loss": 5.3291,
      "mean_token_accuracy": 0.17295840233564377,
      "num_tokens": 27441527.0,
      "step": 14880
    },
    {
      "entropy": 5.751472759246826,
      "epoch": 1.2505356017643352,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00048480777881771786,
      "loss": 5.488,
      "mean_token_accuracy": 0.16338546127080916,
      "num_tokens": 27449964.0,
      "step": 14885
    },
    {
      "entropy": 5.653960943222046,
      "epoch": 1.2509556815795002,
      "grad_norm": 2.0625,
      "learning_rate": 0.0004847969595428056,
      "loss": 5.4769,
      "mean_token_accuracy": 0.16023507416248323,
      "num_tokens": 27459044.0,
      "step": 14890
    },
    {
      "entropy": 5.632353162765503,
      "epoch": 1.251375761394665,
      "grad_norm": 2.5625,
      "learning_rate": 0.00048478613655144817,
      "loss": 5.4677,
      "mean_token_accuracy": 0.16684045344591142,
      "num_tokens": 27467644.0,
      "step": 14895
    },
    {
      "entropy": 5.754183292388916,
      "epoch": 1.2517958412098298,
      "grad_norm": 2.1875,
      "learning_rate": 0.0004847753098438374,
      "loss": 5.4969,
      "mean_token_accuracy": 0.15503143072128295,
      "num_tokens": 27476899.0,
      "step": 14900
    },
    {
      "entropy": 5.713054418563843,
      "epoch": 1.2522159210249948,
      "grad_norm": 1.5625,
      "learning_rate": 0.000484764479420165,
      "loss": 5.3986,
      "mean_token_accuracy": 0.16840293928980826,
      "num_tokens": 27485167.0,
      "step": 14905
    },
    {
      "entropy": 5.67601432800293,
      "epoch": 1.2526360008401596,
      "grad_norm": 1.78125,
      "learning_rate": 0.00048475364528062287,
      "loss": 5.4366,
      "mean_token_accuracy": 0.15893664807081223,
      "num_tokens": 27493986.0,
      "step": 14910
    },
    {
      "entropy": 5.717255640029907,
      "epoch": 1.2530560806553246,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004847428074254029,
      "loss": 5.481,
      "mean_token_accuracy": 0.1676044538617134,
      "num_tokens": 27503896.0,
      "step": 14915
    },
    {
      "entropy": 5.700136041641235,
      "epoch": 1.2534761604704894,
      "grad_norm": 1.78125,
      "learning_rate": 0.00048473196585469713,
      "loss": 5.4409,
      "mean_token_accuracy": 0.16624458730220795,
      "num_tokens": 27513485.0,
      "step": 14920
    },
    {
      "entropy": 5.725602149963379,
      "epoch": 1.2538962402856542,
      "grad_norm": 1.765625,
      "learning_rate": 0.00048472112056869763,
      "loss": 5.5032,
      "mean_token_accuracy": 0.15849509388208388,
      "num_tokens": 27523164.0,
      "step": 14925
    },
    {
      "entropy": 5.7331983089447025,
      "epoch": 1.2543163201008192,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004847102715675964,
      "loss": 5.4388,
      "mean_token_accuracy": 0.16513479351997376,
      "num_tokens": 27531387.0,
      "step": 14930
    },
    {
      "entropy": 5.6596925258636475,
      "epoch": 1.254736399915984,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004846994188515857,
      "loss": 5.4488,
      "mean_token_accuracy": 0.16895988285541536,
      "num_tokens": 27541754.0,
      "step": 14935
    },
    {
      "entropy": 5.79337100982666,
      "epoch": 1.255156479731149,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004846885624208578,
      "loss": 5.5214,
      "mean_token_accuracy": 0.158653724193573,
      "num_tokens": 27551458.0,
      "step": 14940
    },
    {
      "entropy": 5.685010766983032,
      "epoch": 1.2555765595463138,
      "grad_norm": 1.890625,
      "learning_rate": 0.000484677702275605,
      "loss": 5.4378,
      "mean_token_accuracy": 0.16842745393514633,
      "num_tokens": 27560797.0,
      "step": 14945
    },
    {
      "entropy": 5.695211362838745,
      "epoch": 1.2559966393614788,
      "grad_norm": 1.546875,
      "learning_rate": 0.00048466683841601963,
      "loss": 5.4206,
      "mean_token_accuracy": 0.16701247841119765,
      "num_tokens": 27570166.0,
      "step": 14950
    },
    {
      "entropy": 5.662879896163941,
      "epoch": 1.2564167191766435,
      "grad_norm": 1.5,
      "learning_rate": 0.00048465597084229416,
      "loss": 5.3411,
      "mean_token_accuracy": 0.16752343326807023,
      "num_tokens": 27579411.0,
      "step": 14955
    },
    {
      "entropy": 5.737317419052124,
      "epoch": 1.2568367989918086,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004846450995546212,
      "loss": 5.5894,
      "mean_token_accuracy": 0.15929221510887145,
      "num_tokens": 27589124.0,
      "step": 14960
    },
    {
      "entropy": 5.76739387512207,
      "epoch": 1.2572568788069733,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004846342245531932,
      "loss": 5.5526,
      "mean_token_accuracy": 0.15253591239452363,
      "num_tokens": 27598664.0,
      "step": 14965
    },
    {
      "entropy": 5.792992496490479,
      "epoch": 1.2576769586221381,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004846233458382029,
      "loss": 5.4779,
      "mean_token_accuracy": 0.16482626497745514,
      "num_tokens": 27607189.0,
      "step": 14970
    },
    {
      "entropy": 5.758588409423828,
      "epoch": 1.2580970384373031,
      "grad_norm": 1.796875,
      "learning_rate": 0.00048461246340984293,
      "loss": 5.5099,
      "mean_token_accuracy": 0.16399455666542054,
      "num_tokens": 27616415.0,
      "step": 14975
    },
    {
      "entropy": 5.67619571685791,
      "epoch": 1.258517118252468,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004846015772683061,
      "loss": 5.4745,
      "mean_token_accuracy": 0.1670221731066704,
      "num_tokens": 27624492.0,
      "step": 14980
    },
    {
      "entropy": 5.610988140106201,
      "epoch": 1.258937198067633,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00048459068741378526,
      "loss": 5.3731,
      "mean_token_accuracy": 0.16672062426805495,
      "num_tokens": 27634243.0,
      "step": 14985
    },
    {
      "entropy": 5.695155811309815,
      "epoch": 1.2593572778827977,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004845797938464734,
      "loss": 5.4803,
      "mean_token_accuracy": 0.16463592499494553,
      "num_tokens": 27642887.0,
      "step": 14990
    },
    {
      "entropy": 5.7585619449615475,
      "epoch": 1.2597773576979625,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004845688965665633,
      "loss": 5.4946,
      "mean_token_accuracy": 0.1642697721719742,
      "num_tokens": 27652524.0,
      "step": 14995
    },
    {
      "entropy": 5.68261866569519,
      "epoch": 1.2601974375131275,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00048455799557424814,
      "loss": 5.3471,
      "mean_token_accuracy": 0.17591068595647813,
      "num_tokens": 27661306.0,
      "step": 15000
    },
    {
      "epoch": 1.2601974375131275,
      "eval_entropy": 5.542287499050695,
      "eval_loss": 5.52593994140625,
      "eval_mean_token_accuracy": 0.16979930738796262,
      "eval_num_tokens": 27661306.0,
      "eval_runtime": 27.4053,
      "eval_samples_per_second": 1363.46,
      "eval_steps_per_second": 170.442,
      "step": 15000
    },
    {
      "entropy": 5.719019222259521,
      "epoch": 1.2606175173282923,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004845470908697209,
      "loss": 5.5345,
      "mean_token_accuracy": 0.1672997236251831,
      "num_tokens": 27671728.0,
      "step": 15005
    },
    {
      "entropy": 5.660177707672119,
      "epoch": 1.2610375971434573,
      "grad_norm": 1.421875,
      "learning_rate": 0.000484536182453175,
      "loss": 5.3345,
      "mean_token_accuracy": 0.16970676183700562,
      "num_tokens": 27680740.0,
      "step": 15010
    },
    {
      "entropy": 5.690030097961426,
      "epoch": 1.261457676958622,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004845252703248035,
      "loss": 5.4072,
      "mean_token_accuracy": 0.16504298150539398,
      "num_tokens": 27689865.0,
      "step": 15015
    },
    {
      "entropy": 5.6956014156341555,
      "epoch": 1.2618777567737869,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004845143544847997,
      "loss": 5.4473,
      "mean_token_accuracy": 0.1682340383529663,
      "num_tokens": 27700366.0,
      "step": 15020
    },
    {
      "entropy": 5.698393678665161,
      "epoch": 1.262297836588952,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00048450343493335697,
      "loss": 5.3561,
      "mean_token_accuracy": 0.17051917016506196,
      "num_tokens": 27708893.0,
      "step": 15025
    },
    {
      "entropy": 5.611342048645019,
      "epoch": 1.262717916404117,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004844925116706688,
      "loss": 5.3771,
      "mean_token_accuracy": 0.16306255012750626,
      "num_tokens": 27717494.0,
      "step": 15030
    },
    {
      "entropy": 5.57361912727356,
      "epoch": 1.2631379962192817,
      "grad_norm": 2.328125,
      "learning_rate": 0.00048448158469692866,
      "loss": 5.3038,
      "mean_token_accuracy": 0.18097079247236253,
      "num_tokens": 27726487.0,
      "step": 15035
    },
    {
      "entropy": 5.786226844787597,
      "epoch": 1.2635580760344465,
      "grad_norm": 1.9375,
      "learning_rate": 0.0004844706540123301,
      "loss": 5.5463,
      "mean_token_accuracy": 0.15970377177000045,
      "num_tokens": 27736602.0,
      "step": 15040
    },
    {
      "entropy": 5.89350733757019,
      "epoch": 1.2639781558496115,
      "grad_norm": 1.65625,
      "learning_rate": 0.00048445971961706675,
      "loss": 5.5419,
      "mean_token_accuracy": 0.15724890679121017,
      "num_tokens": 27746322.0,
      "step": 15045
    },
    {
      "entropy": 5.636753940582276,
      "epoch": 1.2643982356647763,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004844487815113323,
      "loss": 5.3895,
      "mean_token_accuracy": 0.1694614127278328,
      "num_tokens": 27754941.0,
      "step": 15050
    },
    {
      "entropy": 5.603873300552368,
      "epoch": 1.2648183154799413,
      "grad_norm": 1.890625,
      "learning_rate": 0.0004844378396953206,
      "loss": 5.4706,
      "mean_token_accuracy": 0.16238831877708435,
      "num_tokens": 27763941.0,
      "step": 15055
    },
    {
      "entropy": 5.733206653594971,
      "epoch": 1.265238395295106,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00048442689416922536,
      "loss": 5.4854,
      "mean_token_accuracy": 0.16823527961969376,
      "num_tokens": 27773087.0,
      "step": 15060
    },
    {
      "entropy": 5.640398788452148,
      "epoch": 1.2656584751102709,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00048441594493324057,
      "loss": 5.3039,
      "mean_token_accuracy": 0.17487951517105102,
      "num_tokens": 27782648.0,
      "step": 15065
    },
    {
      "entropy": 5.66456823348999,
      "epoch": 1.2660785549254359,
      "grad_norm": 1.59375,
      "learning_rate": 0.00048440499198756015,
      "loss": 5.5098,
      "mean_token_accuracy": 0.16223005801439286,
      "num_tokens": 27791567.0,
      "step": 15070
    },
    {
      "entropy": 5.695383977890015,
      "epoch": 1.2664986347406006,
      "grad_norm": 1.53125,
      "learning_rate": 0.00048439403533237816,
      "loss": 5.499,
      "mean_token_accuracy": 0.1588960826396942,
      "num_tokens": 27801397.0,
      "step": 15075
    },
    {
      "entropy": 5.790954875946045,
      "epoch": 1.2669187145557657,
      "grad_norm": 1.765625,
      "learning_rate": 0.0004843830749678886,
      "loss": 5.5147,
      "mean_token_accuracy": 0.16107721030712127,
      "num_tokens": 27810831.0,
      "step": 15080
    },
    {
      "entropy": 5.717430448532104,
      "epoch": 1.2673387943709304,
      "grad_norm": 2.390625,
      "learning_rate": 0.0004843721108942856,
      "loss": 5.4237,
      "mean_token_accuracy": 0.16757311969995498,
      "num_tokens": 27819591.0,
      "step": 15085
    },
    {
      "entropy": 5.6086828231811525,
      "epoch": 1.2677588741860952,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004843611431117636,
      "loss": 5.4138,
      "mean_token_accuracy": 0.1716834545135498,
      "num_tokens": 27828614.0,
      "step": 15090
    },
    {
      "entropy": 5.673300123214721,
      "epoch": 1.2681789540012602,
      "grad_norm": 1.75,
      "learning_rate": 0.0004843501716205167,
      "loss": 5.4511,
      "mean_token_accuracy": 0.165350541472435,
      "num_tokens": 27837549.0,
      "step": 15095
    },
    {
      "entropy": 5.737055730819702,
      "epoch": 1.2685990338164252,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004843391964207393,
      "loss": 5.4743,
      "mean_token_accuracy": 0.15991066843271257,
      "num_tokens": 27846678.0,
      "step": 15100
    },
    {
      "entropy": 5.789986085891724,
      "epoch": 1.26901911363159,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004843282175126258,
      "loss": 5.4962,
      "mean_token_accuracy": 0.1644158586859703,
      "num_tokens": 27855734.0,
      "step": 15105
    },
    {
      "entropy": 5.703271150588989,
      "epoch": 1.2694391934467548,
      "grad_norm": 2.328125,
      "learning_rate": 0.00048431723489637086,
      "loss": 5.4225,
      "mean_token_accuracy": 0.16743371933698653,
      "num_tokens": 27865111.0,
      "step": 15110
    },
    {
      "entropy": 5.7195985317230225,
      "epoch": 1.2698592732619198,
      "grad_norm": 2.140625,
      "learning_rate": 0.00048430624857216876,
      "loss": 5.4393,
      "mean_token_accuracy": 0.1662244826555252,
      "num_tokens": 27874495.0,
      "step": 15115
    },
    {
      "entropy": 5.6339555263519285,
      "epoch": 1.2702793530770846,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004842952585402143,
      "loss": 5.4758,
      "mean_token_accuracy": 0.16450706571340562,
      "num_tokens": 27884531.0,
      "step": 15120
    },
    {
      "entropy": 5.596436595916748,
      "epoch": 1.2706994328922496,
      "grad_norm": 2.21875,
      "learning_rate": 0.000484284264800702,
      "loss": 5.3613,
      "mean_token_accuracy": 0.17341870963573455,
      "num_tokens": 27893463.0,
      "step": 15125
    },
    {
      "entropy": 5.757380199432373,
      "epoch": 1.2711195127074144,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00048427326735382687,
      "loss": 5.4724,
      "mean_token_accuracy": 0.16172740906476973,
      "num_tokens": 27903015.0,
      "step": 15130
    },
    {
      "entropy": 5.742963027954102,
      "epoch": 1.2715395925225792,
      "grad_norm": 9.8125,
      "learning_rate": 0.0004842622661997834,
      "loss": 5.4552,
      "mean_token_accuracy": 0.16410297602415086,
      "num_tokens": 27912207.0,
      "step": 15135
    },
    {
      "entropy": 5.6874500751495365,
      "epoch": 1.2719596723377442,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0004842512613387668,
      "loss": 5.4679,
      "mean_token_accuracy": 0.1574219599366188,
      "num_tokens": 27921566.0,
      "step": 15140
    },
    {
      "entropy": 5.663531732559204,
      "epoch": 1.272379752152909,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004842402527709718,
      "loss": 5.4061,
      "mean_token_accuracy": 0.16983576118946075,
      "num_tokens": 27930633.0,
      "step": 15145
    },
    {
      "entropy": 5.78377251625061,
      "epoch": 1.272799831968074,
      "grad_norm": 1.75,
      "learning_rate": 0.0004842292404965934,
      "loss": 5.5197,
      "mean_token_accuracy": 0.1595507562160492,
      "num_tokens": 27939887.0,
      "step": 15150
    },
    {
      "entropy": 5.767408180236816,
      "epoch": 1.2732199117832388,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004842182245158268,
      "loss": 5.5257,
      "mean_token_accuracy": 0.16959029585123062,
      "num_tokens": 27949090.0,
      "step": 15155
    },
    {
      "entropy": 5.610546350479126,
      "epoch": 1.2736399915984036,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00048420720482886715,
      "loss": 5.3312,
      "mean_token_accuracy": 0.1733013227581978,
      "num_tokens": 27958141.0,
      "step": 15160
    },
    {
      "entropy": 5.63969464302063,
      "epoch": 1.2740600714135686,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004841961814359095,
      "loss": 5.4047,
      "mean_token_accuracy": 0.16643078476190568,
      "num_tokens": 27967780.0,
      "step": 15165
    },
    {
      "entropy": 5.69786319732666,
      "epoch": 1.2744801512287336,
      "grad_norm": 1.90625,
      "learning_rate": 0.00048418515433714917,
      "loss": 5.489,
      "mean_token_accuracy": 0.16522752195596696,
      "num_tokens": 27976243.0,
      "step": 15170
    },
    {
      "entropy": 5.6997581958770756,
      "epoch": 1.2749002310438984,
      "grad_norm": 1.859375,
      "learning_rate": 0.0004841741235327817,
      "loss": 5.3579,
      "mean_token_accuracy": 0.17067465782165528,
      "num_tokens": 27985874.0,
      "step": 15175
    },
    {
      "entropy": 5.806114244461059,
      "epoch": 1.2753203108590632,
      "grad_norm": 1.75,
      "learning_rate": 0.00048416308902300215,
      "loss": 5.5921,
      "mean_token_accuracy": 0.15702388137578965,
      "num_tokens": 27995111.0,
      "step": 15180
    },
    {
      "entropy": 5.689389657974243,
      "epoch": 1.2757403906742282,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004841520508080063,
      "loss": 5.4127,
      "mean_token_accuracy": 0.1689732179045677,
      "num_tokens": 28003948.0,
      "step": 15185
    },
    {
      "entropy": 5.6548957347869875,
      "epoch": 1.276160470489393,
      "grad_norm": 2.171875,
      "learning_rate": 0.00048414100888798957,
      "loss": 5.4174,
      "mean_token_accuracy": 0.16478729695081712,
      "num_tokens": 28012941.0,
      "step": 15190
    },
    {
      "entropy": 5.601344108581543,
      "epoch": 1.276580550304558,
      "grad_norm": 3.359375,
      "learning_rate": 0.0004841299632631475,
      "loss": 5.41,
      "mean_token_accuracy": 0.1636947825551033,
      "num_tokens": 28022195.0,
      "step": 15195
    },
    {
      "entropy": 5.65929913520813,
      "epoch": 1.2770006301197228,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004841189139336759,
      "loss": 5.3589,
      "mean_token_accuracy": 0.16983367949724198,
      "num_tokens": 28031446.0,
      "step": 15200
    },
    {
      "entropy": 5.688397693634033,
      "epoch": 1.2774207099348875,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004841078608997703,
      "loss": 5.3801,
      "mean_token_accuracy": 0.17025842219591142,
      "num_tokens": 28040906.0,
      "step": 15205
    },
    {
      "entropy": 5.676456069946289,
      "epoch": 1.2778407897500526,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004840968041616267,
      "loss": 5.3894,
      "mean_token_accuracy": 0.1704905390739441,
      "num_tokens": 28049848.0,
      "step": 15210
    },
    {
      "entropy": 5.67938723564148,
      "epoch": 1.2782608695652173,
      "grad_norm": 1.484375,
      "learning_rate": 0.00048408574371944094,
      "loss": 5.3732,
      "mean_token_accuracy": 0.16771376579999925,
      "num_tokens": 28058276.0,
      "step": 15215
    },
    {
      "entropy": 5.688129663467407,
      "epoch": 1.2786809493803823,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004840746795734088,
      "loss": 5.5029,
      "mean_token_accuracy": 0.1592990979552269,
      "num_tokens": 28068185.0,
      "step": 15220
    },
    {
      "entropy": 5.77323579788208,
      "epoch": 1.2791010291955471,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004840636117237264,
      "loss": 5.5346,
      "mean_token_accuracy": 0.16309675723314285,
      "num_tokens": 28077532.0,
      "step": 15225
    },
    {
      "entropy": 5.695499229431152,
      "epoch": 1.279521109010712,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0004840525401705897,
      "loss": 5.3962,
      "mean_token_accuracy": 0.16487024575471879,
      "num_tokens": 28087593.0,
      "step": 15230
    },
    {
      "entropy": 5.651865243911743,
      "epoch": 1.279941188825877,
      "grad_norm": 2.671875,
      "learning_rate": 0.00048404146491419503,
      "loss": 5.3617,
      "mean_token_accuracy": 0.17026301175355912,
      "num_tokens": 28096256.0,
      "step": 15235
    },
    {
      "entropy": 5.682730484008789,
      "epoch": 1.2803612686410417,
      "grad_norm": 3.03125,
      "learning_rate": 0.00048403038595473837,
      "loss": 5.3999,
      "mean_token_accuracy": 0.1683255612850189,
      "num_tokens": 28105048.0,
      "step": 15240
    },
    {
      "entropy": 5.698611879348755,
      "epoch": 1.2807813484562067,
      "grad_norm": 1.875,
      "learning_rate": 0.000484019303292416,
      "loss": 5.4677,
      "mean_token_accuracy": 0.15729653239250183,
      "num_tokens": 28114330.0,
      "step": 15245
    },
    {
      "entropy": 5.666230535507202,
      "epoch": 1.2812014282713715,
      "grad_norm": 1.59375,
      "learning_rate": 0.00048400821692742434,
      "loss": 5.3826,
      "mean_token_accuracy": 0.17221412509679795,
      "num_tokens": 28123147.0,
      "step": 15250
    },
    {
      "entropy": 5.731086874008179,
      "epoch": 1.2816215080865365,
      "grad_norm": 2.03125,
      "learning_rate": 0.00048399712685995983,
      "loss": 5.519,
      "mean_token_accuracy": 0.16596773117780686,
      "num_tokens": 28132477.0,
      "step": 15255
    },
    {
      "entropy": 5.683180570602417,
      "epoch": 1.2820415879017013,
      "grad_norm": 1.4375,
      "learning_rate": 0.00048398603309021877,
      "loss": 5.5007,
      "mean_token_accuracy": 0.16307283490896224,
      "num_tokens": 28141350.0,
      "step": 15260
    },
    {
      "entropy": 5.718101358413696,
      "epoch": 1.2824616677168663,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004839749356183978,
      "loss": 5.4452,
      "mean_token_accuracy": 0.16625609248876572,
      "num_tokens": 28149522.0,
      "step": 15265
    },
    {
      "entropy": 5.71740870475769,
      "epoch": 1.282881747532031,
      "grad_norm": 1.84375,
      "learning_rate": 0.0004839638344446933,
      "loss": 5.5484,
      "mean_token_accuracy": 0.16156259179115295,
      "num_tokens": 28159646.0,
      "step": 15270
    },
    {
      "entropy": 5.810041522979736,
      "epoch": 1.283301827347196,
      "grad_norm": 1.875,
      "learning_rate": 0.0004839527295693023,
      "loss": 5.4631,
      "mean_token_accuracy": 0.1712553933262825,
      "num_tokens": 28168408.0,
      "step": 15275
    },
    {
      "entropy": 5.740299415588379,
      "epoch": 1.283721907162361,
      "grad_norm": 2.484375,
      "learning_rate": 0.0004839416209924211,
      "loss": 5.4659,
      "mean_token_accuracy": 0.16082556098699569,
      "num_tokens": 28177744.0,
      "step": 15280
    },
    {
      "entropy": 5.74624080657959,
      "epoch": 1.2841419869775257,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00048393050871424676,
      "loss": 5.5276,
      "mean_token_accuracy": 0.16067055016756057,
      "num_tokens": 28186811.0,
      "step": 15285
    },
    {
      "entropy": 5.6819815158844,
      "epoch": 1.2845620667926907,
      "grad_norm": 2.140625,
      "learning_rate": 0.000483919392734976,
      "loss": 5.5012,
      "mean_token_accuracy": 0.15652224719524382,
      "num_tokens": 28197052.0,
      "step": 15290
    },
    {
      "entropy": 5.707629013061523,
      "epoch": 1.2849821466078555,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0004839082730548058,
      "loss": 5.3546,
      "mean_token_accuracy": 0.1764655143022537,
      "num_tokens": 28206000.0,
      "step": 15295
    },
    {
      "entropy": 5.692590618133545,
      "epoch": 1.2854022264230203,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004838971496739331,
      "loss": 5.3416,
      "mean_token_accuracy": 0.16673224717378615,
      "num_tokens": 28214679.0,
      "step": 15300
    },
    {
      "entropy": 5.616611909866333,
      "epoch": 1.2858223062381853,
      "grad_norm": 1.7421875,
      "learning_rate": 0.000483886022592555,
      "loss": 5.4572,
      "mean_token_accuracy": 0.16383219435811042,
      "num_tokens": 28223890.0,
      "step": 15305
    },
    {
      "entropy": 5.671573495864868,
      "epoch": 1.28624238605335,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004838748918108685,
      "loss": 5.3889,
      "mean_token_accuracy": 0.16743310987949372,
      "num_tokens": 28232422.0,
      "step": 15310
    },
    {
      "entropy": 5.661684656143189,
      "epoch": 1.286662465868515,
      "grad_norm": 2.53125,
      "learning_rate": 0.00048386375732907083,
      "loss": 5.4321,
      "mean_token_accuracy": 0.1664291650056839,
      "num_tokens": 28242079.0,
      "step": 15315
    },
    {
      "entropy": 5.772406101226807,
      "epoch": 1.2870825456836799,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00048385261914735936,
      "loss": 5.626,
      "mean_token_accuracy": 0.1569541186094284,
      "num_tokens": 28252510.0,
      "step": 15320
    },
    {
      "entropy": 5.816063642501831,
      "epoch": 1.2875026254988446,
      "grad_norm": 2.828125,
      "learning_rate": 0.00048384147726593125,
      "loss": 5.5211,
      "mean_token_accuracy": 0.1613934814929962,
      "num_tokens": 28261348.0,
      "step": 15325
    },
    {
      "entropy": 5.7399543762207035,
      "epoch": 1.2879227053140097,
      "grad_norm": 1.765625,
      "learning_rate": 0.0004838303316849839,
      "loss": 5.4373,
      "mean_token_accuracy": 0.15664124339818955,
      "num_tokens": 28270739.0,
      "step": 15330
    },
    {
      "entropy": 5.7096014499664305,
      "epoch": 1.2883427851291747,
      "grad_norm": 1.5625,
      "learning_rate": 0.00048381918240471473,
      "loss": 5.4913,
      "mean_token_accuracy": 0.15497729554772377,
      "num_tokens": 28279370.0,
      "step": 15335
    },
    {
      "entropy": 5.726278638839721,
      "epoch": 1.2887628649443394,
      "grad_norm": 1.90625,
      "learning_rate": 0.00048380802942532124,
      "loss": 5.411,
      "mean_token_accuracy": 0.1654820501804352,
      "num_tokens": 28287955.0,
      "step": 15340
    },
    {
      "entropy": 5.604457712173462,
      "epoch": 1.2891829447595042,
      "grad_norm": 1.765625,
      "learning_rate": 0.00048379687274700107,
      "loss": 5.3613,
      "mean_token_accuracy": 0.17298102527856826,
      "num_tokens": 28296832.0,
      "step": 15345
    },
    {
      "entropy": 5.598322010040283,
      "epoch": 1.2896030245746692,
      "grad_norm": 1.4375,
      "learning_rate": 0.00048378571236995185,
      "loss": 5.3944,
      "mean_token_accuracy": 0.166165030002594,
      "num_tokens": 28305778.0,
      "step": 15350
    },
    {
      "entropy": 5.761275959014893,
      "epoch": 1.290023104389834,
      "grad_norm": 2.28125,
      "learning_rate": 0.00048377454829437124,
      "loss": 5.4484,
      "mean_token_accuracy": 0.1619205430150032,
      "num_tokens": 28314615.0,
      "step": 15355
    },
    {
      "entropy": 5.827945566177368,
      "epoch": 1.290443184204999,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004837633805204569,
      "loss": 5.5111,
      "mean_token_accuracy": 0.16340176910161971,
      "num_tokens": 28324478.0,
      "step": 15360
    },
    {
      "entropy": 5.753641033172608,
      "epoch": 1.2908632640201638,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0004837522090484069,
      "loss": 5.4739,
      "mean_token_accuracy": 0.16428422480821608,
      "num_tokens": 28333532.0,
      "step": 15365
    },
    {
      "entropy": 5.720655488967895,
      "epoch": 1.2912833438353286,
      "grad_norm": 1.9375,
      "learning_rate": 0.00048374103387841894,
      "loss": 5.4456,
      "mean_token_accuracy": 0.15933494865894318,
      "num_tokens": 28343723.0,
      "step": 15370
    },
    {
      "entropy": 5.728183746337891,
      "epoch": 1.2917034236504936,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00048372985501069106,
      "loss": 5.4241,
      "mean_token_accuracy": 0.1650676444172859,
      "num_tokens": 28351992.0,
      "step": 15375
    },
    {
      "entropy": 5.65154390335083,
      "epoch": 1.2921235034656584,
      "grad_norm": 1.75,
      "learning_rate": 0.0004837186724454213,
      "loss": 5.4075,
      "mean_token_accuracy": 0.16652555614709855,
      "num_tokens": 28361141.0,
      "step": 15380
    },
    {
      "entropy": 5.664861392974854,
      "epoch": 1.2925435832808234,
      "grad_norm": 2.109375,
      "learning_rate": 0.0004837074861828077,
      "loss": 5.3951,
      "mean_token_accuracy": 0.16747472435235977,
      "num_tokens": 28370339.0,
      "step": 15385
    },
    {
      "entropy": 5.725724220275879,
      "epoch": 1.2929636630959882,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0004836962962230485,
      "loss": 5.5142,
      "mean_token_accuracy": 0.16315443962812423,
      "num_tokens": 28379242.0,
      "step": 15390
    },
    {
      "entropy": 5.659032392501831,
      "epoch": 1.293383742911153,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004836851025663418,
      "loss": 5.4054,
      "mean_token_accuracy": 0.1692844420671463,
      "num_tokens": 28388864.0,
      "step": 15395
    },
    {
      "entropy": 5.7302182674407955,
      "epoch": 1.293803822726318,
      "grad_norm": 2.0625,
      "learning_rate": 0.000483673905212886,
      "loss": 5.5045,
      "mean_token_accuracy": 0.16604892164468765,
      "num_tokens": 28398000.0,
      "step": 15400
    },
    {
      "entropy": 5.645801734924317,
      "epoch": 1.294223902541483,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0004836627041628794,
      "loss": 5.4445,
      "mean_token_accuracy": 0.1687624305486679,
      "num_tokens": 28407652.0,
      "step": 15405
    },
    {
      "entropy": 5.7521144390106205,
      "epoch": 1.2946439823566478,
      "grad_norm": 2.125,
      "learning_rate": 0.0004836514994165205,
      "loss": 5.4993,
      "mean_token_accuracy": 0.16120134592056273,
      "num_tokens": 28417694.0,
      "step": 15410
    },
    {
      "entropy": 5.694954919815063,
      "epoch": 1.2950640621718126,
      "grad_norm": 1.75,
      "learning_rate": 0.00048364029097400777,
      "loss": 5.442,
      "mean_token_accuracy": 0.16629258692264556,
      "num_tokens": 28426928.0,
      "step": 15415
    },
    {
      "entropy": 5.664297342300415,
      "epoch": 1.2954841419869776,
      "grad_norm": 1.609375,
      "learning_rate": 0.00048362907883553956,
      "loss": 5.4714,
      "mean_token_accuracy": 0.15762439966201783,
      "num_tokens": 28436176.0,
      "step": 15420
    },
    {
      "entropy": 5.728027105331421,
      "epoch": 1.2959042218021424,
      "grad_norm": 2.046875,
      "learning_rate": 0.00048361786300131477,
      "loss": 5.5363,
      "mean_token_accuracy": 0.15678158700466155,
      "num_tokens": 28445277.0,
      "step": 15425
    },
    {
      "entropy": 5.784550476074219,
      "epoch": 1.2963243016173074,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004836066434715319,
      "loss": 5.4399,
      "mean_token_accuracy": 0.16050161719322203,
      "num_tokens": 28453959.0,
      "step": 15430
    },
    {
      "entropy": 5.718553638458252,
      "epoch": 1.2967443814324722,
      "grad_norm": 1.921875,
      "learning_rate": 0.0004835954202463898,
      "loss": 5.5243,
      "mean_token_accuracy": 0.16090073585510253,
      "num_tokens": 28463780.0,
      "step": 15435
    },
    {
      "entropy": 5.64632830619812,
      "epoch": 1.297164461247637,
      "grad_norm": 2.109375,
      "learning_rate": 0.0004835841933260872,
      "loss": 5.3784,
      "mean_token_accuracy": 0.16484325826168061,
      "num_tokens": 28473299.0,
      "step": 15440
    },
    {
      "entropy": 5.666690301895142,
      "epoch": 1.297584541062802,
      "grad_norm": 2.53125,
      "learning_rate": 0.00048357296271082305,
      "loss": 5.4216,
      "mean_token_accuracy": 0.16306840777397155,
      "num_tokens": 28481859.0,
      "step": 15445
    },
    {
      "entropy": 5.80743989944458,
      "epoch": 1.2980046208779668,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00048356172840079625,
      "loss": 5.4795,
      "mean_token_accuracy": 0.16350326538085938,
      "num_tokens": 28491034.0,
      "step": 15450
    },
    {
      "entropy": 5.697645139694214,
      "epoch": 1.2984247006931318,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004835504903962058,
      "loss": 5.3839,
      "mean_token_accuracy": 0.16248102933168412,
      "num_tokens": 28499829.0,
      "step": 15455
    },
    {
      "entropy": 5.623191022872925,
      "epoch": 1.2988447805082965,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00048353924869725084,
      "loss": 5.3937,
      "mean_token_accuracy": 0.1705133929848671,
      "num_tokens": 28508188.0,
      "step": 15460
    },
    {
      "entropy": 5.609925365447998,
      "epoch": 1.2992648603234613,
      "grad_norm": 1.625,
      "learning_rate": 0.0004835280033041305,
      "loss": 5.2948,
      "mean_token_accuracy": 0.16951121538877487,
      "num_tokens": 28516509.0,
      "step": 15465
    },
    {
      "entropy": 5.652699041366577,
      "epoch": 1.2996849401386263,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004835167542170439,
      "loss": 5.5169,
      "mean_token_accuracy": 0.16390926837921144,
      "num_tokens": 28526457.0,
      "step": 15470
    },
    {
      "entropy": 5.70890064239502,
      "epoch": 1.3001050199537914,
      "grad_norm": 1.90625,
      "learning_rate": 0.0004835055014361904,
      "loss": 5.461,
      "mean_token_accuracy": 0.16140211522579193,
      "num_tokens": 28536149.0,
      "step": 15475
    },
    {
      "entropy": 5.776080131530762,
      "epoch": 1.3005250997689561,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00048349424496176924,
      "loss": 5.5146,
      "mean_token_accuracy": 0.16204932928085328,
      "num_tokens": 28545486.0,
      "step": 15480
    },
    {
      "entropy": 5.693456315994263,
      "epoch": 1.300945179584121,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00048348298479397996,
      "loss": 5.4013,
      "mean_token_accuracy": 0.1665617987513542,
      "num_tokens": 28554555.0,
      "step": 15485
    },
    {
      "entropy": 5.563140153884888,
      "epoch": 1.301365259399286,
      "grad_norm": 1.65625,
      "learning_rate": 0.00048347172093302196,
      "loss": 5.4174,
      "mean_token_accuracy": 0.17032357305288315,
      "num_tokens": 28563387.0,
      "step": 15490
    },
    {
      "entropy": 5.654443550109863,
      "epoch": 1.3017853392144507,
      "grad_norm": 2.5625,
      "learning_rate": 0.00048346045337909475,
      "loss": 5.4198,
      "mean_token_accuracy": 0.16440292894840242,
      "num_tokens": 28573437.0,
      "step": 15495
    },
    {
      "entropy": 5.641400241851807,
      "epoch": 1.3022054190296157,
      "grad_norm": 1.9453125,
      "learning_rate": 0.000483449182132398,
      "loss": 5.3656,
      "mean_token_accuracy": 0.17342451214790344,
      "num_tokens": 28583362.0,
      "step": 15500
    },
    {
      "entropy": 5.808328342437744,
      "epoch": 1.3026254988447805,
      "grad_norm": 2.359375,
      "learning_rate": 0.00048343790719313124,
      "loss": 5.553,
      "mean_token_accuracy": 0.15858516097068787,
      "num_tokens": 28593201.0,
      "step": 15505
    },
    {
      "entropy": 5.6986161231994625,
      "epoch": 1.3030455786599453,
      "grad_norm": 1.875,
      "learning_rate": 0.00048342662856149427,
      "loss": 5.452,
      "mean_token_accuracy": 0.15802465230226517,
      "num_tokens": 28602486.0,
      "step": 15510
    },
    {
      "entropy": 5.641084289550781,
      "epoch": 1.3034656584751103,
      "grad_norm": 1.5703125,
      "learning_rate": 0.000483415346237687,
      "loss": 5.4635,
      "mean_token_accuracy": 0.163986237347126,
      "num_tokens": 28611643.0,
      "step": 15515
    },
    {
      "entropy": 5.741965579986572,
      "epoch": 1.303885738290275,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004834040602219091,
      "loss": 5.511,
      "mean_token_accuracy": 0.16517338454723357,
      "num_tokens": 28620545.0,
      "step": 15520
    },
    {
      "entropy": 5.687145090103149,
      "epoch": 1.30430581810544,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00048339277051436067,
      "loss": 5.4423,
      "mean_token_accuracy": 0.16573746055364608,
      "num_tokens": 28630024.0,
      "step": 15525
    },
    {
      "entropy": 5.800404119491577,
      "epoch": 1.304725897920605,
      "grad_norm": 2.078125,
      "learning_rate": 0.0004833814771152415,
      "loss": 5.4982,
      "mean_token_accuracy": 0.1673808366060257,
      "num_tokens": 28638995.0,
      "step": 15530
    },
    {
      "entropy": 5.6978675365448,
      "epoch": 1.3051459777357697,
      "grad_norm": 1.90625,
      "learning_rate": 0.00048337018002475184,
      "loss": 5.4483,
      "mean_token_accuracy": 0.1675184115767479,
      "num_tokens": 28647833.0,
      "step": 15535
    },
    {
      "entropy": 5.632976531982422,
      "epoch": 1.3055660575509347,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0004833588792430917,
      "loss": 5.3562,
      "mean_token_accuracy": 0.16957587152719497,
      "num_tokens": 28657441.0,
      "step": 15540
    },
    {
      "entropy": 5.710914278030396,
      "epoch": 1.3059861373660997,
      "grad_norm": 2.015625,
      "learning_rate": 0.0004833475747704614,
      "loss": 5.4746,
      "mean_token_accuracy": 0.16293687522411346,
      "num_tokens": 28666666.0,
      "step": 15545
    },
    {
      "entropy": 5.711972379684449,
      "epoch": 1.3064062171812645,
      "grad_norm": 1.8984375,
      "learning_rate": 0.000483336266607061,
      "loss": 5.4684,
      "mean_token_accuracy": 0.16195246577262878,
      "num_tokens": 28676770.0,
      "step": 15550
    },
    {
      "entropy": 5.71502652168274,
      "epoch": 1.3068262969964293,
      "grad_norm": 1.59375,
      "learning_rate": 0.00048332495475309097,
      "loss": 5.3882,
      "mean_token_accuracy": 0.16904159635305405,
      "num_tokens": 28685610.0,
      "step": 15555
    },
    {
      "entropy": 5.733300971984863,
      "epoch": 1.3072463768115943,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00048331363920875155,
      "loss": 5.4835,
      "mean_token_accuracy": 0.1614070475101471,
      "num_tokens": 28695082.0,
      "step": 15560
    },
    {
      "entropy": 5.6674620628356935,
      "epoch": 1.307666456626759,
      "grad_norm": 1.796875,
      "learning_rate": 0.00048330231997424335,
      "loss": 5.3919,
      "mean_token_accuracy": 0.1674228772521019,
      "num_tokens": 28704006.0,
      "step": 15565
    },
    {
      "entropy": 5.664810228347778,
      "epoch": 1.308086536441924,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004832909970497668,
      "loss": 5.4412,
      "mean_token_accuracy": 0.16440101712942123,
      "num_tokens": 28713665.0,
      "step": 15570
    },
    {
      "entropy": 5.687829685211182,
      "epoch": 1.3085066162570889,
      "grad_norm": 2.03125,
      "learning_rate": 0.00048327967043552245,
      "loss": 5.3995,
      "mean_token_accuracy": 0.16435023695230483,
      "num_tokens": 28722920.0,
      "step": 15575
    },
    {
      "entropy": 5.689635181427002,
      "epoch": 1.3089266960722536,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00048326834013171107,
      "loss": 5.348,
      "mean_token_accuracy": 0.1712331637740135,
      "num_tokens": 28731689.0,
      "step": 15580
    },
    {
      "entropy": 5.734625387191772,
      "epoch": 1.3093467758874187,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004832570061385332,
      "loss": 5.4711,
      "mean_token_accuracy": 0.17253154814243316,
      "num_tokens": 28741308.0,
      "step": 15585
    },
    {
      "entropy": 5.603468322753907,
      "epoch": 1.3097668557025834,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0004832456684561898,
      "loss": 5.4311,
      "mean_token_accuracy": 0.16657552123069763,
      "num_tokens": 28750190.0,
      "step": 15590
    },
    {
      "entropy": 5.622490262985229,
      "epoch": 1.3101869355177485,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004832343270848815,
      "loss": 5.5019,
      "mean_token_accuracy": 0.16145084649324418,
      "num_tokens": 28759588.0,
      "step": 15595
    },
    {
      "entropy": 5.707578086853028,
      "epoch": 1.3106070153329132,
      "grad_norm": 2.25,
      "learning_rate": 0.00048322298202480935,
      "loss": 5.5023,
      "mean_token_accuracy": 0.162407810986042,
      "num_tokens": 28768800.0,
      "step": 15600
    },
    {
      "entropy": 5.782344579696655,
      "epoch": 1.311027095148078,
      "grad_norm": 2.296875,
      "learning_rate": 0.00048321163327617433,
      "loss": 5.4337,
      "mean_token_accuracy": 0.16309218406677245,
      "num_tokens": 28778108.0,
      "step": 15605
    },
    {
      "entropy": 5.753531789779663,
      "epoch": 1.311447174963243,
      "grad_norm": 1.875,
      "learning_rate": 0.0004832002808391775,
      "loss": 5.428,
      "mean_token_accuracy": 0.16352954655885696,
      "num_tokens": 28787202.0,
      "step": 15610
    },
    {
      "entropy": 5.679688262939453,
      "epoch": 1.3118672547784078,
      "grad_norm": 2.421875,
      "learning_rate": 0.0004831889247140198,
      "loss": 5.4529,
      "mean_token_accuracy": 0.16261952072381974,
      "num_tokens": 28797482.0,
      "step": 15615
    },
    {
      "entropy": 5.587442255020141,
      "epoch": 1.3122873345935728,
      "grad_norm": 2.234375,
      "learning_rate": 0.00048317756490090253,
      "loss": 5.3885,
      "mean_token_accuracy": 0.16671659797430038,
      "num_tokens": 28805872.0,
      "step": 15620
    },
    {
      "entropy": 5.645391368865967,
      "epoch": 1.3127074144087376,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00048316620140002685,
      "loss": 5.5111,
      "mean_token_accuracy": 0.15997616499662398,
      "num_tokens": 28814836.0,
      "step": 15625
    },
    {
      "entropy": 5.78643798828125,
      "epoch": 1.3131274942239024,
      "grad_norm": 2.15625,
      "learning_rate": 0.0004831548342115942,
      "loss": 5.4727,
      "mean_token_accuracy": 0.1584260269999504,
      "num_tokens": 28824727.0,
      "step": 15630
    },
    {
      "entropy": 5.820865345001221,
      "epoch": 1.3135475740390674,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00048314346333580576,
      "loss": 5.5875,
      "mean_token_accuracy": 0.1578096106648445,
      "num_tokens": 28833848.0,
      "step": 15635
    },
    {
      "entropy": 5.667257070541382,
      "epoch": 1.3139676538542324,
      "grad_norm": 1.890625,
      "learning_rate": 0.0004831320887728631,
      "loss": 5.3397,
      "mean_token_accuracy": 0.16978776156902314,
      "num_tokens": 28842198.0,
      "step": 15640
    },
    {
      "entropy": 5.667364835739136,
      "epoch": 1.3143877336693972,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004831207105229676,
      "loss": 5.4355,
      "mean_token_accuracy": 0.16604958921670915,
      "num_tokens": 28851804.0,
      "step": 15645
    },
    {
      "entropy": 5.605535078048706,
      "epoch": 1.314807813484562,
      "grad_norm": 2.03125,
      "learning_rate": 0.00048310932858632087,
      "loss": 5.3583,
      "mean_token_accuracy": 0.16956010460853577,
      "num_tokens": 28860181.0,
      "step": 15650
    },
    {
      "entropy": 5.634918832778931,
      "epoch": 1.315227893299727,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00048309794296312467,
      "loss": 5.4172,
      "mean_token_accuracy": 0.17280941605567932,
      "num_tokens": 28869945.0,
      "step": 15655
    },
    {
      "entropy": 5.699268817901611,
      "epoch": 1.3156479731148918,
      "grad_norm": 1.90625,
      "learning_rate": 0.00048308655365358053,
      "loss": 5.4639,
      "mean_token_accuracy": 0.1694648638367653,
      "num_tokens": 28880343.0,
      "step": 15660
    },
    {
      "entropy": 5.794540119171143,
      "epoch": 1.3160680529300568,
      "grad_norm": 1.84375,
      "learning_rate": 0.00048307516065789017,
      "loss": 5.5316,
      "mean_token_accuracy": 0.15753707140684128,
      "num_tokens": 28889441.0,
      "step": 15665
    },
    {
      "entropy": 5.740979290008545,
      "epoch": 1.3164881327452216,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00048306376397625546,
      "loss": 5.4851,
      "mean_token_accuracy": 0.15848094820976258,
      "num_tokens": 28898154.0,
      "step": 15670
    },
    {
      "entropy": 5.736214065551758,
      "epoch": 1.3169082125603864,
      "grad_norm": 2.28125,
      "learning_rate": 0.00048305236360887834,
      "loss": 5.4881,
      "mean_token_accuracy": 0.16091601997613908,
      "num_tokens": 28908359.0,
      "step": 15675
    },
    {
      "entropy": 5.694441890716552,
      "epoch": 1.3173282923755514,
      "grad_norm": 1.484375,
      "learning_rate": 0.00048304095955596074,
      "loss": 5.4821,
      "mean_token_accuracy": 0.16323225647211076,
      "num_tokens": 28918416.0,
      "step": 15680
    },
    {
      "entropy": 5.743959140777588,
      "epoch": 1.3177483721907162,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004830295518177047,
      "loss": 5.3966,
      "mean_token_accuracy": 0.17162241786718369,
      "num_tokens": 28927412.0,
      "step": 15685
    },
    {
      "entropy": 5.679540491104126,
      "epoch": 1.3181684520058812,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00048301814039431227,
      "loss": 5.4299,
      "mean_token_accuracy": 0.1644519239664078,
      "num_tokens": 28936106.0,
      "step": 15690
    },
    {
      "entropy": 5.6732524871826175,
      "epoch": 1.318588531821046,
      "grad_norm": 2.0,
      "learning_rate": 0.00048300672528598553,
      "loss": 5.4675,
      "mean_token_accuracy": 0.16666047424077987,
      "num_tokens": 28945197.0,
      "step": 15695
    },
    {
      "entropy": 5.782284116744995,
      "epoch": 1.3190086116362107,
      "grad_norm": 2.5,
      "learning_rate": 0.0004829953064929268,
      "loss": 5.5033,
      "mean_token_accuracy": 0.15363497659564018,
      "num_tokens": 28954278.0,
      "step": 15700
    },
    {
      "entropy": 5.822621250152588,
      "epoch": 1.3194286914513758,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0004829838840153383,
      "loss": 5.55,
      "mean_token_accuracy": 0.16536147743463517,
      "num_tokens": 28963101.0,
      "step": 15705
    },
    {
      "entropy": 5.619999361038208,
      "epoch": 1.3198487712665408,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004829724578534224,
      "loss": 5.4466,
      "mean_token_accuracy": 0.16242460757493973,
      "num_tokens": 28972063.0,
      "step": 15710
    },
    {
      "entropy": 5.685150098800659,
      "epoch": 1.3202688510817056,
      "grad_norm": 1.65625,
      "learning_rate": 0.00048296102800738153,
      "loss": 5.4051,
      "mean_token_accuracy": 0.1662852793931961,
      "num_tokens": 28981617.0,
      "step": 15715
    },
    {
      "entropy": 5.745265245437622,
      "epoch": 1.3206889308968703,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00048294959447741807,
      "loss": 5.3931,
      "mean_token_accuracy": 0.16527727246284485,
      "num_tokens": 28989442.0,
      "step": 15720
    },
    {
      "entropy": 5.664169025421143,
      "epoch": 1.3211090107120353,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00048293815726373467,
      "loss": 5.404,
      "mean_token_accuracy": 0.17082785815000534,
      "num_tokens": 28999104.0,
      "step": 15725
    },
    {
      "entropy": 5.650988054275513,
      "epoch": 1.3215290905272001,
      "grad_norm": 1.703125,
      "learning_rate": 0.00048292671636653386,
      "loss": 5.4456,
      "mean_token_accuracy": 0.16266124546527863,
      "num_tokens": 29008645.0,
      "step": 15730
    },
    {
      "entropy": 5.707271909713745,
      "epoch": 1.3219491703423651,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004829152717860184,
      "loss": 5.4324,
      "mean_token_accuracy": 0.16636938005685806,
      "num_tokens": 29018655.0,
      "step": 15735
    },
    {
      "entropy": 5.7679918766021725,
      "epoch": 1.32236925015753,
      "grad_norm": 1.703125,
      "learning_rate": 0.00048290382352239087,
      "loss": 5.4385,
      "mean_token_accuracy": 0.1688806027173996,
      "num_tokens": 29027109.0,
      "step": 15740
    },
    {
      "entropy": 5.653837728500366,
      "epoch": 1.3227893299726947,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00048289237157585424,
      "loss": 5.2712,
      "mean_token_accuracy": 0.17749694585800171,
      "num_tokens": 29035535.0,
      "step": 15745
    },
    {
      "entropy": 5.622943782806397,
      "epoch": 1.3232094097878597,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004828809159466112,
      "loss": 5.4429,
      "mean_token_accuracy": 0.1581158846616745,
      "num_tokens": 29044723.0,
      "step": 15750
    },
    {
      "entropy": 5.718198776245117,
      "epoch": 1.3236294896030245,
      "grad_norm": 2.4375,
      "learning_rate": 0.0004828694566348648,
      "loss": 5.5804,
      "mean_token_accuracy": 0.1552947849035263,
      "num_tokens": 29053636.0,
      "step": 15755
    },
    {
      "entropy": 5.790498828887939,
      "epoch": 1.3240495694181895,
      "grad_norm": 1.609375,
      "learning_rate": 0.00048285799364081806,
      "loss": 5.4813,
      "mean_token_accuracy": 0.16202333718538284,
      "num_tokens": 29062940.0,
      "step": 15760
    },
    {
      "entropy": 5.721147918701172,
      "epoch": 1.3244696492333543,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00048284652696467404,
      "loss": 5.4026,
      "mean_token_accuracy": 0.1688874751329422,
      "num_tokens": 29072159.0,
      "step": 15765
    },
    {
      "entropy": 5.75450963973999,
      "epoch": 1.324889729048519,
      "grad_norm": 1.84375,
      "learning_rate": 0.00048283505660663575,
      "loss": 5.4791,
      "mean_token_accuracy": 0.16751828640699387,
      "num_tokens": 29081544.0,
      "step": 15770
    },
    {
      "entropy": 5.638855648040772,
      "epoch": 1.325309808863684,
      "grad_norm": 1.84375,
      "learning_rate": 0.0004828235825669064,
      "loss": 5.4346,
      "mean_token_accuracy": 0.16318106204271315,
      "num_tokens": 29090710.0,
      "step": 15775
    },
    {
      "entropy": 5.688300275802613,
      "epoch": 1.325729888678849,
      "grad_norm": 1.609375,
      "learning_rate": 0.00048281210484568937,
      "loss": 5.4415,
      "mean_token_accuracy": 0.16632406264543534,
      "num_tokens": 29098988.0,
      "step": 15780
    },
    {
      "entropy": 5.665548658370971,
      "epoch": 1.326149968494014,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00048280062344318794,
      "loss": 5.4862,
      "mean_token_accuracy": 0.15649251490831376,
      "num_tokens": 29108926.0,
      "step": 15785
    },
    {
      "entropy": 5.740646505355835,
      "epoch": 1.3265700483091787,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0004827891383596054,
      "loss": 5.4148,
      "mean_token_accuracy": 0.1614031285047531,
      "num_tokens": 29118065.0,
      "step": 15790
    },
    {
      "entropy": 5.7241943359375,
      "epoch": 1.3269901281243437,
      "grad_norm": 1.703125,
      "learning_rate": 0.00048277764959514524,
      "loss": 5.3762,
      "mean_token_accuracy": 0.1652180477976799,
      "num_tokens": 29127030.0,
      "step": 15795
    },
    {
      "entropy": 5.748840999603272,
      "epoch": 1.3274102079395085,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004827661571500111,
      "loss": 5.5058,
      "mean_token_accuracy": 0.16153218150138854,
      "num_tokens": 29137200.0,
      "step": 15800
    },
    {
      "entropy": 5.741848373413086,
      "epoch": 1.3278302877546735,
      "grad_norm": 1.5625,
      "learning_rate": 0.00048275466102440644,
      "loss": 5.4825,
      "mean_token_accuracy": 0.16485897302627564,
      "num_tokens": 29147029.0,
      "step": 15805
    },
    {
      "entropy": 5.631581258773804,
      "epoch": 1.3282503675698383,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00048274316121853494,
      "loss": 5.3711,
      "mean_token_accuracy": 0.1663237363100052,
      "num_tokens": 29155675.0,
      "step": 15810
    },
    {
      "entropy": 5.749010705947876,
      "epoch": 1.328670447385003,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00048273165773260023,
      "loss": 5.4356,
      "mean_token_accuracy": 0.1655052199959755,
      "num_tokens": 29164730.0,
      "step": 15815
    },
    {
      "entropy": 5.701095962524414,
      "epoch": 1.329090527200168,
      "grad_norm": 1.8125,
      "learning_rate": 0.0004827201505668063,
      "loss": 5.4364,
      "mean_token_accuracy": 0.1656198024749756,
      "num_tokens": 29173074.0,
      "step": 15820
    },
    {
      "entropy": 5.7562737464904785,
      "epoch": 1.3295106070153329,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004827086397213568,
      "loss": 5.5478,
      "mean_token_accuracy": 0.16311392933130264,
      "num_tokens": 29182175.0,
      "step": 15825
    },
    {
      "entropy": 5.8277308464050295,
      "epoch": 1.3299306868304979,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004826971251964557,
      "loss": 5.7415,
      "mean_token_accuracy": 0.1557246647775173,
      "num_tokens": 29192910.0,
      "step": 15830
    },
    {
      "entropy": 5.710680675506592,
      "epoch": 1.3303507666456627,
      "grad_norm": 1.5234375,
      "learning_rate": 0.000482685606992307,
      "loss": 5.387,
      "mean_token_accuracy": 0.169048510491848,
      "num_tokens": 29201969.0,
      "step": 15835
    },
    {
      "entropy": 5.7679280757904055,
      "epoch": 1.3307708464608274,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00048267408510911463,
      "loss": 5.5448,
      "mean_token_accuracy": 0.16056760400533676,
      "num_tokens": 29210475.0,
      "step": 15840
    },
    {
      "entropy": 5.648775243759156,
      "epoch": 1.3311909262759924,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004826625595470829,
      "loss": 5.4135,
      "mean_token_accuracy": 0.16637052744626998,
      "num_tokens": 29222586.0,
      "step": 15845
    },
    {
      "entropy": 5.65334529876709,
      "epoch": 1.3316110060911575,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00048265103030641575,
      "loss": 5.4624,
      "mean_token_accuracy": 0.161483795940876,
      "num_tokens": 29231503.0,
      "step": 15850
    },
    {
      "entropy": 5.648448801040649,
      "epoch": 1.3320310859063222,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004826394973873176,
      "loss": 5.4313,
      "mean_token_accuracy": 0.1599622756242752,
      "num_tokens": 29241534.0,
      "step": 15855
    },
    {
      "entropy": 5.723581027984619,
      "epoch": 1.332451165721487,
      "grad_norm": 1.859375,
      "learning_rate": 0.00048262796078999266,
      "loss": 5.4497,
      "mean_token_accuracy": 0.16642218083143234,
      "num_tokens": 29250381.0,
      "step": 15860
    },
    {
      "entropy": 5.72342619895935,
      "epoch": 1.332871245536652,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004826164205146453,
      "loss": 5.5105,
      "mean_token_accuracy": 0.15796453654766082,
      "num_tokens": 29259205.0,
      "step": 15865
    },
    {
      "entropy": 5.566991662979126,
      "epoch": 1.3332913253518168,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00048260487656147995,
      "loss": 5.411,
      "mean_token_accuracy": 0.16878511905670165,
      "num_tokens": 29267723.0,
      "step": 15870
    },
    {
      "entropy": 5.663629627227783,
      "epoch": 1.3337114051669818,
      "grad_norm": 1.53125,
      "learning_rate": 0.00048259332893070106,
      "loss": 5.4105,
      "mean_token_accuracy": 0.16867344379425048,
      "num_tokens": 29277102.0,
      "step": 15875
    },
    {
      "entropy": 5.685384702682495,
      "epoch": 1.3341314849821466,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004825817776225133,
      "loss": 5.3994,
      "mean_token_accuracy": 0.16746718436479568,
      "num_tokens": 29286484.0,
      "step": 15880
    },
    {
      "entropy": 5.673250675201416,
      "epoch": 1.3345515647973114,
      "grad_norm": 1.5625,
      "learning_rate": 0.00048257022263712123,
      "loss": 5.4876,
      "mean_token_accuracy": 0.17098401337862015,
      "num_tokens": 29296528.0,
      "step": 15885
    },
    {
      "entropy": 5.589338874816894,
      "epoch": 1.3349716446124764,
      "grad_norm": 1.734375,
      "learning_rate": 0.00048255866397472954,
      "loss": 5.3384,
      "mean_token_accuracy": 0.17186694368720054,
      "num_tokens": 29305283.0,
      "step": 15890
    },
    {
      "entropy": 5.703013134002686,
      "epoch": 1.3353917244276412,
      "grad_norm": 1.8203125,
      "learning_rate": 0.000482547101635543,
      "loss": 5.3432,
      "mean_token_accuracy": 0.1679681733250618,
      "num_tokens": 29315088.0,
      "step": 15895
    },
    {
      "entropy": 5.703509330749512,
      "epoch": 1.3358118042428062,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00048253553561976645,
      "loss": 5.3596,
      "mean_token_accuracy": 0.16931547373533248,
      "num_tokens": 29323793.0,
      "step": 15900
    },
    {
      "entropy": 5.644972229003907,
      "epoch": 1.336231884057971,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004825239659276047,
      "loss": 5.4415,
      "mean_token_accuracy": 0.1619830012321472,
      "num_tokens": 29334015.0,
      "step": 15905
    },
    {
      "entropy": 5.736817216873169,
      "epoch": 1.3366519638731358,
      "grad_norm": 1.78125,
      "learning_rate": 0.0004825123925592628,
      "loss": 5.5419,
      "mean_token_accuracy": 0.15840226113796235,
      "num_tokens": 29343221.0,
      "step": 15910
    },
    {
      "entropy": 5.711045169830323,
      "epoch": 1.3370720436883008,
      "grad_norm": 1.65625,
      "learning_rate": 0.00048250081551494574,
      "loss": 5.3858,
      "mean_token_accuracy": 0.16694712340831758,
      "num_tokens": 29352261.0,
      "step": 15915
    },
    {
      "entropy": 5.677080345153809,
      "epoch": 1.3374921235034656,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004824892347948586,
      "loss": 5.4929,
      "mean_token_accuracy": 0.16138059496879578,
      "num_tokens": 29362138.0,
      "step": 15920
    },
    {
      "entropy": 5.6527352809906,
      "epoch": 1.3379122033186306,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004824776503992064,
      "loss": 5.3898,
      "mean_token_accuracy": 0.1713466763496399,
      "num_tokens": 29371234.0,
      "step": 15925
    },
    {
      "entropy": 5.635444116592407,
      "epoch": 1.3383322831337954,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004824660623281945,
      "loss": 5.4473,
      "mean_token_accuracy": 0.16970054805278778,
      "num_tokens": 29380371.0,
      "step": 15930
    },
    {
      "entropy": 5.773072195053101,
      "epoch": 1.3387523629489604,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00048245447058202815,
      "loss": 5.5592,
      "mean_token_accuracy": 0.1614100843667984,
      "num_tokens": 29389230.0,
      "step": 15935
    },
    {
      "entropy": 5.7593803882598875,
      "epoch": 1.3391724427641252,
      "grad_norm": 2.203125,
      "learning_rate": 0.0004824428751609126,
      "loss": 5.4466,
      "mean_token_accuracy": 0.16970301866531373,
      "num_tokens": 29398753.0,
      "step": 15940
    },
    {
      "entropy": 5.7071356773376465,
      "epoch": 1.3395925225792902,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00048243127606505343,
      "loss": 5.4092,
      "mean_token_accuracy": 0.16827066540718078,
      "num_tokens": 29407487.0,
      "step": 15945
    },
    {
      "entropy": 5.572418594360352,
      "epoch": 1.340012602394455,
      "grad_norm": 1.4765625,
      "learning_rate": 0.000482419673294656,
      "loss": 5.4018,
      "mean_token_accuracy": 0.16651310175657272,
      "num_tokens": 29416140.0,
      "step": 15950
    },
    {
      "entropy": 5.64957218170166,
      "epoch": 1.3404326822096198,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004824080668499259,
      "loss": 5.4397,
      "mean_token_accuracy": 0.1690505862236023,
      "num_tokens": 29424763.0,
      "step": 15955
    },
    {
      "entropy": 5.800030183792114,
      "epoch": 1.3408527620247848,
      "grad_norm": 1.546875,
      "learning_rate": 0.00048239645673106855,
      "loss": 5.4385,
      "mean_token_accuracy": 0.16088547855615615,
      "num_tokens": 29434589.0,
      "step": 15960
    },
    {
      "entropy": 5.71432843208313,
      "epoch": 1.3412728418399495,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00048238484293828995,
      "loss": 5.4479,
      "mean_token_accuracy": 0.16145109385252,
      "num_tokens": 29443549.0,
      "step": 15965
    },
    {
      "entropy": 5.6876280307769775,
      "epoch": 1.3416929216551146,
      "grad_norm": 2.046875,
      "learning_rate": 0.0004823732254717955,
      "loss": 5.4565,
      "mean_token_accuracy": 0.16495574414730071,
      "num_tokens": 29452457.0,
      "step": 15970
    },
    {
      "entropy": 5.612264728546142,
      "epoch": 1.3421130014702793,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004823616043317912,
      "loss": 5.4241,
      "mean_token_accuracy": 0.16470324099063874,
      "num_tokens": 29461238.0,
      "step": 15975
    },
    {
      "entropy": 5.720156478881836,
      "epoch": 1.3425330812854441,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00048234997951848284,
      "loss": 5.4857,
      "mean_token_accuracy": 0.15919755399227142,
      "num_tokens": 29471170.0,
      "step": 15980
    },
    {
      "entropy": 5.813641786575317,
      "epoch": 1.3429531611006091,
      "grad_norm": 2.0625,
      "learning_rate": 0.0004823383510320764,
      "loss": 5.5245,
      "mean_token_accuracy": 0.155257136374712,
      "num_tokens": 29481017.0,
      "step": 15985
    },
    {
      "entropy": 5.799026155471802,
      "epoch": 1.343373240915774,
      "grad_norm": 1.90625,
      "learning_rate": 0.00048232671887277786,
      "loss": 5.457,
      "mean_token_accuracy": 0.1612869530916214,
      "num_tokens": 29489809.0,
      "step": 15990
    },
    {
      "entropy": 5.6579841613769535,
      "epoch": 1.343793320730939,
      "grad_norm": 1.65625,
      "learning_rate": 0.00048231508304079313,
      "loss": 5.4711,
      "mean_token_accuracy": 0.16473791301250457,
      "num_tokens": 29499499.0,
      "step": 15995
    },
    {
      "entropy": 5.745253086090088,
      "epoch": 1.3442134005461037,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00048230344353632855,
      "loss": 5.4375,
      "mean_token_accuracy": 0.16314539089798927,
      "num_tokens": 29508526.0,
      "step": 16000
    },
    {
      "entropy": 5.741327238082886,
      "epoch": 1.3446334803612685,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004822918003595902,
      "loss": 5.3692,
      "mean_token_accuracy": 0.1664547398686409,
      "num_tokens": 29517516.0,
      "step": 16005
    },
    {
      "entropy": 5.649990653991699,
      "epoch": 1.3450535601764335,
      "grad_norm": 1.5,
      "learning_rate": 0.0004822801535107843,
      "loss": 5.4562,
      "mean_token_accuracy": 0.16211575120687485,
      "num_tokens": 29526949.0,
      "step": 16010
    },
    {
      "entropy": 5.62546067237854,
      "epoch": 1.3454736399915985,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004822685029901173,
      "loss": 5.3694,
      "mean_token_accuracy": 0.16785492449998857,
      "num_tokens": 29536696.0,
      "step": 16015
    },
    {
      "entropy": 5.697886323928833,
      "epoch": 1.3458937198067633,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004822568487977954,
      "loss": 5.4598,
      "mean_token_accuracy": 0.1707649677991867,
      "num_tokens": 29545672.0,
      "step": 16020
    },
    {
      "entropy": 5.72620997428894,
      "epoch": 1.346313799621928,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00048224519093402517,
      "loss": 5.4987,
      "mean_token_accuracy": 0.16094502359628676,
      "num_tokens": 29554888.0,
      "step": 16025
    },
    {
      "entropy": 5.706309843063354,
      "epoch": 1.346733879437093,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00048223352939901317,
      "loss": 5.4213,
      "mean_token_accuracy": 0.1683374136686325,
      "num_tokens": 29564798.0,
      "step": 16030
    },
    {
      "entropy": 5.692904901504517,
      "epoch": 1.347153959252258,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004822218641929658,
      "loss": 5.4523,
      "mean_token_accuracy": 0.16932614743709565,
      "num_tokens": 29574802.0,
      "step": 16035
    },
    {
      "entropy": 5.79500937461853,
      "epoch": 1.347574039067423,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0004822101953160899,
      "loss": 5.4429,
      "mean_token_accuracy": 0.16303310692310333,
      "num_tokens": 29583056.0,
      "step": 16040
    },
    {
      "entropy": 5.704788446426392,
      "epoch": 1.3479941188825877,
      "grad_norm": 1.4375,
      "learning_rate": 0.000482198522768592,
      "loss": 5.4188,
      "mean_token_accuracy": 0.1648677781224251,
      "num_tokens": 29591935.0,
      "step": 16045
    },
    {
      "entropy": 5.581204128265381,
      "epoch": 1.3484141986977525,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00048218684655067907,
      "loss": 5.3587,
      "mean_token_accuracy": 0.16874558329582215,
      "num_tokens": 29600812.0,
      "step": 16050
    },
    {
      "entropy": 5.74789342880249,
      "epoch": 1.3488342785129175,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004821751666625577,
      "loss": 5.4803,
      "mean_token_accuracy": 0.16880127936601638,
      "num_tokens": 29610735.0,
      "step": 16055
    },
    {
      "entropy": 5.74139404296875,
      "epoch": 1.3492543583280823,
      "grad_norm": 1.9375,
      "learning_rate": 0.00048216348310443506,
      "loss": 5.4079,
      "mean_token_accuracy": 0.1595388814806938,
      "num_tokens": 29620295.0,
      "step": 16060
    },
    {
      "entropy": 5.614044618606568,
      "epoch": 1.3496744381432473,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00048215179587651795,
      "loss": 5.278,
      "mean_token_accuracy": 0.17504663914442062,
      "num_tokens": 29628214.0,
      "step": 16065
    },
    {
      "entropy": 5.613619422912597,
      "epoch": 1.350094517958412,
      "grad_norm": 2.390625,
      "learning_rate": 0.0004821401049790134,
      "loss": 5.407,
      "mean_token_accuracy": 0.17384071946144103,
      "num_tokens": 29636598.0,
      "step": 16070
    },
    {
      "entropy": 5.722601461410522,
      "epoch": 1.3505145977735769,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004821284104121286,
      "loss": 5.3986,
      "mean_token_accuracy": 0.16711462736129762,
      "num_tokens": 29646052.0,
      "step": 16075
    },
    {
      "entropy": 5.650021648406982,
      "epoch": 1.3509346775887419,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00048211671217607066,
      "loss": 5.4292,
      "mean_token_accuracy": 0.1578374594449997,
      "num_tokens": 29655310.0,
      "step": 16080
    },
    {
      "entropy": 5.695374917984009,
      "epoch": 1.3513547574039069,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004821050102710468,
      "loss": 5.4328,
      "mean_token_accuracy": 0.16689082086086274,
      "num_tokens": 29664020.0,
      "step": 16085
    },
    {
      "entropy": 5.67445330619812,
      "epoch": 1.3517748372190717,
      "grad_norm": 1.6875,
      "learning_rate": 0.00048209330469726433,
      "loss": 5.4928,
      "mean_token_accuracy": 0.16078488826751708,
      "num_tokens": 29672416.0,
      "step": 16090
    },
    {
      "entropy": 5.699030542373658,
      "epoch": 1.3521949170342364,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00048208159545493057,
      "loss": 5.386,
      "mean_token_accuracy": 0.17253393828868865,
      "num_tokens": 29681148.0,
      "step": 16095
    },
    {
      "entropy": 5.662472581863403,
      "epoch": 1.3526149968494015,
      "grad_norm": 1.5,
      "learning_rate": 0.0004820698825442531,
      "loss": 5.356,
      "mean_token_accuracy": 0.16811198592185975,
      "num_tokens": 29689089.0,
      "step": 16100
    },
    {
      "entropy": 5.661127424240112,
      "epoch": 1.3530350766645662,
      "grad_norm": 2.03125,
      "learning_rate": 0.00048205816596543914,
      "loss": 5.4761,
      "mean_token_accuracy": 0.1623773142695427,
      "num_tokens": 29697704.0,
      "step": 16105
    },
    {
      "entropy": 5.721720790863037,
      "epoch": 1.3534551564797312,
      "grad_norm": 1.75,
      "learning_rate": 0.00048204644571869646,
      "loss": 5.4838,
      "mean_token_accuracy": 0.1618230536580086,
      "num_tokens": 29706966.0,
      "step": 16110
    },
    {
      "entropy": 5.689847612380982,
      "epoch": 1.353875236294896,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004820347218042326,
      "loss": 5.3846,
      "mean_token_accuracy": 0.1613849386572838,
      "num_tokens": 29715817.0,
      "step": 16115
    },
    {
      "entropy": 5.680365753173828,
      "epoch": 1.3542953161100608,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004820229942222553,
      "loss": 5.4815,
      "mean_token_accuracy": 0.16351019442081452,
      "num_tokens": 29725500.0,
      "step": 16120
    },
    {
      "entropy": 5.6516200542449955,
      "epoch": 1.3547153959252258,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00048201126297297214,
      "loss": 5.4144,
      "mean_token_accuracy": 0.1723678767681122,
      "num_tokens": 29734774.0,
      "step": 16125
    },
    {
      "entropy": 5.713293790817261,
      "epoch": 1.3551354757403906,
      "grad_norm": 1.75,
      "learning_rate": 0.0004819995280565911,
      "loss": 5.3916,
      "mean_token_accuracy": 0.16618053019046783,
      "num_tokens": 29744667.0,
      "step": 16130
    },
    {
      "entropy": 5.790366268157959,
      "epoch": 1.3555555555555556,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00048198778947332,
      "loss": 5.4858,
      "mean_token_accuracy": 0.16581830829381944,
      "num_tokens": 29753644.0,
      "step": 16135
    },
    {
      "entropy": 5.781135702133179,
      "epoch": 1.3559756353707204,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004819760472233668,
      "loss": 5.4401,
      "mean_token_accuracy": 0.17537587881088257,
      "num_tokens": 29762977.0,
      "step": 16140
    },
    {
      "entropy": 5.652209234237671,
      "epoch": 1.3563957151858852,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00048196430130693956,
      "loss": 5.417,
      "mean_token_accuracy": 0.1675757497549057,
      "num_tokens": 29772221.0,
      "step": 16145
    },
    {
      "entropy": 5.621037292480469,
      "epoch": 1.3568157950010502,
      "grad_norm": 1.765625,
      "learning_rate": 0.00048195255172424627,
      "loss": 5.3946,
      "mean_token_accuracy": 0.17199670076370238,
      "num_tokens": 29781240.0,
      "step": 16150
    },
    {
      "entropy": 5.7102892875671385,
      "epoch": 1.3572358748162152,
      "grad_norm": 1.4375,
      "learning_rate": 0.00048194079847549507,
      "loss": 5.3836,
      "mean_token_accuracy": 0.1677268549799919,
      "num_tokens": 29790330.0,
      "step": 16155
    },
    {
      "entropy": 5.742030811309815,
      "epoch": 1.35765595463138,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004819290415608942,
      "loss": 5.5299,
      "mean_token_accuracy": 0.15959240794181823,
      "num_tokens": 29800945.0,
      "step": 16160
    },
    {
      "entropy": 5.749591875076294,
      "epoch": 1.3580760344465448,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004819172809806519,
      "loss": 5.5563,
      "mean_token_accuracy": 0.16161940693855287,
      "num_tokens": 29810391.0,
      "step": 16165
    },
    {
      "entropy": 5.724706315994263,
      "epoch": 1.3584961142617098,
      "grad_norm": 1.671875,
      "learning_rate": 0.00048190551673497645,
      "loss": 5.4101,
      "mean_token_accuracy": 0.16489760130643843,
      "num_tokens": 29819511.0,
      "step": 16170
    },
    {
      "entropy": 5.671798896789551,
      "epoch": 1.3589161940768746,
      "grad_norm": 3.046875,
      "learning_rate": 0.0004818937488240764,
      "loss": 5.4587,
      "mean_token_accuracy": 0.16651098430156708,
      "num_tokens": 29828313.0,
      "step": 16175
    },
    {
      "entropy": 5.613863277435303,
      "epoch": 1.3593362738920396,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00048188197724816014,
      "loss": 5.3552,
      "mean_token_accuracy": 0.17119555920362473,
      "num_tokens": 29837940.0,
      "step": 16180
    },
    {
      "entropy": 5.6810376167297365,
      "epoch": 1.3597563537072044,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00048187020200743613,
      "loss": 5.3383,
      "mean_token_accuracy": 0.17339792847633362,
      "num_tokens": 29846799.0,
      "step": 16185
    },
    {
      "entropy": 5.665157318115234,
      "epoch": 1.3601764335223692,
      "grad_norm": 1.8046875,
      "learning_rate": 0.000481858423102113,
      "loss": 5.4742,
      "mean_token_accuracy": 0.16402493715286254,
      "num_tokens": 29856263.0,
      "step": 16190
    },
    {
      "entropy": 5.644852066040039,
      "epoch": 1.3605965133375342,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004818466405323994,
      "loss": 5.4008,
      "mean_token_accuracy": 0.16702589765191078,
      "num_tokens": 29864335.0,
      "step": 16195
    },
    {
      "entropy": 5.780227518081665,
      "epoch": 1.361016593152699,
      "grad_norm": 2.765625,
      "learning_rate": 0.00048183485429850417,
      "loss": 5.4571,
      "mean_token_accuracy": 0.16093909740447998,
      "num_tokens": 29873466.0,
      "step": 16200
    },
    {
      "entropy": 5.650618982315064,
      "epoch": 1.361436672967864,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004818230644006359,
      "loss": 5.4313,
      "mean_token_accuracy": 0.1745832309126854,
      "num_tokens": 29883051.0,
      "step": 16205
    },
    {
      "entropy": 5.6727265357971195,
      "epoch": 1.3618567527830288,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0004818112708390036,
      "loss": 5.3724,
      "mean_token_accuracy": 0.16966692954301835,
      "num_tokens": 29891823.0,
      "step": 16210
    },
    {
      "entropy": 5.6647271633148195,
      "epoch": 1.3622768325981935,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0004817994736138162,
      "loss": 5.3974,
      "mean_token_accuracy": 0.16659445315599442,
      "num_tokens": 29900735.0,
      "step": 16215
    },
    {
      "entropy": 5.723177146911621,
      "epoch": 1.3626969124133586,
      "grad_norm": 2.046875,
      "learning_rate": 0.0004817876727252824,
      "loss": 5.4645,
      "mean_token_accuracy": 0.16937078535556793,
      "num_tokens": 29910345.0,
      "step": 16220
    },
    {
      "entropy": 5.680374002456665,
      "epoch": 1.3631169922285233,
      "grad_norm": 1.84375,
      "learning_rate": 0.00048177586817361166,
      "loss": 5.4253,
      "mean_token_accuracy": 0.16509459167718887,
      "num_tokens": 29919650.0,
      "step": 16225
    },
    {
      "entropy": 5.744551753997802,
      "epoch": 1.3635370720436883,
      "grad_norm": 1.5,
      "learning_rate": 0.0004817640599590128,
      "loss": 5.4634,
      "mean_token_accuracy": 0.16363565474748612,
      "num_tokens": 29928851.0,
      "step": 16230
    },
    {
      "entropy": 5.795070457458496,
      "epoch": 1.3639571518588531,
      "grad_norm": 2.5625,
      "learning_rate": 0.00048175224808169506,
      "loss": 5.5652,
      "mean_token_accuracy": 0.1574440762400627,
      "num_tokens": 29939146.0,
      "step": 16235
    },
    {
      "entropy": 5.739347171783447,
      "epoch": 1.3643772316740181,
      "grad_norm": 1.578125,
      "learning_rate": 0.00048174043254186775,
      "loss": 5.3954,
      "mean_token_accuracy": 0.16345300823450087,
      "num_tokens": 29947556.0,
      "step": 16240
    },
    {
      "entropy": 5.723556280136108,
      "epoch": 1.364797311489183,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004817286133397401,
      "loss": 5.4954,
      "mean_token_accuracy": 0.1634947583079338,
      "num_tokens": 29957319.0,
      "step": 16245
    },
    {
      "entropy": 5.711846876144409,
      "epoch": 1.365217391304348,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004817167904755216,
      "loss": 5.4681,
      "mean_token_accuracy": 0.16776756644248964,
      "num_tokens": 29966697.0,
      "step": 16250
    },
    {
      "entropy": 5.69892258644104,
      "epoch": 1.3656374711195127,
      "grad_norm": 1.53125,
      "learning_rate": 0.00048170496394942154,
      "loss": 5.4705,
      "mean_token_accuracy": 0.16467532590031625,
      "num_tokens": 29975103.0,
      "step": 16255
    },
    {
      "entropy": 5.626475429534912,
      "epoch": 1.3660575509346775,
      "grad_norm": 2.0,
      "learning_rate": 0.00048169313376164943,
      "loss": 5.3783,
      "mean_token_accuracy": 0.1634665012359619,
      "num_tokens": 29984865.0,
      "step": 16260
    },
    {
      "entropy": 5.687254858016968,
      "epoch": 1.3664776307498425,
      "grad_norm": 2.6875,
      "learning_rate": 0.00048168129991241497,
      "loss": 5.3935,
      "mean_token_accuracy": 0.16465528607368468,
      "num_tokens": 29994376.0,
      "step": 16265
    },
    {
      "entropy": 5.81418023109436,
      "epoch": 1.3668977105650073,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004816694624019277,
      "loss": 5.6269,
      "mean_token_accuracy": 0.1598551630973816,
      "num_tokens": 30004846.0,
      "step": 16270
    },
    {
      "entropy": 5.721722793579102,
      "epoch": 1.3673177903801723,
      "grad_norm": 1.609375,
      "learning_rate": 0.00048165762123039723,
      "loss": 5.4061,
      "mean_token_accuracy": 0.16762069165706633,
      "num_tokens": 30014083.0,
      "step": 16275
    },
    {
      "entropy": 5.668401479721069,
      "epoch": 1.367737870195337,
      "grad_norm": 1.484375,
      "learning_rate": 0.00048164577639803354,
      "loss": 5.4075,
      "mean_token_accuracy": 0.16811236888170242,
      "num_tokens": 30023606.0,
      "step": 16280
    },
    {
      "entropy": 5.625358724594117,
      "epoch": 1.3681579500105019,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004816339279050463,
      "loss": 5.3889,
      "mean_token_accuracy": 0.1599855825304985,
      "num_tokens": 30033657.0,
      "step": 16285
    },
    {
      "entropy": 5.6841939926147464,
      "epoch": 1.368578029825667,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00048162207575164537,
      "loss": 5.4454,
      "mean_token_accuracy": 0.16324448585510254,
      "num_tokens": 30043230.0,
      "step": 16290
    },
    {
      "entropy": 5.704262971878052,
      "epoch": 1.3689981096408317,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00048161021993804075,
      "loss": 5.4687,
      "mean_token_accuracy": 0.16441552191972733,
      "num_tokens": 30054457.0,
      "step": 16295
    },
    {
      "entropy": 5.6318847179412845,
      "epoch": 1.3694181894559967,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00048159836046444255,
      "loss": 5.3108,
      "mean_token_accuracy": 0.17175357937812805,
      "num_tokens": 30062912.0,
      "step": 16300
    },
    {
      "entropy": 5.697698926925659,
      "epoch": 1.3698382692711615,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004815864973310607,
      "loss": 5.4661,
      "mean_token_accuracy": 0.16420117467641832,
      "num_tokens": 30071340.0,
      "step": 16305
    },
    {
      "entropy": 5.774897241592408,
      "epoch": 1.3702583490863263,
      "grad_norm": 1.8125,
      "learning_rate": 0.00048157463053810553,
      "loss": 5.5472,
      "mean_token_accuracy": 0.15643561482429505,
      "num_tokens": 30080334.0,
      "step": 16310
    },
    {
      "entropy": 5.682491111755371,
      "epoch": 1.3706784289014913,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00048156276008578706,
      "loss": 5.3925,
      "mean_token_accuracy": 0.16573573052883148,
      "num_tokens": 30089391.0,
      "step": 16315
    },
    {
      "entropy": 5.652284622192383,
      "epoch": 1.3710985087166563,
      "grad_norm": 2.21875,
      "learning_rate": 0.0004815508859743157,
      "loss": 5.3808,
      "mean_token_accuracy": 0.1688121259212494,
      "num_tokens": 30099027.0,
      "step": 16320
    },
    {
      "entropy": 5.625274896621704,
      "epoch": 1.371518588531821,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004815390082039017,
      "loss": 5.3788,
      "mean_token_accuracy": 0.16874595433473588,
      "num_tokens": 30108088.0,
      "step": 16325
    },
    {
      "entropy": 5.650168752670288,
      "epoch": 1.3719386683469859,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00048152712677475556,
      "loss": 5.3689,
      "mean_token_accuracy": 0.16458612233400344,
      "num_tokens": 30117768.0,
      "step": 16330
    },
    {
      "entropy": 5.756920528411865,
      "epoch": 1.3723587481621509,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00048151524168708773,
      "loss": 5.4856,
      "mean_token_accuracy": 0.1635723114013672,
      "num_tokens": 30126364.0,
      "step": 16335
    },
    {
      "entropy": 5.663647317886353,
      "epoch": 1.3727788279773157,
      "grad_norm": 3.171875,
      "learning_rate": 0.00048150335294110867,
      "loss": 5.4301,
      "mean_token_accuracy": 0.1666969671845436,
      "num_tokens": 30135365.0,
      "step": 16340
    },
    {
      "entropy": 5.731143760681152,
      "epoch": 1.3731989077924807,
      "grad_norm": 1.859375,
      "learning_rate": 0.00048149146053702915,
      "loss": 5.5047,
      "mean_token_accuracy": 0.17594754695892334,
      "num_tokens": 30145542.0,
      "step": 16345
    },
    {
      "entropy": 5.734094142913818,
      "epoch": 1.3736189876076454,
      "grad_norm": 2.21875,
      "learning_rate": 0.0004814795644750597,
      "loss": 5.5201,
      "mean_token_accuracy": 0.15887483209371567,
      "num_tokens": 30154100.0,
      "step": 16350
    },
    {
      "entropy": 5.701383399963379,
      "epoch": 1.3740390674228102,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00048146766475541105,
      "loss": 5.3993,
      "mean_token_accuracy": 0.16724410504102707,
      "num_tokens": 30162647.0,
      "step": 16355
    },
    {
      "entropy": 5.855766916275025,
      "epoch": 1.3744591472379752,
      "grad_norm": 2.109375,
      "learning_rate": 0.00048145576137829406,
      "loss": 5.5619,
      "mean_token_accuracy": 0.1569045066833496,
      "num_tokens": 30172518.0,
      "step": 16360
    },
    {
      "entropy": 5.693779468536377,
      "epoch": 1.37487922705314,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004814438543439195,
      "loss": 5.4842,
      "mean_token_accuracy": 0.166504430770874,
      "num_tokens": 30183124.0,
      "step": 16365
    },
    {
      "entropy": 5.750344085693359,
      "epoch": 1.375299306868305,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004814319436524984,
      "loss": 5.4196,
      "mean_token_accuracy": 0.16698621958494186,
      "num_tokens": 30191861.0,
      "step": 16370
    },
    {
      "entropy": 5.5947545051574705,
      "epoch": 1.3757193866834698,
      "grad_norm": 1.75,
      "learning_rate": 0.00048142002930424174,
      "loss": 5.3228,
      "mean_token_accuracy": 0.16853681355714797,
      "num_tokens": 30200308.0,
      "step": 16375
    },
    {
      "entropy": 5.743504285812378,
      "epoch": 1.3761394664986346,
      "grad_norm": 1.875,
      "learning_rate": 0.0004814081112993605,
      "loss": 5.442,
      "mean_token_accuracy": 0.17036024779081343,
      "num_tokens": 30209380.0,
      "step": 16380
    },
    {
      "entropy": 5.772786664962768,
      "epoch": 1.3765595463137996,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004813961896380659,
      "loss": 5.5344,
      "mean_token_accuracy": 0.16031552404165267,
      "num_tokens": 30218549.0,
      "step": 16385
    },
    {
      "entropy": 5.6893415451049805,
      "epoch": 1.3769796261289646,
      "grad_norm": 2.1875,
      "learning_rate": 0.0004813842643205691,
      "loss": 5.4677,
      "mean_token_accuracy": 0.1622385114431381,
      "num_tokens": 30228119.0,
      "step": 16390
    },
    {
      "entropy": 5.672909450531006,
      "epoch": 1.3773997059441294,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004813723353470813,
      "loss": 5.4366,
      "mean_token_accuracy": 0.15988910496234893,
      "num_tokens": 30236765.0,
      "step": 16395
    },
    {
      "entropy": 5.758907604217529,
      "epoch": 1.3778197857592942,
      "grad_norm": 1.953125,
      "learning_rate": 0.0004813604027178139,
      "loss": 5.3763,
      "mean_token_accuracy": 0.16447694152593612,
      "num_tokens": 30246089.0,
      "step": 16400
    },
    {
      "entropy": 5.692288017272949,
      "epoch": 1.3782398655744592,
      "grad_norm": 1.671875,
      "learning_rate": 0.00048134846643297817,
      "loss": 5.4961,
      "mean_token_accuracy": 0.16211422756314278,
      "num_tokens": 30255806.0,
      "step": 16405
    },
    {
      "entropy": 5.754509162902832,
      "epoch": 1.378659945389624,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004813365264927856,
      "loss": 5.5533,
      "mean_token_accuracy": 0.1538752794265747,
      "num_tokens": 30267112.0,
      "step": 16410
    },
    {
      "entropy": 5.724986410140991,
      "epoch": 1.379080025204789,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004813245828974477,
      "loss": 5.4113,
      "mean_token_accuracy": 0.1641213044524193,
      "num_tokens": 30276168.0,
      "step": 16415
    },
    {
      "entropy": 5.690103244781494,
      "epoch": 1.3795001050199538,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004813126356471761,
      "loss": 5.4506,
      "mean_token_accuracy": 0.16688449084758758,
      "num_tokens": 30285723.0,
      "step": 16420
    },
    {
      "entropy": 5.785612440109253,
      "epoch": 1.3799201848351186,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004813006847421824,
      "loss": 5.4945,
      "mean_token_accuracy": 0.16515985280275344,
      "num_tokens": 30294790.0,
      "step": 16425
    },
    {
      "entropy": 5.722445869445801,
      "epoch": 1.3803402646502836,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004812887301826783,
      "loss": 5.4235,
      "mean_token_accuracy": 0.16739188879728317,
      "num_tokens": 30303439.0,
      "step": 16430
    },
    {
      "entropy": 5.640029811859131,
      "epoch": 1.3807603444654484,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0004812767719688755,
      "loss": 5.3987,
      "mean_token_accuracy": 0.162314510345459,
      "num_tokens": 30312493.0,
      "step": 16435
    },
    {
      "entropy": 5.695783567428589,
      "epoch": 1.3811804242806134,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004812648101009859,
      "loss": 5.4447,
      "mean_token_accuracy": 0.1699496790766716,
      "num_tokens": 30321637.0,
      "step": 16440
    },
    {
      "entropy": 5.824322462081909,
      "epoch": 1.3816005040957782,
      "grad_norm": 2.171875,
      "learning_rate": 0.0004812528445792215,
      "loss": 5.5741,
      "mean_token_accuracy": 0.1524802938103676,
      "num_tokens": 30330730.0,
      "step": 16445
    },
    {
      "entropy": 5.700669240951538,
      "epoch": 1.382020583910943,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00048124087540379407,
      "loss": 5.4013,
      "mean_token_accuracy": 0.16979680806398392,
      "num_tokens": 30339568.0,
      "step": 16450
    },
    {
      "entropy": 5.680627346038818,
      "epoch": 1.382440663726108,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00048122890257491573,
      "loss": 5.444,
      "mean_token_accuracy": 0.1615915670990944,
      "num_tokens": 30349225.0,
      "step": 16455
    },
    {
      "entropy": 5.717861557006836,
      "epoch": 1.382860743541273,
      "grad_norm": 1.5625,
      "learning_rate": 0.00048121692609279866,
      "loss": 5.4418,
      "mean_token_accuracy": 0.1737132966518402,
      "num_tokens": 30358804.0,
      "step": 16460
    },
    {
      "entropy": 5.745238399505615,
      "epoch": 1.3832808233564378,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004812049459576549,
      "loss": 5.5181,
      "mean_token_accuracy": 0.167852421104908,
      "num_tokens": 30368490.0,
      "step": 16465
    },
    {
      "entropy": 5.783865261077881,
      "epoch": 1.3837009031716025,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004811929621696966,
      "loss": 5.4073,
      "mean_token_accuracy": 0.16754318177700042,
      "num_tokens": 30377117.0,
      "step": 16470
    },
    {
      "entropy": 5.615077972412109,
      "epoch": 1.3841209829867676,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00048118097472913627,
      "loss": 5.295,
      "mean_token_accuracy": 0.17376861870288848,
      "num_tokens": 30385151.0,
      "step": 16475
    },
    {
      "entropy": 5.568413877487183,
      "epoch": 1.3845410628019323,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004811689836361861,
      "loss": 5.348,
      "mean_token_accuracy": 0.16653158515691757,
      "num_tokens": 30394837.0,
      "step": 16480
    },
    {
      "entropy": 5.679996347427368,
      "epoch": 1.3849611426170974,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004811569888910585,
      "loss": 5.422,
      "mean_token_accuracy": 0.16941581070423126,
      "num_tokens": 30403507.0,
      "step": 16485
    },
    {
      "entropy": 5.644715404510498,
      "epoch": 1.3853812224322621,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004811449904939661,
      "loss": 5.4117,
      "mean_token_accuracy": 0.16634142994880677,
      "num_tokens": 30412941.0,
      "step": 16490
    },
    {
      "entropy": 5.688458490371704,
      "epoch": 1.385801302247427,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00048113298844512127,
      "loss": 5.3812,
      "mean_token_accuracy": 0.17350736260414124,
      "num_tokens": 30421823.0,
      "step": 16495
    },
    {
      "entropy": 5.663712358474731,
      "epoch": 1.386221382062592,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004811209827447367,
      "loss": 5.4873,
      "mean_token_accuracy": 0.1585498943924904,
      "num_tokens": 30431901.0,
      "step": 16500
    },
    {
      "entropy": 5.632642030715942,
      "epoch": 1.3866414618777567,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00048110897339302504,
      "loss": 5.4315,
      "mean_token_accuracy": 0.16275101751089097,
      "num_tokens": 30442037.0,
      "step": 16505
    },
    {
      "entropy": 5.718168163299561,
      "epoch": 1.3870615416929217,
      "grad_norm": 1.59375,
      "learning_rate": 0.00048109696039019915,
      "loss": 5.3902,
      "mean_token_accuracy": 0.1704296126961708,
      "num_tokens": 30451189.0,
      "step": 16510
    },
    {
      "entropy": 5.751668882369995,
      "epoch": 1.3874816215080865,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004810849437364716,
      "loss": 5.4663,
      "mean_token_accuracy": 0.16614769995212555,
      "num_tokens": 30460214.0,
      "step": 16515
    },
    {
      "entropy": 5.718422794342041,
      "epoch": 1.3879017013232513,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00048107292343205546,
      "loss": 5.4882,
      "mean_token_accuracy": 0.1601525142788887,
      "num_tokens": 30469936.0,
      "step": 16520
    },
    {
      "entropy": 5.689886426925659,
      "epoch": 1.3883217811384163,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004810608994771636,
      "loss": 5.4283,
      "mean_token_accuracy": 0.16565386056900025,
      "num_tokens": 30479282.0,
      "step": 16525
    },
    {
      "entropy": 5.748596954345703,
      "epoch": 1.388741860953581,
      "grad_norm": 1.5234375,
      "learning_rate": 0.000481048871872009,
      "loss": 5.4586,
      "mean_token_accuracy": 0.16205482929944992,
      "num_tokens": 30487839.0,
      "step": 16530
    },
    {
      "entropy": 5.734499311447143,
      "epoch": 1.389161940768746,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00048103684061680463,
      "loss": 5.5037,
      "mean_token_accuracy": 0.16305503845214844,
      "num_tokens": 30497327.0,
      "step": 16535
    },
    {
      "entropy": 5.670412492752075,
      "epoch": 1.389582020583911,
      "grad_norm": 1.453125,
      "learning_rate": 0.00048102480571176384,
      "loss": 5.4037,
      "mean_token_accuracy": 0.1694550558924675,
      "num_tokens": 30506996.0,
      "step": 16540
    },
    {
      "entropy": 5.673905563354492,
      "epoch": 1.390002100399076,
      "grad_norm": 1.78125,
      "learning_rate": 0.0004810127671570997,
      "loss": 5.3351,
      "mean_token_accuracy": 0.17729466110467912,
      "num_tokens": 30515627.0,
      "step": 16545
    },
    {
      "entropy": 5.730953550338745,
      "epoch": 1.3904221802142407,
      "grad_norm": 1.546875,
      "learning_rate": 0.00048100072495302544,
      "loss": 5.4797,
      "mean_token_accuracy": 0.16208681911230088,
      "num_tokens": 30525858.0,
      "step": 16550
    },
    {
      "entropy": 5.621087074279785,
      "epoch": 1.3908422600294057,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0004809886790997544,
      "loss": 5.3797,
      "mean_token_accuracy": 0.1725637599825859,
      "num_tokens": 30536331.0,
      "step": 16555
    },
    {
      "entropy": 5.680699825286865,
      "epoch": 1.3912623398445705,
      "grad_norm": 1.765625,
      "learning_rate": 0.0004809766295975,
      "loss": 5.4237,
      "mean_token_accuracy": 0.16701553165912628,
      "num_tokens": 30545329.0,
      "step": 16560
    },
    {
      "entropy": 5.67092752456665,
      "epoch": 1.3916824196597353,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004809645764464757,
      "loss": 5.3724,
      "mean_token_accuracy": 0.17025694251060486,
      "num_tokens": 30554357.0,
      "step": 16565
    },
    {
      "entropy": 5.728373718261719,
      "epoch": 1.3921024994749003,
      "grad_norm": 1.5625,
      "learning_rate": 0.00048095251964689494,
      "loss": 5.5604,
      "mean_token_accuracy": 0.16157087236642836,
      "num_tokens": 30563548.0,
      "step": 16570
    },
    {
      "entropy": 5.7081492900848385,
      "epoch": 1.392522579290065,
      "grad_norm": 1.484375,
      "learning_rate": 0.00048094045919897134,
      "loss": 5.4307,
      "mean_token_accuracy": 0.16958432644605637,
      "num_tokens": 30572844.0,
      "step": 16575
    },
    {
      "entropy": 5.658297061920166,
      "epoch": 1.39294265910523,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004809283951029185,
      "loss": 5.3522,
      "mean_token_accuracy": 0.17243621349334717,
      "num_tokens": 30580930.0,
      "step": 16580
    },
    {
      "entropy": 5.699292230606079,
      "epoch": 1.3933627389203949,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004809163273589503,
      "loss": 5.3531,
      "mean_token_accuracy": 0.1716527074575424,
      "num_tokens": 30589917.0,
      "step": 16585
    },
    {
      "entropy": 5.645009279251099,
      "epoch": 1.3937828187355596,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00048090425596728035,
      "loss": 5.4546,
      "mean_token_accuracy": 0.16196119636297227,
      "num_tokens": 30599282.0,
      "step": 16590
    },
    {
      "entropy": 5.66185154914856,
      "epoch": 1.3942028985507247,
      "grad_norm": 1.625,
      "learning_rate": 0.00048089218092812254,
      "loss": 5.4357,
      "mean_token_accuracy": 0.16347795724868774,
      "num_tokens": 30608244.0,
      "step": 16595
    },
    {
      "entropy": 5.751768589019775,
      "epoch": 1.3946229783658894,
      "grad_norm": 1.84375,
      "learning_rate": 0.00048088010224169064,
      "loss": 5.5588,
      "mean_token_accuracy": 0.16680994927883147,
      "num_tokens": 30617340.0,
      "step": 16600
    },
    {
      "entropy": 5.784567546844483,
      "epoch": 1.3950430581810545,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00048086801990819886,
      "loss": 5.4828,
      "mean_token_accuracy": 0.16346753984689713,
      "num_tokens": 30626244.0,
      "step": 16605
    },
    {
      "entropy": 5.667201566696167,
      "epoch": 1.3954631379962192,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00048085593392786113,
      "loss": 5.4677,
      "mean_token_accuracy": 0.1689893737435341,
      "num_tokens": 30635279.0,
      "step": 16610
    },
    {
      "entropy": 5.747064113616943,
      "epoch": 1.395883217811384,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004808438443008915,
      "loss": 5.5995,
      "mean_token_accuracy": 0.15962631851434708,
      "num_tokens": 30645790.0,
      "step": 16615
    },
    {
      "entropy": 5.690942096710205,
      "epoch": 1.396303297626549,
      "grad_norm": 4.6875,
      "learning_rate": 0.0004808317510275041,
      "loss": 5.45,
      "mean_token_accuracy": 0.16256778538227082,
      "num_tokens": 30654497.0,
      "step": 16620
    },
    {
      "entropy": 5.765830707550049,
      "epoch": 1.396723377441714,
      "grad_norm": 1.625,
      "learning_rate": 0.0004808196541079133,
      "loss": 5.5093,
      "mean_token_accuracy": 0.16061384826898575,
      "num_tokens": 30663760.0,
      "step": 16625
    },
    {
      "entropy": 5.737986993789673,
      "epoch": 1.3971434572568788,
      "grad_norm": 1.515625,
      "learning_rate": 0.00048080755354233326,
      "loss": 5.5036,
      "mean_token_accuracy": 0.17019174993038177,
      "num_tokens": 30674263.0,
      "step": 16630
    },
    {
      "entropy": 5.708775997161865,
      "epoch": 1.3975635370720436,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004807954493309784,
      "loss": 5.3802,
      "mean_token_accuracy": 0.16836380660533906,
      "num_tokens": 30683501.0,
      "step": 16635
    },
    {
      "entropy": 5.653238725662232,
      "epoch": 1.3979836168872086,
      "grad_norm": 1.734375,
      "learning_rate": 0.00048078334147406314,
      "loss": 5.3704,
      "mean_token_accuracy": 0.17907529175281525,
      "num_tokens": 30691917.0,
      "step": 16640
    },
    {
      "entropy": 5.636937618255615,
      "epoch": 1.3984036967023734,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00048077122997180197,
      "loss": 5.4514,
      "mean_token_accuracy": 0.1658071830868721,
      "num_tokens": 30701753.0,
      "step": 16645
    },
    {
      "entropy": 5.557118940353393,
      "epoch": 1.3988237765175384,
      "grad_norm": 3.28125,
      "learning_rate": 0.0004807591148244093,
      "loss": 5.4191,
      "mean_token_accuracy": 0.16260174959897994,
      "num_tokens": 30710878.0,
      "step": 16650
    },
    {
      "entropy": 5.618271827697754,
      "epoch": 1.3992438563327032,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004807469960321,
      "loss": 5.3137,
      "mean_token_accuracy": 0.17308908998966216,
      "num_tokens": 30719372.0,
      "step": 16655
    },
    {
      "entropy": 5.683672761917114,
      "epoch": 1.399663936147868,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00048073487359508854,
      "loss": 5.4876,
      "mean_token_accuracy": 0.15821529626846315,
      "num_tokens": 30728529.0,
      "step": 16660
    },
    {
      "entropy": 5.769331645965576,
      "epoch": 1.400084015963033,
      "grad_norm": 2.234375,
      "learning_rate": 0.00048072274751358976,
      "loss": 5.4266,
      "mean_token_accuracy": 0.16961006075143814,
      "num_tokens": 30737704.0,
      "step": 16665
    },
    {
      "entropy": 5.672802448272705,
      "epoch": 1.4005040957781978,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00048071061778781843,
      "loss": 5.4031,
      "mean_token_accuracy": 0.16336706131696702,
      "num_tokens": 30747836.0,
      "step": 16670
    },
    {
      "entropy": 5.595252180099488,
      "epoch": 1.4009241755933628,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004806984844179894,
      "loss": 5.4637,
      "mean_token_accuracy": 0.16031693965196608,
      "num_tokens": 30757881.0,
      "step": 16675
    },
    {
      "entropy": 5.706535530090332,
      "epoch": 1.4013442554085276,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00048068634740431774,
      "loss": 5.4726,
      "mean_token_accuracy": 0.1561596304178238,
      "num_tokens": 30767592.0,
      "step": 16680
    },
    {
      "entropy": 5.703032445907593,
      "epoch": 1.4017643352236924,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0004806742067470182,
      "loss": 5.435,
      "mean_token_accuracy": 0.16835850328207017,
      "num_tokens": 30776633.0,
      "step": 16685
    },
    {
      "entropy": 5.748832893371582,
      "epoch": 1.4021844150388574,
      "grad_norm": 1.46875,
      "learning_rate": 0.00048066206244630613,
      "loss": 5.3957,
      "mean_token_accuracy": 0.1625844269990921,
      "num_tokens": 30785195.0,
      "step": 16690
    },
    {
      "entropy": 5.596337413787841,
      "epoch": 1.4026044948540224,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00048064991450239643,
      "loss": 5.3959,
      "mean_token_accuracy": 0.16495241075754166,
      "num_tokens": 30794397.0,
      "step": 16695
    },
    {
      "entropy": 5.76853609085083,
      "epoch": 1.4030245746691872,
      "grad_norm": 1.75,
      "learning_rate": 0.00048063776291550444,
      "loss": 5.5523,
      "mean_token_accuracy": 0.1575335018336773,
      "num_tokens": 30803312.0,
      "step": 16700
    },
    {
      "entropy": 5.758233070373535,
      "epoch": 1.403444654484352,
      "grad_norm": 1.75,
      "learning_rate": 0.00048062560768584537,
      "loss": 5.4565,
      "mean_token_accuracy": 0.17063064128160477,
      "num_tokens": 30812519.0,
      "step": 16705
    },
    {
      "entropy": 5.646391153335571,
      "epoch": 1.403864734299517,
      "grad_norm": 1.515625,
      "learning_rate": 0.00048061344881363444,
      "loss": 5.4061,
      "mean_token_accuracy": 0.17314539104700089,
      "num_tokens": 30821558.0,
      "step": 16710
    },
    {
      "entropy": 5.68760871887207,
      "epoch": 1.4042848141146818,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004806012862990873,
      "loss": 5.4262,
      "mean_token_accuracy": 0.16372249722480775,
      "num_tokens": 30831521.0,
      "step": 16715
    },
    {
      "entropy": 5.68061900138855,
      "epoch": 1.4047048939298468,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00048058912014241914,
      "loss": 5.4044,
      "mean_token_accuracy": 0.16505313515663148,
      "num_tokens": 30841191.0,
      "step": 16720
    },
    {
      "entropy": 5.709570789337159,
      "epoch": 1.4051249737450116,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004805769503438456,
      "loss": 5.5102,
      "mean_token_accuracy": 0.1652674689888954,
      "num_tokens": 30850556.0,
      "step": 16725
    },
    {
      "entropy": 5.701706600189209,
      "epoch": 1.4055450535601763,
      "grad_norm": 1.796875,
      "learning_rate": 0.00048056477690358227,
      "loss": 5.4131,
      "mean_token_accuracy": 0.1686984494328499,
      "num_tokens": 30859410.0,
      "step": 16730
    },
    {
      "entropy": 5.7712499618530275,
      "epoch": 1.4059651333753413,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004805525998218447,
      "loss": 5.4582,
      "mean_token_accuracy": 0.16039325296878815,
      "num_tokens": 30868048.0,
      "step": 16735
    },
    {
      "entropy": 5.7124098777771,
      "epoch": 1.4063852131905061,
      "grad_norm": 1.515625,
      "learning_rate": 0.00048054041909884873,
      "loss": 5.4697,
      "mean_token_accuracy": 0.16726680248975753,
      "num_tokens": 30876785.0,
      "step": 16740
    },
    {
      "entropy": 5.764161920547485,
      "epoch": 1.4068052930056711,
      "grad_norm": 1.4375,
      "learning_rate": 0.00048052823473481007,
      "loss": 5.5345,
      "mean_token_accuracy": 0.16368919163942336,
      "num_tokens": 30886158.0,
      "step": 16745
    },
    {
      "entropy": 5.709494638442993,
      "epoch": 1.407225372820836,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00048051604672994446,
      "loss": 5.3873,
      "mean_token_accuracy": 0.1646023690700531,
      "num_tokens": 30895283.0,
      "step": 16750
    },
    {
      "entropy": 5.696353149414063,
      "epoch": 1.4076454526360007,
      "grad_norm": 1.59375,
      "learning_rate": 0.00048050385508446804,
      "loss": 5.4284,
      "mean_token_accuracy": 0.16812965720891954,
      "num_tokens": 30905514.0,
      "step": 16755
    },
    {
      "entropy": 5.664879083633423,
      "epoch": 1.4080655324511657,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00048049165979859655,
      "loss": 5.331,
      "mean_token_accuracy": 0.18449335247278215,
      "num_tokens": 30914794.0,
      "step": 16760
    },
    {
      "entropy": 5.610575008392334,
      "epoch": 1.4084856122663307,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00048047946087254615,
      "loss": 5.3627,
      "mean_token_accuracy": 0.16559927463531493,
      "num_tokens": 30923823.0,
      "step": 16765
    },
    {
      "entropy": 5.6542726993560795,
      "epoch": 1.4089056920814955,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00048046725830653295,
      "loss": 5.4819,
      "mean_token_accuracy": 0.16385638117790222,
      "num_tokens": 30932738.0,
      "step": 16770
    },
    {
      "entropy": 5.704129838943482,
      "epoch": 1.4093257718966603,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00048045505210077304,
      "loss": 5.4767,
      "mean_token_accuracy": 0.15995497554540633,
      "num_tokens": 30942302.0,
      "step": 16775
    },
    {
      "entropy": 5.705305194854736,
      "epoch": 1.4097458517118253,
      "grad_norm": 1.765625,
      "learning_rate": 0.0004804428422554826,
      "loss": 5.3999,
      "mean_token_accuracy": 0.16517668217420578,
      "num_tokens": 30951662.0,
      "step": 16780
    },
    {
      "entropy": 5.643369197845459,
      "epoch": 1.41016593152699,
      "grad_norm": 2.484375,
      "learning_rate": 0.0004804306287708782,
      "loss": 5.4139,
      "mean_token_accuracy": 0.1685831978917122,
      "num_tokens": 30960475.0,
      "step": 16785
    },
    {
      "entropy": 5.592676210403442,
      "epoch": 1.410586011342155,
      "grad_norm": 1.5625,
      "learning_rate": 0.00048041841164717574,
      "loss": 5.2528,
      "mean_token_accuracy": 0.1767956107854843,
      "num_tokens": 30969075.0,
      "step": 16790
    },
    {
      "entropy": 5.635186338424683,
      "epoch": 1.41100609115732,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004804061908845921,
      "loss": 5.3445,
      "mean_token_accuracy": 0.17429747730493544,
      "num_tokens": 30978030.0,
      "step": 16795
    },
    {
      "entropy": 5.63826003074646,
      "epoch": 1.4114261709724847,
      "grad_norm": 1.875,
      "learning_rate": 0.00048039396648334346,
      "loss": 5.322,
      "mean_token_accuracy": 0.16926524937152862,
      "num_tokens": 30985639.0,
      "step": 16800
    },
    {
      "entropy": 5.685590744018555,
      "epoch": 1.4118462507876497,
      "grad_norm": 1.625,
      "learning_rate": 0.0004803817384436465,
      "loss": 5.4499,
      "mean_token_accuracy": 0.16543682664632797,
      "num_tokens": 30994811.0,
      "step": 16805
    },
    {
      "entropy": 5.71953272819519,
      "epoch": 1.4122663306028145,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004803695067657178,
      "loss": 5.428,
      "mean_token_accuracy": 0.16598510146141052,
      "num_tokens": 31003813.0,
      "step": 16810
    },
    {
      "entropy": 5.641027021408081,
      "epoch": 1.4126864104179795,
      "grad_norm": 1.65625,
      "learning_rate": 0.000480357271449774,
      "loss": 5.3693,
      "mean_token_accuracy": 0.1740890622138977,
      "num_tokens": 31012488.0,
      "step": 16815
    },
    {
      "entropy": 5.6430689811706545,
      "epoch": 1.4131064902331443,
      "grad_norm": 1.9375,
      "learning_rate": 0.0004803450324960318,
      "loss": 5.3921,
      "mean_token_accuracy": 0.16979921013116836,
      "num_tokens": 31021089.0,
      "step": 16820
    },
    {
      "entropy": 5.653257369995117,
      "epoch": 1.413526570048309,
      "grad_norm": 2.484375,
      "learning_rate": 0.00048033278990470825,
      "loss": 5.4096,
      "mean_token_accuracy": 0.16547489091753959,
      "num_tokens": 31029903.0,
      "step": 16825
    },
    {
      "entropy": 5.63095440864563,
      "epoch": 1.413946649863474,
      "grad_norm": 1.5,
      "learning_rate": 0.00048032054367601996,
      "loss": 5.421,
      "mean_token_accuracy": 0.1633308783173561,
      "num_tokens": 31039207.0,
      "step": 16830
    },
    {
      "entropy": 5.651738262176513,
      "epoch": 1.414366729678639,
      "grad_norm": 2.078125,
      "learning_rate": 0.00048030829381018396,
      "loss": 5.4428,
      "mean_token_accuracy": 0.16122666299343108,
      "num_tokens": 31048190.0,
      "step": 16835
    },
    {
      "entropy": 5.708361196517944,
      "epoch": 1.4147868094938039,
      "grad_norm": 2.0,
      "learning_rate": 0.0004802960403074173,
      "loss": 5.5316,
      "mean_token_accuracy": 0.16462094187736512,
      "num_tokens": 31058769.0,
      "step": 16840
    },
    {
      "entropy": 5.701053285598755,
      "epoch": 1.4152068893089687,
      "grad_norm": 1.546875,
      "learning_rate": 0.00048028378316793705,
      "loss": 5.4687,
      "mean_token_accuracy": 0.16018210723996162,
      "num_tokens": 31066830.0,
      "step": 16845
    },
    {
      "entropy": 5.762956762313843,
      "epoch": 1.4156269691241337,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004802715223919602,
      "loss": 5.5172,
      "mean_token_accuracy": 0.16773394793272017,
      "num_tokens": 31077205.0,
      "step": 16850
    },
    {
      "entropy": 5.7432409763336185,
      "epoch": 1.4160470489392984,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00048025925797970403,
      "loss": 5.4479,
      "mean_token_accuracy": 0.17057251334190368,
      "num_tokens": 31087327.0,
      "step": 16855
    },
    {
      "entropy": 5.639508008956909,
      "epoch": 1.4164671287544635,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00048024698993138587,
      "loss": 5.3833,
      "mean_token_accuracy": 0.16887278407812117,
      "num_tokens": 31096501.0,
      "step": 16860
    },
    {
      "entropy": 5.735842370986939,
      "epoch": 1.4168872085696282,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00048023471824722294,
      "loss": 5.5523,
      "mean_token_accuracy": 0.1566422998905182,
      "num_tokens": 31105949.0,
      "step": 16865
    },
    {
      "entropy": 5.765266227722168,
      "epoch": 1.417307288384793,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00048022244292743256,
      "loss": 5.4616,
      "mean_token_accuracy": 0.1579113557934761,
      "num_tokens": 31115482.0,
      "step": 16870
    },
    {
      "entropy": 5.7321278095245365,
      "epoch": 1.417727368199958,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00048021016397223234,
      "loss": 5.407,
      "mean_token_accuracy": 0.16931116878986358,
      "num_tokens": 31124758.0,
      "step": 16875
    },
    {
      "entropy": 5.654321622848511,
      "epoch": 1.4181474480151228,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00048019788138183977,
      "loss": 5.2972,
      "mean_token_accuracy": 0.17919143736362458,
      "num_tokens": 31134114.0,
      "step": 16880
    },
    {
      "entropy": 5.586613321304322,
      "epoch": 1.4185675278302878,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00048018559515647244,
      "loss": 5.3523,
      "mean_token_accuracy": 0.17073431313037873,
      "num_tokens": 31142667.0,
      "step": 16885
    },
    {
      "entropy": 5.671979999542236,
      "epoch": 1.4189876076454526,
      "grad_norm": 1.421875,
      "learning_rate": 0.00048017330529634785,
      "loss": 5.4433,
      "mean_token_accuracy": 0.1582137778401375,
      "num_tokens": 31152105.0,
      "step": 16890
    },
    {
      "entropy": 5.698092317581176,
      "epoch": 1.4194076874606174,
      "grad_norm": 1.546875,
      "learning_rate": 0.00048016101180168376,
      "loss": 5.4208,
      "mean_token_accuracy": 0.1703786239027977,
      "num_tokens": 31160277.0,
      "step": 16895
    },
    {
      "entropy": 5.8327394962310795,
      "epoch": 1.4198277672757824,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00048014871467269804,
      "loss": 5.6275,
      "mean_token_accuracy": 0.15696136504411698,
      "num_tokens": 31170677.0,
      "step": 16900
    },
    {
      "entropy": 5.710501289367675,
      "epoch": 1.4202478470909472,
      "grad_norm": 2.4375,
      "learning_rate": 0.00048013641390960856,
      "loss": 5.413,
      "mean_token_accuracy": 0.16240498870611192,
      "num_tokens": 31179298.0,
      "step": 16905
    },
    {
      "entropy": 5.650837802886963,
      "epoch": 1.4206679269061122,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004801241095126331,
      "loss": 5.4281,
      "mean_token_accuracy": 0.16397203356027604,
      "num_tokens": 31188547.0,
      "step": 16910
    },
    {
      "entropy": 5.683053827285766,
      "epoch": 1.421088006721277,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004801118014819896,
      "loss": 5.429,
      "mean_token_accuracy": 0.16916512846946716,
      "num_tokens": 31197680.0,
      "step": 16915
    },
    {
      "entropy": 5.670131063461303,
      "epoch": 1.421508086536442,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004800994898178962,
      "loss": 5.3795,
      "mean_token_accuracy": 0.17118050009012223,
      "num_tokens": 31206351.0,
      "step": 16920
    },
    {
      "entropy": 5.689674186706543,
      "epoch": 1.4219281663516068,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004800871745205708,
      "loss": 5.5787,
      "mean_token_accuracy": 0.15732864812016487,
      "num_tokens": 31216478.0,
      "step": 16925
    },
    {
      "entropy": 5.787313032150268,
      "epoch": 1.4223482461667718,
      "grad_norm": 1.3125,
      "learning_rate": 0.00048007485559023195,
      "loss": 5.5266,
      "mean_token_accuracy": 0.15895494371652602,
      "num_tokens": 31225920.0,
      "step": 16930
    },
    {
      "entropy": 5.704079055786133,
      "epoch": 1.4227683259819366,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004800625330270975,
      "loss": 5.4163,
      "mean_token_accuracy": 0.1649041622877121,
      "num_tokens": 31235061.0,
      "step": 16935
    },
    {
      "entropy": 5.615435409545898,
      "epoch": 1.4231884057971014,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004800502068313859,
      "loss": 5.3819,
      "mean_token_accuracy": 0.17181412726640702,
      "num_tokens": 31243448.0,
      "step": 16940
    },
    {
      "entropy": 5.699060869216919,
      "epoch": 1.4236084856122664,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004800378770033154,
      "loss": 5.4936,
      "mean_token_accuracy": 0.16858059167861938,
      "num_tokens": 31252569.0,
      "step": 16945
    },
    {
      "entropy": 5.703611755371094,
      "epoch": 1.4240285654274312,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004800255435431046,
      "loss": 5.3883,
      "mean_token_accuracy": 0.17073103338479995,
      "num_tokens": 31261905.0,
      "step": 16950
    },
    {
      "entropy": 5.615508317947388,
      "epoch": 1.4244486452425962,
      "grad_norm": 2.03125,
      "learning_rate": 0.00048001320645097177,
      "loss": 5.361,
      "mean_token_accuracy": 0.1737958535552025,
      "num_tokens": 31271203.0,
      "step": 16955
    },
    {
      "entropy": 5.630927085876465,
      "epoch": 1.424868725057761,
      "grad_norm": 1.59375,
      "learning_rate": 0.00048000086572713566,
      "loss": 5.354,
      "mean_token_accuracy": 0.17280679643154145,
      "num_tokens": 31279812.0,
      "step": 16960
    },
    {
      "entropy": 5.674156904220581,
      "epoch": 1.4252888048729258,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004799885213718147,
      "loss": 5.4149,
      "mean_token_accuracy": 0.16382081657648087,
      "num_tokens": 31289615.0,
      "step": 16965
    },
    {
      "entropy": 5.658738088607788,
      "epoch": 1.4257088846880908,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00047997617338522763,
      "loss": 5.3518,
      "mean_token_accuracy": 0.17239830791950225,
      "num_tokens": 31298947.0,
      "step": 16970
    },
    {
      "entropy": 5.650487899780273,
      "epoch": 1.4261289645032555,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00047996382176759324,
      "loss": 5.33,
      "mean_token_accuracy": 0.17185672670602797,
      "num_tokens": 31307465.0,
      "step": 16975
    },
    {
      "entropy": 5.605889129638672,
      "epoch": 1.4265490443184206,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004799514665191303,
      "loss": 5.4702,
      "mean_token_accuracy": 0.16345242261886597,
      "num_tokens": 31317682.0,
      "step": 16980
    },
    {
      "entropy": 5.726818227767945,
      "epoch": 1.4269691241335853,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0004799391076400576,
      "loss": 5.4472,
      "mean_token_accuracy": 0.16512487083673477,
      "num_tokens": 31326113.0,
      "step": 16985
    },
    {
      "entropy": 5.791937685012817,
      "epoch": 1.4273892039487501,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00047992674513059415,
      "loss": 5.4919,
      "mean_token_accuracy": 0.16668398678302765,
      "num_tokens": 31335263.0,
      "step": 16990
    },
    {
      "entropy": 5.6625199794769285,
      "epoch": 1.4278092837639151,
      "grad_norm": 1.765625,
      "learning_rate": 0.00047991437899095896,
      "loss": 5.4298,
      "mean_token_accuracy": 0.1710612565279007,
      "num_tokens": 31344503.0,
      "step": 16995
    },
    {
      "entropy": 5.647831153869629,
      "epoch": 1.4282293635790801,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00047990200922137105,
      "loss": 5.4908,
      "mean_token_accuracy": 0.16613128632307053,
      "num_tokens": 31354530.0,
      "step": 17000
    },
    {
      "entropy": 5.668387365341187,
      "epoch": 1.428649443394245,
      "grad_norm": 1.25,
      "learning_rate": 0.0004798896358220496,
      "loss": 5.3034,
      "mean_token_accuracy": 0.1711835592985153,
      "num_tokens": 31362761.0,
      "step": 17005
    },
    {
      "entropy": 5.680157566070557,
      "epoch": 1.4290695232094097,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004798772587932137,
      "loss": 5.3365,
      "mean_token_accuracy": 0.16386652886867523,
      "num_tokens": 31372933.0,
      "step": 17010
    },
    {
      "entropy": 5.753627347946167,
      "epoch": 1.4294896030245747,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004798648781350826,
      "loss": 5.5313,
      "mean_token_accuracy": 0.16360146701335906,
      "num_tokens": 31382651.0,
      "step": 17015
    },
    {
      "entropy": 5.657275533676147,
      "epoch": 1.4299096828397395,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004798524938478758,
      "loss": 5.4663,
      "mean_token_accuracy": 0.16007311642169952,
      "num_tokens": 31392272.0,
      "step": 17020
    },
    {
      "entropy": 5.65654354095459,
      "epoch": 1.4303297626549045,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004798401059318124,
      "loss": 5.3702,
      "mean_token_accuracy": 0.1685507357120514,
      "num_tokens": 31400684.0,
      "step": 17025
    },
    {
      "entropy": 5.652564525604248,
      "epoch": 1.4307498424700693,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004798277143871122,
      "loss": 5.3624,
      "mean_token_accuracy": 0.17421618700027466,
      "num_tokens": 31409082.0,
      "step": 17030
    },
    {
      "entropy": 5.608336639404297,
      "epoch": 1.431169922285234,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004798153192139944,
      "loss": 5.3376,
      "mean_token_accuracy": 0.1730009838938713,
      "num_tokens": 31417415.0,
      "step": 17035
    },
    {
      "entropy": 5.675747871398926,
      "epoch": 1.431590002100399,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0004798029204126786,
      "loss": 5.5005,
      "mean_token_accuracy": 0.1690568134188652,
      "num_tokens": 31427510.0,
      "step": 17040
    },
    {
      "entropy": 5.636645269393921,
      "epoch": 1.432010081915564,
      "grad_norm": 2.234375,
      "learning_rate": 0.0004797905179833847,
      "loss": 5.3358,
      "mean_token_accuracy": 0.17016119211912156,
      "num_tokens": 31436187.0,
      "step": 17045
    },
    {
      "entropy": 5.665362167358398,
      "epoch": 1.432430161730729,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004797781119263321,
      "loss": 5.3552,
      "mean_token_accuracy": 0.16701350957155228,
      "num_tokens": 31445179.0,
      "step": 17050
    },
    {
      "entropy": 5.708790063858032,
      "epoch": 1.4328502415458937,
      "grad_norm": 2.25,
      "learning_rate": 0.0004797657022417408,
      "loss": 5.4449,
      "mean_token_accuracy": 0.16478859335184098,
      "num_tokens": 31454434.0,
      "step": 17055
    },
    {
      "entropy": 5.681474256515503,
      "epoch": 1.4332703213610585,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00047975328892983045,
      "loss": 5.4336,
      "mean_token_accuracy": 0.16830161362886428,
      "num_tokens": 31464202.0,
      "step": 17060
    },
    {
      "entropy": 5.605258941650391,
      "epoch": 1.4336904011762235,
      "grad_norm": 1.71875,
      "learning_rate": 0.00047974087199082095,
      "loss": 5.3277,
      "mean_token_accuracy": 0.17215612679719924,
      "num_tokens": 31473158.0,
      "step": 17065
    },
    {
      "entropy": 5.659666633605957,
      "epoch": 1.4341104809913885,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00047972845142493244,
      "loss": 5.3615,
      "mean_token_accuracy": 0.16211307048797607,
      "num_tokens": 31482643.0,
      "step": 17070
    },
    {
      "entropy": 5.625508260726929,
      "epoch": 1.4345305608065533,
      "grad_norm": 1.625,
      "learning_rate": 0.0004797160272323848,
      "loss": 5.4164,
      "mean_token_accuracy": 0.1696289971470833,
      "num_tokens": 31492080.0,
      "step": 17075
    },
    {
      "entropy": 5.67778902053833,
      "epoch": 1.434950640621718,
      "grad_norm": 1.71875,
      "learning_rate": 0.00047970359941339815,
      "loss": 5.393,
      "mean_token_accuracy": 0.16916269809007645,
      "num_tokens": 31501990.0,
      "step": 17080
    },
    {
      "entropy": 5.686505317687988,
      "epoch": 1.435370720436883,
      "grad_norm": 1.875,
      "learning_rate": 0.0004796911679681926,
      "loss": 5.4451,
      "mean_token_accuracy": 0.16082692742347718,
      "num_tokens": 31510548.0,
      "step": 17085
    },
    {
      "entropy": 5.671147012710572,
      "epoch": 1.4357908002520479,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00047967873289698847,
      "loss": 5.4048,
      "mean_token_accuracy": 0.16617012917995452,
      "num_tokens": 31518695.0,
      "step": 17090
    },
    {
      "entropy": 5.754871845245361,
      "epoch": 1.4362108800672129,
      "grad_norm": 1.8125,
      "learning_rate": 0.00047966629420000595,
      "loss": 5.5615,
      "mean_token_accuracy": 0.16368394792079927,
      "num_tokens": 31528021.0,
      "step": 17095
    },
    {
      "entropy": 5.7568220615386965,
      "epoch": 1.4366309598823777,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004796538518774654,
      "loss": 5.5284,
      "mean_token_accuracy": 0.16016919240355493,
      "num_tokens": 31537786.0,
      "step": 17100
    },
    {
      "entropy": 5.689480447769165,
      "epoch": 1.4370510396975424,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00047964140592958725,
      "loss": 5.4719,
      "mean_token_accuracy": 0.16369976103305817,
      "num_tokens": 31548006.0,
      "step": 17105
    },
    {
      "entropy": 5.710929727554321,
      "epoch": 1.4374711195127075,
      "grad_norm": 2.0625,
      "learning_rate": 0.000479628956356592,
      "loss": 5.4102,
      "mean_token_accuracy": 0.16462980061769486,
      "num_tokens": 31557042.0,
      "step": 17110
    },
    {
      "entropy": 5.743411254882813,
      "epoch": 1.4378911993278722,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004796165031587001,
      "loss": 5.4294,
      "mean_token_accuracy": 0.16347581148147583,
      "num_tokens": 31566661.0,
      "step": 17115
    },
    {
      "entropy": 5.729912614822387,
      "epoch": 1.4383112791430372,
      "grad_norm": 2.171875,
      "learning_rate": 0.0004796040463361323,
      "loss": 5.3991,
      "mean_token_accuracy": 0.17761249095201492,
      "num_tokens": 31575724.0,
      "step": 17120
    },
    {
      "entropy": 5.694164514541626,
      "epoch": 1.438731358958202,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004795915858891091,
      "loss": 5.4881,
      "mean_token_accuracy": 0.17017182260751723,
      "num_tokens": 31585068.0,
      "step": 17125
    },
    {
      "entropy": 5.751265192031861,
      "epoch": 1.4391514387733668,
      "grad_norm": 2.296875,
      "learning_rate": 0.0004795791218178514,
      "loss": 5.5202,
      "mean_token_accuracy": 0.1640462413430214,
      "num_tokens": 31594629.0,
      "step": 17130
    },
    {
      "entropy": 5.655387258529663,
      "epoch": 1.4395715185885318,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00047956665412257984,
      "loss": 5.3913,
      "mean_token_accuracy": 0.16778073012828826,
      "num_tokens": 31603469.0,
      "step": 17135
    },
    {
      "entropy": 5.647593832015991,
      "epoch": 1.4399915984036968,
      "grad_norm": 2.078125,
      "learning_rate": 0.00047955418280351526,
      "loss": 5.3461,
      "mean_token_accuracy": 0.17495327293872834,
      "num_tokens": 31611674.0,
      "step": 17140
    },
    {
      "entropy": 5.800208330154419,
      "epoch": 1.4404116782188616,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004795417078608788,
      "loss": 5.622,
      "mean_token_accuracy": 0.1545601725578308,
      "num_tokens": 31621863.0,
      "step": 17145
    },
    {
      "entropy": 5.788693571090699,
      "epoch": 1.4408317580340264,
      "grad_norm": 1.78125,
      "learning_rate": 0.00047952922929489126,
      "loss": 5.4521,
      "mean_token_accuracy": 0.1642246201634407,
      "num_tokens": 31630968.0,
      "step": 17150
    },
    {
      "entropy": 5.64285249710083,
      "epoch": 1.4412518378491914,
      "grad_norm": 2.0,
      "learning_rate": 0.00047951674710577366,
      "loss": 5.4419,
      "mean_token_accuracy": 0.16613068878650666,
      "num_tokens": 31640643.0,
      "step": 17155
    },
    {
      "entropy": 5.565954065322876,
      "epoch": 1.4416719176643562,
      "grad_norm": 1.46875,
      "learning_rate": 0.00047950426129374723,
      "loss": 5.3347,
      "mean_token_accuracy": 0.1745448738336563,
      "num_tokens": 31648941.0,
      "step": 17160
    },
    {
      "entropy": 5.700513076782227,
      "epoch": 1.4420919974795212,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00047949177185903314,
      "loss": 5.4437,
      "mean_token_accuracy": 0.1697974219918251,
      "num_tokens": 31658019.0,
      "step": 17165
    },
    {
      "entropy": 5.769097185134887,
      "epoch": 1.442512077294686,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004794792788018526,
      "loss": 5.5065,
      "mean_token_accuracy": 0.15758488774299623,
      "num_tokens": 31668050.0,
      "step": 17170
    },
    {
      "entropy": 5.686607456207275,
      "epoch": 1.4429321571098508,
      "grad_norm": 1.671875,
      "learning_rate": 0.000479466782122427,
      "loss": 5.3551,
      "mean_token_accuracy": 0.16535573899745942,
      "num_tokens": 31676727.0,
      "step": 17175
    },
    {
      "entropy": 5.683789539337158,
      "epoch": 1.4433522369250158,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00047945428182097756,
      "loss": 5.4525,
      "mean_token_accuracy": 0.1617741197347641,
      "num_tokens": 31686205.0,
      "step": 17180
    },
    {
      "entropy": 5.693828535079956,
      "epoch": 1.4437723167401806,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00047944177789772583,
      "loss": 5.4559,
      "mean_token_accuracy": 0.16552175134420394,
      "num_tokens": 31695521.0,
      "step": 17185
    },
    {
      "entropy": 5.767838621139527,
      "epoch": 1.4441923965553456,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0004794292703528932,
      "loss": 5.5186,
      "mean_token_accuracy": 0.15298188775777816,
      "num_tokens": 31706606.0,
      "step": 17190
    },
    {
      "entropy": 5.7720374584198,
      "epoch": 1.4446124763705104,
      "grad_norm": 1.546875,
      "learning_rate": 0.00047941675918670133,
      "loss": 5.5934,
      "mean_token_accuracy": 0.15864021703600883,
      "num_tokens": 31716881.0,
      "step": 17195
    },
    {
      "entropy": 5.724113607406617,
      "epoch": 1.4450325561856752,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004794042443993719,
      "loss": 5.3791,
      "mean_token_accuracy": 0.16267655789852142,
      "num_tokens": 31725878.0,
      "step": 17200
    },
    {
      "entropy": 5.657223463058472,
      "epoch": 1.4454526360008402,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004793917259911265,
      "loss": 5.4676,
      "mean_token_accuracy": 0.16497932225465775,
      "num_tokens": 31735033.0,
      "step": 17205
    },
    {
      "entropy": 5.5900531768798825,
      "epoch": 1.445872715816005,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004793792039621869,
      "loss": 5.4147,
      "mean_token_accuracy": 0.171473328769207,
      "num_tokens": 31744887.0,
      "step": 17210
    },
    {
      "entropy": 5.733187532424926,
      "epoch": 1.44629279563117,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00047936667831277504,
      "loss": 5.4767,
      "mean_token_accuracy": 0.15901170670986176,
      "num_tokens": 31754137.0,
      "step": 17215
    },
    {
      "entropy": 5.690765762329102,
      "epoch": 1.4467128754463348,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004793541490431126,
      "loss": 5.2947,
      "mean_token_accuracy": 0.17318409383296968,
      "num_tokens": 31763394.0,
      "step": 17220
    },
    {
      "entropy": 5.671582269668579,
      "epoch": 1.4471329552614998,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004793416161534216,
      "loss": 5.4326,
      "mean_token_accuracy": 0.1657954916357994,
      "num_tokens": 31771905.0,
      "step": 17225
    },
    {
      "entropy": 5.5294126033782955,
      "epoch": 1.4475530350766646,
      "grad_norm": 2.640625,
      "learning_rate": 0.00047932907964392423,
      "loss": 5.2655,
      "mean_token_accuracy": 0.1774240866303444,
      "num_tokens": 31780788.0,
      "step": 17230
    },
    {
      "entropy": 5.70396466255188,
      "epoch": 1.4479731148918296,
      "grad_norm": 2.203125,
      "learning_rate": 0.00047931653951484234,
      "loss": 5.4452,
      "mean_token_accuracy": 0.16516012102365493,
      "num_tokens": 31790198.0,
      "step": 17235
    },
    {
      "entropy": 5.712733507156372,
      "epoch": 1.4483931947069943,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00047930399576639815,
      "loss": 5.4324,
      "mean_token_accuracy": 0.16861406937241555,
      "num_tokens": 31799396.0,
      "step": 17240
    },
    {
      "entropy": 5.621314477920532,
      "epoch": 1.4488132745221591,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00047929144839881386,
      "loss": 5.2884,
      "mean_token_accuracy": 0.18074664771556853,
      "num_tokens": 31807680.0,
      "step": 17245
    },
    {
      "entropy": 5.722569370269776,
      "epoch": 1.4492333543373241,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00047927889741231186,
      "loss": 5.4295,
      "mean_token_accuracy": 0.16408731043338776,
      "num_tokens": 31817406.0,
      "step": 17250
    },
    {
      "entropy": 5.660385704040527,
      "epoch": 1.449653434152489,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00047926634280711435,
      "loss": 5.4135,
      "mean_token_accuracy": 0.16933335810899736,
      "num_tokens": 31826518.0,
      "step": 17255
    },
    {
      "entropy": 5.703531122207641,
      "epoch": 1.450073513967654,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004792537845834437,
      "loss": 5.4947,
      "mean_token_accuracy": 0.15975457429885864,
      "num_tokens": 31835538.0,
      "step": 17260
    },
    {
      "entropy": 5.664773654937744,
      "epoch": 1.4504935937828187,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004792412227415224,
      "loss": 5.3497,
      "mean_token_accuracy": 0.17190734297037125,
      "num_tokens": 31844899.0,
      "step": 17265
    },
    {
      "entropy": 5.627852296829223,
      "epoch": 1.4509136735979835,
      "grad_norm": 1.453125,
      "learning_rate": 0.00047922865728157314,
      "loss": 5.3981,
      "mean_token_accuracy": 0.1743706777691841,
      "num_tokens": 31854322.0,
      "step": 17270
    },
    {
      "entropy": 5.6161435604095455,
      "epoch": 1.4513337534131485,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004792160882038183,
      "loss": 5.3679,
      "mean_token_accuracy": 0.16462661772966386,
      "num_tokens": 31863657.0,
      "step": 17275
    },
    {
      "entropy": 5.655448341369629,
      "epoch": 1.4517538332283133,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004792035155084806,
      "loss": 5.3615,
      "mean_token_accuracy": 0.1683821603655815,
      "num_tokens": 31873468.0,
      "step": 17280
    },
    {
      "entropy": 5.637265586853028,
      "epoch": 1.4521739130434783,
      "grad_norm": 1.421875,
      "learning_rate": 0.00047919093919578283,
      "loss": 5.4728,
      "mean_token_accuracy": 0.16719345450401307,
      "num_tokens": 31882391.0,
      "step": 17285
    },
    {
      "entropy": 5.6774333953857425,
      "epoch": 1.452593992858643,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004791783592659476,
      "loss": 5.4566,
      "mean_token_accuracy": 0.16625383794307708,
      "num_tokens": 31891370.0,
      "step": 17290
    },
    {
      "entropy": 5.641020917892456,
      "epoch": 1.4530140726738079,
      "grad_norm": 1.3359375,
      "learning_rate": 0.000479165775719198,
      "loss": 5.3919,
      "mean_token_accuracy": 0.169977006316185,
      "num_tokens": 31900688.0,
      "step": 17295
    },
    {
      "entropy": 5.628441858291626,
      "epoch": 1.453434152488973,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00047915318855575674,
      "loss": 5.4264,
      "mean_token_accuracy": 0.1753471314907074,
      "num_tokens": 31909359.0,
      "step": 17300
    },
    {
      "entropy": 5.650968837738037,
      "epoch": 1.453854232304138,
      "grad_norm": 1.640625,
      "learning_rate": 0.00047914059777584686,
      "loss": 5.3947,
      "mean_token_accuracy": 0.16623954772949218,
      "num_tokens": 31918529.0,
      "step": 17305
    },
    {
      "entropy": 5.679246520996093,
      "epoch": 1.4542743121193027,
      "grad_norm": 1.609375,
      "learning_rate": 0.00047912800337969144,
      "loss": 5.4662,
      "mean_token_accuracy": 0.16294726431369783,
      "num_tokens": 31928310.0,
      "step": 17310
    },
    {
      "entropy": 5.64129490852356,
      "epoch": 1.4546943919344675,
      "grad_norm": 1.4375,
      "learning_rate": 0.00047911540536751355,
      "loss": 5.3744,
      "mean_token_accuracy": 0.17034156024456024,
      "num_tokens": 31937077.0,
      "step": 17315
    },
    {
      "entropy": 5.695573711395264,
      "epoch": 1.4551144717496325,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004791028037395363,
      "loss": 5.4298,
      "mean_token_accuracy": 0.16439317166805267,
      "num_tokens": 31946023.0,
      "step": 17320
    },
    {
      "entropy": 5.581758499145508,
      "epoch": 1.4555345515647973,
      "grad_norm": 1.515625,
      "learning_rate": 0.00047909019849598305,
      "loss": 5.2733,
      "mean_token_accuracy": 0.17995132952928544,
      "num_tokens": 31954741.0,
      "step": 17325
    },
    {
      "entropy": 5.651013660430908,
      "epoch": 1.4559546313799623,
      "grad_norm": 1.75,
      "learning_rate": 0.00047907758963707696,
      "loss": 5.3939,
      "mean_token_accuracy": 0.167492838203907,
      "num_tokens": 31963516.0,
      "step": 17330
    },
    {
      "entropy": 5.683594417572022,
      "epoch": 1.456374711195127,
      "grad_norm": 1.59375,
      "learning_rate": 0.00047906497716304153,
      "loss": 5.4132,
      "mean_token_accuracy": 0.17192533612251282,
      "num_tokens": 31971917.0,
      "step": 17335
    },
    {
      "entropy": 5.674582862854004,
      "epoch": 1.4567947910102919,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004790523610741001,
      "loss": 5.4584,
      "mean_token_accuracy": 0.16307643949985504,
      "num_tokens": 31980718.0,
      "step": 17340
    },
    {
      "entropy": 5.716789674758911,
      "epoch": 1.4572148708254569,
      "grad_norm": 1.53125,
      "learning_rate": 0.00047903974137047614,
      "loss": 5.4001,
      "mean_token_accuracy": 0.16782204508781434,
      "num_tokens": 31988664.0,
      "step": 17345
    },
    {
      "entropy": 5.757473373413086,
      "epoch": 1.4576349506406217,
      "grad_norm": 1.640625,
      "learning_rate": 0.00047902711805239325,
      "loss": 5.4791,
      "mean_token_accuracy": 0.1642825037240982,
      "num_tokens": 31998415.0,
      "step": 17350
    },
    {
      "entropy": 5.7503297328948975,
      "epoch": 1.4580550304557867,
      "grad_norm": 1.421875,
      "learning_rate": 0.00047901449112007494,
      "loss": 5.4908,
      "mean_token_accuracy": 0.16542867422103882,
      "num_tokens": 32007915.0,
      "step": 17355
    },
    {
      "entropy": 5.642038631439209,
      "epoch": 1.4584751102709514,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00047900186057374514,
      "loss": 5.4186,
      "mean_token_accuracy": 0.16974506080150603,
      "num_tokens": 32016582.0,
      "step": 17360
    },
    {
      "entropy": 5.568690633773803,
      "epoch": 1.4588951900861162,
      "grad_norm": 1.75,
      "learning_rate": 0.00047898922641362724,
      "loss": 5.4113,
      "mean_token_accuracy": 0.16496356278657914,
      "num_tokens": 32026008.0,
      "step": 17365
    },
    {
      "entropy": 5.723394393920898,
      "epoch": 1.4593152699012812,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0004789765886399453,
      "loss": 5.4592,
      "mean_token_accuracy": 0.16515185236930846,
      "num_tokens": 32034554.0,
      "step": 17370
    },
    {
      "entropy": 5.817387819290161,
      "epoch": 1.4597353497164463,
      "grad_norm": 1.71875,
      "learning_rate": 0.00047896394725292313,
      "loss": 5.4701,
      "mean_token_accuracy": 0.17239008098840714,
      "num_tokens": 32044003.0,
      "step": 17375
    },
    {
      "entropy": 5.650395154953003,
      "epoch": 1.460155429531611,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00047895130225278473,
      "loss": 5.4281,
      "mean_token_accuracy": 0.1707577034831047,
      "num_tokens": 32053753.0,
      "step": 17380
    },
    {
      "entropy": 5.639893341064453,
      "epoch": 1.4605755093467758,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004789386536397539,
      "loss": 5.4314,
      "mean_token_accuracy": 0.1669726625084877,
      "num_tokens": 32062459.0,
      "step": 17385
    },
    {
      "entropy": 5.7756260395050045,
      "epoch": 1.4609955891619408,
      "grad_norm": 1.765625,
      "learning_rate": 0.0004789260014140549,
      "loss": 5.5241,
      "mean_token_accuracy": 0.1664410337805748,
      "num_tokens": 32072544.0,
      "step": 17390
    },
    {
      "entropy": 5.75843915939331,
      "epoch": 1.4614156689771056,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00047891334557591177,
      "loss": 5.4623,
      "mean_token_accuracy": 0.1596985414624214,
      "num_tokens": 32082015.0,
      "step": 17395
    },
    {
      "entropy": 5.644048738479614,
      "epoch": 1.4618357487922706,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004789006861255488,
      "loss": 5.3924,
      "mean_token_accuracy": 0.1662799596786499,
      "num_tokens": 32091622.0,
      "step": 17400
    },
    {
      "entropy": 5.709836626052857,
      "epoch": 1.4622558286074354,
      "grad_norm": 1.84375,
      "learning_rate": 0.0004788880230631901,
      "loss": 5.5673,
      "mean_token_accuracy": 0.15625317990779877,
      "num_tokens": 32102716.0,
      "step": 17405
    },
    {
      "entropy": 5.7003098487854,
      "epoch": 1.4626759084226002,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00047887535638906005,
      "loss": 5.3208,
      "mean_token_accuracy": 0.1776137113571167,
      "num_tokens": 32111051.0,
      "step": 17410
    },
    {
      "entropy": 5.586649465560913,
      "epoch": 1.4630959882377652,
      "grad_norm": 1.6171875,
      "learning_rate": 0.000478862686103383,
      "loss": 5.3372,
      "mean_token_accuracy": 0.17761677205562593,
      "num_tokens": 32119781.0,
      "step": 17415
    },
    {
      "entropy": 5.712557697296143,
      "epoch": 1.46351606805293,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00047885001220638354,
      "loss": 5.435,
      "mean_token_accuracy": 0.16851735562086106,
      "num_tokens": 32128849.0,
      "step": 17420
    },
    {
      "entropy": 5.7341227531433105,
      "epoch": 1.463936147868095,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00047883733469828604,
      "loss": 5.4624,
      "mean_token_accuracy": 0.1703486517071724,
      "num_tokens": 32138046.0,
      "step": 17425
    },
    {
      "entropy": 5.8417564868927006,
      "epoch": 1.4643562276832598,
      "grad_norm": 1.5,
      "learning_rate": 0.00047882465357931516,
      "loss": 5.5281,
      "mean_token_accuracy": 0.161974436044693,
      "num_tokens": 32147994.0,
      "step": 17430
    },
    {
      "entropy": 5.779322147369385,
      "epoch": 1.4647763074984246,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004788119688496954,
      "loss": 5.4589,
      "mean_token_accuracy": 0.16861263811588287,
      "num_tokens": 32156835.0,
      "step": 17435
    },
    {
      "entropy": 5.6862884044647215,
      "epoch": 1.4651963873135896,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004787992805096516,
      "loss": 5.3936,
      "mean_token_accuracy": 0.17358130365610122,
      "num_tokens": 32166751.0,
      "step": 17440
    },
    {
      "entropy": 5.713692283630371,
      "epoch": 1.4656164671287546,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00047878658855940855,
      "loss": 5.5068,
      "mean_token_accuracy": 0.16271049082279204,
      "num_tokens": 32175705.0,
      "step": 17445
    },
    {
      "entropy": 5.826437711715698,
      "epoch": 1.4660365469439194,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004787738929991909,
      "loss": 5.5591,
      "mean_token_accuracy": 0.15781314745545388,
      "num_tokens": 32185404.0,
      "step": 17450
    },
    {
      "entropy": 5.72130651473999,
      "epoch": 1.4664566267590842,
      "grad_norm": 1.53125,
      "learning_rate": 0.00047876119382922374,
      "loss": 5.4299,
      "mean_token_accuracy": 0.16798323690891265,
      "num_tokens": 32194054.0,
      "step": 17455
    },
    {
      "entropy": 5.730863285064697,
      "epoch": 1.4668767065742492,
      "grad_norm": 1.8125,
      "learning_rate": 0.00047874849104973194,
      "loss": 5.4984,
      "mean_token_accuracy": 0.15487258285284042,
      "num_tokens": 32204080.0,
      "step": 17460
    },
    {
      "entropy": 5.704109954833984,
      "epoch": 1.467296786389414,
      "grad_norm": 1.40625,
      "learning_rate": 0.00047873578466094054,
      "loss": 5.4125,
      "mean_token_accuracy": 0.161499485373497,
      "num_tokens": 32213279.0,
      "step": 17465
    },
    {
      "entropy": 5.664938116073609,
      "epoch": 1.467716866204579,
      "grad_norm": 1.90625,
      "learning_rate": 0.0004787230746630746,
      "loss": 5.4104,
      "mean_token_accuracy": 0.17155456244945527,
      "num_tokens": 32221668.0,
      "step": 17470
    },
    {
      "entropy": 5.695741128921509,
      "epoch": 1.4681369460197438,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0004787103610563593,
      "loss": 5.3415,
      "mean_token_accuracy": 0.17343094050884247,
      "num_tokens": 32229683.0,
      "step": 17475
    },
    {
      "entropy": 5.691019868850708,
      "epoch": 1.4685570258349085,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00047869764384101993,
      "loss": 5.4058,
      "mean_token_accuracy": 0.16649516075849533,
      "num_tokens": 32238948.0,
      "step": 17480
    },
    {
      "entropy": 5.6545178413391115,
      "epoch": 1.4689771056500736,
      "grad_norm": 1.46875,
      "learning_rate": 0.00047868492301728164,
      "loss": 5.4404,
      "mean_token_accuracy": 0.16138940006494523,
      "num_tokens": 32248079.0,
      "step": 17485
    },
    {
      "entropy": 5.605484294891357,
      "epoch": 1.4693971854652383,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00047867219858536975,
      "loss": 5.2716,
      "mean_token_accuracy": 0.1824018180370331,
      "num_tokens": 32256413.0,
      "step": 17490
    },
    {
      "entropy": 5.6888096809387205,
      "epoch": 1.4698172652804034,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004786594705455098,
      "loss": 5.4408,
      "mean_token_accuracy": 0.16207701563835145,
      "num_tokens": 32265954.0,
      "step": 17495
    },
    {
      "entropy": 5.676724147796631,
      "epoch": 1.4702373450955681,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004786467388979272,
      "loss": 5.349,
      "mean_token_accuracy": 0.171977636218071,
      "num_tokens": 32273817.0,
      "step": 17500
    },
    {
      "entropy": 5.605041551589966,
      "epoch": 1.470657424910733,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00047863400364284744,
      "loss": 5.4111,
      "mean_token_accuracy": 0.1661633461713791,
      "num_tokens": 32283025.0,
      "step": 17505
    },
    {
      "entropy": 5.665054225921631,
      "epoch": 1.471077504725898,
      "grad_norm": 2.140625,
      "learning_rate": 0.00047862126478049623,
      "loss": 5.3882,
      "mean_token_accuracy": 0.16659335941076278,
      "num_tokens": 32292321.0,
      "step": 17510
    },
    {
      "entropy": 5.784007930755616,
      "epoch": 1.4714975845410627,
      "grad_norm": 1.578125,
      "learning_rate": 0.00047860852231109915,
      "loss": 5.4876,
      "mean_token_accuracy": 0.15348291248083115,
      "num_tokens": 32302203.0,
      "step": 17515
    },
    {
      "entropy": 5.56384539604187,
      "epoch": 1.4719176643562277,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004785957762348819,
      "loss": 5.3156,
      "mean_token_accuracy": 0.16967657655477525,
      "num_tokens": 32310893.0,
      "step": 17520
    },
    {
      "entropy": 5.559794855117798,
      "epoch": 1.4723377441713925,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004785830265520703,
      "loss": 5.3744,
      "mean_token_accuracy": 0.16862395852804185,
      "num_tokens": 32320320.0,
      "step": 17525
    },
    {
      "entropy": 5.607880735397339,
      "epoch": 1.4727578239865575,
      "grad_norm": 1.578125,
      "learning_rate": 0.00047857027326289023,
      "loss": 5.2844,
      "mean_token_accuracy": 0.17600037455558776,
      "num_tokens": 32329196.0,
      "step": 17530
    },
    {
      "entropy": 5.6827874183654785,
      "epoch": 1.4731779038017223,
      "grad_norm": 1.515625,
      "learning_rate": 0.00047855751636756763,
      "loss": 5.4258,
      "mean_token_accuracy": 0.16296974420547486,
      "num_tokens": 32338529.0,
      "step": 17535
    },
    {
      "entropy": 5.707752323150634,
      "epoch": 1.4735979836168873,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004785447558663284,
      "loss": 5.418,
      "mean_token_accuracy": 0.1722614958882332,
      "num_tokens": 32347114.0,
      "step": 17540
    },
    {
      "entropy": 5.75955114364624,
      "epoch": 1.474018063432052,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00047853199175939865,
      "loss": 5.6021,
      "mean_token_accuracy": 0.1608388304710388,
      "num_tokens": 32356765.0,
      "step": 17545
    },
    {
      "entropy": 5.7798620700836185,
      "epoch": 1.474438143247217,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004785192240470045,
      "loss": 5.5294,
      "mean_token_accuracy": 0.16074298024177552,
      "num_tokens": 32366175.0,
      "step": 17550
    },
    {
      "entropy": 5.649854564666748,
      "epoch": 1.474858223062382,
      "grad_norm": 1.2734375,
      "learning_rate": 0.000478506452729372,
      "loss": 5.315,
      "mean_token_accuracy": 0.1758470743894577,
      "num_tokens": 32375063.0,
      "step": 17555
    },
    {
      "entropy": 5.6665150165557865,
      "epoch": 1.4752783028775467,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00047849367780672755,
      "loss": 5.4086,
      "mean_token_accuracy": 0.1674113929271698,
      "num_tokens": 32384596.0,
      "step": 17560
    },
    {
      "entropy": 5.636862468719483,
      "epoch": 1.4756983826927117,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004784808992792974,
      "loss": 5.3593,
      "mean_token_accuracy": 0.168624584376812,
      "num_tokens": 32393489.0,
      "step": 17565
    },
    {
      "entropy": 5.677070379257202,
      "epoch": 1.4761184625078765,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004784681171473079,
      "loss": 5.3487,
      "mean_token_accuracy": 0.1728109061717987,
      "num_tokens": 32402192.0,
      "step": 17570
    },
    {
      "entropy": 5.739632654190063,
      "epoch": 1.4765385423230413,
      "grad_norm": 1.71875,
      "learning_rate": 0.00047845533141098543,
      "loss": 5.4413,
      "mean_token_accuracy": 0.15874089151620865,
      "num_tokens": 32411317.0,
      "step": 17575
    },
    {
      "entropy": 5.708612537384033,
      "epoch": 1.4769586221382063,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004784425420705565,
      "loss": 5.499,
      "mean_token_accuracy": 0.1618265450000763,
      "num_tokens": 32420308.0,
      "step": 17580
    },
    {
      "entropy": 5.618194961547852,
      "epoch": 1.477378701953371,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004784297491262477,
      "loss": 5.4258,
      "mean_token_accuracy": 0.16643496304750444,
      "num_tokens": 32429532.0,
      "step": 17585
    },
    {
      "entropy": 5.682935762405395,
      "epoch": 1.477798781768536,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004784169525782858,
      "loss": 5.4164,
      "mean_token_accuracy": 0.16577064841985703,
      "num_tokens": 32439382.0,
      "step": 17590
    },
    {
      "entropy": 5.7163759708404545,
      "epoch": 1.4782188615837009,
      "grad_norm": 1.625,
      "learning_rate": 0.0004784041524268971,
      "loss": 5.4034,
      "mean_token_accuracy": 0.17389584332704544,
      "num_tokens": 32447893.0,
      "step": 17595
    },
    {
      "entropy": 5.629817867279053,
      "epoch": 1.4786389413988656,
      "grad_norm": 1.875,
      "learning_rate": 0.00047839134867230874,
      "loss": 5.4084,
      "mean_token_accuracy": 0.1654166266322136,
      "num_tokens": 32457770.0,
      "step": 17600
    },
    {
      "entropy": 5.729843044281006,
      "epoch": 1.4790590212140307,
      "grad_norm": 1.5625,
      "learning_rate": 0.00047837854131474726,
      "loss": 5.5139,
      "mean_token_accuracy": 0.16561387926340104,
      "num_tokens": 32467247.0,
      "step": 17605
    },
    {
      "entropy": 5.7485791683197025,
      "epoch": 1.4794791010291957,
      "grad_norm": 1.28125,
      "learning_rate": 0.00047836573035443976,
      "loss": 5.4893,
      "mean_token_accuracy": 0.16393031179904938,
      "num_tokens": 32477453.0,
      "step": 17610
    },
    {
      "entropy": 5.762020063400269,
      "epoch": 1.4798991808443605,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00047835291579161293,
      "loss": 5.4549,
      "mean_token_accuracy": 0.17096612453460694,
      "num_tokens": 32486278.0,
      "step": 17615
    },
    {
      "entropy": 5.62855486869812,
      "epoch": 1.4803192606595252,
      "grad_norm": 1.90625,
      "learning_rate": 0.0004783400976264941,
      "loss": 5.3828,
      "mean_token_accuracy": 0.17316290289163588,
      "num_tokens": 32495523.0,
      "step": 17620
    },
    {
      "entropy": 5.669747161865234,
      "epoch": 1.4807393404746902,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00047832727585930997,
      "loss": 5.419,
      "mean_token_accuracy": 0.16708965897560119,
      "num_tokens": 32504952.0,
      "step": 17625
    },
    {
      "entropy": 5.667424058914184,
      "epoch": 1.481159420289855,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004783144504902879,
      "loss": 5.3972,
      "mean_token_accuracy": 0.16518824696540832,
      "num_tokens": 32515620.0,
      "step": 17630
    },
    {
      "entropy": 5.632094812393189,
      "epoch": 1.48157950010502,
      "grad_norm": 1.359375,
      "learning_rate": 0.000478301621519655,
      "loss": 5.3601,
      "mean_token_accuracy": 0.17287708073854446,
      "num_tokens": 32524549.0,
      "step": 17635
    },
    {
      "entropy": 5.663208436965943,
      "epoch": 1.4819995799201848,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004782887889476386,
      "loss": 5.2658,
      "mean_token_accuracy": 0.17909094095230102,
      "num_tokens": 32533043.0,
      "step": 17640
    },
    {
      "entropy": 5.639974546432495,
      "epoch": 1.4824196597353496,
      "grad_norm": 2.0625,
      "learning_rate": 0.000478275952774466,
      "loss": 5.3707,
      "mean_token_accuracy": 0.1682120993733406,
      "num_tokens": 32541679.0,
      "step": 17645
    },
    {
      "entropy": 5.659855556488037,
      "epoch": 1.4828397395505146,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004782631130003646,
      "loss": 5.4875,
      "mean_token_accuracy": 0.17222274392843245,
      "num_tokens": 32550922.0,
      "step": 17650
    },
    {
      "entropy": 5.73547625541687,
      "epoch": 1.4832598193656794,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004782502696255617,
      "loss": 5.4881,
      "mean_token_accuracy": 0.16443574875593187,
      "num_tokens": 32560063.0,
      "step": 17655
    },
    {
      "entropy": 5.655674934387207,
      "epoch": 1.4836798991808444,
      "grad_norm": 2.109375,
      "learning_rate": 0.00047823742265028495,
      "loss": 5.3575,
      "mean_token_accuracy": 0.16813185214996337,
      "num_tokens": 32569476.0,
      "step": 17660
    },
    {
      "entropy": 5.677836179733276,
      "epoch": 1.4840999789960092,
      "grad_norm": 2.890625,
      "learning_rate": 0.000478224572074762,
      "loss": 5.4225,
      "mean_token_accuracy": 0.17570533752441406,
      "num_tokens": 32578552.0,
      "step": 17665
    },
    {
      "entropy": 5.661578607559204,
      "epoch": 1.484520058811174,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004782117178992203,
      "loss": 5.4238,
      "mean_token_accuracy": 0.16717635840177536,
      "num_tokens": 32589074.0,
      "step": 17670
    },
    {
      "entropy": 5.676818895339966,
      "epoch": 1.484940138626339,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004781988601238878,
      "loss": 5.4446,
      "mean_token_accuracy": 0.16712375432252885,
      "num_tokens": 32599288.0,
      "step": 17675
    },
    {
      "entropy": 5.795759963989258,
      "epoch": 1.485360218441504,
      "grad_norm": 1.4296875,
      "learning_rate": 0.000478185998748992,
      "loss": 5.4935,
      "mean_token_accuracy": 0.16263023763895035,
      "num_tokens": 32609430.0,
      "step": 17680
    },
    {
      "entropy": 5.638738298416138,
      "epoch": 1.4857802982566688,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00047817313377476083,
      "loss": 5.3467,
      "mean_token_accuracy": 0.16966764032840728,
      "num_tokens": 32617763.0,
      "step": 17685
    },
    {
      "entropy": 5.5954235076904295,
      "epoch": 1.4862003780718336,
      "grad_norm": 1.671875,
      "learning_rate": 0.00047816026520142234,
      "loss": 5.4342,
      "mean_token_accuracy": 0.16032783836126327,
      "num_tokens": 32627465.0,
      "step": 17690
    },
    {
      "entropy": 5.728960990905762,
      "epoch": 1.4866204578869986,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004781473930292043,
      "loss": 5.3391,
      "mean_token_accuracy": 0.17672401666641235,
      "num_tokens": 32635984.0,
      "step": 17695
    },
    {
      "entropy": 5.587149381637573,
      "epoch": 1.4870405377021634,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004781345172583348,
      "loss": 5.2784,
      "mean_token_accuracy": 0.17341048419475555,
      "num_tokens": 32644346.0,
      "step": 17700
    },
    {
      "entropy": 5.616852807998657,
      "epoch": 1.4874606175173284,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00047812163788904196,
      "loss": 5.4103,
      "mean_token_accuracy": 0.16415098160505295,
      "num_tokens": 32654118.0,
      "step": 17705
    },
    {
      "entropy": 5.749323081970215,
      "epoch": 1.4878806973324932,
      "grad_norm": 1.375,
      "learning_rate": 0.00047810875492155386,
      "loss": 5.4415,
      "mean_token_accuracy": 0.16800331622362136,
      "num_tokens": 32664258.0,
      "step": 17710
    },
    {
      "entropy": 5.688397216796875,
      "epoch": 1.488300777147658,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004780958683560987,
      "loss": 5.4765,
      "mean_token_accuracy": 0.16039148345589638,
      "num_tokens": 32673672.0,
      "step": 17715
    },
    {
      "entropy": 5.712081003189087,
      "epoch": 1.488720856962823,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004780829781929049,
      "loss": 5.4578,
      "mean_token_accuracy": 0.15657913982868193,
      "num_tokens": 32682901.0,
      "step": 17720
    },
    {
      "entropy": 5.735140562057495,
      "epoch": 1.4891409367779878,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004780700844322007,
      "loss": 5.4014,
      "mean_token_accuracy": 0.17273005843162537,
      "num_tokens": 32691384.0,
      "step": 17725
    },
    {
      "entropy": 5.635052490234375,
      "epoch": 1.4895610165931528,
      "grad_norm": 1.890625,
      "learning_rate": 0.00047805718707421446,
      "loss": 5.4357,
      "mean_token_accuracy": 0.16961687952280044,
      "num_tokens": 32700758.0,
      "step": 17730
    },
    {
      "entropy": 5.759167098999024,
      "epoch": 1.4899810964083176,
      "grad_norm": 2.4375,
      "learning_rate": 0.00047804428611917475,
      "loss": 5.5407,
      "mean_token_accuracy": 0.16442745178937912,
      "num_tokens": 32709676.0,
      "step": 17735
    },
    {
      "entropy": 5.7738946914672855,
      "epoch": 1.4904011762234823,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00047803138156731,
      "loss": 5.4367,
      "mean_token_accuracy": 0.1609507068991661,
      "num_tokens": 32718102.0,
      "step": 17740
    },
    {
      "entropy": 5.749574279785156,
      "epoch": 1.4908212560386473,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00047801847341884897,
      "loss": 5.4238,
      "mean_token_accuracy": 0.16728150397539138,
      "num_tokens": 32727356.0,
      "step": 17745
    },
    {
      "entropy": 5.610603475570679,
      "epoch": 1.4912413358538124,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004780055616740202,
      "loss": 5.4164,
      "mean_token_accuracy": 0.16602010279893875,
      "num_tokens": 32736605.0,
      "step": 17750
    },
    {
      "entropy": 5.626084041595459,
      "epoch": 1.4916614156689771,
      "grad_norm": 1.375,
      "learning_rate": 0.0004779926463330524,
      "loss": 5.3607,
      "mean_token_accuracy": 0.17045399099588393,
      "num_tokens": 32745573.0,
      "step": 17755
    },
    {
      "entropy": 5.6878427028656,
      "epoch": 1.492081495484142,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004779797273961744,
      "loss": 5.414,
      "mean_token_accuracy": 0.17474236190319062,
      "num_tokens": 32755695.0,
      "step": 17760
    },
    {
      "entropy": 5.6625172138214115,
      "epoch": 1.492501575299307,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004779668048636151,
      "loss": 5.3292,
      "mean_token_accuracy": 0.1730514347553253,
      "num_tokens": 32763570.0,
      "step": 17765
    },
    {
      "entropy": 5.612107133865356,
      "epoch": 1.4929216551144717,
      "grad_norm": 1.40625,
      "learning_rate": 0.00047795387873560336,
      "loss": 5.4331,
      "mean_token_accuracy": 0.1678207114338875,
      "num_tokens": 32772006.0,
      "step": 17770
    },
    {
      "entropy": 5.7148637771606445,
      "epoch": 1.4933417349296367,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004779409490123681,
      "loss": 5.3881,
      "mean_token_accuracy": 0.16234676241874696,
      "num_tokens": 32781080.0,
      "step": 17775
    },
    {
      "entropy": 5.635086727142334,
      "epoch": 1.4937618147448015,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004779280156941384,
      "loss": 5.3503,
      "mean_token_accuracy": 0.16645084470510482,
      "num_tokens": 32789880.0,
      "step": 17780
    },
    {
      "entropy": 5.69928207397461,
      "epoch": 1.4941818945599663,
      "grad_norm": 1.4375,
      "learning_rate": 0.00047791507878114354,
      "loss": 5.3909,
      "mean_token_accuracy": 0.16705690920352936,
      "num_tokens": 32799222.0,
      "step": 17785
    },
    {
      "entropy": 5.626346826553345,
      "epoch": 1.4946019743751313,
      "grad_norm": 1.375,
      "learning_rate": 0.0004779021382736124,
      "loss": 5.387,
      "mean_token_accuracy": 0.16727182418107986,
      "num_tokens": 32808945.0,
      "step": 17790
    },
    {
      "entropy": 5.611076211929321,
      "epoch": 1.495022054190296,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004778891941717745,
      "loss": 5.3118,
      "mean_token_accuracy": 0.18029792606830597,
      "num_tokens": 32818386.0,
      "step": 17795
    },
    {
      "entropy": 5.5952142715454105,
      "epoch": 1.495442134005461,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004778762464758589,
      "loss": 5.3771,
      "mean_token_accuracy": 0.16038608253002168,
      "num_tokens": 32828364.0,
      "step": 17800
    },
    {
      "entropy": 5.779965257644653,
      "epoch": 1.495862213820626,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00047786329518609505,
      "loss": 5.5137,
      "mean_token_accuracy": 0.16410740464925766,
      "num_tokens": 32837399.0,
      "step": 17805
    },
    {
      "entropy": 5.671717548370362,
      "epoch": 1.4962822936357907,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00047785034030271243,
      "loss": 5.3413,
      "mean_token_accuracy": 0.1711513638496399,
      "num_tokens": 32846111.0,
      "step": 17810
    },
    {
      "entropy": 5.6222676753997805,
      "epoch": 1.4967023734509557,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004778373818259404,
      "loss": 5.2429,
      "mean_token_accuracy": 0.1814047634601593,
      "num_tokens": 32855839.0,
      "step": 17815
    },
    {
      "entropy": 5.71916937828064,
      "epoch": 1.4971224532661207,
      "grad_norm": 1.625,
      "learning_rate": 0.00047782441975600866,
      "loss": 5.5456,
      "mean_token_accuracy": 0.16741917729377748,
      "num_tokens": 32865946.0,
      "step": 17820
    },
    {
      "entropy": 5.748912906646728,
      "epoch": 1.4975425330812855,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004778114540931468,
      "loss": 5.5114,
      "mean_token_accuracy": 0.16409117877483367,
      "num_tokens": 32875310.0,
      "step": 17825
    },
    {
      "entropy": 5.702952241897583,
      "epoch": 1.4979626128964503,
      "grad_norm": 2.515625,
      "learning_rate": 0.00047779848483758445,
      "loss": 5.4483,
      "mean_token_accuracy": 0.16831188052892684,
      "num_tokens": 32885315.0,
      "step": 17830
    },
    {
      "entropy": 5.684667110443115,
      "epoch": 1.4983826927116153,
      "grad_norm": 1.5,
      "learning_rate": 0.00047778551198955133,
      "loss": 5.4043,
      "mean_token_accuracy": 0.1707111567258835,
      "num_tokens": 32894055.0,
      "step": 17835
    },
    {
      "entropy": 5.64805235862732,
      "epoch": 1.49880277252678,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004777725355492773,
      "loss": 5.4056,
      "mean_token_accuracy": 0.17348893135786056,
      "num_tokens": 32903030.0,
      "step": 17840
    },
    {
      "entropy": 5.665900611877442,
      "epoch": 1.499222852341945,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004777595555169922,
      "loss": 5.3429,
      "mean_token_accuracy": 0.17314210832118987,
      "num_tokens": 32911562.0,
      "step": 17845
    },
    {
      "entropy": 5.706243324279785,
      "epoch": 1.4996429321571099,
      "grad_norm": 1.4453125,
      "learning_rate": 0.000477746571892926,
      "loss": 5.464,
      "mean_token_accuracy": 0.16257281601428986,
      "num_tokens": 32920376.0,
      "step": 17850
    },
    {
      "entropy": 5.663986158370972,
      "epoch": 1.5000630119722747,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004777335846773087,
      "loss": 5.3903,
      "mean_token_accuracy": 0.16299790441989898,
      "num_tokens": 32929374.0,
      "step": 17855
    },
    {
      "entropy": 5.528833436965942,
      "epoch": 1.5004830917874397,
      "grad_norm": 1.625,
      "learning_rate": 0.00047772059387037025,
      "loss": 5.345,
      "mean_token_accuracy": 0.16556637734174728,
      "num_tokens": 32938695.0,
      "step": 17860
    },
    {
      "entropy": 5.671306324005127,
      "epoch": 1.5009031716026044,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004777075994723409,
      "loss": 5.4045,
      "mean_token_accuracy": 0.1704086810350418,
      "num_tokens": 32947725.0,
      "step": 17865
    },
    {
      "entropy": 5.726226949691773,
      "epoch": 1.5013232514177695,
      "grad_norm": 1.453125,
      "learning_rate": 0.00047769460148345085,
      "loss": 5.4181,
      "mean_token_accuracy": 0.16411009281873704,
      "num_tokens": 32957017.0,
      "step": 17870
    },
    {
      "entropy": 5.675952672958374,
      "epoch": 1.5017433312329342,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004776815999039303,
      "loss": 5.3935,
      "mean_token_accuracy": 0.1685171753168106,
      "num_tokens": 32965944.0,
      "step": 17875
    },
    {
      "entropy": 5.637391996383667,
      "epoch": 1.502163411048099,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004776685947340096,
      "loss": 5.3918,
      "mean_token_accuracy": 0.17094200998544692,
      "num_tokens": 32975368.0,
      "step": 17880
    },
    {
      "entropy": 5.685165643692017,
      "epoch": 1.502583490863264,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004776555859739191,
      "loss": 5.4559,
      "mean_token_accuracy": 0.16454171389341354,
      "num_tokens": 32984603.0,
      "step": 17885
    },
    {
      "entropy": 5.6984397888183596,
      "epoch": 1.503003570678429,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00047764257362388913,
      "loss": 5.4249,
      "mean_token_accuracy": 0.16488805860280992,
      "num_tokens": 32993621.0,
      "step": 17890
    },
    {
      "entropy": 5.642865991592407,
      "epoch": 1.5034236504935938,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004776295576841504,
      "loss": 5.4058,
      "mean_token_accuracy": 0.1731736972928047,
      "num_tokens": 33002637.0,
      "step": 17895
    },
    {
      "entropy": 5.664972877502441,
      "epoch": 1.5038437303087586,
      "grad_norm": 1.40625,
      "learning_rate": 0.00047761653815493337,
      "loss": 5.3564,
      "mean_token_accuracy": 0.17393183410167695,
      "num_tokens": 33011964.0,
      "step": 17900
    },
    {
      "entropy": 5.658042669296265,
      "epoch": 1.5042638101239234,
      "grad_norm": 1.78125,
      "learning_rate": 0.00047760351503646877,
      "loss": 5.4165,
      "mean_token_accuracy": 0.16770535558462143,
      "num_tokens": 33020626.0,
      "step": 17905
    },
    {
      "entropy": 5.70390887260437,
      "epoch": 1.5046838899390884,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004775904883289871,
      "loss": 5.369,
      "mean_token_accuracy": 0.1692973181605339,
      "num_tokens": 33029212.0,
      "step": 17910
    },
    {
      "entropy": 5.6756768226623535,
      "epoch": 1.5051039697542534,
      "grad_norm": 1.625,
      "learning_rate": 0.00047757745803271936,
      "loss": 5.4381,
      "mean_token_accuracy": 0.16383266746997832,
      "num_tokens": 33038893.0,
      "step": 17915
    },
    {
      "entropy": 5.661106920242309,
      "epoch": 1.5055240495694182,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004775644241478962,
      "loss": 5.4223,
      "mean_token_accuracy": 0.16328874826431275,
      "num_tokens": 33048058.0,
      "step": 17920
    },
    {
      "entropy": 5.62230749130249,
      "epoch": 1.505944129384583,
      "grad_norm": 2.34375,
      "learning_rate": 0.00047755138667474864,
      "loss": 5.3164,
      "mean_token_accuracy": 0.1771548643708229,
      "num_tokens": 33057106.0,
      "step": 17925
    },
    {
      "entropy": 5.60415210723877,
      "epoch": 1.506364209199748,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004775383456135075,
      "loss": 5.4777,
      "mean_token_accuracy": 0.16880970150232316,
      "num_tokens": 33066400.0,
      "step": 17930
    },
    {
      "entropy": 5.663134336471558,
      "epoch": 1.5067842890149128,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004775253009644038,
      "loss": 5.3276,
      "mean_token_accuracy": 0.17642468810081482,
      "num_tokens": 33075357.0,
      "step": 17935
    },
    {
      "entropy": 5.7705831050872805,
      "epoch": 1.5072043688300778,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00047751225272766885,
      "loss": 5.4278,
      "mean_token_accuracy": 0.1641027197241783,
      "num_tokens": 33085707.0,
      "step": 17940
    },
    {
      "entropy": 5.800422859191895,
      "epoch": 1.5076244486452426,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004774992009035335,
      "loss": 5.5494,
      "mean_token_accuracy": 0.16157107502222062,
      "num_tokens": 33095825.0,
      "step": 17945
    },
    {
      "entropy": 5.597539043426513,
      "epoch": 1.5080445284604074,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004774861454922291,
      "loss": 5.3414,
      "mean_token_accuracy": 0.174434395134449,
      "num_tokens": 33105130.0,
      "step": 17950
    },
    {
      "entropy": 5.596598339080811,
      "epoch": 1.5084646082755724,
      "grad_norm": 2.078125,
      "learning_rate": 0.0004774730864939869,
      "loss": 5.378,
      "mean_token_accuracy": 0.16594540178775788,
      "num_tokens": 33113226.0,
      "step": 17955
    },
    {
      "entropy": 5.715326309204102,
      "epoch": 1.5088846880907374,
      "grad_norm": 1.3125,
      "learning_rate": 0.00047746002390903824,
      "loss": 5.3872,
      "mean_token_accuracy": 0.1708257630467415,
      "num_tokens": 33120824.0,
      "step": 17960
    },
    {
      "entropy": 5.746819305419922,
      "epoch": 1.5093047679059022,
      "grad_norm": 2.078125,
      "learning_rate": 0.0004774469577376145,
      "loss": 5.3633,
      "mean_token_accuracy": 0.17433841079473494,
      "num_tokens": 33129503.0,
      "step": 17965
    },
    {
      "entropy": 5.552629375457764,
      "epoch": 1.509724847721067,
      "grad_norm": 1.3125,
      "learning_rate": 0.00047743388797994715,
      "loss": 5.2681,
      "mean_token_accuracy": 0.17450862377882004,
      "num_tokens": 33138838.0,
      "step": 17970
    },
    {
      "entropy": 5.621928453445435,
      "epoch": 1.5101449275362318,
      "grad_norm": 1.4375,
      "learning_rate": 0.00047742081463626767,
      "loss": 5.3923,
      "mean_token_accuracy": 0.16948231309652328,
      "num_tokens": 33148142.0,
      "step": 17975
    },
    {
      "entropy": 5.645056867599488,
      "epoch": 1.5105650073513968,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004774077377068078,
      "loss": 5.3853,
      "mean_token_accuracy": 0.16999683529138565,
      "num_tokens": 33156750.0,
      "step": 17980
    },
    {
      "entropy": 5.755242204666137,
      "epoch": 1.5109850871665618,
      "grad_norm": 1.40625,
      "learning_rate": 0.000477394657191799,
      "loss": 5.5408,
      "mean_token_accuracy": 0.15939399749040603,
      "num_tokens": 33166511.0,
      "step": 17985
    },
    {
      "entropy": 5.70735993385315,
      "epoch": 1.5114051669817266,
      "grad_norm": 1.5625,
      "learning_rate": 0.00047738157309147307,
      "loss": 5.4727,
      "mean_token_accuracy": 0.16851068288087845,
      "num_tokens": 33175812.0,
      "step": 17990
    },
    {
      "entropy": 5.578419828414917,
      "epoch": 1.5118252467968913,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00047736848540606174,
      "loss": 5.3388,
      "mean_token_accuracy": 0.16674845963716506,
      "num_tokens": 33185201.0,
      "step": 17995
    },
    {
      "entropy": 5.634521389007569,
      "epoch": 1.5122453266120561,
      "grad_norm": 1.640625,
      "learning_rate": 0.000477355394135797,
      "loss": 5.3332,
      "mean_token_accuracy": 0.17178126722574233,
      "num_tokens": 33195151.0,
      "step": 18000
    },
    {
      "epoch": 1.5122453266120561,
      "eval_entropy": 5.504568783942394,
      "eval_loss": 5.480621814727783,
      "eval_mean_token_accuracy": 0.17380510120579043,
      "eval_num_tokens": 33195151.0,
      "eval_runtime": 27.2739,
      "eval_samples_per_second": 1370.028,
      "eval_steps_per_second": 171.263,
      "step": 18000
    },
    {
      "entropy": 5.7297890186309814,
      "epoch": 1.5126654064272211,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004773422992809106,
      "loss": 5.3859,
      "mean_token_accuracy": 0.16926338374614716,
      "num_tokens": 33204800.0,
      "step": 18005
    },
    {
      "entropy": 5.695334625244141,
      "epoch": 1.5130854862423861,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004773292008416346,
      "loss": 5.4322,
      "mean_token_accuracy": 0.1651061251759529,
      "num_tokens": 33214529.0,
      "step": 18010
    },
    {
      "entropy": 5.6870293617248535,
      "epoch": 1.513505566057551,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00047731609881820095,
      "loss": 5.4368,
      "mean_token_accuracy": 0.16418869495391847,
      "num_tokens": 33224522.0,
      "step": 18015
    },
    {
      "entropy": 5.750136613845825,
      "epoch": 1.5139256458727157,
      "grad_norm": 1.484375,
      "learning_rate": 0.00047730299321084173,
      "loss": 5.4425,
      "mean_token_accuracy": 0.16809688359498978,
      "num_tokens": 33233220.0,
      "step": 18020
    },
    {
      "entropy": 5.716884803771973,
      "epoch": 1.5143457256878807,
      "grad_norm": 1.421875,
      "learning_rate": 0.00047728988401978916,
      "loss": 5.3468,
      "mean_token_accuracy": 0.173400317132473,
      "num_tokens": 33242277.0,
      "step": 18025
    },
    {
      "entropy": 5.7281084060668945,
      "epoch": 1.5147658055030457,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004772767712452756,
      "loss": 5.4088,
      "mean_token_accuracy": 0.17954297214746476,
      "num_tokens": 33251113.0,
      "step": 18030
    },
    {
      "entropy": 5.60842080116272,
      "epoch": 1.5151858853182105,
      "grad_norm": 2.0,
      "learning_rate": 0.00047726365488753305,
      "loss": 5.548,
      "mean_token_accuracy": 0.15993862450122834,
      "num_tokens": 33261055.0,
      "step": 18035
    },
    {
      "entropy": 5.685538625717163,
      "epoch": 1.5156059651333753,
      "grad_norm": 1.78125,
      "learning_rate": 0.00047725053494679403,
      "loss": 5.5104,
      "mean_token_accuracy": 0.16750353425741196,
      "num_tokens": 33270981.0,
      "step": 18040
    },
    {
      "entropy": 5.811197137832641,
      "epoch": 1.51602604494854,
      "grad_norm": 1.65625,
      "learning_rate": 0.00047723741142329104,
      "loss": 5.4511,
      "mean_token_accuracy": 0.16344697326421737,
      "num_tokens": 33279516.0,
      "step": 18045
    },
    {
      "entropy": 5.623986768722534,
      "epoch": 1.516446124763705,
      "grad_norm": 1.578125,
      "learning_rate": 0.00047722428431725637,
      "loss": 5.372,
      "mean_token_accuracy": 0.17835780680179597,
      "num_tokens": 33288300.0,
      "step": 18050
    },
    {
      "entropy": 5.646885824203491,
      "epoch": 1.5168662045788701,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004772111536289226,
      "loss": 5.4115,
      "mean_token_accuracy": 0.1641728550195694,
      "num_tokens": 33299059.0,
      "step": 18055
    },
    {
      "entropy": 5.689133930206299,
      "epoch": 1.517286284394035,
      "grad_norm": 1.46875,
      "learning_rate": 0.00047719801935852235,
      "loss": 5.468,
      "mean_token_accuracy": 0.16429835706949233,
      "num_tokens": 33308879.0,
      "step": 18060
    },
    {
      "entropy": 5.763861560821534,
      "epoch": 1.5177063642091997,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004771848815062883,
      "loss": 5.5568,
      "mean_token_accuracy": 0.1608145996928215,
      "num_tokens": 33318615.0,
      "step": 18065
    },
    {
      "entropy": 5.809006929397583,
      "epoch": 1.5181264440243645,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004771717400724532,
      "loss": 5.5845,
      "mean_token_accuracy": 0.15996418967843057,
      "num_tokens": 33328748.0,
      "step": 18070
    },
    {
      "entropy": 5.765374803543091,
      "epoch": 1.5185465238395295,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004771585950572499,
      "loss": 5.3919,
      "mean_token_accuracy": 0.16406020075082778,
      "num_tokens": 33338350.0,
      "step": 18075
    },
    {
      "entropy": 5.623263883590698,
      "epoch": 1.5189666036546945,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004771454464609111,
      "loss": 5.4011,
      "mean_token_accuracy": 0.16918568760156633,
      "num_tokens": 33348202.0,
      "step": 18080
    },
    {
      "entropy": 5.613306331634521,
      "epoch": 1.5193866834698593,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004771322942836699,
      "loss": 5.3967,
      "mean_token_accuracy": 0.16765800267457961,
      "num_tokens": 33356996.0,
      "step": 18085
    },
    {
      "entropy": 5.791823196411133,
      "epoch": 1.519806763285024,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004771191385257592,
      "loss": 5.5247,
      "mean_token_accuracy": 0.16046885251998902,
      "num_tokens": 33366173.0,
      "step": 18090
    },
    {
      "entropy": 5.713813591003418,
      "epoch": 1.520226843100189,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004771059791874119,
      "loss": 5.4365,
      "mean_token_accuracy": 0.15948131680488586,
      "num_tokens": 33375921.0,
      "step": 18095
    },
    {
      "entropy": 5.6319067001342775,
      "epoch": 1.520646922915354,
      "grad_norm": 2.9375,
      "learning_rate": 0.0004770928162688613,
      "loss": 5.4232,
      "mean_token_accuracy": 0.16363133490085602,
      "num_tokens": 33385538.0,
      "step": 18100
    },
    {
      "entropy": 5.633490324020386,
      "epoch": 1.5210670027305189,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00047707964977034055,
      "loss": 5.3274,
      "mean_token_accuracy": 0.18080521374940872,
      "num_tokens": 33393728.0,
      "step": 18105
    },
    {
      "entropy": 5.776975011825561,
      "epoch": 1.5214870825456837,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004770664796920828,
      "loss": 5.4259,
      "mean_token_accuracy": 0.1658819019794464,
      "num_tokens": 33402540.0,
      "step": 18110
    },
    {
      "entropy": 5.648982095718384,
      "epoch": 1.5219071623608484,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0004770533060343215,
      "loss": 5.3993,
      "mean_token_accuracy": 0.1668563425540924,
      "num_tokens": 33411706.0,
      "step": 18115
    },
    {
      "entropy": 5.619913053512573,
      "epoch": 1.5223272421760135,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004770401287972899,
      "loss": 5.346,
      "mean_token_accuracy": 0.17197668105363845,
      "num_tokens": 33420604.0,
      "step": 18120
    },
    {
      "entropy": 5.612928819656372,
      "epoch": 1.5227473219911785,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00047702694798122143,
      "loss": 5.3312,
      "mean_token_accuracy": 0.18267546892166137,
      "num_tokens": 33429558.0,
      "step": 18125
    },
    {
      "entropy": 5.845659017562866,
      "epoch": 1.5231674018063432,
      "grad_norm": 1.640625,
      "learning_rate": 0.00047701376358634957,
      "loss": 5.5331,
      "mean_token_accuracy": 0.16271810382604598,
      "num_tokens": 33439620.0,
      "step": 18130
    },
    {
      "entropy": 5.746625709533691,
      "epoch": 1.523587481621508,
      "grad_norm": 1.6875,
      "learning_rate": 0.00047700057561290797,
      "loss": 5.4849,
      "mean_token_accuracy": 0.1619314581155777,
      "num_tokens": 33449067.0,
      "step": 18135
    },
    {
      "entropy": 5.6104577541351315,
      "epoch": 1.5240075614366728,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004769873840611302,
      "loss": 5.388,
      "mean_token_accuracy": 0.17093031108379364,
      "num_tokens": 33458089.0,
      "step": 18140
    },
    {
      "entropy": 5.674795293807984,
      "epoch": 1.5244276412518378,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004769741889312499,
      "loss": 5.4976,
      "mean_token_accuracy": 0.1689228668808937,
      "num_tokens": 33466883.0,
      "step": 18145
    },
    {
      "entropy": 5.725237464904785,
      "epoch": 1.5248477210670028,
      "grad_norm": 1.375,
      "learning_rate": 0.00047696099022350087,
      "loss": 5.5247,
      "mean_token_accuracy": 0.15924528241157532,
      "num_tokens": 33476649.0,
      "step": 18150
    },
    {
      "entropy": 5.798870325088501,
      "epoch": 1.5252678008821676,
      "grad_norm": 1.609375,
      "learning_rate": 0.00047694778793811685,
      "loss": 5.4913,
      "mean_token_accuracy": 0.16371531635522843,
      "num_tokens": 33486274.0,
      "step": 18155
    },
    {
      "entropy": 5.731025695800781,
      "epoch": 1.5256878806973324,
      "grad_norm": 1.609375,
      "learning_rate": 0.00047693458207533177,
      "loss": 5.3745,
      "mean_token_accuracy": 0.1666399672627449,
      "num_tokens": 33494950.0,
      "step": 18160
    },
    {
      "entropy": 5.659780883789063,
      "epoch": 1.5261079605124974,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004769213726353795,
      "loss": 5.3996,
      "mean_token_accuracy": 0.1708945393562317,
      "num_tokens": 33503545.0,
      "step": 18165
    },
    {
      "entropy": 5.648102521896362,
      "epoch": 1.5265280403276622,
      "grad_norm": 1.5625,
      "learning_rate": 0.00047690815961849416,
      "loss": 5.4462,
      "mean_token_accuracy": 0.1661043107509613,
      "num_tokens": 33512871.0,
      "step": 18170
    },
    {
      "entropy": 5.623683214187622,
      "epoch": 1.5269481201428272,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004768949430249097,
      "loss": 5.3626,
      "mean_token_accuracy": 0.16892132312059402,
      "num_tokens": 33521933.0,
      "step": 18175
    },
    {
      "entropy": 5.672886848449707,
      "epoch": 1.527368199957992,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004768817228548603,
      "loss": 5.3511,
      "mean_token_accuracy": 0.1706907257437706,
      "num_tokens": 33531370.0,
      "step": 18180
    },
    {
      "entropy": 5.755971002578735,
      "epoch": 1.5277882797731568,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0004768684991085802,
      "loss": 5.4365,
      "mean_token_accuracy": 0.16248024702072145,
      "num_tokens": 33540310.0,
      "step": 18185
    },
    {
      "entropy": 5.687887954711914,
      "epoch": 1.5282083595883218,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00047685527178630347,
      "loss": 5.4598,
      "mean_token_accuracy": 0.16537974774837494,
      "num_tokens": 33549943.0,
      "step": 18190
    },
    {
      "entropy": 5.752259922027588,
      "epoch": 1.5286284394034868,
      "grad_norm": 1.96875,
      "learning_rate": 0.0004768420408882646,
      "loss": 5.5298,
      "mean_token_accuracy": 0.16441700905561446,
      "num_tokens": 33560167.0,
      "step": 18195
    },
    {
      "entropy": 5.757403898239136,
      "epoch": 1.5290485192186516,
      "grad_norm": 1.59375,
      "learning_rate": 0.00047682880641469787,
      "loss": 5.4111,
      "mean_token_accuracy": 0.16261017471551895,
      "num_tokens": 33569604.0,
      "step": 18200
    },
    {
      "entropy": 5.701638650894165,
      "epoch": 1.5294685990338164,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004768155683658378,
      "loss": 5.3972,
      "mean_token_accuracy": 0.168385748565197,
      "num_tokens": 33578400.0,
      "step": 18205
    },
    {
      "entropy": 5.596540117263794,
      "epoch": 1.5298886788489812,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004768023267419188,
      "loss": 5.3728,
      "mean_token_accuracy": 0.16698229908943177,
      "num_tokens": 33587527.0,
      "step": 18210
    },
    {
      "entropy": 5.585406541824341,
      "epoch": 1.5303087586641462,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004767890815431756,
      "loss": 5.31,
      "mean_token_accuracy": 0.1722709432244301,
      "num_tokens": 33596026.0,
      "step": 18215
    },
    {
      "entropy": 5.698364782333374,
      "epoch": 1.5307288384793112,
      "grad_norm": 1.375,
      "learning_rate": 0.00047677583276984264,
      "loss": 5.3995,
      "mean_token_accuracy": 0.16997897922992705,
      "num_tokens": 33605906.0,
      "step": 18220
    },
    {
      "entropy": 5.687321901321411,
      "epoch": 1.531148918294476,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004767625804221548,
      "loss": 5.36,
      "mean_token_accuracy": 0.17047615945339203,
      "num_tokens": 33615758.0,
      "step": 18225
    },
    {
      "entropy": 5.662997770309448,
      "epoch": 1.5315689981096408,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004767493245003466,
      "loss": 5.4245,
      "mean_token_accuracy": 0.18040256053209305,
      "num_tokens": 33625486.0,
      "step": 18230
    },
    {
      "entropy": 5.663189315795899,
      "epoch": 1.5319890779248058,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00047673606500465315,
      "loss": 5.3718,
      "mean_token_accuracy": 0.17638310939073562,
      "num_tokens": 33633954.0,
      "step": 18235
    },
    {
      "entropy": 5.633836793899536,
      "epoch": 1.5324091577399706,
      "grad_norm": 1.671875,
      "learning_rate": 0.000476722801935309,
      "loss": 5.4511,
      "mean_token_accuracy": 0.166046205163002,
      "num_tokens": 33642478.0,
      "step": 18240
    },
    {
      "entropy": 5.6103380680084225,
      "epoch": 1.5328292375551356,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004767095352925495,
      "loss": 5.3701,
      "mean_token_accuracy": 0.1702152296900749,
      "num_tokens": 33650785.0,
      "step": 18245
    },
    {
      "entropy": 5.659248542785645,
      "epoch": 1.5332493173703003,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004766962650766093,
      "loss": 5.3337,
      "mean_token_accuracy": 0.17309417128562926,
      "num_tokens": 33659677.0,
      "step": 18250
    },
    {
      "entropy": 5.716655015945435,
      "epoch": 1.5336693971854651,
      "grad_norm": 1.8125,
      "learning_rate": 0.00047668299128772365,
      "loss": 5.5052,
      "mean_token_accuracy": 0.1620546281337738,
      "num_tokens": 33669493.0,
      "step": 18255
    },
    {
      "entropy": 5.766137742996216,
      "epoch": 1.5340894770006301,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004766697139261277,
      "loss": 5.4809,
      "mean_token_accuracy": 0.1693834885954857,
      "num_tokens": 33678446.0,
      "step": 18260
    },
    {
      "entropy": 5.688551139831543,
      "epoch": 1.5345095568157952,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004766564329920566,
      "loss": 5.3417,
      "mean_token_accuracy": 0.17938026487827302,
      "num_tokens": 33687647.0,
      "step": 18265
    },
    {
      "entropy": 5.66825041770935,
      "epoch": 1.53492963663096,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004766431484857456,
      "loss": 5.4354,
      "mean_token_accuracy": 0.1683764412999153,
      "num_tokens": 33697395.0,
      "step": 18270
    },
    {
      "entropy": 5.6449426174163815,
      "epoch": 1.5353497164461247,
      "grad_norm": 1.4375,
      "learning_rate": 0.00047662986040743004,
      "loss": 5.4179,
      "mean_token_accuracy": 0.1762421429157257,
      "num_tokens": 33706779.0,
      "step": 18275
    },
    {
      "entropy": 5.6319070816040036,
      "epoch": 1.5357697962612895,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004766165687573454,
      "loss": 5.399,
      "mean_token_accuracy": 0.16638792753219606,
      "num_tokens": 33714828.0,
      "step": 18280
    },
    {
      "entropy": 5.7225525856018065,
      "epoch": 1.5361898760764545,
      "grad_norm": 1.875,
      "learning_rate": 0.000476603273535727,
      "loss": 5.4058,
      "mean_token_accuracy": 0.16816843450069427,
      "num_tokens": 33724730.0,
      "step": 18285
    },
    {
      "entropy": 5.7629804611206055,
      "epoch": 1.5366099558916195,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004765899747428104,
      "loss": 5.4813,
      "mean_token_accuracy": 0.16490163505077363,
      "num_tokens": 33734374.0,
      "step": 18290
    },
    {
      "entropy": 5.7630139827728275,
      "epoch": 1.5370300357067843,
      "grad_norm": 1.6875,
      "learning_rate": 0.00047657667237883125,
      "loss": 5.4618,
      "mean_token_accuracy": 0.17239924520254135,
      "num_tokens": 33743395.0,
      "step": 18295
    },
    {
      "entropy": 5.72203483581543,
      "epoch": 1.537450115521949,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00047656336644402513,
      "loss": 5.5038,
      "mean_token_accuracy": 0.1658702626824379,
      "num_tokens": 33752526.0,
      "step": 18300
    },
    {
      "entropy": 5.73434624671936,
      "epoch": 1.5378701953371139,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004765500569386278,
      "loss": 5.4341,
      "mean_token_accuracy": 0.17372529208660126,
      "num_tokens": 33761310.0,
      "step": 18305
    },
    {
      "entropy": 5.630677986145019,
      "epoch": 1.538290275152279,
      "grad_norm": 1.765625,
      "learning_rate": 0.000476536743862875,
      "loss": 5.3564,
      "mean_token_accuracy": 0.17069067656993867,
      "num_tokens": 33770870.0,
      "step": 18310
    },
    {
      "entropy": 5.587197399139404,
      "epoch": 1.538710354967444,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00047652342721700246,
      "loss": 5.3123,
      "mean_token_accuracy": 0.16748333871364593,
      "num_tokens": 33779648.0,
      "step": 18315
    },
    {
      "entropy": 5.689319229125976,
      "epoch": 1.5391304347826087,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004765101070012462,
      "loss": 5.5059,
      "mean_token_accuracy": 0.1615031287074089,
      "num_tokens": 33789172.0,
      "step": 18320
    },
    {
      "entropy": 5.810400390625,
      "epoch": 1.5395505145977735,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00047649678321584214,
      "loss": 5.4895,
      "mean_token_accuracy": 0.15798811763525009,
      "num_tokens": 33798069.0,
      "step": 18325
    },
    {
      "entropy": 5.732732534408569,
      "epoch": 1.5399705944129385,
      "grad_norm": 1.453125,
      "learning_rate": 0.00047648345586102643,
      "loss": 5.4397,
      "mean_token_accuracy": 0.16982662975788115,
      "num_tokens": 33806214.0,
      "step": 18330
    },
    {
      "entropy": 5.712227535247803,
      "epoch": 1.5403906742281035,
      "grad_norm": 1.8984375,
      "learning_rate": 0.000476470124937035,
      "loss": 5.4266,
      "mean_token_accuracy": 0.17047962546348572,
      "num_tokens": 33815365.0,
      "step": 18335
    },
    {
      "entropy": 5.728869104385376,
      "epoch": 1.5408107540432683,
      "grad_norm": 1.421875,
      "learning_rate": 0.000476456790444104,
      "loss": 5.3487,
      "mean_token_accuracy": 0.17773585617542267,
      "num_tokens": 33825204.0,
      "step": 18340
    },
    {
      "entropy": 5.687373256683349,
      "epoch": 1.541230833858433,
      "grad_norm": 2.34375,
      "learning_rate": 0.0004764434523824697,
      "loss": 5.4619,
      "mean_token_accuracy": 0.1697180077433586,
      "num_tokens": 33834439.0,
      "step": 18345
    },
    {
      "entropy": 5.622870349884034,
      "epoch": 1.5416509136735979,
      "grad_norm": 1.703125,
      "learning_rate": 0.00047643011075236845,
      "loss": 5.4381,
      "mean_token_accuracy": 0.1638789251446724,
      "num_tokens": 33843959.0,
      "step": 18350
    },
    {
      "entropy": 5.776487016677857,
      "epoch": 1.5420709934887629,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00047641676555403646,
      "loss": 5.4804,
      "mean_token_accuracy": 0.15986314862966539,
      "num_tokens": 33853234.0,
      "step": 18355
    },
    {
      "entropy": 5.695157814025879,
      "epoch": 1.5424910733039279,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004764034167877102,
      "loss": 5.3797,
      "mean_token_accuracy": 0.16742191165685655,
      "num_tokens": 33861755.0,
      "step": 18360
    },
    {
      "entropy": 5.719500398635864,
      "epoch": 1.5429111531190927,
      "grad_norm": 1.828125,
      "learning_rate": 0.00047639006445362607,
      "loss": 5.4946,
      "mean_token_accuracy": 0.16939375996589662,
      "num_tokens": 33870956.0,
      "step": 18365
    },
    {
      "entropy": 5.639527320861816,
      "epoch": 1.5433312329342574,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004763767085520207,
      "loss": 5.3368,
      "mean_token_accuracy": 0.17298437505960465,
      "num_tokens": 33880568.0,
      "step": 18370
    },
    {
      "entropy": 5.727531051635742,
      "epoch": 1.5437513127494222,
      "grad_norm": 2.078125,
      "learning_rate": 0.0004763633490831306,
      "loss": 5.5471,
      "mean_token_accuracy": 0.15493866950273513,
      "num_tokens": 33890145.0,
      "step": 18375
    },
    {
      "entropy": 5.6116053581237795,
      "epoch": 1.5441713925645872,
      "grad_norm": 1.78125,
      "learning_rate": 0.0004763499860471925,
      "loss": 5.3965,
      "mean_token_accuracy": 0.16893347650766372,
      "num_tokens": 33899155.0,
      "step": 18380
    },
    {
      "entropy": 5.6794798374176025,
      "epoch": 1.5445914723797523,
      "grad_norm": 1.59375,
      "learning_rate": 0.000476336619444443,
      "loss": 5.4366,
      "mean_token_accuracy": 0.16216899007558822,
      "num_tokens": 33909410.0,
      "step": 18385
    },
    {
      "entropy": 5.643740177154541,
      "epoch": 1.545011552194917,
      "grad_norm": 1.4609375,
      "learning_rate": 0.000476323249275119,
      "loss": 5.3071,
      "mean_token_accuracy": 0.17813037484884262,
      "num_tokens": 33918451.0,
      "step": 18390
    },
    {
      "entropy": 5.5850482940673825,
      "epoch": 1.5454316320100818,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004763098755394573,
      "loss": 5.3449,
      "mean_token_accuracy": 0.17247679233551025,
      "num_tokens": 33928317.0,
      "step": 18395
    },
    {
      "entropy": 5.704434871673584,
      "epoch": 1.5458517118252468,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004762964982376949,
      "loss": 5.5166,
      "mean_token_accuracy": 0.16591467410326005,
      "num_tokens": 33938010.0,
      "step": 18400
    },
    {
      "entropy": 5.716954278945923,
      "epoch": 1.5462717916404118,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00047628311737006856,
      "loss": 5.3336,
      "mean_token_accuracy": 0.1735645353794098,
      "num_tokens": 33946964.0,
      "step": 18405
    },
    {
      "entropy": 5.686046504974366,
      "epoch": 1.5466918714555766,
      "grad_norm": 1.359375,
      "learning_rate": 0.00047626973293681555,
      "loss": 5.349,
      "mean_token_accuracy": 0.16914291232824324,
      "num_tokens": 33956026.0,
      "step": 18410
    },
    {
      "entropy": 5.612794685363769,
      "epoch": 1.5471119512707414,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004762563449381728,
      "loss": 5.3924,
      "mean_token_accuracy": 0.16146431416273116,
      "num_tokens": 33965787.0,
      "step": 18415
    },
    {
      "entropy": 5.663423538208008,
      "epoch": 1.5475320310859062,
      "grad_norm": 1.796875,
      "learning_rate": 0.00047624295337437753,
      "loss": 5.4273,
      "mean_token_accuracy": 0.1688649833202362,
      "num_tokens": 33974178.0,
      "step": 18420
    },
    {
      "entropy": 5.628804731369018,
      "epoch": 1.5479521109010712,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004762295582456669,
      "loss": 5.2858,
      "mean_token_accuracy": 0.17369863390922546,
      "num_tokens": 33983652.0,
      "step": 18425
    },
    {
      "entropy": 5.696892833709716,
      "epoch": 1.5483721907162362,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00047621615955227835,
      "loss": 5.3687,
      "mean_token_accuracy": 0.1774067535996437,
      "num_tokens": 33991938.0,
      "step": 18430
    },
    {
      "entropy": 5.6132800579071045,
      "epoch": 1.548792270531401,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004762027572944491,
      "loss": 5.3544,
      "mean_token_accuracy": 0.16801770478487016,
      "num_tokens": 33999918.0,
      "step": 18435
    },
    {
      "entropy": 5.5902656555175785,
      "epoch": 1.5492123503465658,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00047618935147241667,
      "loss": 5.3731,
      "mean_token_accuracy": 0.17459045797586442,
      "num_tokens": 34008416.0,
      "step": 18440
    },
    {
      "entropy": 5.701586627960205,
      "epoch": 1.5496324301617306,
      "grad_norm": 3.453125,
      "learning_rate": 0.0004761759420864184,
      "loss": 5.4532,
      "mean_token_accuracy": 0.16581283658742904,
      "num_tokens": 34017616.0,
      "step": 18445
    },
    {
      "entropy": 5.712861061096191,
      "epoch": 1.5500525099768956,
      "grad_norm": 1.7265625,
      "learning_rate": 0.000476162529136692,
      "loss": 5.3818,
      "mean_token_accuracy": 0.17086593359708785,
      "num_tokens": 34026064.0,
      "step": 18450
    },
    {
      "entropy": 5.564694118499756,
      "epoch": 1.5504725897920606,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004761491126234749,
      "loss": 5.2959,
      "mean_token_accuracy": 0.1739438533782959,
      "num_tokens": 34035378.0,
      "step": 18455
    },
    {
      "entropy": 5.6146468162536625,
      "epoch": 1.5508926696072254,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004761356925470049,
      "loss": 5.3503,
      "mean_token_accuracy": 0.1704146921634674,
      "num_tokens": 34044600.0,
      "step": 18460
    },
    {
      "entropy": 5.710069417953491,
      "epoch": 1.5513127494223902,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00047612226890751956,
      "loss": 5.4336,
      "mean_token_accuracy": 0.16696672439575194,
      "num_tokens": 34054680.0,
      "step": 18465
    },
    {
      "entropy": 5.65276689529419,
      "epoch": 1.5517328292375552,
      "grad_norm": 1.375,
      "learning_rate": 0.00047610884170525697,
      "loss": 5.3498,
      "mean_token_accuracy": 0.1752360135316849,
      "num_tokens": 34063034.0,
      "step": 18470
    },
    {
      "entropy": 5.627860975265503,
      "epoch": 1.55215290905272,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004760954109404547,
      "loss": 5.351,
      "mean_token_accuracy": 0.17447586208581925,
      "num_tokens": 34072122.0,
      "step": 18475
    },
    {
      "entropy": 5.674824905395508,
      "epoch": 1.552572988867885,
      "grad_norm": 2.890625,
      "learning_rate": 0.0004760819766133508,
      "loss": 5.3586,
      "mean_token_accuracy": 0.16940293908119203,
      "num_tokens": 34081493.0,
      "step": 18480
    },
    {
      "entropy": 5.668784093856812,
      "epoch": 1.5529930686830498,
      "grad_norm": 1.703125,
      "learning_rate": 0.00047606853872418317,
      "loss": 5.4445,
      "mean_token_accuracy": 0.16179682463407516,
      "num_tokens": 34090872.0,
      "step": 18485
    },
    {
      "entropy": 5.624145078659057,
      "epoch": 1.5534131484982145,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004760550972731899,
      "loss": 5.3052,
      "mean_token_accuracy": 0.1742589369416237,
      "num_tokens": 34100729.0,
      "step": 18490
    },
    {
      "entropy": 5.540934467315674,
      "epoch": 1.5538332283133796,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004760416522606092,
      "loss": 5.2939,
      "mean_token_accuracy": 0.1751124456524849,
      "num_tokens": 34109492.0,
      "step": 18495
    },
    {
      "entropy": 5.580523681640625,
      "epoch": 1.5542533081285446,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004760282036866791,
      "loss": 5.4,
      "mean_token_accuracy": 0.17484914511442184,
      "num_tokens": 34119529.0,
      "step": 18500
    },
    {
      "entropy": 5.76246075630188,
      "epoch": 1.5546733879437094,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004760147515516379,
      "loss": 5.4362,
      "mean_token_accuracy": 0.1649763211607933,
      "num_tokens": 34128261.0,
      "step": 18505
    },
    {
      "entropy": 5.6341499328613285,
      "epoch": 1.5550934677588741,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00047600129585572386,
      "loss": 5.4324,
      "mean_token_accuracy": 0.17126839607954025,
      "num_tokens": 34136916.0,
      "step": 18510
    },
    {
      "entropy": 5.713113260269165,
      "epoch": 1.555513547574039,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004759878365991754,
      "loss": 5.3471,
      "mean_token_accuracy": 0.17166002988815307,
      "num_tokens": 34146400.0,
      "step": 18515
    },
    {
      "entropy": 5.674141216278076,
      "epoch": 1.555933627389204,
      "grad_norm": 2.25,
      "learning_rate": 0.0004759743737822309,
      "loss": 5.3993,
      "mean_token_accuracy": 0.1691730111837387,
      "num_tokens": 34155611.0,
      "step": 18520
    },
    {
      "entropy": 5.65713849067688,
      "epoch": 1.556353707204369,
      "grad_norm": 1.984375,
      "learning_rate": 0.00047596090740512884,
      "loss": 5.428,
      "mean_token_accuracy": 0.1695108011364937,
      "num_tokens": 34165301.0,
      "step": 18525
    },
    {
      "entropy": 5.70047779083252,
      "epoch": 1.5567737870195337,
      "grad_norm": 2.03125,
      "learning_rate": 0.00047594743746810786,
      "loss": 5.4018,
      "mean_token_accuracy": 0.16435787677764893,
      "num_tokens": 34174655.0,
      "step": 18530
    },
    {
      "entropy": 5.802553367614746,
      "epoch": 1.5571938668346985,
      "grad_norm": 1.5625,
      "learning_rate": 0.00047593396397140644,
      "loss": 5.5507,
      "mean_token_accuracy": 0.1595836400985718,
      "num_tokens": 34184293.0,
      "step": 18535
    },
    {
      "entropy": 5.7214781761169435,
      "epoch": 1.5576139466498635,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004759204869152632,
      "loss": 5.4373,
      "mean_token_accuracy": 0.16149042397737504,
      "num_tokens": 34193025.0,
      "step": 18540
    },
    {
      "entropy": 5.620850515365601,
      "epoch": 1.5580340264650283,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004759070062999171,
      "loss": 5.3478,
      "mean_token_accuracy": 0.1678580015897751,
      "num_tokens": 34201082.0,
      "step": 18545
    },
    {
      "entropy": 5.739461946487427,
      "epoch": 1.5584541062801933,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004758935221256069,
      "loss": 5.4907,
      "mean_token_accuracy": 0.16538347899913788,
      "num_tokens": 34211210.0,
      "step": 18550
    },
    {
      "entropy": 5.702043962478638,
      "epoch": 1.558874186095358,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00047588003439257134,
      "loss": 5.4279,
      "mean_token_accuracy": 0.1693740040063858,
      "num_tokens": 34220309.0,
      "step": 18555
    },
    {
      "entropy": 5.728823947906494,
      "epoch": 1.559294265910523,
      "grad_norm": 1.890625,
      "learning_rate": 0.00047586654310104946,
      "loss": 5.4202,
      "mean_token_accuracy": 0.1592714488506317,
      "num_tokens": 34229532.0,
      "step": 18560
    },
    {
      "entropy": 5.792129182815552,
      "epoch": 1.559714345725688,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004758530482512801,
      "loss": 5.6455,
      "mean_token_accuracy": 0.15465014576911926,
      "num_tokens": 34239543.0,
      "step": 18565
    },
    {
      "entropy": 5.7673375606536865,
      "epoch": 1.560134425540853,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004758395498435024,
      "loss": 5.4486,
      "mean_token_accuracy": 0.16822385787963867,
      "num_tokens": 34248654.0,
      "step": 18570
    },
    {
      "entropy": 5.71659140586853,
      "epoch": 1.5605545053560177,
      "grad_norm": 1.734375,
      "learning_rate": 0.00047582604787795555,
      "loss": 5.4313,
      "mean_token_accuracy": 0.16151682287454605,
      "num_tokens": 34258757.0,
      "step": 18575
    },
    {
      "entropy": 5.668481111526489,
      "epoch": 1.5609745851711825,
      "grad_norm": 2.578125,
      "learning_rate": 0.0004758125423548787,
      "loss": 5.4308,
      "mean_token_accuracy": 0.1640526682138443,
      "num_tokens": 34268253.0,
      "step": 18580
    },
    {
      "entropy": 5.759385299682617,
      "epoch": 1.5613946649863473,
      "grad_norm": 1.4375,
      "learning_rate": 0.00047579903327451097,
      "loss": 5.4909,
      "mean_token_accuracy": 0.1663891091942787,
      "num_tokens": 34277361.0,
      "step": 18585
    },
    {
      "entropy": 5.640477037429809,
      "epoch": 1.5618147448015123,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004757855206370919,
      "loss": 5.3618,
      "mean_token_accuracy": 0.16783252209424973,
      "num_tokens": 34285923.0,
      "step": 18590
    },
    {
      "entropy": 5.600503778457641,
      "epoch": 1.5622348246166773,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00047577200444286064,
      "loss": 5.3768,
      "mean_token_accuracy": 0.1716615855693817,
      "num_tokens": 34296300.0,
      "step": 18595
    },
    {
      "entropy": 5.766132545471192,
      "epoch": 1.562654904431842,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004757584846920567,
      "loss": 5.4101,
      "mean_token_accuracy": 0.16635561734437943,
      "num_tokens": 34305757.0,
      "step": 18600
    },
    {
      "entropy": 5.677987813949585,
      "epoch": 1.5630749842470069,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004757449613849196,
      "loss": 5.4464,
      "mean_token_accuracy": 0.16000643074512483,
      "num_tokens": 34314714.0,
      "step": 18605
    },
    {
      "entropy": 5.718979597091675,
      "epoch": 1.5634950640621716,
      "grad_norm": 1.5,
      "learning_rate": 0.00047573143452168883,
      "loss": 5.473,
      "mean_token_accuracy": 0.16973401680588723,
      "num_tokens": 34323501.0,
      "step": 18610
    },
    {
      "entropy": 5.73273868560791,
      "epoch": 1.5639151438773367,
      "grad_norm": 1.703125,
      "learning_rate": 0.00047571790410260405,
      "loss": 5.4017,
      "mean_token_accuracy": 0.17346812933683395,
      "num_tokens": 34331752.0,
      "step": 18615
    },
    {
      "entropy": 5.717556381225586,
      "epoch": 1.5643352236925017,
      "grad_norm": 1.9140625,
      "learning_rate": 0.000475704370127905,
      "loss": 5.4609,
      "mean_token_accuracy": 0.16100564748048782,
      "num_tokens": 34341479.0,
      "step": 18620
    },
    {
      "entropy": 5.6721264839172365,
      "epoch": 1.5647553035076665,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004756908325978314,
      "loss": 5.4556,
      "mean_token_accuracy": 0.1629202827811241,
      "num_tokens": 34350991.0,
      "step": 18625
    },
    {
      "entropy": 5.697770977020264,
      "epoch": 1.5651753833228312,
      "grad_norm": 1.71875,
      "learning_rate": 0.00047567729151262305,
      "loss": 5.3765,
      "mean_token_accuracy": 0.16833187639713287,
      "num_tokens": 34360089.0,
      "step": 18630
    },
    {
      "entropy": 5.693409872055054,
      "epoch": 1.5655954631379962,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004756637468725198,
      "loss": 5.3417,
      "mean_token_accuracy": 0.17019174247980118,
      "num_tokens": 34370352.0,
      "step": 18635
    },
    {
      "entropy": 5.6412163257598875,
      "epoch": 1.5660155429531613,
      "grad_norm": 1.5,
      "learning_rate": 0.0004756501986777616,
      "loss": 5.3334,
      "mean_token_accuracy": 0.1646198183298111,
      "num_tokens": 34378958.0,
      "step": 18640
    },
    {
      "entropy": 5.577014398574829,
      "epoch": 1.566435622768326,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00047563664692858843,
      "loss": 5.3075,
      "mean_token_accuracy": 0.17557633221149443,
      "num_tokens": 34387723.0,
      "step": 18645
    },
    {
      "entropy": 5.667887926101685,
      "epoch": 1.5668557025834908,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004756230916252404,
      "loss": 5.4322,
      "mean_token_accuracy": 0.17246091961860657,
      "num_tokens": 34397089.0,
      "step": 18650
    },
    {
      "entropy": 5.754067516326904,
      "epoch": 1.5672757823986556,
      "grad_norm": 1.640625,
      "learning_rate": 0.00047560953276795756,
      "loss": 5.4493,
      "mean_token_accuracy": 0.1675298720598221,
      "num_tokens": 34406278.0,
      "step": 18655
    },
    {
      "entropy": 5.7338409423828125,
      "epoch": 1.5676958622138206,
      "grad_norm": 4.75,
      "learning_rate": 0.00047559597035698014,
      "loss": 5.4153,
      "mean_token_accuracy": 0.16818469762802124,
      "num_tokens": 34415404.0,
      "step": 18660
    },
    {
      "entropy": 5.689050960540771,
      "epoch": 1.5681159420289856,
      "grad_norm": 1.78125,
      "learning_rate": 0.0004755824043925485,
      "loss": 5.4658,
      "mean_token_accuracy": 0.17355379313230515,
      "num_tokens": 34425036.0,
      "step": 18665
    },
    {
      "entropy": 5.6759899139404295,
      "epoch": 1.5685360218441504,
      "grad_norm": 2.0625,
      "learning_rate": 0.0004755688348749027,
      "loss": 5.3721,
      "mean_token_accuracy": 0.16852474361658096,
      "num_tokens": 34434246.0,
      "step": 18670
    },
    {
      "entropy": 5.6307172775268555,
      "epoch": 1.5689561016593152,
      "grad_norm": 1.875,
      "learning_rate": 0.0004755552618042834,
      "loss": 5.3735,
      "mean_token_accuracy": 0.1715213656425476,
      "num_tokens": 34444189.0,
      "step": 18675
    },
    {
      "entropy": 5.694113779067993,
      "epoch": 1.56937618147448,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004755416851809308,
      "loss": 5.3705,
      "mean_token_accuracy": 0.17202963531017304,
      "num_tokens": 34453727.0,
      "step": 18680
    },
    {
      "entropy": 5.555972719192505,
      "epoch": 1.569796261289645,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004755281050050856,
      "loss": 5.3687,
      "mean_token_accuracy": 0.16777419596910476,
      "num_tokens": 34462835.0,
      "step": 18685
    },
    {
      "entropy": 5.644486761093139,
      "epoch": 1.57021634110481,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004755145212769882,
      "loss": 5.4169,
      "mean_token_accuracy": 0.16981538236141205,
      "num_tokens": 34471642.0,
      "step": 18690
    },
    {
      "entropy": 5.722853660583496,
      "epoch": 1.5706364209199748,
      "grad_norm": 1.390625,
      "learning_rate": 0.00047550093399687936,
      "loss": 5.3804,
      "mean_token_accuracy": 0.16804203689098357,
      "num_tokens": 34480468.0,
      "step": 18695
    },
    {
      "entropy": 5.763798809051513,
      "epoch": 1.5710565007351396,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004754873431649997,
      "loss": 5.4243,
      "mean_token_accuracy": 0.16598083227872848,
      "num_tokens": 34490299.0,
      "step": 18700
    },
    {
      "entropy": 5.668231630325318,
      "epoch": 1.5714765805503046,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00047547374878159003,
      "loss": 5.4338,
      "mean_token_accuracy": 0.1664573848247528,
      "num_tokens": 34498831.0,
      "step": 18705
    },
    {
      "entropy": 5.675115299224854,
      "epoch": 1.5718966603654696,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004754601508468911,
      "loss": 5.4249,
      "mean_token_accuracy": 0.16958544850349427,
      "num_tokens": 34508048.0,
      "step": 18710
    },
    {
      "entropy": 5.676489400863647,
      "epoch": 1.5723167401806344,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004754465493611438,
      "loss": 5.5091,
      "mean_token_accuracy": 0.16318027675151825,
      "num_tokens": 34517070.0,
      "step": 18715
    },
    {
      "entropy": 5.6339551448822025,
      "epoch": 1.5727368199957992,
      "grad_norm": 1.84375,
      "learning_rate": 0.00047543294432458904,
      "loss": 5.2937,
      "mean_token_accuracy": 0.1759590983390808,
      "num_tokens": 34525934.0,
      "step": 18720
    },
    {
      "entropy": 5.744489860534668,
      "epoch": 1.573156899810964,
      "grad_norm": 1.4296875,
      "learning_rate": 0.000475419335737468,
      "loss": 5.5149,
      "mean_token_accuracy": 0.16737214624881744,
      "num_tokens": 34534222.0,
      "step": 18725
    },
    {
      "entropy": 5.750201940536499,
      "epoch": 1.573576979626129,
      "grad_norm": 2.8125,
      "learning_rate": 0.00047540572360002157,
      "loss": 5.4944,
      "mean_token_accuracy": 0.16553839445114135,
      "num_tokens": 34543291.0,
      "step": 18730
    },
    {
      "entropy": 5.757966184616089,
      "epoch": 1.573997059441294,
      "grad_norm": 1.578125,
      "learning_rate": 0.00047539210791249095,
      "loss": 5.363,
      "mean_token_accuracy": 0.17250452637672425,
      "num_tokens": 34552383.0,
      "step": 18735
    },
    {
      "entropy": 5.687971353530884,
      "epoch": 1.5744171392564588,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004753784886751173,
      "loss": 5.3368,
      "mean_token_accuracy": 0.1798310786485672,
      "num_tokens": 34560311.0,
      "step": 18740
    },
    {
      "entropy": 5.587876176834106,
      "epoch": 1.5748372190716236,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004753648658881419,
      "loss": 5.3912,
      "mean_token_accuracy": 0.17629951983690262,
      "num_tokens": 34569903.0,
      "step": 18745
    },
    {
      "entropy": 5.642320442199707,
      "epoch": 1.5752572988867883,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00047535123955180607,
      "loss": 5.4037,
      "mean_token_accuracy": 0.16801706254482268,
      "num_tokens": 34579735.0,
      "step": 18750
    },
    {
      "entropy": 5.7766814708709715,
      "epoch": 1.5756773787019533,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004753376096663512,
      "loss": 5.4316,
      "mean_token_accuracy": 0.16776171922683716,
      "num_tokens": 34589105.0,
      "step": 18755
    },
    {
      "entropy": 5.625161170959473,
      "epoch": 1.5760974585171184,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00047532397623201877,
      "loss": 5.3705,
      "mean_token_accuracy": 0.17527176439762115,
      "num_tokens": 34597883.0,
      "step": 18760
    },
    {
      "entropy": 5.675880050659179,
      "epoch": 1.5765175383322831,
      "grad_norm": 1.453125,
      "learning_rate": 0.00047531033924905024,
      "loss": 5.3506,
      "mean_token_accuracy": 0.17240157425403596,
      "num_tokens": 34606666.0,
      "step": 18765
    },
    {
      "entropy": 5.746255779266358,
      "epoch": 1.576937618147448,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004752966987176873,
      "loss": 5.4819,
      "mean_token_accuracy": 0.16786147505044938,
      "num_tokens": 34616547.0,
      "step": 18770
    },
    {
      "entropy": 5.713323879241943,
      "epoch": 1.577357697962613,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004752830546381713,
      "loss": 5.4497,
      "mean_token_accuracy": 0.16839058697223663,
      "num_tokens": 34625679.0,
      "step": 18775
    },
    {
      "entropy": 5.610950660705567,
      "epoch": 1.5777777777777777,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004752694070107442,
      "loss": 5.3817,
      "mean_token_accuracy": 0.1739755392074585,
      "num_tokens": 34635633.0,
      "step": 18780
    },
    {
      "entropy": 5.7086036682128904,
      "epoch": 1.5781978575929427,
      "grad_norm": 1.5,
      "learning_rate": 0.0004752557558356476,
      "loss": 5.4156,
      "mean_token_accuracy": 0.17332434356212617,
      "num_tokens": 34645206.0,
      "step": 18785
    },
    {
      "entropy": 5.656038665771485,
      "epoch": 1.5786179374081075,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004752421011131234,
      "loss": 5.4342,
      "mean_token_accuracy": 0.16186445355415344,
      "num_tokens": 34653884.0,
      "step": 18790
    },
    {
      "entropy": 5.606300926208496,
      "epoch": 1.5790380172232723,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00047522844284341364,
      "loss": 5.2898,
      "mean_token_accuracy": 0.17618423253297805,
      "num_tokens": 34662170.0,
      "step": 18795
    },
    {
      "entropy": 5.66893949508667,
      "epoch": 1.5794580970384373,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004752147810267601,
      "loss": 5.4433,
      "mean_token_accuracy": 0.16510264128446578,
      "num_tokens": 34672548.0,
      "step": 18800
    },
    {
      "entropy": 5.760573959350586,
      "epoch": 1.5798781768536023,
      "grad_norm": 1.453125,
      "learning_rate": 0.00047520111566340465,
      "loss": 5.4323,
      "mean_token_accuracy": 0.1679047629237175,
      "num_tokens": 34680972.0,
      "step": 18805
    },
    {
      "entropy": 5.643776369094849,
      "epoch": 1.580298256668767,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00047518744675358965,
      "loss": 5.3027,
      "mean_token_accuracy": 0.17184915244579316,
      "num_tokens": 34689589.0,
      "step": 18810
    },
    {
      "entropy": 5.626055669784546,
      "epoch": 1.580718336483932,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004751737742975571,
      "loss": 5.338,
      "mean_token_accuracy": 0.17203721702098845,
      "num_tokens": 34698747.0,
      "step": 18815
    },
    {
      "entropy": 5.675599765777588,
      "epoch": 1.5811384162990967,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00047516009829554913,
      "loss": 5.4003,
      "mean_token_accuracy": 0.16775297075510026,
      "num_tokens": 34707502.0,
      "step": 18820
    },
    {
      "entropy": 5.608147096633911,
      "epoch": 1.5815584961142617,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00047514641874780815,
      "loss": 5.3289,
      "mean_token_accuracy": 0.17193017303943633,
      "num_tokens": 34715879.0,
      "step": 18825
    },
    {
      "entropy": 5.649180126190186,
      "epoch": 1.5819785759294267,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00047513273565457644,
      "loss": 5.5108,
      "mean_token_accuracy": 0.16794274374842644,
      "num_tokens": 34726090.0,
      "step": 18830
    },
    {
      "entropy": 5.7852592945098875,
      "epoch": 1.5823986557445915,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004751190490160964,
      "loss": 5.4755,
      "mean_token_accuracy": 0.16427757740020751,
      "num_tokens": 34736014.0,
      "step": 18835
    },
    {
      "entropy": 5.749915409088135,
      "epoch": 1.5828187355597563,
      "grad_norm": 1.4375,
      "learning_rate": 0.00047510535883261035,
      "loss": 5.415,
      "mean_token_accuracy": 0.16692599207162856,
      "num_tokens": 34745648.0,
      "step": 18840
    },
    {
      "entropy": 5.649198770523071,
      "epoch": 1.5832388153749213,
      "grad_norm": 2.375,
      "learning_rate": 0.000475091665104361,
      "loss": 5.3967,
      "mean_token_accuracy": 0.17258985787630082,
      "num_tokens": 34753908.0,
      "step": 18845
    },
    {
      "entropy": 5.645108318328857,
      "epoch": 1.583658895190086,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004750779678315908,
      "loss": 5.2509,
      "mean_token_accuracy": 0.17971468716859818,
      "num_tokens": 34762303.0,
      "step": 18850
    },
    {
      "entropy": 5.632398986816407,
      "epoch": 1.584078975005251,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004750642670145424,
      "loss": 5.4294,
      "mean_token_accuracy": 0.16685875207185746,
      "num_tokens": 34771463.0,
      "step": 18855
    },
    {
      "entropy": 5.779457092285156,
      "epoch": 1.5844990548204159,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004750505626534585,
      "loss": 5.5146,
      "mean_token_accuracy": 0.16541918367147446,
      "num_tokens": 34780704.0,
      "step": 18860
    },
    {
      "entropy": 5.615437173843384,
      "epoch": 1.5849191346355807,
      "grad_norm": 1.5625,
      "learning_rate": 0.00047503685474858194,
      "loss": 5.3305,
      "mean_token_accuracy": 0.1751614198088646,
      "num_tokens": 34790262.0,
      "step": 18865
    },
    {
      "entropy": 5.691679000854492,
      "epoch": 1.5853392144507457,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004750231433001555,
      "loss": 5.3665,
      "mean_token_accuracy": 0.1725798651576042,
      "num_tokens": 34799450.0,
      "step": 18870
    },
    {
      "entropy": 5.732432460784912,
      "epoch": 1.5857592942659107,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004750094283084221,
      "loss": 5.4141,
      "mean_token_accuracy": 0.16283925771713256,
      "num_tokens": 34808220.0,
      "step": 18875
    },
    {
      "entropy": 5.716584873199463,
      "epoch": 1.5861793740810755,
      "grad_norm": 1.671875,
      "learning_rate": 0.00047499570977362467,
      "loss": 5.4334,
      "mean_token_accuracy": 0.16313114315271376,
      "num_tokens": 34817846.0,
      "step": 18880
    },
    {
      "entropy": 5.688366794586182,
      "epoch": 1.5865994538962402,
      "grad_norm": 1.90625,
      "learning_rate": 0.00047498198769600617,
      "loss": 5.4526,
      "mean_token_accuracy": 0.16976003497838973,
      "num_tokens": 34826962.0,
      "step": 18885
    },
    {
      "entropy": 5.637577390670776,
      "epoch": 1.587019533711405,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004749682620758097,
      "loss": 5.3876,
      "mean_token_accuracy": 0.1662908226251602,
      "num_tokens": 34837170.0,
      "step": 18890
    },
    {
      "entropy": 5.624025487899781,
      "epoch": 1.58743961352657,
      "grad_norm": 1.765625,
      "learning_rate": 0.00047495453291327854,
      "loss": 5.3856,
      "mean_token_accuracy": 0.17156262695789337,
      "num_tokens": 34845336.0,
      "step": 18895
    },
    {
      "entropy": 5.641190814971924,
      "epoch": 1.587859693341735,
      "grad_norm": 1.421875,
      "learning_rate": 0.00047494080020865577,
      "loss": 5.3634,
      "mean_token_accuracy": 0.17117148637771606,
      "num_tokens": 34854613.0,
      "step": 18900
    },
    {
      "entropy": 5.714927101135254,
      "epoch": 1.5882797731568998,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004749270639621846,
      "loss": 5.4495,
      "mean_token_accuracy": 0.16892678290605545,
      "num_tokens": 34864254.0,
      "step": 18905
    },
    {
      "entropy": 5.7336501121521,
      "epoch": 1.5886998529720646,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004749133241741085,
      "loss": 5.4825,
      "mean_token_accuracy": 0.1654273435473442,
      "num_tokens": 34874380.0,
      "step": 18910
    },
    {
      "entropy": 5.716697835922242,
      "epoch": 1.5891199327872296,
      "grad_norm": 1.75,
      "learning_rate": 0.0004748995808446708,
      "loss": 5.4443,
      "mean_token_accuracy": 0.16573767066001893,
      "num_tokens": 34883688.0,
      "step": 18915
    },
    {
      "entropy": 5.658730459213257,
      "epoch": 1.5895400126023944,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00047488583397411495,
      "loss": 5.3102,
      "mean_token_accuracy": 0.17554232925176622,
      "num_tokens": 34892831.0,
      "step": 18920
    },
    {
      "entropy": 5.709734773635864,
      "epoch": 1.5899600924175594,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00047487208356268454,
      "loss": 5.4004,
      "mean_token_accuracy": 0.17941274642944335,
      "num_tokens": 34901517.0,
      "step": 18925
    },
    {
      "entropy": 5.688491916656494,
      "epoch": 1.5903801722327242,
      "grad_norm": 1.46875,
      "learning_rate": 0.00047485832961062296,
      "loss": 5.4002,
      "mean_token_accuracy": 0.17023382037878038,
      "num_tokens": 34910765.0,
      "step": 18930
    },
    {
      "entropy": 5.723994779586792,
      "epoch": 1.590800252047889,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00047484457211817405,
      "loss": 5.4441,
      "mean_token_accuracy": 0.16038562953472138,
      "num_tokens": 34919799.0,
      "step": 18935
    },
    {
      "entropy": 5.630226898193359,
      "epoch": 1.591220331863054,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00047483081108558143,
      "loss": 5.3115,
      "mean_token_accuracy": 0.17336263954639436,
      "num_tokens": 34928199.0,
      "step": 18940
    },
    {
      "entropy": 5.682058715820313,
      "epoch": 1.591640411678219,
      "grad_norm": 1.59375,
      "learning_rate": 0.000474817046513089,
      "loss": 5.4412,
      "mean_token_accuracy": 0.16989699453115464,
      "num_tokens": 34937751.0,
      "step": 18945
    },
    {
      "entropy": 5.724739217758179,
      "epoch": 1.5920604914933838,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004748032784009403,
      "loss": 5.3858,
      "mean_token_accuracy": 0.17437688410282134,
      "num_tokens": 34946052.0,
      "step": 18950
    },
    {
      "entropy": 5.651232576370239,
      "epoch": 1.5924805713085486,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004747895067493796,
      "loss": 5.3793,
      "mean_token_accuracy": 0.1674926221370697,
      "num_tokens": 34954932.0,
      "step": 18955
    },
    {
      "entropy": 5.675562763214112,
      "epoch": 1.5929006511237134,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004747757315586505,
      "loss": 5.3688,
      "mean_token_accuracy": 0.17305743098258972,
      "num_tokens": 34963581.0,
      "step": 18960
    },
    {
      "entropy": 5.539657783508301,
      "epoch": 1.5933207309388784,
      "grad_norm": 1.5,
      "learning_rate": 0.00047476195282899727,
      "loss": 5.1861,
      "mean_token_accuracy": 0.18181020617485047,
      "num_tokens": 34972844.0,
      "step": 18965
    },
    {
      "entropy": 5.623536205291748,
      "epoch": 1.5937408107540434,
      "grad_norm": 1.65625,
      "learning_rate": 0.00047474817056066383,
      "loss": 5.396,
      "mean_token_accuracy": 0.176412869989872,
      "num_tokens": 34981998.0,
      "step": 18970
    },
    {
      "entropy": 5.595731449127197,
      "epoch": 1.5941608905692082,
      "grad_norm": 1.265625,
      "learning_rate": 0.00047473438475389453,
      "loss": 5.3263,
      "mean_token_accuracy": 0.17470391392707824,
      "num_tokens": 34990552.0,
      "step": 18975
    },
    {
      "entropy": 5.687963628768921,
      "epoch": 1.594580970384373,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0004747205954089333,
      "loss": 5.3401,
      "mean_token_accuracy": 0.17572322934865953,
      "num_tokens": 35000259.0,
      "step": 18980
    },
    {
      "entropy": 5.716721391677856,
      "epoch": 1.5950010501995378,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004747068025260247,
      "loss": 5.4253,
      "mean_token_accuracy": 0.16249436065554618,
      "num_tokens": 35009592.0,
      "step": 18985
    },
    {
      "entropy": 5.700528287887574,
      "epoch": 1.5954211300147028,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004746930061054129,
      "loss": 5.4772,
      "mean_token_accuracy": 0.15898309648036957,
      "num_tokens": 35019356.0,
      "step": 18990
    },
    {
      "entropy": 5.6559325695037845,
      "epoch": 1.5958412098298678,
      "grad_norm": 1.546875,
      "learning_rate": 0.00047467920614734224,
      "loss": 5.3952,
      "mean_token_accuracy": 0.17310373932123185,
      "num_tokens": 35028764.0,
      "step": 18995
    },
    {
      "entropy": 5.6906005859375,
      "epoch": 1.5962612896450326,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004746654026520573,
      "loss": 5.4045,
      "mean_token_accuracy": 0.16763416677713394,
      "num_tokens": 35037903.0,
      "step": 19000
    },
    {
      "entropy": 5.642781209945679,
      "epoch": 1.5966813694601973,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004746515956198026,
      "loss": 5.3038,
      "mean_token_accuracy": 0.17678880393505098,
      "num_tokens": 35046326.0,
      "step": 19005
    },
    {
      "entropy": 5.741660451889038,
      "epoch": 1.5971014492753624,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00047463778505082266,
      "loss": 5.5384,
      "mean_token_accuracy": 0.16487176418304444,
      "num_tokens": 35055551.0,
      "step": 19010
    },
    {
      "entropy": 5.641852474212646,
      "epoch": 1.5975215290905274,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004746239709453621,
      "loss": 5.3079,
      "mean_token_accuracy": 0.18089368045330048,
      "num_tokens": 35065595.0,
      "step": 19015
    },
    {
      "entropy": 5.710475492477417,
      "epoch": 1.5979416089056921,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004746101533036658,
      "loss": 5.4167,
      "mean_token_accuracy": 0.16984072029590608,
      "num_tokens": 35075097.0,
      "step": 19020
    },
    {
      "entropy": 5.825159311294556,
      "epoch": 1.598361688720857,
      "grad_norm": 1.765625,
      "learning_rate": 0.00047459633212597834,
      "loss": 5.5007,
      "mean_token_accuracy": 0.16182542145252227,
      "num_tokens": 35084092.0,
      "step": 19025
    },
    {
      "entropy": 5.685335683822632,
      "epoch": 1.5987817685360217,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004745825074125447,
      "loss": 5.3897,
      "mean_token_accuracy": 0.16710626929998398,
      "num_tokens": 35093007.0,
      "step": 19030
    },
    {
      "entropy": 5.754900789260864,
      "epoch": 1.5992018483511867,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004745686791636097,
      "loss": 5.4559,
      "mean_token_accuracy": 0.16395678967237473,
      "num_tokens": 35103094.0,
      "step": 19035
    },
    {
      "entropy": 5.639309453964233,
      "epoch": 1.5996219281663517,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00047455484737941823,
      "loss": 5.3045,
      "mean_token_accuracy": 0.17383471876382828,
      "num_tokens": 35112561.0,
      "step": 19040
    },
    {
      "entropy": 5.610976266860962,
      "epoch": 1.6000420079815165,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004745410120602155,
      "loss": 5.3837,
      "mean_token_accuracy": 0.16612301766872406,
      "num_tokens": 35121718.0,
      "step": 19045
    },
    {
      "entropy": 5.7062891006469725,
      "epoch": 1.6004620877966813,
      "grad_norm": 1.40625,
      "learning_rate": 0.00047452717320624647,
      "loss": 5.344,
      "mean_token_accuracy": 0.18142815828323364,
      "num_tokens": 35130073.0,
      "step": 19050
    },
    {
      "entropy": 5.670109796524048,
      "epoch": 1.600882167611846,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004745133308177562,
      "loss": 5.3913,
      "mean_token_accuracy": 0.16597676426172256,
      "num_tokens": 35138876.0,
      "step": 19055
    },
    {
      "entropy": 5.669570541381836,
      "epoch": 1.601302247427011,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00047449948489499007,
      "loss": 5.381,
      "mean_token_accuracy": 0.1685373529791832,
      "num_tokens": 35147750.0,
      "step": 19060
    },
    {
      "entropy": 5.678817701339722,
      "epoch": 1.6017223272421761,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00047448563543819335,
      "loss": 5.4017,
      "mean_token_accuracy": 0.17186661213636398,
      "num_tokens": 35156955.0,
      "step": 19065
    },
    {
      "entropy": 5.661539745330811,
      "epoch": 1.602142407057341,
      "grad_norm": 1.859375,
      "learning_rate": 0.0004744717824476112,
      "loss": 5.4264,
      "mean_token_accuracy": 0.16969927847385408,
      "num_tokens": 35166542.0,
      "step": 19070
    },
    {
      "entropy": 5.707697916030884,
      "epoch": 1.6025624868725057,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00047445792592348926,
      "loss": 5.3853,
      "mean_token_accuracy": 0.16943657100200654,
      "num_tokens": 35175258.0,
      "step": 19075
    },
    {
      "entropy": 5.701454114913941,
      "epoch": 1.6029825666876707,
      "grad_norm": 1.875,
      "learning_rate": 0.0004744440658660729,
      "loss": 5.3865,
      "mean_token_accuracy": 0.16605425924062728,
      "num_tokens": 35184970.0,
      "step": 19080
    },
    {
      "entropy": 5.687052440643311,
      "epoch": 1.6034026465028357,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004744302022756075,
      "loss": 5.3784,
      "mean_token_accuracy": 0.16496190279722214,
      "num_tokens": 35193948.0,
      "step": 19085
    },
    {
      "entropy": 5.577232599258423,
      "epoch": 1.6038227263180005,
      "grad_norm": 1.59375,
      "learning_rate": 0.00047441633515233874,
      "loss": 5.3198,
      "mean_token_accuracy": 0.17375623136758805,
      "num_tokens": 35203792.0,
      "step": 19090
    },
    {
      "entropy": 5.670841121673584,
      "epoch": 1.6042428061331653,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004744024644965123,
      "loss": 5.4944,
      "mean_token_accuracy": 0.16568351536989212,
      "num_tokens": 35212684.0,
      "step": 19095
    },
    {
      "entropy": 5.673999786376953,
      "epoch": 1.60466288594833,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00047438859030837397,
      "loss": 5.2946,
      "mean_token_accuracy": 0.17858032286167144,
      "num_tokens": 35220830.0,
      "step": 19100
    },
    {
      "entropy": 5.708344316482544,
      "epoch": 1.605082965763495,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00047437471258816936,
      "loss": 5.3833,
      "mean_token_accuracy": 0.16468634456396103,
      "num_tokens": 35230171.0,
      "step": 19105
    },
    {
      "entropy": 5.619188070297241,
      "epoch": 1.60550304557866,
      "grad_norm": 1.640625,
      "learning_rate": 0.00047436083133614446,
      "loss": 5.3073,
      "mean_token_accuracy": 0.17591052502393723,
      "num_tokens": 35239022.0,
      "step": 19110
    },
    {
      "entropy": 5.629873466491699,
      "epoch": 1.6059231253938249,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00047434694655254495,
      "loss": 5.3297,
      "mean_token_accuracy": 0.16770700961351395,
      "num_tokens": 35247564.0,
      "step": 19115
    },
    {
      "entropy": 5.6350812911987305,
      "epoch": 1.6063432052089897,
      "grad_norm": 1.4140625,
      "learning_rate": 0.000474333058237617,
      "loss": 5.3529,
      "mean_token_accuracy": 0.16446800380945206,
      "num_tokens": 35256175.0,
      "step": 19120
    },
    {
      "entropy": 5.780952882766724,
      "epoch": 1.6067632850241544,
      "grad_norm": 1.5625,
      "learning_rate": 0.00047431916639160656,
      "loss": 5.5043,
      "mean_token_accuracy": 0.1661346063017845,
      "num_tokens": 35265278.0,
      "step": 19125
    },
    {
      "entropy": 5.603296756744385,
      "epoch": 1.6071833648393195,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004743052710147598,
      "loss": 5.2283,
      "mean_token_accuracy": 0.1780938133597374,
      "num_tokens": 35274715.0,
      "step": 19130
    },
    {
      "entropy": 5.574432277679444,
      "epoch": 1.6076034446544845,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00047429137210732266,
      "loss": 5.3431,
      "mean_token_accuracy": 0.1689825624227524,
      "num_tokens": 35285450.0,
      "step": 19135
    },
    {
      "entropy": 5.659537506103516,
      "epoch": 1.6080235244696492,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004742774696695415,
      "loss": 5.3553,
      "mean_token_accuracy": 0.1621303752064705,
      "num_tokens": 35294531.0,
      "step": 19140
    },
    {
      "entropy": 5.693420028686523,
      "epoch": 1.608443604284814,
      "grad_norm": 1.421875,
      "learning_rate": 0.00047426356370166266,
      "loss": 5.4104,
      "mean_token_accuracy": 0.16336591690778732,
      "num_tokens": 35303749.0,
      "step": 19145
    },
    {
      "entropy": 5.59863772392273,
      "epoch": 1.608863684099979,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004742496542039324,
      "loss": 5.3695,
      "mean_token_accuracy": 0.16599306017160415,
      "num_tokens": 35312994.0,
      "step": 19150
    },
    {
      "entropy": 5.656160926818847,
      "epoch": 1.6092837639151438,
      "grad_norm": 1.453125,
      "learning_rate": 0.00047423574117659703,
      "loss": 5.3488,
      "mean_token_accuracy": 0.1693723350763321,
      "num_tokens": 35322533.0,
      "step": 19155
    },
    {
      "entropy": 5.681179428100586,
      "epoch": 1.6097038437303088,
      "grad_norm": 2.453125,
      "learning_rate": 0.00047422182461990316,
      "loss": 5.3872,
      "mean_token_accuracy": 0.1734430029988289,
      "num_tokens": 35331872.0,
      "step": 19160
    },
    {
      "entropy": 5.643349313735962,
      "epoch": 1.6101239235454736,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00047420790453409724,
      "loss": 5.4206,
      "mean_token_accuracy": 0.16745028495788575,
      "num_tokens": 35341517.0,
      "step": 19165
    },
    {
      "entropy": 5.632366943359375,
      "epoch": 1.6105440033606384,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004741939809194258,
      "loss": 5.3309,
      "mean_token_accuracy": 0.176885287463665,
      "num_tokens": 35350291.0,
      "step": 19170
    },
    {
      "entropy": 5.727736234664917,
      "epoch": 1.6109640831758034,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00047418005377613566,
      "loss": 5.499,
      "mean_token_accuracy": 0.1620399162173271,
      "num_tokens": 35360711.0,
      "step": 19175
    },
    {
      "entropy": 5.703640460968018,
      "epoch": 1.6113841629909684,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004741661231044733,
      "loss": 5.3995,
      "mean_token_accuracy": 0.1704120382666588,
      "num_tokens": 35370069.0,
      "step": 19180
    },
    {
      "entropy": 5.749680423736573,
      "epoch": 1.6118042428061332,
      "grad_norm": 1.9375,
      "learning_rate": 0.00047415218890468577,
      "loss": 5.3856,
      "mean_token_accuracy": 0.18042093962430955,
      "num_tokens": 35380389.0,
      "step": 19185
    },
    {
      "entropy": 5.660278797149658,
      "epoch": 1.612224322621298,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004741382511770197,
      "loss": 5.3838,
      "mean_token_accuracy": 0.17036385387182235,
      "num_tokens": 35389420.0,
      "step": 19190
    },
    {
      "entropy": 5.662668371200562,
      "epoch": 1.6126444024364628,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00047412430992172205,
      "loss": 5.4823,
      "mean_token_accuracy": 0.15827725529670716,
      "num_tokens": 35399418.0,
      "step": 19195
    },
    {
      "entropy": 5.634368419647217,
      "epoch": 1.6130644822516278,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00047411036513903974,
      "loss": 5.3616,
      "mean_token_accuracy": 0.17389402389526368,
      "num_tokens": 35408717.0,
      "step": 19200
    },
    {
      "entropy": 5.6884690284729,
      "epoch": 1.6134845620667928,
      "grad_norm": 1.625,
      "learning_rate": 0.00047409641682921987,
      "loss": 5.3188,
      "mean_token_accuracy": 0.18027044236660003,
      "num_tokens": 35417118.0,
      "step": 19205
    },
    {
      "entropy": 5.686248636245727,
      "epoch": 1.6139046418819576,
      "grad_norm": 1.703125,
      "learning_rate": 0.0004740824649925096,
      "loss": 5.4141,
      "mean_token_accuracy": 0.1654793232679367,
      "num_tokens": 35425526.0,
      "step": 19210
    },
    {
      "entropy": 5.595103168487549,
      "epoch": 1.6143247216971224,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004740685096291559,
      "loss": 5.4122,
      "mean_token_accuracy": 0.16647179573774337,
      "num_tokens": 35434932.0,
      "step": 19215
    },
    {
      "entropy": 5.725376129150391,
      "epoch": 1.6147448015122874,
      "grad_norm": 1.671875,
      "learning_rate": 0.00047405455073940597,
      "loss": 5.4364,
      "mean_token_accuracy": 0.16955055445432662,
      "num_tokens": 35443909.0,
      "step": 19220
    },
    {
      "entropy": 5.752730035781861,
      "epoch": 1.6151648813274522,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004740405883235072,
      "loss": 5.4143,
      "mean_token_accuracy": 0.17224101722240448,
      "num_tokens": 35454082.0,
      "step": 19225
    },
    {
      "entropy": 5.780597686767578,
      "epoch": 1.6155849611426172,
      "grad_norm": 1.3125,
      "learning_rate": 0.00047402662238170694,
      "loss": 5.4702,
      "mean_token_accuracy": 0.16434868276119233,
      "num_tokens": 35464547.0,
      "step": 19230
    },
    {
      "entropy": 5.657827091217041,
      "epoch": 1.616005040957782,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004740126529142526,
      "loss": 5.3376,
      "mean_token_accuracy": 0.17347298115491866,
      "num_tokens": 35473310.0,
      "step": 19235
    },
    {
      "entropy": 5.602123212814331,
      "epoch": 1.6164251207729468,
      "grad_norm": 1.875,
      "learning_rate": 0.0004739986799213915,
      "loss": 5.4651,
      "mean_token_accuracy": 0.1707776516675949,
      "num_tokens": 35483502.0,
      "step": 19240
    },
    {
      "entropy": 5.694213247299194,
      "epoch": 1.6168452005881118,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004739847034033713,
      "loss": 5.4299,
      "mean_token_accuracy": 0.16592200696468354,
      "num_tokens": 35493063.0,
      "step": 19245
    },
    {
      "entropy": 5.674246883392334,
      "epoch": 1.6172652804032768,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00047397072336043957,
      "loss": 5.3847,
      "mean_token_accuracy": 0.1654440939426422,
      "num_tokens": 35501829.0,
      "step": 19250
    },
    {
      "entropy": 5.7208233833312985,
      "epoch": 1.6176853602184416,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00047395673979284383,
      "loss": 5.4025,
      "mean_token_accuracy": 0.16252227872610092,
      "num_tokens": 35510411.0,
      "step": 19255
    },
    {
      "entropy": 5.695710945129394,
      "epoch": 1.6181054400336063,
      "grad_norm": 1.5546875,
      "learning_rate": 0.000473942752700832,
      "loss": 5.4071,
      "mean_token_accuracy": 0.168272402882576,
      "num_tokens": 35519571.0,
      "step": 19260
    },
    {
      "entropy": 5.633262681961059,
      "epoch": 1.6185255198487711,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00047392876208465166,
      "loss": 5.3537,
      "mean_token_accuracy": 0.1690814658999443,
      "num_tokens": 35527306.0,
      "step": 19265
    },
    {
      "entropy": 5.6343008518219,
      "epoch": 1.6189455996639361,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004739147679445508,
      "loss": 5.3577,
      "mean_token_accuracy": 0.1658302888274193,
      "num_tokens": 35536126.0,
      "step": 19270
    },
    {
      "entropy": 5.644708919525146,
      "epoch": 1.6193656794791011,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004739007702807773,
      "loss": 5.4217,
      "mean_token_accuracy": 0.16885081082582473,
      "num_tokens": 35545593.0,
      "step": 19275
    },
    {
      "entropy": 5.625165557861328,
      "epoch": 1.619785759294266,
      "grad_norm": 1.5625,
      "learning_rate": 0.00047388676909357894,
      "loss": 5.3437,
      "mean_token_accuracy": 0.1670317158102989,
      "num_tokens": 35554780.0,
      "step": 19280
    },
    {
      "entropy": 5.674202489852905,
      "epoch": 1.6202058391094307,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00047387276438320394,
      "loss": 5.3462,
      "mean_token_accuracy": 0.17734202444553376,
      "num_tokens": 35562982.0,
      "step": 19285
    },
    {
      "entropy": 5.682125806808472,
      "epoch": 1.6206259189245955,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004738587561499003,
      "loss": 5.464,
      "mean_token_accuracy": 0.16998654305934907,
      "num_tokens": 35571528.0,
      "step": 19290
    },
    {
      "entropy": 5.594412136077881,
      "epoch": 1.6210459987397605,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00047384474439391615,
      "loss": 5.2968,
      "mean_token_accuracy": 0.17942917197942734,
      "num_tokens": 35580386.0,
      "step": 19295
    },
    {
      "entropy": 5.609464263916015,
      "epoch": 1.6214660785549255,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004738307291154998,
      "loss": 5.269,
      "mean_token_accuracy": 0.16951826214790344,
      "num_tokens": 35589456.0,
      "step": 19300
    },
    {
      "entropy": 5.646043395996093,
      "epoch": 1.6218861583700903,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004738167103148995,
      "loss": 5.3687,
      "mean_token_accuracy": 0.17219835072755812,
      "num_tokens": 35598116.0,
      "step": 19305
    },
    {
      "entropy": 5.676636123657227,
      "epoch": 1.622306238185255,
      "grad_norm": 1.5625,
      "learning_rate": 0.00047380268799236355,
      "loss": 5.3641,
      "mean_token_accuracy": 0.16999810189008713,
      "num_tokens": 35606481.0,
      "step": 19310
    },
    {
      "entropy": 5.633781385421753,
      "epoch": 1.62272631800042,
      "grad_norm": 1.40625,
      "learning_rate": 0.00047378866214814024,
      "loss": 5.3475,
      "mean_token_accuracy": 0.16768400371074677,
      "num_tokens": 35615517.0,
      "step": 19315
    },
    {
      "entropy": 5.662630224227906,
      "epoch": 1.6231463978155851,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00047377463278247827,
      "loss": 5.4018,
      "mean_token_accuracy": 0.1614094376564026,
      "num_tokens": 35625100.0,
      "step": 19320
    },
    {
      "entropy": 5.698197555541992,
      "epoch": 1.62356647763075,
      "grad_norm": 1.6328125,
      "learning_rate": 0.000473760599895626,
      "loss": 5.3197,
      "mean_token_accuracy": 0.16777887046337128,
      "num_tokens": 35634572.0,
      "step": 19325
    },
    {
      "entropy": 5.671027040481567,
      "epoch": 1.6239865574459147,
      "grad_norm": 1.4375,
      "learning_rate": 0.000473746563487832,
      "loss": 5.3585,
      "mean_token_accuracy": 0.1732994943857193,
      "num_tokens": 35643883.0,
      "step": 19330
    },
    {
      "entropy": 5.641132640838623,
      "epoch": 1.6244066372610795,
      "grad_norm": 1.4375,
      "learning_rate": 0.00047373252355934506,
      "loss": 5.4252,
      "mean_token_accuracy": 0.16886914223432542,
      "num_tokens": 35652527.0,
      "step": 19335
    },
    {
      "entropy": 5.691527080535889,
      "epoch": 1.6248267170762445,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00047371848011041375,
      "loss": 5.4632,
      "mean_token_accuracy": 0.16798330396413802,
      "num_tokens": 35662436.0,
      "step": 19340
    },
    {
      "entropy": 5.699794816970825,
      "epoch": 1.6252467968914095,
      "grad_norm": 1.3125,
      "learning_rate": 0.00047370443314128687,
      "loss": 5.3483,
      "mean_token_accuracy": 0.17165588736534118,
      "num_tokens": 35672302.0,
      "step": 19345
    },
    {
      "entropy": 5.659704780578613,
      "epoch": 1.6256668767065743,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004736903826522132,
      "loss": 5.4101,
      "mean_token_accuracy": 0.16816721260547637,
      "num_tokens": 35680852.0,
      "step": 19350
    },
    {
      "entropy": 5.6761833190917965,
      "epoch": 1.626086956521739,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004736763286434419,
      "loss": 5.3811,
      "mean_token_accuracy": 0.17145880460739135,
      "num_tokens": 35690159.0,
      "step": 19355
    },
    {
      "entropy": 5.622335624694824,
      "epoch": 1.6265070363369039,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004736622711152216,
      "loss": 5.3144,
      "mean_token_accuracy": 0.17438797056674957,
      "num_tokens": 35699165.0,
      "step": 19360
    },
    {
      "entropy": 5.680206346511841,
      "epoch": 1.6269271161520689,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004736482100678015,
      "loss": 5.379,
      "mean_token_accuracy": 0.17168426364660264,
      "num_tokens": 35708910.0,
      "step": 19365
    },
    {
      "entropy": 5.680268287658691,
      "epoch": 1.6273471959672339,
      "grad_norm": 1.34375,
      "learning_rate": 0.00047363414550143063,
      "loss": 5.4539,
      "mean_token_accuracy": 0.16627233028411864,
      "num_tokens": 35718218.0,
      "step": 19370
    },
    {
      "entropy": 5.661238050460815,
      "epoch": 1.6277672757823987,
      "grad_norm": 1.484375,
      "learning_rate": 0.00047362007741635816,
      "loss": 5.3692,
      "mean_token_accuracy": 0.17138148248195648,
      "num_tokens": 35727076.0,
      "step": 19375
    },
    {
      "entropy": 5.655786752700806,
      "epoch": 1.6281873555975634,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004736060058128333,
      "loss": 5.4598,
      "mean_token_accuracy": 0.1673205927014351,
      "num_tokens": 35736316.0,
      "step": 19380
    },
    {
      "entropy": 5.689300918579102,
      "epoch": 1.6286074354127285,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00047359193069110533,
      "loss": 5.4293,
      "mean_token_accuracy": 0.17298100590705873,
      "num_tokens": 35745747.0,
      "step": 19385
    },
    {
      "entropy": 5.791736125946045,
      "epoch": 1.6290275152278935,
      "grad_norm": 1.46875,
      "learning_rate": 0.00047357785205142354,
      "loss": 5.3922,
      "mean_token_accuracy": 0.17255930006504058,
      "num_tokens": 35754825.0,
      "step": 19390
    },
    {
      "entropy": 5.630894136428833,
      "epoch": 1.6294475950430583,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004735637698940374,
      "loss": 5.3536,
      "mean_token_accuracy": 0.17112387716770172,
      "num_tokens": 35764504.0,
      "step": 19395
    },
    {
      "entropy": 5.721408700942993,
      "epoch": 1.629867674858223,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004735496842191963,
      "loss": 5.4416,
      "mean_token_accuracy": 0.17230593860149385,
      "num_tokens": 35774195.0,
      "step": 19400
    },
    {
      "entropy": 5.609949207305908,
      "epoch": 1.6302877546733878,
      "grad_norm": 1.359375,
      "learning_rate": 0.00047353559502714976,
      "loss": 5.3104,
      "mean_token_accuracy": 0.1747656896710396,
      "num_tokens": 35783721.0,
      "step": 19405
    },
    {
      "entropy": 5.641864967346192,
      "epoch": 1.6307078344885528,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004735215023181474,
      "loss": 5.3991,
      "mean_token_accuracy": 0.16826074570417404,
      "num_tokens": 35792821.0,
      "step": 19410
    },
    {
      "entropy": 5.676604318618774,
      "epoch": 1.6311279143037178,
      "grad_norm": 1.390625,
      "learning_rate": 0.00047350740609243883,
      "loss": 5.4285,
      "mean_token_accuracy": 0.1649575188755989,
      "num_tokens": 35802746.0,
      "step": 19415
    },
    {
      "entropy": 5.721334552764892,
      "epoch": 1.6315479941188826,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004734933063502738,
      "loss": 5.421,
      "mean_token_accuracy": 0.17509810924530028,
      "num_tokens": 35811196.0,
      "step": 19420
    },
    {
      "entropy": 5.818255996704101,
      "epoch": 1.6319680739340474,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00047347920309190203,
      "loss": 5.4471,
      "mean_token_accuracy": 0.16493862569332124,
      "num_tokens": 35820787.0,
      "step": 19425
    },
    {
      "entropy": 5.703247213363648,
      "epoch": 1.6323881537492122,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004734650963175734,
      "loss": 5.4246,
      "mean_token_accuracy": 0.16639426350593567,
      "num_tokens": 35831247.0,
      "step": 19430
    },
    {
      "entropy": 5.648799848556519,
      "epoch": 1.6328082335643772,
      "grad_norm": 1.515625,
      "learning_rate": 0.00047345098602753777,
      "loss": 5.4563,
      "mean_token_accuracy": 0.16505984961986542,
      "num_tokens": 35840759.0,
      "step": 19435
    },
    {
      "entropy": 5.622422122955323,
      "epoch": 1.6332283133795422,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004734368722220451,
      "loss": 5.41,
      "mean_token_accuracy": 0.16521313637495041,
      "num_tokens": 35850137.0,
      "step": 19440
    },
    {
      "entropy": 5.628439140319824,
      "epoch": 1.633648393194707,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004734227549013455,
      "loss": 5.2396,
      "mean_token_accuracy": 0.1794390082359314,
      "num_tokens": 35858412.0,
      "step": 19445
    },
    {
      "entropy": 5.655402612686157,
      "epoch": 1.6340684730098718,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004734086340656889,
      "loss": 5.3312,
      "mean_token_accuracy": 0.1723542883992195,
      "num_tokens": 35868202.0,
      "step": 19450
    },
    {
      "entropy": 5.646328258514404,
      "epoch": 1.6344885528250368,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004733945097153255,
      "loss": 5.4003,
      "mean_token_accuracy": 0.17372321784496308,
      "num_tokens": 35877237.0,
      "step": 19455
    },
    {
      "entropy": 5.608543586730957,
      "epoch": 1.6349086326402016,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004733803818505055,
      "loss": 5.2715,
      "mean_token_accuracy": 0.1802636206150055,
      "num_tokens": 35887016.0,
      "step": 19460
    },
    {
      "entropy": 5.677346563339233,
      "epoch": 1.6353287124553666,
      "grad_norm": 1.265625,
      "learning_rate": 0.00047336625047147924,
      "loss": 5.3485,
      "mean_token_accuracy": 0.17663054317235946,
      "num_tokens": 35896393.0,
      "step": 19465
    },
    {
      "entropy": 5.643209791183471,
      "epoch": 1.6357487922705314,
      "grad_norm": 1.375,
      "learning_rate": 0.00047335211557849693,
      "loss": 5.3902,
      "mean_token_accuracy": 0.16930769830942155,
      "num_tokens": 35905237.0,
      "step": 19470
    },
    {
      "entropy": 5.671267795562744,
      "epoch": 1.6361688720856962,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004733379771718092,
      "loss": 5.4229,
      "mean_token_accuracy": 0.17023178488016127,
      "num_tokens": 35914352.0,
      "step": 19475
    },
    {
      "entropy": 5.692772483825683,
      "epoch": 1.6365889519008612,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004733238352516661,
      "loss": 5.4805,
      "mean_token_accuracy": 0.16938166916370392,
      "num_tokens": 35923785.0,
      "step": 19480
    },
    {
      "entropy": 5.761615133285522,
      "epoch": 1.6370090317160262,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00047330968981831856,
      "loss": 5.3858,
      "mean_token_accuracy": 0.16777340024709703,
      "num_tokens": 35932495.0,
      "step": 19485
    },
    {
      "entropy": 5.69402379989624,
      "epoch": 1.637429111531191,
      "grad_norm": 1.625,
      "learning_rate": 0.00047329554087201687,
      "loss": 5.351,
      "mean_token_accuracy": 0.17982448786497116,
      "num_tokens": 35941745.0,
      "step": 19490
    },
    {
      "entropy": 5.660278224945069,
      "epoch": 1.6378491913463558,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00047328138841301186,
      "loss": 5.4418,
      "mean_token_accuracy": 0.16807905286550523,
      "num_tokens": 35950281.0,
      "step": 19495
    },
    {
      "entropy": 5.653802061080933,
      "epoch": 1.6382692711615205,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004732672324415541,
      "loss": 5.372,
      "mean_token_accuracy": 0.1754430741071701,
      "num_tokens": 35959531.0,
      "step": 19500
    },
    {
      "entropy": 5.73360242843628,
      "epoch": 1.6386893509766856,
      "grad_norm": 1.625,
      "learning_rate": 0.0004732530729578945,
      "loss": 5.4361,
      "mean_token_accuracy": 0.17509964853525162,
      "num_tokens": 35969462.0,
      "step": 19505
    },
    {
      "entropy": 5.659942388534546,
      "epoch": 1.6391094307918506,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004732389099622837,
      "loss": 5.411,
      "mean_token_accuracy": 0.16947837471961974,
      "num_tokens": 35978022.0,
      "step": 19510
    },
    {
      "entropy": 5.7105179786682125,
      "epoch": 1.6395295106070154,
      "grad_norm": 1.453125,
      "learning_rate": 0.00047322474345497267,
      "loss": 5.4246,
      "mean_token_accuracy": 0.16419751197099686,
      "num_tokens": 35988193.0,
      "step": 19515
    },
    {
      "entropy": 5.762126207351685,
      "epoch": 1.6399495904221801,
      "grad_norm": 1.421875,
      "learning_rate": 0.00047321057343621247,
      "loss": 5.4216,
      "mean_token_accuracy": 0.16807464212179185,
      "num_tokens": 35997404.0,
      "step": 19520
    },
    {
      "entropy": 5.6027778625488285,
      "epoch": 1.6403696702373451,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00047319639990625395,
      "loss": 5.3067,
      "mean_token_accuracy": 0.1780134305357933,
      "num_tokens": 36005356.0,
      "step": 19525
    },
    {
      "entropy": 5.74001407623291,
      "epoch": 1.64078975005251,
      "grad_norm": 1.8125,
      "learning_rate": 0.00047318222286534824,
      "loss": 5.58,
      "mean_token_accuracy": 0.16051921397447586,
      "num_tokens": 36015305.0,
      "step": 19530
    },
    {
      "entropy": 5.77122483253479,
      "epoch": 1.641209829867675,
      "grad_norm": 1.5625,
      "learning_rate": 0.00047316804231374663,
      "loss": 5.4209,
      "mean_token_accuracy": 0.1640459731221199,
      "num_tokens": 36024278.0,
      "step": 19535
    },
    {
      "entropy": 5.6274620532989506,
      "epoch": 1.6416299096828397,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004731538582517001,
      "loss": 5.2479,
      "mean_token_accuracy": 0.17768406867980957,
      "num_tokens": 36032870.0,
      "step": 19540
    },
    {
      "entropy": 5.569975423812866,
      "epoch": 1.6420499894980045,
      "grad_norm": 1.59375,
      "learning_rate": 0.00047313967067945996,
      "loss": 5.2931,
      "mean_token_accuracy": 0.17938766926527022,
      "num_tokens": 36041725.0,
      "step": 19545
    },
    {
      "entropy": 5.649091005325317,
      "epoch": 1.6424700693131695,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004731254795972777,
      "loss": 5.423,
      "mean_token_accuracy": 0.16832873672246934,
      "num_tokens": 36050929.0,
      "step": 19550
    },
    {
      "entropy": 5.709831714630127,
      "epoch": 1.6428901491283345,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004731112850054045,
      "loss": 5.4119,
      "mean_token_accuracy": 0.16599251627922057,
      "num_tokens": 36060059.0,
      "step": 19555
    },
    {
      "entropy": 5.649776840209961,
      "epoch": 1.6433102289434993,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004730970869040919,
      "loss": 5.3525,
      "mean_token_accuracy": 0.18190265446901321,
      "num_tokens": 36069445.0,
      "step": 19560
    },
    {
      "entropy": 5.696929168701172,
      "epoch": 1.643730308758664,
      "grad_norm": 1.8125,
      "learning_rate": 0.00047308288529359147,
      "loss": 5.4943,
      "mean_token_accuracy": 0.16712310314178466,
      "num_tokens": 36079129.0,
      "step": 19565
    },
    {
      "entropy": 5.7188207626342775,
      "epoch": 1.644150388573829,
      "grad_norm": 1.375,
      "learning_rate": 0.0004730686801741547,
      "loss": 5.3679,
      "mean_token_accuracy": 0.17080006003379822,
      "num_tokens": 36088320.0,
      "step": 19570
    },
    {
      "entropy": 5.674493503570557,
      "epoch": 1.644570468388994,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004730544715460332,
      "loss": 5.4237,
      "mean_token_accuracy": 0.17072638422250747,
      "num_tokens": 36097728.0,
      "step": 19575
    },
    {
      "entropy": 5.724712228775024,
      "epoch": 1.644990548204159,
      "grad_norm": 1.703125,
      "learning_rate": 0.00047304025940947875,
      "loss": 5.4189,
      "mean_token_accuracy": 0.1723160296678543,
      "num_tokens": 36106566.0,
      "step": 19580
    },
    {
      "entropy": 5.699596214294433,
      "epoch": 1.6454106280193237,
      "grad_norm": 1.671875,
      "learning_rate": 0.00047302604376474306,
      "loss": 5.3691,
      "mean_token_accuracy": 0.16786410212516784,
      "num_tokens": 36115475.0,
      "step": 19585
    },
    {
      "entropy": 5.62215142250061,
      "epoch": 1.6458307078344885,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00047301182461207807,
      "loss": 5.4812,
      "mean_token_accuracy": 0.17268287092447282,
      "num_tokens": 36124404.0,
      "step": 19590
    },
    {
      "entropy": 5.670156955718994,
      "epoch": 1.6462507876496533,
      "grad_norm": 1.59375,
      "learning_rate": 0.00047299760195173554,
      "loss": 5.3278,
      "mean_token_accuracy": 0.1758397027850151,
      "num_tokens": 36132987.0,
      "step": 19595
    },
    {
      "entropy": 5.701921844482422,
      "epoch": 1.6466708674648183,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004729833757839673,
      "loss": 5.4756,
      "mean_token_accuracy": 0.17378847897052765,
      "num_tokens": 36142163.0,
      "step": 19600
    },
    {
      "entropy": 5.707473468780518,
      "epoch": 1.6470909472799833,
      "grad_norm": 1.640625,
      "learning_rate": 0.00047296914610902565,
      "loss": 5.4488,
      "mean_token_accuracy": 0.16369751691818238,
      "num_tokens": 36152561.0,
      "step": 19605
    },
    {
      "entropy": 5.710807847976684,
      "epoch": 1.647511027095148,
      "grad_norm": 1.609375,
      "learning_rate": 0.00047295491292716245,
      "loss": 5.363,
      "mean_token_accuracy": 0.16720346361398697,
      "num_tokens": 36161877.0,
      "step": 19610
    },
    {
      "entropy": 5.670904731750488,
      "epoch": 1.6479311069103129,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00047294067623862996,
      "loss": 5.3954,
      "mean_token_accuracy": 0.164234559237957,
      "num_tokens": 36171523.0,
      "step": 19615
    },
    {
      "entropy": 5.612199401855468,
      "epoch": 1.6483511867254779,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00047292643604368025,
      "loss": 5.3371,
      "mean_token_accuracy": 0.1748445972800255,
      "num_tokens": 36180339.0,
      "step": 19620
    },
    {
      "entropy": 5.7124796390533445,
      "epoch": 1.6487712665406429,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004729121923425657,
      "loss": 5.4309,
      "mean_token_accuracy": 0.1659110963344574,
      "num_tokens": 36191584.0,
      "step": 19625
    },
    {
      "entropy": 5.788698005676269,
      "epoch": 1.6491913463558077,
      "grad_norm": 1.5,
      "learning_rate": 0.0004728979451355385,
      "loss": 5.4677,
      "mean_token_accuracy": 0.16967541128396987,
      "num_tokens": 36200738.0,
      "step": 19630
    },
    {
      "entropy": 5.621402883529663,
      "epoch": 1.6496114261709725,
      "grad_norm": 1.25,
      "learning_rate": 0.00047288369442285115,
      "loss": 5.2805,
      "mean_token_accuracy": 0.18398987352848054,
      "num_tokens": 36209394.0,
      "step": 19635
    },
    {
      "entropy": 5.628550434112549,
      "epoch": 1.6500315059861372,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00047286944020475606,
      "loss": 5.4013,
      "mean_token_accuracy": 0.17032790631055833,
      "num_tokens": 36218268.0,
      "step": 19640
    },
    {
      "entropy": 5.638523435592651,
      "epoch": 1.6504515858013022,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004728551824815057,
      "loss": 5.3451,
      "mean_token_accuracy": 0.17313553392887115,
      "num_tokens": 36226974.0,
      "step": 19645
    },
    {
      "entropy": 5.580386114120484,
      "epoch": 1.6508716656164673,
      "grad_norm": 1.390625,
      "learning_rate": 0.00047284092125335277,
      "loss": 5.3191,
      "mean_token_accuracy": 0.1764894738793373,
      "num_tokens": 36235892.0,
      "step": 19650
    },
    {
      "entropy": 5.583609628677368,
      "epoch": 1.651291745431632,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004728266565205497,
      "loss": 5.3286,
      "mean_token_accuracy": 0.17261691987514496,
      "num_tokens": 36244750.0,
      "step": 19655
    },
    {
      "entropy": 5.665705299377441,
      "epoch": 1.6517118252467968,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00047281238828334924,
      "loss": 5.3737,
      "mean_token_accuracy": 0.17210416346788407,
      "num_tokens": 36254902.0,
      "step": 19660
    },
    {
      "entropy": 5.684027051925659,
      "epoch": 1.6521319050619616,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004727981165420042,
      "loss": 5.4264,
      "mean_token_accuracy": 0.16854705959558486,
      "num_tokens": 36265546.0,
      "step": 19665
    },
    {
      "entropy": 5.635334634780884,
      "epoch": 1.6525519848771266,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004727838412967674,
      "loss": 5.3356,
      "mean_token_accuracy": 0.1739551231265068,
      "num_tokens": 36273978.0,
      "step": 19670
    },
    {
      "entropy": 5.694224214553833,
      "epoch": 1.6529720646922916,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004727695625478917,
      "loss": 5.3725,
      "mean_token_accuracy": 0.16794622987508773,
      "num_tokens": 36283117.0,
      "step": 19675
    },
    {
      "entropy": 5.7062092304229735,
      "epoch": 1.6533921445074564,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00047275528029562996,
      "loss": 5.37,
      "mean_token_accuracy": 0.16468877643346785,
      "num_tokens": 36293031.0,
      "step": 19680
    },
    {
      "entropy": 5.597905492782592,
      "epoch": 1.6538122243226212,
      "grad_norm": 1.546875,
      "learning_rate": 0.00047274099454023535,
      "loss": 5.3618,
      "mean_token_accuracy": 0.1748396039009094,
      "num_tokens": 36302080.0,
      "step": 19685
    },
    {
      "entropy": 5.6517712593078615,
      "epoch": 1.6542323041377862,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00047272670528196084,
      "loss": 5.389,
      "mean_token_accuracy": 0.1675845429301262,
      "num_tokens": 36311077.0,
      "step": 19690
    },
    {
      "entropy": 5.637048244476318,
      "epoch": 1.6546523839529512,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004727124125210595,
      "loss": 5.3213,
      "mean_token_accuracy": 0.1745500758290291,
      "num_tokens": 36320300.0,
      "step": 19695
    },
    {
      "entropy": 5.641404485702514,
      "epoch": 1.655072463768116,
      "grad_norm": 1.28125,
      "learning_rate": 0.00047269811625778456,
      "loss": 5.3872,
      "mean_token_accuracy": 0.17139033675193788,
      "num_tokens": 36330184.0,
      "step": 19700
    },
    {
      "entropy": 5.538795757293701,
      "epoch": 1.6554925435832808,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004726838164923893,
      "loss": 5.3895,
      "mean_token_accuracy": 0.16786455661058425,
      "num_tokens": 36339526.0,
      "step": 19705
    },
    {
      "entropy": 5.6508077621459964,
      "epoch": 1.6559126233984456,
      "grad_norm": 1.828125,
      "learning_rate": 0.00047266951322512716,
      "loss": 5.3813,
      "mean_token_accuracy": 0.1695254623889923,
      "num_tokens": 36348849.0,
      "step": 19710
    },
    {
      "entropy": 5.727986001968384,
      "epoch": 1.6563327032136106,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00047265520645625123,
      "loss": 5.3911,
      "mean_token_accuracy": 0.1646333172917366,
      "num_tokens": 36358924.0,
      "step": 19715
    },
    {
      "entropy": 5.7471997261047365,
      "epoch": 1.6567527830287756,
      "grad_norm": 1.859375,
      "learning_rate": 0.00047264089618601513,
      "loss": 5.422,
      "mean_token_accuracy": 0.17060866355895996,
      "num_tokens": 36367130.0,
      "step": 19720
    },
    {
      "entropy": 5.6405291080474855,
      "epoch": 1.6571728628439404,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004726265824146724,
      "loss": 5.3726,
      "mean_token_accuracy": 0.16610245555639266,
      "num_tokens": 36376575.0,
      "step": 19725
    },
    {
      "entropy": 5.561537742614746,
      "epoch": 1.6575929426591052,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004726122651424764,
      "loss": 5.3,
      "mean_token_accuracy": 0.1740986868739128,
      "num_tokens": 36385010.0,
      "step": 19730
    },
    {
      "entropy": 5.581302356719971,
      "epoch": 1.65801302247427,
      "grad_norm": 1.3515625,
      "learning_rate": 0.000472597944369681,
      "loss": 5.1033,
      "mean_token_accuracy": 0.18641779869794844,
      "num_tokens": 36393574.0,
      "step": 19735
    },
    {
      "entropy": 5.634199094772339,
      "epoch": 1.658433102289435,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00047258362009653965,
      "loss": 5.3236,
      "mean_token_accuracy": 0.17412642389535904,
      "num_tokens": 36401992.0,
      "step": 19740
    },
    {
      "entropy": 5.673167896270752,
      "epoch": 1.6588531821046,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00047256929232330624,
      "loss": 5.463,
      "mean_token_accuracy": 0.160048608481884,
      "num_tokens": 36411712.0,
      "step": 19745
    },
    {
      "entropy": 5.579254055023194,
      "epoch": 1.6592732619197648,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004725549610502346,
      "loss": 5.2837,
      "mean_token_accuracy": 0.17299832701683043,
      "num_tokens": 36420240.0,
      "step": 19750
    },
    {
      "entropy": 5.632542705535888,
      "epoch": 1.6596933417349296,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00047254062627757854,
      "loss": 5.4063,
      "mean_token_accuracy": 0.17789214998483657,
      "num_tokens": 36430068.0,
      "step": 19755
    },
    {
      "entropy": 5.690257835388183,
      "epoch": 1.6601134215500946,
      "grad_norm": 1.6875,
      "learning_rate": 0.000472526288005592,
      "loss": 5.4355,
      "mean_token_accuracy": 0.16823179572820662,
      "num_tokens": 36439808.0,
      "step": 19760
    },
    {
      "entropy": 5.611015462875367,
      "epoch": 1.6605335013652593,
      "grad_norm": 1.2109375,
      "learning_rate": 0.000472511946234529,
      "loss": 5.3956,
      "mean_token_accuracy": 0.17020961195230483,
      "num_tokens": 36449609.0,
      "step": 19765
    },
    {
      "entropy": 5.7615532875061035,
      "epoch": 1.6609535811804244,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004724976009646435,
      "loss": 5.3424,
      "mean_token_accuracy": 0.17360990196466447,
      "num_tokens": 36457700.0,
      "step": 19770
    },
    {
      "entropy": 5.669061231613159,
      "epoch": 1.6613736609955891,
      "grad_norm": 2.0625,
      "learning_rate": 0.0004724832521961897,
      "loss": 5.4023,
      "mean_token_accuracy": 0.17211264073848725,
      "num_tokens": 36466881.0,
      "step": 19775
    },
    {
      "entropy": 5.711100006103516,
      "epoch": 1.661793740810754,
      "grad_norm": 1.34375,
      "learning_rate": 0.00047246889992942187,
      "loss": 5.495,
      "mean_token_accuracy": 0.16188012808561325,
      "num_tokens": 36475433.0,
      "step": 19780
    },
    {
      "entropy": 5.68057951927185,
      "epoch": 1.662213820625919,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004724545441645941,
      "loss": 5.4116,
      "mean_token_accuracy": 0.16782844066619873,
      "num_tokens": 36484232.0,
      "step": 19785
    },
    {
      "entropy": 5.754859256744385,
      "epoch": 1.662633900441084,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004724401849019608,
      "loss": 5.5269,
      "mean_token_accuracy": 0.1602175533771515,
      "num_tokens": 36493588.0,
      "step": 19790
    },
    {
      "entropy": 5.669810009002686,
      "epoch": 1.6630539802562487,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00047242582214177616,
      "loss": 5.3045,
      "mean_token_accuracy": 0.1697609916329384,
      "num_tokens": 36502289.0,
      "step": 19795
    },
    {
      "entropy": 5.724186754226684,
      "epoch": 1.6634740600714135,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00047241145588429483,
      "loss": 5.4492,
      "mean_token_accuracy": 0.1644959807395935,
      "num_tokens": 36511978.0,
      "step": 19800
    },
    {
      "entropy": 5.680912446975708,
      "epoch": 1.6638941398865783,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004723970861297712,
      "loss": 5.4175,
      "mean_token_accuracy": 0.17128399163484573,
      "num_tokens": 36520378.0,
      "step": 19805
    },
    {
      "entropy": 5.655539083480835,
      "epoch": 1.6643142197017433,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004723827128784599,
      "loss": 5.4029,
      "mean_token_accuracy": 0.16915369629859925,
      "num_tokens": 36529965.0,
      "step": 19810
    },
    {
      "entropy": 5.836799001693725,
      "epoch": 1.6647342995169083,
      "grad_norm": 1.265625,
      "learning_rate": 0.00047236833613061534,
      "loss": 5.4194,
      "mean_token_accuracy": 0.16969371736049652,
      "num_tokens": 36539394.0,
      "step": 19815
    },
    {
      "entropy": 5.667885828018188,
      "epoch": 1.665154379332073,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004723539558864925,
      "loss": 5.4697,
      "mean_token_accuracy": 0.17036117166280745,
      "num_tokens": 36548608.0,
      "step": 19820
    },
    {
      "entropy": 5.670717477798462,
      "epoch": 1.665574459147238,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004723395721463459,
      "loss": 5.3393,
      "mean_token_accuracy": 0.1704514279961586,
      "num_tokens": 36557736.0,
      "step": 19825
    },
    {
      "entropy": 5.6675090312957765,
      "epoch": 1.665994538962403,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004723251849104303,
      "loss": 5.3703,
      "mean_token_accuracy": 0.16267035156488419,
      "num_tokens": 36566745.0,
      "step": 19830
    },
    {
      "entropy": 5.575802850723266,
      "epoch": 1.6664146187775677,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00047231079417900076,
      "loss": 5.3086,
      "mean_token_accuracy": 0.1693269893527031,
      "num_tokens": 36575956.0,
      "step": 19835
    },
    {
      "entropy": 5.638355350494384,
      "epoch": 1.6668346985927327,
      "grad_norm": 1.4140625,
      "learning_rate": 0.000472296399952312,
      "loss": 5.3651,
      "mean_token_accuracy": 0.17209307253360748,
      "num_tokens": 36584673.0,
      "step": 19840
    },
    {
      "entropy": 5.703708839416504,
      "epoch": 1.6672547784078975,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004722820022306192,
      "loss": 5.422,
      "mean_token_accuracy": 0.17276596128940583,
      "num_tokens": 36593758.0,
      "step": 19845
    },
    {
      "entropy": 5.591260862350464,
      "epoch": 1.6676748582230623,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004722676010141773,
      "loss": 5.2767,
      "mean_token_accuracy": 0.16923788189888,
      "num_tokens": 36603722.0,
      "step": 19850
    },
    {
      "entropy": 5.6357824325561525,
      "epoch": 1.6680949380382273,
      "grad_norm": 1.359375,
      "learning_rate": 0.00047225319630324136,
      "loss": 5.3335,
      "mean_token_accuracy": 0.17396993786096573,
      "num_tokens": 36612478.0,
      "step": 19855
    },
    {
      "entropy": 5.656694173812866,
      "epoch": 1.6685150178533923,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004722387880980667,
      "loss": 5.535,
      "mean_token_accuracy": 0.16138018071651458,
      "num_tokens": 36622399.0,
      "step": 19860
    },
    {
      "entropy": 5.709191513061524,
      "epoch": 1.668935097668557,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00047222437639890844,
      "loss": 5.3687,
      "mean_token_accuracy": 0.17041545510292053,
      "num_tokens": 36631798.0,
      "step": 19865
    },
    {
      "entropy": 5.570785617828369,
      "epoch": 1.6693551774837219,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00047220996120602197,
      "loss": 5.3879,
      "mean_token_accuracy": 0.1724646970629692,
      "num_tokens": 36640405.0,
      "step": 19870
    },
    {
      "entropy": 5.717275476455688,
      "epoch": 1.6697752572988867,
      "grad_norm": 1.375,
      "learning_rate": 0.00047219554251966246,
      "loss": 5.5201,
      "mean_token_accuracy": 0.1616477571427822,
      "num_tokens": 36650209.0,
      "step": 19875
    },
    {
      "entropy": 5.780755186080933,
      "epoch": 1.6701953371140517,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004721811203400855,
      "loss": 5.4614,
      "mean_token_accuracy": 0.16350688189268112,
      "num_tokens": 36660248.0,
      "step": 19880
    },
    {
      "entropy": 5.65017991065979,
      "epoch": 1.6706154169292167,
      "grad_norm": 1.453125,
      "learning_rate": 0.00047216669466754657,
      "loss": 5.3575,
      "mean_token_accuracy": 0.17064955681562424,
      "num_tokens": 36669938.0,
      "step": 19885
    },
    {
      "entropy": 5.548468828201294,
      "epoch": 1.6710354967443815,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004721522655023012,
      "loss": 5.375,
      "mean_token_accuracy": 0.17481788247823715,
      "num_tokens": 36679903.0,
      "step": 19890
    },
    {
      "entropy": 5.753811597824097,
      "epoch": 1.6714555765595462,
      "grad_norm": 1.5,
      "learning_rate": 0.0004721378328446049,
      "loss": 5.4404,
      "mean_token_accuracy": 0.17175495326519014,
      "num_tokens": 36688424.0,
      "step": 19895
    },
    {
      "entropy": 5.7923060894012455,
      "epoch": 1.6718756563747112,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004721233966947134,
      "loss": 5.5084,
      "mean_token_accuracy": 0.16471525579690932,
      "num_tokens": 36698715.0,
      "step": 19900
    },
    {
      "entropy": 5.536203193664551,
      "epoch": 1.672295736189876,
      "grad_norm": 1.3125,
      "learning_rate": 0.00047210895705288237,
      "loss": 5.3675,
      "mean_token_accuracy": 0.18398713916540146,
      "num_tokens": 36708456.0,
      "step": 19905
    },
    {
      "entropy": 5.648340320587158,
      "epoch": 1.672715816005041,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004720945139193678,
      "loss": 5.3991,
      "mean_token_accuracy": 0.1710827425122261,
      "num_tokens": 36717596.0,
      "step": 19910
    },
    {
      "entropy": 5.751449108123779,
      "epoch": 1.6731358958202058,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004720800672944253,
      "loss": 5.483,
      "mean_token_accuracy": 0.16295073330402374,
      "num_tokens": 36727092.0,
      "step": 19915
    },
    {
      "entropy": 5.658854913711548,
      "epoch": 1.6735559756353706,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004720656171783109,
      "loss": 5.2087,
      "mean_token_accuracy": 0.18139244765043258,
      "num_tokens": 36735910.0,
      "step": 19920
    },
    {
      "entropy": 5.5950675964355465,
      "epoch": 1.6739760554505356,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004720511635712806,
      "loss": 5.3288,
      "mean_token_accuracy": 0.17601545453071593,
      "num_tokens": 36745237.0,
      "step": 19925
    },
    {
      "entropy": 5.65685772895813,
      "epoch": 1.6743961352657006,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00047203670647359035,
      "loss": 5.466,
      "mean_token_accuracy": 0.16994206011295318,
      "num_tokens": 36753603.0,
      "step": 19930
    },
    {
      "entropy": 5.777238512039185,
      "epoch": 1.6748162150808654,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004720222458854964,
      "loss": 5.4552,
      "mean_token_accuracy": 0.16490527987480164,
      "num_tokens": 36763010.0,
      "step": 19935
    },
    {
      "entropy": 5.711502265930176,
      "epoch": 1.6752362948960302,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00047200778180725477,
      "loss": 5.384,
      "mean_token_accuracy": 0.17073629200458526,
      "num_tokens": 36772156.0,
      "step": 19940
    },
    {
      "entropy": 5.617578077316284,
      "epoch": 1.675656374711195,
      "grad_norm": 1.296875,
      "learning_rate": 0.00047199331423912174,
      "loss": 5.2788,
      "mean_token_accuracy": 0.175381575524807,
      "num_tokens": 36781386.0,
      "step": 19945
    },
    {
      "entropy": 5.661901426315308,
      "epoch": 1.67607645452636,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004719788431813536,
      "loss": 5.4426,
      "mean_token_accuracy": 0.1666231006383896,
      "num_tokens": 36790754.0,
      "step": 19950
    },
    {
      "entropy": 5.7037333965301515,
      "epoch": 1.676496534341525,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004719643686342066,
      "loss": 5.411,
      "mean_token_accuracy": 0.1669971838593483,
      "num_tokens": 36799623.0,
      "step": 19955
    },
    {
      "entropy": 5.560089445114135,
      "epoch": 1.6769166141566898,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004719498905979373,
      "loss": 5.2094,
      "mean_token_accuracy": 0.18330834209918975,
      "num_tokens": 36808662.0,
      "step": 19960
    },
    {
      "entropy": 5.662607908248901,
      "epoch": 1.6773366939718546,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004719354090728021,
      "loss": 5.3575,
      "mean_token_accuracy": 0.1706179365515709,
      "num_tokens": 36817730.0,
      "step": 19965
    },
    {
      "entropy": 5.664571619033813,
      "epoch": 1.6777567737870194,
      "grad_norm": 1.328125,
      "learning_rate": 0.00047192092405905743,
      "loss": 5.3373,
      "mean_token_accuracy": 0.1712536782026291,
      "num_tokens": 36827203.0,
      "step": 19970
    },
    {
      "entropy": 5.685041427612305,
      "epoch": 1.6781768536021844,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004719064355569601,
      "loss": 5.5026,
      "mean_token_accuracy": 0.1671118676662445,
      "num_tokens": 36836145.0,
      "step": 19975
    },
    {
      "entropy": 5.684621858596802,
      "epoch": 1.6785969334173494,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00047189194356676666,
      "loss": 5.4991,
      "mean_token_accuracy": 0.16675533056259156,
      "num_tokens": 36845609.0,
      "step": 19980
    },
    {
      "entropy": 5.687040328979492,
      "epoch": 1.6790170132325142,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00047187744808873386,
      "loss": 5.5006,
      "mean_token_accuracy": 0.16970218122005462,
      "num_tokens": 36855367.0,
      "step": 19985
    },
    {
      "entropy": 5.6927672863006595,
      "epoch": 1.679437093047679,
      "grad_norm": 2.484375,
      "learning_rate": 0.00047186294912311835,
      "loss": 5.4542,
      "mean_token_accuracy": 0.16267849504947662,
      "num_tokens": 36864808.0,
      "step": 19990
    },
    {
      "entropy": 5.654680156707764,
      "epoch": 1.679857172862844,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00047184844667017705,
      "loss": 5.3155,
      "mean_token_accuracy": 0.1753552258014679,
      "num_tokens": 36873651.0,
      "step": 19995
    },
    {
      "entropy": 5.636945676803589,
      "epoch": 1.680277252678009,
      "grad_norm": 1.375,
      "learning_rate": 0.00047183394073016695,
      "loss": 5.4605,
      "mean_token_accuracy": 0.1641372784972191,
      "num_tokens": 36883227.0,
      "step": 20000
    },
    {
      "entropy": 5.602861928939819,
      "epoch": 1.6806973324931738,
      "grad_norm": 1.328125,
      "learning_rate": 0.00047181943130334493,
      "loss": 5.2416,
      "mean_token_accuracy": 0.1794225737452507,
      "num_tokens": 36891628.0,
      "step": 20005
    },
    {
      "entropy": 5.613242959976196,
      "epoch": 1.6811174123083386,
      "grad_norm": 1.375,
      "learning_rate": 0.000471804918389968,
      "loss": 5.3644,
      "mean_token_accuracy": 0.16712576299905776,
      "num_tokens": 36901819.0,
      "step": 20010
    },
    {
      "entropy": 5.6311595916748045,
      "epoch": 1.6815374921235033,
      "grad_norm": 1.84375,
      "learning_rate": 0.0004717904019902933,
      "loss": 5.4003,
      "mean_token_accuracy": 0.17059791535139085,
      "num_tokens": 36911206.0,
      "step": 20015
    },
    {
      "entropy": 5.639288139343262,
      "epoch": 1.6819575719386683,
      "grad_norm": 1.5234375,
      "learning_rate": 0.000471775882104578,
      "loss": 5.3459,
      "mean_token_accuracy": 0.17099965065717698,
      "num_tokens": 36920830.0,
      "step": 20020
    },
    {
      "entropy": 5.543249130249023,
      "epoch": 1.6823776517538334,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00047176135873307917,
      "loss": 5.2633,
      "mean_token_accuracy": 0.17037912011146544,
      "num_tokens": 36929702.0,
      "step": 20025
    },
    {
      "entropy": 5.723000860214233,
      "epoch": 1.6827977315689981,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004717468318760543,
      "loss": 5.4725,
      "mean_token_accuracy": 0.16794218271970748,
      "num_tokens": 36938423.0,
      "step": 20030
    },
    {
      "entropy": 5.695086097717285,
      "epoch": 1.683217811384163,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00047173230153376057,
      "loss": 5.3934,
      "mean_token_accuracy": 0.16773395538330077,
      "num_tokens": 36947198.0,
      "step": 20035
    },
    {
      "entropy": 5.658504676818848,
      "epoch": 1.6836378911993277,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004717177677064554,
      "loss": 5.3724,
      "mean_token_accuracy": 0.17398134768009185,
      "num_tokens": 36955636.0,
      "step": 20040
    },
    {
      "entropy": 5.590145826339722,
      "epoch": 1.6840579710144927,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00047170323039439634,
      "loss": 5.3286,
      "mean_token_accuracy": 0.17025046944618225,
      "num_tokens": 36964463.0,
      "step": 20045
    },
    {
      "entropy": 5.70718035697937,
      "epoch": 1.6844780508296577,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004716886895978408,
      "loss": 5.4353,
      "mean_token_accuracy": 0.1722966879606247,
      "num_tokens": 36974043.0,
      "step": 20050
    },
    {
      "entropy": 5.650777006149292,
      "epoch": 1.6848981306448225,
      "grad_norm": 2.0625,
      "learning_rate": 0.00047167414531704637,
      "loss": 5.3406,
      "mean_token_accuracy": 0.17258572578430176,
      "num_tokens": 36983856.0,
      "step": 20055
    },
    {
      "entropy": 5.618655967712402,
      "epoch": 1.6853182104599873,
      "grad_norm": 1.28125,
      "learning_rate": 0.00047165959755227077,
      "loss": 5.3678,
      "mean_token_accuracy": 0.17598632574081421,
      "num_tokens": 36992664.0,
      "step": 20060
    },
    {
      "entropy": 5.616749095916748,
      "epoch": 1.6857382902751523,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00047164504630377166,
      "loss": 5.4167,
      "mean_token_accuracy": 0.17754430770874025,
      "num_tokens": 37001826.0,
      "step": 20065
    },
    {
      "entropy": 5.744650173187256,
      "epoch": 1.6861583700903173,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00047163049157180676,
      "loss": 5.4431,
      "mean_token_accuracy": 0.16668420433998107,
      "num_tokens": 37010821.0,
      "step": 20070
    },
    {
      "entropy": 5.711326599121094,
      "epoch": 1.6865784499054821,
      "grad_norm": 1.34375,
      "learning_rate": 0.000471615933356634,
      "loss": 5.5325,
      "mean_token_accuracy": 0.15652497559785844,
      "num_tokens": 37021293.0,
      "step": 20075
    },
    {
      "entropy": 5.657518434524536,
      "epoch": 1.686998529720647,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004716013716585112,
      "loss": 5.3066,
      "mean_token_accuracy": 0.17586107850074767,
      "num_tokens": 37031063.0,
      "step": 20080
    },
    {
      "entropy": 5.612600946426392,
      "epoch": 1.6874186095358117,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004715868064776964,
      "loss": 5.3682,
      "mean_token_accuracy": 0.17950290441513062,
      "num_tokens": 37040879.0,
      "step": 20085
    },
    {
      "entropy": 5.600485229492188,
      "epoch": 1.6878386893509767,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004715722378144474,
      "loss": 5.2522,
      "mean_token_accuracy": 0.17968133985996246,
      "num_tokens": 37049452.0,
      "step": 20090
    },
    {
      "entropy": 5.524720573425293,
      "epoch": 1.6882587691661417,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004715576656690225,
      "loss": 5.2317,
      "mean_token_accuracy": 0.17775061279535292,
      "num_tokens": 37058010.0,
      "step": 20095
    },
    {
      "entropy": 5.663621473312378,
      "epoch": 1.6886788489813065,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00047154309004167984,
      "loss": 5.4581,
      "mean_token_accuracy": 0.1619523733854294,
      "num_tokens": 37067580.0,
      "step": 20100
    },
    {
      "entropy": 5.626581048965454,
      "epoch": 1.6890989287964713,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00047152851093267744,
      "loss": 5.3434,
      "mean_token_accuracy": 0.17342365384101868,
      "num_tokens": 37076584.0,
      "step": 20105
    },
    {
      "entropy": 5.6316078186035154,
      "epoch": 1.689519008611636,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004715139283422737,
      "loss": 5.3632,
      "mean_token_accuracy": 0.16921617537736894,
      "num_tokens": 37086330.0,
      "step": 20110
    },
    {
      "entropy": 5.696176671981812,
      "epoch": 1.689939088426801,
      "grad_norm": 1.5078125,
      "learning_rate": 0.000471499342270727,
      "loss": 5.4194,
      "mean_token_accuracy": 0.16318628638982774,
      "num_tokens": 37096323.0,
      "step": 20115
    },
    {
      "entropy": 5.619508266448975,
      "epoch": 1.690359168241966,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00047148475271829556,
      "loss": 5.3484,
      "mean_token_accuracy": 0.1682300463318825,
      "num_tokens": 37106281.0,
      "step": 20120
    },
    {
      "entropy": 5.5695782661437985,
      "epoch": 1.6907792480571309,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004714701596852379,
      "loss": 5.3293,
      "mean_token_accuracy": 0.1787579908967018,
      "num_tokens": 37116002.0,
      "step": 20125
    },
    {
      "entropy": 5.626379442214966,
      "epoch": 1.6911993278722957,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004714555631718125,
      "loss": 5.4004,
      "mean_token_accuracy": 0.17309577763080597,
      "num_tokens": 37125125.0,
      "step": 20130
    },
    {
      "entropy": 5.601164245605469,
      "epoch": 1.6916194076874607,
      "grad_norm": 1.546875,
      "learning_rate": 0.000471440963178278,
      "loss": 5.2532,
      "mean_token_accuracy": 0.18026716858148575,
      "num_tokens": 37134358.0,
      "step": 20135
    },
    {
      "entropy": 5.707911014556885,
      "epoch": 1.6920394875026254,
      "grad_norm": 1.4375,
      "learning_rate": 0.00047142635970489293,
      "loss": 5.4198,
      "mean_token_accuracy": 0.16907861083745956,
      "num_tokens": 37143732.0,
      "step": 20140
    },
    {
      "entropy": 5.634232664108277,
      "epoch": 1.6924595673177905,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004714117527519161,
      "loss": 5.3242,
      "mean_token_accuracy": 0.17292115837335587,
      "num_tokens": 37153809.0,
      "step": 20145
    },
    {
      "entropy": 5.632751035690307,
      "epoch": 1.6928796471329552,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00047139714231960616,
      "loss": 5.3578,
      "mean_token_accuracy": 0.16431571841239928,
      "num_tokens": 37163272.0,
      "step": 20150
    },
    {
      "entropy": 5.591974878311158,
      "epoch": 1.69329972694812,
      "grad_norm": 1.6171875,
      "learning_rate": 0.000471382528408222,
      "loss": 5.2814,
      "mean_token_accuracy": 0.17594963163137436,
      "num_tokens": 37172323.0,
      "step": 20155
    },
    {
      "entropy": 5.712676620483398,
      "epoch": 1.693719806763285,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004713679110180225,
      "loss": 5.4905,
      "mean_token_accuracy": 0.16899462938308715,
      "num_tokens": 37181262.0,
      "step": 20160
    },
    {
      "entropy": 5.6906595706939695,
      "epoch": 1.69413988657845,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004713532901492666,
      "loss": 5.4426,
      "mean_token_accuracy": 0.17433411180973052,
      "num_tokens": 37189576.0,
      "step": 20165
    },
    {
      "entropy": 5.718492841720581,
      "epoch": 1.6945599663936148,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004713386658022132,
      "loss": 5.4397,
      "mean_token_accuracy": 0.16342198550701142,
      "num_tokens": 37199502.0,
      "step": 20170
    },
    {
      "entropy": 5.702072095870972,
      "epoch": 1.6949800462087796,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004713240379771214,
      "loss": 5.3477,
      "mean_token_accuracy": 0.16661544740200043,
      "num_tokens": 37209028.0,
      "step": 20175
    },
    {
      "entropy": 5.704798460006714,
      "epoch": 1.6954001260239444,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004713094066742505,
      "loss": 5.4943,
      "mean_token_accuracy": 0.16960543841123582,
      "num_tokens": 37218087.0,
      "step": 20180
    },
    {
      "entropy": 5.675905656814575,
      "epoch": 1.6958202058391094,
      "grad_norm": 1.359375,
      "learning_rate": 0.00047129477189385946,
      "loss": 5.4475,
      "mean_token_accuracy": 0.16832420825958253,
      "num_tokens": 37227345.0,
      "step": 20185
    },
    {
      "entropy": 5.73945164680481,
      "epoch": 1.6962402856542744,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004712801336362076,
      "loss": 5.3736,
      "mean_token_accuracy": 0.16931984573602676,
      "num_tokens": 37236011.0,
      "step": 20190
    },
    {
      "entropy": 5.620118522644043,
      "epoch": 1.6966603654694392,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004712654919015543,
      "loss": 5.3576,
      "mean_token_accuracy": 0.17278312891721725,
      "num_tokens": 37244613.0,
      "step": 20195
    },
    {
      "entropy": 5.61281909942627,
      "epoch": 1.697080445284604,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004712508466901588,
      "loss": 5.3743,
      "mean_token_accuracy": 0.1720852240920067,
      "num_tokens": 37253768.0,
      "step": 20200
    },
    {
      "entropy": 5.713197374343872,
      "epoch": 1.697500525099769,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00047123619800228057,
      "loss": 5.4486,
      "mean_token_accuracy": 0.1585058517754078,
      "num_tokens": 37263230.0,
      "step": 20205
    },
    {
      "entropy": 5.66543140411377,
      "epoch": 1.6979206049149338,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004712215458381792,
      "loss": 5.344,
      "mean_token_accuracy": 0.1704501375555992,
      "num_tokens": 37272752.0,
      "step": 20210
    },
    {
      "entropy": 5.69918270111084,
      "epoch": 1.6983406847300988,
      "grad_norm": 1.375,
      "learning_rate": 0.0004712068901981142,
      "loss": 5.3909,
      "mean_token_accuracy": 0.17387653589248658,
      "num_tokens": 37281465.0,
      "step": 20215
    },
    {
      "entropy": 5.658880043029785,
      "epoch": 1.6987607645452636,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004711922310823452,
      "loss": 5.3859,
      "mean_token_accuracy": 0.16725497990846633,
      "num_tokens": 37290408.0,
      "step": 20220
    },
    {
      "entropy": 5.644626569747925,
      "epoch": 1.6991808443604284,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004711775684911318,
      "loss": 5.3498,
      "mean_token_accuracy": 0.1716018721461296,
      "num_tokens": 37298890.0,
      "step": 20225
    },
    {
      "entropy": 5.60590615272522,
      "epoch": 1.6996009241755934,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00047116290242473375,
      "loss": 5.3494,
      "mean_token_accuracy": 0.16820138245820998,
      "num_tokens": 37307720.0,
      "step": 20230
    },
    {
      "entropy": 5.641182088851929,
      "epoch": 1.7000210039907584,
      "grad_norm": 1.703125,
      "learning_rate": 0.000471148232883411,
      "loss": 5.3946,
      "mean_token_accuracy": 0.16923058927059173,
      "num_tokens": 37317145.0,
      "step": 20235
    },
    {
      "entropy": 5.6542257308959964,
      "epoch": 1.7004410838059232,
      "grad_norm": 1.203125,
      "learning_rate": 0.00047113355986742325,
      "loss": 5.329,
      "mean_token_accuracy": 0.17771051228046417,
      "num_tokens": 37326579.0,
      "step": 20240
    },
    {
      "entropy": 5.677807474136353,
      "epoch": 1.700861163621088,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00047111888337703046,
      "loss": 5.4174,
      "mean_token_accuracy": 0.17049338668584824,
      "num_tokens": 37336065.0,
      "step": 20245
    },
    {
      "entropy": 5.56732497215271,
      "epoch": 1.7012812434362528,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004711042034124926,
      "loss": 5.2807,
      "mean_token_accuracy": 0.17862701117992402,
      "num_tokens": 37345297.0,
      "step": 20250
    },
    {
      "entropy": 5.668249082565308,
      "epoch": 1.7017013232514178,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004710895199740698,
      "loss": 5.42,
      "mean_token_accuracy": 0.16874612122774124,
      "num_tokens": 37354942.0,
      "step": 20255
    },
    {
      "entropy": 5.729604482650757,
      "epoch": 1.7021214030665828,
      "grad_norm": 2.03125,
      "learning_rate": 0.0004710748330620222,
      "loss": 5.3187,
      "mean_token_accuracy": 0.17622058391571044,
      "num_tokens": 37364068.0,
      "step": 20260
    },
    {
      "entropy": 5.6129645824432375,
      "epoch": 1.7025414828817476,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004710601426766098,
      "loss": 5.4302,
      "mean_token_accuracy": 0.16786112040281295,
      "num_tokens": 37373256.0,
      "step": 20265
    },
    {
      "entropy": 5.576197624206543,
      "epoch": 1.7029615626969123,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00047104544881809295,
      "loss": 5.2813,
      "mean_token_accuracy": 0.17993906289339065,
      "num_tokens": 37382098.0,
      "step": 20270
    },
    {
      "entropy": 5.573770999908447,
      "epoch": 1.7033816425120771,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004710307514867319,
      "loss": 5.2724,
      "mean_token_accuracy": 0.17502158433198928,
      "num_tokens": 37390844.0,
      "step": 20275
    },
    {
      "entropy": 5.67983660697937,
      "epoch": 1.7038017223272421,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004710160506827871,
      "loss": 5.3478,
      "mean_token_accuracy": 0.16562999337911605,
      "num_tokens": 37399617.0,
      "step": 20280
    },
    {
      "entropy": 5.7143641948699955,
      "epoch": 1.7042218021424071,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004710013464065189,
      "loss": 5.4787,
      "mean_token_accuracy": 0.16709637641906738,
      "num_tokens": 37409368.0,
      "step": 20285
    },
    {
      "entropy": 5.6330140113830565,
      "epoch": 1.704641881957572,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0004709866386581877,
      "loss": 5.2808,
      "mean_token_accuracy": 0.1773850664496422,
      "num_tokens": 37418026.0,
      "step": 20290
    },
    {
      "entropy": 5.621044492721557,
      "epoch": 1.7050619617727367,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00047097192743805413,
      "loss": 5.3021,
      "mean_token_accuracy": 0.1740890622138977,
      "num_tokens": 37426850.0,
      "step": 20295
    },
    {
      "entropy": 5.63762059211731,
      "epoch": 1.7054820415879017,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004709572127463788,
      "loss": 5.3505,
      "mean_token_accuracy": 0.1763610526919365,
      "num_tokens": 37436631.0,
      "step": 20300
    },
    {
      "entropy": 5.673188161849976,
      "epoch": 1.7059021214030667,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004709424945834223,
      "loss": 5.3697,
      "mean_token_accuracy": 0.1696738511323929,
      "num_tokens": 37445619.0,
      "step": 20305
    },
    {
      "entropy": 5.609205055236816,
      "epoch": 1.7063222012182315,
      "grad_norm": 1.46875,
      "learning_rate": 0.00047092777294944544,
      "loss": 5.3223,
      "mean_token_accuracy": 0.17436521351337433,
      "num_tokens": 37454205.0,
      "step": 20310
    },
    {
      "entropy": 5.672186851501465,
      "epoch": 1.7067422810333963,
      "grad_norm": 1.9375,
      "learning_rate": 0.000470913047844709,
      "loss": 5.4272,
      "mean_token_accuracy": 0.17115625292062758,
      "num_tokens": 37463301.0,
      "step": 20315
    },
    {
      "entropy": 5.664550542831421,
      "epoch": 1.707162360848561,
      "grad_norm": 1.5,
      "learning_rate": 0.00047089831926947374,
      "loss": 5.4153,
      "mean_token_accuracy": 0.1740603879094124,
      "num_tokens": 37471937.0,
      "step": 20320
    },
    {
      "entropy": 5.715552902221679,
      "epoch": 1.707582440663726,
      "grad_norm": 2.015625,
      "learning_rate": 0.0004708835872240007,
      "loss": 5.378,
      "mean_token_accuracy": 0.17142789512872697,
      "num_tokens": 37480779.0,
      "step": 20325
    },
    {
      "entropy": 5.700094079971313,
      "epoch": 1.7080025204788911,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00047086885170855074,
      "loss": 5.4218,
      "mean_token_accuracy": 0.16403729021549224,
      "num_tokens": 37491053.0,
      "step": 20330
    },
    {
      "entropy": 5.68527364730835,
      "epoch": 1.708422600294056,
      "grad_norm": 1.390625,
      "learning_rate": 0.000470854112723385,
      "loss": 5.3663,
      "mean_token_accuracy": 0.17164998948574067,
      "num_tokens": 37499091.0,
      "step": 20335
    },
    {
      "entropy": 5.639491558074951,
      "epoch": 1.7088426801092207,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004708393702687644,
      "loss": 5.4264,
      "mean_token_accuracy": 0.1666134625673294,
      "num_tokens": 37507882.0,
      "step": 20340
    },
    {
      "entropy": 5.662171506881714,
      "epoch": 1.7092627599243855,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00047082462434495015,
      "loss": 5.3894,
      "mean_token_accuracy": 0.17504524290561677,
      "num_tokens": 37517048.0,
      "step": 20345
    },
    {
      "entropy": 5.745312738418579,
      "epoch": 1.7096828397395505,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004708098749522036,
      "loss": 5.4333,
      "mean_token_accuracy": 0.16021379381418227,
      "num_tokens": 37526355.0,
      "step": 20350
    },
    {
      "entropy": 5.697979307174682,
      "epoch": 1.7101029195547155,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004707951220907859,
      "loss": 5.4629,
      "mean_token_accuracy": 0.1664559945464134,
      "num_tokens": 37535746.0,
      "step": 20355
    },
    {
      "entropy": 5.711132001876831,
      "epoch": 1.7105229993698803,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004707803657609585,
      "loss": 5.4243,
      "mean_token_accuracy": 0.16239014863967896,
      "num_tokens": 37546479.0,
      "step": 20360
    },
    {
      "entropy": 5.745557022094727,
      "epoch": 1.710943079185045,
      "grad_norm": 1.390625,
      "learning_rate": 0.00047076560596298275,
      "loss": 5.4748,
      "mean_token_accuracy": 0.1672067642211914,
      "num_tokens": 37556805.0,
      "step": 20365
    },
    {
      "entropy": 5.74319806098938,
      "epoch": 1.71136315900021,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00047075084269712,
      "loss": 5.4602,
      "mean_token_accuracy": 0.1733308419585228,
      "num_tokens": 37564748.0,
      "step": 20370
    },
    {
      "entropy": 5.585902261734009,
      "epoch": 1.711783238815375,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004707360759636319,
      "loss": 5.2641,
      "mean_token_accuracy": 0.1821661874651909,
      "num_tokens": 37574674.0,
      "step": 20375
    },
    {
      "entropy": 5.665689754486084,
      "epoch": 1.7122033186305399,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00047072130576278,
      "loss": 5.3839,
      "mean_token_accuracy": 0.17048663049936294,
      "num_tokens": 37584459.0,
      "step": 20380
    },
    {
      "entropy": 5.67416934967041,
      "epoch": 1.7126233984457047,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004707065320948259,
      "loss": 5.4119,
      "mean_token_accuracy": 0.17284180521965026,
      "num_tokens": 37593570.0,
      "step": 20385
    },
    {
      "entropy": 5.661170578002929,
      "epoch": 1.7130434782608694,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00047069175496003147,
      "loss": 5.4147,
      "mean_token_accuracy": 0.16955641210079192,
      "num_tokens": 37603032.0,
      "step": 20390
    },
    {
      "entropy": 5.6446874141693115,
      "epoch": 1.7134635580760345,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004706769743586583,
      "loss": 5.3464,
      "mean_token_accuracy": 0.1723109945654869,
      "num_tokens": 37612404.0,
      "step": 20395
    },
    {
      "entropy": 5.636924123764038,
      "epoch": 1.7138836378911995,
      "grad_norm": 1.5,
      "learning_rate": 0.00047066219029096837,
      "loss": 5.3658,
      "mean_token_accuracy": 0.1704767942428589,
      "num_tokens": 37621933.0,
      "step": 20400
    },
    {
      "entropy": 5.732251310348511,
      "epoch": 1.7143037177063642,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004706474027572234,
      "loss": 5.3965,
      "mean_token_accuracy": 0.17179838567972183,
      "num_tokens": 37632078.0,
      "step": 20405
    },
    {
      "entropy": 5.536679124832153,
      "epoch": 1.714723797521529,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00047063261175768543,
      "loss": 5.3053,
      "mean_token_accuracy": 0.17315014004707335,
      "num_tokens": 37641665.0,
      "step": 20410
    },
    {
      "entropy": 5.708039617538452,
      "epoch": 1.7151438773366938,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00047061781729261656,
      "loss": 5.3721,
      "mean_token_accuracy": 0.1656670242547989,
      "num_tokens": 37650751.0,
      "step": 20415
    },
    {
      "entropy": 5.628295135498047,
      "epoch": 1.7155639571518588,
      "grad_norm": 1.546875,
      "learning_rate": 0.00047060301936227865,
      "loss": 5.3617,
      "mean_token_accuracy": 0.17506831139326096,
      "num_tokens": 37659165.0,
      "step": 20420
    },
    {
      "entropy": 5.646256732940674,
      "epoch": 1.7159840369670238,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004705882179669341,
      "loss": 5.3544,
      "mean_token_accuracy": 0.17101034224033357,
      "num_tokens": 37668057.0,
      "step": 20425
    },
    {
      "entropy": 5.685383367538452,
      "epoch": 1.7164041167821886,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004705734131068449,
      "loss": 5.348,
      "mean_token_accuracy": 0.16941767185926437,
      "num_tokens": 37677674.0,
      "step": 20430
    },
    {
      "entropy": 5.602097034454346,
      "epoch": 1.7168241965973534,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004705586047822734,
      "loss": 5.3825,
      "mean_token_accuracy": 0.17536012828350067,
      "num_tokens": 37687009.0,
      "step": 20435
    },
    {
      "entropy": 5.629279613494873,
      "epoch": 1.7172442764125184,
      "grad_norm": 1.453125,
      "learning_rate": 0.00047054379299348194,
      "loss": 5.2569,
      "mean_token_accuracy": 0.17184604406356813,
      "num_tokens": 37696723.0,
      "step": 20440
    },
    {
      "entropy": 5.608349704742432,
      "epoch": 1.7176643562276832,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00047052897774073295,
      "loss": 5.3778,
      "mean_token_accuracy": 0.17021260857582093,
      "num_tokens": 37706560.0,
      "step": 20445
    },
    {
      "entropy": 5.6732789993286135,
      "epoch": 1.7180844360428482,
      "grad_norm": 1.484375,
      "learning_rate": 0.00047051415902428875,
      "loss": 5.3945,
      "mean_token_accuracy": 0.1690693438053131,
      "num_tokens": 37715176.0,
      "step": 20450
    },
    {
      "entropy": 5.639693117141723,
      "epoch": 1.718504515858013,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004704993368444119,
      "loss": 5.3816,
      "mean_token_accuracy": 0.16992994248867035,
      "num_tokens": 37723956.0,
      "step": 20455
    },
    {
      "entropy": 5.684892559051514,
      "epoch": 1.7189245956731778,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004704845112013649,
      "loss": 5.3845,
      "mean_token_accuracy": 0.17116268277168273,
      "num_tokens": 37733236.0,
      "step": 20460
    },
    {
      "entropy": 5.705689287185669,
      "epoch": 1.7193446754883428,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004704696820954105,
      "loss": 5.441,
      "mean_token_accuracy": 0.16739957481622697,
      "num_tokens": 37742626.0,
      "step": 20465
    },
    {
      "entropy": 5.627845668792725,
      "epoch": 1.7197647553035078,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004704548495268113,
      "loss": 5.3161,
      "mean_token_accuracy": 0.1832030311226845,
      "num_tokens": 37751854.0,
      "step": 20470
    },
    {
      "entropy": 5.622863864898681,
      "epoch": 1.7201848351186726,
      "grad_norm": 1.421875,
      "learning_rate": 0.00047044001349583,
      "loss": 5.3535,
      "mean_token_accuracy": 0.16801756620407104,
      "num_tokens": 37760993.0,
      "step": 20475
    },
    {
      "entropy": 5.647179698944091,
      "epoch": 1.7206049149338374,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00047042517400272966,
      "loss": 5.4368,
      "mean_token_accuracy": 0.17291858792304993,
      "num_tokens": 37771714.0,
      "step": 20480
    },
    {
      "entropy": 5.68183217048645,
      "epoch": 1.7210249947490022,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004704103310477729,
      "loss": 5.3595,
      "mean_token_accuracy": 0.17705655097961426,
      "num_tokens": 37780653.0,
      "step": 20485
    },
    {
      "entropy": 5.679630851745605,
      "epoch": 1.7214450745641672,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004703954846312228,
      "loss": 5.4293,
      "mean_token_accuracy": 0.1708232581615448,
      "num_tokens": 37790450.0,
      "step": 20490
    },
    {
      "entropy": 5.649170446395874,
      "epoch": 1.7218651543793322,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004703806347533423,
      "loss": 5.4189,
      "mean_token_accuracy": 0.16525555849075318,
      "num_tokens": 37800450.0,
      "step": 20495
    },
    {
      "entropy": 5.679272603988648,
      "epoch": 1.722285234194497,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004703657814143945,
      "loss": 5.4314,
      "mean_token_accuracy": 0.16290275305509566,
      "num_tokens": 37809261.0,
      "step": 20500
    },
    {
      "entropy": 5.642959403991699,
      "epoch": 1.7227053140096618,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004703509246146424,
      "loss": 5.2126,
      "mean_token_accuracy": 0.17658686637878418,
      "num_tokens": 37818244.0,
      "step": 20505
    },
    {
      "entropy": 5.628348398208618,
      "epoch": 1.7231253938248268,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004703360643543493,
      "loss": 5.3409,
      "mean_token_accuracy": 0.17722394019365312,
      "num_tokens": 37828555.0,
      "step": 20510
    },
    {
      "entropy": 5.563862991333008,
      "epoch": 1.7235454736399916,
      "grad_norm": 1.28125,
      "learning_rate": 0.00047032120063377836,
      "loss": 5.3109,
      "mean_token_accuracy": 0.17544028162956238,
      "num_tokens": 37837840.0,
      "step": 20515
    },
    {
      "entropy": 5.6779731750488285,
      "epoch": 1.7239655534551566,
      "grad_norm": 1.640625,
      "learning_rate": 0.00047030633345319293,
      "loss": 5.3616,
      "mean_token_accuracy": 0.16884265542030336,
      "num_tokens": 37846910.0,
      "step": 20520
    },
    {
      "entropy": 5.50715069770813,
      "epoch": 1.7243856332703213,
      "grad_norm": 1.46875,
      "learning_rate": 0.00047029146281285647,
      "loss": 5.2011,
      "mean_token_accuracy": 0.1903439998626709,
      "num_tokens": 37855642.0,
      "step": 20525
    },
    {
      "entropy": 5.667270755767822,
      "epoch": 1.7248057130854861,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004702765887130322,
      "loss": 5.3833,
      "mean_token_accuracy": 0.17016415446996688,
      "num_tokens": 37864439.0,
      "step": 20530
    },
    {
      "entropy": 5.749380970001221,
      "epoch": 1.7252257929006511,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00047026171115398377,
      "loss": 5.4523,
      "mean_token_accuracy": 0.1656784437596798,
      "num_tokens": 37873801.0,
      "step": 20535
    },
    {
      "entropy": 5.5730626583099365,
      "epoch": 1.7256458727158162,
      "grad_norm": 2.90625,
      "learning_rate": 0.0004702468301359746,
      "loss": 5.3311,
      "mean_token_accuracy": 0.17896921038627625,
      "num_tokens": 37883915.0,
      "step": 20540
    },
    {
      "entropy": 5.662897348403931,
      "epoch": 1.726065952530981,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0004702319456592684,
      "loss": 5.4436,
      "mean_token_accuracy": 0.16838170140981673,
      "num_tokens": 37894083.0,
      "step": 20545
    },
    {
      "entropy": 5.6904213428497314,
      "epoch": 1.7264860323461457,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00047021705772412885,
      "loss": 5.4377,
      "mean_token_accuracy": 0.16888969093561174,
      "num_tokens": 37902264.0,
      "step": 20550
    },
    {
      "entropy": 5.643442630767822,
      "epoch": 1.7269061121613105,
      "grad_norm": 1.34375,
      "learning_rate": 0.00047020216633081964,
      "loss": 5.341,
      "mean_token_accuracy": 0.17365592420101167,
      "num_tokens": 37911071.0,
      "step": 20555
    },
    {
      "entropy": 5.628277730941773,
      "epoch": 1.7273261919764755,
      "grad_norm": 1.78125,
      "learning_rate": 0.00047018727147960453,
      "loss": 5.4221,
      "mean_token_accuracy": 0.16485991030931474,
      "num_tokens": 37920048.0,
      "step": 20560
    },
    {
      "entropy": 5.698462057113647,
      "epoch": 1.7277462717916405,
      "grad_norm": 1.4375,
      "learning_rate": 0.00047017237317074743,
      "loss": 5.3894,
      "mean_token_accuracy": 0.17410711497068404,
      "num_tokens": 37928877.0,
      "step": 20565
    },
    {
      "entropy": 5.709046506881714,
      "epoch": 1.7281663516068053,
      "grad_norm": 1.671875,
      "learning_rate": 0.0004701574714045123,
      "loss": 5.4051,
      "mean_token_accuracy": 0.16448906511068345,
      "num_tokens": 37937860.0,
      "step": 20570
    },
    {
      "entropy": 5.6509918689727785,
      "epoch": 1.72858643142197,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00047014256618116304,
      "loss": 5.4058,
      "mean_token_accuracy": 0.1658877193927765,
      "num_tokens": 37947588.0,
      "step": 20575
    },
    {
      "entropy": 5.638443422317505,
      "epoch": 1.729006511237135,
      "grad_norm": 1.6875,
      "learning_rate": 0.00047012765750096365,
      "loss": 5.3205,
      "mean_token_accuracy": 0.1806677833199501,
      "num_tokens": 37957598.0,
      "step": 20580
    },
    {
      "entropy": 5.641557359695435,
      "epoch": 1.7294265910523,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00047011274536417827,
      "loss": 5.3013,
      "mean_token_accuracy": 0.17997593879699708,
      "num_tokens": 37965294.0,
      "step": 20585
    },
    {
      "entropy": 5.590178346633911,
      "epoch": 1.729846670867465,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00047009782977107113,
      "loss": 5.3207,
      "mean_token_accuracy": 0.1827242076396942,
      "num_tokens": 37973977.0,
      "step": 20590
    },
    {
      "entropy": 5.771245050430298,
      "epoch": 1.7302667506826297,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00047008291072190634,
      "loss": 5.4798,
      "mean_token_accuracy": 0.1616050750017166,
      "num_tokens": 37984492.0,
      "step": 20595
    },
    {
      "entropy": 5.745875120162964,
      "epoch": 1.7306868304977945,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004700679882169482,
      "loss": 5.3922,
      "mean_token_accuracy": 0.17045068442821504,
      "num_tokens": 37994404.0,
      "step": 20600
    },
    {
      "entropy": 5.543208265304566,
      "epoch": 1.7311069103129595,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0004700530622564613,
      "loss": 5.3057,
      "mean_token_accuracy": 0.18024921864271165,
      "num_tokens": 38002659.0,
      "step": 20605
    },
    {
      "entropy": 5.619626903533936,
      "epoch": 1.7315269901281245,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004700381328407096,
      "loss": 5.2932,
      "mean_token_accuracy": 0.17747585326433182,
      "num_tokens": 38012290.0,
      "step": 20610
    },
    {
      "entropy": 5.699101209640503,
      "epoch": 1.7319470699432893,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004700231999699579,
      "loss": 5.4263,
      "mean_token_accuracy": 0.16802889853715897,
      "num_tokens": 38022163.0,
      "step": 20615
    },
    {
      "entropy": 5.6378819942474365,
      "epoch": 1.732367149758454,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004700082636444706,
      "loss": 5.3703,
      "mean_token_accuracy": 0.16259206235408782,
      "num_tokens": 38031051.0,
      "step": 20620
    },
    {
      "entropy": 5.6816980838775635,
      "epoch": 1.7327872295736189,
      "grad_norm": 1.640625,
      "learning_rate": 0.00046999332386451245,
      "loss": 5.4231,
      "mean_token_accuracy": 0.16787817180156708,
      "num_tokens": 38040474.0,
      "step": 20625
    },
    {
      "entropy": 5.6875709056854244,
      "epoch": 1.7332073093887839,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00046997838063034784,
      "loss": 5.3934,
      "mean_token_accuracy": 0.1709348142147064,
      "num_tokens": 38049620.0,
      "step": 20630
    },
    {
      "entropy": 5.58522481918335,
      "epoch": 1.7336273892039489,
      "grad_norm": 1.5,
      "learning_rate": 0.00046996343394224173,
      "loss": 5.3489,
      "mean_token_accuracy": 0.17310173362493514,
      "num_tokens": 38059866.0,
      "step": 20635
    },
    {
      "entropy": 5.6092894077301025,
      "epoch": 1.7340474690191137,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00046994848380045866,
      "loss": 5.3227,
      "mean_token_accuracy": 0.16931509375572204,
      "num_tokens": 38068948.0,
      "step": 20640
    },
    {
      "entropy": 5.730233001708984,
      "epoch": 1.7344675488342784,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00046993353020526366,
      "loss": 5.5148,
      "mean_token_accuracy": 0.17122802436351775,
      "num_tokens": 38079239.0,
      "step": 20645
    },
    {
      "entropy": 5.666778707504273,
      "epoch": 1.7348876286494432,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0004699185731569215,
      "loss": 5.3772,
      "mean_token_accuracy": 0.17148027569055557,
      "num_tokens": 38087999.0,
      "step": 20650
    },
    {
      "entropy": 5.669428873062134,
      "epoch": 1.7353077084646082,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004699036126556972,
      "loss": 5.3704,
      "mean_token_accuracy": 0.17108169794082642,
      "num_tokens": 38096586.0,
      "step": 20655
    },
    {
      "entropy": 5.577715730667114,
      "epoch": 1.7357277882797733,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004698886487018558,
      "loss": 5.3346,
      "mean_token_accuracy": 0.1717136487364769,
      "num_tokens": 38104766.0,
      "step": 20660
    },
    {
      "entropy": 5.62361216545105,
      "epoch": 1.736147868094938,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004698736812956623,
      "loss": 5.3684,
      "mean_token_accuracy": 0.17202869206666946,
      "num_tokens": 38113574.0,
      "step": 20665
    },
    {
      "entropy": 5.6415934562683105,
      "epoch": 1.7365679479101028,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004698587104373819,
      "loss": 5.3325,
      "mean_token_accuracy": 0.16672066748142242,
      "num_tokens": 38122513.0,
      "step": 20670
    },
    {
      "entropy": 5.526204442977905,
      "epoch": 1.7369880277252678,
      "grad_norm": 1.328125,
      "learning_rate": 0.00046984373612727975,
      "loss": 5.3066,
      "mean_token_accuracy": 0.16567323356866837,
      "num_tokens": 38131105.0,
      "step": 20675
    },
    {
      "entropy": 5.6237061500549315,
      "epoch": 1.7374081075404328,
      "grad_norm": 1.75,
      "learning_rate": 0.00046982875836562116,
      "loss": 5.3868,
      "mean_token_accuracy": 0.16423740088939667,
      "num_tokens": 38140106.0,
      "step": 20680
    },
    {
      "entropy": 5.661822700500489,
      "epoch": 1.7378281873555976,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00046981377715267145,
      "loss": 5.3491,
      "mean_token_accuracy": 0.17514974921941756,
      "num_tokens": 38149215.0,
      "step": 20685
    },
    {
      "entropy": 5.637057638168335,
      "epoch": 1.7382482671707624,
      "grad_norm": 1.6796875,
      "learning_rate": 0.000469798792488696,
      "loss": 5.2793,
      "mean_token_accuracy": 0.17926838994026184,
      "num_tokens": 38157591.0,
      "step": 20690
    },
    {
      "entropy": 5.580015373229981,
      "epoch": 1.7386683469859272,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004697838043739602,
      "loss": 5.4022,
      "mean_token_accuracy": 0.16713829338550568,
      "num_tokens": 38167673.0,
      "step": 20695
    },
    {
      "entropy": 5.708221006393432,
      "epoch": 1.7390884268010922,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00046976881280872974,
      "loss": 5.368,
      "mean_token_accuracy": 0.1714918613433838,
      "num_tokens": 38177586.0,
      "step": 20700
    },
    {
      "entropy": 5.71192569732666,
      "epoch": 1.7395085066162572,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004697538177932699,
      "loss": 5.3698,
      "mean_token_accuracy": 0.16908372268080712,
      "num_tokens": 38187020.0,
      "step": 20705
    },
    {
      "entropy": 5.527950620651245,
      "epoch": 1.739928586431422,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004697388193278465,
      "loss": 5.1499,
      "mean_token_accuracy": 0.1834670916199684,
      "num_tokens": 38195705.0,
      "step": 20710
    },
    {
      "entropy": 5.576827144622802,
      "epoch": 1.7403486662465868,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004697238174127252,
      "loss": 5.2747,
      "mean_token_accuracy": 0.1754479631781578,
      "num_tokens": 38204726.0,
      "step": 20715
    },
    {
      "entropy": 5.591728734970093,
      "epoch": 1.7407687460617516,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004697088120481717,
      "loss": 5.3875,
      "mean_token_accuracy": 0.16983902752399443,
      "num_tokens": 38214376.0,
      "step": 20720
    },
    {
      "entropy": 5.610480928421021,
      "epoch": 1.7411888258769166,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004696938032344519,
      "loss": 5.298,
      "mean_token_accuracy": 0.17367589026689528,
      "num_tokens": 38223631.0,
      "step": 20725
    },
    {
      "entropy": 5.627554512023925,
      "epoch": 1.7416089056920816,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004696787909718317,
      "loss": 5.3183,
      "mean_token_accuracy": 0.18182352632284166,
      "num_tokens": 38233519.0,
      "step": 20730
    },
    {
      "entropy": 5.636379337310791,
      "epoch": 1.7420289855072464,
      "grad_norm": 2.046875,
      "learning_rate": 0.00046966377526057686,
      "loss": 5.2841,
      "mean_token_accuracy": 0.1782074749469757,
      "num_tokens": 38242340.0,
      "step": 20735
    },
    {
      "entropy": 5.582876539230346,
      "epoch": 1.7424490653224112,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004696487561009535,
      "loss": 5.2942,
      "mean_token_accuracy": 0.17328224033117295,
      "num_tokens": 38251194.0,
      "step": 20740
    },
    {
      "entropy": 5.637811088562012,
      "epoch": 1.7428691451375762,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004696337334932277,
      "loss": 5.3531,
      "mean_token_accuracy": 0.17145794332027436,
      "num_tokens": 38259938.0,
      "step": 20745
    },
    {
      "entropy": 5.654774141311646,
      "epoch": 1.743289224952741,
      "grad_norm": 1.53125,
      "learning_rate": 0.00046961870743766546,
      "loss": 5.3472,
      "mean_token_accuracy": 0.17386607378721236,
      "num_tokens": 38268073.0,
      "step": 20750
    },
    {
      "entropy": 5.666212892532348,
      "epoch": 1.743709304767906,
      "grad_norm": 2.125,
      "learning_rate": 0.00046960367793453313,
      "loss": 5.4556,
      "mean_token_accuracy": 0.16973720118403435,
      "num_tokens": 38277667.0,
      "step": 20755
    },
    {
      "entropy": 5.710540676116944,
      "epoch": 1.7441293845830708,
      "grad_norm": 1.453125,
      "learning_rate": 0.00046958864498409673,
      "loss": 5.4055,
      "mean_token_accuracy": 0.17234568446874618,
      "num_tokens": 38287142.0,
      "step": 20760
    },
    {
      "entropy": 5.692324304580689,
      "epoch": 1.7445494643982355,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00046957360858662276,
      "loss": 5.3783,
      "mean_token_accuracy": 0.17638524919748305,
      "num_tokens": 38296199.0,
      "step": 20765
    },
    {
      "entropy": 5.645661878585815,
      "epoch": 1.7449695442134006,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004695585687423775,
      "loss": 5.3891,
      "mean_token_accuracy": 0.17083698213100434,
      "num_tokens": 38305412.0,
      "step": 20770
    },
    {
      "entropy": 5.592067527770996,
      "epoch": 1.7453896240285656,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004695435254516273,
      "loss": 5.3152,
      "mean_token_accuracy": 0.18210890293121337,
      "num_tokens": 38313898.0,
      "step": 20775
    },
    {
      "entropy": 5.671021890640259,
      "epoch": 1.7458097038437304,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004695284787146388,
      "loss": 5.4325,
      "mean_token_accuracy": 0.1672999680042267,
      "num_tokens": 38322835.0,
      "step": 20780
    },
    {
      "entropy": 5.610225439071655,
      "epoch": 1.7462297836588951,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004695134285316784,
      "loss": 5.2361,
      "mean_token_accuracy": 0.18298912942409515,
      "num_tokens": 38331448.0,
      "step": 20785
    },
    {
      "entropy": 5.620502758026123,
      "epoch": 1.74664986347406,
      "grad_norm": 1.453125,
      "learning_rate": 0.00046949837490301293,
      "loss": 5.3828,
      "mean_token_accuracy": 0.16921331137418746,
      "num_tokens": 38340837.0,
      "step": 20790
    },
    {
      "entropy": 5.626954984664917,
      "epoch": 1.747069943289225,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004694833178289088,
      "loss": 5.3406,
      "mean_token_accuracy": 0.1766287937760353,
      "num_tokens": 38349363.0,
      "step": 20795
    },
    {
      "entropy": 5.631927633285523,
      "epoch": 1.74749002310439,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004694682573096328,
      "loss": 5.376,
      "mean_token_accuracy": 0.17368592023849488,
      "num_tokens": 38358017.0,
      "step": 20800
    },
    {
      "entropy": 5.6352317333221436,
      "epoch": 1.7479101029195547,
      "grad_norm": 1.5,
      "learning_rate": 0.00046945319334545184,
      "loss": 5.3588,
      "mean_token_accuracy": 0.17234770804643632,
      "num_tokens": 38367256.0,
      "step": 20805
    },
    {
      "entropy": 5.618623685836792,
      "epoch": 1.7483301827347195,
      "grad_norm": 1.78125,
      "learning_rate": 0.0004694381259366327,
      "loss": 5.3577,
      "mean_token_accuracy": 0.17468070536851882,
      "num_tokens": 38376169.0,
      "step": 20810
    },
    {
      "entropy": 5.641800165176392,
      "epoch": 1.7487502625498845,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00046942305508344216,
      "loss": 5.3273,
      "mean_token_accuracy": 0.17379536628723144,
      "num_tokens": 38385379.0,
      "step": 20815
    },
    {
      "entropy": 5.693554830551148,
      "epoch": 1.7491703423650493,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004694079807861473,
      "loss": 5.4342,
      "mean_token_accuracy": 0.1681118994951248,
      "num_tokens": 38395217.0,
      "step": 20820
    },
    {
      "entropy": 5.636894845962525,
      "epoch": 1.7495904221802143,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004693929030450153,
      "loss": 5.3247,
      "mean_token_accuracy": 0.17704234570264815,
      "num_tokens": 38404347.0,
      "step": 20825
    },
    {
      "entropy": 5.6810730457305905,
      "epoch": 1.750010501995379,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00046937782186031303,
      "loss": 5.3081,
      "mean_token_accuracy": 0.1747249722480774,
      "num_tokens": 38413394.0,
      "step": 20830
    },
    {
      "entropy": 5.676941013336181,
      "epoch": 1.750430581810544,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004693627372323078,
      "loss": 5.3446,
      "mean_token_accuracy": 0.17214433401823043,
      "num_tokens": 38422043.0,
      "step": 20835
    },
    {
      "entropy": 5.753418397903443,
      "epoch": 1.750850661625709,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004693476491612667,
      "loss": 5.5131,
      "mean_token_accuracy": 0.1660939335823059,
      "num_tokens": 38430792.0,
      "step": 20840
    },
    {
      "entropy": 5.56128044128418,
      "epoch": 1.751270741440874,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004693325576474571,
      "loss": 5.299,
      "mean_token_accuracy": 0.17610928416252136,
      "num_tokens": 38439105.0,
      "step": 20845
    },
    {
      "entropy": 5.644918298721313,
      "epoch": 1.7516908212560387,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004693174626911463,
      "loss": 5.3261,
      "mean_token_accuracy": 0.1766454264521599,
      "num_tokens": 38447944.0,
      "step": 20850
    },
    {
      "entropy": 5.628182983398437,
      "epoch": 1.7521109010712035,
      "grad_norm": 1.8125,
      "learning_rate": 0.00046930236429260173,
      "loss": 5.3694,
      "mean_token_accuracy": 0.16761911809444427,
      "num_tokens": 38457206.0,
      "step": 20855
    },
    {
      "entropy": 5.685393190383911,
      "epoch": 1.7525309808863683,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004692872624520908,
      "loss": 5.446,
      "mean_token_accuracy": 0.16450470089912414,
      "num_tokens": 38467085.0,
      "step": 20860
    },
    {
      "entropy": 5.687595844268799,
      "epoch": 1.7529510607015333,
      "grad_norm": 1.6171875,
      "learning_rate": 0.000469272157169881,
      "loss": 5.2827,
      "mean_token_accuracy": 0.17452918142080306,
      "num_tokens": 38475970.0,
      "step": 20865
    },
    {
      "entropy": 5.637504386901855,
      "epoch": 1.7533711405166983,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004692570484462401,
      "loss": 5.4291,
      "mean_token_accuracy": 0.17007501125335694,
      "num_tokens": 38484579.0,
      "step": 20870
    },
    {
      "entropy": 5.683751344680786,
      "epoch": 1.753791220331863,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00046924193628143554,
      "loss": 5.4706,
      "mean_token_accuracy": 0.16491821259260178,
      "num_tokens": 38495107.0,
      "step": 20875
    },
    {
      "entropy": 5.733100080490113,
      "epoch": 1.7542113001470279,
      "grad_norm": 2.125,
      "learning_rate": 0.00046922682067573516,
      "loss": 5.455,
      "mean_token_accuracy": 0.1720812901854515,
      "num_tokens": 38505731.0,
      "step": 20880
    },
    {
      "entropy": 5.629334449768066,
      "epoch": 1.7546313799621929,
      "grad_norm": 1.859375,
      "learning_rate": 0.00046921170162940657,
      "loss": 5.3422,
      "mean_token_accuracy": 0.1781423345208168,
      "num_tokens": 38514483.0,
      "step": 20885
    },
    {
      "entropy": 5.6288830757141115,
      "epoch": 1.7550514597773577,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00046919657914271774,
      "loss": 5.2621,
      "mean_token_accuracy": 0.18058374375104905,
      "num_tokens": 38522953.0,
      "step": 20890
    },
    {
      "entropy": 5.567493963241577,
      "epoch": 1.7554715395925227,
      "grad_norm": 3.0,
      "learning_rate": 0.0004691814532159365,
      "loss": 5.2562,
      "mean_token_accuracy": 0.18670934140682222,
      "num_tokens": 38531891.0,
      "step": 20895
    },
    {
      "entropy": 5.650929737091064,
      "epoch": 1.7558916194076875,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004691663238493308,
      "loss": 5.431,
      "mean_token_accuracy": 0.1708792820572853,
      "num_tokens": 38541609.0,
      "step": 20900
    },
    {
      "entropy": 5.714797496795654,
      "epoch": 1.7563116992228522,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004691511910431686,
      "loss": 5.4352,
      "mean_token_accuracy": 0.17311373427510263,
      "num_tokens": 38550348.0,
      "step": 20905
    },
    {
      "entropy": 5.609110689163208,
      "epoch": 1.7567317790380172,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004691360547977181,
      "loss": 5.2661,
      "mean_token_accuracy": 0.17832353860139846,
      "num_tokens": 38559493.0,
      "step": 20910
    },
    {
      "entropy": 5.621959161758423,
      "epoch": 1.7571518588531823,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004691209151132474,
      "loss": 5.3231,
      "mean_token_accuracy": 0.1581482857465744,
      "num_tokens": 38567888.0,
      "step": 20915
    },
    {
      "entropy": 5.6945287704467775,
      "epoch": 1.757571938668347,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004691057719900246,
      "loss": 5.3927,
      "mean_token_accuracy": 0.17266636341810226,
      "num_tokens": 38577216.0,
      "step": 20920
    },
    {
      "entropy": 5.6431300163269045,
      "epoch": 1.7579920184835118,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00046909062542831794,
      "loss": 5.34,
      "mean_token_accuracy": 0.17715939432382583,
      "num_tokens": 38586258.0,
      "step": 20925
    },
    {
      "entropy": 5.642459106445313,
      "epoch": 1.7584120982986766,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004690754754283959,
      "loss": 5.2895,
      "mean_token_accuracy": 0.17726175487041473,
      "num_tokens": 38594900.0,
      "step": 20930
    },
    {
      "entropy": 5.594657468795776,
      "epoch": 1.7588321781138416,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004690603219905266,
      "loss": 5.3709,
      "mean_token_accuracy": 0.171932390332222,
      "num_tokens": 38603980.0,
      "step": 20935
    },
    {
      "entropy": 5.678670597076416,
      "epoch": 1.7592522579290066,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00046904516511497873,
      "loss": 5.4647,
      "mean_token_accuracy": 0.16452773064374923,
      "num_tokens": 38613888.0,
      "step": 20940
    },
    {
      "entropy": 5.754366111755371,
      "epoch": 1.7596723377441714,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00046903000480202065,
      "loss": 5.3917,
      "mean_token_accuracy": 0.1681995779275894,
      "num_tokens": 38623969.0,
      "step": 20945
    },
    {
      "entropy": 5.62518458366394,
      "epoch": 1.7600924175593362,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00046901484105192094,
      "loss": 5.3453,
      "mean_token_accuracy": 0.17296512126922609,
      "num_tokens": 38633387.0,
      "step": 20950
    },
    {
      "entropy": 5.6430340766906735,
      "epoch": 1.760512497374501,
      "grad_norm": 1.265625,
      "learning_rate": 0.00046899967386494816,
      "loss": 5.4,
      "mean_token_accuracy": 0.16604579389095306,
      "num_tokens": 38642481.0,
      "step": 20955
    },
    {
      "entropy": 5.687196922302246,
      "epoch": 1.760932577189666,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004689845032413712,
      "loss": 5.3981,
      "mean_token_accuracy": 0.1664348542690277,
      "num_tokens": 38652345.0,
      "step": 20960
    },
    {
      "entropy": 5.732553148269654,
      "epoch": 1.761352657004831,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004689693291814586,
      "loss": 5.4189,
      "mean_token_accuracy": 0.16699230074882507,
      "num_tokens": 38661529.0,
      "step": 20965
    },
    {
      "entropy": 5.602785253524781,
      "epoch": 1.7617727368199958,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004689541516854791,
      "loss": 5.3202,
      "mean_token_accuracy": 0.17832910716533662,
      "num_tokens": 38670191.0,
      "step": 20970
    },
    {
      "entropy": 5.621751117706299,
      "epoch": 1.7621928166351606,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004689389707537018,
      "loss": 5.4132,
      "mean_token_accuracy": 0.16694632470607756,
      "num_tokens": 38679089.0,
      "step": 20975
    },
    {
      "entropy": 5.660399055480957,
      "epoch": 1.7626128964503256,
      "grad_norm": 1.40625,
      "learning_rate": 0.00046892378638639545,
      "loss": 5.3529,
      "mean_token_accuracy": 0.1763218879699707,
      "num_tokens": 38688821.0,
      "step": 20980
    },
    {
      "entropy": 5.709231901168823,
      "epoch": 1.7630329762654906,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00046890859858382913,
      "loss": 5.4325,
      "mean_token_accuracy": 0.16355552822351455,
      "num_tokens": 38698232.0,
      "step": 20985
    },
    {
      "entropy": 5.778678321838379,
      "epoch": 1.7634530560806554,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004688934073462718,
      "loss": 5.5,
      "mean_token_accuracy": 0.15904544815421104,
      "num_tokens": 38708090.0,
      "step": 20990
    },
    {
      "entropy": 5.694181299209594,
      "epoch": 1.7638731358958202,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00046887821267399256,
      "loss": 5.4005,
      "mean_token_accuracy": 0.17715791165828704,
      "num_tokens": 38717370.0,
      "step": 20995
    },
    {
      "entropy": 5.667404508590698,
      "epoch": 1.764293215710985,
      "grad_norm": 1.921875,
      "learning_rate": 0.0004688630145672607,
      "loss": 5.3688,
      "mean_token_accuracy": 0.17490747272968293,
      "num_tokens": 38726758.0,
      "step": 21000
    },
    {
      "epoch": 1.764293215710985,
      "eval_entropy": 5.447259841907512,
      "eval_loss": 5.429024696350098,
      "eval_mean_token_accuracy": 0.17760649738501136,
      "eval_num_tokens": 38726758.0,
      "eval_runtime": 27.2768,
      "eval_samples_per_second": 1369.882,
      "eval_steps_per_second": 171.244,
      "step": 21000
    },
    {
      "entropy": 5.620334959030151,
      "epoch": 1.76471329552615,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004688478130263453,
      "loss": 5.3613,
      "mean_token_accuracy": 0.1682727813720703,
      "num_tokens": 38736180.0,
      "step": 21005
    },
    {
      "entropy": 5.655771541595459,
      "epoch": 1.765133375341315,
      "grad_norm": 1.5,
      "learning_rate": 0.0004688326080515157,
      "loss": 5.3121,
      "mean_token_accuracy": 0.17605517357587813,
      "num_tokens": 38744529.0,
      "step": 21010
    },
    {
      "entropy": 5.517810726165772,
      "epoch": 1.7655534551564798,
      "grad_norm": 1.421875,
      "learning_rate": 0.00046881739964304127,
      "loss": 5.2272,
      "mean_token_accuracy": 0.18033822625875473,
      "num_tokens": 38753434.0,
      "step": 21015
    },
    {
      "entropy": 5.597821426391602,
      "epoch": 1.7659735349716446,
      "grad_norm": 1.421875,
      "learning_rate": 0.00046880218780119136,
      "loss": 5.3471,
      "mean_token_accuracy": 0.17827894389629365,
      "num_tokens": 38762021.0,
      "step": 21020
    },
    {
      "entropy": 5.703983736038208,
      "epoch": 1.7663936147868093,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004687869725262356,
      "loss": 5.4687,
      "mean_token_accuracy": 0.1671355977654457,
      "num_tokens": 38771373.0,
      "step": 21025
    },
    {
      "entropy": 5.684408521652221,
      "epoch": 1.7668136946019743,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004687717538184433,
      "loss": 5.427,
      "mean_token_accuracy": 0.1724289759993553,
      "num_tokens": 38780388.0,
      "step": 21030
    },
    {
      "entropy": 5.61069803237915,
      "epoch": 1.7672337744171394,
      "grad_norm": 1.5625,
      "learning_rate": 0.00046875653167808423,
      "loss": 5.26,
      "mean_token_accuracy": 0.1805383160710335,
      "num_tokens": 38789285.0,
      "step": 21035
    },
    {
      "entropy": 5.5840356826782225,
      "epoch": 1.7676538542323041,
      "grad_norm": 1.703125,
      "learning_rate": 0.00046874130610542796,
      "loss": 5.3548,
      "mean_token_accuracy": 0.17195963561534883,
      "num_tokens": 38799321.0,
      "step": 21040
    },
    {
      "entropy": 5.69988784790039,
      "epoch": 1.768073934047469,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004687260771007442,
      "loss": 5.3414,
      "mean_token_accuracy": 0.16847853660583495,
      "num_tokens": 38808515.0,
      "step": 21045
    },
    {
      "entropy": 5.594510459899903,
      "epoch": 1.768494013862634,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004687108446643027,
      "loss": 5.3048,
      "mean_token_accuracy": 0.17457255125045776,
      "num_tokens": 38817634.0,
      "step": 21050
    },
    {
      "entropy": 5.740410614013672,
      "epoch": 1.7689140936777987,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004686956087963734,
      "loss": 5.5311,
      "mean_token_accuracy": 0.1675797998905182,
      "num_tokens": 38826766.0,
      "step": 21055
    },
    {
      "entropy": 5.64251217842102,
      "epoch": 1.7693341734929637,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004686803694972261,
      "loss": 5.2846,
      "mean_token_accuracy": 0.17146496325731278,
      "num_tokens": 38835942.0,
      "step": 21060
    },
    {
      "entropy": 5.637530994415283,
      "epoch": 1.7697542533081285,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00046866512676713075,
      "loss": 5.381,
      "mean_token_accuracy": 0.16483051627874373,
      "num_tokens": 38845691.0,
      "step": 21065
    },
    {
      "entropy": 5.6026856899261475,
      "epoch": 1.7701743331232933,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00046864988060635744,
      "loss": 5.3686,
      "mean_token_accuracy": 0.16854404360055925,
      "num_tokens": 38855737.0,
      "step": 21070
    },
    {
      "entropy": 5.634773826599121,
      "epoch": 1.7705944129384583,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004686346310151762,
      "loss": 5.3817,
      "mean_token_accuracy": 0.17483728677034377,
      "num_tokens": 38864887.0,
      "step": 21075
    },
    {
      "entropy": 5.710461950302124,
      "epoch": 1.7710144927536233,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00046861937799385717,
      "loss": 5.3603,
      "mean_token_accuracy": 0.1777254104614258,
      "num_tokens": 38873924.0,
      "step": 21080
    },
    {
      "entropy": 5.648996734619141,
      "epoch": 1.7714345725687881,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004686041215426706,
      "loss": 5.4071,
      "mean_token_accuracy": 0.1716112896800041,
      "num_tokens": 38883447.0,
      "step": 21085
    },
    {
      "entropy": 5.647649192810059,
      "epoch": 1.771854652383953,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004685888616618867,
      "loss": 5.393,
      "mean_token_accuracy": 0.17345526367425917,
      "num_tokens": 38892389.0,
      "step": 21090
    },
    {
      "entropy": 5.688521671295166,
      "epoch": 1.7722747321991177,
      "grad_norm": 1.328125,
      "learning_rate": 0.00046857359835177575,
      "loss": 5.4408,
      "mean_token_accuracy": 0.16651444435119628,
      "num_tokens": 38901574.0,
      "step": 21095
    },
    {
      "entropy": 5.710891914367676,
      "epoch": 1.7726948120142827,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00046855833161260825,
      "loss": 5.4205,
      "mean_token_accuracy": 0.1721094399690628,
      "num_tokens": 38910070.0,
      "step": 21100
    },
    {
      "entropy": 5.6420543670654295,
      "epoch": 1.7731148918294477,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004685430614446545,
      "loss": 5.3168,
      "mean_token_accuracy": 0.17222830057144164,
      "num_tokens": 38919868.0,
      "step": 21105
    },
    {
      "entropy": 5.66776967048645,
      "epoch": 1.7735349716446125,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004685277878481852,
      "loss": 5.3784,
      "mean_token_accuracy": 0.16582091450691222,
      "num_tokens": 38928840.0,
      "step": 21110
    },
    {
      "entropy": 5.662716102600098,
      "epoch": 1.7739550514597773,
      "grad_norm": 1.28125,
      "learning_rate": 0.00046851251082347063,
      "loss": 5.455,
      "mean_token_accuracy": 0.166241654753685,
      "num_tokens": 38938112.0,
      "step": 21115
    },
    {
      "entropy": 5.7086883068084715,
      "epoch": 1.7743751312749423,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004684972303707816,
      "loss": 5.3755,
      "mean_token_accuracy": 0.1721594288945198,
      "num_tokens": 38947463.0,
      "step": 21120
    },
    {
      "entropy": 5.71903281211853,
      "epoch": 1.774795211090107,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004684819464903888,
      "loss": 5.5394,
      "mean_token_accuracy": 0.16309396475553511,
      "num_tokens": 38957221.0,
      "step": 21125
    },
    {
      "entropy": 5.59781403541565,
      "epoch": 1.775215290905272,
      "grad_norm": 1.375,
      "learning_rate": 0.000468466659182563,
      "loss": 5.2735,
      "mean_token_accuracy": 0.1779392898082733,
      "num_tokens": 38966656.0,
      "step": 21130
    },
    {
      "entropy": 5.600368213653565,
      "epoch": 1.7756353707204369,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004684513684475749,
      "loss": 5.28,
      "mean_token_accuracy": 0.17913274914026261,
      "num_tokens": 38975281.0,
      "step": 21135
    },
    {
      "entropy": 5.711512088775635,
      "epoch": 1.7760554505356017,
      "grad_norm": 1.328125,
      "learning_rate": 0.00046843607428569546,
      "loss": 5.4295,
      "mean_token_accuracy": 0.17240019291639327,
      "num_tokens": 38985147.0,
      "step": 21140
    },
    {
      "entropy": 5.63455982208252,
      "epoch": 1.7764755303507667,
      "grad_norm": 1.59375,
      "learning_rate": 0.00046842077669719554,
      "loss": 5.2079,
      "mean_token_accuracy": 0.1831870675086975,
      "num_tokens": 38994104.0,
      "step": 21145
    },
    {
      "entropy": 5.631388187408447,
      "epoch": 1.7768956101659317,
      "grad_norm": 1.3125,
      "learning_rate": 0.00046840547568234613,
      "loss": 5.4063,
      "mean_token_accuracy": 0.1688321650028229,
      "num_tokens": 39003983.0,
      "step": 21150
    },
    {
      "entropy": 5.6240592956542965,
      "epoch": 1.7773156899810965,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00046839017124141835,
      "loss": 5.3136,
      "mean_token_accuracy": 0.17558915317058563,
      "num_tokens": 39012636.0,
      "step": 21155
    },
    {
      "entropy": 5.648619031906128,
      "epoch": 1.7777357697962612,
      "grad_norm": 1.546875,
      "learning_rate": 0.00046837486337468335,
      "loss": 5.4367,
      "mean_token_accuracy": 0.16739535629749297,
      "num_tokens": 39022173.0,
      "step": 21160
    },
    {
      "entropy": 5.746690368652343,
      "epoch": 1.778155849611426,
      "grad_norm": 1.3359375,
      "learning_rate": 0.000468359552082412,
      "loss": 5.4438,
      "mean_token_accuracy": 0.16601206958293915,
      "num_tokens": 39032651.0,
      "step": 21165
    },
    {
      "entropy": 5.650369501113891,
      "epoch": 1.778575929426591,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004683442373648759,
      "loss": 5.3624,
      "mean_token_accuracy": 0.16653727144002914,
      "num_tokens": 39041543.0,
      "step": 21170
    },
    {
      "entropy": 5.610308504104614,
      "epoch": 1.778996009241756,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004683289192223462,
      "loss": 5.336,
      "mean_token_accuracy": 0.17248573154211044,
      "num_tokens": 39050467.0,
      "step": 21175
    },
    {
      "entropy": 5.684257221221924,
      "epoch": 1.7794160890569208,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00046831359765509424,
      "loss": 5.3996,
      "mean_token_accuracy": 0.16482697874307634,
      "num_tokens": 39059224.0,
      "step": 21180
    },
    {
      "entropy": 5.65388126373291,
      "epoch": 1.7798361688720856,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00046829827266339134,
      "loss": 5.4226,
      "mean_token_accuracy": 0.17068626284599303,
      "num_tokens": 39067884.0,
      "step": 21185
    },
    {
      "entropy": 5.682791662216187,
      "epoch": 1.7802562486872506,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00046828294424750916,
      "loss": 5.3776,
      "mean_token_accuracy": 0.1663289338350296,
      "num_tokens": 39076774.0,
      "step": 21190
    },
    {
      "entropy": 5.6760657787322994,
      "epoch": 1.7806763285024154,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004682676124077192,
      "loss": 5.312,
      "mean_token_accuracy": 0.17417764961719512,
      "num_tokens": 39086021.0,
      "step": 21195
    },
    {
      "entropy": 5.687941169738769,
      "epoch": 1.7810964083175804,
      "grad_norm": 1.28125,
      "learning_rate": 0.00046825227714429287,
      "loss": 5.3043,
      "mean_token_accuracy": 0.17446549832820893,
      "num_tokens": 39095682.0,
      "step": 21200
    },
    {
      "entropy": 5.591732406616211,
      "epoch": 1.7815164881327452,
      "grad_norm": 1.21875,
      "learning_rate": 0.00046823693845750205,
      "loss": 5.3381,
      "mean_token_accuracy": 0.17597149461507797,
      "num_tokens": 39104904.0,
      "step": 21205
    },
    {
      "entropy": 5.669663190841675,
      "epoch": 1.78193656794791,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00046822159634761837,
      "loss": 5.4867,
      "mean_token_accuracy": 0.16566276848316192,
      "num_tokens": 39113128.0,
      "step": 21210
    },
    {
      "entropy": 5.5798241138458256,
      "epoch": 1.782356647763075,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004682062508149136,
      "loss": 5.3373,
      "mean_token_accuracy": 0.17040848433971406,
      "num_tokens": 39122503.0,
      "step": 21215
    },
    {
      "entropy": 5.65609712600708,
      "epoch": 1.78277672757824,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004681909018596595,
      "loss": 5.3367,
      "mean_token_accuracy": 0.17275859266519547,
      "num_tokens": 39132020.0,
      "step": 21220
    },
    {
      "entropy": 5.674847936630249,
      "epoch": 1.7831968073934048,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00046817554948212813,
      "loss": 5.3719,
      "mean_token_accuracy": 0.17056983560323716,
      "num_tokens": 39141542.0,
      "step": 21225
    },
    {
      "entropy": 5.6901304721832275,
      "epoch": 1.7836168872085696,
      "grad_norm": 1.578125,
      "learning_rate": 0.00046816019368259136,
      "loss": 5.3959,
      "mean_token_accuracy": 0.1733367383480072,
      "num_tokens": 39151573.0,
      "step": 21230
    },
    {
      "entropy": 5.597964191436768,
      "epoch": 1.7840369670237344,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004681448344613212,
      "loss": 5.3772,
      "mean_token_accuracy": 0.18744425475597382,
      "num_tokens": 39160023.0,
      "step": 21235
    },
    {
      "entropy": 5.585873651504516,
      "epoch": 1.7844570468388994,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00046812947181858986,
      "loss": 5.3522,
      "mean_token_accuracy": 0.17375268936157226,
      "num_tokens": 39169335.0,
      "step": 21240
    },
    {
      "entropy": 5.7382103443145756,
      "epoch": 1.7848771266540644,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004681141057546693,
      "loss": 5.4522,
      "mean_token_accuracy": 0.1610276386141777,
      "num_tokens": 39177953.0,
      "step": 21245
    },
    {
      "entropy": 5.6841898441314695,
      "epoch": 1.7852972064692292,
      "grad_norm": 1.640625,
      "learning_rate": 0.00046809873626983174,
      "loss": 5.3873,
      "mean_token_accuracy": 0.16958157420158387,
      "num_tokens": 39188984.0,
      "step": 21250
    },
    {
      "entropy": 5.650718355178833,
      "epoch": 1.785717286284394,
      "grad_norm": 2.015625,
      "learning_rate": 0.00046808336336434946,
      "loss": 5.354,
      "mean_token_accuracy": 0.1693144455552101,
      "num_tokens": 39198033.0,
      "step": 21255
    },
    {
      "entropy": 5.640344429016113,
      "epoch": 1.7861373660995588,
      "grad_norm": 1.34375,
      "learning_rate": 0.00046806798703849495,
      "loss": 5.3114,
      "mean_token_accuracy": 0.17812950164079666,
      "num_tokens": 39207429.0,
      "step": 21260
    },
    {
      "entropy": 5.668394279479981,
      "epoch": 1.7865574459147238,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004680526072925404,
      "loss": 5.3638,
      "mean_token_accuracy": 0.17503189891576768,
      "num_tokens": 39216484.0,
      "step": 21265
    },
    {
      "entropy": 5.751850509643555,
      "epoch": 1.7869775257298888,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00046803722412675836,
      "loss": 5.4421,
      "mean_token_accuracy": 0.16722988039255143,
      "num_tokens": 39226385.0,
      "step": 21270
    },
    {
      "entropy": 5.659515428543091,
      "epoch": 1.7873976055450536,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00046802183754142125,
      "loss": 5.355,
      "mean_token_accuracy": 0.17532113194465637,
      "num_tokens": 39235424.0,
      "step": 21275
    },
    {
      "entropy": 5.615523481369019,
      "epoch": 1.7878176853602183,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004680064475368017,
      "loss": 5.334,
      "mean_token_accuracy": 0.17136083245277406,
      "num_tokens": 39244109.0,
      "step": 21280
    },
    {
      "entropy": 5.638778781890869,
      "epoch": 1.7882377651753834,
      "grad_norm": 1.640625,
      "learning_rate": 0.00046799105411317234,
      "loss": 5.3672,
      "mean_token_accuracy": 0.18030614107847215,
      "num_tokens": 39253685.0,
      "step": 21285
    },
    {
      "entropy": 5.636345529556275,
      "epoch": 1.7886578449905484,
      "grad_norm": 1.4375,
      "learning_rate": 0.00046797565727080585,
      "loss": 5.3363,
      "mean_token_accuracy": 0.1694641187787056,
      "num_tokens": 39262743.0,
      "step": 21290
    },
    {
      "entropy": 5.595978879928589,
      "epoch": 1.7890779248057131,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00046796025700997484,
      "loss": 5.2617,
      "mean_token_accuracy": 0.1859144985675812,
      "num_tokens": 39270962.0,
      "step": 21295
    },
    {
      "entropy": 5.629796028137207,
      "epoch": 1.789498004620878,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004679448533309523,
      "loss": 5.357,
      "mean_token_accuracy": 0.1806061625480652,
      "num_tokens": 39279994.0,
      "step": 21300
    },
    {
      "entropy": 5.648918485641479,
      "epoch": 1.7899180844360427,
      "grad_norm": 1.375,
      "learning_rate": 0.00046792944623401107,
      "loss": 5.3957,
      "mean_token_accuracy": 0.17086594551801682,
      "num_tokens": 39289481.0,
      "step": 21305
    },
    {
      "entropy": 5.726909589767456,
      "epoch": 1.7903381642512077,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00046791403571942405,
      "loss": 5.4798,
      "mean_token_accuracy": 0.16001774370670319,
      "num_tokens": 39298383.0,
      "step": 21310
    },
    {
      "entropy": 5.628692245483398,
      "epoch": 1.7907582440663727,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004678986217874642,
      "loss": 5.3709,
      "mean_token_accuracy": 0.17079650610685349,
      "num_tokens": 39307809.0,
      "step": 21315
    },
    {
      "entropy": 5.601756286621094,
      "epoch": 1.7911783238815375,
      "grad_norm": 1.375,
      "learning_rate": 0.00046788320443840457,
      "loss": 5.2556,
      "mean_token_accuracy": 0.18573263436555862,
      "num_tokens": 39316332.0,
      "step": 21320
    },
    {
      "entropy": 5.617982006072998,
      "epoch": 1.7915984036967023,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00046786778367251833,
      "loss": 5.292,
      "mean_token_accuracy": 0.17370064407587052,
      "num_tokens": 39325672.0,
      "step": 21325
    },
    {
      "entropy": 5.591927242279053,
      "epoch": 1.792018483511867,
      "grad_norm": 1.359375,
      "learning_rate": 0.00046785235949007854,
      "loss": 5.3672,
      "mean_token_accuracy": 0.1754762977361679,
      "num_tokens": 39334478.0,
      "step": 21330
    },
    {
      "entropy": 5.4915365219116214,
      "epoch": 1.792438563327032,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00046783693189135863,
      "loss": 5.2474,
      "mean_token_accuracy": 0.17552462220191956,
      "num_tokens": 39343573.0,
      "step": 21335
    },
    {
      "entropy": 5.642029523849487,
      "epoch": 1.7928586431421971,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00046782150087663167,
      "loss": 5.3067,
      "mean_token_accuracy": 0.18337966054677962,
      "num_tokens": 39351956.0,
      "step": 21340
    },
    {
      "entropy": 5.699854373931885,
      "epoch": 1.793278722957362,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004678060664461711,
      "loss": 5.4656,
      "mean_token_accuracy": 0.16409681141376495,
      "num_tokens": 39361911.0,
      "step": 21345
    },
    {
      "entropy": 5.689766883850098,
      "epoch": 1.7936988027725267,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004677906286002504,
      "loss": 5.3918,
      "mean_token_accuracy": 0.1700123593211174,
      "num_tokens": 39370916.0,
      "step": 21350
    },
    {
      "entropy": 5.681654787063598,
      "epoch": 1.7941188825876917,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004677751873391429,
      "loss": 5.4125,
      "mean_token_accuracy": 0.16728848665952684,
      "num_tokens": 39380662.0,
      "step": 21355
    },
    {
      "entropy": 5.632915210723877,
      "epoch": 1.7945389624028567,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00046775974266312234,
      "loss": 5.3231,
      "mean_token_accuracy": 0.18093785941600798,
      "num_tokens": 39389644.0,
      "step": 21360
    },
    {
      "entropy": 5.627950620651245,
      "epoch": 1.7949590422180215,
      "grad_norm": 1.546875,
      "learning_rate": 0.00046774429457246215,
      "loss": 5.317,
      "mean_token_accuracy": 0.1713301122188568,
      "num_tokens": 39398662.0,
      "step": 21365
    },
    {
      "entropy": 5.665298891067505,
      "epoch": 1.7953791220331863,
      "grad_norm": 1.5,
      "learning_rate": 0.000467728843067436,
      "loss": 5.4089,
      "mean_token_accuracy": 0.17280863374471664,
      "num_tokens": 39408064.0,
      "step": 21370
    },
    {
      "entropy": 5.68812518119812,
      "epoch": 1.795799201848351,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004677133881483177,
      "loss": 5.4316,
      "mean_token_accuracy": 0.16077583879232407,
      "num_tokens": 39418991.0,
      "step": 21375
    },
    {
      "entropy": 5.6052967548370365,
      "epoch": 1.796219281663516,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004676979298153809,
      "loss": 5.2948,
      "mean_token_accuracy": 0.17317767292261124,
      "num_tokens": 39428707.0,
      "step": 21380
    },
    {
      "entropy": 5.718463802337647,
      "epoch": 1.796639361478681,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004676824680688996,
      "loss": 5.4489,
      "mean_token_accuracy": 0.17518044412136077,
      "num_tokens": 39437173.0,
      "step": 21385
    },
    {
      "entropy": 5.70597095489502,
      "epoch": 1.7970594412938459,
      "grad_norm": 1.28125,
      "learning_rate": 0.00046766700290914743,
      "loss": 5.3734,
      "mean_token_accuracy": 0.16496011465787888,
      "num_tokens": 39446336.0,
      "step": 21390
    },
    {
      "entropy": 5.687495326995849,
      "epoch": 1.7974795211090107,
      "grad_norm": 1.296875,
      "learning_rate": 0.00046765153433639856,
      "loss": 5.5444,
      "mean_token_accuracy": 0.16359457075595857,
      "num_tokens": 39456129.0,
      "step": 21395
    },
    {
      "entropy": 5.662699794769287,
      "epoch": 1.7978996009241754,
      "grad_norm": 1.328125,
      "learning_rate": 0.00046763606235092705,
      "loss": 5.3918,
      "mean_token_accuracy": 0.173219533264637,
      "num_tokens": 39465386.0,
      "step": 21400
    },
    {
      "entropy": 5.6809672832489015,
      "epoch": 1.7983196807393405,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004676205869530068,
      "loss": 5.4419,
      "mean_token_accuracy": 0.17025604397058486,
      "num_tokens": 39475085.0,
      "step": 21405
    },
    {
      "entropy": 5.678685855865479,
      "epoch": 1.7987397605545055,
      "grad_norm": 1.671875,
      "learning_rate": 0.00046760510814291206,
      "loss": 5.4574,
      "mean_token_accuracy": 0.16565362811088563,
      "num_tokens": 39484500.0,
      "step": 21410
    },
    {
      "entropy": 5.675810527801514,
      "epoch": 1.7991598403696702,
      "grad_norm": 1.2578125,
      "learning_rate": 0.000467589625920917,
      "loss": 5.3463,
      "mean_token_accuracy": 0.17084126621484758,
      "num_tokens": 39494049.0,
      "step": 21415
    },
    {
      "entropy": 5.617605352401734,
      "epoch": 1.799579920184835,
      "grad_norm": 1.34375,
      "learning_rate": 0.000467574140287296,
      "loss": 5.3515,
      "mean_token_accuracy": 0.17164410948753356,
      "num_tokens": 39502874.0,
      "step": 21420
    },
    {
      "entropy": 5.603321266174317,
      "epoch": 1.8,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004675586512423231,
      "loss": 5.3848,
      "mean_token_accuracy": 0.16502818018198012,
      "num_tokens": 39512371.0,
      "step": 21425
    },
    {
      "entropy": 5.67237401008606,
      "epoch": 1.8004200798151648,
      "grad_norm": 1.28125,
      "learning_rate": 0.000467543158786273,
      "loss": 5.4078,
      "mean_token_accuracy": 0.1716100186109543,
      "num_tokens": 39521477.0,
      "step": 21430
    },
    {
      "entropy": 5.677791595458984,
      "epoch": 1.8008401596303298,
      "grad_norm": 1.375,
      "learning_rate": 0.00046752766291941985,
      "loss": 5.418,
      "mean_token_accuracy": 0.1607919916510582,
      "num_tokens": 39530072.0,
      "step": 21435
    },
    {
      "entropy": 5.66340913772583,
      "epoch": 1.8012602394454946,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004675121636420383,
      "loss": 5.3903,
      "mean_token_accuracy": 0.16702970415353774,
      "num_tokens": 39540762.0,
      "step": 21440
    },
    {
      "entropy": 5.696033906936646,
      "epoch": 1.8016803192606594,
      "grad_norm": 1.4375,
      "learning_rate": 0.000467496660954403,
      "loss": 5.4174,
      "mean_token_accuracy": 0.16265884339809417,
      "num_tokens": 39549699.0,
      "step": 21445
    },
    {
      "entropy": 5.677773523330688,
      "epoch": 1.8021003990758244,
      "grad_norm": 1.4375,
      "learning_rate": 0.00046748115485678837,
      "loss": 5.4414,
      "mean_token_accuracy": 0.1688990116119385,
      "num_tokens": 39558725.0,
      "step": 21450
    },
    {
      "entropy": 5.60676121711731,
      "epoch": 1.8025204788909894,
      "grad_norm": 1.703125,
      "learning_rate": 0.00046746564534946926,
      "loss": 5.2994,
      "mean_token_accuracy": 0.17619529366493225,
      "num_tokens": 39567357.0,
      "step": 21455
    },
    {
      "entropy": 5.635344457626343,
      "epoch": 1.8029405587061542,
      "grad_norm": 1.609375,
      "learning_rate": 0.0004674501324327203,
      "loss": 5.2869,
      "mean_token_accuracy": 0.17789805233478545,
      "num_tokens": 39576147.0,
      "step": 21460
    },
    {
      "entropy": 5.669049167633057,
      "epoch": 1.803360638521319,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00046743461610681636,
      "loss": 5.4369,
      "mean_token_accuracy": 0.17405525892972945,
      "num_tokens": 39584963.0,
      "step": 21465
    },
    {
      "entropy": 5.590832757949829,
      "epoch": 1.8037807183364838,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004674190963720323,
      "loss": 5.2983,
      "mean_token_accuracy": 0.17730980813503266,
      "num_tokens": 39594420.0,
      "step": 21470
    },
    {
      "entropy": 5.597025918960571,
      "epoch": 1.8042007981516488,
      "grad_norm": 1.34375,
      "learning_rate": 0.000467403573228643,
      "loss": 5.394,
      "mean_token_accuracy": 0.16461124569177626,
      "num_tokens": 39603276.0,
      "step": 21475
    },
    {
      "entropy": 5.600082731246948,
      "epoch": 1.8046208779668138,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004673880466769235,
      "loss": 5.4545,
      "mean_token_accuracy": 0.16378810703754426,
      "num_tokens": 39613161.0,
      "step": 21480
    },
    {
      "entropy": 5.631666612625122,
      "epoch": 1.8050409577819786,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00046737251671714886,
      "loss": 5.3009,
      "mean_token_accuracy": 0.17678849697113036,
      "num_tokens": 39621889.0,
      "step": 21485
    },
    {
      "entropy": 5.751594495773316,
      "epoch": 1.8054610375971434,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00046735698334959407,
      "loss": 5.4888,
      "mean_token_accuracy": 0.17027620673179628,
      "num_tokens": 39632009.0,
      "step": 21490
    },
    {
      "entropy": 5.7419802188873295,
      "epoch": 1.8058811174123084,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00046734144657453443,
      "loss": 5.3736,
      "mean_token_accuracy": 0.17260289043188096,
      "num_tokens": 39640639.0,
      "step": 21495
    },
    {
      "entropy": 5.6267815113067625,
      "epoch": 1.8063011972274732,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00046732590639224505,
      "loss": 5.394,
      "mean_token_accuracy": 0.17710949927568437,
      "num_tokens": 39649837.0,
      "step": 21500
    },
    {
      "entropy": 5.635099458694458,
      "epoch": 1.8067212770426382,
      "grad_norm": 1.375,
      "learning_rate": 0.00046731036280300126,
      "loss": 5.4226,
      "mean_token_accuracy": 0.17313309758901596,
      "num_tokens": 39659890.0,
      "step": 21505
    },
    {
      "entropy": 5.6682960987091064,
      "epoch": 1.807141356857803,
      "grad_norm": 1.484375,
      "learning_rate": 0.00046729481580707846,
      "loss": 5.3342,
      "mean_token_accuracy": 0.17116763591766357,
      "num_tokens": 39669550.0,
      "step": 21510
    },
    {
      "entropy": 5.6409660339355465,
      "epoch": 1.8075614366729678,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00046727926540475207,
      "loss": 5.3313,
      "mean_token_accuracy": 0.16743680387735366,
      "num_tokens": 39678471.0,
      "step": 21515
    },
    {
      "entropy": 5.514544820785522,
      "epoch": 1.8079815164881328,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004672637115962974,
      "loss": 5.2649,
      "mean_token_accuracy": 0.17956244349479675,
      "num_tokens": 39686600.0,
      "step": 21520
    },
    {
      "entropy": 5.597471857070923,
      "epoch": 1.8084015963032978,
      "grad_norm": 1.34375,
      "learning_rate": 0.00046724815438199007,
      "loss": 5.3991,
      "mean_token_accuracy": 0.1686672165989876,
      "num_tokens": 39696848.0,
      "step": 21525
    },
    {
      "entropy": 5.61803035736084,
      "epoch": 1.8088216761184626,
      "grad_norm": 1.46875,
      "learning_rate": 0.00046723259376210577,
      "loss": 5.335,
      "mean_token_accuracy": 0.17923670560121535,
      "num_tokens": 39706051.0,
      "step": 21530
    },
    {
      "entropy": 5.691323709487915,
      "epoch": 1.8092417559336273,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00046721702973692,
      "loss": 5.3996,
      "mean_token_accuracy": 0.16498573273420333,
      "num_tokens": 39716035.0,
      "step": 21535
    },
    {
      "entropy": 5.6498912334442135,
      "epoch": 1.8096618357487921,
      "grad_norm": 1.890625,
      "learning_rate": 0.00046720146230670853,
      "loss": 5.3763,
      "mean_token_accuracy": 0.16898033916950225,
      "num_tokens": 39725717.0,
      "step": 21540
    },
    {
      "entropy": 5.623174715042114,
      "epoch": 1.8100819155639571,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004671858914717471,
      "loss": 5.3948,
      "mean_token_accuracy": 0.16846336126327516,
      "num_tokens": 39734543.0,
      "step": 21545
    },
    {
      "entropy": 5.647709131240845,
      "epoch": 1.8105019953791222,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00046717031723231164,
      "loss": 5.4131,
      "mean_token_accuracy": 0.17280775755643846,
      "num_tokens": 39744503.0,
      "step": 21550
    },
    {
      "entropy": 5.638943243026733,
      "epoch": 1.810922075194287,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004671547395886779,
      "loss": 5.3921,
      "mean_token_accuracy": 0.16712662130594252,
      "num_tokens": 39753484.0,
      "step": 21555
    },
    {
      "entropy": 5.610015249252319,
      "epoch": 1.8113421550094517,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004671391585411219,
      "loss": 5.3029,
      "mean_token_accuracy": 0.1781844601035118,
      "num_tokens": 39762673.0,
      "step": 21560
    },
    {
      "entropy": 5.645753812789917,
      "epoch": 1.8117622348246165,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00046712357408991965,
      "loss": 5.4587,
      "mean_token_accuracy": 0.16241314709186555,
      "num_tokens": 39773138.0,
      "step": 21565
    },
    {
      "entropy": 5.722913217544556,
      "epoch": 1.8121823146397815,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004671079862353472,
      "loss": 5.4498,
      "mean_token_accuracy": 0.168387970328331,
      "num_tokens": 39782282.0,
      "step": 21570
    },
    {
      "entropy": 5.623279857635498,
      "epoch": 1.8126023944549465,
      "grad_norm": 1.296875,
      "learning_rate": 0.00046709239497768067,
      "loss": 5.3519,
      "mean_token_accuracy": 0.1776757076382637,
      "num_tokens": 39792035.0,
      "step": 21575
    },
    {
      "entropy": 5.724744987487793,
      "epoch": 1.8130224742701113,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00046707680031719633,
      "loss": 5.4498,
      "mean_token_accuracy": 0.16576552540063857,
      "num_tokens": 39801696.0,
      "step": 21580
    },
    {
      "entropy": 5.743741226196289,
      "epoch": 1.813442554085276,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004670612022541705,
      "loss": 5.4751,
      "mean_token_accuracy": 0.16882607191801072,
      "num_tokens": 39811449.0,
      "step": 21585
    },
    {
      "entropy": 5.6892838954925535,
      "epoch": 1.8138626339004411,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004670456007888792,
      "loss": 5.4313,
      "mean_token_accuracy": 0.16952537894248962,
      "num_tokens": 39820339.0,
      "step": 21590
    },
    {
      "entropy": 5.61853666305542,
      "epoch": 1.8142827137156061,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004670299959215989,
      "loss": 5.3599,
      "mean_token_accuracy": 0.17586547285318374,
      "num_tokens": 39829861.0,
      "step": 21595
    },
    {
      "entropy": 5.645865345001221,
      "epoch": 1.814702793530771,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004670143876526062,
      "loss": 5.3182,
      "mean_token_accuracy": 0.17726973295211793,
      "num_tokens": 39838568.0,
      "step": 21600
    },
    {
      "entropy": 5.625951051712036,
      "epoch": 1.8151228733459357,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00046699877598217754,
      "loss": 5.3338,
      "mean_token_accuracy": 0.1771585986018181,
      "num_tokens": 39847705.0,
      "step": 21605
    },
    {
      "entropy": 5.651676988601684,
      "epoch": 1.8155429531611005,
      "grad_norm": 1.34375,
      "learning_rate": 0.00046698316091058946,
      "loss": 5.4239,
      "mean_token_accuracy": 0.16565542817115783,
      "num_tokens": 39856700.0,
      "step": 21610
    },
    {
      "entropy": 5.672735357284546,
      "epoch": 1.8159630329762655,
      "grad_norm": 1.578125,
      "learning_rate": 0.00046696754243811845,
      "loss": 5.3138,
      "mean_token_accuracy": 0.17889431715011597,
      "num_tokens": 39865647.0,
      "step": 21615
    },
    {
      "entropy": 5.7311060428619385,
      "epoch": 1.8163831127914305,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004669519205650413,
      "loss": 5.4334,
      "mean_token_accuracy": 0.1666131630539894,
      "num_tokens": 39874705.0,
      "step": 21620
    },
    {
      "entropy": 5.6093682765960695,
      "epoch": 1.8168031926065953,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00046693629529163467,
      "loss": 5.2633,
      "mean_token_accuracy": 0.17741246819496154,
      "num_tokens": 39883795.0,
      "step": 21625
    },
    {
      "entropy": 5.648662471771241,
      "epoch": 1.81722327242176,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004669206666181755,
      "loss": 5.3502,
      "mean_token_accuracy": 0.17730291932821274,
      "num_tokens": 39893165.0,
      "step": 21630
    },
    {
      "entropy": 5.58931975364685,
      "epoch": 1.8176433522369249,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0004669050345449404,
      "loss": 5.3901,
      "mean_token_accuracy": 0.17008297443389891,
      "num_tokens": 39902241.0,
      "step": 21635
    },
    {
      "entropy": 5.598491477966308,
      "epoch": 1.8180634320520899,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004668893990722066,
      "loss": 5.3486,
      "mean_token_accuracy": 0.1675383910536766,
      "num_tokens": 39911211.0,
      "step": 21640
    },
    {
      "entropy": 5.629481792449951,
      "epoch": 1.8184835118672549,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004668737602002508,
      "loss": 5.3409,
      "mean_token_accuracy": 0.17022158205509186,
      "num_tokens": 39920192.0,
      "step": 21645
    },
    {
      "entropy": 5.676052808761597,
      "epoch": 1.8189035916824197,
      "grad_norm": 1.34375,
      "learning_rate": 0.00046685811792935016,
      "loss": 5.3769,
      "mean_token_accuracy": 0.1712314024567604,
      "num_tokens": 39929169.0,
      "step": 21650
    },
    {
      "entropy": 5.674107933044434,
      "epoch": 1.8193236714975844,
      "grad_norm": 1.34375,
      "learning_rate": 0.00046684247225978176,
      "loss": 5.393,
      "mean_token_accuracy": 0.1656157284975052,
      "num_tokens": 39939333.0,
      "step": 21655
    },
    {
      "entropy": 5.604327821731568,
      "epoch": 1.8197437513127495,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00046682682319182275,
      "loss": 5.3847,
      "mean_token_accuracy": 0.17021397948265077,
      "num_tokens": 39948042.0,
      "step": 21660
    },
    {
      "entropy": 5.622416305541992,
      "epoch": 1.8201638311279145,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00046681117072575035,
      "loss": 5.3134,
      "mean_token_accuracy": 0.1767050787806511,
      "num_tokens": 39956847.0,
      "step": 21665
    },
    {
      "entropy": 5.790766382217408,
      "epoch": 1.8205839109430793,
      "grad_norm": 2.0,
      "learning_rate": 0.0004667955148618418,
      "loss": 5.5804,
      "mean_token_accuracy": 0.15933856070041658,
      "num_tokens": 39966598.0,
      "step": 21670
    },
    {
      "entropy": 5.597654056549072,
      "epoch": 1.821003990758244,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004667798556003745,
      "loss": 5.2301,
      "mean_token_accuracy": 0.1689037188887596,
      "num_tokens": 39975236.0,
      "step": 21675
    },
    {
      "entropy": 5.608970832824707,
      "epoch": 1.8214240705734088,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004667641929416258,
      "loss": 5.3879,
      "mean_token_accuracy": 0.17176640927791595,
      "num_tokens": 39984582.0,
      "step": 21680
    },
    {
      "entropy": 5.623990154266357,
      "epoch": 1.8218441503885738,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004667485268858731,
      "loss": 5.3783,
      "mean_token_accuracy": 0.17252393662929535,
      "num_tokens": 39993122.0,
      "step": 21685
    },
    {
      "entropy": 5.652155160903931,
      "epoch": 1.8222642302037388,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00046673285743339406,
      "loss": 5.3438,
      "mean_token_accuracy": 0.1751272648572922,
      "num_tokens": 40002974.0,
      "step": 21690
    },
    {
      "entropy": 5.646127367019654,
      "epoch": 1.8226843100189036,
      "grad_norm": 1.265625,
      "learning_rate": 0.00046671718458446616,
      "loss": 5.3852,
      "mean_token_accuracy": 0.17070560306310653,
      "num_tokens": 40011790.0,
      "step": 21695
    },
    {
      "entropy": 5.713921976089478,
      "epoch": 1.8231043898340684,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004667015083393671,
      "loss": 5.3966,
      "mean_token_accuracy": 0.17200501561164855,
      "num_tokens": 40021327.0,
      "step": 21700
    },
    {
      "entropy": 5.636666631698608,
      "epoch": 1.8235244696492332,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004666858286983744,
      "loss": 5.3929,
      "mean_token_accuracy": 0.17091110199689866,
      "num_tokens": 40030471.0,
      "step": 21705
    },
    {
      "entropy": 5.674646282196045,
      "epoch": 1.8239445494643982,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004666701456617661,
      "loss": 5.3948,
      "mean_token_accuracy": 0.1720045655965805,
      "num_tokens": 40039305.0,
      "step": 21710
    },
    {
      "entropy": 5.640139770507813,
      "epoch": 1.8243646292795632,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00046665445922981975,
      "loss": 5.3103,
      "mean_token_accuracy": 0.17814622223377227,
      "num_tokens": 40047389.0,
      "step": 21715
    },
    {
      "entropy": 5.697626256942749,
      "epoch": 1.824784709094728,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004666387694028134,
      "loss": 5.3839,
      "mean_token_accuracy": 0.17282926440238952,
      "num_tokens": 40057640.0,
      "step": 21720
    },
    {
      "entropy": 5.588255500793457,
      "epoch": 1.8252047889098928,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004666230761810249,
      "loss": 5.3463,
      "mean_token_accuracy": 0.1746961608529091,
      "num_tokens": 40066770.0,
      "step": 21725
    },
    {
      "entropy": 5.5960245609283445,
      "epoch": 1.8256248687250578,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004666073795647323,
      "loss": 5.3288,
      "mean_token_accuracy": 0.17138356268405913,
      "num_tokens": 40075902.0,
      "step": 21730
    },
    {
      "entropy": 5.595876836776734,
      "epoch": 1.8260449485402226,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00046659167955421366,
      "loss": 5.367,
      "mean_token_accuracy": 0.16742293983697892,
      "num_tokens": 40084945.0,
      "step": 21735
    },
    {
      "entropy": 5.574261808395386,
      "epoch": 1.8264650283553876,
      "grad_norm": 1.3125,
      "learning_rate": 0.000466575976149747,
      "loss": 5.2742,
      "mean_token_accuracy": 0.1774066463112831,
      "num_tokens": 40095104.0,
      "step": 21740
    },
    {
      "entropy": 5.708527374267578,
      "epoch": 1.8268851081705524,
      "grad_norm": 1.5,
      "learning_rate": 0.0004665602693516106,
      "loss": 5.4188,
      "mean_token_accuracy": 0.17146946042776107,
      "num_tokens": 40105329.0,
      "step": 21745
    },
    {
      "entropy": 5.589442586898803,
      "epoch": 1.8273051879857172,
      "grad_norm": 1.921875,
      "learning_rate": 0.0004665445591600827,
      "loss": 5.2376,
      "mean_token_accuracy": 0.18168216943740845,
      "num_tokens": 40114555.0,
      "step": 21750
    },
    {
      "entropy": 5.624778461456299,
      "epoch": 1.8277252678008822,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004665288455754415,
      "loss": 5.2822,
      "mean_token_accuracy": 0.18185721337795258,
      "num_tokens": 40123314.0,
      "step": 21755
    },
    {
      "entropy": 5.613637542724609,
      "epoch": 1.8281453476160472,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004665131285979655,
      "loss": 5.3253,
      "mean_token_accuracy": 0.17175379693508147,
      "num_tokens": 40132483.0,
      "step": 21760
    },
    {
      "entropy": 5.63437066078186,
      "epoch": 1.828565427431212,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00046649740822793303,
      "loss": 5.355,
      "mean_token_accuracy": 0.17184757441282272,
      "num_tokens": 40141800.0,
      "step": 21765
    },
    {
      "entropy": 5.688283252716064,
      "epoch": 1.8289855072463768,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004664816844656225,
      "loss": 5.3415,
      "mean_token_accuracy": 0.18133000284433365,
      "num_tokens": 40149892.0,
      "step": 21770
    },
    {
      "entropy": 5.625762462615967,
      "epoch": 1.8294055870615415,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00046646595731131263,
      "loss": 5.3221,
      "mean_token_accuracy": 0.17174559831619263,
      "num_tokens": 40159376.0,
      "step": 21775
    },
    {
      "entropy": 5.614609718322754,
      "epoch": 1.8298256668767066,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004664502267652819,
      "loss": 5.2827,
      "mean_token_accuracy": 0.17843341827392578,
      "num_tokens": 40168497.0,
      "step": 21780
    },
    {
      "entropy": 5.674923658370972,
      "epoch": 1.8302457466918716,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00046643449282780894,
      "loss": 5.3782,
      "mean_token_accuracy": 0.16659992337226867,
      "num_tokens": 40177432.0,
      "step": 21785
    },
    {
      "entropy": 5.654786205291748,
      "epoch": 1.8306658265070364,
      "grad_norm": 1.25,
      "learning_rate": 0.0004664187554991725,
      "loss": 5.2698,
      "mean_token_accuracy": 0.17321840226650237,
      "num_tokens": 40186582.0,
      "step": 21790
    },
    {
      "entropy": 5.637910079956055,
      "epoch": 1.8310859063222011,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004664030147796514,
      "loss": 5.3276,
      "mean_token_accuracy": 0.17326397448778152,
      "num_tokens": 40196094.0,
      "step": 21795
    },
    {
      "entropy": 5.5886390686035154,
      "epoch": 1.8315059861373661,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004663872706695244,
      "loss": 5.3779,
      "mean_token_accuracy": 0.17434979230165482,
      "num_tokens": 40205239.0,
      "step": 21800
    },
    {
      "entropy": 5.641726875305176,
      "epoch": 1.831926065952531,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004663715231690706,
      "loss": 5.4406,
      "mean_token_accuracy": 0.1751034140586853,
      "num_tokens": 40213908.0,
      "step": 21805
    },
    {
      "entropy": 5.709264898300171,
      "epoch": 1.832346145767696,
      "grad_norm": 1.34375,
      "learning_rate": 0.00046635577227856873,
      "loss": 5.4025,
      "mean_token_accuracy": 0.17268626689910888,
      "num_tokens": 40223370.0,
      "step": 21810
    },
    {
      "entropy": 5.7190502166748045,
      "epoch": 1.8327662255828607,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004663400179982978,
      "loss": 5.487,
      "mean_token_accuracy": 0.1673346996307373,
      "num_tokens": 40233934.0,
      "step": 21815
    },
    {
      "entropy": 5.70527868270874,
      "epoch": 1.8331863053980255,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00046632426032853705,
      "loss": 5.366,
      "mean_token_accuracy": 0.16772017180919646,
      "num_tokens": 40244335.0,
      "step": 21820
    },
    {
      "entropy": 5.570014429092407,
      "epoch": 1.8336063852131905,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00046630849926956555,
      "loss": 5.3147,
      "mean_token_accuracy": 0.1714258924126625,
      "num_tokens": 40254354.0,
      "step": 21825
    },
    {
      "entropy": 5.6582074642181395,
      "epoch": 1.8340264650283555,
      "grad_norm": 1.328125,
      "learning_rate": 0.00046629273482166244,
      "loss": 5.3156,
      "mean_token_accuracy": 0.17588206827640535,
      "num_tokens": 40262748.0,
      "step": 21830
    },
    {
      "entropy": 5.697437191009522,
      "epoch": 1.8344465448435203,
      "grad_norm": 1.421875,
      "learning_rate": 0.00046627696698510706,
      "loss": 5.4048,
      "mean_token_accuracy": 0.17420812398195268,
      "num_tokens": 40271818.0,
      "step": 21835
    },
    {
      "entropy": 5.632059001922608,
      "epoch": 1.834866624658685,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004662611957601788,
      "loss": 5.4213,
      "mean_token_accuracy": 0.16834606230258942,
      "num_tokens": 40280552.0,
      "step": 21840
    },
    {
      "entropy": 5.690567255020142,
      "epoch": 1.83528670447385,
      "grad_norm": 1.921875,
      "learning_rate": 0.00046624542114715687,
      "loss": 5.3115,
      "mean_token_accuracy": 0.1798562154173851,
      "num_tokens": 40289368.0,
      "step": 21845
    },
    {
      "entropy": 5.7882728099823,
      "epoch": 1.835706784289015,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004662296431463208,
      "loss": 5.5121,
      "mean_token_accuracy": 0.1584714248776436,
      "num_tokens": 40298884.0,
      "step": 21850
    },
    {
      "entropy": 5.69461989402771,
      "epoch": 1.83612686410418,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00046621386175795,
      "loss": 5.4196,
      "mean_token_accuracy": 0.16526482701301576,
      "num_tokens": 40307886.0,
      "step": 21855
    },
    {
      "entropy": 5.614387512207031,
      "epoch": 1.8365469439193447,
      "grad_norm": 1.5,
      "learning_rate": 0.00046619807698232413,
      "loss": 5.3323,
      "mean_token_accuracy": 0.16994198113679887,
      "num_tokens": 40317688.0,
      "step": 21860
    },
    {
      "entropy": 5.691216659545899,
      "epoch": 1.8369670237345095,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004661822888197228,
      "loss": 5.391,
      "mean_token_accuracy": 0.1661013074219227,
      "num_tokens": 40327630.0,
      "step": 21865
    },
    {
      "entropy": 5.651998567581177,
      "epoch": 1.8373871035496743,
      "grad_norm": 1.671875,
      "learning_rate": 0.00046616649727042564,
      "loss": 5.3661,
      "mean_token_accuracy": 0.17099616825580596,
      "num_tokens": 40336613.0,
      "step": 21870
    },
    {
      "entropy": 5.646777057647705,
      "epoch": 1.8378071833648393,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00046615070233471244,
      "loss": 5.4562,
      "mean_token_accuracy": 0.1672051414847374,
      "num_tokens": 40346582.0,
      "step": 21875
    },
    {
      "entropy": 5.751259517669678,
      "epoch": 1.8382272631800043,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00046613490401286304,
      "loss": 5.4752,
      "mean_token_accuracy": 0.1641298934817314,
      "num_tokens": 40355960.0,
      "step": 21880
    },
    {
      "entropy": 5.773221445083618,
      "epoch": 1.838647342995169,
      "grad_norm": 1.25,
      "learning_rate": 0.00046611910230515716,
      "loss": 5.3246,
      "mean_token_accuracy": 0.17324539572000502,
      "num_tokens": 40366043.0,
      "step": 21885
    },
    {
      "entropy": 5.6297935962677,
      "epoch": 1.8390674228103339,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004661032972118748,
      "loss": 5.3792,
      "mean_token_accuracy": 0.1739889457821846,
      "num_tokens": 40374919.0,
      "step": 21890
    },
    {
      "entropy": 5.586809396743774,
      "epoch": 1.8394875026254989,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00046608748873329587,
      "loss": 5.3512,
      "mean_token_accuracy": 0.17698893696069717,
      "num_tokens": 40383415.0,
      "step": 21895
    },
    {
      "entropy": 5.741325616836548,
      "epoch": 1.8399075824406639,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004660716768697005,
      "loss": 5.3999,
      "mean_token_accuracy": 0.16888994574546815,
      "num_tokens": 40392252.0,
      "step": 21900
    },
    {
      "entropy": 5.614504766464234,
      "epoch": 1.8403276622558287,
      "grad_norm": 1.375,
      "learning_rate": 0.0004660558616213689,
      "loss": 5.2419,
      "mean_token_accuracy": 0.1856852650642395,
      "num_tokens": 40400717.0,
      "step": 21905
    },
    {
      "entropy": 5.57713942527771,
      "epoch": 1.8407477420709935,
      "grad_norm": 1.21875,
      "learning_rate": 0.00046604004298858093,
      "loss": 5.2895,
      "mean_token_accuracy": 0.18077120929956436,
      "num_tokens": 40409236.0,
      "step": 21910
    },
    {
      "entropy": 5.577246189117432,
      "epoch": 1.8411678218861582,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004660242209716171,
      "loss": 5.3133,
      "mean_token_accuracy": 0.17522037625312806,
      "num_tokens": 40419073.0,
      "step": 21915
    },
    {
      "entropy": 5.727301597595215,
      "epoch": 1.8415879017013232,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004660083955707575,
      "loss": 5.4115,
      "mean_token_accuracy": 0.1722704529762268,
      "num_tokens": 40428427.0,
      "step": 21920
    },
    {
      "entropy": 5.678405237197876,
      "epoch": 1.8420079815164883,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004659925667862825,
      "loss": 5.3801,
      "mean_token_accuracy": 0.17540597915649414,
      "num_tokens": 40437350.0,
      "step": 21925
    },
    {
      "entropy": 5.644293546676636,
      "epoch": 1.842428061331653,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004659767346184725,
      "loss": 5.3908,
      "mean_token_accuracy": 0.17217467427253724,
      "num_tokens": 40446059.0,
      "step": 21930
    },
    {
      "entropy": 5.648314523696899,
      "epoch": 1.8428481411468178,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00046596089906760803,
      "loss": 5.3842,
      "mean_token_accuracy": 0.17176232039928435,
      "num_tokens": 40454959.0,
      "step": 21935
    },
    {
      "entropy": 5.662789678573608,
      "epoch": 1.8432682209619826,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004659450601339696,
      "loss": 5.3968,
      "mean_token_accuracy": 0.17346233129501343,
      "num_tokens": 40464202.0,
      "step": 21940
    },
    {
      "entropy": 5.638479089736938,
      "epoch": 1.8436883007771476,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004659292178178377,
      "loss": 5.3427,
      "mean_token_accuracy": 0.1746865801513195,
      "num_tokens": 40473331.0,
      "step": 21945
    },
    {
      "entropy": 5.65547399520874,
      "epoch": 1.8441083805923126,
      "grad_norm": 1.625,
      "learning_rate": 0.000465913372119493,
      "loss": 5.3089,
      "mean_token_accuracy": 0.17193447351455687,
      "num_tokens": 40482098.0,
      "step": 21950
    },
    {
      "entropy": 5.674790859222412,
      "epoch": 1.8445284604074774,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004658975230392162,
      "loss": 5.3536,
      "mean_token_accuracy": 0.178443942964077,
      "num_tokens": 40491134.0,
      "step": 21955
    },
    {
      "entropy": 5.706801652908325,
      "epoch": 1.8449485402226422,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004658816705772882,
      "loss": 5.4789,
      "mean_token_accuracy": 0.16973639875650406,
      "num_tokens": 40501488.0,
      "step": 21960
    },
    {
      "entropy": 5.581787538528443,
      "epoch": 1.8453686200378072,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004658658147339896,
      "loss": 5.2266,
      "mean_token_accuracy": 0.18129412233829498,
      "num_tokens": 40510506.0,
      "step": 21965
    },
    {
      "entropy": 5.672901391983032,
      "epoch": 1.8457886998529722,
      "grad_norm": 1.328125,
      "learning_rate": 0.00046584995550960146,
      "loss": 5.3732,
      "mean_token_accuracy": 0.17865750938653946,
      "num_tokens": 40520222.0,
      "step": 21970
    },
    {
      "entropy": 5.584681797027588,
      "epoch": 1.846208779668137,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00046583409290440453,
      "loss": 5.2809,
      "mean_token_accuracy": 0.17908318787813188,
      "num_tokens": 40528824.0,
      "step": 21975
    },
    {
      "entropy": 5.5373616218566895,
      "epoch": 1.8466288594833018,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004658182269186799,
      "loss": 5.3659,
      "mean_token_accuracy": 0.16913065910339356,
      "num_tokens": 40538144.0,
      "step": 21980
    },
    {
      "entropy": 5.64822678565979,
      "epoch": 1.8470489392984666,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004658023575527087,
      "loss": 5.4214,
      "mean_token_accuracy": 0.17093602418899537,
      "num_tokens": 40547457.0,
      "step": 21985
    },
    {
      "entropy": 5.724355268478393,
      "epoch": 1.8474690191136316,
      "grad_norm": 1.3046875,
      "learning_rate": 0.000465786484806772,
      "loss": 5.2834,
      "mean_token_accuracy": 0.1817471370100975,
      "num_tokens": 40556005.0,
      "step": 21990
    },
    {
      "entropy": 5.489060354232788,
      "epoch": 1.8478890989287966,
      "grad_norm": 1.265625,
      "learning_rate": 0.00046577060868115095,
      "loss": 5.2522,
      "mean_token_accuracy": 0.17731622010469436,
      "num_tokens": 40565018.0,
      "step": 21995
    },
    {
      "entropy": 5.5660477638244625,
      "epoch": 1.8483091787439614,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004657547291761268,
      "loss": 5.328,
      "mean_token_accuracy": 0.16542342603206633,
      "num_tokens": 40574931.0,
      "step": 22000
    },
    {
      "entropy": 5.662542819976807,
      "epoch": 1.8487292585591262,
      "grad_norm": 1.328125,
      "learning_rate": 0.00046573884629198077,
      "loss": 5.3064,
      "mean_token_accuracy": 0.17560895532369614,
      "num_tokens": 40584496.0,
      "step": 22005
    },
    {
      "entropy": 5.712861347198486,
      "epoch": 1.849149338374291,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004657229600289944,
      "loss": 5.4127,
      "mean_token_accuracy": 0.16572435200214386,
      "num_tokens": 40594363.0,
      "step": 22010
    },
    {
      "entropy": 5.641199684143066,
      "epoch": 1.849569418189456,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004657070703874489,
      "loss": 5.4345,
      "mean_token_accuracy": 0.1685244232416153,
      "num_tokens": 40603001.0,
      "step": 22015
    },
    {
      "entropy": 5.603077220916748,
      "epoch": 1.849989498004621,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00046569117736762597,
      "loss": 5.3624,
      "mean_token_accuracy": 0.1757808193564415,
      "num_tokens": 40612660.0,
      "step": 22020
    },
    {
      "entropy": 5.599392080307007,
      "epoch": 1.8504095778197858,
      "grad_norm": 1.328125,
      "learning_rate": 0.00046567528096980686,
      "loss": 5.2727,
      "mean_token_accuracy": 0.17757227271795273,
      "num_tokens": 40622209.0,
      "step": 22025
    },
    {
      "entropy": 5.689568948745728,
      "epoch": 1.8508296576349506,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00046565938119427346,
      "loss": 5.3844,
      "mean_token_accuracy": 0.16621674001216888,
      "num_tokens": 40632011.0,
      "step": 22030
    },
    {
      "entropy": 5.615991640090942,
      "epoch": 1.8512497374501156,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004656434780413073,
      "loss": 5.2703,
      "mean_token_accuracy": 0.1767064481973648,
      "num_tokens": 40641201.0,
      "step": 22035
    },
    {
      "entropy": 5.595028305053711,
      "epoch": 1.8516698172652803,
      "grad_norm": 1.4375,
      "learning_rate": 0.00046562757151119,
      "loss": 5.3252,
      "mean_token_accuracy": 0.17203227579593658,
      "num_tokens": 40650752.0,
      "step": 22040
    },
    {
      "entropy": 5.58217225074768,
      "epoch": 1.8520898970804454,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004656116616042035,
      "loss": 5.322,
      "mean_token_accuracy": 0.17230453789234162,
      "num_tokens": 40659975.0,
      "step": 22045
    },
    {
      "entropy": 5.567688846588135,
      "epoch": 1.8525099768956101,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00046559574832062955,
      "loss": 5.3465,
      "mean_token_accuracy": 0.17881006896495819,
      "num_tokens": 40668944.0,
      "step": 22050
    },
    {
      "entropy": 5.735271883010864,
      "epoch": 1.852930056710775,
      "grad_norm": 1.421875,
      "learning_rate": 0.00046557983166075,
      "loss": 5.4974,
      "mean_token_accuracy": 0.1705012798309326,
      "num_tokens": 40678333.0,
      "step": 22055
    },
    {
      "entropy": 5.564062070846558,
      "epoch": 1.85335013652594,
      "grad_norm": 2.25,
      "learning_rate": 0.00046556391162484696,
      "loss": 5.2249,
      "mean_token_accuracy": 0.17906277775764465,
      "num_tokens": 40687781.0,
      "step": 22060
    },
    {
      "entropy": 5.588773012161255,
      "epoch": 1.853770216341105,
      "grad_norm": 1.375,
      "learning_rate": 0.0004655479882132023,
      "loss": 5.4058,
      "mean_token_accuracy": 0.1747704863548279,
      "num_tokens": 40697637.0,
      "step": 22065
    },
    {
      "entropy": 5.582477378845215,
      "epoch": 1.8541902961562697,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004655320614260982,
      "loss": 5.2545,
      "mean_token_accuracy": 0.17724298536777497,
      "num_tokens": 40707097.0,
      "step": 22070
    },
    {
      "entropy": 5.7074973583221436,
      "epoch": 1.8546103759714345,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00046551613126381673,
      "loss": 5.4568,
      "mean_token_accuracy": 0.16699569970369338,
      "num_tokens": 40716821.0,
      "step": 22075
    },
    {
      "entropy": 5.651368951797485,
      "epoch": 1.8550304557865993,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004655001977266401,
      "loss": 5.3392,
      "mean_token_accuracy": 0.17080808728933333,
      "num_tokens": 40726731.0,
      "step": 22080
    },
    {
      "entropy": 5.683496332168579,
      "epoch": 1.8554505356017643,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00046548426081485046,
      "loss": 5.3118,
      "mean_token_accuracy": 0.1734781190752983,
      "num_tokens": 40736935.0,
      "step": 22085
    },
    {
      "entropy": 5.674536466598511,
      "epoch": 1.8558706154169293,
      "grad_norm": 1.390625,
      "learning_rate": 0.00046546832052873026,
      "loss": 5.4569,
      "mean_token_accuracy": 0.16797720938920974,
      "num_tokens": 40746643.0,
      "step": 22090
    },
    {
      "entropy": 5.773360300064087,
      "epoch": 1.8562906952320941,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00046545237686856195,
      "loss": 5.5021,
      "mean_token_accuracy": 0.16252224892377853,
      "num_tokens": 40755713.0,
      "step": 22095
    },
    {
      "entropy": 5.745291662216187,
      "epoch": 1.856710775047259,
      "grad_norm": 1.453125,
      "learning_rate": 0.00046543642983462775,
      "loss": 5.4755,
      "mean_token_accuracy": 0.17116216123104094,
      "num_tokens": 40764878.0,
      "step": 22100
    },
    {
      "entropy": 5.70435905456543,
      "epoch": 1.857130854862424,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00046542047942721025,
      "loss": 5.3763,
      "mean_token_accuracy": 0.17294495701789855,
      "num_tokens": 40774101.0,
      "step": 22105
    },
    {
      "entropy": 5.662673377990723,
      "epoch": 1.8575509346775887,
      "grad_norm": 1.34375,
      "learning_rate": 0.000465404525646592,
      "loss": 5.3546,
      "mean_token_accuracy": 0.1730918511748314,
      "num_tokens": 40783126.0,
      "step": 22110
    },
    {
      "entropy": 5.558742523193359,
      "epoch": 1.8579710144927537,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004653885684930557,
      "loss": 5.3408,
      "mean_token_accuracy": 0.17543695122003555,
      "num_tokens": 40792508.0,
      "step": 22115
    },
    {
      "entropy": 5.638851690292358,
      "epoch": 1.8583910943079185,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004653726079668839,
      "loss": 5.3736,
      "mean_token_accuracy": 0.1744435727596283,
      "num_tokens": 40802252.0,
      "step": 22120
    },
    {
      "entropy": 5.594110679626465,
      "epoch": 1.8588111741230833,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004653566440683594,
      "loss": 5.2069,
      "mean_token_accuracy": 0.18530822545289993,
      "num_tokens": 40811041.0,
      "step": 22125
    },
    {
      "entropy": 5.588617467880249,
      "epoch": 1.8592312539382483,
      "grad_norm": 1.34375,
      "learning_rate": 0.000465340676797765,
      "loss": 5.2472,
      "mean_token_accuracy": 0.1726512759923935,
      "num_tokens": 40819976.0,
      "step": 22130
    },
    {
      "entropy": 5.55437970161438,
      "epoch": 1.8596513337534133,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00046532470615538344,
      "loss": 5.3,
      "mean_token_accuracy": 0.17627189308404922,
      "num_tokens": 40828544.0,
      "step": 22135
    },
    {
      "entropy": 5.619093751907348,
      "epoch": 1.860071413568578,
      "grad_norm": 1.296875,
      "learning_rate": 0.00046530873214149776,
      "loss": 5.4031,
      "mean_token_accuracy": 0.17888118773698808,
      "num_tokens": 40838386.0,
      "step": 22140
    },
    {
      "entropy": 5.716306734085083,
      "epoch": 1.8604914933837429,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004652927547563908,
      "loss": 5.3773,
      "mean_token_accuracy": 0.16736137866973877,
      "num_tokens": 40847047.0,
      "step": 22145
    },
    {
      "entropy": 5.63306770324707,
      "epoch": 1.8609115731989077,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0004652767740003458,
      "loss": 5.3992,
      "mean_token_accuracy": 0.17356206327676774,
      "num_tokens": 40856653.0,
      "step": 22150
    },
    {
      "entropy": 5.715381336212158,
      "epoch": 1.8613316530140727,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00046526078987364566,
      "loss": 5.4628,
      "mean_token_accuracy": 0.16745153367519378,
      "num_tokens": 40865176.0,
      "step": 22155
    },
    {
      "entropy": 5.713296556472779,
      "epoch": 1.8617517328292377,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004652448023765736,
      "loss": 5.5087,
      "mean_token_accuracy": 0.17654276341199876,
      "num_tokens": 40874084.0,
      "step": 22160
    },
    {
      "entropy": 5.7095225811004635,
      "epoch": 1.8621718126444025,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004652288115094129,
      "loss": 5.3929,
      "mean_token_accuracy": 0.1741943970322609,
      "num_tokens": 40883704.0,
      "step": 22165
    },
    {
      "entropy": 5.669970941543579,
      "epoch": 1.8625918924595672,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004652128172724466,
      "loss": 5.4364,
      "mean_token_accuracy": 0.16834318935871123,
      "num_tokens": 40893232.0,
      "step": 22170
    },
    {
      "entropy": 5.623793125152588,
      "epoch": 1.8630119722747323,
      "grad_norm": 1.328125,
      "learning_rate": 0.00046519681966595834,
      "loss": 5.3053,
      "mean_token_accuracy": 0.18128742128610612,
      "num_tokens": 40902242.0,
      "step": 22175
    },
    {
      "entropy": 5.603348350524902,
      "epoch": 1.863432052089897,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004651808186902313,
      "loss": 5.3319,
      "mean_token_accuracy": 0.17357497066259384,
      "num_tokens": 40912349.0,
      "step": 22180
    },
    {
      "entropy": 5.63823561668396,
      "epoch": 1.863852131905062,
      "grad_norm": 1.5234375,
      "learning_rate": 0.000465164814345549,
      "loss": 5.3295,
      "mean_token_accuracy": 0.18075911849737167,
      "num_tokens": 40922206.0,
      "step": 22185
    },
    {
      "entropy": 5.695439434051513,
      "epoch": 1.8642722117202268,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00046514880663219493,
      "loss": 5.3078,
      "mean_token_accuracy": 0.17492891997098922,
      "num_tokens": 40931145.0,
      "step": 22190
    },
    {
      "entropy": 5.581724739074707,
      "epoch": 1.8646922915353916,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004651327955504526,
      "loss": 5.227,
      "mean_token_accuracy": 0.18555289059877395,
      "num_tokens": 40939917.0,
      "step": 22195
    },
    {
      "entropy": 5.589807987213135,
      "epoch": 1.8651123713505566,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004651167811006058,
      "loss": 5.2953,
      "mean_token_accuracy": 0.17969516515731812,
      "num_tokens": 40947972.0,
      "step": 22200
    },
    {
      "entropy": 5.4864636898040775,
      "epoch": 1.8655324511657216,
      "grad_norm": 1.3828125,
      "learning_rate": 0.000465100763282938,
      "loss": 5.2555,
      "mean_token_accuracy": 0.1773657724261284,
      "num_tokens": 40956999.0,
      "step": 22205
    },
    {
      "entropy": 5.5771567821502686,
      "epoch": 1.8659525309808864,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004650847420977332,
      "loss": 5.2257,
      "mean_token_accuracy": 0.18388084918260575,
      "num_tokens": 40965917.0,
      "step": 22210
    },
    {
      "entropy": 5.6036945343017575,
      "epoch": 1.8663726107960512,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00046506871754527495,
      "loss": 5.3267,
      "mean_token_accuracy": 0.17044262886047362,
      "num_tokens": 40976545.0,
      "step": 22215
    },
    {
      "entropy": 5.667624187469483,
      "epoch": 1.866792690611216,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00046505268962584735,
      "loss": 5.3608,
      "mean_token_accuracy": 0.1779804602265358,
      "num_tokens": 40985890.0,
      "step": 22220
    },
    {
      "entropy": 5.649150419235229,
      "epoch": 1.867212770426381,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004650366583397342,
      "loss": 5.3532,
      "mean_token_accuracy": 0.1736404314637184,
      "num_tokens": 40995255.0,
      "step": 22225
    },
    {
      "entropy": 5.658413934707641,
      "epoch": 1.867632850241546,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004650206236872194,
      "loss": 5.4099,
      "mean_token_accuracy": 0.1688782885670662,
      "num_tokens": 41004419.0,
      "step": 22230
    },
    {
      "entropy": 5.551290559768677,
      "epoch": 1.8680529300567108,
      "grad_norm": 3.0625,
      "learning_rate": 0.0004650045856685872,
      "loss": 5.1684,
      "mean_token_accuracy": 0.19379522502422333,
      "num_tokens": 41013179.0,
      "step": 22235
    },
    {
      "entropy": 5.574545621871948,
      "epoch": 1.8684730098718756,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00046498854428412157,
      "loss": 5.2586,
      "mean_token_accuracy": 0.17610279172658921,
      "num_tokens": 41022307.0,
      "step": 22240
    },
    {
      "entropy": 5.584465265274048,
      "epoch": 1.8688930896870404,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00046497249953410675,
      "loss": 5.4041,
      "mean_token_accuracy": 0.1725468173623085,
      "num_tokens": 41032331.0,
      "step": 22245
    },
    {
      "entropy": 5.673091411590576,
      "epoch": 1.8693131695022054,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004649564514188269,
      "loss": 5.4283,
      "mean_token_accuracy": 0.17023940831422807,
      "num_tokens": 41041895.0,
      "step": 22250
    },
    {
      "entropy": 5.588696575164795,
      "epoch": 1.8697332493173704,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004649403999385662,
      "loss": 5.2562,
      "mean_token_accuracy": 0.17987769544124604,
      "num_tokens": 41051643.0,
      "step": 22255
    },
    {
      "entropy": 5.619039726257324,
      "epoch": 1.8701533291325352,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004649243450936092,
      "loss": 5.2732,
      "mean_token_accuracy": 0.17971949875354767,
      "num_tokens": 41060478.0,
      "step": 22260
    },
    {
      "entropy": 5.559855890274048,
      "epoch": 1.8705734089477,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004649082868842403,
      "loss": 5.342,
      "mean_token_accuracy": 0.17189270853996277,
      "num_tokens": 41069389.0,
      "step": 22265
    },
    {
      "entropy": 5.50737624168396,
      "epoch": 1.870993488762865,
      "grad_norm": 1.40625,
      "learning_rate": 0.00046489222531074376,
      "loss": 5.2905,
      "mean_token_accuracy": 0.1808660864830017,
      "num_tokens": 41078529.0,
      "step": 22270
    },
    {
      "entropy": 5.698597478866577,
      "epoch": 1.87141356857803,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00046487616037340436,
      "loss": 5.3898,
      "mean_token_accuracy": 0.17067276537418366,
      "num_tokens": 41087593.0,
      "step": 22275
    },
    {
      "entropy": 5.727426338195801,
      "epoch": 1.8718336483931948,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004648600920725065,
      "loss": 5.3667,
      "mean_token_accuracy": 0.1694189727306366,
      "num_tokens": 41098317.0,
      "step": 22280
    },
    {
      "entropy": 5.639452648162842,
      "epoch": 1.8722537282083596,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00046484402040833486,
      "loss": 5.3661,
      "mean_token_accuracy": 0.1721063882112503,
      "num_tokens": 41108659.0,
      "step": 22285
    },
    {
      "entropy": 5.701750898361206,
      "epoch": 1.8726738080235243,
      "grad_norm": 1.171875,
      "learning_rate": 0.00046482794538117413,
      "loss": 5.4564,
      "mean_token_accuracy": 0.17068351805210114,
      "num_tokens": 41117504.0,
      "step": 22290
    },
    {
      "entropy": 5.677620840072632,
      "epoch": 1.8730938878386894,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00046481186699130913,
      "loss": 5.3154,
      "mean_token_accuracy": 0.1742495611310005,
      "num_tokens": 41126249.0,
      "step": 22295
    },
    {
      "entropy": 5.505521583557129,
      "epoch": 1.8735139676538544,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004647957852390247,
      "loss": 5.2023,
      "mean_token_accuracy": 0.17846413403749467,
      "num_tokens": 41134956.0,
      "step": 22300
    },
    {
      "entropy": 5.619848108291626,
      "epoch": 1.8739340474690191,
      "grad_norm": 1.59375,
      "learning_rate": 0.00046477970012460555,
      "loss": 5.3039,
      "mean_token_accuracy": 0.17693169862031938,
      "num_tokens": 41144340.0,
      "step": 22305
    },
    {
      "entropy": 5.574439334869385,
      "epoch": 1.874354127284184,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004647636116483367,
      "loss": 5.3211,
      "mean_token_accuracy": 0.17290742844343185,
      "num_tokens": 41152937.0,
      "step": 22310
    },
    {
      "entropy": 5.687628555297851,
      "epoch": 1.8747742070993487,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00046474751981050334,
      "loss": 5.4899,
      "mean_token_accuracy": 0.16893676668405533,
      "num_tokens": 41162361.0,
      "step": 22315
    },
    {
      "entropy": 5.744011449813843,
      "epoch": 1.8751942869145137,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00046473142461139034,
      "loss": 5.4738,
      "mean_token_accuracy": 0.16351682245731353,
      "num_tokens": 41171979.0,
      "step": 22320
    },
    {
      "entropy": 5.596357345581055,
      "epoch": 1.8756143667296787,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004647153260512828,
      "loss": 5.3187,
      "mean_token_accuracy": 0.17824737578630448,
      "num_tokens": 41182145.0,
      "step": 22325
    },
    {
      "entropy": 5.619386386871338,
      "epoch": 1.8760344465448435,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004646992241304659,
      "loss": 5.3443,
      "mean_token_accuracy": 0.17120126634836197,
      "num_tokens": 41191522.0,
      "step": 22330
    },
    {
      "entropy": 5.681074142456055,
      "epoch": 1.8764545263600083,
      "grad_norm": 1.3359375,
      "learning_rate": 0.000464683118849225,
      "loss": 5.4375,
      "mean_token_accuracy": 0.16661341339349747,
      "num_tokens": 41201052.0,
      "step": 22335
    },
    {
      "entropy": 5.59029483795166,
      "epoch": 1.8768746061751733,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004646670102078453,
      "loss": 5.3007,
      "mean_token_accuracy": 0.17739052772521974,
      "num_tokens": 41210211.0,
      "step": 22340
    },
    {
      "entropy": 5.63611478805542,
      "epoch": 1.8772946859903383,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004646508982066122,
      "loss": 5.4579,
      "mean_token_accuracy": 0.16615783870220185,
      "num_tokens": 41219778.0,
      "step": 22345
    },
    {
      "entropy": 5.676466846466065,
      "epoch": 1.8777147658055031,
      "grad_norm": 1.390625,
      "learning_rate": 0.00046463478284581114,
      "loss": 5.4143,
      "mean_token_accuracy": 0.17920258045196533,
      "num_tokens": 41229550.0,
      "step": 22350
    },
    {
      "entropy": 5.6495026588439945,
      "epoch": 1.878134845620668,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004646186641257275,
      "loss": 5.2768,
      "mean_token_accuracy": 0.18095650821924208,
      "num_tokens": 41238130.0,
      "step": 22355
    },
    {
      "entropy": 5.608019781112671,
      "epoch": 1.8785549254358327,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004646025420466468,
      "loss": 5.2893,
      "mean_token_accuracy": 0.17400604337453843,
      "num_tokens": 41247324.0,
      "step": 22360
    },
    {
      "entropy": 5.572899055480957,
      "epoch": 1.8789750052509977,
      "grad_norm": 1.3125,
      "learning_rate": 0.00046458641660885474,
      "loss": 5.3558,
      "mean_token_accuracy": 0.17406723499298096,
      "num_tokens": 41256131.0,
      "step": 22365
    },
    {
      "entropy": 5.612897682189941,
      "epoch": 1.8793950850661627,
      "grad_norm": 1.234375,
      "learning_rate": 0.00046457028781263693,
      "loss": 5.3927,
      "mean_token_accuracy": 0.16953571438789367,
      "num_tokens": 41265225.0,
      "step": 22370
    },
    {
      "entropy": 5.715818929672241,
      "epoch": 1.8798151648813275,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00046455415565827907,
      "loss": 5.3887,
      "mean_token_accuracy": 0.1686493307352066,
      "num_tokens": 41274023.0,
      "step": 22375
    },
    {
      "entropy": 5.70667200088501,
      "epoch": 1.8802352446964923,
      "grad_norm": 1.375,
      "learning_rate": 0.000464538020146067,
      "loss": 5.4151,
      "mean_token_accuracy": 0.16874268501996995,
      "num_tokens": 41283030.0,
      "step": 22380
    },
    {
      "entropy": 5.729498672485351,
      "epoch": 1.880655324511657,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004645218812762864,
      "loss": 5.4709,
      "mean_token_accuracy": 0.1674060821533203,
      "num_tokens": 41292654.0,
      "step": 22385
    },
    {
      "entropy": 5.639959239959717,
      "epoch": 1.881075404326822,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004645057390492234,
      "loss": 5.2063,
      "mean_token_accuracy": 0.18706902414560317,
      "num_tokens": 41301838.0,
      "step": 22390
    },
    {
      "entropy": 5.597166204452515,
      "epoch": 1.881495484141987,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004644895934651638,
      "loss": 5.3138,
      "mean_token_accuracy": 0.17899076640605927,
      "num_tokens": 41311104.0,
      "step": 22395
    },
    {
      "entropy": 5.704216480255127,
      "epoch": 1.8819155639571519,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00046447344452439356,
      "loss": 5.4198,
      "mean_token_accuracy": 0.1649742141366005,
      "num_tokens": 41320213.0,
      "step": 22400
    },
    {
      "entropy": 5.6293620586395265,
      "epoch": 1.8823356437723167,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004644572922271988,
      "loss": 5.2972,
      "mean_token_accuracy": 0.17442207932472228,
      "num_tokens": 41330027.0,
      "step": 22405
    },
    {
      "entropy": 5.657583141326905,
      "epoch": 1.8827557235874817,
      "grad_norm": 1.28125,
      "learning_rate": 0.00046444113657386567,
      "loss": 5.4056,
      "mean_token_accuracy": 0.16551758348941803,
      "num_tokens": 41339481.0,
      "step": 22410
    },
    {
      "entropy": 5.704918766021729,
      "epoch": 1.8831758034026465,
      "grad_norm": 1.390625,
      "learning_rate": 0.00046442497756468037,
      "loss": 5.4275,
      "mean_token_accuracy": 0.16912316530942917,
      "num_tokens": 41348679.0,
      "step": 22415
    },
    {
      "entropy": 5.632734298706055,
      "epoch": 1.8835958832178115,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00046440881519992924,
      "loss": 5.2812,
      "mean_token_accuracy": 0.1797910824418068,
      "num_tokens": 41358736.0,
      "step": 22420
    },
    {
      "entropy": 5.636936283111572,
      "epoch": 1.8840159630329762,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004643926494798983,
      "loss": 5.43,
      "mean_token_accuracy": 0.16520747989416124,
      "num_tokens": 41368284.0,
      "step": 22425
    },
    {
      "entropy": 5.653887033462524,
      "epoch": 1.884436042848141,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00046437648040487426,
      "loss": 5.3153,
      "mean_token_accuracy": 0.1689191997051239,
      "num_tokens": 41377789.0,
      "step": 22430
    },
    {
      "entropy": 5.650376510620117,
      "epoch": 1.884856122663306,
      "grad_norm": 1.421875,
      "learning_rate": 0.00046436030797514325,
      "loss": 5.3333,
      "mean_token_accuracy": 0.17308636307716369,
      "num_tokens": 41386909.0,
      "step": 22435
    },
    {
      "entropy": 5.675967454910278,
      "epoch": 1.885276202478471,
      "grad_norm": 1.25,
      "learning_rate": 0.0004643441321909919,
      "loss": 5.3553,
      "mean_token_accuracy": 0.17917974442243575,
      "num_tokens": 41396693.0,
      "step": 22440
    },
    {
      "entropy": 5.677432060241699,
      "epoch": 1.8856962822936358,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00046432795305270674,
      "loss": 5.4418,
      "mean_token_accuracy": 0.16401530504226686,
      "num_tokens": 41407193.0,
      "step": 22445
    },
    {
      "entropy": 5.679871845245361,
      "epoch": 1.8861163621088006,
      "grad_norm": 1.40625,
      "learning_rate": 0.00046431177056057446,
      "loss": 5.394,
      "mean_token_accuracy": 0.17553680688142775,
      "num_tokens": 41416567.0,
      "step": 22450
    },
    {
      "entropy": 5.5496378421783445,
      "epoch": 1.8865364419239654,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00046429558471488164,
      "loss": 5.2553,
      "mean_token_accuracy": 0.1786068633198738,
      "num_tokens": 41425328.0,
      "step": 22455
    },
    {
      "entropy": 5.659866619110107,
      "epoch": 1.8869565217391304,
      "grad_norm": 1.28125,
      "learning_rate": 0.000464279395515915,
      "loss": 5.4151,
      "mean_token_accuracy": 0.1715554863214493,
      "num_tokens": 41435229.0,
      "step": 22460
    },
    {
      "entropy": 5.62566819190979,
      "epoch": 1.8873766015542954,
      "grad_norm": 1.515625,
      "learning_rate": 0.00046426320296396136,
      "loss": 5.3374,
      "mean_token_accuracy": 0.17149607092142105,
      "num_tokens": 41445471.0,
      "step": 22465
    },
    {
      "entropy": 5.568106746673584,
      "epoch": 1.8877966813694602,
      "grad_norm": 1.34375,
      "learning_rate": 0.00046424700705930745,
      "loss": 5.247,
      "mean_token_accuracy": 0.18762259185314178,
      "num_tokens": 41454654.0,
      "step": 22470
    },
    {
      "entropy": 5.585866975784302,
      "epoch": 1.888216761184625,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004642308078022403,
      "loss": 5.274,
      "mean_token_accuracy": 0.17488398551940917,
      "num_tokens": 41463341.0,
      "step": 22475
    },
    {
      "entropy": 5.630618524551392,
      "epoch": 1.88863684099979,
      "grad_norm": 1.3125,
      "learning_rate": 0.00046421460519304684,
      "loss": 5.3228,
      "mean_token_accuracy": 0.17458095848560334,
      "num_tokens": 41472677.0,
      "step": 22480
    },
    {
      "entropy": 5.686393451690674,
      "epoch": 1.8890569208149548,
      "grad_norm": 1.25,
      "learning_rate": 0.000464198399232014,
      "loss": 5.4609,
      "mean_token_accuracy": 0.16629096865653992,
      "num_tokens": 41482867.0,
      "step": 22485
    },
    {
      "entropy": 5.745574474334717,
      "epoch": 1.8894770006301198,
      "grad_norm": 1.25,
      "learning_rate": 0.0004641821899194291,
      "loss": 5.4098,
      "mean_token_accuracy": 0.16831042617559433,
      "num_tokens": 41493432.0,
      "step": 22490
    },
    {
      "entropy": 5.7386678695678714,
      "epoch": 1.8898970804452846,
      "grad_norm": 1.28125,
      "learning_rate": 0.00046416597725557903,
      "loss": 5.4352,
      "mean_token_accuracy": 0.16686583310365677,
      "num_tokens": 41503807.0,
      "step": 22495
    },
    {
      "entropy": 5.621123218536377,
      "epoch": 1.8903171602604494,
      "grad_norm": 1.421875,
      "learning_rate": 0.000464149761240751,
      "loss": 5.3121,
      "mean_token_accuracy": 0.18151101171970369,
      "num_tokens": 41512524.0,
      "step": 22500
    },
    {
      "entropy": 5.663379192352295,
      "epoch": 1.8907372400756144,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00046413354187523244,
      "loss": 5.4507,
      "mean_token_accuracy": 0.17097427397966386,
      "num_tokens": 41521915.0,
      "step": 22505
    },
    {
      "entropy": 5.619107627868653,
      "epoch": 1.8911573198907794,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004641173191593105,
      "loss": 5.3515,
      "mean_token_accuracy": 0.17258709371089936,
      "num_tokens": 41530293.0,
      "step": 22510
    },
    {
      "entropy": 5.65953893661499,
      "epoch": 1.8915773997059442,
      "grad_norm": 1.265625,
      "learning_rate": 0.00046410109309327275,
      "loss": 5.4098,
      "mean_token_accuracy": 0.17016493827104567,
      "num_tokens": 41538660.0,
      "step": 22515
    },
    {
      "entropy": 5.635321474075317,
      "epoch": 1.891997479521109,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00046408486367740647,
      "loss": 5.3747,
      "mean_token_accuracy": 0.17979306429624559,
      "num_tokens": 41547952.0,
      "step": 22520
    },
    {
      "entropy": 5.630529260635376,
      "epoch": 1.8924175593362738,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004640686309119992,
      "loss": 5.3026,
      "mean_token_accuracy": 0.18238568902015687,
      "num_tokens": 41557093.0,
      "step": 22525
    },
    {
      "entropy": 5.610331726074219,
      "epoch": 1.8928376391514388,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00046405239479733844,
      "loss": 5.3316,
      "mean_token_accuracy": 0.1757591873407364,
      "num_tokens": 41565836.0,
      "step": 22530
    },
    {
      "entropy": 5.570929670333863,
      "epoch": 1.8932577189666038,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004640361553337119,
      "loss": 5.3758,
      "mean_token_accuracy": 0.18229353278875352,
      "num_tokens": 41575365.0,
      "step": 22535
    },
    {
      "entropy": 5.628244113922119,
      "epoch": 1.8936777987817686,
      "grad_norm": 1.359375,
      "learning_rate": 0.00046401991252140715,
      "loss": 5.3339,
      "mean_token_accuracy": 0.17711923271417618,
      "num_tokens": 41583690.0,
      "step": 22540
    },
    {
      "entropy": 5.720776605606079,
      "epoch": 1.8940978785969333,
      "grad_norm": 2.09375,
      "learning_rate": 0.000464003666360712,
      "loss": 5.3243,
      "mean_token_accuracy": 0.17557096034288405,
      "num_tokens": 41593536.0,
      "step": 22545
    },
    {
      "entropy": 5.611479806900024,
      "epoch": 1.8945179584120981,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004639874168519143,
      "loss": 5.3045,
      "mean_token_accuracy": 0.17414466589689254,
      "num_tokens": 41602543.0,
      "step": 22550
    },
    {
      "entropy": 5.584366273880005,
      "epoch": 1.8949380382272631,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004639711639953017,
      "loss": 5.3845,
      "mean_token_accuracy": 0.17162299007177353,
      "num_tokens": 41611634.0,
      "step": 22555
    },
    {
      "entropy": 5.548893404006958,
      "epoch": 1.8953581180424282,
      "grad_norm": 1.375,
      "learning_rate": 0.0004639549077911623,
      "loss": 5.354,
      "mean_token_accuracy": 0.16889655143022536,
      "num_tokens": 41621400.0,
      "step": 22560
    },
    {
      "entropy": 5.694586753845215,
      "epoch": 1.895778197857593,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00046393864823978406,
      "loss": 5.3317,
      "mean_token_accuracy": 0.17640386521816254,
      "num_tokens": 41631070.0,
      "step": 22565
    },
    {
      "entropy": 5.727872610092163,
      "epoch": 1.8961982776727577,
      "grad_norm": 1.828125,
      "learning_rate": 0.0004639223853414549,
      "loss": 5.4155,
      "mean_token_accuracy": 0.17031230032444,
      "num_tokens": 41641442.0,
      "step": 22570
    },
    {
      "entropy": 5.665301179885864,
      "epoch": 1.8966183574879227,
      "grad_norm": 1.5703125,
      "learning_rate": 0.000463906119096463,
      "loss": 5.4178,
      "mean_token_accuracy": 0.1735200360417366,
      "num_tokens": 41651616.0,
      "step": 22575
    },
    {
      "entropy": 5.676836919784546,
      "epoch": 1.8970384373030877,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004638898495050963,
      "loss": 5.3417,
      "mean_token_accuracy": 0.17591539174318313,
      "num_tokens": 41660704.0,
      "step": 22580
    },
    {
      "entropy": 5.612502813339233,
      "epoch": 1.8974585171182525,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004638735765676434,
      "loss": 5.393,
      "mean_token_accuracy": 0.16929904073476792,
      "num_tokens": 41669824.0,
      "step": 22585
    },
    {
      "entropy": 5.6595179557800295,
      "epoch": 1.8978785969334173,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004638573002843922,
      "loss": 5.3122,
      "mean_token_accuracy": 0.1842661365866661,
      "num_tokens": 41680082.0,
      "step": 22590
    },
    {
      "entropy": 5.603770017623901,
      "epoch": 1.898298676748582,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004638410206556312,
      "loss": 5.2665,
      "mean_token_accuracy": 0.17830771952867508,
      "num_tokens": 41689282.0,
      "step": 22595
    },
    {
      "entropy": 5.625360727310181,
      "epoch": 1.8987187565637471,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004638247376816489,
      "loss": 5.404,
      "mean_token_accuracy": 0.1719541594386101,
      "num_tokens": 41699059.0,
      "step": 22600
    },
    {
      "entropy": 5.763462495803833,
      "epoch": 1.8991388363789121,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004638084513627335,
      "loss": 5.4994,
      "mean_token_accuracy": 0.1679268956184387,
      "num_tokens": 41708674.0,
      "step": 22605
    },
    {
      "entropy": 5.718596315383911,
      "epoch": 1.899558916194077,
      "grad_norm": 1.421875,
      "learning_rate": 0.00046379216169917356,
      "loss": 5.4022,
      "mean_token_accuracy": 0.16962596029043198,
      "num_tokens": 41718418.0,
      "step": 22610
    },
    {
      "entropy": 5.609939289093018,
      "epoch": 1.8999789960092417,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004637758686912577,
      "loss": 5.4069,
      "mean_token_accuracy": 0.16938821971416473,
      "num_tokens": 41728229.0,
      "step": 22615
    },
    {
      "entropy": 5.617797803878784,
      "epoch": 1.9003990758244065,
      "grad_norm": 1.265625,
      "learning_rate": 0.00046375957233927456,
      "loss": 5.365,
      "mean_token_accuracy": 0.17396558225154876,
      "num_tokens": 41737074.0,
      "step": 22620
    },
    {
      "entropy": 5.647723913192749,
      "epoch": 1.9008191556395715,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00046374327264351277,
      "loss": 5.2549,
      "mean_token_accuracy": 0.17883535474538803,
      "num_tokens": 41745823.0,
      "step": 22625
    },
    {
      "entropy": 5.568923711776733,
      "epoch": 1.9012392354547365,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00046372696960426116,
      "loss": 5.3503,
      "mean_token_accuracy": 0.18322131186723709,
      "num_tokens": 41754591.0,
      "step": 22630
    },
    {
      "entropy": 5.663699960708618,
      "epoch": 1.9016593152699013,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00046371066322180846,
      "loss": 5.3477,
      "mean_token_accuracy": 0.1712099567055702,
      "num_tokens": 41763585.0,
      "step": 22635
    },
    {
      "entropy": 5.690198802947998,
      "epoch": 1.902079395085066,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00046369435349644344,
      "loss": 5.3829,
      "mean_token_accuracy": 0.17371902912855147,
      "num_tokens": 41772712.0,
      "step": 22640
    },
    {
      "entropy": 5.65671181678772,
      "epoch": 1.902499474900231,
      "grad_norm": 1.484375,
      "learning_rate": 0.00046367804042845515,
      "loss": 5.2653,
      "mean_token_accuracy": 0.18572683036327362,
      "num_tokens": 41781516.0,
      "step": 22645
    },
    {
      "entropy": 5.615236091613769,
      "epoch": 1.902919554715396,
      "grad_norm": 1.203125,
      "learning_rate": 0.00046366172401813253,
      "loss": 5.3415,
      "mean_token_accuracy": 0.17305969446897507,
      "num_tokens": 41790731.0,
      "step": 22650
    },
    {
      "entropy": 5.680331754684448,
      "epoch": 1.9033396345305609,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004636454042657647,
      "loss": 5.368,
      "mean_token_accuracy": 0.17193576842546462,
      "num_tokens": 41799654.0,
      "step": 22655
    },
    {
      "entropy": 5.559491348266602,
      "epoch": 1.9037597143457257,
      "grad_norm": 1.265625,
      "learning_rate": 0.00046362908117164055,
      "loss": 5.2569,
      "mean_token_accuracy": 0.1793026253581047,
      "num_tokens": 41809408.0,
      "step": 22660
    },
    {
      "entropy": 5.644749689102173,
      "epoch": 1.9041797941608904,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004636127547360494,
      "loss": 5.4225,
      "mean_token_accuracy": 0.16808681786060334,
      "num_tokens": 41818868.0,
      "step": 22665
    },
    {
      "entropy": 5.665660381317139,
      "epoch": 1.9045998739760555,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004635964249592804,
      "loss": 5.3304,
      "mean_token_accuracy": 0.1782209351658821,
      "num_tokens": 41827156.0,
      "step": 22670
    },
    {
      "entropy": 5.692537307739258,
      "epoch": 1.9050199537912205,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004635800918416229,
      "loss": 5.4402,
      "mean_token_accuracy": 0.16368364691734313,
      "num_tokens": 41837025.0,
      "step": 22675
    },
    {
      "entropy": 5.745527839660644,
      "epoch": 1.9054400336063853,
      "grad_norm": 1.265625,
      "learning_rate": 0.00046356375538336616,
      "loss": 5.3507,
      "mean_token_accuracy": 0.17565076798200607,
      "num_tokens": 41846196.0,
      "step": 22680
    },
    {
      "entropy": 5.5358936309814455,
      "epoch": 1.90586011342155,
      "grad_norm": 1.40625,
      "learning_rate": 0.00046354741558479956,
      "loss": 5.3266,
      "mean_token_accuracy": 0.16661422401666642,
      "num_tokens": 41855030.0,
      "step": 22685
    },
    {
      "entropy": 5.6051513671875,
      "epoch": 1.9062801932367148,
      "grad_norm": 1.375,
      "learning_rate": 0.0004635310724462126,
      "loss": 5.2093,
      "mean_token_accuracy": 0.17713478952646255,
      "num_tokens": 41863740.0,
      "step": 22690
    },
    {
      "entropy": 5.604347562789917,
      "epoch": 1.9067002730518798,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004635147259678948,
      "loss": 5.3446,
      "mean_token_accuracy": 0.17247212529182435,
      "num_tokens": 41873376.0,
      "step": 22695
    },
    {
      "entropy": 5.698956775665283,
      "epoch": 1.9071203528670448,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00046349837615013563,
      "loss": 5.4611,
      "mean_token_accuracy": 0.16106533110141755,
      "num_tokens": 41882491.0,
      "step": 22700
    },
    {
      "entropy": 5.6646346092224125,
      "epoch": 1.9075404326822096,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004634820229932248,
      "loss": 5.3108,
      "mean_token_accuracy": 0.17672717124223708,
      "num_tokens": 41891357.0,
      "step": 22705
    },
    {
      "entropy": 5.618336296081543,
      "epoch": 1.9079605124973744,
      "grad_norm": 1.46875,
      "learning_rate": 0.00046346566649745205,
      "loss": 5.3758,
      "mean_token_accuracy": 0.17323821932077407,
      "num_tokens": 41899874.0,
      "step": 22710
    },
    {
      "entropy": 5.639418315887451,
      "epoch": 1.9083805923125394,
      "grad_norm": 1.515625,
      "learning_rate": 0.000463449306663107,
      "loss": 5.3765,
      "mean_token_accuracy": 0.17575515508651735,
      "num_tokens": 41909673.0,
      "step": 22715
    },
    {
      "entropy": 5.713147306442261,
      "epoch": 1.9088006721277042,
      "grad_norm": 1.578125,
      "learning_rate": 0.0004634329434904796,
      "loss": 5.4385,
      "mean_token_accuracy": 0.16925620883703232,
      "num_tokens": 41919126.0,
      "step": 22720
    },
    {
      "entropy": 5.597732830047607,
      "epoch": 1.9092207519428692,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004634165769798596,
      "loss": 5.2688,
      "mean_token_accuracy": 0.17853163182735443,
      "num_tokens": 41927751.0,
      "step": 22725
    },
    {
      "entropy": 5.636762285232544,
      "epoch": 1.909640831758034,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004634002071315369,
      "loss": 5.3374,
      "mean_token_accuracy": 0.1791643977165222,
      "num_tokens": 41937290.0,
      "step": 22730
    },
    {
      "entropy": 5.636068058013916,
      "epoch": 1.9100609115731988,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00046338383394580157,
      "loss": 5.2968,
      "mean_token_accuracy": 0.18056693077087402,
      "num_tokens": 41947186.0,
      "step": 22735
    },
    {
      "entropy": 5.5747472763061525,
      "epoch": 1.9104809913883638,
      "grad_norm": 1.28125,
      "learning_rate": 0.00046336745742294366,
      "loss": 5.306,
      "mean_token_accuracy": 0.16971218585968018,
      "num_tokens": 41956197.0,
      "step": 22740
    },
    {
      "entropy": 5.6662568092346195,
      "epoch": 1.9109010712035288,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00046335107756325316,
      "loss": 5.2903,
      "mean_token_accuracy": 0.17477723807096482,
      "num_tokens": 41965881.0,
      "step": 22745
    },
    {
      "entropy": 5.65323395729065,
      "epoch": 1.9113211510186936,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004633346943670204,
      "loss": 5.3643,
      "mean_token_accuracy": 0.16437687277793883,
      "num_tokens": 41975031.0,
      "step": 22750
    },
    {
      "entropy": 5.643260192871094,
      "epoch": 1.9117412308338584,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004633183078345355,
      "loss": 5.3197,
      "mean_token_accuracy": 0.17544271051883698,
      "num_tokens": 41984187.0,
      "step": 22755
    },
    {
      "entropy": 5.675690174102783,
      "epoch": 1.9121613106490232,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00046330191796608867,
      "loss": 5.4277,
      "mean_token_accuracy": 0.17010141164064407,
      "num_tokens": 41993185.0,
      "step": 22760
    },
    {
      "entropy": 5.658887100219727,
      "epoch": 1.9125813904641882,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004632855247619704,
      "loss": 5.3799,
      "mean_token_accuracy": 0.17760641872882843,
      "num_tokens": 42002521.0,
      "step": 22765
    },
    {
      "entropy": 5.694884634017944,
      "epoch": 1.9130014702793532,
      "grad_norm": 2.234375,
      "learning_rate": 0.000463269128222471,
      "loss": 5.4865,
      "mean_token_accuracy": 0.1686519965529442,
      "num_tokens": 42011444.0,
      "step": 22770
    },
    {
      "entropy": 5.666096448898315,
      "epoch": 1.913421550094518,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004632527283478809,
      "loss": 5.3742,
      "mean_token_accuracy": 0.16956177055835725,
      "num_tokens": 42020916.0,
      "step": 22775
    },
    {
      "entropy": 5.701362133026123,
      "epoch": 1.9138416299096828,
      "grad_norm": 1.28125,
      "learning_rate": 0.00046323632513849063,
      "loss": 5.3941,
      "mean_token_accuracy": 0.17448805570602416,
      "num_tokens": 42029467.0,
      "step": 22780
    },
    {
      "entropy": 5.498393583297729,
      "epoch": 1.9142617097248478,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004632199185945908,
      "loss": 5.1487,
      "mean_token_accuracy": 0.18760445863008499,
      "num_tokens": 42037435.0,
      "step": 22785
    },
    {
      "entropy": 5.676510238647461,
      "epoch": 1.9146817895400126,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004632035087164721,
      "loss": 5.4044,
      "mean_token_accuracy": 0.1724133387207985,
      "num_tokens": 42046943.0,
      "step": 22790
    },
    {
      "entropy": 5.623393821716308,
      "epoch": 1.9151018693551776,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004631870955044251,
      "loss": 5.2769,
      "mean_token_accuracy": 0.17786265760660172,
      "num_tokens": 42055804.0,
      "step": 22795
    },
    {
      "entropy": 5.609493112564087,
      "epoch": 1.9155219491703424,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00046317067895874063,
      "loss": 5.2838,
      "mean_token_accuracy": 0.18263700753450393,
      "num_tokens": 42064655.0,
      "step": 22800
    },
    {
      "entropy": 5.665407276153564,
      "epoch": 1.9159420289855071,
      "grad_norm": 1.140625,
      "learning_rate": 0.00046315425907970947,
      "loss": 5.322,
      "mean_token_accuracy": 0.17597611397504806,
      "num_tokens": 42073663.0,
      "step": 22805
    },
    {
      "entropy": 5.667187929153442,
      "epoch": 1.9163621088006721,
      "grad_norm": 1.375,
      "learning_rate": 0.0004631378358676225,
      "loss": 5.4126,
      "mean_token_accuracy": 0.1755566418170929,
      "num_tokens": 42083931.0,
      "step": 22810
    },
    {
      "entropy": 5.715243768692017,
      "epoch": 1.9167821886158372,
      "grad_norm": 1.25,
      "learning_rate": 0.0004631214093227706,
      "loss": 5.381,
      "mean_token_accuracy": 0.16978215724229812,
      "num_tokens": 42093782.0,
      "step": 22815
    },
    {
      "entropy": 5.629796504974365,
      "epoch": 1.917202268431002,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004631049794454448,
      "loss": 5.3331,
      "mean_token_accuracy": 0.17728287428617479,
      "num_tokens": 42103392.0,
      "step": 22820
    },
    {
      "entropy": 5.656073045730591,
      "epoch": 1.9176223482461667,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004630885462359362,
      "loss": 5.2929,
      "mean_token_accuracy": 0.1793659135699272,
      "num_tokens": 42112051.0,
      "step": 22825
    },
    {
      "entropy": 5.5138551712036135,
      "epoch": 1.9180424280613315,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004630721096945358,
      "loss": 5.321,
      "mean_token_accuracy": 0.1804273918271065,
      "num_tokens": 42120156.0,
      "step": 22830
    },
    {
      "entropy": 5.682647180557251,
      "epoch": 1.9184625078764965,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004630556698215349,
      "loss": 5.4097,
      "mean_token_accuracy": 0.17985475659370423,
      "num_tokens": 42129564.0,
      "step": 22835
    },
    {
      "entropy": 5.691924667358398,
      "epoch": 1.9188825876916615,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00046303922661722466,
      "loss": 5.4662,
      "mean_token_accuracy": 0.16802815347909927,
      "num_tokens": 42138144.0,
      "step": 22840
    },
    {
      "entropy": 5.572285509109497,
      "epoch": 1.9193026675068263,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00046302278008189627,
      "loss": 5.2914,
      "mean_token_accuracy": 0.1704635813832283,
      "num_tokens": 42147701.0,
      "step": 22845
    },
    {
      "entropy": 5.540525960922241,
      "epoch": 1.919722747321991,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004630063302158412,
      "loss": 5.2657,
      "mean_token_accuracy": 0.1806807652115822,
      "num_tokens": 42156772.0,
      "step": 22850
    },
    {
      "entropy": 5.553380632400513,
      "epoch": 1.920142827137156,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00046298987701935066,
      "loss": 5.2087,
      "mean_token_accuracy": 0.18418700397014617,
      "num_tokens": 42165227.0,
      "step": 22855
    },
    {
      "entropy": 5.556873607635498,
      "epoch": 1.920562906952321,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004629734204927164,
      "loss": 5.2462,
      "mean_token_accuracy": 0.1809609055519104,
      "num_tokens": 42174800.0,
      "step": 22860
    },
    {
      "entropy": 5.615631151199341,
      "epoch": 1.920982986767486,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004629569606362298,
      "loss": 5.3416,
      "mean_token_accuracy": 0.17381157577037812,
      "num_tokens": 42184301.0,
      "step": 22865
    },
    {
      "entropy": 5.657670736312866,
      "epoch": 1.9214030665826507,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004629404974501823,
      "loss": 5.3347,
      "mean_token_accuracy": 0.17408420890569687,
      "num_tokens": 42193266.0,
      "step": 22870
    },
    {
      "entropy": 5.550420045852661,
      "epoch": 1.9218231463978155,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004629240309348658,
      "loss": 5.2736,
      "mean_token_accuracy": 0.1723278731107712,
      "num_tokens": 42202051.0,
      "step": 22875
    },
    {
      "entropy": 5.5658341407775875,
      "epoch": 1.9222432262129805,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004629075610905717,
      "loss": 5.1858,
      "mean_token_accuracy": 0.18649692982435226,
      "num_tokens": 42210716.0,
      "step": 22880
    },
    {
      "entropy": 5.521829605102539,
      "epoch": 1.9226633060281455,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000462891087917592,
      "loss": 5.255,
      "mean_token_accuracy": 0.1794131278991699,
      "num_tokens": 42219930.0,
      "step": 22885
    },
    {
      "entropy": 5.61706805229187,
      "epoch": 1.9230833858433103,
      "grad_norm": 1.375,
      "learning_rate": 0.00046287461141621844,
      "loss": 5.301,
      "mean_token_accuracy": 0.185006545484066,
      "num_tokens": 42228864.0,
      "step": 22890
    },
    {
      "entropy": 5.622384357452392,
      "epoch": 1.923503465658475,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004628581315867429,
      "loss": 5.3738,
      "mean_token_accuracy": 0.17600143253803252,
      "num_tokens": 42238030.0,
      "step": 22895
    },
    {
      "entropy": 5.667676210403442,
      "epoch": 1.9239235454736399,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00046284164842945723,
      "loss": 5.3524,
      "mean_token_accuracy": 0.17182712703943254,
      "num_tokens": 42247818.0,
      "step": 22900
    },
    {
      "entropy": 5.661724472045899,
      "epoch": 1.9243436252888049,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004628251619446536,
      "loss": 5.3038,
      "mean_token_accuracy": 0.17410755008459092,
      "num_tokens": 42256772.0,
      "step": 22905
    },
    {
      "entropy": 5.578900766372681,
      "epoch": 1.9247637051039699,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00046280867213262385,
      "loss": 5.3696,
      "mean_token_accuracy": 0.16716319620609282,
      "num_tokens": 42265620.0,
      "step": 22910
    },
    {
      "entropy": 5.678067827224732,
      "epoch": 1.9251837849191347,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004627921789936602,
      "loss": 5.426,
      "mean_token_accuracy": 0.16603572368621827,
      "num_tokens": 42274998.0,
      "step": 22915
    },
    {
      "entropy": 5.700376176834107,
      "epoch": 1.9256038647342995,
      "grad_norm": 1.28125,
      "learning_rate": 0.00046277568252805476,
      "loss": 5.3521,
      "mean_token_accuracy": 0.17515442967414857,
      "num_tokens": 42284849.0,
      "step": 22920
    },
    {
      "entropy": 5.584618091583252,
      "epoch": 1.9260239445494642,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004627591827360998,
      "loss": 5.3409,
      "mean_token_accuracy": 0.17606656402349471,
      "num_tokens": 42294133.0,
      "step": 22925
    },
    {
      "entropy": 5.622400760650635,
      "epoch": 1.9264440243646292,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004627426796180876,
      "loss": 5.3253,
      "mean_token_accuracy": 0.18122074604034424,
      "num_tokens": 42302765.0,
      "step": 22930
    },
    {
      "entropy": 5.661354064941406,
      "epoch": 1.9268641041797943,
      "grad_norm": 1.265625,
      "learning_rate": 0.00046272617317431056,
      "loss": 5.278,
      "mean_token_accuracy": 0.17460388243198394,
      "num_tokens": 42311829.0,
      "step": 22935
    },
    {
      "entropy": 5.653006887435913,
      "epoch": 1.927284183994959,
      "grad_norm": 1.25,
      "learning_rate": 0.00046270966340506087,
      "loss": 5.4127,
      "mean_token_accuracy": 0.1800052508711815,
      "num_tokens": 42321294.0,
      "step": 22940
    },
    {
      "entropy": 5.646188735961914,
      "epoch": 1.9277042638101238,
      "grad_norm": 1.296875,
      "learning_rate": 0.00046269315031063137,
      "loss": 5.2272,
      "mean_token_accuracy": 0.179823400080204,
      "num_tokens": 42329379.0,
      "step": 22945
    },
    {
      "entropy": 5.635144662857056,
      "epoch": 1.9281243436252888,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00046267663389131425,
      "loss": 5.4211,
      "mean_token_accuracy": 0.16577421128749847,
      "num_tokens": 42339867.0,
      "step": 22950
    },
    {
      "entropy": 5.672863578796386,
      "epoch": 1.9285444234404538,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00046266011414740213,
      "loss": 5.4266,
      "mean_token_accuracy": 0.17056871354579925,
      "num_tokens": 42350174.0,
      "step": 22955
    },
    {
      "entropy": 5.623044729232788,
      "epoch": 1.9289645032556186,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004626435910791878,
      "loss": 5.284,
      "mean_token_accuracy": 0.1775414004921913,
      "num_tokens": 42359214.0,
      "step": 22960
    },
    {
      "entropy": 5.5688153266906735,
      "epoch": 1.9293845830707834,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00046262706468696386,
      "loss": 5.3633,
      "mean_token_accuracy": 0.17115409225225447,
      "num_tokens": 42367965.0,
      "step": 22965
    },
    {
      "entropy": 5.6344867706298825,
      "epoch": 1.9298046628859482,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004626105349710231,
      "loss": 5.3841,
      "mean_token_accuracy": 0.16720222681760788,
      "num_tokens": 42377233.0,
      "step": 22970
    },
    {
      "entropy": 5.789755868911743,
      "epoch": 1.9302247427011132,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004625940019316584,
      "loss": 5.3816,
      "mean_token_accuracy": 0.17151414901018142,
      "num_tokens": 42386060.0,
      "step": 22975
    },
    {
      "entropy": 5.65874752998352,
      "epoch": 1.9306448225162782,
      "grad_norm": 1.34375,
      "learning_rate": 0.00046257746556916236,
      "loss": 5.3775,
      "mean_token_accuracy": 0.18202279657125472,
      "num_tokens": 42395659.0,
      "step": 22980
    },
    {
      "entropy": 5.696528530120849,
      "epoch": 1.931064902331443,
      "grad_norm": 1.5625,
      "learning_rate": 0.00046256092588382825,
      "loss": 5.3834,
      "mean_token_accuracy": 0.1711360841989517,
      "num_tokens": 42403531.0,
      "step": 22985
    },
    {
      "entropy": 5.649896192550659,
      "epoch": 1.9314849821466078,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00046254438287594884,
      "loss": 5.3348,
      "mean_token_accuracy": 0.17835707813501359,
      "num_tokens": 42412364.0,
      "step": 22990
    },
    {
      "entropy": 5.599561738967895,
      "epoch": 1.9319050619617726,
      "grad_norm": 1.21875,
      "learning_rate": 0.00046252783654581733,
      "loss": 5.3225,
      "mean_token_accuracy": 0.17222917228937148,
      "num_tokens": 42422276.0,
      "step": 22995
    },
    {
      "entropy": 5.6603082656860355,
      "epoch": 1.9323251417769376,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004625112868937267,
      "loss": 5.3528,
      "mean_token_accuracy": 0.1746899351477623,
      "num_tokens": 42430853.0,
      "step": 23000
    },
    {
      "entropy": 5.572019052505493,
      "epoch": 1.9327452215921026,
      "grad_norm": 1.125,
      "learning_rate": 0.0004624947339199702,
      "loss": 5.2428,
      "mean_token_accuracy": 0.17491891533136367,
      "num_tokens": 42439034.0,
      "step": 23005
    },
    {
      "entropy": 5.665308284759521,
      "epoch": 1.9331653014072674,
      "grad_norm": 1.171875,
      "learning_rate": 0.000462478177624841,
      "loss": 5.4216,
      "mean_token_accuracy": 0.1706569865345955,
      "num_tokens": 42448494.0,
      "step": 23010
    },
    {
      "entropy": 5.692689990997314,
      "epoch": 1.9335853812224322,
      "grad_norm": 1.234375,
      "learning_rate": 0.00046246161800863244,
      "loss": 5.3149,
      "mean_token_accuracy": 0.17972690612077713,
      "num_tokens": 42457188.0,
      "step": 23015
    },
    {
      "entropy": 5.6557807445526125,
      "epoch": 1.9340054610375972,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004624450550716379,
      "loss": 5.407,
      "mean_token_accuracy": 0.16998066902160644,
      "num_tokens": 42466321.0,
      "step": 23020
    },
    {
      "entropy": 5.624531412124634,
      "epoch": 1.934425540852762,
      "grad_norm": 1.53125,
      "learning_rate": 0.0004624284888141507,
      "loss": 5.3419,
      "mean_token_accuracy": 0.17627126276493071,
      "num_tokens": 42475879.0,
      "step": 23025
    },
    {
      "entropy": 5.653626155853272,
      "epoch": 1.934845620667927,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004624119192364643,
      "loss": 5.4957,
      "mean_token_accuracy": 0.1685581237077713,
      "num_tokens": 42484988.0,
      "step": 23030
    },
    {
      "entropy": 5.609811210632325,
      "epoch": 1.9352657004830918,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00046239534633887223,
      "loss": 5.2922,
      "mean_token_accuracy": 0.1745161935687065,
      "num_tokens": 42493764.0,
      "step": 23035
    },
    {
      "entropy": 5.771266174316406,
      "epoch": 1.9356857802982566,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004623787701216682,
      "loss": 5.5004,
      "mean_token_accuracy": 0.1753440722823143,
      "num_tokens": 42503312.0,
      "step": 23040
    },
    {
      "entropy": 5.6357780456542965,
      "epoch": 1.9361058601134216,
      "grad_norm": 1.09375,
      "learning_rate": 0.00046236219058514566,
      "loss": 5.352,
      "mean_token_accuracy": 0.1730501800775528,
      "num_tokens": 42512303.0,
      "step": 23045
    },
    {
      "entropy": 5.542242479324341,
      "epoch": 1.9365259399285866,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004623456077295984,
      "loss": 5.2403,
      "mean_token_accuracy": 0.18613847196102143,
      "num_tokens": 42520928.0,
      "step": 23050
    },
    {
      "entropy": 5.61994481086731,
      "epoch": 1.9369460197437514,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004623290215553201,
      "loss": 5.2828,
      "mean_token_accuracy": 0.18155443370342256,
      "num_tokens": 42529945.0,
      "step": 23055
    },
    {
      "entropy": 5.622451591491699,
      "epoch": 1.9373660995589161,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004623124320626048,
      "loss": 5.3357,
      "mean_token_accuracy": 0.1775738701224327,
      "num_tokens": 42539078.0,
      "step": 23060
    },
    {
      "entropy": 5.602380084991455,
      "epoch": 1.937786179374081,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004622958392517461,
      "loss": 5.291,
      "mean_token_accuracy": 0.17909268736839296,
      "num_tokens": 42547842.0,
      "step": 23065
    },
    {
      "entropy": 5.6292308330535885,
      "epoch": 1.938206259189246,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004622792431230381,
      "loss": 5.2295,
      "mean_token_accuracy": 0.18587420433759688,
      "num_tokens": 42556574.0,
      "step": 23070
    },
    {
      "entropy": 5.657032442092896,
      "epoch": 1.938626339004411,
      "grad_norm": 1.296875,
      "learning_rate": 0.00046226264367677476,
      "loss": 5.3364,
      "mean_token_accuracy": 0.1658307746052742,
      "num_tokens": 42565906.0,
      "step": 23075
    },
    {
      "entropy": 5.610013246536255,
      "epoch": 1.9390464188195757,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004622460409132501,
      "loss": 5.3061,
      "mean_token_accuracy": 0.17991530746221543,
      "num_tokens": 42574929.0,
      "step": 23080
    },
    {
      "entropy": 5.6608904838562015,
      "epoch": 1.9394664986347405,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004622294348327582,
      "loss": 5.3509,
      "mean_token_accuracy": 0.17006094008684158,
      "num_tokens": 42585185.0,
      "step": 23085
    },
    {
      "entropy": 5.600542974472046,
      "epoch": 1.9398865784499055,
      "grad_norm": 1.28125,
      "learning_rate": 0.00046221282543559334,
      "loss": 5.3681,
      "mean_token_accuracy": 0.17075276374816895,
      "num_tokens": 42594272.0,
      "step": 23090
    },
    {
      "entropy": 5.5656678676605225,
      "epoch": 1.9403066582650703,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00046219621272204967,
      "loss": 5.2697,
      "mean_token_accuracy": 0.17831842303276063,
      "num_tokens": 42603410.0,
      "step": 23095
    },
    {
      "entropy": 5.666840028762818,
      "epoch": 1.9407267380802353,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00046217959669242145,
      "loss": 5.479,
      "mean_token_accuracy": 0.16195986643433571,
      "num_tokens": 42613879.0,
      "step": 23100
    },
    {
      "entropy": 5.662532567977905,
      "epoch": 1.9411468178954001,
      "grad_norm": 1.3671875,
      "learning_rate": 0.000462162977347003,
      "loss": 5.2801,
      "mean_token_accuracy": 0.17427633106708526,
      "num_tokens": 42623323.0,
      "step": 23105
    },
    {
      "entropy": 5.668767642974854,
      "epoch": 1.941566897710565,
      "grad_norm": 1.234375,
      "learning_rate": 0.00046214635468608885,
      "loss": 5.3365,
      "mean_token_accuracy": 0.17507773339748384,
      "num_tokens": 42632365.0,
      "step": 23110
    },
    {
      "entropy": 5.6521703720092775,
      "epoch": 1.94198697752573,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00046212972870997336,
      "loss": 5.3073,
      "mean_token_accuracy": 0.17932529896497726,
      "num_tokens": 42641872.0,
      "step": 23115
    },
    {
      "entropy": 5.679893827438354,
      "epoch": 1.942407057340895,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004621130994189511,
      "loss": 5.3758,
      "mean_token_accuracy": 0.17578433007001876,
      "num_tokens": 42652031.0,
      "step": 23120
    },
    {
      "entropy": 5.534250640869141,
      "epoch": 1.9428271371560597,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004620964668133166,
      "loss": 5.3045,
      "mean_token_accuracy": 0.17120088189840316,
      "num_tokens": 42661040.0,
      "step": 23125
    },
    {
      "entropy": 5.6397205829620365,
      "epoch": 1.9432472169712245,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004620798308933646,
      "loss": 5.3392,
      "mean_token_accuracy": 0.17351713329553603,
      "num_tokens": 42670559.0,
      "step": 23130
    },
    {
      "entropy": 5.674306726455688,
      "epoch": 1.9436672967863893,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004620631916593897,
      "loss": 5.3482,
      "mean_token_accuracy": 0.17234041541814804,
      "num_tokens": 42679883.0,
      "step": 23135
    },
    {
      "entropy": 5.741105794906616,
      "epoch": 1.9440873766015543,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004620465491116867,
      "loss": 5.4648,
      "mean_token_accuracy": 0.15939529240131378,
      "num_tokens": 42689746.0,
      "step": 23140
    },
    {
      "entropy": 5.731553983688355,
      "epoch": 1.9445074564167193,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00046202990325055034,
      "loss": 5.3838,
      "mean_token_accuracy": 0.17033789455890655,
      "num_tokens": 42699685.0,
      "step": 23145
    },
    {
      "entropy": 5.571749210357666,
      "epoch": 1.944927536231884,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004620132540762756,
      "loss": 5.2458,
      "mean_token_accuracy": 0.1736294910311699,
      "num_tokens": 42708873.0,
      "step": 23150
    },
    {
      "entropy": 5.5605018615722654,
      "epoch": 1.9453476160470489,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00046199660158915734,
      "loss": 5.3166,
      "mean_token_accuracy": 0.1672689750790596,
      "num_tokens": 42717807.0,
      "step": 23155
    },
    {
      "entropy": 5.597097682952881,
      "epoch": 1.9457676958622139,
      "grad_norm": 1.265625,
      "learning_rate": 0.00046197994578949056,
      "loss": 5.3768,
      "mean_token_accuracy": 0.17283654361963272,
      "num_tokens": 42726674.0,
      "step": 23160
    },
    {
      "entropy": 5.670198249816894,
      "epoch": 1.9461877756773787,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0004619632866775704,
      "loss": 5.4328,
      "mean_token_accuracy": 0.1715935230255127,
      "num_tokens": 42735621.0,
      "step": 23165
    },
    {
      "entropy": 5.605064630508423,
      "epoch": 1.9466078554925437,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004619466242536918,
      "loss": 5.3183,
      "mean_token_accuracy": 0.17671644389629365,
      "num_tokens": 42744945.0,
      "step": 23170
    },
    {
      "entropy": 5.675964307785034,
      "epoch": 1.9470279353077085,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004619299585181501,
      "loss": 5.4318,
      "mean_token_accuracy": 0.17112542688846588,
      "num_tokens": 42754906.0,
      "step": 23175
    },
    {
      "entropy": 5.677554368972778,
      "epoch": 1.9474480151228732,
      "grad_norm": 1.28125,
      "learning_rate": 0.00046191328947124027,
      "loss": 5.3332,
      "mean_token_accuracy": 0.17521820366382598,
      "num_tokens": 42764673.0,
      "step": 23180
    },
    {
      "entropy": 5.564341068267822,
      "epoch": 1.9478680949380383,
      "grad_norm": 1.25,
      "learning_rate": 0.00046189661711325784,
      "loss": 5.3217,
      "mean_token_accuracy": 0.18367141485214233,
      "num_tokens": 42774528.0,
      "step": 23185
    },
    {
      "entropy": 5.669634675979614,
      "epoch": 1.9482881747532033,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00046187994144449815,
      "loss": 5.2309,
      "mean_token_accuracy": 0.1801608145236969,
      "num_tokens": 42783813.0,
      "step": 23190
    },
    {
      "entropy": 5.586480951309204,
      "epoch": 1.948708254568368,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004618632624652565,
      "loss": 5.3154,
      "mean_token_accuracy": 0.17071151435375215,
      "num_tokens": 42793483.0,
      "step": 23195
    },
    {
      "entropy": 5.59461088180542,
      "epoch": 1.9491283343835328,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004618465801758283,
      "loss": 5.3859,
      "mean_token_accuracy": 0.1717785432934761,
      "num_tokens": 42803177.0,
      "step": 23200
    },
    {
      "entropy": 5.673942232131958,
      "epoch": 1.9495484141986976,
      "grad_norm": 1.21875,
      "learning_rate": 0.00046182989457650925,
      "loss": 5.3849,
      "mean_token_accuracy": 0.17533280104398727,
      "num_tokens": 42812395.0,
      "step": 23205
    },
    {
      "entropy": 5.617794990539551,
      "epoch": 1.9499684940138626,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00046181320566759476,
      "loss": 5.3511,
      "mean_token_accuracy": 0.17385358661413192,
      "num_tokens": 42821495.0,
      "step": 23210
    },
    {
      "entropy": 5.608628606796264,
      "epoch": 1.9503885738290276,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00046179651344938055,
      "loss": 5.3336,
      "mean_token_accuracy": 0.17260808795690535,
      "num_tokens": 42832219.0,
      "step": 23215
    },
    {
      "entropy": 5.632011890411377,
      "epoch": 1.9508086536441924,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00046177981792216234,
      "loss": 5.2745,
      "mean_token_accuracy": 0.1757341668009758,
      "num_tokens": 42841368.0,
      "step": 23220
    },
    {
      "entropy": 5.603061056137085,
      "epoch": 1.9512287334593572,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00046176311908623574,
      "loss": 5.3093,
      "mean_token_accuracy": 0.1824861243367195,
      "num_tokens": 42850512.0,
      "step": 23225
    },
    {
      "entropy": 5.6234039783477785,
      "epoch": 1.951648813274522,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004617464169418967,
      "loss": 5.3568,
      "mean_token_accuracy": 0.1736053630709648,
      "num_tokens": 42860749.0,
      "step": 23230
    },
    {
      "entropy": 5.616316413879394,
      "epoch": 1.952068893089687,
      "grad_norm": 1.203125,
      "learning_rate": 0.00046172971148944106,
      "loss": 5.3083,
      "mean_token_accuracy": 0.17737708240747452,
      "num_tokens": 42869880.0,
      "step": 23235
    },
    {
      "entropy": 5.60381588935852,
      "epoch": 1.952488972904852,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00046171300272916465,
      "loss": 5.2901,
      "mean_token_accuracy": 0.18085473626852036,
      "num_tokens": 42879001.0,
      "step": 23240
    },
    {
      "entropy": 5.551793575286865,
      "epoch": 1.9529090527200168,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00046169629066136357,
      "loss": 5.2287,
      "mean_token_accuracy": 0.1819872483611107,
      "num_tokens": 42888036.0,
      "step": 23245
    },
    {
      "entropy": 5.664321565628052,
      "epoch": 1.9533291325351816,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00046167957528633387,
      "loss": 5.3401,
      "mean_token_accuracy": 0.1780684620141983,
      "num_tokens": 42897460.0,
      "step": 23250
    },
    {
      "entropy": 5.6305899143219,
      "epoch": 1.9537492123503466,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00046166285660437164,
      "loss": 5.3538,
      "mean_token_accuracy": 0.1773480087518692,
      "num_tokens": 42907010.0,
      "step": 23255
    },
    {
      "entropy": 5.664665699005127,
      "epoch": 1.9541692921655116,
      "grad_norm": 1.3046875,
      "learning_rate": 0.000461646134615773,
      "loss": 5.2976,
      "mean_token_accuracy": 0.17132930904626847,
      "num_tokens": 42915684.0,
      "step": 23260
    },
    {
      "entropy": 5.595171546936035,
      "epoch": 1.9545893719806764,
      "grad_norm": 1.265625,
      "learning_rate": 0.00046162940932083414,
      "loss": 5.3159,
      "mean_token_accuracy": 0.17843813300132752,
      "num_tokens": 42924903.0,
      "step": 23265
    },
    {
      "entropy": 5.591875410079956,
      "epoch": 1.9550094517958412,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00046161268071985144,
      "loss": 5.3182,
      "mean_token_accuracy": 0.17087887227535248,
      "num_tokens": 42935234.0,
      "step": 23270
    },
    {
      "entropy": 5.50767765045166,
      "epoch": 1.955429531611006,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004615959488131212,
      "loss": 5.2438,
      "mean_token_accuracy": 0.18054774403572083,
      "num_tokens": 42944093.0,
      "step": 23275
    },
    {
      "entropy": 5.6021500587463375,
      "epoch": 1.955849611426171,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004615792136009398,
      "loss": 5.2662,
      "mean_token_accuracy": 0.17670947611331939,
      "num_tokens": 42953504.0,
      "step": 23280
    },
    {
      "entropy": 5.602096080780029,
      "epoch": 1.956269691241336,
      "grad_norm": 1.375,
      "learning_rate": 0.00046156247508360375,
      "loss": 5.3159,
      "mean_token_accuracy": 0.1776598408818245,
      "num_tokens": 42962205.0,
      "step": 23285
    },
    {
      "entropy": 5.548053550720215,
      "epoch": 1.9566897710565008,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004615457332614095,
      "loss": 5.2466,
      "mean_token_accuracy": 0.17867524921894073,
      "num_tokens": 42971240.0,
      "step": 23290
    },
    {
      "entropy": 5.659411191940308,
      "epoch": 1.9571098508716656,
      "grad_norm": 1.21875,
      "learning_rate": 0.00046152898813465353,
      "loss": 5.4036,
      "mean_token_accuracy": 0.16589925736188887,
      "num_tokens": 42981573.0,
      "step": 23295
    },
    {
      "entropy": 5.64855694770813,
      "epoch": 1.9575299306868303,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004615122397036327,
      "loss": 5.327,
      "mean_token_accuracy": 0.17262526452541352,
      "num_tokens": 42991383.0,
      "step": 23300
    },
    {
      "entropy": 5.609686803817749,
      "epoch": 1.9579500105019954,
      "grad_norm": 1.234375,
      "learning_rate": 0.00046149548796864355,
      "loss": 5.2754,
      "mean_token_accuracy": 0.1759060487151146,
      "num_tokens": 43000029.0,
      "step": 23305
    },
    {
      "entropy": 5.634216022491455,
      "epoch": 1.9583700903171604,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00046147873292998285,
      "loss": 5.3476,
      "mean_token_accuracy": 0.17457685023546218,
      "num_tokens": 43008880.0,
      "step": 23310
    },
    {
      "entropy": 5.561314058303833,
      "epoch": 1.9587901701323251,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004614619745879475,
      "loss": 5.3153,
      "mean_token_accuracy": 0.1781879886984825,
      "num_tokens": 43017417.0,
      "step": 23315
    },
    {
      "entropy": 5.620518207550049,
      "epoch": 1.95921024994749,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0004614452129428342,
      "loss": 5.2382,
      "mean_token_accuracy": 0.18082706928253173,
      "num_tokens": 43025738.0,
      "step": 23320
    },
    {
      "entropy": 5.715609693527222,
      "epoch": 1.959630329762655,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004614284479949399,
      "loss": 5.3641,
      "mean_token_accuracy": 0.17538043707609177,
      "num_tokens": 43035485.0,
      "step": 23325
    },
    {
      "entropy": 5.712373542785644,
      "epoch": 1.96005040957782,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004614116797445617,
      "loss": 5.3889,
      "mean_token_accuracy": 0.1784473180770874,
      "num_tokens": 43044627.0,
      "step": 23330
    },
    {
      "entropy": 5.570833015441894,
      "epoch": 1.9604704893929847,
      "grad_norm": 1.34375,
      "learning_rate": 0.00046139490819199666,
      "loss": 5.2968,
      "mean_token_accuracy": 0.1788347989320755,
      "num_tokens": 43053790.0,
      "step": 23335
    },
    {
      "entropy": 5.616850519180298,
      "epoch": 1.9608905692081495,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004613781333375417,
      "loss": 5.2878,
      "mean_token_accuracy": 0.18670900613069535,
      "num_tokens": 43063511.0,
      "step": 23340
    },
    {
      "entropy": 5.548789978027344,
      "epoch": 1.9613106490233143,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004613613551814941,
      "loss": 5.2263,
      "mean_token_accuracy": 0.18141030222177507,
      "num_tokens": 43072349.0,
      "step": 23345
    },
    {
      "entropy": 5.640681552886963,
      "epoch": 1.9617307288384793,
      "grad_norm": 1.484375,
      "learning_rate": 0.0004613445737241511,
      "loss": 5.3351,
      "mean_token_accuracy": 0.17484953999519348,
      "num_tokens": 43081552.0,
      "step": 23350
    },
    {
      "entropy": 5.684726333618164,
      "epoch": 1.9621508086536443,
      "grad_norm": 1.265625,
      "learning_rate": 0.00046132778896581,
      "loss": 5.3775,
      "mean_token_accuracy": 0.17865779995918274,
      "num_tokens": 43092321.0,
      "step": 23355
    },
    {
      "entropy": 5.672852087020874,
      "epoch": 1.9625708884688091,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004613110009067679,
      "loss": 5.3385,
      "mean_token_accuracy": 0.17483696341514587,
      "num_tokens": 43102326.0,
      "step": 23360
    },
    {
      "entropy": 5.655863475799561,
      "epoch": 1.962990968283974,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00046129420954732237,
      "loss": 5.3726,
      "mean_token_accuracy": 0.17350683659315108,
      "num_tokens": 43110895.0,
      "step": 23365
    },
    {
      "entropy": 5.571282768249512,
      "epoch": 1.9634110480991387,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004612774148877709,
      "loss": 5.2236,
      "mean_token_accuracy": 0.1840864822268486,
      "num_tokens": 43119948.0,
      "step": 23370
    },
    {
      "entropy": 5.671322822570801,
      "epoch": 1.9638311279143037,
      "grad_norm": 1.390625,
      "learning_rate": 0.000461260616928411,
      "loss": 5.4221,
      "mean_token_accuracy": 0.17291183322668074,
      "num_tokens": 43129876.0,
      "step": 23375
    },
    {
      "entropy": 5.6836082458496096,
      "epoch": 1.9642512077294687,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00046124381566954006,
      "loss": 5.3752,
      "mean_token_accuracy": 0.1769299626350403,
      "num_tokens": 43138831.0,
      "step": 23380
    },
    {
      "entropy": 5.644669532775879,
      "epoch": 1.9646712875446335,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00046122701111145587,
      "loss": 5.3462,
      "mean_token_accuracy": 0.16992448419332504,
      "num_tokens": 43147338.0,
      "step": 23385
    },
    {
      "entropy": 5.6005443096160885,
      "epoch": 1.9650913673597983,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004612102032544561,
      "loss": 5.2866,
      "mean_token_accuracy": 0.1766381561756134,
      "num_tokens": 43158587.0,
      "step": 23390
    },
    {
      "entropy": 5.610977602005005,
      "epoch": 1.9655114471749633,
      "grad_norm": 1.296875,
      "learning_rate": 0.00046119339209883846,
      "loss": 5.2766,
      "mean_token_accuracy": 0.18496377915143966,
      "num_tokens": 43167610.0,
      "step": 23395
    },
    {
      "entropy": 5.537552261352539,
      "epoch": 1.965931526990128,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004611765776449007,
      "loss": 5.2482,
      "mean_token_accuracy": 0.17576922178268434,
      "num_tokens": 43176374.0,
      "step": 23400
    },
    {
      "entropy": 5.630776309967041,
      "epoch": 1.966351606805293,
      "grad_norm": 1.4375,
      "learning_rate": 0.00046115975989294083,
      "loss": 5.4188,
      "mean_token_accuracy": 0.16968157142400742,
      "num_tokens": 43187038.0,
      "step": 23405
    },
    {
      "entropy": 5.745281171798706,
      "epoch": 1.9667716866204579,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004611429388432566,
      "loss": 5.4078,
      "mean_token_accuracy": 0.17005863785743713,
      "num_tokens": 43197868.0,
      "step": 23410
    },
    {
      "entropy": 5.659871816635132,
      "epoch": 1.9671917664356227,
      "grad_norm": 1.265625,
      "learning_rate": 0.00046112611449614603,
      "loss": 5.3696,
      "mean_token_accuracy": 0.16665552854537963,
      "num_tokens": 43207675.0,
      "step": 23415
    },
    {
      "entropy": 5.648601293563843,
      "epoch": 1.9676118462507877,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004611092868519072,
      "loss": 5.3676,
      "mean_token_accuracy": 0.17277957051992415,
      "num_tokens": 43217154.0,
      "step": 23420
    },
    {
      "entropy": 5.631614065170288,
      "epoch": 1.9680319260659527,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004610924559108383,
      "loss": 5.3662,
      "mean_token_accuracy": 0.17904918119311333,
      "num_tokens": 43226912.0,
      "step": 23425
    },
    {
      "entropy": 5.663963079452515,
      "epoch": 1.9684520058811175,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004610756216732372,
      "loss": 5.3729,
      "mean_token_accuracy": 0.17254897505044936,
      "num_tokens": 43236711.0,
      "step": 23430
    },
    {
      "entropy": 5.701264095306397,
      "epoch": 1.9688720856962822,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00046105878413940237,
      "loss": 5.349,
      "mean_token_accuracy": 0.18224181234836578,
      "num_tokens": 43247005.0,
      "step": 23435
    },
    {
      "entropy": 5.405902004241943,
      "epoch": 1.969292165511447,
      "grad_norm": 1.2109375,
      "learning_rate": 0.000461041943309632,
      "loss": 5.1978,
      "mean_token_accuracy": 0.18523926436901092,
      "num_tokens": 43255868.0,
      "step": 23440
    },
    {
      "entropy": 5.579332637786865,
      "epoch": 1.969712245326612,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004610250991842244,
      "loss": 5.3133,
      "mean_token_accuracy": 0.17708868831396102,
      "num_tokens": 43265727.0,
      "step": 23445
    },
    {
      "entropy": 5.68139796257019,
      "epoch": 1.970132325141777,
      "grad_norm": 1.28125,
      "learning_rate": 0.00046100825176347796,
      "loss": 5.3433,
      "mean_token_accuracy": 0.17815263122320174,
      "num_tokens": 43274530.0,
      "step": 23450
    },
    {
      "entropy": 5.513430643081665,
      "epoch": 1.9705524049569418,
      "grad_norm": 1.203125,
      "learning_rate": 0.000460991401047691,
      "loss": 5.2518,
      "mean_token_accuracy": 0.17275855988264083,
      "num_tokens": 43285130.0,
      "step": 23455
    },
    {
      "entropy": 5.609006071090699,
      "epoch": 1.9709724847721066,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004609745470371622,
      "loss": 5.3268,
      "mean_token_accuracy": 0.17718621343374252,
      "num_tokens": 43293574.0,
      "step": 23460
    },
    {
      "entropy": 5.5410703182220455,
      "epoch": 1.9713925645872716,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004609576897321902,
      "loss": 5.1567,
      "mean_token_accuracy": 0.18253391236066818,
      "num_tokens": 43301989.0,
      "step": 23465
    },
    {
      "entropy": 5.649783420562744,
      "epoch": 1.9718126444024364,
      "grad_norm": 1.21875,
      "learning_rate": 0.00046094082913307336,
      "loss": 5.358,
      "mean_token_accuracy": 0.17399438023567199,
      "num_tokens": 43310934.0,
      "step": 23470
    },
    {
      "entropy": 5.576969957351684,
      "epoch": 1.9722327242176014,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004609239652401104,
      "loss": 5.2712,
      "mean_token_accuracy": 0.17430226355791092,
      "num_tokens": 43320703.0,
      "step": 23475
    },
    {
      "entropy": 5.605929708480835,
      "epoch": 1.9726528040327662,
      "grad_norm": 1.3125,
      "learning_rate": 0.00046090709805360027,
      "loss": 5.2428,
      "mean_token_accuracy": 0.1821880042552948,
      "num_tokens": 43329444.0,
      "step": 23480
    },
    {
      "entropy": 5.6519848823547365,
      "epoch": 1.973072883847931,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004608902275738416,
      "loss": 5.3677,
      "mean_token_accuracy": 0.18188654333353044,
      "num_tokens": 43337853.0,
      "step": 23485
    },
    {
      "entropy": 5.696072387695312,
      "epoch": 1.973492963663096,
      "grad_norm": 1.25,
      "learning_rate": 0.0004608733538011333,
      "loss": 5.4032,
      "mean_token_accuracy": 0.16969217211008072,
      "num_tokens": 43347901.0,
      "step": 23490
    },
    {
      "entropy": 5.601595401763916,
      "epoch": 1.973913043478261,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004608564767357741,
      "loss": 5.2628,
      "mean_token_accuracy": 0.17602366507053374,
      "num_tokens": 43357358.0,
      "step": 23495
    },
    {
      "entropy": 5.590727233886719,
      "epoch": 1.9743331232934258,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004608395963780632,
      "loss": 5.3724,
      "mean_token_accuracy": 0.17241780906915666,
      "num_tokens": 43366749.0,
      "step": 23500
    },
    {
      "entropy": 5.586251354217529,
      "epoch": 1.9747532031085906,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004608227127282996,
      "loss": 5.3251,
      "mean_token_accuracy": 0.17821072190999984,
      "num_tokens": 43375243.0,
      "step": 23505
    },
    {
      "entropy": 5.666031312942505,
      "epoch": 1.9751732829237554,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004608058257867823,
      "loss": 5.2887,
      "mean_token_accuracy": 0.18276388347148895,
      "num_tokens": 43383470.0,
      "step": 23510
    },
    {
      "entropy": 5.6554535865783695,
      "epoch": 1.9755933627389204,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004607889355538105,
      "loss": 5.4184,
      "mean_token_accuracy": 0.17027001827955246,
      "num_tokens": 43393527.0,
      "step": 23515
    },
    {
      "entropy": 5.604500722885132,
      "epoch": 1.9760134425540854,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00046077204202968325,
      "loss": 5.2812,
      "mean_token_accuracy": 0.17676235735416412,
      "num_tokens": 43402390.0,
      "step": 23520
    },
    {
      "entropy": 5.573892974853516,
      "epoch": 1.9764335223692502,
      "grad_norm": 1.484375,
      "learning_rate": 0.00046075514521470005,
      "loss": 5.2718,
      "mean_token_accuracy": 0.17329889982938768,
      "num_tokens": 43411479.0,
      "step": 23525
    },
    {
      "entropy": 5.554893112182617,
      "epoch": 1.976853602184415,
      "grad_norm": 1.1875,
      "learning_rate": 0.00046073824510916005,
      "loss": 5.2121,
      "mean_token_accuracy": 0.17935867458581925,
      "num_tokens": 43420402.0,
      "step": 23530
    },
    {
      "entropy": 5.622291040420532,
      "epoch": 1.9772736819995798,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00046072134171336267,
      "loss": 5.3531,
      "mean_token_accuracy": 0.16644867211580278,
      "num_tokens": 43429011.0,
      "step": 23535
    },
    {
      "entropy": 5.605536222457886,
      "epoch": 1.9776937618147448,
      "grad_norm": 1.25,
      "learning_rate": 0.0004607044350276074,
      "loss": 5.2344,
      "mean_token_accuracy": 0.17794644683599473,
      "num_tokens": 43438548.0,
      "step": 23540
    },
    {
      "entropy": 5.648398113250733,
      "epoch": 1.9781138416299098,
      "grad_norm": 1.234375,
      "learning_rate": 0.00046068752505219366,
      "loss": 5.3322,
      "mean_token_accuracy": 0.17605538964271544,
      "num_tokens": 43448332.0,
      "step": 23545
    },
    {
      "entropy": 5.653730773925782,
      "epoch": 1.9785339214450746,
      "grad_norm": 1.2734375,
      "learning_rate": 0.000460670611787421,
      "loss": 5.4006,
      "mean_token_accuracy": 0.17038846909999847,
      "num_tokens": 43457726.0,
      "step": 23550
    },
    {
      "entropy": 5.605834054946899,
      "epoch": 1.9789540012602393,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004606536952335891,
      "loss": 5.3285,
      "mean_token_accuracy": 0.17592835873365403,
      "num_tokens": 43466617.0,
      "step": 23555
    },
    {
      "entropy": 5.556175947189331,
      "epoch": 1.9793740810754044,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00046063677539099756,
      "loss": 5.3061,
      "mean_token_accuracy": 0.1715977743268013,
      "num_tokens": 43476044.0,
      "step": 23560
    },
    {
      "entropy": 5.579178810119629,
      "epoch": 1.9797941608905694,
      "grad_norm": 1.3125,
      "learning_rate": 0.00046061985225994616,
      "loss": 5.2886,
      "mean_token_accuracy": 0.17626330852508545,
      "num_tokens": 43485488.0,
      "step": 23565
    },
    {
      "entropy": 5.6485466957092285,
      "epoch": 1.9802142407057342,
      "grad_norm": 1.21875,
      "learning_rate": 0.00046060292584073465,
      "loss": 5.3135,
      "mean_token_accuracy": 0.17889403253793718,
      "num_tokens": 43494423.0,
      "step": 23570
    },
    {
      "entropy": 5.590170574188233,
      "epoch": 1.980634320520899,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00046058599613366287,
      "loss": 5.1856,
      "mean_token_accuracy": 0.1918771132826805,
      "num_tokens": 43502874.0,
      "step": 23575
    },
    {
      "entropy": 5.672195100784302,
      "epoch": 1.9810544003360637,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004605690631390308,
      "loss": 5.4446,
      "mean_token_accuracy": 0.16917974948883058,
      "num_tokens": 43512222.0,
      "step": 23580
    },
    {
      "entropy": 5.618256378173828,
      "epoch": 1.9814744801512287,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004605521268571382,
      "loss": 5.3509,
      "mean_token_accuracy": 0.17687894701957702,
      "num_tokens": 43521577.0,
      "step": 23585
    },
    {
      "entropy": 5.707334375381469,
      "epoch": 1.9818945599663937,
      "grad_norm": 1.296875,
      "learning_rate": 0.00046053518728828534,
      "loss": 5.3422,
      "mean_token_accuracy": 0.17523998022079468,
      "num_tokens": 43529763.0,
      "step": 23590
    },
    {
      "entropy": 5.680575227737426,
      "epoch": 1.9823146397815585,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004605182444327721,
      "loss": 5.3651,
      "mean_token_accuracy": 0.16793065816164016,
      "num_tokens": 43538663.0,
      "step": 23595
    },
    {
      "entropy": 5.517296218872071,
      "epoch": 1.9827347195967233,
      "grad_norm": 1.25,
      "learning_rate": 0.0004605012982908987,
      "loss": 5.1665,
      "mean_token_accuracy": 0.18656257838010787,
      "num_tokens": 43547302.0,
      "step": 23600
    },
    {
      "entropy": 5.56163215637207,
      "epoch": 1.983154799411888,
      "grad_norm": 1.3125,
      "learning_rate": 0.00046048434886296536,
      "loss": 5.3806,
      "mean_token_accuracy": 0.16650519967079164,
      "num_tokens": 43557222.0,
      "step": 23605
    },
    {
      "entropy": 5.647756576538086,
      "epoch": 1.9835748792270531,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004604673961492722,
      "loss": 5.2736,
      "mean_token_accuracy": 0.18116023987531663,
      "num_tokens": 43566210.0,
      "step": 23610
    },
    {
      "entropy": 5.562030267715454,
      "epoch": 1.9839949590422181,
      "grad_norm": 1.25,
      "learning_rate": 0.00046045044015011975,
      "loss": 5.2476,
      "mean_token_accuracy": 0.1800748810172081,
      "num_tokens": 43576275.0,
      "step": 23615
    },
    {
      "entropy": 5.579679298400879,
      "epoch": 1.984415038857383,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004604334808658081,
      "loss": 5.3723,
      "mean_token_accuracy": 0.17557549476623535,
      "num_tokens": 43585480.0,
      "step": 23620
    },
    {
      "entropy": 5.653260231018066,
      "epoch": 1.9848351186725477,
      "grad_norm": 1.53125,
      "learning_rate": 0.00046041651829663787,
      "loss": 5.3961,
      "mean_token_accuracy": 0.17293741554021835,
      "num_tokens": 43593911.0,
      "step": 23625
    },
    {
      "entropy": 5.6270537853240965,
      "epoch": 1.9852551984877127,
      "grad_norm": 1.375,
      "learning_rate": 0.00046039955244290957,
      "loss": 5.3168,
      "mean_token_accuracy": 0.17904412150382995,
      "num_tokens": 43604029.0,
      "step": 23630
    },
    {
      "entropy": 5.683732986450195,
      "epoch": 1.9856752783028777,
      "grad_norm": 1.78125,
      "learning_rate": 0.00046038258330492363,
      "loss": 5.3514,
      "mean_token_accuracy": 0.17994878441095352,
      "num_tokens": 43613248.0,
      "step": 23635
    },
    {
      "entropy": 5.647359848022461,
      "epoch": 1.9860953581180425,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004603656108829806,
      "loss": 5.3049,
      "mean_token_accuracy": 0.17984101325273513,
      "num_tokens": 43623232.0,
      "step": 23640
    },
    {
      "entropy": 5.658777713775635,
      "epoch": 1.9865154379332073,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00046034863517738136,
      "loss": 5.3651,
      "mean_token_accuracy": 0.16325145363807678,
      "num_tokens": 43632999.0,
      "step": 23645
    },
    {
      "entropy": 5.650898551940918,
      "epoch": 1.986935517748372,
      "grad_norm": 1.390625,
      "learning_rate": 0.00046033165618842637,
      "loss": 5.3269,
      "mean_token_accuracy": 0.17500171065330505,
      "num_tokens": 43641492.0,
      "step": 23650
    },
    {
      "entropy": 5.711059141159057,
      "epoch": 1.987355597563537,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00046031467391641657,
      "loss": 5.314,
      "mean_token_accuracy": 0.1773490861058235,
      "num_tokens": 43650999.0,
      "step": 23655
    },
    {
      "entropy": 5.643770027160644,
      "epoch": 1.987775677378702,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004602976883616527,
      "loss": 5.3811,
      "mean_token_accuracy": 0.16796135902404785,
      "num_tokens": 43660777.0,
      "step": 23660
    },
    {
      "entropy": 5.592342329025269,
      "epoch": 1.9881957571938669,
      "grad_norm": 1.375,
      "learning_rate": 0.00046028069952443575,
      "loss": 5.3036,
      "mean_token_accuracy": 0.17716382443904877,
      "num_tokens": 43670404.0,
      "step": 23665
    },
    {
      "entropy": 5.582193326950073,
      "epoch": 1.9886158370090317,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00046026370740506663,
      "loss": 5.2388,
      "mean_token_accuracy": 0.1850288465619087,
      "num_tokens": 43679183.0,
      "step": 23670
    },
    {
      "entropy": 5.575860261917114,
      "epoch": 1.9890359168241964,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004602467120038463,
      "loss": 5.26,
      "mean_token_accuracy": 0.17996072322130202,
      "num_tokens": 43688080.0,
      "step": 23675
    },
    {
      "entropy": 5.633952903747558,
      "epoch": 1.9894559966393615,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00046022971332107586,
      "loss": 5.2255,
      "mean_token_accuracy": 0.18307080417871474,
      "num_tokens": 43697271.0,
      "step": 23680
    },
    {
      "entropy": 5.565424203872681,
      "epoch": 1.9898760764545265,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00046021271135705637,
      "loss": 5.2542,
      "mean_token_accuracy": 0.183968748152256,
      "num_tokens": 43705541.0,
      "step": 23685
    },
    {
      "entropy": 5.609846735000611,
      "epoch": 1.9902961562696913,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004601957061120891,
      "loss": 5.3808,
      "mean_token_accuracy": 0.17398780435323716,
      "num_tokens": 43713701.0,
      "step": 23690
    },
    {
      "entropy": 5.566676950454712,
      "epoch": 1.990716236084856,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004601786975864753,
      "loss": 5.3329,
      "mean_token_accuracy": 0.18383182138204573,
      "num_tokens": 43723050.0,
      "step": 23695
    },
    {
      "entropy": 5.576835489273071,
      "epoch": 1.991136315900021,
      "grad_norm": 1.6875,
      "learning_rate": 0.0004601616857805162,
      "loss": 5.3136,
      "mean_token_accuracy": 0.180113722383976,
      "num_tokens": 43733029.0,
      "step": 23700
    },
    {
      "entropy": 5.5873369693756105,
      "epoch": 1.9915563957151858,
      "grad_norm": 1.75,
      "learning_rate": 0.0004601446706945132,
      "loss": 5.2822,
      "mean_token_accuracy": 0.1761482909321785,
      "num_tokens": 43741818.0,
      "step": 23705
    },
    {
      "entropy": 5.640828418731689,
      "epoch": 1.9919764755303508,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00046012765232876767,
      "loss": 5.3156,
      "mean_token_accuracy": 0.17892836183309554,
      "num_tokens": 43750755.0,
      "step": 23710
    },
    {
      "entropy": 5.56833963394165,
      "epoch": 1.9923965553455156,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004601106306835811,
      "loss": 5.2021,
      "mean_token_accuracy": 0.18445106595754623,
      "num_tokens": 43759135.0,
      "step": 23715
    },
    {
      "entropy": 5.560920858383179,
      "epoch": 1.9928166351606804,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004600936057592551,
      "loss": 5.1672,
      "mean_token_accuracy": 0.1868069976568222,
      "num_tokens": 43767629.0,
      "step": 23720
    },
    {
      "entropy": 5.553515100479126,
      "epoch": 1.9932367149758454,
      "grad_norm": 1.234375,
      "learning_rate": 0.00046007657755609113,
      "loss": 5.354,
      "mean_token_accuracy": 0.1743677958846092,
      "num_tokens": 43776561.0,
      "step": 23725
    },
    {
      "entropy": 5.648859310150146,
      "epoch": 1.9936567947910104,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004600595460743908,
      "loss": 5.4235,
      "mean_token_accuracy": 0.16585010588169097,
      "num_tokens": 43786569.0,
      "step": 23730
    },
    {
      "entropy": 5.628311204910278,
      "epoch": 1.9940768746061752,
      "grad_norm": 1.3203125,
      "learning_rate": 0.000460042511314456,
      "loss": 5.3687,
      "mean_token_accuracy": 0.16907652020454406,
      "num_tokens": 43795621.0,
      "step": 23735
    },
    {
      "entropy": 5.744281530380249,
      "epoch": 1.99449695442134,
      "grad_norm": 1.546875,
      "learning_rate": 0.00046002547327658847,
      "loss": 5.3597,
      "mean_token_accuracy": 0.1761852040886879,
      "num_tokens": 43804728.0,
      "step": 23740
    },
    {
      "entropy": 5.586940860748291,
      "epoch": 1.9949170342365048,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004600084319610898,
      "loss": 5.2577,
      "mean_token_accuracy": 0.18133593946695328,
      "num_tokens": 43813495.0,
      "step": 23745
    },
    {
      "entropy": 5.504205417633057,
      "epoch": 1.9953371140516698,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004599913873682621,
      "loss": 5.2068,
      "mean_token_accuracy": 0.1786206528544426,
      "num_tokens": 43823791.0,
      "step": 23750
    },
    {
      "entropy": 5.565213632583618,
      "epoch": 1.9957571938668348,
      "grad_norm": 1.265625,
      "learning_rate": 0.00045997433949840724,
      "loss": 5.2772,
      "mean_token_accuracy": 0.18052580058574677,
      "num_tokens": 43833904.0,
      "step": 23755
    },
    {
      "entropy": 5.663149499893189,
      "epoch": 1.9961772736819996,
      "grad_norm": 1.359375,
      "learning_rate": 0.00045995728835182716,
      "loss": 5.364,
      "mean_token_accuracy": 0.1738879531621933,
      "num_tokens": 43843430.0,
      "step": 23760
    },
    {
      "entropy": 5.670080518722534,
      "epoch": 1.9965973534971644,
      "grad_norm": 1.25,
      "learning_rate": 0.00045994023392882395,
      "loss": 5.3107,
      "mean_token_accuracy": 0.1848461866378784,
      "num_tokens": 43851405.0,
      "step": 23765
    },
    {
      "entropy": 5.584572267532349,
      "epoch": 1.9970174333123294,
      "grad_norm": 1.34375,
      "learning_rate": 0.00045992317622969977,
      "loss": 5.3923,
      "mean_token_accuracy": 0.17312257885932922,
      "num_tokens": 43860034.0,
      "step": 23770
    },
    {
      "entropy": 5.558753299713135,
      "epoch": 1.9974375131274942,
      "grad_norm": 1.265625,
      "learning_rate": 0.00045990611525475675,
      "loss": 5.3231,
      "mean_token_accuracy": 0.17416706085205078,
      "num_tokens": 43869371.0,
      "step": 23775
    },
    {
      "entropy": 5.634297561645508,
      "epoch": 1.9978575929426592,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004598890510042971,
      "loss": 5.3685,
      "mean_token_accuracy": 0.1768188074231148,
      "num_tokens": 43878462.0,
      "step": 23780
    },
    {
      "entropy": 5.6588939189910885,
      "epoch": 1.998277672757824,
      "grad_norm": 1.296875,
      "learning_rate": 0.000459871983478623,
      "loss": 5.2981,
      "mean_token_accuracy": 0.17682368606328963,
      "num_tokens": 43887435.0,
      "step": 23785
    },
    {
      "entropy": 5.586805820465088,
      "epoch": 1.9986977525729888,
      "grad_norm": 1.234375,
      "learning_rate": 0.00045985491267803703,
      "loss": 5.3459,
      "mean_token_accuracy": 0.1741949737071991,
      "num_tokens": 43896720.0,
      "step": 23790
    },
    {
      "entropy": 5.552562236785889,
      "epoch": 1.9991178323881538,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00045983783860284146,
      "loss": 5.3472,
      "mean_token_accuracy": 0.1720125764608383,
      "num_tokens": 43906403.0,
      "step": 23795
    },
    {
      "entropy": 5.672985076904297,
      "epoch": 1.9995379122033188,
      "grad_norm": 1.359375,
      "learning_rate": 0.00045982076125333874,
      "loss": 5.3871,
      "mean_token_accuracy": 0.16746917366981506,
      "num_tokens": 43915059.0,
      "step": 23800
    },
    {
      "entropy": 5.748750972747803,
      "epoch": 1.9999579920184836,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00045980368062983147,
      "loss": 5.4214,
      "mean_token_accuracy": 0.17349109947681426,
      "num_tokens": 43925598.0,
      "step": 23805
    },
    {
      "entropy": 5.655678378211127,
      "epoch": 2.000336063852132,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004597865967326221,
      "loss": 5.2086,
      "mean_token_accuracy": 0.18223923444747925,
      "num_tokens": 43934471.0,
      "step": 23810
    },
    {
      "entropy": 5.576621007919312,
      "epoch": 2.0007561436672967,
      "grad_norm": 1.421875,
      "learning_rate": 0.00045976950956201325,
      "loss": 5.3083,
      "mean_token_accuracy": 0.17662405222654343,
      "num_tokens": 43944451.0,
      "step": 23815
    },
    {
      "entropy": 5.652852296829224,
      "epoch": 2.0011762234824615,
      "grad_norm": 1.734375,
      "learning_rate": 0.0004597524191183078,
      "loss": 5.2708,
      "mean_token_accuracy": 0.18469424694776534,
      "num_tokens": 43953892.0,
      "step": 23820
    },
    {
      "entropy": 5.648382472991943,
      "epoch": 2.0015963032976267,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004597353254018082,
      "loss": 5.3562,
      "mean_token_accuracy": 0.17324745506048203,
      "num_tokens": 43963155.0,
      "step": 23825
    },
    {
      "entropy": 5.600753879547119,
      "epoch": 2.0020163831127915,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004597182284128177,
      "loss": 5.2033,
      "mean_token_accuracy": 0.18439362943172455,
      "num_tokens": 43972468.0,
      "step": 23830
    },
    {
      "entropy": 5.721098184585571,
      "epoch": 2.0024364629279563,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004597011281516387,
      "loss": 5.4567,
      "mean_token_accuracy": 0.16708213537931443,
      "num_tokens": 43982709.0,
      "step": 23835
    },
    {
      "entropy": 5.576871728897094,
      "epoch": 2.002856542743121,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00045968402461857435,
      "loss": 5.2333,
      "mean_token_accuracy": 0.18440057784318925,
      "num_tokens": 43992607.0,
      "step": 23840
    },
    {
      "entropy": 5.603885555267334,
      "epoch": 2.003276622558286,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00045966691781392763,
      "loss": 5.1848,
      "mean_token_accuracy": 0.18089883625507355,
      "num_tokens": 44001265.0,
      "step": 23845
    },
    {
      "entropy": 5.653714561462403,
      "epoch": 2.003696702373451,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00045964980773800156,
      "loss": 5.4064,
      "mean_token_accuracy": 0.1741128757596016,
      "num_tokens": 44010440.0,
      "step": 23850
    },
    {
      "entropy": 5.640526151657104,
      "epoch": 2.004116782188616,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004596326943910993,
      "loss": 5.2281,
      "mean_token_accuracy": 0.17560428082942964,
      "num_tokens": 44020237.0,
      "step": 23855
    },
    {
      "entropy": 5.618943929672241,
      "epoch": 2.0045368620037807,
      "grad_norm": 1.203125,
      "learning_rate": 0.00045961557777352376,
      "loss": 5.3358,
      "mean_token_accuracy": 0.17574749439954757,
      "num_tokens": 44028976.0,
      "step": 23860
    },
    {
      "entropy": 5.63735933303833,
      "epoch": 2.0049569418189455,
      "grad_norm": 1.453125,
      "learning_rate": 0.00045959845788557844,
      "loss": 5.2992,
      "mean_token_accuracy": 0.17881839573383332,
      "num_tokens": 44038186.0,
      "step": 23865
    },
    {
      "entropy": 5.616828918457031,
      "epoch": 2.0053770216341107,
      "grad_norm": 1.8125,
      "learning_rate": 0.0004595813347275665,
      "loss": 5.2725,
      "mean_token_accuracy": 0.17441747933626175,
      "num_tokens": 44047780.0,
      "step": 23870
    },
    {
      "entropy": 5.60105562210083,
      "epoch": 2.0057971014492755,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004595642082997912,
      "loss": 5.211,
      "mean_token_accuracy": 0.18210149556398392,
      "num_tokens": 44056678.0,
      "step": 23875
    },
    {
      "entropy": 5.614001226425171,
      "epoch": 2.0062171812644403,
      "grad_norm": 1.2734375,
      "learning_rate": 0.000459547078602556,
      "loss": 5.2657,
      "mean_token_accuracy": 0.17585084587335587,
      "num_tokens": 44066428.0,
      "step": 23880
    },
    {
      "entropy": 5.570787191390991,
      "epoch": 2.006637261079605,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00045952994563616434,
      "loss": 5.2614,
      "mean_token_accuracy": 0.1772843211889267,
      "num_tokens": 44075285.0,
      "step": 23885
    },
    {
      "entropy": 5.624676752090454,
      "epoch": 2.00705734089477,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004595128094009197,
      "loss": 5.2494,
      "mean_token_accuracy": 0.1796739473938942,
      "num_tokens": 44084333.0,
      "step": 23890
    },
    {
      "entropy": 5.634045553207398,
      "epoch": 2.007477420709935,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004594956698971256,
      "loss": 5.2697,
      "mean_token_accuracy": 0.17147087454795837,
      "num_tokens": 44093504.0,
      "step": 23895
    },
    {
      "entropy": 5.668183422088623,
      "epoch": 2.0078975005251,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004594785271250858,
      "loss": 5.2788,
      "mean_token_accuracy": 0.17484120875597,
      "num_tokens": 44102887.0,
      "step": 23900
    },
    {
      "entropy": 5.561066436767578,
      "epoch": 2.0083175803402646,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004594613810851039,
      "loss": 5.2687,
      "mean_token_accuracy": 0.1750637874007225,
      "num_tokens": 44113074.0,
      "step": 23905
    },
    {
      "entropy": 5.519744539260865,
      "epoch": 2.0087376601554294,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00045944423177748353,
      "loss": 5.2696,
      "mean_token_accuracy": 0.18134041875600815,
      "num_tokens": 44122557.0,
      "step": 23910
    },
    {
      "entropy": 5.658271312713623,
      "epoch": 2.009157739970594,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00045942707920252864,
      "loss": 5.2783,
      "mean_token_accuracy": 0.17392106503248214,
      "num_tokens": 44130198.0,
      "step": 23915
    },
    {
      "entropy": 5.630684757232666,
      "epoch": 2.0095778197857594,
      "grad_norm": 1.4921875,
      "learning_rate": 0.000459409923360543,
      "loss": 5.2459,
      "mean_token_accuracy": 0.18495004624128342,
      "num_tokens": 44139267.0,
      "step": 23920
    },
    {
      "entropy": 5.597193384170533,
      "epoch": 2.0099978996009242,
      "grad_norm": 1.375,
      "learning_rate": 0.0004593927642518305,
      "loss": 5.3217,
      "mean_token_accuracy": 0.17152093052864076,
      "num_tokens": 44149620.0,
      "step": 23925
    },
    {
      "entropy": 5.581966161727905,
      "epoch": 2.010417979416089,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004593756018766951,
      "loss": 5.1661,
      "mean_token_accuracy": 0.18001709878444672,
      "num_tokens": 44158678.0,
      "step": 23930
    },
    {
      "entropy": 5.503856134414673,
      "epoch": 2.010838059231254,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00045935843623544093,
      "loss": 5.1473,
      "mean_token_accuracy": 0.18169627338647842,
      "num_tokens": 44167376.0,
      "step": 23935
    },
    {
      "entropy": 5.6009259700775145,
      "epoch": 2.011258139046419,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004593412673283719,
      "loss": 5.275,
      "mean_token_accuracy": 0.17766901403665541,
      "num_tokens": 44176001.0,
      "step": 23940
    },
    {
      "entropy": 5.688672161102295,
      "epoch": 2.011678218861584,
      "grad_norm": 1.609375,
      "learning_rate": 0.00045932409515579226,
      "loss": 5.3321,
      "mean_token_accuracy": 0.17283178567886354,
      "num_tokens": 44185132.0,
      "step": 23945
    },
    {
      "entropy": 5.570486927032471,
      "epoch": 2.0120982986767486,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00045930691971800627,
      "loss": 5.2738,
      "mean_token_accuracy": 0.1786741316318512,
      "num_tokens": 44193256.0,
      "step": 23950
    },
    {
      "entropy": 5.657260227203369,
      "epoch": 2.0125183784919134,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00045928974101531805,
      "loss": 5.37,
      "mean_token_accuracy": 0.17304892987012863,
      "num_tokens": 44202884.0,
      "step": 23955
    },
    {
      "entropy": 5.7106156826019285,
      "epoch": 2.012938458307078,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004592725590480319,
      "loss": 5.3492,
      "mean_token_accuracy": 0.16924804002046584,
      "num_tokens": 44212826.0,
      "step": 23960
    },
    {
      "entropy": 5.6548271656036375,
      "epoch": 2.0133585381222434,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004592553738164524,
      "loss": 5.3199,
      "mean_token_accuracy": 0.16807449012994766,
      "num_tokens": 44222369.0,
      "step": 23965
    },
    {
      "entropy": 5.565683746337891,
      "epoch": 2.013778617937408,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004592381853208837,
      "loss": 5.2165,
      "mean_token_accuracy": 0.17430078536272048,
      "num_tokens": 44230964.0,
      "step": 23970
    },
    {
      "entropy": 5.604999732971192,
      "epoch": 2.014198697752573,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004592209935616304,
      "loss": 5.289,
      "mean_token_accuracy": 0.17769130319356918,
      "num_tokens": 44240199.0,
      "step": 23975
    },
    {
      "entropy": 5.645999479293823,
      "epoch": 2.0146187775677378,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004592037985389971,
      "loss": 5.2669,
      "mean_token_accuracy": 0.18346799314022064,
      "num_tokens": 44249857.0,
      "step": 23980
    },
    {
      "entropy": 5.532536315917969,
      "epoch": 2.0150388573829026,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004591866002532885,
      "loss": 5.2317,
      "mean_token_accuracy": 0.17959018796682358,
      "num_tokens": 44258364.0,
      "step": 23985
    },
    {
      "entropy": 5.497239446640014,
      "epoch": 2.015458937198068,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00045916939870480896,
      "loss": 5.1629,
      "mean_token_accuracy": 0.18248820006847383,
      "num_tokens": 44267473.0,
      "step": 23990
    },
    {
      "entropy": 5.64896559715271,
      "epoch": 2.0158790170132326,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00045915219389386336,
      "loss": 5.2054,
      "mean_token_accuracy": 0.1814291298389435,
      "num_tokens": 44276665.0,
      "step": 23995
    },
    {
      "entropy": 5.596774005889893,
      "epoch": 2.0162990968283974,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004591349858207565,
      "loss": 5.2614,
      "mean_token_accuracy": 0.1755758687853813,
      "num_tokens": 44285928.0,
      "step": 24000
    },
    {
      "epoch": 2.0162990968283974,
      "eval_entropy": 5.367871912509312,
      "eval_loss": 5.36544132232666,
      "eval_mean_token_accuracy": 0.18292493719046923,
      "eval_num_tokens": 44285928.0,
      "eval_runtime": 27.3301,
      "eval_samples_per_second": 1367.212,
      "eval_steps_per_second": 170.911,
      "step": 24000
    },
    {
      "entropy": 5.547198009490967,
      "epoch": 2.016719176643562,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00045911777448579325,
      "loss": 5.1799,
      "mean_token_accuracy": 0.17578674405813216,
      "num_tokens": 44295189.0,
      "step": 24005
    },
    {
      "entropy": 5.6699323654174805,
      "epoch": 2.0171392564587274,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00045910055988927827,
      "loss": 5.2801,
      "mean_token_accuracy": 0.16865016520023346,
      "num_tokens": 44305757.0,
      "step": 24010
    },
    {
      "entropy": 5.63278431892395,
      "epoch": 2.017559336273892,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004590833420315169,
      "loss": 5.3092,
      "mean_token_accuracy": 0.1734371855854988,
      "num_tokens": 44314661.0,
      "step": 24015
    },
    {
      "entropy": 5.629232025146484,
      "epoch": 2.017979416089057,
      "grad_norm": 1.203125,
      "learning_rate": 0.00045906612091281367,
      "loss": 5.3656,
      "mean_token_accuracy": 0.17280834913253784,
      "num_tokens": 44324056.0,
      "step": 24020
    },
    {
      "entropy": 5.581196117401123,
      "epoch": 2.0183994959042217,
      "grad_norm": 1.7890625,
      "learning_rate": 0.000459048896533474,
      "loss": 5.1935,
      "mean_token_accuracy": 0.1837822303175926,
      "num_tokens": 44332750.0,
      "step": 24025
    },
    {
      "entropy": 5.649400472640991,
      "epoch": 2.0188195757193865,
      "grad_norm": 2.09375,
      "learning_rate": 0.00045903166889380286,
      "loss": 5.2718,
      "mean_token_accuracy": 0.1836818978190422,
      "num_tokens": 44341808.0,
      "step": 24030
    },
    {
      "entropy": 5.5764326572418215,
      "epoch": 2.0192396555345518,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004590144379941056,
      "loss": 5.2137,
      "mean_token_accuracy": 0.18059901446104049,
      "num_tokens": 44350740.0,
      "step": 24035
    },
    {
      "entropy": 5.644490194320679,
      "epoch": 2.0196597353497165,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004589972038346872,
      "loss": 5.3451,
      "mean_token_accuracy": 0.17280317842960358,
      "num_tokens": 44360100.0,
      "step": 24040
    },
    {
      "entropy": 5.608764696121216,
      "epoch": 2.0200798151648813,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004589799664158531,
      "loss": 5.2195,
      "mean_token_accuracy": 0.1771597906947136,
      "num_tokens": 44369448.0,
      "step": 24045
    },
    {
      "entropy": 5.615919065475464,
      "epoch": 2.020499894980046,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004589627257379086,
      "loss": 5.2111,
      "mean_token_accuracy": 0.18454076796770097,
      "num_tokens": 44378286.0,
      "step": 24050
    },
    {
      "entropy": 5.734293460845947,
      "epoch": 2.020919974795211,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004589454818011592,
      "loss": 5.4791,
      "mean_token_accuracy": 0.1744095802307129,
      "num_tokens": 44389419.0,
      "step": 24055
    },
    {
      "entropy": 5.809099245071411,
      "epoch": 2.021340054610376,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00045892823460591027,
      "loss": 5.3885,
      "mean_token_accuracy": 0.1690013125538826,
      "num_tokens": 44400509.0,
      "step": 24060
    },
    {
      "entropy": 5.690751838684082,
      "epoch": 2.021760134425541,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00045891098415246735,
      "loss": 5.319,
      "mean_token_accuracy": 0.1846296086907387,
      "num_tokens": 44409638.0,
      "step": 24065
    },
    {
      "entropy": 5.523965120315552,
      "epoch": 2.0221802142407057,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004588937304411361,
      "loss": 5.1556,
      "mean_token_accuracy": 0.19043973088264465,
      "num_tokens": 44418367.0,
      "step": 24070
    },
    {
      "entropy": 5.5059168338775635,
      "epoch": 2.0226002940558705,
      "grad_norm": 1.5,
      "learning_rate": 0.00045887647347222214,
      "loss": 5.2135,
      "mean_token_accuracy": 0.1830606609582901,
      "num_tokens": 44427267.0,
      "step": 24075
    },
    {
      "entropy": 5.559287595748901,
      "epoch": 2.0230203738710353,
      "grad_norm": 1.6484375,
      "learning_rate": 0.000458859213246031,
      "loss": 5.2196,
      "mean_token_accuracy": 0.1776636451482773,
      "num_tokens": 44437301.0,
      "step": 24080
    },
    {
      "entropy": 5.634955644607544,
      "epoch": 2.0234404536862005,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004588419497628687,
      "loss": 5.2968,
      "mean_token_accuracy": 0.1766063615679741,
      "num_tokens": 44447041.0,
      "step": 24085
    },
    {
      "entropy": 5.609903192520141,
      "epoch": 2.0238605335013653,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004588246830230409,
      "loss": 5.2261,
      "mean_token_accuracy": 0.18524211645126343,
      "num_tokens": 44456366.0,
      "step": 24090
    },
    {
      "entropy": 5.540090465545655,
      "epoch": 2.02428061331653,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004588074130268535,
      "loss": 5.176,
      "mean_token_accuracy": 0.1828553184866905,
      "num_tokens": 44465092.0,
      "step": 24095
    },
    {
      "entropy": 5.540627384185791,
      "epoch": 2.024700693131695,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004587901397746124,
      "loss": 5.2379,
      "mean_token_accuracy": 0.17787513136863708,
      "num_tokens": 44474202.0,
      "step": 24100
    },
    {
      "entropy": 5.616023969650269,
      "epoch": 2.02512077294686,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004587728632666236,
      "loss": 5.2912,
      "mean_token_accuracy": 0.1758767321705818,
      "num_tokens": 44483466.0,
      "step": 24105
    },
    {
      "entropy": 5.508447265625,
      "epoch": 2.025540852762025,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004587555835031931,
      "loss": 5.1665,
      "mean_token_accuracy": 0.18431055396795273,
      "num_tokens": 44492046.0,
      "step": 24110
    },
    {
      "entropy": 5.603876447677612,
      "epoch": 2.0259609325771897,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004587383004846272,
      "loss": 5.2787,
      "mean_token_accuracy": 0.1779337167739868,
      "num_tokens": 44502657.0,
      "step": 24115
    },
    {
      "entropy": 5.603549575805664,
      "epoch": 2.0263810123923545,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004587210142112318,
      "loss": 5.1824,
      "mean_token_accuracy": 0.18579547554254533,
      "num_tokens": 44512144.0,
      "step": 24120
    },
    {
      "entropy": 5.633194398880005,
      "epoch": 2.0268010922075193,
      "grad_norm": 1.375,
      "learning_rate": 0.0004587037246833133,
      "loss": 5.2885,
      "mean_token_accuracy": 0.1768673151731491,
      "num_tokens": 44522193.0,
      "step": 24125
    },
    {
      "entropy": 5.537853193283081,
      "epoch": 2.0272211720226845,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004586864319011779,
      "loss": 5.2306,
      "mean_token_accuracy": 0.1806334897875786,
      "num_tokens": 44531112.0,
      "step": 24130
    },
    {
      "entropy": 5.543118286132812,
      "epoch": 2.0276412518378493,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00045866913586513184,
      "loss": 5.2051,
      "mean_token_accuracy": 0.17370024025440217,
      "num_tokens": 44540558.0,
      "step": 24135
    },
    {
      "entropy": 5.536597633361817,
      "epoch": 2.028061331653014,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004586518365754818,
      "loss": 5.1708,
      "mean_token_accuracy": 0.18410587012767793,
      "num_tokens": 44549592.0,
      "step": 24140
    },
    {
      "entropy": 5.607353973388672,
      "epoch": 2.028481411468179,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00045863453403253393,
      "loss": 5.2695,
      "mean_token_accuracy": 0.18470604121685028,
      "num_tokens": 44559551.0,
      "step": 24145
    },
    {
      "entropy": 5.574996376037598,
      "epoch": 2.0289014912833436,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00045861722823659486,
      "loss": 5.2586,
      "mean_token_accuracy": 0.18054926246404648,
      "num_tokens": 44568425.0,
      "step": 24150
    },
    {
      "entropy": 5.607260084152221,
      "epoch": 2.029321571098509,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00045859991918797114,
      "loss": 5.3142,
      "mean_token_accuracy": 0.1733692318201065,
      "num_tokens": 44577706.0,
      "step": 24155
    },
    {
      "entropy": 5.5430628776550295,
      "epoch": 2.0297416509136736,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00045858260688696947,
      "loss": 5.1862,
      "mean_token_accuracy": 0.187653811275959,
      "num_tokens": 44586926.0,
      "step": 24160
    },
    {
      "entropy": 5.683307456970215,
      "epoch": 2.0301617307288384,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00045856529133389627,
      "loss": 5.3296,
      "mean_token_accuracy": 0.1773688718676567,
      "num_tokens": 44596541.0,
      "step": 24165
    },
    {
      "entropy": 5.569686985015869,
      "epoch": 2.030581810544003,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0004585479725290586,
      "loss": 5.2622,
      "mean_token_accuracy": 0.17936534583568572,
      "num_tokens": 44605111.0,
      "step": 24170
    },
    {
      "entropy": 5.682144069671631,
      "epoch": 2.0310018903591684,
      "grad_norm": 1.484375,
      "learning_rate": 0.00045853065047276307,
      "loss": 5.39,
      "mean_token_accuracy": 0.16775617450475694,
      "num_tokens": 44614849.0,
      "step": 24175
    },
    {
      "entropy": 5.555472469329834,
      "epoch": 2.0314219701743332,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00045851332516531657,
      "loss": 5.2345,
      "mean_token_accuracy": 0.1785706177353859,
      "num_tokens": 44623903.0,
      "step": 24180
    },
    {
      "entropy": 5.601112365722656,
      "epoch": 2.031842049989498,
      "grad_norm": 1.609375,
      "learning_rate": 0.000458495996607026,
      "loss": 5.3023,
      "mean_token_accuracy": 0.18058844059705734,
      "num_tokens": 44633113.0,
      "step": 24185
    },
    {
      "entropy": 5.6840087890625,
      "epoch": 2.032262129804663,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004584786647981984,
      "loss": 5.2398,
      "mean_token_accuracy": 0.1774070978164673,
      "num_tokens": 44642121.0,
      "step": 24190
    },
    {
      "entropy": 5.639707565307617,
      "epoch": 2.0326822096198276,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004584613297391407,
      "loss": 5.3084,
      "mean_token_accuracy": 0.1769252374768257,
      "num_tokens": 44651836.0,
      "step": 24195
    },
    {
      "entropy": 5.504292249679565,
      "epoch": 2.033102289434993,
      "grad_norm": 1.5,
      "learning_rate": 0.0004584439914301599,
      "loss": 5.211,
      "mean_token_accuracy": 0.18195144683122635,
      "num_tokens": 44660606.0,
      "step": 24200
    },
    {
      "entropy": 5.660473585128784,
      "epoch": 2.0335223692501576,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004584266498715634,
      "loss": 5.3018,
      "mean_token_accuracy": 0.18573526591062545,
      "num_tokens": 44669753.0,
      "step": 24205
    },
    {
      "entropy": 5.532284736633301,
      "epoch": 2.0339424490653224,
      "grad_norm": 1.3125,
      "learning_rate": 0.00045840930506365815,
      "loss": 5.1065,
      "mean_token_accuracy": 0.1906411573290825,
      "num_tokens": 44677795.0,
      "step": 24210
    },
    {
      "entropy": 5.488926649093628,
      "epoch": 2.034362528880487,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00045839195700675156,
      "loss": 5.2022,
      "mean_token_accuracy": 0.1773375689983368,
      "num_tokens": 44687706.0,
      "step": 24215
    },
    {
      "entropy": 5.593937540054322,
      "epoch": 2.034782608695652,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004583746057011509,
      "loss": 5.2676,
      "mean_token_accuracy": 0.18201111853122712,
      "num_tokens": 44696238.0,
      "step": 24220
    },
    {
      "entropy": 5.57894229888916,
      "epoch": 2.035202688510817,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00045835725114716345,
      "loss": 5.2056,
      "mean_token_accuracy": 0.18221679478883743,
      "num_tokens": 44705461.0,
      "step": 24225
    },
    {
      "entropy": 5.608894777297974,
      "epoch": 2.035622768325982,
      "grad_norm": 1.5,
      "learning_rate": 0.0004583398933450967,
      "loss": 5.2933,
      "mean_token_accuracy": 0.17664034068584442,
      "num_tokens": 44714469.0,
      "step": 24230
    },
    {
      "entropy": 5.521838426589966,
      "epoch": 2.0360428481411468,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004583225322952583,
      "loss": 5.2264,
      "mean_token_accuracy": 0.1818587824702263,
      "num_tokens": 44723681.0,
      "step": 24235
    },
    {
      "entropy": 5.506476306915284,
      "epoch": 2.0364629279563116,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004583051679979555,
      "loss": 5.131,
      "mean_token_accuracy": 0.18167947977781296,
      "num_tokens": 44732521.0,
      "step": 24240
    },
    {
      "entropy": 5.654992389678955,
      "epoch": 2.036883007771477,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004582878004534961,
      "loss": 5.3104,
      "mean_token_accuracy": 0.17519648522138595,
      "num_tokens": 44741513.0,
      "step": 24245
    },
    {
      "entropy": 5.574043798446655,
      "epoch": 2.0373030875866416,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00045827042966218765,
      "loss": 5.1702,
      "mean_token_accuracy": 0.18803810626268386,
      "num_tokens": 44750279.0,
      "step": 24250
    },
    {
      "entropy": 5.631833887100219,
      "epoch": 2.0377231674018064,
      "grad_norm": 1.25,
      "learning_rate": 0.0004582530556243379,
      "loss": 5.3556,
      "mean_token_accuracy": 0.17209858745336531,
      "num_tokens": 44758787.0,
      "step": 24255
    },
    {
      "entropy": 5.550130033493042,
      "epoch": 2.038143247216971,
      "grad_norm": 1.171875,
      "learning_rate": 0.00045823567834025477,
      "loss": 5.1832,
      "mean_token_accuracy": 0.18492345809936522,
      "num_tokens": 44767247.0,
      "step": 24260
    },
    {
      "entropy": 5.5407429218292235,
      "epoch": 2.038563327032136,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00045821829781024574,
      "loss": 5.2758,
      "mean_token_accuracy": 0.17503501921892167,
      "num_tokens": 44776568.0,
      "step": 24265
    },
    {
      "entropy": 5.659013080596924,
      "epoch": 2.038983406847301,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00045820091403461907,
      "loss": 5.2859,
      "mean_token_accuracy": 0.17466632425785064,
      "num_tokens": 44785757.0,
      "step": 24270
    },
    {
      "entropy": 5.659544038772583,
      "epoch": 2.039403486662466,
      "grad_norm": 1.390625,
      "learning_rate": 0.00045818352701368245,
      "loss": 5.2727,
      "mean_token_accuracy": 0.1770676776766777,
      "num_tokens": 44794390.0,
      "step": 24275
    },
    {
      "entropy": 5.6429661273956295,
      "epoch": 2.0398235664776307,
      "grad_norm": 1.265625,
      "learning_rate": 0.00045816613674774396,
      "loss": 5.272,
      "mean_token_accuracy": 0.17880156636238098,
      "num_tokens": 44802909.0,
      "step": 24280
    },
    {
      "entropy": 5.5584794044494625,
      "epoch": 2.0402436462927955,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00045814874323711174,
      "loss": 5.2579,
      "mean_token_accuracy": 0.17701417952775955,
      "num_tokens": 44811844.0,
      "step": 24285
    },
    {
      "entropy": 5.579387903213501,
      "epoch": 2.0406637261079603,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004581313464820938,
      "loss": 5.224,
      "mean_token_accuracy": 0.18189171254634856,
      "num_tokens": 44820661.0,
      "step": 24290
    },
    {
      "entropy": 5.598335409164429,
      "epoch": 2.0410838059231255,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004581139464829985,
      "loss": 5.3001,
      "mean_token_accuracy": 0.17443491220474244,
      "num_tokens": 44830185.0,
      "step": 24295
    },
    {
      "entropy": 5.525862836837769,
      "epoch": 2.0415038857382903,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004580965432401337,
      "loss": 5.2292,
      "mean_token_accuracy": 0.1720554530620575,
      "num_tokens": 44839546.0,
      "step": 24300
    },
    {
      "entropy": 5.619019174575806,
      "epoch": 2.041923965553455,
      "grad_norm": 1.3671875,
      "learning_rate": 0.000458079136753808,
      "loss": 5.2395,
      "mean_token_accuracy": 0.18147525787353516,
      "num_tokens": 44848824.0,
      "step": 24305
    },
    {
      "entropy": 5.597463607788086,
      "epoch": 2.04234404536862,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00045806172702432974,
      "loss": 5.1322,
      "mean_token_accuracy": 0.18537592142820358,
      "num_tokens": 44857110.0,
      "step": 24310
    },
    {
      "entropy": 5.6146728038787845,
      "epoch": 2.042764125183785,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00045804431405200717,
      "loss": 5.3111,
      "mean_token_accuracy": 0.17630538642406463,
      "num_tokens": 44866429.0,
      "step": 24315
    },
    {
      "entropy": 5.604744958877563,
      "epoch": 2.04318420499895,
      "grad_norm": 1.53125,
      "learning_rate": 0.00045802689783714886,
      "loss": 5.3285,
      "mean_token_accuracy": 0.18543607443571092,
      "num_tokens": 44874893.0,
      "step": 24320
    },
    {
      "entropy": 5.618938875198364,
      "epoch": 2.0436042848141147,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00045800947838006326,
      "loss": 5.2753,
      "mean_token_accuracy": 0.17954709827899934,
      "num_tokens": 44883778.0,
      "step": 24325
    },
    {
      "entropy": 5.762475633621216,
      "epoch": 2.0440243646292795,
      "grad_norm": 1.375,
      "learning_rate": 0.00045799205568105905,
      "loss": 5.4193,
      "mean_token_accuracy": 0.17269287556409835,
      "num_tokens": 44892996.0,
      "step": 24330
    },
    {
      "entropy": 5.613789749145508,
      "epoch": 2.0444444444444443,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00045797462974044473,
      "loss": 5.3067,
      "mean_token_accuracy": 0.17316460013389587,
      "num_tokens": 44901752.0,
      "step": 24335
    },
    {
      "entropy": 5.5570014953613285,
      "epoch": 2.0448645242596095,
      "grad_norm": 1.328125,
      "learning_rate": 0.00045795720055852914,
      "loss": 5.3307,
      "mean_token_accuracy": 0.173863685131073,
      "num_tokens": 44912078.0,
      "step": 24340
    },
    {
      "entropy": 5.74636754989624,
      "epoch": 2.0452846040747743,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004579397681356209,
      "loss": 5.3918,
      "mean_token_accuracy": 0.17582904547452927,
      "num_tokens": 44921849.0,
      "step": 24345
    },
    {
      "entropy": 5.5927094459533695,
      "epoch": 2.045704683889939,
      "grad_norm": 1.234375,
      "learning_rate": 0.00045792233247202884,
      "loss": 5.256,
      "mean_token_accuracy": 0.18364642411470414,
      "num_tokens": 44931696.0,
      "step": 24350
    },
    {
      "entropy": 5.595045566558838,
      "epoch": 2.046124763705104,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00045790489356806196,
      "loss": 5.3158,
      "mean_token_accuracy": 0.16346665918827058,
      "num_tokens": 44940702.0,
      "step": 24355
    },
    {
      "entropy": 5.571346759796143,
      "epoch": 2.0465448435202687,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00045788745142402894,
      "loss": 5.2469,
      "mean_token_accuracy": 0.18071057498455048,
      "num_tokens": 44950468.0,
      "step": 24360
    },
    {
      "entropy": 5.540919160842895,
      "epoch": 2.046964923335434,
      "grad_norm": 1.25,
      "learning_rate": 0.000457870006040239,
      "loss": 5.2084,
      "mean_token_accuracy": 0.1836441695690155,
      "num_tokens": 44960524.0,
      "step": 24365
    },
    {
      "entropy": 5.524257040023803,
      "epoch": 2.0473850031505987,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00045785255741700103,
      "loss": 5.2135,
      "mean_token_accuracy": 0.18240212500095368,
      "num_tokens": 44969542.0,
      "step": 24370
    },
    {
      "entropy": 5.4971319198608395,
      "epoch": 2.0478050829657635,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004578351055546241,
      "loss": 5.2083,
      "mean_token_accuracy": 0.18493734896183014,
      "num_tokens": 44979033.0,
      "step": 24375
    },
    {
      "entropy": 5.564803266525269,
      "epoch": 2.0482251627809283,
      "grad_norm": 1.359375,
      "learning_rate": 0.00045781765045341743,
      "loss": 5.195,
      "mean_token_accuracy": 0.18086472451686858,
      "num_tokens": 44987775.0,
      "step": 24380
    },
    {
      "entropy": 5.5898120403289795,
      "epoch": 2.048645242596093,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004578001921136903,
      "loss": 5.1956,
      "mean_token_accuracy": 0.18378211110830306,
      "num_tokens": 44996232.0,
      "step": 24385
    },
    {
      "entropy": 5.551340389251709,
      "epoch": 2.0490653224112583,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004577827305357519,
      "loss": 5.2381,
      "mean_token_accuracy": 0.17852113395929337,
      "num_tokens": 45005923.0,
      "step": 24390
    },
    {
      "entropy": 5.616467809677124,
      "epoch": 2.049485402226423,
      "grad_norm": 1.25,
      "learning_rate": 0.00045776526571991147,
      "loss": 5.222,
      "mean_token_accuracy": 0.17782387733459473,
      "num_tokens": 45014684.0,
      "step": 24395
    },
    {
      "entropy": 5.542737054824829,
      "epoch": 2.049905482041588,
      "grad_norm": 1.375,
      "learning_rate": 0.00045774779766647854,
      "loss": 5.2072,
      "mean_token_accuracy": 0.17807988375425338,
      "num_tokens": 45023729.0,
      "step": 24400
    },
    {
      "entropy": 5.695405006408691,
      "epoch": 2.0503255618567526,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004577303263757624,
      "loss": 5.356,
      "mean_token_accuracy": 0.17003100961446763,
      "num_tokens": 45034064.0,
      "step": 24405
    },
    {
      "entropy": 5.627536964416504,
      "epoch": 2.050745641671918,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00045771285184807264,
      "loss": 5.2174,
      "mean_token_accuracy": 0.1851324811577797,
      "num_tokens": 45043650.0,
      "step": 24410
    },
    {
      "entropy": 5.41763596534729,
      "epoch": 2.0511657214870826,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00045769537408371885,
      "loss": 5.1583,
      "mean_token_accuracy": 0.17773447930812836,
      "num_tokens": 45052925.0,
      "step": 24415
    },
    {
      "entropy": 5.551809453964234,
      "epoch": 2.0515858013022474,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00045767789308301057,
      "loss": 5.2791,
      "mean_token_accuracy": 0.17274206280708312,
      "num_tokens": 45062505.0,
      "step": 24420
    },
    {
      "entropy": 5.574435138702393,
      "epoch": 2.0520058811174122,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004576604088462575,
      "loss": 5.2768,
      "mean_token_accuracy": 0.18042987883090972,
      "num_tokens": 45072134.0,
      "step": 24425
    },
    {
      "entropy": 5.609319067001342,
      "epoch": 2.052425960932577,
      "grad_norm": 1.4375,
      "learning_rate": 0.00045764292137376924,
      "loss": 5.2511,
      "mean_token_accuracy": 0.18090571612119674,
      "num_tokens": 45081438.0,
      "step": 24430
    },
    {
      "entropy": 5.5402976989746096,
      "epoch": 2.0528460407477422,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004576254306658557,
      "loss": 5.2281,
      "mean_token_accuracy": 0.17561552971601485,
      "num_tokens": 45091601.0,
      "step": 24435
    },
    {
      "entropy": 5.551600122451783,
      "epoch": 2.053266120562907,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00045760793672282676,
      "loss": 5.2562,
      "mean_token_accuracy": 0.1807948648929596,
      "num_tokens": 45101721.0,
      "step": 24440
    },
    {
      "entropy": 5.58843297958374,
      "epoch": 2.053686200378072,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004575904395449921,
      "loss": 5.3459,
      "mean_token_accuracy": 0.1743011713027954,
      "num_tokens": 45110614.0,
      "step": 24445
    },
    {
      "entropy": 5.553608036041259,
      "epoch": 2.0541062801932366,
      "grad_norm": 1.3046875,
      "learning_rate": 0.000457572939132662,
      "loss": 5.2223,
      "mean_token_accuracy": 0.1872716248035431,
      "num_tokens": 45120103.0,
      "step": 24450
    },
    {
      "entropy": 5.634691476821899,
      "epoch": 2.0545263600084014,
      "grad_norm": 1.421875,
      "learning_rate": 0.00045755543548614623,
      "loss": 5.2364,
      "mean_token_accuracy": 0.18247000724077225,
      "num_tokens": 45128811.0,
      "step": 24455
    },
    {
      "entropy": 5.540193653106689,
      "epoch": 2.0549464398235666,
      "grad_norm": 1.203125,
      "learning_rate": 0.000457537928605755,
      "loss": 5.129,
      "mean_token_accuracy": 0.18805152028799058,
      "num_tokens": 45137351.0,
      "step": 24460
    },
    {
      "entropy": 5.619453239440918,
      "epoch": 2.0553665196387314,
      "grad_norm": 1.265625,
      "learning_rate": 0.00045752041849179823,
      "loss": 5.2392,
      "mean_token_accuracy": 0.1812044695019722,
      "num_tokens": 45146504.0,
      "step": 24465
    },
    {
      "entropy": 5.53018012046814,
      "epoch": 2.055786599453896,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004575029051445863,
      "loss": 5.2139,
      "mean_token_accuracy": 0.18474505394697188,
      "num_tokens": 45155671.0,
      "step": 24470
    },
    {
      "entropy": 5.647109031677246,
      "epoch": 2.056206679269061,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004574853885644293,
      "loss": 5.3398,
      "mean_token_accuracy": 0.17117423713207244,
      "num_tokens": 45164482.0,
      "step": 24475
    },
    {
      "entropy": 5.629041337966919,
      "epoch": 2.056626759084226,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004574678687516377,
      "loss": 5.3185,
      "mean_token_accuracy": 0.17386544346809388,
      "num_tokens": 45174185.0,
      "step": 24480
    },
    {
      "entropy": 5.634634065628052,
      "epoch": 2.057046838899391,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004574503457065217,
      "loss": 5.2814,
      "mean_token_accuracy": 0.17571152299642562,
      "num_tokens": 45184498.0,
      "step": 24485
    },
    {
      "entropy": 5.608378171920776,
      "epoch": 2.057466918714556,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004574328194293919,
      "loss": 5.2847,
      "mean_token_accuracy": 0.17827317863702774,
      "num_tokens": 45194297.0,
      "step": 24490
    },
    {
      "entropy": 5.578252840042114,
      "epoch": 2.0578869985297206,
      "grad_norm": 1.125,
      "learning_rate": 0.0004574152899205585,
      "loss": 5.2276,
      "mean_token_accuracy": 0.17319985926151277,
      "num_tokens": 45204930.0,
      "step": 24495
    },
    {
      "entropy": 5.542620754241943,
      "epoch": 2.0583070783448854,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004573977571803322,
      "loss": 5.2382,
      "mean_token_accuracy": 0.18476137667894363,
      "num_tokens": 45213569.0,
      "step": 24500
    },
    {
      "entropy": 5.581173372268677,
      "epoch": 2.0587271581600506,
      "grad_norm": 1.125,
      "learning_rate": 0.00045738022120902355,
      "loss": 5.2426,
      "mean_token_accuracy": 0.17884661257266998,
      "num_tokens": 45223501.0,
      "step": 24505
    },
    {
      "entropy": 5.571099376678466,
      "epoch": 2.0591472379752154,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004573626820069433,
      "loss": 5.2577,
      "mean_token_accuracy": 0.17755125015974044,
      "num_tokens": 45231919.0,
      "step": 24510
    },
    {
      "entropy": 5.5608072757720945,
      "epoch": 2.05956731779038,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004573451395744019,
      "loss": 5.1696,
      "mean_token_accuracy": 0.18407799899578095,
      "num_tokens": 45240313.0,
      "step": 24515
    },
    {
      "entropy": 5.57262601852417,
      "epoch": 2.059987397605545,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004573275939117104,
      "loss": 5.26,
      "mean_token_accuracy": 0.1793881267309189,
      "num_tokens": 45249509.0,
      "step": 24520
    },
    {
      "entropy": 5.550539779663086,
      "epoch": 2.0604074774207097,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004573100450191793,
      "loss": 5.2784,
      "mean_token_accuracy": 0.17312525510787963,
      "num_tokens": 45258644.0,
      "step": 24525
    },
    {
      "entropy": 5.583807277679443,
      "epoch": 2.060827557235875,
      "grad_norm": 1.265625,
      "learning_rate": 0.00045729249289711964,
      "loss": 5.2958,
      "mean_token_accuracy": 0.18285618871450424,
      "num_tokens": 45267898.0,
      "step": 24530
    },
    {
      "entropy": 5.689409065246582,
      "epoch": 2.0612476370510397,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00045727493754584237,
      "loss": 5.3382,
      "mean_token_accuracy": 0.17052267193794252,
      "num_tokens": 45278460.0,
      "step": 24535
    },
    {
      "entropy": 5.596945524215698,
      "epoch": 2.0616677168662045,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004572573789656584,
      "loss": 5.2086,
      "mean_token_accuracy": 0.19062027037143708,
      "num_tokens": 45287850.0,
      "step": 24540
    },
    {
      "entropy": 5.5009434700012205,
      "epoch": 2.0620877966813693,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004572398171568789,
      "loss": 5.248,
      "mean_token_accuracy": 0.17968804389238358,
      "num_tokens": 45297835.0,
      "step": 24545
    },
    {
      "entropy": 5.508269834518432,
      "epoch": 2.0625078764965346,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004572222521198149,
      "loss": 5.2098,
      "mean_token_accuracy": 0.18598988205194472,
      "num_tokens": 45305439.0,
      "step": 24550
    },
    {
      "entropy": 5.615388870239258,
      "epoch": 2.0629279563116993,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00045720468385477745,
      "loss": 5.3058,
      "mean_token_accuracy": 0.17908869981765746,
      "num_tokens": 45314445.0,
      "step": 24555
    },
    {
      "entropy": 5.584666681289673,
      "epoch": 2.063348036126864,
      "grad_norm": 1.46875,
      "learning_rate": 0.0004571871123620778,
      "loss": 5.1833,
      "mean_token_accuracy": 0.18169262111186982,
      "num_tokens": 45323402.0,
      "step": 24560
    },
    {
      "entropy": 5.5328268051147464,
      "epoch": 2.063768115942029,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004571695376420274,
      "loss": 5.308,
      "mean_token_accuracy": 0.17399403154850007,
      "num_tokens": 45332898.0,
      "step": 24565
    },
    {
      "entropy": 5.596898078918457,
      "epoch": 2.0641881957571937,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004571519596949374,
      "loss": 5.2631,
      "mean_token_accuracy": 0.17886182069778442,
      "num_tokens": 45342470.0,
      "step": 24570
    },
    {
      "entropy": 5.580227613449097,
      "epoch": 2.064608275572359,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004571343785211192,
      "loss": 5.2114,
      "mean_token_accuracy": 0.18366825878620147,
      "num_tokens": 45351241.0,
      "step": 24575
    },
    {
      "entropy": 5.536498403549194,
      "epoch": 2.0650283553875237,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004571167941208843,
      "loss": 5.1331,
      "mean_token_accuracy": 0.19473643153905867,
      "num_tokens": 45360002.0,
      "step": 24580
    },
    {
      "entropy": 5.595926904678345,
      "epoch": 2.0654484352026885,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004570992064945441,
      "loss": 5.3177,
      "mean_token_accuracy": 0.1716164991259575,
      "num_tokens": 45369326.0,
      "step": 24585
    },
    {
      "entropy": 5.576184463500977,
      "epoch": 2.0658685150178533,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004570816156424103,
      "loss": 5.2982,
      "mean_token_accuracy": 0.1834086462855339,
      "num_tokens": 45378987.0,
      "step": 24590
    },
    {
      "entropy": 5.674073219299316,
      "epoch": 2.066288594833018,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004570640215647944,
      "loss": 5.3829,
      "mean_token_accuracy": 0.17933163791894913,
      "num_tokens": 45388845.0,
      "step": 24595
    },
    {
      "entropy": 5.583775472640991,
      "epoch": 2.0667086746481833,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004570464242620081,
      "loss": 5.1424,
      "mean_token_accuracy": 0.18232649117708205,
      "num_tokens": 45397794.0,
      "step": 24600
    },
    {
      "entropy": 5.525123596191406,
      "epoch": 2.067128754463348,
      "grad_norm": 1.296875,
      "learning_rate": 0.00045702882373436317,
      "loss": 5.2212,
      "mean_token_accuracy": 0.17751103192567824,
      "num_tokens": 45406318.0,
      "step": 24605
    },
    {
      "entropy": 5.615136241912841,
      "epoch": 2.067548834278513,
      "grad_norm": 1.25,
      "learning_rate": 0.0004570112199821713,
      "loss": 5.3367,
      "mean_token_accuracy": 0.17270282953977584,
      "num_tokens": 45415573.0,
      "step": 24610
    },
    {
      "entropy": 5.514709091186523,
      "epoch": 2.0679689140936777,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00045699361300574447,
      "loss": 5.1378,
      "mean_token_accuracy": 0.18923794627189636,
      "num_tokens": 45424607.0,
      "step": 24615
    },
    {
      "entropy": 5.5953937530517575,
      "epoch": 2.068388993908843,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004569760028053944,
      "loss": 5.2721,
      "mean_token_accuracy": 0.17685411423444747,
      "num_tokens": 45434031.0,
      "step": 24620
    },
    {
      "entropy": 5.613690662384033,
      "epoch": 2.0688090737240077,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004569583893814333,
      "loss": 5.2961,
      "mean_token_accuracy": 0.1813285008072853,
      "num_tokens": 45443158.0,
      "step": 24625
    },
    {
      "entropy": 5.580933666229248,
      "epoch": 2.0692291535391725,
      "grad_norm": 1.25,
      "learning_rate": 0.00045694077273417295,
      "loss": 5.2263,
      "mean_token_accuracy": 0.18223107755184173,
      "num_tokens": 45452500.0,
      "step": 24630
    },
    {
      "entropy": 5.514764451980591,
      "epoch": 2.0696492333543373,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004569231528639254,
      "loss": 5.1918,
      "mean_token_accuracy": 0.1770823210477829,
      "num_tokens": 45461613.0,
      "step": 24635
    },
    {
      "entropy": 5.627365970611573,
      "epoch": 2.070069313169502,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00045690552977100296,
      "loss": 5.3506,
      "mean_token_accuracy": 0.17403923571109772,
      "num_tokens": 45470799.0,
      "step": 24640
    },
    {
      "entropy": 5.640475559234619,
      "epoch": 2.0704893929846673,
      "grad_norm": 1.1875,
      "learning_rate": 0.00045688790345571774,
      "loss": 5.2784,
      "mean_token_accuracy": 0.17852390706539153,
      "num_tokens": 45480780.0,
      "step": 24645
    },
    {
      "entropy": 5.495018053054809,
      "epoch": 2.070909472799832,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004568702739183819,
      "loss": 5.1459,
      "mean_token_accuracy": 0.18351184725761413,
      "num_tokens": 45489401.0,
      "step": 24650
    },
    {
      "entropy": 5.557937049865723,
      "epoch": 2.071329552614997,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004568526411593079,
      "loss": 5.2489,
      "mean_token_accuracy": 0.17829473316669464,
      "num_tokens": 45498420.0,
      "step": 24655
    },
    {
      "entropy": 5.581585454940796,
      "epoch": 2.0717496324301616,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00045683500517880796,
      "loss": 5.1975,
      "mean_token_accuracy": 0.17997285723686218,
      "num_tokens": 45507417.0,
      "step": 24660
    },
    {
      "entropy": 5.599409770965576,
      "epoch": 2.0721697122453264,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00045681736597719455,
      "loss": 5.331,
      "mean_token_accuracy": 0.17388460487127305,
      "num_tokens": 45516518.0,
      "step": 24665
    },
    {
      "entropy": 5.581781244277954,
      "epoch": 2.0725897920604917,
      "grad_norm": 1.375,
      "learning_rate": 0.00045679972355478003,
      "loss": 5.2478,
      "mean_token_accuracy": 0.17583187222480773,
      "num_tokens": 45526000.0,
      "step": 24670
    },
    {
      "entropy": 5.652658462524414,
      "epoch": 2.0730098718756564,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00045678207791187707,
      "loss": 5.348,
      "mean_token_accuracy": 0.17444021105766297,
      "num_tokens": 45534429.0,
      "step": 24675
    },
    {
      "entropy": 5.628416109085083,
      "epoch": 2.0734299516908212,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004567644290487983,
      "loss": 5.327,
      "mean_token_accuracy": 0.1683827042579651,
      "num_tokens": 45543165.0,
      "step": 24680
    },
    {
      "entropy": 5.642155885696411,
      "epoch": 2.073850031505986,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00045674677696585614,
      "loss": 5.2459,
      "mean_token_accuracy": 0.18425338864326476,
      "num_tokens": 45551972.0,
      "step": 24685
    },
    {
      "entropy": 5.61369948387146,
      "epoch": 2.074270111321151,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004567291216633635,
      "loss": 5.253,
      "mean_token_accuracy": 0.18279909789562226,
      "num_tokens": 45560903.0,
      "step": 24690
    },
    {
      "entropy": 5.649734926223755,
      "epoch": 2.074690191136316,
      "grad_norm": 1.71875,
      "learning_rate": 0.00045671146314163295,
      "loss": 5.4241,
      "mean_token_accuracy": 0.1744152083992958,
      "num_tokens": 45571117.0,
      "step": 24695
    },
    {
      "entropy": 5.591864824295044,
      "epoch": 2.075110270951481,
      "grad_norm": 1.296875,
      "learning_rate": 0.00045669380140097747,
      "loss": 5.2245,
      "mean_token_accuracy": 0.18142095506191253,
      "num_tokens": 45579961.0,
      "step": 24700
    },
    {
      "entropy": 5.639830303192139,
      "epoch": 2.0755303507666456,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004566761364417099,
      "loss": 5.2081,
      "mean_token_accuracy": 0.1744179204106331,
      "num_tokens": 45587968.0,
      "step": 24705
    },
    {
      "entropy": 5.49259934425354,
      "epoch": 2.0759504305818104,
      "grad_norm": 1.4140625,
      "learning_rate": 0.000456658468264143,
      "loss": 5.1846,
      "mean_token_accuracy": 0.1836087167263031,
      "num_tokens": 45597410.0,
      "step": 24710
    },
    {
      "entropy": 5.467520666122437,
      "epoch": 2.0763705103969756,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00045664079686858996,
      "loss": 5.163,
      "mean_token_accuracy": 0.18705784529447556,
      "num_tokens": 45605545.0,
      "step": 24715
    },
    {
      "entropy": 5.560044574737549,
      "epoch": 2.0767905902121404,
      "grad_norm": 1.1875,
      "learning_rate": 0.00045662312225536373,
      "loss": 5.2893,
      "mean_token_accuracy": 0.17975713759660722,
      "num_tokens": 45614904.0,
      "step": 24720
    },
    {
      "entropy": 5.549899435043335,
      "epoch": 2.077210670027305,
      "grad_norm": 1.328125,
      "learning_rate": 0.00045660544442477737,
      "loss": 5.2666,
      "mean_token_accuracy": 0.18593904823064805,
      "num_tokens": 45624160.0,
      "step": 24725
    },
    {
      "entropy": 5.619692277908325,
      "epoch": 2.07763074984247,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004565877633771441,
      "loss": 5.2675,
      "mean_token_accuracy": 0.17672108858823776,
      "num_tokens": 45632931.0,
      "step": 24730
    },
    {
      "entropy": 5.610142564773559,
      "epoch": 2.0780508296576348,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004565700791127771,
      "loss": 5.2728,
      "mean_token_accuracy": 0.17752547860145568,
      "num_tokens": 45641280.0,
      "step": 24735
    },
    {
      "entropy": 5.5572929859161375,
      "epoch": 2.0784709094728,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004565523916319897,
      "loss": 5.1758,
      "mean_token_accuracy": 0.18099573403596877,
      "num_tokens": 45650292.0,
      "step": 24740
    },
    {
      "entropy": 5.633770418167114,
      "epoch": 2.078890989287965,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004565347009350951,
      "loss": 5.3327,
      "mean_token_accuracy": 0.17502644509077073,
      "num_tokens": 45659680.0,
      "step": 24745
    },
    {
      "entropy": 5.556862688064575,
      "epoch": 2.0793110691031296,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004565170070224068,
      "loss": 5.2401,
      "mean_token_accuracy": 0.17811775505542754,
      "num_tokens": 45668398.0,
      "step": 24750
    },
    {
      "entropy": 5.504364490509033,
      "epoch": 2.0797311489182944,
      "grad_norm": 1.5625,
      "learning_rate": 0.00045649930989423806,
      "loss": 5.1776,
      "mean_token_accuracy": 0.18095415234565734,
      "num_tokens": 45677221.0,
      "step": 24755
    },
    {
      "entropy": 5.5182239532470705,
      "epoch": 2.080151228733459,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004564816095509026,
      "loss": 5.1891,
      "mean_token_accuracy": 0.18641255795955658,
      "num_tokens": 45685946.0,
      "step": 24760
    },
    {
      "entropy": 5.550664663314819,
      "epoch": 2.0805713085486244,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004564639059927139,
      "loss": 5.2081,
      "mean_token_accuracy": 0.18433194607496262,
      "num_tokens": 45694690.0,
      "step": 24765
    },
    {
      "entropy": 5.583739948272705,
      "epoch": 2.080991388363789,
      "grad_norm": 1.28125,
      "learning_rate": 0.00045644619921998556,
      "loss": 5.3152,
      "mean_token_accuracy": 0.17048783749341964,
      "num_tokens": 45704426.0,
      "step": 24770
    },
    {
      "entropy": 5.65007176399231,
      "epoch": 2.081411468178954,
      "grad_norm": 1.375,
      "learning_rate": 0.0004564284892330311,
      "loss": 5.281,
      "mean_token_accuracy": 0.17486868500709535,
      "num_tokens": 45714044.0,
      "step": 24775
    },
    {
      "entropy": 5.634159851074219,
      "epoch": 2.0818315479941187,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004564107760321645,
      "loss": 5.289,
      "mean_token_accuracy": 0.1699565291404724,
      "num_tokens": 45722860.0,
      "step": 24780
    },
    {
      "entropy": 5.568911838531494,
      "epoch": 2.082251627809284,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004563930596176994,
      "loss": 5.2515,
      "mean_token_accuracy": 0.18353583961725234,
      "num_tokens": 45731606.0,
      "step": 24785
    },
    {
      "entropy": 5.545490980148315,
      "epoch": 2.0826717076244488,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004563753399899496,
      "loss": 5.2094,
      "mean_token_accuracy": 0.1821321964263916,
      "num_tokens": 45741189.0,
      "step": 24790
    },
    {
      "entropy": 5.526471900939941,
      "epoch": 2.0830917874396135,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004563576171492291,
      "loss": 5.1545,
      "mean_token_accuracy": 0.18992784917354583,
      "num_tokens": 45750059.0,
      "step": 24795
    },
    {
      "entropy": 5.466275835037232,
      "epoch": 2.0835118672547783,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004563398910958518,
      "loss": 5.1531,
      "mean_token_accuracy": 0.1915099412202835,
      "num_tokens": 45758675.0,
      "step": 24800
    },
    {
      "entropy": 5.568423271179199,
      "epoch": 2.083931947069943,
      "grad_norm": 1.421875,
      "learning_rate": 0.00045632216183013165,
      "loss": 5.2504,
      "mean_token_accuracy": 0.18090981990098953,
      "num_tokens": 45767886.0,
      "step": 24805
    },
    {
      "entropy": 5.508390140533447,
      "epoch": 2.0843520268851083,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004563044293523828,
      "loss": 5.1973,
      "mean_token_accuracy": 0.1852904349565506,
      "num_tokens": 45777208.0,
      "step": 24810
    },
    {
      "entropy": 5.504400825500488,
      "epoch": 2.084772106700273,
      "grad_norm": 1.203125,
      "learning_rate": 0.00045628669366291934,
      "loss": 5.1564,
      "mean_token_accuracy": 0.18362431973218918,
      "num_tokens": 45787422.0,
      "step": 24815
    },
    {
      "entropy": 5.688167381286621,
      "epoch": 2.085192186515438,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0004562689547620555,
      "loss": 5.4016,
      "mean_token_accuracy": 0.16911144107580184,
      "num_tokens": 45797748.0,
      "step": 24820
    },
    {
      "entropy": 5.58843502998352,
      "epoch": 2.0856122663306027,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004562512126501054,
      "loss": 5.209,
      "mean_token_accuracy": 0.18638558983802794,
      "num_tokens": 45806378.0,
      "step": 24825
    },
    {
      "entropy": 5.504337549209595,
      "epoch": 2.0860323461457675,
      "grad_norm": 1.21875,
      "learning_rate": 0.00045623346732738345,
      "loss": 5.257,
      "mean_token_accuracy": 0.17446959912776946,
      "num_tokens": 45815003.0,
      "step": 24830
    },
    {
      "entropy": 5.507630825042725,
      "epoch": 2.0864524259609327,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004562157187942039,
      "loss": 5.1909,
      "mean_token_accuracy": 0.18021317720413207,
      "num_tokens": 45823839.0,
      "step": 24835
    },
    {
      "entropy": 5.6175919532775875,
      "epoch": 2.0868725057760975,
      "grad_norm": 1.25,
      "learning_rate": 0.0004561979670508812,
      "loss": 5.2319,
      "mean_token_accuracy": 0.18314651697874068,
      "num_tokens": 45832139.0,
      "step": 24840
    },
    {
      "entropy": 5.568932390213012,
      "epoch": 2.0872925855912623,
      "grad_norm": 1.484375,
      "learning_rate": 0.00045618021209772983,
      "loss": 5.1931,
      "mean_token_accuracy": 0.1843174085021019,
      "num_tokens": 45840792.0,
      "step": 24845
    },
    {
      "entropy": 5.6233922958374025,
      "epoch": 2.087712665406427,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004561624539350643,
      "loss": 5.2254,
      "mean_token_accuracy": 0.180493825674057,
      "num_tokens": 45849522.0,
      "step": 24850
    },
    {
      "entropy": 5.5335334777832035,
      "epoch": 2.0881327452215923,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004561446925631992,
      "loss": 5.2015,
      "mean_token_accuracy": 0.18287548422813416,
      "num_tokens": 45858581.0,
      "step": 24855
    },
    {
      "entropy": 5.636706590652466,
      "epoch": 2.088552825036757,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00045612692798244913,
      "loss": 5.2627,
      "mean_token_accuracy": 0.172872132062912,
      "num_tokens": 45868430.0,
      "step": 24860
    },
    {
      "entropy": 5.557715177536011,
      "epoch": 2.088972904851922,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004561091601931288,
      "loss": 5.212,
      "mean_token_accuracy": 0.18706251084804534,
      "num_tokens": 45878332.0,
      "step": 24865
    },
    {
      "entropy": 5.640072536468506,
      "epoch": 2.0893929846670867,
      "grad_norm": 1.109375,
      "learning_rate": 0.00045609138919555295,
      "loss": 5.3455,
      "mean_token_accuracy": 0.17591927200555801,
      "num_tokens": 45887571.0,
      "step": 24870
    },
    {
      "entropy": 5.563762950897217,
      "epoch": 2.0898130644822515,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004560736149900364,
      "loss": 5.2054,
      "mean_token_accuracy": 0.17771227657794952,
      "num_tokens": 45896967.0,
      "step": 24875
    },
    {
      "entropy": 5.565276098251343,
      "epoch": 2.0902331442974167,
      "grad_norm": 1.203125,
      "learning_rate": 0.00045605583757689393,
      "loss": 5.2675,
      "mean_token_accuracy": 0.17449727654457092,
      "num_tokens": 45905935.0,
      "step": 24880
    },
    {
      "entropy": 5.54985613822937,
      "epoch": 2.0906532241125815,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004560380569564406,
      "loss": 5.2176,
      "mean_token_accuracy": 0.19498885720968245,
      "num_tokens": 45914202.0,
      "step": 24885
    },
    {
      "entropy": 5.475818157196045,
      "epoch": 2.0910733039277463,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00045602027312899134,
      "loss": 5.1514,
      "mean_token_accuracy": 0.18816579431295394,
      "num_tokens": 45923700.0,
      "step": 24890
    },
    {
      "entropy": 5.582074069976807,
      "epoch": 2.091493383742911,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004560024860948611,
      "loss": 5.2931,
      "mean_token_accuracy": 0.1786313012242317,
      "num_tokens": 45932885.0,
      "step": 24895
    },
    {
      "entropy": 5.520615863800049,
      "epoch": 2.091913463558076,
      "grad_norm": 1.296875,
      "learning_rate": 0.000455984695854365,
      "loss": 5.181,
      "mean_token_accuracy": 0.18124512881040572,
      "num_tokens": 45942039.0,
      "step": 24900
    },
    {
      "entropy": 5.544047594070435,
      "epoch": 2.092333543373241,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004559669024078183,
      "loss": 5.1663,
      "mean_token_accuracy": 0.18408648669719696,
      "num_tokens": 45950893.0,
      "step": 24905
    },
    {
      "entropy": 5.580402612686157,
      "epoch": 2.092753623188406,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000455949105755536,
      "loss": 5.2625,
      "mean_token_accuracy": 0.18408264815807343,
      "num_tokens": 45960225.0,
      "step": 24910
    },
    {
      "entropy": 5.568414640426636,
      "epoch": 2.0931737030035706,
      "grad_norm": 1.28125,
      "learning_rate": 0.00045593130589783356,
      "loss": 5.1811,
      "mean_token_accuracy": 0.18536770790815355,
      "num_tokens": 45969002.0,
      "step": 24915
    },
    {
      "entropy": 5.567677354812622,
      "epoch": 2.0935937828187354,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004559135028350262,
      "loss": 5.3914,
      "mean_token_accuracy": 0.1760224297642708,
      "num_tokens": 45979088.0,
      "step": 24920
    },
    {
      "entropy": 5.671337270736695,
      "epoch": 2.0940138626339007,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004558956965674292,
      "loss": 5.2165,
      "mean_token_accuracy": 0.18053786903619767,
      "num_tokens": 45988308.0,
      "step": 24925
    },
    {
      "entropy": 5.559047508239746,
      "epoch": 2.0944339424490654,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004558778870953582,
      "loss": 5.245,
      "mean_token_accuracy": 0.18308139443397523,
      "num_tokens": 45997758.0,
      "step": 24930
    },
    {
      "entropy": 5.550913333892822,
      "epoch": 2.0948540222642302,
      "grad_norm": 1.25,
      "learning_rate": 0.00045586007441912846,
      "loss": 5.2348,
      "mean_token_accuracy": 0.18270986080169677,
      "num_tokens": 46006648.0,
      "step": 24935
    },
    {
      "entropy": 5.666739845275879,
      "epoch": 2.095274102079395,
      "grad_norm": 1.34375,
      "learning_rate": 0.00045584225853905565,
      "loss": 5.3195,
      "mean_token_accuracy": 0.1683989644050598,
      "num_tokens": 46015693.0,
      "step": 24940
    },
    {
      "entropy": 5.675481700897217,
      "epoch": 2.09569418189456,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004558244394554554,
      "loss": 5.2945,
      "mean_token_accuracy": 0.1793254628777504,
      "num_tokens": 46024748.0,
      "step": 24945
    },
    {
      "entropy": 5.60352931022644,
      "epoch": 2.096114261709725,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004558066171686433,
      "loss": 5.271,
      "mean_token_accuracy": 0.1756107658147812,
      "num_tokens": 46033613.0,
      "step": 24950
    },
    {
      "entropy": 5.576733684539795,
      "epoch": 2.09653434152489,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004557887916789351,
      "loss": 5.3652,
      "mean_token_accuracy": 0.17455382496118546,
      "num_tokens": 46042749.0,
      "step": 24955
    },
    {
      "entropy": 5.635605525970459,
      "epoch": 2.0969544213400546,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00045577096298664646,
      "loss": 5.2527,
      "mean_token_accuracy": 0.18136001378297806,
      "num_tokens": 46051969.0,
      "step": 24960
    },
    {
      "entropy": 5.637962532043457,
      "epoch": 2.0973745011552194,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0004557531310920934,
      "loss": 5.2684,
      "mean_token_accuracy": 0.17996008694171906,
      "num_tokens": 46061115.0,
      "step": 24965
    },
    {
      "entropy": 5.522646379470825,
      "epoch": 2.097794580970384,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004557352959955916,
      "loss": 5.205,
      "mean_token_accuracy": 0.18135022222995759,
      "num_tokens": 46071283.0,
      "step": 24970
    },
    {
      "entropy": 5.583243799209595,
      "epoch": 2.0982146607855494,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00045571745769745715,
      "loss": 5.2339,
      "mean_token_accuracy": 0.17773195952177048,
      "num_tokens": 46080730.0,
      "step": 24975
    },
    {
      "entropy": 5.573034143447876,
      "epoch": 2.098634740600714,
      "grad_norm": 1.3203125,
      "learning_rate": 0.000455699616198006,
      "loss": 5.2018,
      "mean_token_accuracy": 0.17748966813087463,
      "num_tokens": 46090717.0,
      "step": 24980
    },
    {
      "entropy": 5.597346353530884,
      "epoch": 2.099054820415879,
      "grad_norm": 1.375,
      "learning_rate": 0.0004556817714975542,
      "loss": 5.3282,
      "mean_token_accuracy": 0.17645133286714554,
      "num_tokens": 46099212.0,
      "step": 24985
    },
    {
      "entropy": 5.646004629135132,
      "epoch": 2.0994749002310438,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004556639235964178,
      "loss": 5.3158,
      "mean_token_accuracy": 0.1721225991845131,
      "num_tokens": 46109129.0,
      "step": 24990
    },
    {
      "entropy": 5.647187376022339,
      "epoch": 2.0998949800462086,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004556460724949131,
      "loss": 5.2678,
      "mean_token_accuracy": 0.1770775482058525,
      "num_tokens": 46118217.0,
      "step": 24995
    },
    {
      "entropy": 5.667800235748291,
      "epoch": 2.100315059861374,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00045562821819335615,
      "loss": 5.2447,
      "mean_token_accuracy": 0.1770220711827278,
      "num_tokens": 46127472.0,
      "step": 25000
    },
    {
      "entropy": 5.5860779762268065,
      "epoch": 2.1007351396765386,
      "grad_norm": 1.890625,
      "learning_rate": 0.0004556103606920634,
      "loss": 5.2805,
      "mean_token_accuracy": 0.17452503740787506,
      "num_tokens": 46136899.0,
      "step": 25005
    },
    {
      "entropy": 5.633656692504883,
      "epoch": 2.1011552194917034,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00045559249999135105,
      "loss": 5.2774,
      "mean_token_accuracy": 0.18164146393537522,
      "num_tokens": 46145916.0,
      "step": 25010
    },
    {
      "entropy": 5.513284015655517,
      "epoch": 2.101575299306868,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004555746360915356,
      "loss": 5.1471,
      "mean_token_accuracy": 0.1849537596106529,
      "num_tokens": 46155434.0,
      "step": 25015
    },
    {
      "entropy": 5.471441125869751,
      "epoch": 2.1019953791220334,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004555567689929335,
      "loss": 5.2248,
      "mean_token_accuracy": 0.17373942732810974,
      "num_tokens": 46163973.0,
      "step": 25020
    },
    {
      "entropy": 5.641830539703369,
      "epoch": 2.102415458937198,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004555388986958611,
      "loss": 5.3848,
      "mean_token_accuracy": 0.1766084760427475,
      "num_tokens": 46174359.0,
      "step": 25025
    },
    {
      "entropy": 5.547364139556885,
      "epoch": 2.102835538752363,
      "grad_norm": 1.203125,
      "learning_rate": 0.00045552102520063516,
      "loss": 5.1205,
      "mean_token_accuracy": 0.18186466842889787,
      "num_tokens": 46182913.0,
      "step": 25030
    },
    {
      "entropy": 5.546918153762817,
      "epoch": 2.1032556185675277,
      "grad_norm": 1.375,
      "learning_rate": 0.0004555031485075722,
      "loss": 5.2143,
      "mean_token_accuracy": 0.17891491800546647,
      "num_tokens": 46192131.0,
      "step": 25035
    },
    {
      "entropy": 5.569801378250122,
      "epoch": 2.1036756983826925,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004554852686169889,
      "loss": 5.2421,
      "mean_token_accuracy": 0.1771452769637108,
      "num_tokens": 46201988.0,
      "step": 25040
    },
    {
      "entropy": 5.3815288066864015,
      "epoch": 2.1040957781978578,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004554673855292019,
      "loss": 5.1213,
      "mean_token_accuracy": 0.185958594083786,
      "num_tokens": 46210677.0,
      "step": 25045
    },
    {
      "entropy": 5.58909125328064,
      "epoch": 2.1045158580130225,
      "grad_norm": 1.28125,
      "learning_rate": 0.00045544949924452823,
      "loss": 5.2361,
      "mean_token_accuracy": 0.17792396247386932,
      "num_tokens": 46219489.0,
      "step": 25050
    },
    {
      "entropy": 5.6417230606079105,
      "epoch": 2.1049359378281873,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004554316097632846,
      "loss": 5.2911,
      "mean_token_accuracy": 0.17309877276420593,
      "num_tokens": 46229494.0,
      "step": 25055
    },
    {
      "entropy": 5.497353839874267,
      "epoch": 2.105356017643352,
      "grad_norm": 1.203125,
      "learning_rate": 0.00045541371708578783,
      "loss": 5.1201,
      "mean_token_accuracy": 0.18945109099149704,
      "num_tokens": 46238190.0,
      "step": 25060
    },
    {
      "entropy": 5.609092092514038,
      "epoch": 2.105776097458517,
      "grad_norm": 1.203125,
      "learning_rate": 0.00045539582121235494,
      "loss": 5.266,
      "mean_token_accuracy": 0.17843795716762542,
      "num_tokens": 46247492.0,
      "step": 25065
    },
    {
      "entropy": 5.700698947906494,
      "epoch": 2.106196177273682,
      "grad_norm": 1.171875,
      "learning_rate": 0.00045537792214330304,
      "loss": 5.3315,
      "mean_token_accuracy": 0.17950449883937836,
      "num_tokens": 46257014.0,
      "step": 25070
    },
    {
      "entropy": 5.524984741210938,
      "epoch": 2.106616257088847,
      "grad_norm": 1.484375,
      "learning_rate": 0.00045536001987894916,
      "loss": 5.2305,
      "mean_token_accuracy": 0.1776916652917862,
      "num_tokens": 46266450.0,
      "step": 25075
    },
    {
      "entropy": 5.594062423706054,
      "epoch": 2.1070363369040117,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004553421144196103,
      "loss": 5.3543,
      "mean_token_accuracy": 0.1744074836373329,
      "num_tokens": 46275118.0,
      "step": 25080
    },
    {
      "entropy": 5.62044324874878,
      "epoch": 2.1074564167191765,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00045532420576560384,
      "loss": 5.2683,
      "mean_token_accuracy": 0.1821603447198868,
      "num_tokens": 46283617.0,
      "step": 25085
    },
    {
      "entropy": 5.582440042495728,
      "epoch": 2.1078764965343417,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004553062939172469,
      "loss": 5.233,
      "mean_token_accuracy": 0.18085920363664626,
      "num_tokens": 46293456.0,
      "step": 25090
    },
    {
      "entropy": 5.624432468414307,
      "epoch": 2.1082965763495065,
      "grad_norm": 2.40625,
      "learning_rate": 0.0004552883788748568,
      "loss": 5.2682,
      "mean_token_accuracy": 0.18345431834459305,
      "num_tokens": 46302579.0,
      "step": 25095
    },
    {
      "entropy": 5.6183366775512695,
      "epoch": 2.1087166561646713,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004552704606387509,
      "loss": 5.3511,
      "mean_token_accuracy": 0.17727205902338028,
      "num_tokens": 46311837.0,
      "step": 25100
    },
    {
      "entropy": 5.672988748550415,
      "epoch": 2.109136735979836,
      "grad_norm": 1.296875,
      "learning_rate": 0.00045525253920924665,
      "loss": 5.3581,
      "mean_token_accuracy": 0.17136260420083999,
      "num_tokens": 46321697.0,
      "step": 25105
    },
    {
      "entropy": 5.535420083999634,
      "epoch": 2.109556815795001,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004552346145866614,
      "loss": 5.0579,
      "mean_token_accuracy": 0.19895627796649934,
      "num_tokens": 46330626.0,
      "step": 25110
    },
    {
      "entropy": 5.694775152206421,
      "epoch": 2.109976895610166,
      "grad_norm": 1.296875,
      "learning_rate": 0.00045521668677131277,
      "loss": 5.4265,
      "mean_token_accuracy": 0.17592613250017167,
      "num_tokens": 46340691.0,
      "step": 25115
    },
    {
      "entropy": 5.515228509902954,
      "epoch": 2.110396975425331,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004551987557635184,
      "loss": 5.1799,
      "mean_token_accuracy": 0.1934054210782051,
      "num_tokens": 46350153.0,
      "step": 25120
    },
    {
      "entropy": 5.517914056777954,
      "epoch": 2.1108170552404957,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004551808215635958,
      "loss": 5.215,
      "mean_token_accuracy": 0.1799443244934082,
      "num_tokens": 46359399.0,
      "step": 25125
    },
    {
      "entropy": 5.618206644058228,
      "epoch": 2.1112371350556605,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00045516288417186274,
      "loss": 5.2711,
      "mean_token_accuracy": 0.17541442364454268,
      "num_tokens": 46369026.0,
      "step": 25130
    },
    {
      "entropy": 5.533689165115357,
      "epoch": 2.1116572148708252,
      "grad_norm": 1.1875,
      "learning_rate": 0.00045514494358863707,
      "loss": 5.1772,
      "mean_token_accuracy": 0.18512730896472931,
      "num_tokens": 46377534.0,
      "step": 25135
    },
    {
      "entropy": 5.600969314575195,
      "epoch": 2.1120772946859905,
      "grad_norm": 1.25,
      "learning_rate": 0.0004551269998142363,
      "loss": 5.2977,
      "mean_token_accuracy": 0.1786016821861267,
      "num_tokens": 46386142.0,
      "step": 25140
    },
    {
      "entropy": 5.672504043579101,
      "epoch": 2.1124973745011553,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004551090528489786,
      "loss": 5.257,
      "mean_token_accuracy": 0.17766396850347518,
      "num_tokens": 46395426.0,
      "step": 25145
    },
    {
      "entropy": 5.550570011138916,
      "epoch": 2.11291745431632,
      "grad_norm": 1.34375,
      "learning_rate": 0.00045509110269318173,
      "loss": 5.2391,
      "mean_token_accuracy": 0.18472156226634978,
      "num_tokens": 46404184.0,
      "step": 25150
    },
    {
      "entropy": 5.593169927597046,
      "epoch": 2.113337534131485,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004550731493471637,
      "loss": 5.2775,
      "mean_token_accuracy": 0.18104517459869385,
      "num_tokens": 46412587.0,
      "step": 25155
    },
    {
      "entropy": 5.647813034057617,
      "epoch": 2.11375761394665,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00045505519281124256,
      "loss": 5.3354,
      "mean_token_accuracy": 0.17640037536621095,
      "num_tokens": 46421851.0,
      "step": 25160
    },
    {
      "entropy": 5.588222169876099,
      "epoch": 2.114177693761815,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004550372330857364,
      "loss": 5.2732,
      "mean_token_accuracy": 0.17622660845518112,
      "num_tokens": 46430917.0,
      "step": 25165
    },
    {
      "entropy": 5.5558326721191404,
      "epoch": 2.1145977735769796,
      "grad_norm": 1.375,
      "learning_rate": 0.0004550192701709634,
      "loss": 5.234,
      "mean_token_accuracy": 0.17663262486457826,
      "num_tokens": 46439808.0,
      "step": 25170
    },
    {
      "entropy": 5.5056201934814455,
      "epoch": 2.1150178533921444,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00045500130406724167,
      "loss": 5.2358,
      "mean_token_accuracy": 0.17743158340454102,
      "num_tokens": 46450121.0,
      "step": 25175
    },
    {
      "entropy": 5.63898491859436,
      "epoch": 2.115437933207309,
      "grad_norm": 1.296875,
      "learning_rate": 0.00045498333477488956,
      "loss": 5.3492,
      "mean_token_accuracy": 0.1730792596936226,
      "num_tokens": 46459407.0,
      "step": 25180
    },
    {
      "entropy": 5.591283178329467,
      "epoch": 2.1158580130224744,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004549653622942254,
      "loss": 5.3013,
      "mean_token_accuracy": 0.1755159839987755,
      "num_tokens": 46468830.0,
      "step": 25185
    },
    {
      "entropy": 5.648342847824097,
      "epoch": 2.1162780928376392,
      "grad_norm": 1.484375,
      "learning_rate": 0.00045494738662556737,
      "loss": 5.3652,
      "mean_token_accuracy": 0.17922505587339402,
      "num_tokens": 46477649.0,
      "step": 25190
    },
    {
      "entropy": 5.5620067596435545,
      "epoch": 2.116698172652804,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004549294077692342,
      "loss": 5.1964,
      "mean_token_accuracy": 0.18124784529209137,
      "num_tokens": 46486782.0,
      "step": 25195
    },
    {
      "entropy": 5.53253583908081,
      "epoch": 2.117118252467969,
      "grad_norm": 1.171875,
      "learning_rate": 0.00045491142572554413,
      "loss": 5.2317,
      "mean_token_accuracy": 0.1815296307206154,
      "num_tokens": 46496902.0,
      "step": 25200
    },
    {
      "entropy": 5.620844507217408,
      "epoch": 2.1175383322831336,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004548934404948158,
      "loss": 5.3639,
      "mean_token_accuracy": 0.1664853222668171,
      "num_tokens": 46506839.0,
      "step": 25205
    },
    {
      "entropy": 5.588382863998413,
      "epoch": 2.117958412098299,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004548754520773678,
      "loss": 5.1939,
      "mean_token_accuracy": 0.18621233403682708,
      "num_tokens": 46515338.0,
      "step": 25210
    },
    {
      "entropy": 5.591706991195679,
      "epoch": 2.1183784919134636,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00045485746047351877,
      "loss": 5.2277,
      "mean_token_accuracy": 0.1812953844666481,
      "num_tokens": 46524765.0,
      "step": 25215
    },
    {
      "entropy": 5.515726947784424,
      "epoch": 2.1187985717286284,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004548394656835875,
      "loss": 5.2779,
      "mean_token_accuracy": 0.17771609425544738,
      "num_tokens": 46534470.0,
      "step": 25220
    },
    {
      "entropy": 5.538866329193115,
      "epoch": 2.119218651543793,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00045482146770789265,
      "loss": 5.1566,
      "mean_token_accuracy": 0.18962032794952394,
      "num_tokens": 46543597.0,
      "step": 25225
    },
    {
      "entropy": 5.541380071640015,
      "epoch": 2.1196387313589584,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004548034665467531,
      "loss": 5.2031,
      "mean_token_accuracy": 0.18214163333177566,
      "num_tokens": 46552745.0,
      "step": 25230
    },
    {
      "entropy": 5.610005187988281,
      "epoch": 2.120058811174123,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00045478546220048777,
      "loss": 5.2151,
      "mean_token_accuracy": 0.18614211827516555,
      "num_tokens": 46561429.0,
      "step": 25235
    },
    {
      "entropy": 5.6042468547821045,
      "epoch": 2.120478890989288,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004547674546694155,
      "loss": 5.2369,
      "mean_token_accuracy": 0.17731193006038665,
      "num_tokens": 46571044.0,
      "step": 25240
    },
    {
      "entropy": 5.560809755325318,
      "epoch": 2.1208989708044528,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004547494439538554,
      "loss": 5.3339,
      "mean_token_accuracy": 0.17715535908937455,
      "num_tokens": 46580165.0,
      "step": 25245
    },
    {
      "entropy": 5.61603193283081,
      "epoch": 2.1213190506196176,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004547314300541264,
      "loss": 5.2403,
      "mean_token_accuracy": 0.18431900888681413,
      "num_tokens": 46588188.0,
      "step": 25250
    },
    {
      "entropy": 5.629562950134277,
      "epoch": 2.121739130434783,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004547134129705477,
      "loss": 5.2492,
      "mean_token_accuracy": 0.17773714363574983,
      "num_tokens": 46597067.0,
      "step": 25255
    },
    {
      "entropy": 5.496511936187744,
      "epoch": 2.1221592102499476,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004546953927034385,
      "loss": 5.1861,
      "mean_token_accuracy": 0.18249738663434983,
      "num_tokens": 46606021.0,
      "step": 25260
    },
    {
      "entropy": 5.594893455505371,
      "epoch": 2.1225792900651124,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00045467736925311773,
      "loss": 5.3114,
      "mean_token_accuracy": 0.17678247690200805,
      "num_tokens": 46616300.0,
      "step": 25265
    },
    {
      "entropy": 5.4949071407318115,
      "epoch": 2.122999369880277,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004546593426199051,
      "loss": 5.203,
      "mean_token_accuracy": 0.1861840605735779,
      "num_tokens": 46625960.0,
      "step": 25270
    },
    {
      "entropy": 5.647842454910278,
      "epoch": 2.123419449695442,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004546413128041196,
      "loss": 5.3519,
      "mean_token_accuracy": 0.17551180422306062,
      "num_tokens": 46635310.0,
      "step": 25275
    },
    {
      "entropy": 5.642635345458984,
      "epoch": 2.123839529510607,
      "grad_norm": 1.3125,
      "learning_rate": 0.00045462327980608084,
      "loss": 5.3028,
      "mean_token_accuracy": 0.1774861216545105,
      "num_tokens": 46644771.0,
      "step": 25280
    },
    {
      "entropy": 5.578203725814819,
      "epoch": 2.124259609325772,
      "grad_norm": 1.28125,
      "learning_rate": 0.00045460524362610807,
      "loss": 5.2738,
      "mean_token_accuracy": 0.1862912058830261,
      "num_tokens": 46654315.0,
      "step": 25285
    },
    {
      "entropy": 5.625877618789673,
      "epoch": 2.1246796891409367,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004545872042645209,
      "loss": 5.2694,
      "mean_token_accuracy": 0.18091316968202592,
      "num_tokens": 46663310.0,
      "step": 25290
    },
    {
      "entropy": 5.564180994033814,
      "epoch": 2.1250997689561015,
      "grad_norm": 1.28125,
      "learning_rate": 0.00045456916172163895,
      "loss": 5.1924,
      "mean_token_accuracy": 0.18353327065706254,
      "num_tokens": 46672996.0,
      "step": 25295
    },
    {
      "entropy": 5.550098133087158,
      "epoch": 2.1255198487712663,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004545511159977817,
      "loss": 5.3277,
      "mean_token_accuracy": 0.1696047827601433,
      "num_tokens": 46682635.0,
      "step": 25300
    },
    {
      "entropy": 5.690552854537964,
      "epoch": 2.1259399285864315,
      "grad_norm": 1.234375,
      "learning_rate": 0.00045453306709326895,
      "loss": 5.3865,
      "mean_token_accuracy": 0.17016754001379014,
      "num_tokens": 46691611.0,
      "step": 25305
    },
    {
      "entropy": 5.599783611297608,
      "epoch": 2.1263600084015963,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004545150150084203,
      "loss": 5.2276,
      "mean_token_accuracy": 0.17635797411203386,
      "num_tokens": 46700227.0,
      "step": 25310
    },
    {
      "entropy": 5.627778244018555,
      "epoch": 2.126780088216761,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004544969597435556,
      "loss": 5.3238,
      "mean_token_accuracy": 0.1725757211446762,
      "num_tokens": 46709296.0,
      "step": 25315
    },
    {
      "entropy": 5.591758680343628,
      "epoch": 2.127200168031926,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004544789012989947,
      "loss": 5.1933,
      "mean_token_accuracy": 0.18449708372354506,
      "num_tokens": 46717918.0,
      "step": 25320
    },
    {
      "entropy": 5.545625877380371,
      "epoch": 2.127620247847091,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004544608396750575,
      "loss": 5.2373,
      "mean_token_accuracy": 0.17619840055704117,
      "num_tokens": 46727654.0,
      "step": 25325
    },
    {
      "entropy": 5.549344539642334,
      "epoch": 2.128040327662256,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004544427748720639,
      "loss": 5.2314,
      "mean_token_accuracy": 0.1772526517510414,
      "num_tokens": 46736771.0,
      "step": 25330
    },
    {
      "entropy": 5.631017208099365,
      "epoch": 2.1284604074774207,
      "grad_norm": 1.21875,
      "learning_rate": 0.00045442470689033407,
      "loss": 5.3438,
      "mean_token_accuracy": 0.17435088604688645,
      "num_tokens": 46745815.0,
      "step": 25335
    },
    {
      "entropy": 5.5887431621551515,
      "epoch": 2.1288804872925855,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004544066357301878,
      "loss": 5.3369,
      "mean_token_accuracy": 0.16828111112117766,
      "num_tokens": 46755819.0,
      "step": 25340
    },
    {
      "entropy": 5.622124814987183,
      "epoch": 2.1293005671077503,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004543885613919454,
      "loss": 5.3189,
      "mean_token_accuracy": 0.1727687805891037,
      "num_tokens": 46765647.0,
      "step": 25345
    },
    {
      "entropy": 5.5873878479003904,
      "epoch": 2.1297206469229155,
      "grad_norm": 1.296875,
      "learning_rate": 0.000454370483875927,
      "loss": 5.1533,
      "mean_token_accuracy": 0.1873635694384575,
      "num_tokens": 46774355.0,
      "step": 25350
    },
    {
      "entropy": 5.547013425827027,
      "epoch": 2.1301407267380803,
      "grad_norm": 1.28125,
      "learning_rate": 0.00045435240318245285,
      "loss": 5.2181,
      "mean_token_accuracy": 0.18051495850086213,
      "num_tokens": 46782660.0,
      "step": 25355
    },
    {
      "entropy": 5.6088978290557865,
      "epoch": 2.130560806553245,
      "grad_norm": 1.546875,
      "learning_rate": 0.0004543343193118433,
      "loss": 5.3387,
      "mean_token_accuracy": 0.17111146748065947,
      "num_tokens": 46791637.0,
      "step": 25360
    },
    {
      "entropy": 5.631037807464599,
      "epoch": 2.13098088636841,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004543162322644185,
      "loss": 5.2617,
      "mean_token_accuracy": 0.17822983860969543,
      "num_tokens": 46801022.0,
      "step": 25365
    },
    {
      "entropy": 5.607939291000366,
      "epoch": 2.131400966183575,
      "grad_norm": 1.21875,
      "learning_rate": 0.000454298142040499,
      "loss": 5.3028,
      "mean_token_accuracy": 0.17720194160938263,
      "num_tokens": 46810566.0,
      "step": 25370
    },
    {
      "entropy": 5.614850091934204,
      "epoch": 2.13182104599874,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00045428004864040534,
      "loss": 5.2128,
      "mean_token_accuracy": 0.17986086159944534,
      "num_tokens": 46819611.0,
      "step": 25375
    },
    {
      "entropy": 5.550766277313232,
      "epoch": 2.1322411258139047,
      "grad_norm": 1.953125,
      "learning_rate": 0.00045426195206445784,
      "loss": 5.1881,
      "mean_token_accuracy": 0.18441017717123032,
      "num_tokens": 46829166.0,
      "step": 25380
    },
    {
      "entropy": 5.497122955322266,
      "epoch": 2.1326612056290695,
      "grad_norm": 1.25,
      "learning_rate": 0.0004542438523129772,
      "loss": 5.219,
      "mean_token_accuracy": 0.1809883549809456,
      "num_tokens": 46837929.0,
      "step": 25385
    },
    {
      "entropy": 5.585760307312012,
      "epoch": 2.1330812854442343,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00045422574938628403,
      "loss": 5.2555,
      "mean_token_accuracy": 0.1791429951786995,
      "num_tokens": 46846823.0,
      "step": 25390
    },
    {
      "entropy": 5.5779660701751705,
      "epoch": 2.1335013652593995,
      "grad_norm": 1.234375,
      "learning_rate": 0.000454207643284699,
      "loss": 5.2593,
      "mean_token_accuracy": 0.1773564413189888,
      "num_tokens": 46857117.0,
      "step": 25395
    },
    {
      "entropy": 5.631255626678467,
      "epoch": 2.1339214450745643,
      "grad_norm": 1.296875,
      "learning_rate": 0.00045418953400854276,
      "loss": 5.1949,
      "mean_token_accuracy": 0.1857804536819458,
      "num_tokens": 46865698.0,
      "step": 25400
    },
    {
      "entropy": 5.652144050598144,
      "epoch": 2.134341524889729,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00045417142155813623,
      "loss": 5.3659,
      "mean_token_accuracy": 0.1705675318837166,
      "num_tokens": 46874294.0,
      "step": 25405
    },
    {
      "entropy": 5.517613935470581,
      "epoch": 2.134761604704894,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004541533059338003,
      "loss": 5.2161,
      "mean_token_accuracy": 0.18056589215993882,
      "num_tokens": 46883267.0,
      "step": 25410
    },
    {
      "entropy": 5.6216224193572994,
      "epoch": 2.1351816845200586,
      "grad_norm": 1.140625,
      "learning_rate": 0.00045413518713585574,
      "loss": 5.2921,
      "mean_token_accuracy": 0.17223796546459197,
      "num_tokens": 46892799.0,
      "step": 25415
    },
    {
      "entropy": 5.581669712066651,
      "epoch": 2.135601764335224,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00045411706516462356,
      "loss": 5.2277,
      "mean_token_accuracy": 0.181669619679451,
      "num_tokens": 46902817.0,
      "step": 25420
    },
    {
      "entropy": 5.659677743911743,
      "epoch": 2.1360218441503886,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00045409894002042484,
      "loss": 5.36,
      "mean_token_accuracy": 0.17621436566114426,
      "num_tokens": 46911879.0,
      "step": 25425
    },
    {
      "entropy": 5.653998517990113,
      "epoch": 2.1364419239655534,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004540808117035807,
      "loss": 5.309,
      "mean_token_accuracy": 0.17538516819477082,
      "num_tokens": 46921728.0,
      "step": 25430
    },
    {
      "entropy": 5.53970422744751,
      "epoch": 2.1368620037807182,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004540626802144121,
      "loss": 5.1568,
      "mean_token_accuracy": 0.18800482749938965,
      "num_tokens": 46930882.0,
      "step": 25435
    },
    {
      "entropy": 5.588913059234619,
      "epoch": 2.137282083595883,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004540445455532403,
      "loss": 5.2733,
      "mean_token_accuracy": 0.18440222293138503,
      "num_tokens": 46940116.0,
      "step": 25440
    },
    {
      "entropy": 5.632881307601929,
      "epoch": 2.1377021634110482,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004540264077203866,
      "loss": 5.2969,
      "mean_token_accuracy": 0.17567305713891984,
      "num_tokens": 46949906.0,
      "step": 25445
    },
    {
      "entropy": 5.538322496414184,
      "epoch": 2.138122243226213,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004540082667161723,
      "loss": 5.1575,
      "mean_token_accuracy": 0.18402909785509108,
      "num_tokens": 46959176.0,
      "step": 25450
    },
    {
      "entropy": 5.564290857315063,
      "epoch": 2.138542323041378,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004539901225409187,
      "loss": 5.1818,
      "mean_token_accuracy": 0.18928943276405336,
      "num_tokens": 46967912.0,
      "step": 25455
    },
    {
      "entropy": 5.508612012863159,
      "epoch": 2.1389624028565426,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00045397197519494726,
      "loss": 5.1672,
      "mean_token_accuracy": 0.18373244553804396,
      "num_tokens": 46976436.0,
      "step": 25460
    },
    {
      "entropy": 5.541643762588501,
      "epoch": 2.139382482671708,
      "grad_norm": 1.203125,
      "learning_rate": 0.00045395382467857944,
      "loss": 5.2265,
      "mean_token_accuracy": 0.18021349012851715,
      "num_tokens": 46986249.0,
      "step": 25465
    },
    {
      "entropy": 5.615787601470947,
      "epoch": 2.1398025624868726,
      "grad_norm": 1.390625,
      "learning_rate": 0.00045393567099213673,
      "loss": 5.2086,
      "mean_token_accuracy": 0.18988229632377623,
      "num_tokens": 46995234.0,
      "step": 25470
    },
    {
      "entropy": 5.599565076828003,
      "epoch": 2.1402226423020374,
      "grad_norm": 1.15625,
      "learning_rate": 0.00045391751413594077,
      "loss": 5.3534,
      "mean_token_accuracy": 0.17746554017066957,
      "num_tokens": 47004646.0,
      "step": 25475
    },
    {
      "entropy": 5.5105743408203125,
      "epoch": 2.140642722117202,
      "grad_norm": 1.296875,
      "learning_rate": 0.00045389935411031324,
      "loss": 5.1836,
      "mean_token_accuracy": 0.18791836500167847,
      "num_tokens": 47013803.0,
      "step": 25480
    },
    {
      "entropy": 5.5821818828582765,
      "epoch": 2.141062801932367,
      "grad_norm": 1.140625,
      "learning_rate": 0.00045388119091557567,
      "loss": 5.2694,
      "mean_token_accuracy": 0.17922064960002898,
      "num_tokens": 47022691.0,
      "step": 25485
    },
    {
      "entropy": 5.569160270690918,
      "epoch": 2.141482881747532,
      "grad_norm": 1.296875,
      "learning_rate": 0.00045386302455205,
      "loss": 5.2511,
      "mean_token_accuracy": 0.1848608136177063,
      "num_tokens": 47032262.0,
      "step": 25490
    },
    {
      "entropy": 5.568475246429443,
      "epoch": 2.141902961562697,
      "grad_norm": 1.203125,
      "learning_rate": 0.00045384485502005786,
      "loss": 5.252,
      "mean_token_accuracy": 0.1786467030644417,
      "num_tokens": 47041533.0,
      "step": 25495
    },
    {
      "entropy": 5.66682448387146,
      "epoch": 2.142323041377862,
      "grad_norm": 1.3125,
      "learning_rate": 0.00045382668231992127,
      "loss": 5.2778,
      "mean_token_accuracy": 0.1805472657084465,
      "num_tokens": 47050227.0,
      "step": 25500
    },
    {
      "entropy": 5.5357372760772705,
      "epoch": 2.1427431211930266,
      "grad_norm": 1.453125,
      "learning_rate": 0.000453808506451962,
      "loss": 5.1613,
      "mean_token_accuracy": 0.18279432654380798,
      "num_tokens": 47059100.0,
      "step": 25505
    },
    {
      "entropy": 5.483681583404541,
      "epoch": 2.1431632010081914,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004537903274165022,
      "loss": 5.1817,
      "mean_token_accuracy": 0.18441144973039628,
      "num_tokens": 47068861.0,
      "step": 25510
    },
    {
      "entropy": 5.544360399246216,
      "epoch": 2.1435832808233566,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004537721452138638,
      "loss": 5.1731,
      "mean_token_accuracy": 0.1850666284561157,
      "num_tokens": 47077453.0,
      "step": 25515
    },
    {
      "entropy": 5.566759061813355,
      "epoch": 2.1440033606385214,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004537539598443689,
      "loss": 5.1993,
      "mean_token_accuracy": 0.1774608463048935,
      "num_tokens": 47086944.0,
      "step": 25520
    },
    {
      "entropy": 5.595073986053467,
      "epoch": 2.144423440453686,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004537357713083396,
      "loss": 5.2385,
      "mean_token_accuracy": 0.17754791378974916,
      "num_tokens": 47097308.0,
      "step": 25525
    },
    {
      "entropy": 5.49823579788208,
      "epoch": 2.144843520268851,
      "grad_norm": 1.296875,
      "learning_rate": 0.00045371757960609816,
      "loss": 5.262,
      "mean_token_accuracy": 0.18361552953720092,
      "num_tokens": 47106895.0,
      "step": 25530
    },
    {
      "entropy": 5.562717342376709,
      "epoch": 2.145263600084016,
      "grad_norm": 1.5,
      "learning_rate": 0.0004536993847379669,
      "loss": 5.1737,
      "mean_token_accuracy": 0.18939654678106307,
      "num_tokens": 47115452.0,
      "step": 25535
    },
    {
      "entropy": 5.623473310470581,
      "epoch": 2.145683679899181,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004536811867042679,
      "loss": 5.3421,
      "mean_token_accuracy": 0.18081735968589782,
      "num_tokens": 47124361.0,
      "step": 25540
    },
    {
      "entropy": 5.619688510894775,
      "epoch": 2.1461037597143457,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00045366298550532385,
      "loss": 5.2216,
      "mean_token_accuracy": 0.18585958927869797,
      "num_tokens": 47133256.0,
      "step": 25545
    },
    {
      "entropy": 5.559874629974365,
      "epoch": 2.1465238395295105,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000453644781141457,
      "loss": 5.2374,
      "mean_token_accuracy": 0.1828676462173462,
      "num_tokens": 47141716.0,
      "step": 25550
    },
    {
      "entropy": 5.599211072921753,
      "epoch": 2.1469439193446753,
      "grad_norm": 1.171875,
      "learning_rate": 0.00045362657361298973,
      "loss": 5.2306,
      "mean_token_accuracy": 0.17157900482416152,
      "num_tokens": 47150894.0,
      "step": 25555
    },
    {
      "entropy": 5.536346673965454,
      "epoch": 2.1473639991598406,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004536083629202448,
      "loss": 5.1865,
      "mean_token_accuracy": 0.18119829148054123,
      "num_tokens": 47160097.0,
      "step": 25560
    },
    {
      "entropy": 5.574508094787598,
      "epoch": 2.1477840789750053,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0004535901490635446,
      "loss": 5.2626,
      "mean_token_accuracy": 0.17742125689983368,
      "num_tokens": 47169779.0,
      "step": 25565
    },
    {
      "entropy": 5.528879165649414,
      "epoch": 2.14820415879017,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004535719320432119,
      "loss": 5.2172,
      "mean_token_accuracy": 0.18596142530441284,
      "num_tokens": 47179486.0,
      "step": 25570
    },
    {
      "entropy": 5.632862901687622,
      "epoch": 2.148624238605335,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004535537118595694,
      "loss": 5.2727,
      "mean_token_accuracy": 0.1819309487938881,
      "num_tokens": 47188241.0,
      "step": 25575
    },
    {
      "entropy": 5.627860498428345,
      "epoch": 2.1490443184204997,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00045353548851293976,
      "loss": 5.2885,
      "mean_token_accuracy": 0.1787621945142746,
      "num_tokens": 47197320.0,
      "step": 25580
    },
    {
      "entropy": 5.55765175819397,
      "epoch": 2.149464398235665,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004535172620036459,
      "loss": 5.2501,
      "mean_token_accuracy": 0.17641294449567796,
      "num_tokens": 47206514.0,
      "step": 25585
    },
    {
      "entropy": 5.569736337661743,
      "epoch": 2.1498844780508297,
      "grad_norm": 1.21875,
      "learning_rate": 0.00045349903233201066,
      "loss": 5.2422,
      "mean_token_accuracy": 0.18452052921056747,
      "num_tokens": 47215253.0,
      "step": 25590
    },
    {
      "entropy": 5.440997123718262,
      "epoch": 2.1503045578659945,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004534807994983571,
      "loss": 5.1631,
      "mean_token_accuracy": 0.18232982009649276,
      "num_tokens": 47224360.0,
      "step": 25595
    },
    {
      "entropy": 5.600251197814941,
      "epoch": 2.1507246376811593,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00045346256350300794,
      "loss": 5.2527,
      "mean_token_accuracy": 0.18405756801366807,
      "num_tokens": 47234289.0,
      "step": 25600
    },
    {
      "entropy": 5.583159971237182,
      "epoch": 2.151144717496324,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004534443243462865,
      "loss": 5.2419,
      "mean_token_accuracy": 0.18565741777420045,
      "num_tokens": 47244393.0,
      "step": 25605
    },
    {
      "entropy": 5.590400695800781,
      "epoch": 2.1515647973114893,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004534260820285156,
      "loss": 5.3576,
      "mean_token_accuracy": 0.17586048245429992,
      "num_tokens": 47253947.0,
      "step": 25610
    },
    {
      "entropy": 5.571525526046753,
      "epoch": 2.151984877126654,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004534078365500186,
      "loss": 5.2833,
      "mean_token_accuracy": 0.183456090092659,
      "num_tokens": 47263361.0,
      "step": 25615
    },
    {
      "entropy": 5.742711925506592,
      "epoch": 2.152404956941819,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004533895879111186,
      "loss": 5.4905,
      "mean_token_accuracy": 0.1716293752193451,
      "num_tokens": 47274460.0,
      "step": 25620
    },
    {
      "entropy": 5.679354095458985,
      "epoch": 2.1528250367569837,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00045337133611213893,
      "loss": 5.3501,
      "mean_token_accuracy": 0.1751276358962059,
      "num_tokens": 47283651.0,
      "step": 25625
    },
    {
      "entropy": 5.596505260467529,
      "epoch": 2.153245116572149,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004533530811534028,
      "loss": 5.1989,
      "mean_token_accuracy": 0.18323510140180588,
      "num_tokens": 47293220.0,
      "step": 25630
    },
    {
      "entropy": 5.455846166610717,
      "epoch": 2.1536651963873137,
      "grad_norm": 1.15625,
      "learning_rate": 0.00045333482303523383,
      "loss": 5.0958,
      "mean_token_accuracy": 0.18757716715335845,
      "num_tokens": 47302468.0,
      "step": 25635
    },
    {
      "entropy": 5.5216881275177006,
      "epoch": 2.1540852762024785,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00045331656175795525,
      "loss": 5.2002,
      "mean_token_accuracy": 0.18590987026691436,
      "num_tokens": 47311241.0,
      "step": 25640
    },
    {
      "entropy": 5.593689203262329,
      "epoch": 2.1545053560176433,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004532982973218906,
      "loss": 5.2689,
      "mean_token_accuracy": 0.1770406797528267,
      "num_tokens": 47321526.0,
      "step": 25645
    },
    {
      "entropy": 5.634081697463989,
      "epoch": 2.154925435832808,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004532800297273634,
      "loss": 5.295,
      "mean_token_accuracy": 0.170576836168766,
      "num_tokens": 47331449.0,
      "step": 25650
    },
    {
      "entropy": 5.596206092834473,
      "epoch": 2.1553455156479733,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004532617589746972,
      "loss": 5.2305,
      "mean_token_accuracy": 0.18281137347221374,
      "num_tokens": 47340836.0,
      "step": 25655
    },
    {
      "entropy": 5.57817006111145,
      "epoch": 2.155765595463138,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004532434850642159,
      "loss": 5.2626,
      "mean_token_accuracy": 0.17871108800172805,
      "num_tokens": 47350735.0,
      "step": 25660
    },
    {
      "entropy": 5.576069068908692,
      "epoch": 2.156185675278303,
      "grad_norm": 1.515625,
      "learning_rate": 0.00045322520799624287,
      "loss": 5.2626,
      "mean_token_accuracy": 0.18089484870433808,
      "num_tokens": 47360089.0,
      "step": 25665
    },
    {
      "entropy": 5.570600891113282,
      "epoch": 2.1566057550934676,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004532069277711022,
      "loss": 5.1454,
      "mean_token_accuracy": 0.18236857503652573,
      "num_tokens": 47369570.0,
      "step": 25670
    },
    {
      "entropy": 5.5844062805175785,
      "epoch": 2.157025834908633,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004531886443891175,
      "loss": 5.2098,
      "mean_token_accuracy": 0.17515720278024674,
      "num_tokens": 47379504.0,
      "step": 25675
    },
    {
      "entropy": 5.598374223709106,
      "epoch": 2.1574459147237977,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004531703578506127,
      "loss": 5.2745,
      "mean_token_accuracy": 0.17742739021778106,
      "num_tokens": 47388968.0,
      "step": 25680
    },
    {
      "entropy": 5.503680849075318,
      "epoch": 2.1578659945389624,
      "grad_norm": 1.234375,
      "learning_rate": 0.00045315206815591176,
      "loss": 5.2167,
      "mean_token_accuracy": 0.18248643726110458,
      "num_tokens": 47398124.0,
      "step": 25685
    },
    {
      "entropy": 5.500007057189942,
      "epoch": 2.1582860743541272,
      "grad_norm": 1.328125,
      "learning_rate": 0.00045313377530533874,
      "loss": 5.194,
      "mean_token_accuracy": 0.18553364723920823,
      "num_tokens": 47407082.0,
      "step": 25690
    },
    {
      "entropy": 5.570782136917114,
      "epoch": 2.158706154169292,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00045311547929921753,
      "loss": 5.1959,
      "mean_token_accuracy": 0.1817895755171776,
      "num_tokens": 47416369.0,
      "step": 25695
    },
    {
      "entropy": 5.4879889488220215,
      "epoch": 2.1591262339844572,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004530971801378723,
      "loss": 5.1491,
      "mean_token_accuracy": 0.1861529141664505,
      "num_tokens": 47424947.0,
      "step": 25700
    },
    {
      "entropy": 5.4949806213378904,
      "epoch": 2.159546313799622,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004530788778216274,
      "loss": 5.2083,
      "mean_token_accuracy": 0.18296413868665695,
      "num_tokens": 47433659.0,
      "step": 25705
    },
    {
      "entropy": 5.6160520076751705,
      "epoch": 2.159966393614787,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004530605723508067,
      "loss": 5.3032,
      "mean_token_accuracy": 0.17521269619464874,
      "num_tokens": 47444706.0,
      "step": 25710
    },
    {
      "entropy": 5.676188325881958,
      "epoch": 2.1603864734299516,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004530422637257347,
      "loss": 5.3556,
      "mean_token_accuracy": 0.18032662719488143,
      "num_tokens": 47454200.0,
      "step": 25715
    },
    {
      "entropy": 5.688117837905883,
      "epoch": 2.1608065532451164,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004530239519467356,
      "loss": 5.2895,
      "mean_token_accuracy": 0.18120054751634598,
      "num_tokens": 47463660.0,
      "step": 25720
    },
    {
      "entropy": 5.53205189704895,
      "epoch": 2.1612266330602816,
      "grad_norm": 1.21875,
      "learning_rate": 0.00045300563701413407,
      "loss": 5.1915,
      "mean_token_accuracy": 0.17979100346565247,
      "num_tokens": 47472014.0,
      "step": 25725
    },
    {
      "entropy": 5.56534628868103,
      "epoch": 2.1616467128754464,
      "grad_norm": 1.34375,
      "learning_rate": 0.00045298731892825416,
      "loss": 5.25,
      "mean_token_accuracy": 0.18681857585906983,
      "num_tokens": 47481997.0,
      "step": 25730
    },
    {
      "entropy": 5.565765762329102,
      "epoch": 2.162066792690611,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00045296899768942054,
      "loss": 5.2064,
      "mean_token_accuracy": 0.17812927365303038,
      "num_tokens": 47490929.0,
      "step": 25735
    },
    {
      "entropy": 5.536469745635986,
      "epoch": 2.162486872505776,
      "grad_norm": 1.09375,
      "learning_rate": 0.00045295067329795784,
      "loss": 5.2619,
      "mean_token_accuracy": 0.18034785538911818,
      "num_tokens": 47500238.0,
      "step": 25740
    },
    {
      "entropy": 5.650399208068848,
      "epoch": 2.1629069523209408,
      "grad_norm": 1.21875,
      "learning_rate": 0.00045293234575419054,
      "loss": 5.3821,
      "mean_token_accuracy": 0.17499903887510299,
      "num_tokens": 47510017.0,
      "step": 25745
    },
    {
      "entropy": 5.5505811214447025,
      "epoch": 2.163327032136106,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004529140150584435,
      "loss": 5.2289,
      "mean_token_accuracy": 0.18234107345342637,
      "num_tokens": 47519552.0,
      "step": 25750
    },
    {
      "entropy": 5.547741031646728,
      "epoch": 2.163747111951271,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004528956812110411,
      "loss": 5.1471,
      "mean_token_accuracy": 0.18643385022878647,
      "num_tokens": 47528045.0,
      "step": 25755
    },
    {
      "entropy": 5.549588966369629,
      "epoch": 2.1641671917664356,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004528773442123084,
      "loss": 5.1889,
      "mean_token_accuracy": 0.18022262156009675,
      "num_tokens": 47537171.0,
      "step": 25760
    },
    {
      "entropy": 5.617220115661621,
      "epoch": 2.1645872715816004,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004528590040625701,
      "loss": 5.3621,
      "mean_token_accuracy": 0.16963764727115632,
      "num_tokens": 47547283.0,
      "step": 25765
    },
    {
      "entropy": 5.591179037094117,
      "epoch": 2.1650073513967656,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004528406607621512,
      "loss": 5.2438,
      "mean_token_accuracy": 0.18007340431213378,
      "num_tokens": 47556042.0,
      "step": 25770
    },
    {
      "entropy": 5.539952087402344,
      "epoch": 2.1654274312119304,
      "grad_norm": 1.328125,
      "learning_rate": 0.00045282231431137654,
      "loss": 5.2546,
      "mean_token_accuracy": 0.18644043505191804,
      "num_tokens": 47564167.0,
      "step": 25775
    },
    {
      "entropy": 5.598731470108032,
      "epoch": 2.165847511027095,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004528039647105712,
      "loss": 5.264,
      "mean_token_accuracy": 0.18392900973558426,
      "num_tokens": 47573049.0,
      "step": 25780
    },
    {
      "entropy": 5.543861436843872,
      "epoch": 2.16626759084226,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004527856119600601,
      "loss": 5.2158,
      "mean_token_accuracy": 0.1810244217514992,
      "num_tokens": 47581977.0,
      "step": 25785
    },
    {
      "entropy": 5.626886987686158,
      "epoch": 2.1666876706574247,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00045276725606016837,
      "loss": 5.3266,
      "mean_token_accuracy": 0.17703167498111724,
      "num_tokens": 47591302.0,
      "step": 25790
    },
    {
      "entropy": 5.6712634563446045,
      "epoch": 2.16710775047259,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004527488970112214,
      "loss": 5.3143,
      "mean_token_accuracy": 0.17381527423858642,
      "num_tokens": 47600935.0,
      "step": 25795
    },
    {
      "entropy": 5.56194372177124,
      "epoch": 2.1675278302877548,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00045273053481354413,
      "loss": 5.2159,
      "mean_token_accuracy": 0.18013566583395005,
      "num_tokens": 47609918.0,
      "step": 25800
    },
    {
      "entropy": 5.53008394241333,
      "epoch": 2.1679479101029195,
      "grad_norm": 1.28125,
      "learning_rate": 0.00045271216946746195,
      "loss": 5.2605,
      "mean_token_accuracy": 0.17985527962446213,
      "num_tokens": 47618407.0,
      "step": 25805
    },
    {
      "entropy": 5.570635843276977,
      "epoch": 2.1683679899180843,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00045269380097330027,
      "loss": 5.2765,
      "mean_token_accuracy": 0.1783192679286003,
      "num_tokens": 47627900.0,
      "step": 25810
    },
    {
      "entropy": 5.656054401397705,
      "epoch": 2.168788069733249,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004526754293313844,
      "loss": 5.3402,
      "mean_token_accuracy": 0.18012864738702775,
      "num_tokens": 47636740.0,
      "step": 25815
    },
    {
      "entropy": 5.499588298797607,
      "epoch": 2.1692081495484143,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004526570545420397,
      "loss": 5.136,
      "mean_token_accuracy": 0.19015962183475493,
      "num_tokens": 47646135.0,
      "step": 25820
    },
    {
      "entropy": 5.626417541503907,
      "epoch": 2.169628229363579,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004526386766055918,
      "loss": 5.3418,
      "mean_token_accuracy": 0.18094574064016342,
      "num_tokens": 47654203.0,
      "step": 25825
    },
    {
      "entropy": 5.5529046058654785,
      "epoch": 2.170048309178744,
      "grad_norm": 1.515625,
      "learning_rate": 0.0004526202955223662,
      "loss": 5.2701,
      "mean_token_accuracy": 0.18432559072971344,
      "num_tokens": 47663232.0,
      "step": 25830
    },
    {
      "entropy": 5.660079097747802,
      "epoch": 2.1704683889939087,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00045260191129268857,
      "loss": 5.2736,
      "mean_token_accuracy": 0.17898155152797698,
      "num_tokens": 47672121.0,
      "step": 25835
    },
    {
      "entropy": 5.598497581481934,
      "epoch": 2.170888468809074,
      "grad_norm": 1.515625,
      "learning_rate": 0.00045258352391688454,
      "loss": 5.2461,
      "mean_token_accuracy": 0.180874040722847,
      "num_tokens": 47681512.0,
      "step": 25840
    },
    {
      "entropy": 5.518058919906617,
      "epoch": 2.1713085486242387,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00045256513339527984,
      "loss": 5.1635,
      "mean_token_accuracy": 0.18915065228939057,
      "num_tokens": 47690340.0,
      "step": 25845
    },
    {
      "entropy": 5.554655313491821,
      "epoch": 2.1717286284394035,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00045254673972820015,
      "loss": 5.1709,
      "mean_token_accuracy": 0.19089266061782836,
      "num_tokens": 47698917.0,
      "step": 25850
    },
    {
      "entropy": 5.569250106811523,
      "epoch": 2.1721487082545683,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00045252834291597144,
      "loss": 5.2542,
      "mean_token_accuracy": 0.1742259219288826,
      "num_tokens": 47708832.0,
      "step": 25855
    },
    {
      "entropy": 5.518814420700073,
      "epoch": 2.172568788069733,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004525099429589195,
      "loss": 5.2179,
      "mean_token_accuracy": 0.18491914570331575,
      "num_tokens": 47717820.0,
      "step": 25860
    },
    {
      "entropy": 5.538672924041748,
      "epoch": 2.1729888678848983,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004524915398573704,
      "loss": 5.1844,
      "mean_token_accuracy": 0.18673222810029982,
      "num_tokens": 47726959.0,
      "step": 25865
    },
    {
      "entropy": 5.549788761138916,
      "epoch": 2.173408947700063,
      "grad_norm": 1.125,
      "learning_rate": 0.00045247313361165007,
      "loss": 5.223,
      "mean_token_accuracy": 0.18673939406871795,
      "num_tokens": 47736100.0,
      "step": 25870
    },
    {
      "entropy": 5.585145425796509,
      "epoch": 2.173829027515228,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004524547242220845,
      "loss": 5.2297,
      "mean_token_accuracy": 0.1780049115419388,
      "num_tokens": 47745356.0,
      "step": 25875
    },
    {
      "entropy": 5.628790664672851,
      "epoch": 2.1742491073303927,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004524363116889998,
      "loss": 5.3224,
      "mean_token_accuracy": 0.17173045575618745,
      "num_tokens": 47755109.0,
      "step": 25880
    },
    {
      "entropy": 5.688096284866333,
      "epoch": 2.1746691871455575,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004524178960127224,
      "loss": 5.3527,
      "mean_token_accuracy": 0.17879929393529892,
      "num_tokens": 47764463.0,
      "step": 25885
    },
    {
      "entropy": 5.6037006855010985,
      "epoch": 2.1750892669607227,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004523994771935782,
      "loss": 5.2755,
      "mean_token_accuracy": 0.1830439954996109,
      "num_tokens": 47773860.0,
      "step": 25890
    },
    {
      "entropy": 5.557469701766967,
      "epoch": 2.1755093467758875,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004523810552318937,
      "loss": 5.2871,
      "mean_token_accuracy": 0.1794813096523285,
      "num_tokens": 47782850.0,
      "step": 25895
    },
    {
      "entropy": 5.599577808380127,
      "epoch": 2.1759294265910523,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004523626301279951,
      "loss": 5.2182,
      "mean_token_accuracy": 0.18164302855730058,
      "num_tokens": 47792074.0,
      "step": 25900
    },
    {
      "entropy": 5.480144739151001,
      "epoch": 2.176349506406217,
      "grad_norm": 1.21875,
      "learning_rate": 0.00045234420188220874,
      "loss": 5.0396,
      "mean_token_accuracy": 0.19716060608625413,
      "num_tokens": 47800419.0,
      "step": 25905
    },
    {
      "entropy": 5.393616819381714,
      "epoch": 2.176769586221382,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004523257704948612,
      "loss": 5.1317,
      "mean_token_accuracy": 0.1899827554821968,
      "num_tokens": 47809124.0,
      "step": 25910
    },
    {
      "entropy": 5.4467785358428955,
      "epoch": 2.177189666036547,
      "grad_norm": 1.3515625,
      "learning_rate": 0.000452307335966279,
      "loss": 5.175,
      "mean_token_accuracy": 0.18256177753210068,
      "num_tokens": 47818242.0,
      "step": 25915
    },
    {
      "entropy": 5.6521217823028564,
      "epoch": 2.177609745851712,
      "grad_norm": 1.46875,
      "learning_rate": 0.00045228889829678864,
      "loss": 5.2271,
      "mean_token_accuracy": 0.1768910676240921,
      "num_tokens": 47826905.0,
      "step": 25920
    },
    {
      "entropy": 5.493238687515259,
      "epoch": 2.1780298256668766,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00045227045748671675,
      "loss": 5.2022,
      "mean_token_accuracy": 0.18909134566783906,
      "num_tokens": 47835584.0,
      "step": 25925
    },
    {
      "entropy": 5.44433274269104,
      "epoch": 2.1784499054820414,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00045225201353638994,
      "loss": 5.1886,
      "mean_token_accuracy": 0.1886415734887123,
      "num_tokens": 47844230.0,
      "step": 25930
    },
    {
      "entropy": 5.558039665222168,
      "epoch": 2.1788699852972067,
      "grad_norm": 1.3046875,
      "learning_rate": 0.000452233566446135,
      "loss": 5.1239,
      "mean_token_accuracy": 0.19452561289072037,
      "num_tokens": 47852560.0,
      "step": 25935
    },
    {
      "entropy": 5.597509145736694,
      "epoch": 2.1792900651123714,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004522151162162787,
      "loss": 5.2139,
      "mean_token_accuracy": 0.18785344064235687,
      "num_tokens": 47861003.0,
      "step": 25940
    },
    {
      "entropy": 5.5610394954681395,
      "epoch": 2.1797101449275362,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004521966628471478,
      "loss": 5.2409,
      "mean_token_accuracy": 0.17513357549905778,
      "num_tokens": 47869959.0,
      "step": 25945
    },
    {
      "entropy": 5.579053926467895,
      "epoch": 2.180130224742701,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004521782063390694,
      "loss": 5.2653,
      "mean_token_accuracy": 0.1776416063308716,
      "num_tokens": 47879330.0,
      "step": 25950
    },
    {
      "entropy": 5.557933568954468,
      "epoch": 2.180550304557866,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004521597466923702,
      "loss": 5.213,
      "mean_token_accuracy": 0.17700705230236052,
      "num_tokens": 47888046.0,
      "step": 25955
    },
    {
      "entropy": 5.581106185913086,
      "epoch": 2.180970384373031,
      "grad_norm": 1.53125,
      "learning_rate": 0.00045214128390737735,
      "loss": 5.2659,
      "mean_token_accuracy": 0.17578529864549636,
      "num_tokens": 47898107.0,
      "step": 25960
    },
    {
      "entropy": 5.584275245666504,
      "epoch": 2.181390464188196,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004521228179844178,
      "loss": 5.2611,
      "mean_token_accuracy": 0.1777123913168907,
      "num_tokens": 47907417.0,
      "step": 25965
    },
    {
      "entropy": 5.644988870620727,
      "epoch": 2.1818105440033606,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004521043489238188,
      "loss": 5.3934,
      "mean_token_accuracy": 0.17310400009155275,
      "num_tokens": 47915727.0,
      "step": 25970
    },
    {
      "entropy": 5.600101804733276,
      "epoch": 2.1822306238185254,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00045208587672590744,
      "loss": 5.2305,
      "mean_token_accuracy": 0.18534436225891113,
      "num_tokens": 47924718.0,
      "step": 25975
    },
    {
      "entropy": 5.498136043548584,
      "epoch": 2.1826507036336906,
      "grad_norm": 1.2265625,
      "learning_rate": 0.000452067401391011,
      "loss": 5.1874,
      "mean_token_accuracy": 0.19538498818874359,
      "num_tokens": 47933869.0,
      "step": 25980
    },
    {
      "entropy": 5.530723142623901,
      "epoch": 2.1830707834488554,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00045204892291945666,
      "loss": 5.2336,
      "mean_token_accuracy": 0.18253107666969298,
      "num_tokens": 47942723.0,
      "step": 25985
    },
    {
      "entropy": 5.520533752441406,
      "epoch": 2.18349086326402,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004520304413115719,
      "loss": 5.1367,
      "mean_token_accuracy": 0.17871775031089782,
      "num_tokens": 47950862.0,
      "step": 25990
    },
    {
      "entropy": 5.561363792419433,
      "epoch": 2.183910943079185,
      "grad_norm": 1.34375,
      "learning_rate": 0.00045201195656768394,
      "loss": 5.319,
      "mean_token_accuracy": 0.18086769431829453,
      "num_tokens": 47960207.0,
      "step": 25995
    },
    {
      "entropy": 5.622287750244141,
      "epoch": 2.1843310228943498,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00045199346868812036,
      "loss": 5.3525,
      "mean_token_accuracy": 0.173395574092865,
      "num_tokens": 47970022.0,
      "step": 26000
    },
    {
      "entropy": 5.595527791976929,
      "epoch": 2.184751102709515,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004519749776732086,
      "loss": 5.1432,
      "mean_token_accuracy": 0.18342394977808,
      "num_tokens": 47978524.0,
      "step": 26005
    },
    {
      "entropy": 5.498883962631226,
      "epoch": 2.18517118252468,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004519564835232762,
      "loss": 5.1581,
      "mean_token_accuracy": 0.18870022296905517,
      "num_tokens": 47988004.0,
      "step": 26010
    },
    {
      "entropy": 5.467319107055664,
      "epoch": 2.1855912623398446,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00045193798623865093,
      "loss": 5.2359,
      "mean_token_accuracy": 0.1859189584851265,
      "num_tokens": 47996706.0,
      "step": 26015
    },
    {
      "entropy": 5.534450531005859,
      "epoch": 2.1860113421550094,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004519194858196602,
      "loss": 5.2032,
      "mean_token_accuracy": 0.17829530388116838,
      "num_tokens": 48005305.0,
      "step": 26020
    },
    {
      "entropy": 5.541350555419922,
      "epoch": 2.186431421970174,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00045190098226663194,
      "loss": 5.166,
      "mean_token_accuracy": 0.1851663440465927,
      "num_tokens": 48014349.0,
      "step": 26025
    },
    {
      "entropy": 5.542138624191284,
      "epoch": 2.1868515017853394,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004518824755798939,
      "loss": 5.262,
      "mean_token_accuracy": 0.18029896765947342,
      "num_tokens": 48023630.0,
      "step": 26030
    },
    {
      "entropy": 5.5073822975158695,
      "epoch": 2.187271581600504,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004518639657597739,
      "loss": 5.1322,
      "mean_token_accuracy": 0.18926989734172822,
      "num_tokens": 48032869.0,
      "step": 26035
    },
    {
      "entropy": 5.618745613098144,
      "epoch": 2.187691661415669,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00045184545280659976,
      "loss": 5.3008,
      "mean_token_accuracy": 0.1783752217888832,
      "num_tokens": 48041834.0,
      "step": 26040
    },
    {
      "entropy": 5.572986364364624,
      "epoch": 2.1881117412308337,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004518269367206996,
      "loss": 5.1458,
      "mean_token_accuracy": 0.18428342789411545,
      "num_tokens": 48051114.0,
      "step": 26045
    },
    {
      "entropy": 5.571397972106934,
      "epoch": 2.1885318210459985,
      "grad_norm": 1.25,
      "learning_rate": 0.0004518084175024012,
      "loss": 5.2946,
      "mean_token_accuracy": 0.1794861987233162,
      "num_tokens": 48059788.0,
      "step": 26050
    },
    {
      "entropy": 5.554336500167847,
      "epoch": 2.1889519008611638,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004517898951520327,
      "loss": 5.1947,
      "mean_token_accuracy": 0.183907413482666,
      "num_tokens": 48068419.0,
      "step": 26055
    },
    {
      "entropy": 5.502086639404297,
      "epoch": 2.1893719806763285,
      "grad_norm": 1.328125,
      "learning_rate": 0.00045177136966992234,
      "loss": 5.1843,
      "mean_token_accuracy": 0.18407948017120362,
      "num_tokens": 48077115.0,
      "step": 26060
    },
    {
      "entropy": 5.511706829071045,
      "epoch": 2.1897920604914933,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00045175284105639806,
      "loss": 5.213,
      "mean_token_accuracy": 0.18183680176734923,
      "num_tokens": 48085744.0,
      "step": 26065
    },
    {
      "entropy": 5.538540458679199,
      "epoch": 2.190212140306658,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00045173430931178834,
      "loss": 5.2602,
      "mean_token_accuracy": 0.18141899555921553,
      "num_tokens": 48094829.0,
      "step": 26070
    },
    {
      "entropy": 5.609856843948364,
      "epoch": 2.1906322201218233,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004517157744364213,
      "loss": 5.2453,
      "mean_token_accuracy": 0.17679832130670547,
      "num_tokens": 48104086.0,
      "step": 26075
    },
    {
      "entropy": 5.557946252822876,
      "epoch": 2.191052299936988,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004516972364306253,
      "loss": 5.2454,
      "mean_token_accuracy": 0.18846452683210374,
      "num_tokens": 48112268.0,
      "step": 26080
    },
    {
      "entropy": 5.542945528030396,
      "epoch": 2.191472379752153,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004516786952947287,
      "loss": 5.1617,
      "mean_token_accuracy": 0.18539133965969085,
      "num_tokens": 48121157.0,
      "step": 26085
    },
    {
      "entropy": 5.6188517093658445,
      "epoch": 2.1918924595673177,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004516601510290601,
      "loss": 5.31,
      "mean_token_accuracy": 0.1774328276515007,
      "num_tokens": 48131093.0,
      "step": 26090
    },
    {
      "entropy": 5.630981349945069,
      "epoch": 2.1923125393824825,
      "grad_norm": 1.375,
      "learning_rate": 0.0004516416036339478,
      "loss": 5.2722,
      "mean_token_accuracy": 0.1754802793264389,
      "num_tokens": 48140972.0,
      "step": 26095
    },
    {
      "entropy": 5.541148614883423,
      "epoch": 2.1927326191976477,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00045162305310972046,
      "loss": 5.1644,
      "mean_token_accuracy": 0.1860471785068512,
      "num_tokens": 48150947.0,
      "step": 26100
    },
    {
      "entropy": 5.594529247283935,
      "epoch": 2.1931526990128125,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00045160449945670666,
      "loss": 5.2899,
      "mean_token_accuracy": 0.17019134014844894,
      "num_tokens": 48159859.0,
      "step": 26105
    },
    {
      "entropy": 5.528452682495117,
      "epoch": 2.1935727788279773,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004515859426752352,
      "loss": 5.2052,
      "mean_token_accuracy": 0.18596179336309432,
      "num_tokens": 48168779.0,
      "step": 26110
    },
    {
      "entropy": 5.458009481430054,
      "epoch": 2.193992858643142,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004515673827656345,
      "loss": 5.1727,
      "mean_token_accuracy": 0.18774716258049012,
      "num_tokens": 48178044.0,
      "step": 26115
    },
    {
      "entropy": 5.47389965057373,
      "epoch": 2.194412938458307,
      "grad_norm": 1.265625,
      "learning_rate": 0.00045154881972823377,
      "loss": 5.1534,
      "mean_token_accuracy": 0.18602932691574098,
      "num_tokens": 48186929.0,
      "step": 26120
    },
    {
      "entropy": 5.595747184753418,
      "epoch": 2.194833018273472,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004515302535633614,
      "loss": 5.233,
      "mean_token_accuracy": 0.18522415906190873,
      "num_tokens": 48196677.0,
      "step": 26125
    },
    {
      "entropy": 5.621710920333863,
      "epoch": 2.195253098088637,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004515116842713466,
      "loss": 5.3499,
      "mean_token_accuracy": 0.17664993554353714,
      "num_tokens": 48206317.0,
      "step": 26130
    },
    {
      "entropy": 5.528555583953858,
      "epoch": 2.1956731779038017,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00045149311185251816,
      "loss": 5.2606,
      "mean_token_accuracy": 0.17857054769992828,
      "num_tokens": 48215985.0,
      "step": 26135
    },
    {
      "entropy": 5.572331714630127,
      "epoch": 2.1960932577189665,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00045147453630720513,
      "loss": 5.2019,
      "mean_token_accuracy": 0.17628096789121628,
      "num_tokens": 48224939.0,
      "step": 26140
    },
    {
      "entropy": 5.568393039703369,
      "epoch": 2.1965133375341317,
      "grad_norm": 1.125,
      "learning_rate": 0.0004514559576357366,
      "loss": 5.2243,
      "mean_token_accuracy": 0.18463800400495528,
      "num_tokens": 48234476.0,
      "step": 26145
    },
    {
      "entropy": 5.492169713973999,
      "epoch": 2.1969334173492965,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004514373758384416,
      "loss": 5.2374,
      "mean_token_accuracy": 0.18523749262094497,
      "num_tokens": 48243620.0,
      "step": 26150
    },
    {
      "entropy": 5.643612957000732,
      "epoch": 2.1973534971644613,
      "grad_norm": 1.140625,
      "learning_rate": 0.00045141879091564936,
      "loss": 5.3189,
      "mean_token_accuracy": 0.1720829576253891,
      "num_tokens": 48253227.0,
      "step": 26155
    },
    {
      "entropy": 5.515205383300781,
      "epoch": 2.197773576979626,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004514002028676891,
      "loss": 5.1356,
      "mean_token_accuracy": 0.18610607087612152,
      "num_tokens": 48262304.0,
      "step": 26160
    },
    {
      "entropy": 5.6060014247894285,
      "epoch": 2.198193656794791,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00045138161169489,
      "loss": 5.2785,
      "mean_token_accuracy": 0.17371246367692947,
      "num_tokens": 48271810.0,
      "step": 26165
    },
    {
      "entropy": 5.511410188674927,
      "epoch": 2.198613736609956,
      "grad_norm": 1.140625,
      "learning_rate": 0.00045136301739758157,
      "loss": 5.1978,
      "mean_token_accuracy": 0.18623828440904616,
      "num_tokens": 48282223.0,
      "step": 26170
    },
    {
      "entropy": 5.658602714538574,
      "epoch": 2.199033816425121,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00045134441997609297,
      "loss": 5.3376,
      "mean_token_accuracy": 0.17029520720243455,
      "num_tokens": 48293376.0,
      "step": 26175
    },
    {
      "entropy": 5.622344970703125,
      "epoch": 2.1994538962402856,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004513258194307539,
      "loss": 5.2451,
      "mean_token_accuracy": 0.17846869826316833,
      "num_tokens": 48302976.0,
      "step": 26180
    },
    {
      "entropy": 5.588206481933594,
      "epoch": 2.1998739760554504,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004513072157618937,
      "loss": 5.2478,
      "mean_token_accuracy": 0.18234435468912125,
      "num_tokens": 48311145.0,
      "step": 26185
    },
    {
      "entropy": 5.57896842956543,
      "epoch": 2.200294055870615,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000451288608969842,
      "loss": 5.264,
      "mean_token_accuracy": 0.18377118110656737,
      "num_tokens": 48320368.0,
      "step": 26190
    },
    {
      "entropy": 5.584278917312622,
      "epoch": 2.2007141356857804,
      "grad_norm": 1.140625,
      "learning_rate": 0.00045126999905492827,
      "loss": 5.2453,
      "mean_token_accuracy": 0.1810531198978424,
      "num_tokens": 48329192.0,
      "step": 26195
    },
    {
      "entropy": 5.6358702182769775,
      "epoch": 2.2011342155009452,
      "grad_norm": 1.375,
      "learning_rate": 0.00045125138601748225,
      "loss": 5.2441,
      "mean_token_accuracy": 0.1850583165884018,
      "num_tokens": 48338134.0,
      "step": 26200
    },
    {
      "entropy": 5.573263645172119,
      "epoch": 2.20155429531611,
      "grad_norm": 1.1875,
      "learning_rate": 0.00045123276985783377,
      "loss": 5.2644,
      "mean_token_accuracy": 0.1787690505385399,
      "num_tokens": 48347072.0,
      "step": 26205
    },
    {
      "entropy": 5.574571418762207,
      "epoch": 2.201974375131275,
      "grad_norm": 1.15625,
      "learning_rate": 0.00045121415057631256,
      "loss": 5.2685,
      "mean_token_accuracy": 0.17656202018260955,
      "num_tokens": 48356528.0,
      "step": 26210
    },
    {
      "entropy": 5.635832262039185,
      "epoch": 2.2023944549464396,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004511955281732484,
      "loss": 5.3308,
      "mean_token_accuracy": 0.1818951115012169,
      "num_tokens": 48365875.0,
      "step": 26215
    },
    {
      "entropy": 5.535738515853882,
      "epoch": 2.202814534761605,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00045117690264897105,
      "loss": 5.1886,
      "mean_token_accuracy": 0.18821368515491485,
      "num_tokens": 48375016.0,
      "step": 26220
    },
    {
      "entropy": 5.534683704376221,
      "epoch": 2.2032346145767696,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004511582740038107,
      "loss": 5.3115,
      "mean_token_accuracy": 0.1730556905269623,
      "num_tokens": 48384615.0,
      "step": 26225
    },
    {
      "entropy": 5.563578033447266,
      "epoch": 2.2036546943919344,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00045113964223809715,
      "loss": 5.243,
      "mean_token_accuracy": 0.18506782799959182,
      "num_tokens": 48393276.0,
      "step": 26230
    },
    {
      "entropy": 5.6329303741455075,
      "epoch": 2.204074774207099,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004511210073521606,
      "loss": 5.1843,
      "mean_token_accuracy": 0.19001355022192,
      "num_tokens": 48402815.0,
      "step": 26235
    },
    {
      "entropy": 5.606810855865478,
      "epoch": 2.2044948540222644,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004511023693463311,
      "loss": 5.3645,
      "mean_token_accuracy": 0.17677425891160964,
      "num_tokens": 48413122.0,
      "step": 26240
    },
    {
      "entropy": 5.509552335739135,
      "epoch": 2.204914933837429,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004510837282209388,
      "loss": 5.2261,
      "mean_token_accuracy": 0.18474381566047668,
      "num_tokens": 48422423.0,
      "step": 26245
    },
    {
      "entropy": 5.554762554168701,
      "epoch": 2.205335013652594,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004510650839763139,
      "loss": 5.2897,
      "mean_token_accuracy": 0.18074411451816558,
      "num_tokens": 48431690.0,
      "step": 26250
    },
    {
      "entropy": 5.570078945159912,
      "epoch": 2.2057550934677588,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004510464366127867,
      "loss": 5.2147,
      "mean_token_accuracy": 0.18037763088941575,
      "num_tokens": 48441827.0,
      "step": 26255
    },
    {
      "entropy": 5.660382032394409,
      "epoch": 2.2061751732829236,
      "grad_norm": 1.1875,
      "learning_rate": 0.00045102778613068757,
      "loss": 5.2943,
      "mean_token_accuracy": 0.1818433940410614,
      "num_tokens": 48452520.0,
      "step": 26260
    },
    {
      "entropy": 5.5084248065948485,
      "epoch": 2.206595253098089,
      "grad_norm": 1.125,
      "learning_rate": 0.0004510091325303468,
      "loss": 5.1939,
      "mean_token_accuracy": 0.1859043687582016,
      "num_tokens": 48461756.0,
      "step": 26265
    },
    {
      "entropy": 5.535715007781983,
      "epoch": 2.2070153329132536,
      "grad_norm": 1.21875,
      "learning_rate": 0.00045099047581209493,
      "loss": 5.2469,
      "mean_token_accuracy": 0.18150984942913057,
      "num_tokens": 48471415.0,
      "step": 26270
    },
    {
      "entropy": 5.486393165588379,
      "epoch": 2.2074354127284184,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004509718159762623,
      "loss": 5.0481,
      "mean_token_accuracy": 0.20080994069576263,
      "num_tokens": 48480296.0,
      "step": 26275
    },
    {
      "entropy": 5.435420560836792,
      "epoch": 2.207855492543583,
      "grad_norm": 1.25,
      "learning_rate": 0.00045095315302317966,
      "loss": 5.2438,
      "mean_token_accuracy": 0.17942239493131637,
      "num_tokens": 48489176.0,
      "step": 26280
    },
    {
      "entropy": 5.545472764968872,
      "epoch": 2.2082755723587484,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004509344869531775,
      "loss": 5.2412,
      "mean_token_accuracy": 0.17815277129411697,
      "num_tokens": 48499274.0,
      "step": 26285
    },
    {
      "entropy": 5.643162870407105,
      "epoch": 2.208695652173913,
      "grad_norm": 1.140625,
      "learning_rate": 0.00045091581776658646,
      "loss": 5.3157,
      "mean_token_accuracy": 0.17709200829267502,
      "num_tokens": 48508515.0,
      "step": 26290
    },
    {
      "entropy": 5.63429536819458,
      "epoch": 2.209115731989078,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004508971454637373,
      "loss": 5.292,
      "mean_token_accuracy": 0.17774045169353486,
      "num_tokens": 48517794.0,
      "step": 26295
    },
    {
      "entropy": 5.544685792922974,
      "epoch": 2.2095358118042427,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004508784700449608,
      "loss": 5.2211,
      "mean_token_accuracy": 0.18276196122169494,
      "num_tokens": 48526185.0,
      "step": 26300
    },
    {
      "entropy": 5.581227159500122,
      "epoch": 2.2099558916194075,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004508597915105878,
      "loss": 5.2583,
      "mean_token_accuracy": 0.1828861728310585,
      "num_tokens": 48535562.0,
      "step": 26305
    },
    {
      "entropy": 5.521593523025513,
      "epoch": 2.2103759714345728,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004508411098609491,
      "loss": 5.1744,
      "mean_token_accuracy": 0.1844916120171547,
      "num_tokens": 48545571.0,
      "step": 26310
    },
    {
      "entropy": 5.5726324081420895,
      "epoch": 2.2107960512497375,
      "grad_norm": 1.234375,
      "learning_rate": 0.00045082242509637566,
      "loss": 5.2027,
      "mean_token_accuracy": 0.18429058641195298,
      "num_tokens": 48554793.0,
      "step": 26315
    },
    {
      "entropy": 5.595474147796631,
      "epoch": 2.2112161310649023,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00045080373721719853,
      "loss": 5.3024,
      "mean_token_accuracy": 0.1763491988182068,
      "num_tokens": 48563346.0,
      "step": 26320
    },
    {
      "entropy": 5.604393863677979,
      "epoch": 2.211636210880067,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004507850462237488,
      "loss": 5.243,
      "mean_token_accuracy": 0.1794013112783432,
      "num_tokens": 48572806.0,
      "step": 26325
    },
    {
      "entropy": 5.4914459705352785,
      "epoch": 2.212056290695232,
      "grad_norm": 1.234375,
      "learning_rate": 0.00045076635211635735,
      "loss": 5.2029,
      "mean_token_accuracy": 0.17539226710796357,
      "num_tokens": 48583278.0,
      "step": 26330
    },
    {
      "entropy": 5.660888957977295,
      "epoch": 2.212476370510397,
      "grad_norm": 1.1875,
      "learning_rate": 0.00045074765489535554,
      "loss": 5.2756,
      "mean_token_accuracy": 0.17532408535480498,
      "num_tokens": 48592824.0,
      "step": 26335
    },
    {
      "entropy": 5.5930393695831295,
      "epoch": 2.212896450325562,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00045072895456107456,
      "loss": 5.2392,
      "mean_token_accuracy": 0.17926144003868102,
      "num_tokens": 48602353.0,
      "step": 26340
    },
    {
      "entropy": 5.668221139907837,
      "epoch": 2.2133165301407267,
      "grad_norm": 1.234375,
      "learning_rate": 0.00045071025111384554,
      "loss": 5.4131,
      "mean_token_accuracy": 0.1653732791543007,
      "num_tokens": 48611346.0,
      "step": 26345
    },
    {
      "entropy": 5.584444999694824,
      "epoch": 2.2137366099558915,
      "grad_norm": 1.1875,
      "learning_rate": 0.000450691544554,
      "loss": 5.2078,
      "mean_token_accuracy": 0.18318766951560975,
      "num_tokens": 48619882.0,
      "step": 26350
    },
    {
      "entropy": 5.497066164016724,
      "epoch": 2.2141566897710563,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004506728348818691,
      "loss": 5.1764,
      "mean_token_accuracy": 0.19190192669630052,
      "num_tokens": 48629003.0,
      "step": 26355
    },
    {
      "entropy": 5.558357524871826,
      "epoch": 2.2145767695862215,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00045065412209778456,
      "loss": 5.2191,
      "mean_token_accuracy": 0.18639827966690065,
      "num_tokens": 48637858.0,
      "step": 26360
    },
    {
      "entropy": 5.645537614822388,
      "epoch": 2.2149968494013863,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004506354062020776,
      "loss": 5.3306,
      "mean_token_accuracy": 0.17350286543369292,
      "num_tokens": 48647935.0,
      "step": 26365
    },
    {
      "entropy": 5.596662330627441,
      "epoch": 2.215416929216551,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004506166871950798,
      "loss": 5.2274,
      "mean_token_accuracy": 0.18635480403900145,
      "num_tokens": 48657335.0,
      "step": 26370
    },
    {
      "entropy": 5.585590553283692,
      "epoch": 2.215837009031716,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004505979650771229,
      "loss": 5.228,
      "mean_token_accuracy": 0.18507956117391586,
      "num_tokens": 48665665.0,
      "step": 26375
    },
    {
      "entropy": 5.598171710968018,
      "epoch": 2.216257088846881,
      "grad_norm": 1.46875,
      "learning_rate": 0.00045057923984853843,
      "loss": 5.3315,
      "mean_token_accuracy": 0.17476841658353806,
      "num_tokens": 48674429.0,
      "step": 26380
    },
    {
      "entropy": 5.5172101020812985,
      "epoch": 2.216677168662046,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00045056051150965817,
      "loss": 5.156,
      "mean_token_accuracy": 0.18483810275793075,
      "num_tokens": 48683550.0,
      "step": 26385
    },
    {
      "entropy": 5.572437953948975,
      "epoch": 2.2170972484772107,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00045054178006081374,
      "loss": 5.2732,
      "mean_token_accuracy": 0.179121695458889,
      "num_tokens": 48692812.0,
      "step": 26390
    },
    {
      "entropy": 5.586096382141113,
      "epoch": 2.2175173282923755,
      "grad_norm": 1.125,
      "learning_rate": 0.0004505230455023372,
      "loss": 5.1938,
      "mean_token_accuracy": 0.18740421831607817,
      "num_tokens": 48700921.0,
      "step": 26395
    },
    {
      "entropy": 5.562817001342774,
      "epoch": 2.2179374081075403,
      "grad_norm": 1.25,
      "learning_rate": 0.00045050430783456026,
      "loss": 5.2985,
      "mean_token_accuracy": 0.1732584699988365,
      "num_tokens": 48710092.0,
      "step": 26400
    },
    {
      "entropy": 5.48442907333374,
      "epoch": 2.2183574879227055,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004504855670578148,
      "loss": 5.1681,
      "mean_token_accuracy": 0.18462619036436081,
      "num_tokens": 48719660.0,
      "step": 26405
    },
    {
      "entropy": 5.644739007949829,
      "epoch": 2.2187775677378703,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000450466823172433,
      "loss": 5.3341,
      "mean_token_accuracy": 0.16835781037807465,
      "num_tokens": 48729042.0,
      "step": 26410
    },
    {
      "entropy": 5.52136754989624,
      "epoch": 2.219197647553035,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004504480761787467,
      "loss": 5.1128,
      "mean_token_accuracy": 0.18427422344684602,
      "num_tokens": 48737550.0,
      "step": 26415
    },
    {
      "entropy": 5.507146787643433,
      "epoch": 2.2196177273682,
      "grad_norm": 1.234375,
      "learning_rate": 0.00045042932607708804,
      "loss": 5.2582,
      "mean_token_accuracy": 0.18514570891857146,
      "num_tokens": 48745708.0,
      "step": 26420
    },
    {
      "entropy": 5.571969270706177,
      "epoch": 2.220037807183365,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004504105728677893,
      "loss": 5.2387,
      "mean_token_accuracy": 0.17926778495311738,
      "num_tokens": 48755319.0,
      "step": 26425
    },
    {
      "entropy": 5.632896089553833,
      "epoch": 2.22045788699853,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004503918165511825,
      "loss": 5.3152,
      "mean_token_accuracy": 0.17411018013954163,
      "num_tokens": 48764818.0,
      "step": 26430
    },
    {
      "entropy": 5.5189882755279545,
      "epoch": 2.2208779668136946,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004503730571276,
      "loss": 5.2286,
      "mean_token_accuracy": 0.18074023723602295,
      "num_tokens": 48773790.0,
      "step": 26435
    },
    {
      "entropy": 5.51453595161438,
      "epoch": 2.2212980466288594,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0004503542945973741,
      "loss": 5.2743,
      "mean_token_accuracy": 0.18049000203609467,
      "num_tokens": 48782987.0,
      "step": 26440
    },
    {
      "entropy": 5.616823530197143,
      "epoch": 2.221718126444024,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004503355289608372,
      "loss": 5.2807,
      "mean_token_accuracy": 0.17764130532741546,
      "num_tokens": 48792375.0,
      "step": 26445
    },
    {
      "entropy": 5.59424934387207,
      "epoch": 2.2221382062591895,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004503167602183217,
      "loss": 5.2319,
      "mean_token_accuracy": 0.18492009937763215,
      "num_tokens": 48801972.0,
      "step": 26450
    },
    {
      "entropy": 5.523099088668824,
      "epoch": 2.2225582860743542,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004502979883701601,
      "loss": 5.263,
      "mean_token_accuracy": 0.18168223798274993,
      "num_tokens": 48810510.0,
      "step": 26455
    },
    {
      "entropy": 5.580435514450073,
      "epoch": 2.222978365889519,
      "grad_norm": 1.390625,
      "learning_rate": 0.00045027921341668476,
      "loss": 5.2397,
      "mean_token_accuracy": 0.1790057823061943,
      "num_tokens": 48819528.0,
      "step": 26460
    },
    {
      "entropy": 5.5356223583221436,
      "epoch": 2.223398445704684,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004502604353582285,
      "loss": 5.2331,
      "mean_token_accuracy": 0.18215977847576142,
      "num_tokens": 48828523.0,
      "step": 26465
    },
    {
      "entropy": 5.5500894546508786,
      "epoch": 2.2238185255198486,
      "grad_norm": 1.25,
      "learning_rate": 0.00045024165419512384,
      "loss": 5.2462,
      "mean_token_accuracy": 0.18560929149389266,
      "num_tokens": 48838813.0,
      "step": 26470
    },
    {
      "entropy": 5.598341941833496,
      "epoch": 2.224238605335014,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004502228699277035,
      "loss": 5.2444,
      "mean_token_accuracy": 0.17379153817892073,
      "num_tokens": 48847694.0,
      "step": 26475
    },
    {
      "entropy": 5.62660551071167,
      "epoch": 2.2246586851501786,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004502040825563003,
      "loss": 5.3203,
      "mean_token_accuracy": 0.18026840984821318,
      "num_tokens": 48856927.0,
      "step": 26480
    },
    {
      "entropy": 5.5540608882904055,
      "epoch": 2.2250787649653434,
      "grad_norm": 1.21875,
      "learning_rate": 0.00045018529208124697,
      "loss": 5.2389,
      "mean_token_accuracy": 0.176020610332489,
      "num_tokens": 48865971.0,
      "step": 26485
    },
    {
      "entropy": 5.642820262908936,
      "epoch": 2.225498844780508,
      "grad_norm": 1.234375,
      "learning_rate": 0.00045016649850287646,
      "loss": 5.3193,
      "mean_token_accuracy": 0.1796240448951721,
      "num_tokens": 48874398.0,
      "step": 26490
    },
    {
      "entropy": 5.603744268417358,
      "epoch": 2.225918924595673,
      "grad_norm": 1.28125,
      "learning_rate": 0.00045014770182152155,
      "loss": 5.2149,
      "mean_token_accuracy": 0.17776007503271102,
      "num_tokens": 48884414.0,
      "step": 26495
    },
    {
      "entropy": 5.512134408950805,
      "epoch": 2.226339004410838,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004501289020375153,
      "loss": 5.2122,
      "mean_token_accuracy": 0.18044610023498536,
      "num_tokens": 48893289.0,
      "step": 26500
    },
    {
      "entropy": 5.527908849716186,
      "epoch": 2.226759084226003,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004501100991511907,
      "loss": 5.2619,
      "mean_token_accuracy": 0.1782654270529747,
      "num_tokens": 48902532.0,
      "step": 26505
    },
    {
      "entropy": 5.626260232925415,
      "epoch": 2.227179164041168,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004500912931628809,
      "loss": 5.2363,
      "mean_token_accuracy": 0.18052782416343688,
      "num_tokens": 48910222.0,
      "step": 26510
    },
    {
      "entropy": 5.515063858032226,
      "epoch": 2.2275992438563326,
      "grad_norm": 1.28125,
      "learning_rate": 0.000450072484072919,
      "loss": 5.2058,
      "mean_token_accuracy": 0.1842687040567398,
      "num_tokens": 48919204.0,
      "step": 26515
    },
    {
      "entropy": 5.537951374053955,
      "epoch": 2.2280193236714974,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004500536718816382,
      "loss": 5.1523,
      "mean_token_accuracy": 0.17554812282323837,
      "num_tokens": 48929041.0,
      "step": 26520
    },
    {
      "entropy": 5.58592472076416,
      "epoch": 2.2284394034866626,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004500348565893718,
      "loss": 5.2586,
      "mean_token_accuracy": 0.18166898488998412,
      "num_tokens": 48938610.0,
      "step": 26525
    },
    {
      "entropy": 5.620311641693116,
      "epoch": 2.2288594833018274,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00045001603819645286,
      "loss": 5.2654,
      "mean_token_accuracy": 0.18483423441648483,
      "num_tokens": 48946859.0,
      "step": 26530
    },
    {
      "entropy": 5.6018448829650875,
      "epoch": 2.229279563116992,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004499972167032151,
      "loss": 5.3139,
      "mean_token_accuracy": 0.1775166630744934,
      "num_tokens": 48955379.0,
      "step": 26535
    },
    {
      "entropy": 5.5092689990997314,
      "epoch": 2.229699642932157,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004499783921099917,
      "loss": 5.1655,
      "mean_token_accuracy": 0.18556845635175706,
      "num_tokens": 48963970.0,
      "step": 26540
    },
    {
      "entropy": 5.508379983901977,
      "epoch": 2.230119722747322,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004499595644171162,
      "loss": 5.1117,
      "mean_token_accuracy": 0.18327895402908326,
      "num_tokens": 48972999.0,
      "step": 26545
    },
    {
      "entropy": 5.621349620819092,
      "epoch": 2.230539802562487,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00044994073362492206,
      "loss": 5.2857,
      "mean_token_accuracy": 0.1801122933626175,
      "num_tokens": 48982173.0,
      "step": 26550
    },
    {
      "entropy": 5.677982425689697,
      "epoch": 2.2309598823776517,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004499218997337429,
      "loss": 5.2629,
      "mean_token_accuracy": 0.17771783471107483,
      "num_tokens": 48991484.0,
      "step": 26555
    },
    {
      "entropy": 5.643827104568482,
      "epoch": 2.2313799621928165,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004499030627439124,
      "loss": 5.3079,
      "mean_token_accuracy": 0.17883407324552536,
      "num_tokens": 49001749.0,
      "step": 26560
    },
    {
      "entropy": 5.520617055892944,
      "epoch": 2.2318000420079813,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00044988422265576416,
      "loss": 5.2394,
      "mean_token_accuracy": 0.18238391280174254,
      "num_tokens": 49011649.0,
      "step": 26565
    },
    {
      "entropy": 5.570906925201416,
      "epoch": 2.2322201218231466,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00044986537946963207,
      "loss": 5.1939,
      "mean_token_accuracy": 0.18470973521471024,
      "num_tokens": 49020290.0,
      "step": 26570
    },
    {
      "entropy": 5.543435096740723,
      "epoch": 2.2326402016383113,
      "grad_norm": 1.265625,
      "learning_rate": 0.00044984653318584975,
      "loss": 5.1555,
      "mean_token_accuracy": 0.1884801059961319,
      "num_tokens": 49029496.0,
      "step": 26575
    },
    {
      "entropy": 5.547635507583618,
      "epoch": 2.233060281453476,
      "grad_norm": 1.234375,
      "learning_rate": 0.00044982768380475113,
      "loss": 5.2126,
      "mean_token_accuracy": 0.18575554192066193,
      "num_tokens": 49038402.0,
      "step": 26580
    },
    {
      "entropy": 5.550742530822754,
      "epoch": 2.233480361268641,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004498088313266701,
      "loss": 5.2835,
      "mean_token_accuracy": 0.17796201705932618,
      "num_tokens": 49047568.0,
      "step": 26585
    },
    {
      "entropy": 5.571239900588989,
      "epoch": 2.233900441083806,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00044978997575194064,
      "loss": 5.2103,
      "mean_token_accuracy": 0.18663474470376967,
      "num_tokens": 49056136.0,
      "step": 26590
    },
    {
      "entropy": 5.521034383773804,
      "epoch": 2.234320520898971,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004497711170808968,
      "loss": 5.1947,
      "mean_token_accuracy": 0.1835334911942482,
      "num_tokens": 49065307.0,
      "step": 26595
    },
    {
      "entropy": 5.7114368915557865,
      "epoch": 2.2347406007141357,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00044975225531387257,
      "loss": 5.3527,
      "mean_token_accuracy": 0.1777668371796608,
      "num_tokens": 49074619.0,
      "step": 26600
    },
    {
      "entropy": 5.750864839553833,
      "epoch": 2.2351606805293005,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004497333904512022,
      "loss": 5.416,
      "mean_token_accuracy": 0.17716477662324906,
      "num_tokens": 49084932.0,
      "step": 26605
    },
    {
      "entropy": 5.542669153213501,
      "epoch": 2.2355807603444653,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004497145224932197,
      "loss": 5.2539,
      "mean_token_accuracy": 0.18014267086982727,
      "num_tokens": 49093203.0,
      "step": 26610
    },
    {
      "entropy": 5.573568105697632,
      "epoch": 2.2360008401596305,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00044969565144025944,
      "loss": 5.2569,
      "mean_token_accuracy": 0.1857284963130951,
      "num_tokens": 49101334.0,
      "step": 26615
    },
    {
      "entropy": 5.60612154006958,
      "epoch": 2.2364209199747953,
      "grad_norm": 1.21875,
      "learning_rate": 0.00044967677729265573,
      "loss": 5.2323,
      "mean_token_accuracy": 0.1752628743648529,
      "num_tokens": 49110179.0,
      "step": 26620
    },
    {
      "entropy": 5.513135576248169,
      "epoch": 2.23684099978996,
      "grad_norm": 1.296875,
      "learning_rate": 0.00044965790005074277,
      "loss": 5.1757,
      "mean_token_accuracy": 0.18816435635089873,
      "num_tokens": 49119544.0,
      "step": 26625
    },
    {
      "entropy": 5.411322927474975,
      "epoch": 2.237261079605125,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00044963901971485507,
      "loss": 5.043,
      "mean_token_accuracy": 0.1982569769024849,
      "num_tokens": 49128857.0,
      "step": 26630
    },
    {
      "entropy": 5.57867398262024,
      "epoch": 2.2376811594202897,
      "grad_norm": 1.171875,
      "learning_rate": 0.000449620136285327,
      "loss": 5.3049,
      "mean_token_accuracy": 0.17675264179706573,
      "num_tokens": 49138268.0,
      "step": 26635
    },
    {
      "entropy": 5.597273445129394,
      "epoch": 2.238101239235455,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00044960124976249323,
      "loss": 5.2335,
      "mean_token_accuracy": 0.18262266218662263,
      "num_tokens": 49148436.0,
      "step": 26640
    },
    {
      "entropy": 5.570136451721192,
      "epoch": 2.2385213190506197,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004495823601466882,
      "loss": 5.2554,
      "mean_token_accuracy": 0.18263651579618453,
      "num_tokens": 49158477.0,
      "step": 26645
    },
    {
      "entropy": 5.573336029052735,
      "epoch": 2.2389413988657845,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004495634674382466,
      "loss": 5.204,
      "mean_token_accuracy": 0.1898205667734146,
      "num_tokens": 49168589.0,
      "step": 26650
    },
    {
      "entropy": 5.575818252563477,
      "epoch": 2.2393614786809493,
      "grad_norm": 1.2109375,
      "learning_rate": 0.000449544571637503,
      "loss": 5.2869,
      "mean_token_accuracy": 0.17533423751592636,
      "num_tokens": 49177865.0,
      "step": 26655
    },
    {
      "entropy": 5.578715038299561,
      "epoch": 2.239781558496114,
      "grad_norm": 1.234375,
      "learning_rate": 0.00044952567274479216,
      "loss": 5.2704,
      "mean_token_accuracy": 0.17730944156646727,
      "num_tokens": 49187427.0,
      "step": 26660
    },
    {
      "entropy": 5.527984571456909,
      "epoch": 2.2402016383112793,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004495067707604489,
      "loss": 5.2482,
      "mean_token_accuracy": 0.18661827743053436,
      "num_tokens": 49196833.0,
      "step": 26665
    },
    {
      "entropy": 5.528351879119873,
      "epoch": 2.240621718126444,
      "grad_norm": 1.15625,
      "learning_rate": 0.00044948786568480806,
      "loss": 5.0756,
      "mean_token_accuracy": 0.1909878209233284,
      "num_tokens": 49205424.0,
      "step": 26670
    },
    {
      "entropy": 5.500399780273438,
      "epoch": 2.241041797941609,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00044946895751820455,
      "loss": 5.2007,
      "mean_token_accuracy": 0.18342696875333786,
      "num_tokens": 49213934.0,
      "step": 26675
    },
    {
      "entropy": 5.542447471618653,
      "epoch": 2.2414618777567736,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00044945004626097335,
      "loss": 5.2564,
      "mean_token_accuracy": 0.18277665674686433,
      "num_tokens": 49223875.0,
      "step": 26680
    },
    {
      "entropy": 5.52316722869873,
      "epoch": 2.241881957571939,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004494311319134493,
      "loss": 5.17,
      "mean_token_accuracy": 0.18249223232269288,
      "num_tokens": 49233298.0,
      "step": 26685
    },
    {
      "entropy": 5.534108257293701,
      "epoch": 2.2423020373871037,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00044941221447596764,
      "loss": 5.2425,
      "mean_token_accuracy": 0.17800014466047287,
      "num_tokens": 49242399.0,
      "step": 26690
    },
    {
      "entropy": 5.6433384895324705,
      "epoch": 2.2427221172022684,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004493932939488634,
      "loss": 5.322,
      "mean_token_accuracy": 0.16847112476825715,
      "num_tokens": 49251500.0,
      "step": 26695
    },
    {
      "entropy": 5.59698371887207,
      "epoch": 2.2431421970174332,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004493743703324717,
      "loss": 5.2319,
      "mean_token_accuracy": 0.18554124385118484,
      "num_tokens": 49260525.0,
      "step": 26700
    },
    {
      "entropy": 5.533558702468872,
      "epoch": 2.243562276832598,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004493554436271279,
      "loss": 5.1974,
      "mean_token_accuracy": 0.18102076053619384,
      "num_tokens": 49271049.0,
      "step": 26705
    },
    {
      "entropy": 5.4720252513885494,
      "epoch": 2.2439823566477632,
      "grad_norm": 1.296875,
      "learning_rate": 0.00044933651383316715,
      "loss": 5.1796,
      "mean_token_accuracy": 0.19537774324417115,
      "num_tokens": 49280707.0,
      "step": 26710
    },
    {
      "entropy": 5.64339690208435,
      "epoch": 2.244402436462928,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004493175809509249,
      "loss": 5.3041,
      "mean_token_accuracy": 0.17394118905067443,
      "num_tokens": 49291047.0,
      "step": 26715
    },
    {
      "entropy": 5.578560400009155,
      "epoch": 2.244822516278093,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00044929864498073635,
      "loss": 5.1771,
      "mean_token_accuracy": 0.18231626302003862,
      "num_tokens": 49300085.0,
      "step": 26720
    },
    {
      "entropy": 5.476321887969971,
      "epoch": 2.2452425960932576,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004492797059229371,
      "loss": 5.0839,
      "mean_token_accuracy": 0.193097722530365,
      "num_tokens": 49308876.0,
      "step": 26725
    },
    {
      "entropy": 5.500767612457276,
      "epoch": 2.245662675908423,
      "grad_norm": 1.9375,
      "learning_rate": 0.00044926076377786256,
      "loss": 5.1763,
      "mean_token_accuracy": 0.17909303456544876,
      "num_tokens": 49317422.0,
      "step": 26730
    },
    {
      "entropy": 5.507411146163941,
      "epoch": 2.2460827557235876,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004492418185458484,
      "loss": 5.1797,
      "mean_token_accuracy": 0.18386653661727906,
      "num_tokens": 49325895.0,
      "step": 26735
    },
    {
      "entropy": 5.420765161514282,
      "epoch": 2.2465028355387524,
      "grad_norm": 1.265625,
      "learning_rate": 0.00044922287022723016,
      "loss": 5.1622,
      "mean_token_accuracy": 0.18179080933332442,
      "num_tokens": 49335998.0,
      "step": 26740
    },
    {
      "entropy": 5.52396559715271,
      "epoch": 2.246922915353917,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004492039188223434,
      "loss": 5.2456,
      "mean_token_accuracy": 0.17907792180776597,
      "num_tokens": 49345630.0,
      "step": 26745
    },
    {
      "entropy": 5.486408853530884,
      "epoch": 2.247342995169082,
      "grad_norm": 1.15625,
      "learning_rate": 0.00044918496433152396,
      "loss": 5.0473,
      "mean_token_accuracy": 0.19308737069368362,
      "num_tokens": 49354818.0,
      "step": 26750
    },
    {
      "entropy": 5.512885522842407,
      "epoch": 2.247763074984247,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004491660067551076,
      "loss": 5.2381,
      "mean_token_accuracy": 0.1827686533331871,
      "num_tokens": 49364604.0,
      "step": 26755
    },
    {
      "entropy": 5.438848638534546,
      "epoch": 2.248183154799412,
      "grad_norm": 1.171875,
      "learning_rate": 0.00044914704609343007,
      "loss": 5.1026,
      "mean_token_accuracy": 0.18039703220129014,
      "num_tokens": 49373362.0,
      "step": 26760
    },
    {
      "entropy": 5.478194665908814,
      "epoch": 2.248603234614577,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00044912808234682736,
      "loss": 5.0857,
      "mean_token_accuracy": 0.18930886387825013,
      "num_tokens": 49381670.0,
      "step": 26765
    },
    {
      "entropy": 5.559822511672974,
      "epoch": 2.2490233144297416,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004491091155156352,
      "loss": 5.2381,
      "mean_token_accuracy": 0.182999686896801,
      "num_tokens": 49390554.0,
      "step": 26770
    },
    {
      "entropy": 5.580685806274414,
      "epoch": 2.2494433942449064,
      "grad_norm": 1.140625,
      "learning_rate": 0.00044909014560018986,
      "loss": 5.2037,
      "mean_token_accuracy": 0.1828658863902092,
      "num_tokens": 49400571.0,
      "step": 26775
    },
    {
      "entropy": 5.552595090866089,
      "epoch": 2.2498634740600716,
      "grad_norm": 1.28125,
      "learning_rate": 0.00044907117260082713,
      "loss": 5.1613,
      "mean_token_accuracy": 0.18325050473213195,
      "num_tokens": 49409476.0,
      "step": 26780
    },
    {
      "entropy": 5.5659520626068115,
      "epoch": 2.2502835538752364,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00044905219651788326,
      "loss": 5.2162,
      "mean_token_accuracy": 0.1890032023191452,
      "num_tokens": 49418289.0,
      "step": 26785
    },
    {
      "entropy": 5.479734897613525,
      "epoch": 2.250703633690401,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00044903321735169426,
      "loss": 5.1335,
      "mean_token_accuracy": 0.18457153886556626,
      "num_tokens": 49427145.0,
      "step": 26790
    },
    {
      "entropy": 5.471398591995239,
      "epoch": 2.251123713505566,
      "grad_norm": 1.171875,
      "learning_rate": 0.00044901423510259654,
      "loss": 5.1252,
      "mean_token_accuracy": 0.192659991979599,
      "num_tokens": 49436018.0,
      "step": 26795
    },
    {
      "entropy": 5.543949317932129,
      "epoch": 2.2515437933207307,
      "grad_norm": 1.203125,
      "learning_rate": 0.00044899524977092627,
      "loss": 5.2128,
      "mean_token_accuracy": 0.18476253896951675,
      "num_tokens": 49445288.0,
      "step": 26800
    },
    {
      "entropy": 5.533009386062622,
      "epoch": 2.251963873135896,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004489762613570196,
      "loss": 5.1903,
      "mean_token_accuracy": 0.1863557979464531,
      "num_tokens": 49454287.0,
      "step": 26805
    },
    {
      "entropy": 5.612238502502441,
      "epoch": 2.2523839529510608,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004489572698612131,
      "loss": 5.2123,
      "mean_token_accuracy": 0.1804053232073784,
      "num_tokens": 49462788.0,
      "step": 26810
    },
    {
      "entropy": 5.520496845245361,
      "epoch": 2.2528040327662255,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004489382752838432,
      "loss": 5.339,
      "mean_token_accuracy": 0.18081380128860475,
      "num_tokens": 49471517.0,
      "step": 26815
    },
    {
      "entropy": 5.549410247802735,
      "epoch": 2.2532241125813903,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004489192776252463,
      "loss": 5.2161,
      "mean_token_accuracy": 0.1808537945151329,
      "num_tokens": 49479651.0,
      "step": 26820
    },
    {
      "entropy": 5.569616174697876,
      "epoch": 2.253644192396555,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00044890027688575896,
      "loss": 5.1685,
      "mean_token_accuracy": 0.18712622821331024,
      "num_tokens": 49488218.0,
      "step": 26825
    },
    {
      "entropy": 5.550055599212646,
      "epoch": 2.2540642722117203,
      "grad_norm": 1.21875,
      "learning_rate": 0.00044888127306571776,
      "loss": 5.1892,
      "mean_token_accuracy": 0.19283258467912673,
      "num_tokens": 49498143.0,
      "step": 26830
    },
    {
      "entropy": 5.519116544723511,
      "epoch": 2.254484352026885,
      "grad_norm": 1.203125,
      "learning_rate": 0.00044886226616545926,
      "loss": 5.1652,
      "mean_token_accuracy": 0.1891310527920723,
      "num_tokens": 49507923.0,
      "step": 26835
    },
    {
      "entropy": 5.542744064331055,
      "epoch": 2.25490443184205,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00044884325618532034,
      "loss": 5.246,
      "mean_token_accuracy": 0.18047858476638795,
      "num_tokens": 49516872.0,
      "step": 26840
    },
    {
      "entropy": 5.525966548919678,
      "epoch": 2.2553245116572147,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004488242431256376,
      "loss": 5.1189,
      "mean_token_accuracy": 0.18877940326929094,
      "num_tokens": 49525786.0,
      "step": 26845
    },
    {
      "entropy": 5.532617473602295,
      "epoch": 2.25574459147238,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00044880522698674796,
      "loss": 5.2289,
      "mean_token_accuracy": 0.18300973623991013,
      "num_tokens": 49534028.0,
      "step": 26850
    },
    {
      "entropy": 5.567143154144287,
      "epoch": 2.2561646712875447,
      "grad_norm": 1.265625,
      "learning_rate": 0.00044878620776898817,
      "loss": 5.3142,
      "mean_token_accuracy": 0.17578259855508804,
      "num_tokens": 49543105.0,
      "step": 26855
    },
    {
      "entropy": 5.6107183456420895,
      "epoch": 2.2565847511027095,
      "grad_norm": 1.25,
      "learning_rate": 0.0004487671854726952,
      "loss": 5.2651,
      "mean_token_accuracy": 0.17874871641397477,
      "num_tokens": 49552842.0,
      "step": 26860
    },
    {
      "entropy": 5.56137433052063,
      "epoch": 2.2570048309178743,
      "grad_norm": 1.109375,
      "learning_rate": 0.00044874816009820597,
      "loss": 5.1436,
      "mean_token_accuracy": 0.18656804859638215,
      "num_tokens": 49561952.0,
      "step": 26865
    },
    {
      "entropy": 5.504024791717529,
      "epoch": 2.2574249107330395,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004487291316458576,
      "loss": 5.2454,
      "mean_token_accuracy": 0.18038638532161713,
      "num_tokens": 49571435.0,
      "step": 26870
    },
    {
      "entropy": 5.548827886581421,
      "epoch": 2.2578449905482043,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004487101001159871,
      "loss": 5.2378,
      "mean_token_accuracy": 0.17915676385164261,
      "num_tokens": 49580205.0,
      "step": 26875
    },
    {
      "entropy": 5.551640892028809,
      "epoch": 2.258265070363369,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004486910655089317,
      "loss": 5.1892,
      "mean_token_accuracy": 0.18325221687555313,
      "num_tokens": 49588776.0,
      "step": 26880
    },
    {
      "entropy": 5.599250841140747,
      "epoch": 2.258685150178534,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00044867202782502847,
      "loss": 5.2854,
      "mean_token_accuracy": 0.18322887569665908,
      "num_tokens": 49597684.0,
      "step": 26885
    },
    {
      "entropy": 5.536653852462768,
      "epoch": 2.2591052299936987,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004486529870646147,
      "loss": 5.2547,
      "mean_token_accuracy": 0.1841020554304123,
      "num_tokens": 49606984.0,
      "step": 26890
    },
    {
      "entropy": 5.5053342342376705,
      "epoch": 2.259525309808864,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00044863394322802757,
      "loss": 5.1561,
      "mean_token_accuracy": 0.18656859546899796,
      "num_tokens": 49615908.0,
      "step": 26895
    },
    {
      "entropy": 5.607267570495606,
      "epoch": 2.2599453896240287,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004486148963156047,
      "loss": 5.2575,
      "mean_token_accuracy": 0.18299584835767746,
      "num_tokens": 49624308.0,
      "step": 26900
    },
    {
      "entropy": 5.49306092262268,
      "epoch": 2.2603654694391935,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004485958463276832,
      "loss": 5.1636,
      "mean_token_accuracy": 0.18057799190282822,
      "num_tokens": 49634229.0,
      "step": 26905
    },
    {
      "entropy": 5.431946182250977,
      "epoch": 2.2607855492543583,
      "grad_norm": 1.140625,
      "learning_rate": 0.00044857679326460077,
      "loss": 5.1897,
      "mean_token_accuracy": 0.18445971608161926,
      "num_tokens": 49643129.0,
      "step": 26910
    },
    {
      "entropy": 5.557229852676391,
      "epoch": 2.261205629069523,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004485577371266948,
      "loss": 5.2172,
      "mean_token_accuracy": 0.1792289823293686,
      "num_tokens": 49652494.0,
      "step": 26915
    },
    {
      "entropy": 5.540885782241821,
      "epoch": 2.2616257088846883,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00044853867791430293,
      "loss": 5.1558,
      "mean_token_accuracy": 0.19491497576236724,
      "num_tokens": 49662339.0,
      "step": 26920
    },
    {
      "entropy": 5.483134603500366,
      "epoch": 2.262045788699853,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00044851961562776267,
      "loss": 5.1055,
      "mean_token_accuracy": 0.1891358256340027,
      "num_tokens": 49671582.0,
      "step": 26925
    },
    {
      "entropy": 5.485902929306031,
      "epoch": 2.262465868515018,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004485005502674118,
      "loss": 5.1851,
      "mean_token_accuracy": 0.18222393542528154,
      "num_tokens": 49680391.0,
      "step": 26930
    },
    {
      "entropy": 5.5510039806365965,
      "epoch": 2.2628859483301826,
      "grad_norm": 1.3125,
      "learning_rate": 0.00044848148183358803,
      "loss": 5.2637,
      "mean_token_accuracy": 0.18006954938173295,
      "num_tokens": 49689701.0,
      "step": 26935
    },
    {
      "entropy": 5.582523250579834,
      "epoch": 2.2633060281453474,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004484624103266291,
      "loss": 5.2154,
      "mean_token_accuracy": 0.1834569454193115,
      "num_tokens": 49699498.0,
      "step": 26940
    },
    {
      "entropy": 5.528346729278565,
      "epoch": 2.2637261079605127,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004484433357468729,
      "loss": 5.1545,
      "mean_token_accuracy": 0.1814762160181999,
      "num_tokens": 49708416.0,
      "step": 26945
    },
    {
      "entropy": 5.609803104400635,
      "epoch": 2.2641461877756774,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004484242580946574,
      "loss": 5.3125,
      "mean_token_accuracy": 0.18203573077917098,
      "num_tokens": 49717483.0,
      "step": 26950
    },
    {
      "entropy": 5.599816799163818,
      "epoch": 2.2645662675908422,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004484051773703204,
      "loss": 5.3723,
      "mean_token_accuracy": 0.17572136968374252,
      "num_tokens": 49727073.0,
      "step": 26955
    },
    {
      "entropy": 5.575829029083252,
      "epoch": 2.264986347406007,
      "grad_norm": 1.203125,
      "learning_rate": 0.00044838609357420004,
      "loss": 5.1771,
      "mean_token_accuracy": 0.1811415433883667,
      "num_tokens": 49735523.0,
      "step": 26960
    },
    {
      "entropy": 5.547775459289551,
      "epoch": 2.265406427221172,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004483670067066342,
      "loss": 5.2054,
      "mean_token_accuracy": 0.18279733657836914,
      "num_tokens": 49745347.0,
      "step": 26965
    },
    {
      "entropy": 5.54228024482727,
      "epoch": 2.265826507036337,
      "grad_norm": 1.15625,
      "learning_rate": 0.00044834791676796117,
      "loss": 5.2571,
      "mean_token_accuracy": 0.18375864923000335,
      "num_tokens": 49755076.0,
      "step": 26970
    },
    {
      "entropy": 5.592230796813965,
      "epoch": 2.266246586851502,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00044832882375851903,
      "loss": 5.2337,
      "mean_token_accuracy": 0.17979444712400436,
      "num_tokens": 49763580.0,
      "step": 26975
    },
    {
      "entropy": 5.581161308288574,
      "epoch": 2.2666666666666666,
      "grad_norm": 1.25,
      "learning_rate": 0.00044830972767864605,
      "loss": 5.2443,
      "mean_token_accuracy": 0.17889299988746643,
      "num_tokens": 49773167.0,
      "step": 26980
    },
    {
      "entropy": 5.531628608703613,
      "epoch": 2.2670867464818314,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004482906285286804,
      "loss": 5.1887,
      "mean_token_accuracy": 0.18609936982393266,
      "num_tokens": 49782273.0,
      "step": 26985
    },
    {
      "entropy": 5.511866474151612,
      "epoch": 2.267506826296996,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00044827152630896064,
      "loss": 5.2294,
      "mean_token_accuracy": 0.18123604208230973,
      "num_tokens": 49791426.0,
      "step": 26990
    },
    {
      "entropy": 5.5930187702178955,
      "epoch": 2.2679269061121614,
      "grad_norm": 1.21875,
      "learning_rate": 0.00044825242101982496,
      "loss": 5.2654,
      "mean_token_accuracy": 0.1798709437251091,
      "num_tokens": 49799643.0,
      "step": 26995
    },
    {
      "entropy": 5.569142770767212,
      "epoch": 2.268346985927326,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004482333126616118,
      "loss": 5.2472,
      "mean_token_accuracy": 0.1809386655688286,
      "num_tokens": 49809401.0,
      "step": 27000
    },
    {
      "epoch": 2.268346985927326,
      "eval_entropy": 5.332164182113749,
      "eval_loss": 5.32187032699585,
      "eval_mean_token_accuracy": 0.18701392167900416,
      "eval_num_tokens": 49809401.0,
      "eval_runtime": 27.0818,
      "eval_samples_per_second": 1379.747,
      "eval_steps_per_second": 172.478,
      "step": 27000
    },
    {
      "entropy": 5.512255048751831,
      "epoch": 2.268767065742491,
      "grad_norm": 1.203125,
      "learning_rate": 0.00044821420123465974,
      "loss": 5.1892,
      "mean_token_accuracy": 0.18925851732492446,
      "num_tokens": 49818395.0,
      "step": 27005
    },
    {
      "entropy": 5.622849082946777,
      "epoch": 2.2691871455576558,
      "grad_norm": 1.3125,
      "learning_rate": 0.00044819508673930733,
      "loss": 5.3062,
      "mean_token_accuracy": 0.17862628996372223,
      "num_tokens": 49828057.0,
      "step": 27010
    },
    {
      "entropy": 5.517431640625,
      "epoch": 2.269607225372821,
      "grad_norm": 1.15625,
      "learning_rate": 0.00044817596917589306,
      "loss": 5.1831,
      "mean_token_accuracy": 0.1844601735472679,
      "num_tokens": 49837581.0,
      "step": 27015
    },
    {
      "entropy": 5.5176536560058596,
      "epoch": 2.270027305187986,
      "grad_norm": 1.125,
      "learning_rate": 0.00044815684854475574,
      "loss": 5.1915,
      "mean_token_accuracy": 0.19312656819820403,
      "num_tokens": 49846462.0,
      "step": 27020
    },
    {
      "entropy": 5.474070072174072,
      "epoch": 2.2704473850031506,
      "grad_norm": 1.125,
      "learning_rate": 0.000448137724846234,
      "loss": 5.1332,
      "mean_token_accuracy": 0.19060196876525878,
      "num_tokens": 49855185.0,
      "step": 27025
    },
    {
      "entropy": 5.644038295745849,
      "epoch": 2.2708674648183154,
      "grad_norm": 1.171875,
      "learning_rate": 0.00044811859808066665,
      "loss": 5.3125,
      "mean_token_accuracy": 0.18207108676433564,
      "num_tokens": 49865358.0,
      "step": 27030
    },
    {
      "entropy": 5.6202898025512695,
      "epoch": 2.2712875446334806,
      "grad_norm": 1.171875,
      "learning_rate": 0.00044809946824839235,
      "loss": 5.239,
      "mean_token_accuracy": 0.18282443135976792,
      "num_tokens": 49873850.0,
      "step": 27035
    },
    {
      "entropy": 5.564222383499145,
      "epoch": 2.2717076244486454,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004480803353497503,
      "loss": 5.1751,
      "mean_token_accuracy": 0.1856558918952942,
      "num_tokens": 49882925.0,
      "step": 27040
    },
    {
      "entropy": 5.449797344207764,
      "epoch": 2.27212770426381,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00044806119938507906,
      "loss": 5.1473,
      "mean_token_accuracy": 0.18985594362020491,
      "num_tokens": 49891620.0,
      "step": 27045
    },
    {
      "entropy": 5.523578929901123,
      "epoch": 2.272547784078975,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004480420603547179,
      "loss": 5.294,
      "mean_token_accuracy": 0.18614046275615692,
      "num_tokens": 49901654.0,
      "step": 27050
    },
    {
      "entropy": 5.510797071456909,
      "epoch": 2.2729678638941397,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00044802291825900563,
      "loss": 5.2582,
      "mean_token_accuracy": 0.18258282840251921,
      "num_tokens": 49910437.0,
      "step": 27055
    },
    {
      "entropy": 5.622467851638794,
      "epoch": 2.273387943709305,
      "grad_norm": 1.234375,
      "learning_rate": 0.00044800377309828156,
      "loss": 5.2994,
      "mean_token_accuracy": 0.1754709303379059,
      "num_tokens": 49919309.0,
      "step": 27060
    },
    {
      "entropy": 5.610826063156128,
      "epoch": 2.2738080235244698,
      "grad_norm": 1.109375,
      "learning_rate": 0.00044798462487288473,
      "loss": 5.1958,
      "mean_token_accuracy": 0.1892111524939537,
      "num_tokens": 49927729.0,
      "step": 27065
    },
    {
      "entropy": 5.485990953445435,
      "epoch": 2.2742281033396345,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004479654735831543,
      "loss": 5.1857,
      "mean_token_accuracy": 0.18821523785591127,
      "num_tokens": 49937365.0,
      "step": 27070
    },
    {
      "entropy": 5.523477172851562,
      "epoch": 2.2746481831547993,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004479463192294295,
      "loss": 5.2426,
      "mean_token_accuracy": 0.180637164413929,
      "num_tokens": 49946084.0,
      "step": 27075
    },
    {
      "entropy": 5.5425561428070065,
      "epoch": 2.275068262969964,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004479271618120498,
      "loss": 5.1438,
      "mean_token_accuracy": 0.18603938072919846,
      "num_tokens": 49955841.0,
      "step": 27080
    },
    {
      "entropy": 5.5868278503417965,
      "epoch": 2.2754883427851293,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004479080013313545,
      "loss": 5.3261,
      "mean_token_accuracy": 0.17857212871313094,
      "num_tokens": 49965127.0,
      "step": 27085
    },
    {
      "entropy": 5.538455438613892,
      "epoch": 2.275908422600294,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004478888377876829,
      "loss": 5.233,
      "mean_token_accuracy": 0.18318628370761872,
      "num_tokens": 49974099.0,
      "step": 27090
    },
    {
      "entropy": 5.610238552093506,
      "epoch": 2.276328502415459,
      "grad_norm": 1.171875,
      "learning_rate": 0.00044786967118137463,
      "loss": 5.331,
      "mean_token_accuracy": 0.17461355328559874,
      "num_tokens": 49983667.0,
      "step": 27095
    },
    {
      "entropy": 5.499659490585327,
      "epoch": 2.2767485822306237,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004478505015127691,
      "loss": 5.1738,
      "mean_token_accuracy": 0.19337646365165712,
      "num_tokens": 49993278.0,
      "step": 27100
    },
    {
      "entropy": 5.545000457763672,
      "epoch": 2.2771686620457885,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000447831328782206,
      "loss": 5.1591,
      "mean_token_accuracy": 0.1802346244454384,
      "num_tokens": 50002679.0,
      "step": 27105
    },
    {
      "entropy": 5.611685371398925,
      "epoch": 2.2775887418609537,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00044781215299002485,
      "loss": 5.252,
      "mean_token_accuracy": 0.18724821507930756,
      "num_tokens": 50012019.0,
      "step": 27110
    },
    {
      "entropy": 5.501904296875,
      "epoch": 2.2780088216761185,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00044779297413656544,
      "loss": 5.2838,
      "mean_token_accuracy": 0.18002757281064988,
      "num_tokens": 50021024.0,
      "step": 27115
    },
    {
      "entropy": 5.630601692199707,
      "epoch": 2.2784289014912833,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004477737922221675,
      "loss": 5.2368,
      "mean_token_accuracy": 0.17827785462141038,
      "num_tokens": 50029919.0,
      "step": 27120
    },
    {
      "entropy": 5.588894081115723,
      "epoch": 2.278848981306448,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004477546072471707,
      "loss": 5.1088,
      "mean_token_accuracy": 0.1923537015914917,
      "num_tokens": 50038779.0,
      "step": 27125
    },
    {
      "entropy": 5.500175523757934,
      "epoch": 2.279269061121613,
      "grad_norm": 1.234375,
      "learning_rate": 0.000447735419211915,
      "loss": 5.1806,
      "mean_token_accuracy": 0.1904260277748108,
      "num_tokens": 50047107.0,
      "step": 27130
    },
    {
      "entropy": 5.522803497314453,
      "epoch": 2.279689140936778,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004477162281167404,
      "loss": 5.1763,
      "mean_token_accuracy": 0.1884344130754471,
      "num_tokens": 50055268.0,
      "step": 27135
    },
    {
      "entropy": 5.560096979141235,
      "epoch": 2.280109220751943,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00044769703396198664,
      "loss": 5.2512,
      "mean_token_accuracy": 0.17823129445314406,
      "num_tokens": 50064356.0,
      "step": 27140
    },
    {
      "entropy": 5.612483644485474,
      "epoch": 2.2805293005671077,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000447677836747994,
      "loss": 5.1944,
      "mean_token_accuracy": 0.1806131199002266,
      "num_tokens": 50072968.0,
      "step": 27145
    },
    {
      "entropy": 5.4992975234985355,
      "epoch": 2.2809493803822725,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004476586364751022,
      "loss": 5.1485,
      "mean_token_accuracy": 0.18864394575357438,
      "num_tokens": 50081600.0,
      "step": 27150
    },
    {
      "entropy": 5.559928941726684,
      "epoch": 2.2813694601974377,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00044763943314365164,
      "loss": 5.2895,
      "mean_token_accuracy": 0.18035665303468704,
      "num_tokens": 50091406.0,
      "step": 27155
    },
    {
      "entropy": 5.57808485031128,
      "epoch": 2.2817895400126025,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004476202267539824,
      "loss": 5.207,
      "mean_token_accuracy": 0.18357510417699813,
      "num_tokens": 50100508.0,
      "step": 27160
    },
    {
      "entropy": 5.673381614685058,
      "epoch": 2.2822096198277673,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004476010173064348,
      "loss": 5.3622,
      "mean_token_accuracy": 0.17537136375904083,
      "num_tokens": 50110441.0,
      "step": 27165
    },
    {
      "entropy": 5.541530656814575,
      "epoch": 2.282629699642932,
      "grad_norm": 1.09375,
      "learning_rate": 0.00044758180480134895,
      "loss": 5.178,
      "mean_token_accuracy": 0.18581447303295134,
      "num_tokens": 50119896.0,
      "step": 27170
    },
    {
      "entropy": 5.483762168884278,
      "epoch": 2.2830497794580973,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00044756258923906545,
      "loss": 5.1686,
      "mean_token_accuracy": 0.1830899626016617,
      "num_tokens": 50128988.0,
      "step": 27175
    },
    {
      "entropy": 5.560671758651734,
      "epoch": 2.283469859273262,
      "grad_norm": 1.203125,
      "learning_rate": 0.00044754337061992446,
      "loss": 5.2131,
      "mean_token_accuracy": 0.18152717500925064,
      "num_tokens": 50138431.0,
      "step": 27180
    },
    {
      "entropy": 5.612703084945679,
      "epoch": 2.283889939088427,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00044752414894426646,
      "loss": 5.1882,
      "mean_token_accuracy": 0.1818362519145012,
      "num_tokens": 50148149.0,
      "step": 27185
    },
    {
      "entropy": 5.641896152496338,
      "epoch": 2.2843100189035916,
      "grad_norm": 1.3046875,
      "learning_rate": 0.000447504924212432,
      "loss": 5.373,
      "mean_token_accuracy": 0.16962748765945435,
      "num_tokens": 50157982.0,
      "step": 27190
    },
    {
      "entropy": 5.556794261932373,
      "epoch": 2.2847300987187564,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004474856964247617,
      "loss": 5.2125,
      "mean_token_accuracy": 0.18541607409715652,
      "num_tokens": 50167297.0,
      "step": 27195
    },
    {
      "entropy": 5.421840333938599,
      "epoch": 2.2851501785339217,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00044746646558159605,
      "loss": 5.1191,
      "mean_token_accuracy": 0.19488875865936278,
      "num_tokens": 50176562.0,
      "step": 27200
    },
    {
      "entropy": 5.5049581050872805,
      "epoch": 2.2855702583490864,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004474472316832758,
      "loss": 5.24,
      "mean_token_accuracy": 0.18504974544048308,
      "num_tokens": 50186404.0,
      "step": 27205
    },
    {
      "entropy": 5.512362241744995,
      "epoch": 2.2859903381642512,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004474279947301416,
      "loss": 5.1425,
      "mean_token_accuracy": 0.18772740811109542,
      "num_tokens": 50196038.0,
      "step": 27210
    },
    {
      "entropy": 5.67727518081665,
      "epoch": 2.286410417979416,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004474087547225343,
      "loss": 5.3541,
      "mean_token_accuracy": 0.17978802025318147,
      "num_tokens": 50205612.0,
      "step": 27215
    },
    {
      "entropy": 5.597712612152099,
      "epoch": 2.286830497794581,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004473895116607947,
      "loss": 5.216,
      "mean_token_accuracy": 0.1811487078666687,
      "num_tokens": 50214212.0,
      "step": 27220
    },
    {
      "entropy": 5.623606491088867,
      "epoch": 2.287250577609746,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004473702655452636,
      "loss": 5.275,
      "mean_token_accuracy": 0.181079663336277,
      "num_tokens": 50223420.0,
      "step": 27225
    },
    {
      "entropy": 5.553235244750977,
      "epoch": 2.287670657424911,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004473510163762821,
      "loss": 5.2348,
      "mean_token_accuracy": 0.1835331901907921,
      "num_tokens": 50232308.0,
      "step": 27230
    },
    {
      "entropy": 5.522378921508789,
      "epoch": 2.2880907372400756,
      "grad_norm": 1.2265625,
      "learning_rate": 0.000447331764154191,
      "loss": 5.2142,
      "mean_token_accuracy": 0.18412624597549437,
      "num_tokens": 50240611.0,
      "step": 27235
    },
    {
      "entropy": 5.6196596145629885,
      "epoch": 2.2885108170552404,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004473125088793315,
      "loss": 5.2459,
      "mean_token_accuracy": 0.18020044416189193,
      "num_tokens": 50249928.0,
      "step": 27240
    },
    {
      "entropy": 5.520648717880249,
      "epoch": 2.288930896870405,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00044729325055204464,
      "loss": 5.2227,
      "mean_token_accuracy": 0.174053293466568,
      "num_tokens": 50259465.0,
      "step": 27245
    },
    {
      "entropy": 5.583042907714844,
      "epoch": 2.2893509766855704,
      "grad_norm": 1.25,
      "learning_rate": 0.0004472739891726715,
      "loss": 5.3384,
      "mean_token_accuracy": 0.17797351032495498,
      "num_tokens": 50269734.0,
      "step": 27250
    },
    {
      "entropy": 5.574585056304931,
      "epoch": 2.289771056500735,
      "grad_norm": 1.40625,
      "learning_rate": 0.0004472547247415534,
      "loss": 5.1469,
      "mean_token_accuracy": 0.18420950025320054,
      "num_tokens": 50279016.0,
      "step": 27255
    },
    {
      "entropy": 5.552816438674927,
      "epoch": 2.2901911363159,
      "grad_norm": 1.21875,
      "learning_rate": 0.00044723545725903146,
      "loss": 5.2232,
      "mean_token_accuracy": 0.18592795133590698,
      "num_tokens": 50288039.0,
      "step": 27260
    },
    {
      "entropy": 5.482603740692139,
      "epoch": 2.2906112161310648,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004472161867254472,
      "loss": 5.2364,
      "mean_token_accuracy": 0.1821294605731964,
      "num_tokens": 50297495.0,
      "step": 27265
    },
    {
      "entropy": 5.614646148681641,
      "epoch": 2.2910312959462296,
      "grad_norm": 1.25,
      "learning_rate": 0.0004471969131411418,
      "loss": 5.2134,
      "mean_token_accuracy": 0.18327712267637253,
      "num_tokens": 50306103.0,
      "step": 27270
    },
    {
      "entropy": 5.5072776794433596,
      "epoch": 2.291451375761395,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0004471776365064568,
      "loss": 5.2298,
      "mean_token_accuracy": 0.18706466853618622,
      "num_tokens": 50315736.0,
      "step": 27275
    },
    {
      "entropy": 5.6364891052246096,
      "epoch": 2.2918714555765596,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00044715835682173364,
      "loss": 5.3951,
      "mean_token_accuracy": 0.18044337183237075,
      "num_tokens": 50324742.0,
      "step": 27280
    },
    {
      "entropy": 5.633916759490967,
      "epoch": 2.2922915353917244,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00044713907408731375,
      "loss": 5.3052,
      "mean_token_accuracy": 0.17132144570350646,
      "num_tokens": 50334322.0,
      "step": 27285
    },
    {
      "entropy": 5.573908185958862,
      "epoch": 2.292711615206889,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004471197883035388,
      "loss": 5.1837,
      "mean_token_accuracy": 0.19202228337526323,
      "num_tokens": 50343587.0,
      "step": 27290
    },
    {
      "entropy": 5.533718013763428,
      "epoch": 2.2931316950220544,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00044710049947075054,
      "loss": 5.243,
      "mean_token_accuracy": 0.1823541134595871,
      "num_tokens": 50352978.0,
      "step": 27295
    },
    {
      "entropy": 5.499041509628296,
      "epoch": 2.293551774837219,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004470812075892905,
      "loss": 5.2461,
      "mean_token_accuracy": 0.1810903698205948,
      "num_tokens": 50361528.0,
      "step": 27300
    },
    {
      "entropy": 5.563208770751953,
      "epoch": 2.293971854652384,
      "grad_norm": 1.171875,
      "learning_rate": 0.00044706191265950044,
      "loss": 5.198,
      "mean_token_accuracy": 0.17950827032327651,
      "num_tokens": 50371362.0,
      "step": 27305
    },
    {
      "entropy": 5.600316429138184,
      "epoch": 2.2943919344675487,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00044704261468172217,
      "loss": 5.2493,
      "mean_token_accuracy": 0.18208886086940765,
      "num_tokens": 50380976.0,
      "step": 27310
    },
    {
      "entropy": 5.572132873535156,
      "epoch": 2.2948120142827135,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004470233136562977,
      "loss": 5.2165,
      "mean_token_accuracy": 0.18200030624866487,
      "num_tokens": 50390135.0,
      "step": 27315
    },
    {
      "entropy": 5.5148622512817385,
      "epoch": 2.2952320940978788,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00044700400958356867,
      "loss": 5.1855,
      "mean_token_accuracy": 0.18333351314067842,
      "num_tokens": 50398979.0,
      "step": 27320
    },
    {
      "entropy": 5.490090179443359,
      "epoch": 2.2956521739130435,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004469847024638773,
      "loss": 5.2342,
      "mean_token_accuracy": 0.17977543622255326,
      "num_tokens": 50407901.0,
      "step": 27325
    },
    {
      "entropy": 5.571164894104004,
      "epoch": 2.2960722537282083,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00044696539229756543,
      "loss": 5.2289,
      "mean_token_accuracy": 0.1842362329363823,
      "num_tokens": 50416085.0,
      "step": 27330
    },
    {
      "entropy": 5.493514585494995,
      "epoch": 2.296492333543373,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00044694607908497515,
      "loss": 5.1538,
      "mean_token_accuracy": 0.19191273152828217,
      "num_tokens": 50425697.0,
      "step": 27335
    },
    {
      "entropy": 5.5428839206695555,
      "epoch": 2.2969124133585384,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004469267628264486,
      "loss": 5.1682,
      "mean_token_accuracy": 0.18779466152191163,
      "num_tokens": 50434831.0,
      "step": 27340
    },
    {
      "entropy": 5.553540182113648,
      "epoch": 2.297332493173703,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004469074435223281,
      "loss": 5.225,
      "mean_token_accuracy": 0.18477957546710969,
      "num_tokens": 50443217.0,
      "step": 27345
    },
    {
      "entropy": 5.589917945861816,
      "epoch": 2.297752572988868,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004468881211729556,
      "loss": 5.2368,
      "mean_token_accuracy": 0.18400727957487106,
      "num_tokens": 50452523.0,
      "step": 27350
    },
    {
      "entropy": 5.516117095947266,
      "epoch": 2.2981726528040327,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00044686879577867376,
      "loss": 5.1813,
      "mean_token_accuracy": 0.18701285719871522,
      "num_tokens": 50460793.0,
      "step": 27355
    },
    {
      "entropy": 5.597243976593018,
      "epoch": 2.2985927326191975,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004468494673398245,
      "loss": 5.3073,
      "mean_token_accuracy": 0.18145811259746553,
      "num_tokens": 50469930.0,
      "step": 27360
    },
    {
      "entropy": 5.543523216247559,
      "epoch": 2.2990128124343627,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004468301358567505,
      "loss": 5.1985,
      "mean_token_accuracy": 0.18286581784486772,
      "num_tokens": 50478711.0,
      "step": 27365
    },
    {
      "entropy": 5.503486013412475,
      "epoch": 2.2994328922495275,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004468108013297941,
      "loss": 5.1511,
      "mean_token_accuracy": 0.19050797820091248,
      "num_tokens": 50488753.0,
      "step": 27370
    },
    {
      "entropy": 5.591188716888428,
      "epoch": 2.2998529720646923,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004467914637592978,
      "loss": 5.2391,
      "mean_token_accuracy": 0.18879781514406205,
      "num_tokens": 50497956.0,
      "step": 27375
    },
    {
      "entropy": 5.5287610530853275,
      "epoch": 2.300273051879857,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004467721231456042,
      "loss": 5.2525,
      "mean_token_accuracy": 0.1745685026049614,
      "num_tokens": 50507606.0,
      "step": 27380
    },
    {
      "entropy": 5.5698755264282225,
      "epoch": 2.300693131695022,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004467527794890559,
      "loss": 5.2801,
      "mean_token_accuracy": 0.1794474810361862,
      "num_tokens": 50517320.0,
      "step": 27385
    },
    {
      "entropy": 5.4934405326843265,
      "epoch": 2.301113211510187,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004467334327899955,
      "loss": 5.1992,
      "mean_token_accuracy": 0.18019668608903885,
      "num_tokens": 50525806.0,
      "step": 27390
    },
    {
      "entropy": 5.598579263687133,
      "epoch": 2.301533291325352,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004467140830487658,
      "loss": 5.2988,
      "mean_token_accuracy": 0.16881562471389772,
      "num_tokens": 50534548.0,
      "step": 27395
    },
    {
      "entropy": 5.593141269683838,
      "epoch": 2.3019533711405167,
      "grad_norm": 1.15625,
      "learning_rate": 0.00044669473026570964,
      "loss": 5.242,
      "mean_token_accuracy": 0.18206676691770554,
      "num_tokens": 50543628.0,
      "step": 27400
    },
    {
      "entropy": 5.590075349807739,
      "epoch": 2.3023734509556815,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00044667537444116964,
      "loss": 5.3491,
      "mean_token_accuracy": 0.1778250366449356,
      "num_tokens": 50553433.0,
      "step": 27405
    },
    {
      "entropy": 5.5360466003417965,
      "epoch": 2.3027935307708463,
      "grad_norm": 1.125,
      "learning_rate": 0.00044665601557548873,
      "loss": 5.1651,
      "mean_token_accuracy": 0.17479844093322755,
      "num_tokens": 50562736.0,
      "step": 27410
    },
    {
      "entropy": 5.537800645828247,
      "epoch": 2.3032136105860115,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00044663665366900996,
      "loss": 5.1484,
      "mean_token_accuracy": 0.17811350524425507,
      "num_tokens": 50571492.0,
      "step": 27415
    },
    {
      "entropy": 5.430577373504638,
      "epoch": 2.3036336904011763,
      "grad_norm": 1.25,
      "learning_rate": 0.00044661728872207626,
      "loss": 5.088,
      "mean_token_accuracy": 0.18735100328922272,
      "num_tokens": 50580525.0,
      "step": 27420
    },
    {
      "entropy": 5.663073873519897,
      "epoch": 2.304053770216341,
      "grad_norm": 1.203125,
      "learning_rate": 0.00044659792073503067,
      "loss": 5.4508,
      "mean_token_accuracy": 0.16834797263145446,
      "num_tokens": 50590350.0,
      "step": 27425
    },
    {
      "entropy": 5.49932107925415,
      "epoch": 2.304473850031506,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004465785497082162,
      "loss": 5.1177,
      "mean_token_accuracy": 0.19331676214933396,
      "num_tokens": 50599017.0,
      "step": 27430
    },
    {
      "entropy": 5.47618989944458,
      "epoch": 2.3048939298466706,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004465591756419762,
      "loss": 5.0894,
      "mean_token_accuracy": 0.19675216376781463,
      "num_tokens": 50607807.0,
      "step": 27435
    },
    {
      "entropy": 5.513025903701783,
      "epoch": 2.305314009661836,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004465397985366536,
      "loss": 5.0968,
      "mean_token_accuracy": 0.19332806766033173,
      "num_tokens": 50615710.0,
      "step": 27440
    },
    {
      "entropy": 5.4708263874053955,
      "epoch": 2.3057340894770006,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00044652041839259184,
      "loss": 5.2465,
      "mean_token_accuracy": 0.17805521488189696,
      "num_tokens": 50624726.0,
      "step": 27445
    },
    {
      "entropy": 5.5990880012512205,
      "epoch": 2.3061541692921654,
      "grad_norm": 1.171875,
      "learning_rate": 0.00044650103521013426,
      "loss": 5.2701,
      "mean_token_accuracy": 0.1806618258357048,
      "num_tokens": 50634424.0,
      "step": 27450
    },
    {
      "entropy": 5.625349521636963,
      "epoch": 2.30657424910733,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004464816489896241,
      "loss": 5.2258,
      "mean_token_accuracy": 0.17906468361616135,
      "num_tokens": 50643809.0,
      "step": 27455
    },
    {
      "entropy": 5.5099271774292,
      "epoch": 2.3069943289224955,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004464622597314048,
      "loss": 5.1318,
      "mean_token_accuracy": 0.19449697881937028,
      "num_tokens": 50652039.0,
      "step": 27460
    },
    {
      "entropy": 5.522408533096313,
      "epoch": 2.3074144087376602,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004464428674358199,
      "loss": 5.1802,
      "mean_token_accuracy": 0.18349093943834305,
      "num_tokens": 50660755.0,
      "step": 27465
    },
    {
      "entropy": 5.516591501235962,
      "epoch": 2.307834488552825,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004464234721032129,
      "loss": 5.1976,
      "mean_token_accuracy": 0.1823163002729416,
      "num_tokens": 50668867.0,
      "step": 27470
    },
    {
      "entropy": 5.54367208480835,
      "epoch": 2.30825456836799,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004464040737339274,
      "loss": 5.27,
      "mean_token_accuracy": 0.17940241992473602,
      "num_tokens": 50678506.0,
      "step": 27475
    },
    {
      "entropy": 5.595156145095825,
      "epoch": 2.308674648183155,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004463846723283069,
      "loss": 5.241,
      "mean_token_accuracy": 0.1835481271147728,
      "num_tokens": 50687037.0,
      "step": 27480
    },
    {
      "entropy": 5.566495704650879,
      "epoch": 2.30909472799832,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004463652678866952,
      "loss": 5.2111,
      "mean_token_accuracy": 0.18479880094528198,
      "num_tokens": 50696438.0,
      "step": 27485
    },
    {
      "entropy": 5.516273546218872,
      "epoch": 2.3095148078134846,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00044634586040943604,
      "loss": 5.1535,
      "mean_token_accuracy": 0.18744733780622483,
      "num_tokens": 50705563.0,
      "step": 27490
    },
    {
      "entropy": 5.4837541580200195,
      "epoch": 2.3099348876286494,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00044632644989687316,
      "loss": 5.1151,
      "mean_token_accuracy": 0.18776718974113465,
      "num_tokens": 50714772.0,
      "step": 27495
    },
    {
      "entropy": 5.490101671218872,
      "epoch": 2.310354967443814,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00044630703634935046,
      "loss": 5.2005,
      "mean_token_accuracy": 0.189162015914917,
      "num_tokens": 50724043.0,
      "step": 27500
    },
    {
      "entropy": 5.558585548400879,
      "epoch": 2.3107750472589794,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00044628761976721175,
      "loss": 5.1607,
      "mean_token_accuracy": 0.18484210073947907,
      "num_tokens": 50732840.0,
      "step": 27505
    },
    {
      "entropy": 5.536337041854859,
      "epoch": 2.311195127074144,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004462682001508012,
      "loss": 5.1727,
      "mean_token_accuracy": 0.18903383761644363,
      "num_tokens": 50741898.0,
      "step": 27510
    },
    {
      "entropy": 5.463649320602417,
      "epoch": 2.311615206889309,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004462487775004626,
      "loss": 5.1993,
      "mean_token_accuracy": 0.18338412344455718,
      "num_tokens": 50750558.0,
      "step": 27515
    },
    {
      "entropy": 5.571247243881226,
      "epoch": 2.312035286704474,
      "grad_norm": 1.296875,
      "learning_rate": 0.00044622935181654007,
      "loss": 5.2488,
      "mean_token_accuracy": 0.18622736036777496,
      "num_tokens": 50759969.0,
      "step": 27520
    },
    {
      "entropy": 5.538006973266602,
      "epoch": 2.3124553665196386,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00044620992309937774,
      "loss": 5.1818,
      "mean_token_accuracy": 0.18168765604496,
      "num_tokens": 50768644.0,
      "step": 27525
    },
    {
      "entropy": 5.542107248306275,
      "epoch": 2.312875446334804,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004461904913493198,
      "loss": 5.1946,
      "mean_token_accuracy": 0.17648488879203797,
      "num_tokens": 50778407.0,
      "step": 27530
    },
    {
      "entropy": 5.5654542446136475,
      "epoch": 2.3132955261499686,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004461710565667105,
      "loss": 5.2454,
      "mean_token_accuracy": 0.18261223137378693,
      "num_tokens": 50787748.0,
      "step": 27535
    },
    {
      "entropy": 5.518426370620728,
      "epoch": 2.3137156059651334,
      "grad_norm": 1.203125,
      "learning_rate": 0.000446151618751894,
      "loss": 5.1163,
      "mean_token_accuracy": 0.18573703914880751,
      "num_tokens": 50795809.0,
      "step": 27540
    },
    {
      "entropy": 5.482527351379394,
      "epoch": 2.314135685780298,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004461321779052148,
      "loss": 5.2742,
      "mean_token_accuracy": 0.17564217150211334,
      "num_tokens": 50805370.0,
      "step": 27545
    },
    {
      "entropy": 5.549216365814209,
      "epoch": 2.314555765595463,
      "grad_norm": 1.125,
      "learning_rate": 0.0004461127340270171,
      "loss": 5.2441,
      "mean_token_accuracy": 0.1809507980942726,
      "num_tokens": 50814369.0,
      "step": 27550
    },
    {
      "entropy": 5.6131102561950685,
      "epoch": 2.314975845410628,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004460932871176454,
      "loss": 5.2661,
      "mean_token_accuracy": 0.18259920924901962,
      "num_tokens": 50823537.0,
      "step": 27555
    },
    {
      "entropy": 5.498083114624023,
      "epoch": 2.315395925225793,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004460738371774443,
      "loss": 5.1691,
      "mean_token_accuracy": 0.18378085345029832,
      "num_tokens": 50833210.0,
      "step": 27560
    },
    {
      "entropy": 5.562569522857666,
      "epoch": 2.3158160050409577,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004460543842067582,
      "loss": 5.2483,
      "mean_token_accuracy": 0.17714578807353973,
      "num_tokens": 50842085.0,
      "step": 27565
    },
    {
      "entropy": 5.510002088546753,
      "epoch": 2.3162360848561225,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004460349282059318,
      "loss": 5.2441,
      "mean_token_accuracy": 0.18275861144065858,
      "num_tokens": 50851387.0,
      "step": 27570
    },
    {
      "entropy": 5.55437912940979,
      "epoch": 2.3166561646712873,
      "grad_norm": 1.125,
      "learning_rate": 0.0004460154691753098,
      "loss": 5.2779,
      "mean_token_accuracy": 0.18432842344045638,
      "num_tokens": 50861093.0,
      "step": 27575
    },
    {
      "entropy": 5.66950364112854,
      "epoch": 2.3170762444864526,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00044599600711523667,
      "loss": 5.2975,
      "mean_token_accuracy": 0.17604261189699172,
      "num_tokens": 50870337.0,
      "step": 27580
    },
    {
      "entropy": 5.5904576778411865,
      "epoch": 2.3174963243016173,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004459765420260574,
      "loss": 5.2967,
      "mean_token_accuracy": 0.17970603704452515,
      "num_tokens": 50879514.0,
      "step": 27585
    },
    {
      "entropy": 5.5807324886322025,
      "epoch": 2.317916404116782,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004459570739081167,
      "loss": 5.3118,
      "mean_token_accuracy": 0.17490556836128235,
      "num_tokens": 50889000.0,
      "step": 27590
    },
    {
      "entropy": 5.602029132843017,
      "epoch": 2.318336483931947,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00044593760276175954,
      "loss": 5.2421,
      "mean_token_accuracy": 0.1862812027335167,
      "num_tokens": 50898325.0,
      "step": 27595
    },
    {
      "entropy": 5.551195287704468,
      "epoch": 2.318756563747112,
      "grad_norm": 1.203125,
      "learning_rate": 0.00044591812858733073,
      "loss": 5.1667,
      "mean_token_accuracy": 0.18701834827661515,
      "num_tokens": 50907625.0,
      "step": 27600
    },
    {
      "entropy": 5.540750312805176,
      "epoch": 2.319176643562277,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004458986513851752,
      "loss": 5.2532,
      "mean_token_accuracy": 0.18502071648836135,
      "num_tokens": 50917308.0,
      "step": 27605
    },
    {
      "entropy": 5.603586912155151,
      "epoch": 2.3195967233774417,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00044587917115563816,
      "loss": 5.343,
      "mean_token_accuracy": 0.18139983266592025,
      "num_tokens": 50926668.0,
      "step": 27610
    },
    {
      "entropy": 5.562949991226196,
      "epoch": 2.3200168031926065,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00044585968789906454,
      "loss": 5.2301,
      "mean_token_accuracy": 0.1823100432753563,
      "num_tokens": 50936070.0,
      "step": 27615
    },
    {
      "entropy": 5.534940338134765,
      "epoch": 2.3204368830077713,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004458402016157996,
      "loss": 5.2156,
      "mean_token_accuracy": 0.18616630434989928,
      "num_tokens": 50944656.0,
      "step": 27620
    },
    {
      "entropy": 5.625196743011474,
      "epoch": 2.3208569628229365,
      "grad_norm": 1.1875,
      "learning_rate": 0.00044582071230618835,
      "loss": 5.263,
      "mean_token_accuracy": 0.18039812743663788,
      "num_tokens": 50953826.0,
      "step": 27625
    },
    {
      "entropy": 5.576330900192261,
      "epoch": 2.3212770426381013,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004458012199705762,
      "loss": 5.143,
      "mean_token_accuracy": 0.1892137870192528,
      "num_tokens": 50962129.0,
      "step": 27630
    },
    {
      "entropy": 5.468294143676758,
      "epoch": 2.321697122453266,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004457817246093084,
      "loss": 5.1375,
      "mean_token_accuracy": 0.18596822768449783,
      "num_tokens": 50971836.0,
      "step": 27635
    },
    {
      "entropy": 5.494494104385376,
      "epoch": 2.322117202268431,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00044576222622273026,
      "loss": 5.1922,
      "mean_token_accuracy": 0.18301084488630295,
      "num_tokens": 50981448.0,
      "step": 27640
    },
    {
      "entropy": 5.744935321807861,
      "epoch": 2.322537282083596,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004457427248111872,
      "loss": 5.4203,
      "mean_token_accuracy": 0.1721285656094551,
      "num_tokens": 50992475.0,
      "step": 27645
    },
    {
      "entropy": 5.651117610931396,
      "epoch": 2.322957361898761,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00044572322037502474,
      "loss": 5.3223,
      "mean_token_accuracy": 0.17810653746128083,
      "num_tokens": 51000965.0,
      "step": 27650
    },
    {
      "entropy": 5.499495553970337,
      "epoch": 2.3233774417139257,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004457037129145883,
      "loss": 5.2238,
      "mean_token_accuracy": 0.18743962794542313,
      "num_tokens": 51010374.0,
      "step": 27655
    },
    {
      "entropy": 5.5188616752624515,
      "epoch": 2.3237975215290905,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004456842024302235,
      "loss": 5.1443,
      "mean_token_accuracy": 0.18624669909477234,
      "num_tokens": 51018714.0,
      "step": 27660
    },
    {
      "entropy": 5.514321994781494,
      "epoch": 2.3242176013442553,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004456646889222759,
      "loss": 5.227,
      "mean_token_accuracy": 0.19176070988178254,
      "num_tokens": 51028097.0,
      "step": 27665
    },
    {
      "entropy": 5.542136096954346,
      "epoch": 2.3246376811594205,
      "grad_norm": 1.25,
      "learning_rate": 0.0004456451723910913,
      "loss": 5.1848,
      "mean_token_accuracy": 0.18731115460395814,
      "num_tokens": 51036270.0,
      "step": 27670
    },
    {
      "entropy": 5.635550260543823,
      "epoch": 2.3250577609745853,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004456256528370153,
      "loss": 5.2619,
      "mean_token_accuracy": 0.1808533176779747,
      "num_tokens": 51046235.0,
      "step": 27675
    },
    {
      "entropy": 5.4909929752349855,
      "epoch": 2.32547784078975,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00044560613026039376,
      "loss": 5.1787,
      "mean_token_accuracy": 0.19157355427742004,
      "num_tokens": 51054996.0,
      "step": 27680
    },
    {
      "entropy": 5.409874629974365,
      "epoch": 2.325897920604915,
      "grad_norm": 1.125,
      "learning_rate": 0.00044558660466157237,
      "loss": 5.0657,
      "mean_token_accuracy": 0.18872170746326447,
      "num_tokens": 51063248.0,
      "step": 27685
    },
    {
      "entropy": 5.613470029830933,
      "epoch": 2.3263180004200796,
      "grad_norm": 1.203125,
      "learning_rate": 0.00044556707604089717,
      "loss": 5.3355,
      "mean_token_accuracy": 0.17433594316244125,
      "num_tokens": 51073242.0,
      "step": 27690
    },
    {
      "entropy": 5.557518720626831,
      "epoch": 2.326738080235245,
      "grad_norm": 1.21875,
      "learning_rate": 0.000445547544398714,
      "loss": 5.208,
      "mean_token_accuracy": 0.1843216210603714,
      "num_tokens": 51082731.0,
      "step": 27695
    },
    {
      "entropy": 5.605078983306885,
      "epoch": 2.3271581600504097,
      "grad_norm": 1.2734375,
      "learning_rate": 0.000445528009735369,
      "loss": 5.3371,
      "mean_token_accuracy": 0.17208246141672134,
      "num_tokens": 51091137.0,
      "step": 27700
    },
    {
      "entropy": 5.526597166061402,
      "epoch": 2.3275782398655744,
      "grad_norm": 1.15625,
      "learning_rate": 0.000445508472051208,
      "loss": 5.2451,
      "mean_token_accuracy": 0.18101464658975602,
      "num_tokens": 51099525.0,
      "step": 27705
    },
    {
      "entropy": 5.574684906005859,
      "epoch": 2.3279983196807392,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00044548893134657735,
      "loss": 5.2689,
      "mean_token_accuracy": 0.18200406432151794,
      "num_tokens": 51108858.0,
      "step": 27710
    },
    {
      "entropy": 5.55114107131958,
      "epoch": 2.328418399495904,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000445469387621823,
      "loss": 5.1597,
      "mean_token_accuracy": 0.19176804274320602,
      "num_tokens": 51119009.0,
      "step": 27715
    },
    {
      "entropy": 5.511155080795288,
      "epoch": 2.3288384793110692,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00044544984087729124,
      "loss": 5.1975,
      "mean_token_accuracy": 0.18655533194541932,
      "num_tokens": 51128601.0,
      "step": 27720
    },
    {
      "entropy": 5.552752256393433,
      "epoch": 2.329258559126234,
      "grad_norm": 1.078125,
      "learning_rate": 0.00044543029111332834,
      "loss": 5.2719,
      "mean_token_accuracy": 0.17619562149047852,
      "num_tokens": 51138053.0,
      "step": 27725
    },
    {
      "entropy": 5.61564450263977,
      "epoch": 2.329678638941399,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004454107383302805,
      "loss": 5.216,
      "mean_token_accuracy": 0.1796259969472885,
      "num_tokens": 51147178.0,
      "step": 27730
    },
    {
      "entropy": 5.593854331970215,
      "epoch": 2.3300987187565636,
      "grad_norm": 1.203125,
      "learning_rate": 0.00044539118252849433,
      "loss": 5.2092,
      "mean_token_accuracy": 0.18304370492696762,
      "num_tokens": 51156320.0,
      "step": 27735
    },
    {
      "entropy": 5.459544277191162,
      "epoch": 2.3305187985717284,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004453716237083159,
      "loss": 5.1491,
      "mean_token_accuracy": 0.18850830793380738,
      "num_tokens": 51164997.0,
      "step": 27740
    },
    {
      "entropy": 5.563917207717895,
      "epoch": 2.3309388783868936,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004453520618700921,
      "loss": 5.2759,
      "mean_token_accuracy": 0.18300161957740785,
      "num_tokens": 51174102.0,
      "step": 27745
    },
    {
      "entropy": 5.640643501281739,
      "epoch": 2.3313589582020584,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00044533249701416913,
      "loss": 5.2664,
      "mean_token_accuracy": 0.1724087819457054,
      "num_tokens": 51183990.0,
      "step": 27750
    },
    {
      "entropy": 5.572424221038818,
      "epoch": 2.331779038017223,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004453129291408936,
      "loss": 5.2074,
      "mean_token_accuracy": 0.18464841544628144,
      "num_tokens": 51192675.0,
      "step": 27755
    },
    {
      "entropy": 5.510394859313965,
      "epoch": 2.332199117832388,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00044529335825061237,
      "loss": 5.1605,
      "mean_token_accuracy": 0.18446134775877,
      "num_tokens": 51202427.0,
      "step": 27760
    },
    {
      "entropy": 5.488664770126343,
      "epoch": 2.332619197647553,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00044527378434367187,
      "loss": 5.2015,
      "mean_token_accuracy": 0.18460491746664048,
      "num_tokens": 51211668.0,
      "step": 27765
    },
    {
      "entropy": 5.549952220916748,
      "epoch": 2.333039277462718,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004452542074204191,
      "loss": 5.221,
      "mean_token_accuracy": 0.17970262169837953,
      "num_tokens": 51220169.0,
      "step": 27770
    },
    {
      "entropy": 5.598035383224487,
      "epoch": 2.333459357277883,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00044523462748120065,
      "loss": 5.2525,
      "mean_token_accuracy": 0.18399370908737184,
      "num_tokens": 51229333.0,
      "step": 27775
    },
    {
      "entropy": 5.543056011199951,
      "epoch": 2.3338794370930476,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00044521504452636334,
      "loss": 5.2069,
      "mean_token_accuracy": 0.1808198869228363,
      "num_tokens": 51238484.0,
      "step": 27780
    },
    {
      "entropy": 5.491885614395142,
      "epoch": 2.334299516908213,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004451954585562543,
      "loss": 5.0827,
      "mean_token_accuracy": 0.19076919108629226,
      "num_tokens": 51247427.0,
      "step": 27785
    },
    {
      "entropy": 5.519436311721802,
      "epoch": 2.3347195967233776,
      "grad_norm": 1.265625,
      "learning_rate": 0.0004451758695712203,
      "loss": 5.2655,
      "mean_token_accuracy": 0.187974189221859,
      "num_tokens": 51256259.0,
      "step": 27790
    },
    {
      "entropy": 5.556543970108033,
      "epoch": 2.3351396765385424,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004451562775716083,
      "loss": 5.157,
      "mean_token_accuracy": 0.18080898225307465,
      "num_tokens": 51265072.0,
      "step": 27795
    },
    {
      "entropy": 5.6483705043792725,
      "epoch": 2.335559756353707,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004451366825577656,
      "loss": 5.2814,
      "mean_token_accuracy": 0.18270437717437743,
      "num_tokens": 51275383.0,
      "step": 27800
    },
    {
      "entropy": 5.488607597351074,
      "epoch": 2.335979836168872,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00044511708453003914,
      "loss": 5.1589,
      "mean_token_accuracy": 0.19876594990491867,
      "num_tokens": 51284025.0,
      "step": 27805
    },
    {
      "entropy": 5.48239278793335,
      "epoch": 2.336399915984037,
      "grad_norm": 1.375,
      "learning_rate": 0.00044509748348877607,
      "loss": 5.2785,
      "mean_token_accuracy": 0.18143719136714936,
      "num_tokens": 51293794.0,
      "step": 27810
    },
    {
      "entropy": 5.595397233963013,
      "epoch": 2.336819995799202,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004450778794343237,
      "loss": 5.2215,
      "mean_token_accuracy": 0.18103184998035432,
      "num_tokens": 51303358.0,
      "step": 27815
    },
    {
      "entropy": 5.639998197555542,
      "epoch": 2.3372400756143668,
      "grad_norm": 1.21875,
      "learning_rate": 0.00044505827236702934,
      "loss": 5.2389,
      "mean_token_accuracy": 0.18108577281236649,
      "num_tokens": 51312270.0,
      "step": 27820
    },
    {
      "entropy": 5.64082818031311,
      "epoch": 2.3376601554295315,
      "grad_norm": 1.21875,
      "learning_rate": 0.00044503866228724016,
      "loss": 5.291,
      "mean_token_accuracy": 0.17360738068819045,
      "num_tokens": 51322220.0,
      "step": 27825
    },
    {
      "entropy": 5.546287488937378,
      "epoch": 2.3380802352446963,
      "grad_norm": 1.140625,
      "learning_rate": 0.00044501904919530365,
      "loss": 5.1997,
      "mean_token_accuracy": 0.17759303748607635,
      "num_tokens": 51332240.0,
      "step": 27830
    },
    {
      "entropy": 5.514213752746582,
      "epoch": 2.3385003150598616,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004449994330915673,
      "loss": 5.2903,
      "mean_token_accuracy": 0.17628877162933348,
      "num_tokens": 51340939.0,
      "step": 27835
    },
    {
      "entropy": 5.559633064270019,
      "epoch": 2.3389203948750263,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004449798139763785,
      "loss": 5.1664,
      "mean_token_accuracy": 0.18137631118297576,
      "num_tokens": 51349270.0,
      "step": 27840
    },
    {
      "entropy": 5.534826946258545,
      "epoch": 2.339340474690191,
      "grad_norm": 1.140625,
      "learning_rate": 0.00044496019185008475,
      "loss": 5.1105,
      "mean_token_accuracy": 0.18912554383277894,
      "num_tokens": 51358270.0,
      "step": 27845
    },
    {
      "entropy": 5.510481882095337,
      "epoch": 2.339760554505356,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004449405667130337,
      "loss": 5.2199,
      "mean_token_accuracy": 0.18506766110658646,
      "num_tokens": 51367722.0,
      "step": 27850
    },
    {
      "entropy": 5.455464172363281,
      "epoch": 2.3401806343205207,
      "grad_norm": 1.34375,
      "learning_rate": 0.00044492093856557315,
      "loss": 5.2367,
      "mean_token_accuracy": 0.18404167741537095,
      "num_tokens": 51376920.0,
      "step": 27855
    },
    {
      "entropy": 5.695027923583984,
      "epoch": 2.340600714135686,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00044490130740805055,
      "loss": 5.4388,
      "mean_token_accuracy": 0.16914741396903993,
      "num_tokens": 51387175.0,
      "step": 27860
    },
    {
      "entropy": 5.641964244842529,
      "epoch": 2.3410207939508507,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004448816732408138,
      "loss": 5.2802,
      "mean_token_accuracy": 0.17707926481962205,
      "num_tokens": 51396552.0,
      "step": 27865
    },
    {
      "entropy": 5.574015998840332,
      "epoch": 2.3414408737660155,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004448620360642108,
      "loss": 5.2331,
      "mean_token_accuracy": 0.17766776084899902,
      "num_tokens": 51405587.0,
      "step": 27870
    },
    {
      "entropy": 5.5778789043426515,
      "epoch": 2.3418609535811803,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00044484239587858917,
      "loss": 5.2797,
      "mean_token_accuracy": 0.17861774414777756,
      "num_tokens": 51413905.0,
      "step": 27875
    },
    {
      "entropy": 5.5342203140258786,
      "epoch": 2.342281033396345,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000444822752684297,
      "loss": 5.1462,
      "mean_token_accuracy": 0.18468875735998153,
      "num_tokens": 51422503.0,
      "step": 27880
    },
    {
      "entropy": 5.485243511199951,
      "epoch": 2.3427011132115103,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004448031064816822,
      "loss": 5.1156,
      "mean_token_accuracy": 0.18723459243774415,
      "num_tokens": 51431577.0,
      "step": 27885
    },
    {
      "entropy": 5.617256927490234,
      "epoch": 2.343121193026675,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00044478345727109276,
      "loss": 5.3173,
      "mean_token_accuracy": 0.17691005319356917,
      "num_tokens": 51440971.0,
      "step": 27890
    },
    {
      "entropy": 5.534621000289917,
      "epoch": 2.34354127284184,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004447638050528769,
      "loss": 5.1683,
      "mean_token_accuracy": 0.18763858079910278,
      "num_tokens": 51450590.0,
      "step": 27895
    },
    {
      "entropy": 5.5376325130462645,
      "epoch": 2.3439613526570047,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004447441498273826,
      "loss": 5.2404,
      "mean_token_accuracy": 0.18083081245422364,
      "num_tokens": 51459662.0,
      "step": 27900
    },
    {
      "entropy": 5.5775291442871096,
      "epoch": 2.34438143247217,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00044472449159495807,
      "loss": 5.2437,
      "mean_token_accuracy": 0.18884174823760985,
      "num_tokens": 51469347.0,
      "step": 27905
    },
    {
      "entropy": 5.530795097351074,
      "epoch": 2.3448015122873347,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00044470483035595156,
      "loss": 5.2307,
      "mean_token_accuracy": 0.18610710054636,
      "num_tokens": 51478752.0,
      "step": 27910
    },
    {
      "entropy": 5.455042982101441,
      "epoch": 2.3452215921024995,
      "grad_norm": 1.125,
      "learning_rate": 0.0004446851661107114,
      "loss": 5.0252,
      "mean_token_accuracy": 0.19413590878248216,
      "num_tokens": 51487558.0,
      "step": 27915
    },
    {
      "entropy": 5.466534996032715,
      "epoch": 2.3456416719176643,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004446654988595859,
      "loss": 5.2573,
      "mean_token_accuracy": 0.18298328220844268,
      "num_tokens": 51495824.0,
      "step": 27920
    },
    {
      "entropy": 5.587151527404785,
      "epoch": 2.346061751732829,
      "grad_norm": 1.296875,
      "learning_rate": 0.00044464582860292344,
      "loss": 5.2094,
      "mean_token_accuracy": 0.1853671044111252,
      "num_tokens": 51505199.0,
      "step": 27925
    },
    {
      "entropy": 5.575161981582641,
      "epoch": 2.3464818315479943,
      "grad_norm": 1.1875,
      "learning_rate": 0.00044462615534107247,
      "loss": 5.2022,
      "mean_token_accuracy": 0.18025588244199753,
      "num_tokens": 51514343.0,
      "step": 27930
    },
    {
      "entropy": 5.511531972885132,
      "epoch": 2.346901911363159,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004446064790743815,
      "loss": 5.229,
      "mean_token_accuracy": 0.1856512948870659,
      "num_tokens": 51522942.0,
      "step": 27935
    },
    {
      "entropy": 5.543825149536133,
      "epoch": 2.347321991178324,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00044458679980319916,
      "loss": 5.1843,
      "mean_token_accuracy": 0.18212707340717316,
      "num_tokens": 51532864.0,
      "step": 27940
    },
    {
      "entropy": 5.664991998672486,
      "epoch": 2.3477420709934886,
      "grad_norm": 1.1875,
      "learning_rate": 0.00044456711752787387,
      "loss": 5.2889,
      "mean_token_accuracy": 0.17955171018838884,
      "num_tokens": 51542862.0,
      "step": 27945
    },
    {
      "entropy": 5.622212553024292,
      "epoch": 2.348162150808654,
      "grad_norm": 1.09375,
      "learning_rate": 0.00044454743224875453,
      "loss": 5.2955,
      "mean_token_accuracy": 0.18002252131700516,
      "num_tokens": 51552502.0,
      "step": 27950
    },
    {
      "entropy": 5.524079275131226,
      "epoch": 2.3485822306238187,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004445277439661896,
      "loss": 5.2654,
      "mean_token_accuracy": 0.18114493191242217,
      "num_tokens": 51561535.0,
      "step": 27955
    },
    {
      "entropy": 5.575028800964356,
      "epoch": 2.3490023104389834,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000444508052680528,
      "loss": 5.1773,
      "mean_token_accuracy": 0.18595226854085922,
      "num_tokens": 51570413.0,
      "step": 27960
    },
    {
      "entropy": 5.518417119979858,
      "epoch": 2.3494223902541482,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00044448835839211865,
      "loss": 5.2087,
      "mean_token_accuracy": 0.18021221905946733,
      "num_tokens": 51579370.0,
      "step": 27965
    },
    {
      "entropy": 5.5215832710266115,
      "epoch": 2.349842470069313,
      "grad_norm": 1.1875,
      "learning_rate": 0.00044446866110131025,
      "loss": 5.2047,
      "mean_token_accuracy": 0.1839917704463005,
      "num_tokens": 51588944.0,
      "step": 27970
    },
    {
      "entropy": 5.699012565612793,
      "epoch": 2.3502625498844782,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004444489608084517,
      "loss": 5.3807,
      "mean_token_accuracy": 0.17590305656194688,
      "num_tokens": 51599061.0,
      "step": 27975
    },
    {
      "entropy": 5.544977283477783,
      "epoch": 2.350682629699643,
      "grad_norm": 1.125,
      "learning_rate": 0.0004444292575138922,
      "loss": 5.267,
      "mean_token_accuracy": 0.18090444505214692,
      "num_tokens": 51608742.0,
      "step": 27980
    },
    {
      "entropy": 5.581695890426635,
      "epoch": 2.351102709514808,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004444095512179805,
      "loss": 5.2853,
      "mean_token_accuracy": 0.18372585028409957,
      "num_tokens": 51618351.0,
      "step": 27985
    },
    {
      "entropy": 5.600666427612305,
      "epoch": 2.3515227893299726,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004443898419210659,
      "loss": 5.2841,
      "mean_token_accuracy": 0.18154607117176055,
      "num_tokens": 51626424.0,
      "step": 27990
    },
    {
      "entropy": 5.5784097671508786,
      "epoch": 2.3519428691451374,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004443701296234975,
      "loss": 5.2557,
      "mean_token_accuracy": 0.17833448350429534,
      "num_tokens": 51635852.0,
      "step": 27995
    },
    {
      "entropy": 5.618724298477173,
      "epoch": 2.3523629489603026,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00044435041432562447,
      "loss": 5.2146,
      "mean_token_accuracy": 0.18391486406326293,
      "num_tokens": 51645130.0,
      "step": 28000
    },
    {
      "entropy": 5.568095541000366,
      "epoch": 2.3527830287754674,
      "grad_norm": 1.140625,
      "learning_rate": 0.000444330696027796,
      "loss": 5.3554,
      "mean_token_accuracy": 0.1814577281475067,
      "num_tokens": 51655566.0,
      "step": 28005
    },
    {
      "entropy": 5.531437253952026,
      "epoch": 2.353203108590632,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004443109747303615,
      "loss": 5.0602,
      "mean_token_accuracy": 0.19163576513528824,
      "num_tokens": 51664597.0,
      "step": 28010
    },
    {
      "entropy": 5.526961851119995,
      "epoch": 2.353623188405797,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00044429125043367014,
      "loss": 5.2828,
      "mean_token_accuracy": 0.17619816660881044,
      "num_tokens": 51673829.0,
      "step": 28015
    },
    {
      "entropy": 5.561162042617798,
      "epoch": 2.3540432682209618,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004442715231380716,
      "loss": 5.1563,
      "mean_token_accuracy": 0.18812667727470397,
      "num_tokens": 51682382.0,
      "step": 28020
    },
    {
      "entropy": 5.478530025482177,
      "epoch": 2.354463348036127,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004442517928439151,
      "loss": 5.1718,
      "mean_token_accuracy": 0.19021464437246322,
      "num_tokens": 51691979.0,
      "step": 28025
    },
    {
      "entropy": 5.487290143966675,
      "epoch": 2.354883427851292,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004442320595515503,
      "loss": 5.1169,
      "mean_token_accuracy": 0.18741994202136994,
      "num_tokens": 51700058.0,
      "step": 28030
    },
    {
      "entropy": 5.532544803619385,
      "epoch": 2.3553035076664566,
      "grad_norm": 1.203125,
      "learning_rate": 0.00044421232326132665,
      "loss": 5.222,
      "mean_token_accuracy": 0.17625436633825303,
      "num_tokens": 51708931.0,
      "step": 28035
    },
    {
      "entropy": 5.628813886642456,
      "epoch": 2.3557235874816214,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004441925839735939,
      "loss": 5.3243,
      "mean_token_accuracy": 0.17457423955202103,
      "num_tokens": 51717616.0,
      "step": 28040
    },
    {
      "entropy": 5.6073273658752445,
      "epoch": 2.356143667296786,
      "grad_norm": 1.25,
      "learning_rate": 0.0004441728416887016,
      "loss": 5.2252,
      "mean_token_accuracy": 0.18114072680473328,
      "num_tokens": 51727074.0,
      "step": 28045
    },
    {
      "entropy": 5.514275407791137,
      "epoch": 2.3565637471119514,
      "grad_norm": 1.3125,
      "learning_rate": 0.00044415309640699955,
      "loss": 5.2212,
      "mean_token_accuracy": 0.18582548797130585,
      "num_tokens": 51735233.0,
      "step": 28050
    },
    {
      "entropy": 5.486700582504272,
      "epoch": 2.356983826927116,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004441333481288374,
      "loss": 5.1131,
      "mean_token_accuracy": 0.1932791918516159,
      "num_tokens": 51743958.0,
      "step": 28055
    },
    {
      "entropy": 5.48375186920166,
      "epoch": 2.357403906742281,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00044411359685456517,
      "loss": 5.1701,
      "mean_token_accuracy": 0.19129493981599807,
      "num_tokens": 51752755.0,
      "step": 28060
    },
    {
      "entropy": 5.505313777923584,
      "epoch": 2.3578239865574457,
      "grad_norm": 1.171875,
      "learning_rate": 0.00044409384258453264,
      "loss": 5.2344,
      "mean_token_accuracy": 0.17317906767129898,
      "num_tokens": 51762184.0,
      "step": 28065
    },
    {
      "entropy": 5.489867162704468,
      "epoch": 2.358244066372611,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004440740853190897,
      "loss": 5.1076,
      "mean_token_accuracy": 0.18807729184627534,
      "num_tokens": 51771919.0,
      "step": 28070
    },
    {
      "entropy": 5.562301397323608,
      "epoch": 2.3586641461877758,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004440543250585864,
      "loss": 5.1849,
      "mean_token_accuracy": 0.1879352495074272,
      "num_tokens": 51781020.0,
      "step": 28075
    },
    {
      "entropy": 5.624716663360596,
      "epoch": 2.3590842260029405,
      "grad_norm": 1.203125,
      "learning_rate": 0.00044403456180337286,
      "loss": 5.2989,
      "mean_token_accuracy": 0.1755002662539482,
      "num_tokens": 51790169.0,
      "step": 28080
    },
    {
      "entropy": 5.550536012649536,
      "epoch": 2.3595043058181053,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00044401479555379917,
      "loss": 5.1643,
      "mean_token_accuracy": 0.1877062901854515,
      "num_tokens": 51799291.0,
      "step": 28085
    },
    {
      "entropy": 5.592271423339843,
      "epoch": 2.3599243856332706,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0004439950263102152,
      "loss": 5.3166,
      "mean_token_accuracy": 0.18028682023286818,
      "num_tokens": 51808821.0,
      "step": 28090
    },
    {
      "entropy": 5.4355730533599855,
      "epoch": 2.3603444654484353,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00044397525407297153,
      "loss": 5.108,
      "mean_token_accuracy": 0.19291930347681047,
      "num_tokens": 51817691.0,
      "step": 28095
    },
    {
      "entropy": 5.582491731643676,
      "epoch": 2.3607645452636,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00044395547884241814,
      "loss": 5.2447,
      "mean_token_accuracy": 0.17685919851064683,
      "num_tokens": 51827164.0,
      "step": 28100
    },
    {
      "entropy": 5.572199106216431,
      "epoch": 2.361184625078765,
      "grad_norm": 1.125,
      "learning_rate": 0.0004439357006189055,
      "loss": 5.2155,
      "mean_token_accuracy": 0.18627550452947617,
      "num_tokens": 51836841.0,
      "step": 28105
    },
    {
      "entropy": 5.598210859298706,
      "epoch": 2.3616047048939297,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004439159194027839,
      "loss": 5.2217,
      "mean_token_accuracy": 0.18042851835489274,
      "num_tokens": 51846589.0,
      "step": 28110
    },
    {
      "entropy": 5.545194149017334,
      "epoch": 2.362024784709095,
      "grad_norm": 1.109375,
      "learning_rate": 0.00044389613519440373,
      "loss": 5.2013,
      "mean_token_accuracy": 0.19033245593309403,
      "num_tokens": 51855099.0,
      "step": 28115
    },
    {
      "entropy": 5.489111328125,
      "epoch": 2.3624448645242597,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00044387634799411557,
      "loss": 5.136,
      "mean_token_accuracy": 0.19108014851808547,
      "num_tokens": 51864377.0,
      "step": 28120
    },
    {
      "entropy": 5.5150469779968265,
      "epoch": 2.3628649443394245,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004438565578022698,
      "loss": 5.2779,
      "mean_token_accuracy": 0.17944449037313462,
      "num_tokens": 51874235.0,
      "step": 28125
    },
    {
      "entropy": 5.631175708770752,
      "epoch": 2.3632850241545893,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00044383676461921703,
      "loss": 5.3455,
      "mean_token_accuracy": 0.17348116338253022,
      "num_tokens": 51884332.0,
      "step": 28130
    },
    {
      "entropy": 5.608733367919922,
      "epoch": 2.363705103969754,
      "grad_norm": 1.125,
      "learning_rate": 0.000443816968445308,
      "loss": 5.2083,
      "mean_token_accuracy": 0.18194665908813476,
      "num_tokens": 51893880.0,
      "step": 28135
    },
    {
      "entropy": 5.538389110565186,
      "epoch": 2.3641251837849193,
      "grad_norm": 1.125,
      "learning_rate": 0.0004437971692808932,
      "loss": 5.2756,
      "mean_token_accuracy": 0.18012712448835372,
      "num_tokens": 51902568.0,
      "step": 28140
    },
    {
      "entropy": 5.538274240493775,
      "epoch": 2.364545263600084,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00044377736712632355,
      "loss": 5.1686,
      "mean_token_accuracy": 0.1877833351492882,
      "num_tokens": 51911919.0,
      "step": 28145
    },
    {
      "entropy": 5.56949667930603,
      "epoch": 2.364965343415249,
      "grad_norm": 1.71875,
      "learning_rate": 0.0004437575619819497,
      "loss": 5.2228,
      "mean_token_accuracy": 0.18761013746261596,
      "num_tokens": 51921348.0,
      "step": 28150
    },
    {
      "entropy": 5.598303890228271,
      "epoch": 2.3653854232304137,
      "grad_norm": 1.125,
      "learning_rate": 0.0004437377538481225,
      "loss": 5.3373,
      "mean_token_accuracy": 0.1838728219270706,
      "num_tokens": 51930683.0,
      "step": 28155
    },
    {
      "entropy": 5.617640733718872,
      "epoch": 2.3658055030455785,
      "grad_norm": 1.1875,
      "learning_rate": 0.000443717942725193,
      "loss": 5.2739,
      "mean_token_accuracy": 0.1826763480901718,
      "num_tokens": 51939387.0,
      "step": 28160
    },
    {
      "entropy": 5.570766544342041,
      "epoch": 2.3662255828607437,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004436981286135119,
      "loss": 5.2598,
      "mean_token_accuracy": 0.18290285468101503,
      "num_tokens": 51949385.0,
      "step": 28165
    },
    {
      "entropy": 5.492753219604492,
      "epoch": 2.3666456626759085,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004436783115134304,
      "loss": 5.2157,
      "mean_token_accuracy": 0.1904277727007866,
      "num_tokens": 51958710.0,
      "step": 28170
    },
    {
      "entropy": 5.486669206619263,
      "epoch": 2.3670657424910733,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004436584914252995,
      "loss": 5.1187,
      "mean_token_accuracy": 0.1904787838459015,
      "num_tokens": 51967392.0,
      "step": 28175
    },
    {
      "entropy": 5.498442840576172,
      "epoch": 2.367485822306238,
      "grad_norm": 1.171875,
      "learning_rate": 0.00044363866834947017,
      "loss": 5.2024,
      "mean_token_accuracy": 0.18586533069610595,
      "num_tokens": 51976504.0,
      "step": 28180
    },
    {
      "entropy": 5.609594106674194,
      "epoch": 2.367905902121403,
      "grad_norm": 1.171875,
      "learning_rate": 0.00044361884228629367,
      "loss": 5.2532,
      "mean_token_accuracy": 0.18593932092189788,
      "num_tokens": 51985692.0,
      "step": 28185
    },
    {
      "entropy": 5.490697193145752,
      "epoch": 2.368325981936568,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004435990132361212,
      "loss": 5.1353,
      "mean_token_accuracy": 0.1862776383757591,
      "num_tokens": 51994905.0,
      "step": 28190
    },
    {
      "entropy": 5.5554790019989015,
      "epoch": 2.368746061751733,
      "grad_norm": 1.171875,
      "learning_rate": 0.00044357918119930414,
      "loss": 5.2409,
      "mean_token_accuracy": 0.18778006583452225,
      "num_tokens": 52003610.0,
      "step": 28195
    },
    {
      "entropy": 5.4697418212890625,
      "epoch": 2.3691661415668976,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004435593461761936,
      "loss": 5.0897,
      "mean_token_accuracy": 0.1962626248598099,
      "num_tokens": 52012932.0,
      "step": 28200
    },
    {
      "entropy": 5.557734060287475,
      "epoch": 2.3695862213820624,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004435395081671411,
      "loss": 5.2753,
      "mean_token_accuracy": 0.17666142880916597,
      "num_tokens": 52022343.0,
      "step": 28205
    },
    {
      "entropy": 5.520310401916504,
      "epoch": 2.3700063011972277,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00044351966717249793,
      "loss": 5.1685,
      "mean_token_accuracy": 0.1838388577103615,
      "num_tokens": 52031382.0,
      "step": 28210
    },
    {
      "entropy": 5.498098754882813,
      "epoch": 2.3704263810123924,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004434998231926156,
      "loss": 5.0967,
      "mean_token_accuracy": 0.18808528780937195,
      "num_tokens": 52039463.0,
      "step": 28215
    },
    {
      "entropy": 5.492392826080322,
      "epoch": 2.3708464608275572,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00044347997622784573,
      "loss": 5.1933,
      "mean_token_accuracy": 0.18632304817438125,
      "num_tokens": 52049568.0,
      "step": 28220
    },
    {
      "entropy": 5.539500379562378,
      "epoch": 2.371266540642722,
      "grad_norm": 1.15625,
      "learning_rate": 0.00044346012627853983,
      "loss": 5.2481,
      "mean_token_accuracy": 0.1921509549021721,
      "num_tokens": 52059968.0,
      "step": 28225
    },
    {
      "entropy": 5.514094400405884,
      "epoch": 2.371686620457887,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004434402733450495,
      "loss": 5.1817,
      "mean_token_accuracy": 0.1851094126701355,
      "num_tokens": 52068430.0,
      "step": 28230
    },
    {
      "entropy": 5.5149524211883545,
      "epoch": 2.372106700273052,
      "grad_norm": 1.171875,
      "learning_rate": 0.00044342041742772653,
      "loss": 5.1449,
      "mean_token_accuracy": 0.1918618842959404,
      "num_tokens": 52076749.0,
      "step": 28235
    },
    {
      "entropy": 5.466267013549805,
      "epoch": 2.372526780088217,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004434005585269225,
      "loss": 5.1077,
      "mean_token_accuracy": 0.1909206748008728,
      "num_tokens": 52086205.0,
      "step": 28240
    },
    {
      "entropy": 5.549986219406128,
      "epoch": 2.3729468599033816,
      "grad_norm": 1.203125,
      "learning_rate": 0.00044338069664298933,
      "loss": 5.176,
      "mean_token_accuracy": 0.1893933892250061,
      "num_tokens": 52096101.0,
      "step": 28245
    },
    {
      "entropy": 5.628382396697998,
      "epoch": 2.3733669397185464,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004433608317762789,
      "loss": 5.3961,
      "mean_token_accuracy": 0.17738643437623977,
      "num_tokens": 52106046.0,
      "step": 28250
    },
    {
      "entropy": 5.540576076507568,
      "epoch": 2.3737870195337116,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00044334096392714293,
      "loss": 5.2501,
      "mean_token_accuracy": 0.18139393478631974,
      "num_tokens": 52115599.0,
      "step": 28255
    },
    {
      "entropy": 5.5689621925354,
      "epoch": 2.3742070993488764,
      "grad_norm": 1.125,
      "learning_rate": 0.0004433210930959335,
      "loss": 5.2636,
      "mean_token_accuracy": 0.17653412520885467,
      "num_tokens": 52124746.0,
      "step": 28260
    },
    {
      "entropy": 5.5571160316467285,
      "epoch": 2.374627179164041,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004433012192830026,
      "loss": 5.2383,
      "mean_token_accuracy": 0.18304150998592378,
      "num_tokens": 52133995.0,
      "step": 28265
    },
    {
      "entropy": 5.525098657608032,
      "epoch": 2.375047258979206,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00044328134248870223,
      "loss": 5.1676,
      "mean_token_accuracy": 0.1896439716219902,
      "num_tokens": 52142897.0,
      "step": 28270
    },
    {
      "entropy": 5.5532995700836185,
      "epoch": 2.3754673387943708,
      "grad_norm": 1.046875,
      "learning_rate": 0.00044326146271338456,
      "loss": 5.1665,
      "mean_token_accuracy": 0.18556944280862808,
      "num_tokens": 52151880.0,
      "step": 28275
    },
    {
      "entropy": 5.4941627979278564,
      "epoch": 2.375887418609536,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004432415799574017,
      "loss": 5.1527,
      "mean_token_accuracy": 0.18816589713096618,
      "num_tokens": 52161143.0,
      "step": 28280
    },
    {
      "entropy": 5.631242656707764,
      "epoch": 2.376307498424701,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004432216942211059,
      "loss": 5.25,
      "mean_token_accuracy": 0.17896096855401994,
      "num_tokens": 52170906.0,
      "step": 28285
    },
    {
      "entropy": 5.5462254047393795,
      "epoch": 2.3767275782398656,
      "grad_norm": 1.125,
      "learning_rate": 0.00044320180550484935,
      "loss": 5.1867,
      "mean_token_accuracy": 0.18783052414655685,
      "num_tokens": 52179698.0,
      "step": 28290
    },
    {
      "entropy": 5.499936103820801,
      "epoch": 2.3771476580550304,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004431819138089845,
      "loss": 5.1657,
      "mean_token_accuracy": 0.18953573405742646,
      "num_tokens": 52187664.0,
      "step": 28295
    },
    {
      "entropy": 5.612359952926636,
      "epoch": 2.377567737870195,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004431620191338636,
      "loss": 5.4148,
      "mean_token_accuracy": 0.17417851835489273,
      "num_tokens": 52197604.0,
      "step": 28300
    },
    {
      "entropy": 5.558511877059937,
      "epoch": 2.3779878176853604,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00044314212147983915,
      "loss": 5.2661,
      "mean_token_accuracy": 0.18679606765508652,
      "num_tokens": 52206814.0,
      "step": 28305
    },
    {
      "entropy": 5.55373911857605,
      "epoch": 2.378407897500525,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00044312222084726355,
      "loss": 5.2609,
      "mean_token_accuracy": 0.18129799365997315,
      "num_tokens": 52216298.0,
      "step": 28310
    },
    {
      "entropy": 5.590327167510987,
      "epoch": 2.37882797731569,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004431023172364894,
      "loss": 5.217,
      "mean_token_accuracy": 0.1868107035756111,
      "num_tokens": 52225433.0,
      "step": 28315
    },
    {
      "entropy": 5.508388566970825,
      "epoch": 2.3792480571308547,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00044308241064786925,
      "loss": 5.1636,
      "mean_token_accuracy": 0.18727120012044907,
      "num_tokens": 52233519.0,
      "step": 28320
    },
    {
      "entropy": 5.489089870452881,
      "epoch": 2.3796681369460195,
      "grad_norm": 1.125,
      "learning_rate": 0.00044306250108175577,
      "loss": 5.2343,
      "mean_token_accuracy": 0.18124333173036575,
      "num_tokens": 52242188.0,
      "step": 28325
    },
    {
      "entropy": 5.58246259689331,
      "epoch": 2.3800882167611848,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00044304258853850167,
      "loss": 5.1845,
      "mean_token_accuracy": 0.1854048565030098,
      "num_tokens": 52251626.0,
      "step": 28330
    },
    {
      "entropy": 5.567109632492065,
      "epoch": 2.3805082965763495,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004430226730184596,
      "loss": 5.2347,
      "mean_token_accuracy": 0.18631241619586944,
      "num_tokens": 52261008.0,
      "step": 28335
    },
    {
      "entropy": 5.544690322875977,
      "epoch": 2.3809283763915143,
      "grad_norm": 1.1875,
      "learning_rate": 0.00044300275452198234,
      "loss": 5.1879,
      "mean_token_accuracy": 0.18916589468717576,
      "num_tokens": 52270255.0,
      "step": 28340
    },
    {
      "entropy": 5.486736106872558,
      "epoch": 2.381348456206679,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00044298283304942287,
      "loss": 5.1989,
      "mean_token_accuracy": 0.18709017634391784,
      "num_tokens": 52279550.0,
      "step": 28345
    },
    {
      "entropy": 5.511615419387818,
      "epoch": 2.381768536021844,
      "grad_norm": 1.140625,
      "learning_rate": 0.000442962908601134,
      "loss": 5.2196,
      "mean_token_accuracy": 0.17652659565210344,
      "num_tokens": 52289458.0,
      "step": 28350
    },
    {
      "entropy": 5.570457506179809,
      "epoch": 2.382188615837009,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00044294298117746863,
      "loss": 5.2442,
      "mean_token_accuracy": 0.18293665051460267,
      "num_tokens": 52299254.0,
      "step": 28355
    },
    {
      "entropy": 5.659438514709473,
      "epoch": 2.382608695652174,
      "grad_norm": 1.296875,
      "learning_rate": 0.00044292305077877985,
      "loss": 5.2919,
      "mean_token_accuracy": 0.17912391871213912,
      "num_tokens": 52308907.0,
      "step": 28360
    },
    {
      "entropy": 5.592614030838012,
      "epoch": 2.3830287754673387,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004429031174054207,
      "loss": 5.203,
      "mean_token_accuracy": 0.17893171310424805,
      "num_tokens": 52318092.0,
      "step": 28365
    },
    {
      "entropy": 5.487630128860474,
      "epoch": 2.3834488552825035,
      "grad_norm": 1.1875,
      "learning_rate": 0.00044288318105774435,
      "loss": 5.1727,
      "mean_token_accuracy": 0.19169842600822448,
      "num_tokens": 52326797.0,
      "step": 28370
    },
    {
      "entropy": 5.499412107467651,
      "epoch": 2.3838689350976687,
      "grad_norm": 1.15625,
      "learning_rate": 0.00044286324173610384,
      "loss": 5.1529,
      "mean_token_accuracy": 0.19017377644777297,
      "num_tokens": 52335730.0,
      "step": 28375
    },
    {
      "entropy": 5.487347888946533,
      "epoch": 2.3842890149128335,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004428432994408524,
      "loss": 5.1275,
      "mean_token_accuracy": 0.19008643329143524,
      "num_tokens": 52344700.0,
      "step": 28380
    },
    {
      "entropy": 5.5354907512664795,
      "epoch": 2.3847090947279983,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004428233541723434,
      "loss": 5.1832,
      "mean_token_accuracy": 0.19137003868818284,
      "num_tokens": 52354120.0,
      "step": 28385
    },
    {
      "entropy": 5.575220680236816,
      "epoch": 2.385129174543163,
      "grad_norm": 1.125,
      "learning_rate": 0.00044280340593093006,
      "loss": 5.2198,
      "mean_token_accuracy": 0.1827450782060623,
      "num_tokens": 52362425.0,
      "step": 28390
    },
    {
      "entropy": 5.544922828674316,
      "epoch": 2.3855492543583283,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004427834547169658,
      "loss": 5.1971,
      "mean_token_accuracy": 0.18394023180007935,
      "num_tokens": 52371988.0,
      "step": 28395
    },
    {
      "entropy": 5.589806747436524,
      "epoch": 2.385969334173493,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004427635005308041,
      "loss": 5.2656,
      "mean_token_accuracy": 0.17325571849942206,
      "num_tokens": 52381911.0,
      "step": 28400
    },
    {
      "entropy": 5.555800294876098,
      "epoch": 2.386389413988658,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00044274354337279825,
      "loss": 5.1399,
      "mean_token_accuracy": 0.19058851897716522,
      "num_tokens": 52391006.0,
      "step": 28405
    },
    {
      "entropy": 5.58193359375,
      "epoch": 2.3868094938038227,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004427235832433019,
      "loss": 5.2392,
      "mean_token_accuracy": 0.18364480286836624,
      "num_tokens": 52401149.0,
      "step": 28410
    },
    {
      "entropy": 5.555959701538086,
      "epoch": 2.3872295736189875,
      "grad_norm": 1.046875,
      "learning_rate": 0.00044270362014266874,
      "loss": 5.202,
      "mean_token_accuracy": 0.18539341241121293,
      "num_tokens": 52409929.0,
      "step": 28415
    },
    {
      "entropy": 5.442072153091431,
      "epoch": 2.3876496534341527,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00044268365407125227,
      "loss": 5.0726,
      "mean_token_accuracy": 0.19072812795639038,
      "num_tokens": 52418900.0,
      "step": 28420
    },
    {
      "entropy": 5.512846040725708,
      "epoch": 2.3880697332493175,
      "grad_norm": 1.203125,
      "learning_rate": 0.00044266368502940623,
      "loss": 5.2679,
      "mean_token_accuracy": 0.1725841388106346,
      "num_tokens": 52428761.0,
      "step": 28425
    },
    {
      "entropy": 5.563619804382324,
      "epoch": 2.3884898130644823,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004426437130174843,
      "loss": 5.172,
      "mean_token_accuracy": 0.1911635398864746,
      "num_tokens": 52437399.0,
      "step": 28430
    },
    {
      "entropy": 5.592500305175781,
      "epoch": 2.388909892879647,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004426237380358404,
      "loss": 5.2291,
      "mean_token_accuracy": 0.18300974518060684,
      "num_tokens": 52446703.0,
      "step": 28435
    },
    {
      "entropy": 5.578004264831543,
      "epoch": 2.389329972694812,
      "grad_norm": 1.046875,
      "learning_rate": 0.00044260376008482816,
      "loss": 5.2612,
      "mean_token_accuracy": 0.18898311853408814,
      "num_tokens": 52456847.0,
      "step": 28440
    },
    {
      "entropy": 5.684021377563477,
      "epoch": 2.389750052509977,
      "grad_norm": 1.375,
      "learning_rate": 0.00044258377916480177,
      "loss": 5.3301,
      "mean_token_accuracy": 0.17375022619962693,
      "num_tokens": 52466721.0,
      "step": 28445
    },
    {
      "entropy": 5.565260505676269,
      "epoch": 2.390170132325142,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004425637952761149,
      "loss": 5.2731,
      "mean_token_accuracy": 0.1909640148282051,
      "num_tokens": 52475169.0,
      "step": 28450
    },
    {
      "entropy": 5.613252830505371,
      "epoch": 2.3905902121403066,
      "grad_norm": 1.21875,
      "learning_rate": 0.00044254380841912173,
      "loss": 5.2129,
      "mean_token_accuracy": 0.18403444439172745,
      "num_tokens": 52484031.0,
      "step": 28455
    },
    {
      "entropy": 5.559349822998047,
      "epoch": 2.3910102919554714,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004425238185941762,
      "loss": 5.1913,
      "mean_token_accuracy": 0.1799714595079422,
      "num_tokens": 52493511.0,
      "step": 28460
    },
    {
      "entropy": 5.494963598251343,
      "epoch": 2.391430371770636,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004425038258016326,
      "loss": 5.1536,
      "mean_token_accuracy": 0.18103462904691697,
      "num_tokens": 52502595.0,
      "step": 28465
    },
    {
      "entropy": 5.511080884933472,
      "epoch": 2.3918504515858015,
      "grad_norm": 1.265625,
      "learning_rate": 0.00044248383004184485,
      "loss": 5.1362,
      "mean_token_accuracy": 0.1879212200641632,
      "num_tokens": 52511959.0,
      "step": 28470
    },
    {
      "entropy": 5.545969772338867,
      "epoch": 2.3922705314009662,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004424638313151674,
      "loss": 5.168,
      "mean_token_accuracy": 0.18771448284387587,
      "num_tokens": 52520914.0,
      "step": 28475
    },
    {
      "entropy": 5.527647495269775,
      "epoch": 2.392690611216131,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004424438296219544,
      "loss": 5.2052,
      "mean_token_accuracy": 0.1855156198143959,
      "num_tokens": 52530361.0,
      "step": 28480
    },
    {
      "entropy": 5.498165273666382,
      "epoch": 2.393110691031296,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004424238249625602,
      "loss": 5.1415,
      "mean_token_accuracy": 0.19115320444107056,
      "num_tokens": 52538832.0,
      "step": 28485
    },
    {
      "entropy": 5.538251113891602,
      "epoch": 2.3935307708464606,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00044240381733733904,
      "loss": 5.185,
      "mean_token_accuracy": 0.18446013778448106,
      "num_tokens": 52547587.0,
      "step": 28490
    },
    {
      "entropy": 5.516481733322143,
      "epoch": 2.393950850661626,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00044238380674664553,
      "loss": 5.1474,
      "mean_token_accuracy": 0.18318624496459962,
      "num_tokens": 52556613.0,
      "step": 28495
    },
    {
      "entropy": 5.545605945587158,
      "epoch": 2.3943709304767906,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000442363793190834,
      "loss": 5.2348,
      "mean_token_accuracy": 0.17555949240922927,
      "num_tokens": 52566290.0,
      "step": 28500
    },
    {
      "entropy": 5.594414520263672,
      "epoch": 2.3947910102919554,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00044234377667025924,
      "loss": 5.1958,
      "mean_token_accuracy": 0.18231474757194518,
      "num_tokens": 52575029.0,
      "step": 28505
    },
    {
      "entropy": 5.643577194213867,
      "epoch": 2.39521109010712,
      "grad_norm": 1.1875,
      "learning_rate": 0.00044232375718527547,
      "loss": 5.3178,
      "mean_token_accuracy": 0.17847172617912294,
      "num_tokens": 52584285.0,
      "step": 28510
    },
    {
      "entropy": 5.579283714294434,
      "epoch": 2.3956311699222854,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004423037347362375,
      "loss": 5.282,
      "mean_token_accuracy": 0.17492551654577254,
      "num_tokens": 52594011.0,
      "step": 28515
    },
    {
      "entropy": 5.5434754371643065,
      "epoch": 2.39605124973745,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004422837093235001,
      "loss": 5.1799,
      "mean_token_accuracy": 0.18103830516338348,
      "num_tokens": 52602482.0,
      "step": 28520
    },
    {
      "entropy": 5.546800947189331,
      "epoch": 2.396471329552615,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00044226368094741795,
      "loss": 5.206,
      "mean_token_accuracy": 0.18847080320119858,
      "num_tokens": 52612439.0,
      "step": 28525
    },
    {
      "entropy": 5.599508810043335,
      "epoch": 2.39689140936778,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00044224364960834567,
      "loss": 5.3021,
      "mean_token_accuracy": 0.18090088665485382,
      "num_tokens": 52621784.0,
      "step": 28530
    },
    {
      "entropy": 5.6082923889160154,
      "epoch": 2.3973114891829446,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004422236153066384,
      "loss": 5.1923,
      "mean_token_accuracy": 0.19259376227855682,
      "num_tokens": 52631524.0,
      "step": 28535
    },
    {
      "entropy": 5.541659879684448,
      "epoch": 2.39773156899811,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004422035780426508,
      "loss": 5.2161,
      "mean_token_accuracy": 0.1843710348010063,
      "num_tokens": 52641003.0,
      "step": 28540
    },
    {
      "entropy": 5.552563142776489,
      "epoch": 2.3981516488132746,
      "grad_norm": 1.03125,
      "learning_rate": 0.000442183537816738,
      "loss": 5.2354,
      "mean_token_accuracy": 0.18260336369276048,
      "num_tokens": 52651199.0,
      "step": 28545
    },
    {
      "entropy": 5.614565229415893,
      "epoch": 2.3985717286284394,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00044216349462925485,
      "loss": 5.2284,
      "mean_token_accuracy": 0.17380502969026565,
      "num_tokens": 52660381.0,
      "step": 28550
    },
    {
      "entropy": 5.451456022262573,
      "epoch": 2.398991808443604,
      "grad_norm": 1.125,
      "learning_rate": 0.0004421434484805565,
      "loss": 5.15,
      "mean_token_accuracy": 0.1886725515127182,
      "num_tokens": 52669961.0,
      "step": 28555
    },
    {
      "entropy": 5.505790328979492,
      "epoch": 2.3994118882587694,
      "grad_norm": 1.3359375,
      "learning_rate": 0.000442123399370998,
      "loss": 5.1683,
      "mean_token_accuracy": 0.18881646543741226,
      "num_tokens": 52679579.0,
      "step": 28560
    },
    {
      "entropy": 5.527708292007446,
      "epoch": 2.399831968073934,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00044210334730093454,
      "loss": 5.1274,
      "mean_token_accuracy": 0.18739180266857147,
      "num_tokens": 52688693.0,
      "step": 28565
    },
    {
      "entropy": 5.582072067260742,
      "epoch": 2.400252047889099,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004420832922707213,
      "loss": 5.2133,
      "mean_token_accuracy": 0.18438125699758529,
      "num_tokens": 52697117.0,
      "step": 28570
    },
    {
      "entropy": 5.61403522491455,
      "epoch": 2.4006721277042637,
      "grad_norm": 1.203125,
      "learning_rate": 0.00044206323428071367,
      "loss": 5.3361,
      "mean_token_accuracy": 0.17621515095233917,
      "num_tokens": 52706287.0,
      "step": 28575
    },
    {
      "entropy": 5.543868923187256,
      "epoch": 2.4010922075194285,
      "grad_norm": 1.140625,
      "learning_rate": 0.00044204317333126675,
      "loss": 5.2372,
      "mean_token_accuracy": 0.18615974187850953,
      "num_tokens": 52715528.0,
      "step": 28580
    },
    {
      "entropy": 5.503872060775757,
      "epoch": 2.4015122873345938,
      "grad_norm": 1.140625,
      "learning_rate": 0.00044202310942273616,
      "loss": 5.1672,
      "mean_token_accuracy": 0.18440712243318558,
      "num_tokens": 52723910.0,
      "step": 28585
    },
    {
      "entropy": 5.514088106155396,
      "epoch": 2.4019323671497586,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00044200304255547705,
      "loss": 5.2463,
      "mean_token_accuracy": 0.18430349677801133,
      "num_tokens": 52733311.0,
      "step": 28590
    },
    {
      "entropy": 5.623411321640015,
      "epoch": 2.4023524469649233,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00044198297272984513,
      "loss": 5.2218,
      "mean_token_accuracy": 0.1798880472779274,
      "num_tokens": 52742690.0,
      "step": 28595
    },
    {
      "entropy": 5.498326969146729,
      "epoch": 2.402772526780088,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004419628999461958,
      "loss": 5.1021,
      "mean_token_accuracy": 0.19664739370346068,
      "num_tokens": 52751517.0,
      "step": 28600
    },
    {
      "entropy": 5.530032682418823,
      "epoch": 2.403192606595253,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004419428242048847,
      "loss": 5.1719,
      "mean_token_accuracy": 0.18704136461019516,
      "num_tokens": 52760086.0,
      "step": 28605
    },
    {
      "entropy": 5.557622957229614,
      "epoch": 2.403612686410418,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00044192274550626737,
      "loss": 5.2812,
      "mean_token_accuracy": 0.17478552609682083,
      "num_tokens": 52769438.0,
      "step": 28610
    },
    {
      "entropy": 5.495187091827392,
      "epoch": 2.404032766225583,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0004419026638506996,
      "loss": 5.1405,
      "mean_token_accuracy": 0.19118252247571946,
      "num_tokens": 52777779.0,
      "step": 28615
    },
    {
      "entropy": 5.583619594573975,
      "epoch": 2.4044528460407477,
      "grad_norm": 1.09375,
      "learning_rate": 0.00044188257923853707,
      "loss": 5.2283,
      "mean_token_accuracy": 0.1877076134085655,
      "num_tokens": 52787289.0,
      "step": 28620
    },
    {
      "entropy": 5.561056756973267,
      "epoch": 2.4048729258559125,
      "grad_norm": 1.171875,
      "learning_rate": 0.00044186249167013565,
      "loss": 5.1887,
      "mean_token_accuracy": 0.18771193772554398,
      "num_tokens": 52796382.0,
      "step": 28625
    },
    {
      "entropy": 5.537161588668823,
      "epoch": 2.4052930056710773,
      "grad_norm": 1.09375,
      "learning_rate": 0.00044184240114585104,
      "loss": 5.1858,
      "mean_token_accuracy": 0.18410543948411942,
      "num_tokens": 52805303.0,
      "step": 28630
    },
    {
      "entropy": 5.547029638290406,
      "epoch": 2.4057130854862425,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004418223076660392,
      "loss": 5.2143,
      "mean_token_accuracy": 0.18275651335716248,
      "num_tokens": 52814289.0,
      "step": 28635
    },
    {
      "entropy": 5.492134284973145,
      "epoch": 2.4061331653014073,
      "grad_norm": 1.15625,
      "learning_rate": 0.00044180221123105607,
      "loss": 5.1483,
      "mean_token_accuracy": 0.1886528328061104,
      "num_tokens": 52823231.0,
      "step": 28640
    },
    {
      "entropy": 5.488501405715942,
      "epoch": 2.406553245116572,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00044178211184125766,
      "loss": 5.2362,
      "mean_token_accuracy": 0.18084634393453597,
      "num_tokens": 52832380.0,
      "step": 28645
    },
    {
      "entropy": 5.53535795211792,
      "epoch": 2.406973324931737,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004417620094970001,
      "loss": 5.1661,
      "mean_token_accuracy": 0.19889371544122697,
      "num_tokens": 52840846.0,
      "step": 28650
    },
    {
      "entropy": 5.576768255233764,
      "epoch": 2.4073934047469017,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004417419041986393,
      "loss": 5.1699,
      "mean_token_accuracy": 0.1874315246939659,
      "num_tokens": 52850350.0,
      "step": 28655
    },
    {
      "entropy": 5.521928834915161,
      "epoch": 2.407813484562067,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004417217959465316,
      "loss": 5.1039,
      "mean_token_accuracy": 0.18961068242788315,
      "num_tokens": 52858825.0,
      "step": 28660
    },
    {
      "entropy": 5.5088037014007565,
      "epoch": 2.4082335643772317,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004417016847410331,
      "loss": 5.1791,
      "mean_token_accuracy": 0.1856661856174469,
      "num_tokens": 52867685.0,
      "step": 28665
    },
    {
      "entropy": 5.492027378082275,
      "epoch": 2.4086536441923965,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00044168157058250006,
      "loss": 5.1985,
      "mean_token_accuracy": 0.18217319697141648,
      "num_tokens": 52877474.0,
      "step": 28670
    },
    {
      "entropy": 5.494461584091186,
      "epoch": 2.4090737240075613,
      "grad_norm": 1.171875,
      "learning_rate": 0.00044166145347128893,
      "loss": 5.0825,
      "mean_token_accuracy": 0.19061004966497422,
      "num_tokens": 52886059.0,
      "step": 28675
    },
    {
      "entropy": 5.5220824718475345,
      "epoch": 2.4094938038227265,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004416413334077559,
      "loss": 5.2033,
      "mean_token_accuracy": 0.1821255788207054,
      "num_tokens": 52894958.0,
      "step": 28680
    },
    {
      "entropy": 5.4780038356781,
      "epoch": 2.4099138836378913,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00044162121039225744,
      "loss": 5.174,
      "mean_token_accuracy": 0.18412338495254515,
      "num_tokens": 52903467.0,
      "step": 28685
    },
    {
      "entropy": 5.55606050491333,
      "epoch": 2.410333963453056,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00044160108442515005,
      "loss": 5.1701,
      "mean_token_accuracy": 0.1908080130815506,
      "num_tokens": 52912383.0,
      "step": 28690
    },
    {
      "entropy": 5.528168630599976,
      "epoch": 2.410754043268221,
      "grad_norm": 1.125,
      "learning_rate": 0.0004415809555067903,
      "loss": 5.1441,
      "mean_token_accuracy": 0.18970755040645598,
      "num_tokens": 52921588.0,
      "step": 28695
    },
    {
      "entropy": 5.5498134136199955,
      "epoch": 2.411174123083386,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00044156082363753466,
      "loss": 5.2066,
      "mean_token_accuracy": 0.17804034054279327,
      "num_tokens": 52931007.0,
      "step": 28700
    },
    {
      "entropy": 5.4896868705749515,
      "epoch": 2.411594202898551,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004415406888177398,
      "loss": 5.2249,
      "mean_token_accuracy": 0.1839633747935295,
      "num_tokens": 52939828.0,
      "step": 28705
    },
    {
      "entropy": 5.549867630004883,
      "epoch": 2.4120142827137157,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004415205510477623,
      "loss": 5.136,
      "mean_token_accuracy": 0.18571902364492415,
      "num_tokens": 52949010.0,
      "step": 28710
    },
    {
      "entropy": 5.594663619995117,
      "epoch": 2.4124343625288804,
      "grad_norm": 1.171875,
      "learning_rate": 0.00044150041032795905,
      "loss": 5.2181,
      "mean_token_accuracy": 0.1856624573469162,
      "num_tokens": 52957805.0,
      "step": 28715
    },
    {
      "entropy": 5.518539571762085,
      "epoch": 2.4128544423440452,
      "grad_norm": 1.109375,
      "learning_rate": 0.00044148026665868684,
      "loss": 5.2522,
      "mean_token_accuracy": 0.18850225806236268,
      "num_tokens": 52967115.0,
      "step": 28720
    },
    {
      "entropy": 5.565543699264526,
      "epoch": 2.4132745221592105,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004414601200403023,
      "loss": 5.198,
      "mean_token_accuracy": 0.18089977353811265,
      "num_tokens": 52975677.0,
      "step": 28725
    },
    {
      "entropy": 5.523087644577027,
      "epoch": 2.4136946019743752,
      "grad_norm": 1.078125,
      "learning_rate": 0.00044143997047316257,
      "loss": 5.18,
      "mean_token_accuracy": 0.18577791154384612,
      "num_tokens": 52983961.0,
      "step": 28730
    },
    {
      "entropy": 5.459901762008667,
      "epoch": 2.41411468178954,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004414198179576244,
      "loss": 5.2248,
      "mean_token_accuracy": 0.18537766635417938,
      "num_tokens": 52994147.0,
      "step": 28735
    },
    {
      "entropy": 5.575472068786621,
      "epoch": 2.414534761604705,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00044139966249404485,
      "loss": 5.2204,
      "mean_token_accuracy": 0.17844868302345276,
      "num_tokens": 53002901.0,
      "step": 28740
    },
    {
      "entropy": 5.56838436126709,
      "epoch": 2.4149548414198696,
      "grad_norm": 1.109375,
      "learning_rate": 0.000441379504082781,
      "loss": 5.306,
      "mean_token_accuracy": 0.17923445999622345,
      "num_tokens": 53012634.0,
      "step": 28745
    },
    {
      "entropy": 5.67779426574707,
      "epoch": 2.415374921235035,
      "grad_norm": 1.09375,
      "learning_rate": 0.00044135934272418985,
      "loss": 5.3103,
      "mean_token_accuracy": 0.17752928286790848,
      "num_tokens": 53022290.0,
      "step": 28750
    },
    {
      "entropy": 5.636012220382691,
      "epoch": 2.4157950010501996,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004413391784186287,
      "loss": 5.2499,
      "mean_token_accuracy": 0.1870056226849556,
      "num_tokens": 53031317.0,
      "step": 28755
    },
    {
      "entropy": 5.536141681671142,
      "epoch": 2.4162150808653644,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004413190111664545,
      "loss": 5.2472,
      "mean_token_accuracy": 0.18360301852226257,
      "num_tokens": 53040540.0,
      "step": 28760
    },
    {
      "entropy": 5.554448890686035,
      "epoch": 2.416635160680529,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004412988409680247,
      "loss": 5.2541,
      "mean_token_accuracy": 0.18386967480182648,
      "num_tokens": 53050170.0,
      "step": 28765
    },
    {
      "entropy": 5.6243757724761965,
      "epoch": 2.417055240495694,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004412786678236967,
      "loss": 5.2072,
      "mean_token_accuracy": 0.18541931509971618,
      "num_tokens": 53059011.0,
      "step": 28770
    },
    {
      "entropy": 5.5781420230865475,
      "epoch": 2.417475320310859,
      "grad_norm": 1.15625,
      "learning_rate": 0.00044125849173382763,
      "loss": 5.2082,
      "mean_token_accuracy": 0.1836816668510437,
      "num_tokens": 53068179.0,
      "step": 28775
    },
    {
      "entropy": 5.500620746612549,
      "epoch": 2.417895400126024,
      "grad_norm": 1.234375,
      "learning_rate": 0.000441238312698775,
      "loss": 5.2052,
      "mean_token_accuracy": 0.18887320756912232,
      "num_tokens": 53077165.0,
      "step": 28780
    },
    {
      "entropy": 5.4228414535522464,
      "epoch": 2.418315479941189,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004412181307188962,
      "loss": 5.0971,
      "mean_token_accuracy": 0.19251660704612733,
      "num_tokens": 53086364.0,
      "step": 28785
    },
    {
      "entropy": 5.62183837890625,
      "epoch": 2.4187355597563536,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004411979457945489,
      "loss": 5.2793,
      "mean_token_accuracy": 0.17775234580039978,
      "num_tokens": 53097519.0,
      "step": 28790
    },
    {
      "entropy": 5.630541801452637,
      "epoch": 2.4191556395715184,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00044117775792609055,
      "loss": 5.2217,
      "mean_token_accuracy": 0.18353793770074844,
      "num_tokens": 53106108.0,
      "step": 28795
    },
    {
      "entropy": 5.533130645751953,
      "epoch": 2.4195757193866836,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00044115756711387877,
      "loss": 5.2352,
      "mean_token_accuracy": 0.18221936970949174,
      "num_tokens": 53115048.0,
      "step": 28800
    },
    {
      "entropy": 5.563307189941407,
      "epoch": 2.4199957992018484,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004411373733582712,
      "loss": 5.2195,
      "mean_token_accuracy": 0.1870870918035507,
      "num_tokens": 53124313.0,
      "step": 28805
    },
    {
      "entropy": 5.581614780426025,
      "epoch": 2.420415879017013,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004411171766596257,
      "loss": 5.2493,
      "mean_token_accuracy": 0.1842837154865265,
      "num_tokens": 53132957.0,
      "step": 28810
    },
    {
      "entropy": 5.599170923233032,
      "epoch": 2.420835958832178,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00044109697701829985,
      "loss": 5.2924,
      "mean_token_accuracy": 0.18124594092369078,
      "num_tokens": 53142083.0,
      "step": 28815
    },
    {
      "entropy": 5.613648843765259,
      "epoch": 2.421256038647343,
      "grad_norm": 1.0625,
      "learning_rate": 0.00044107677443465165,
      "loss": 5.2421,
      "mean_token_accuracy": 0.18138608634471892,
      "num_tokens": 53152230.0,
      "step": 28820
    },
    {
      "entropy": 5.571730613708496,
      "epoch": 2.421676118462508,
      "grad_norm": 1.234375,
      "learning_rate": 0.00044105656890903896,
      "loss": 5.266,
      "mean_token_accuracy": 0.18560616075992584,
      "num_tokens": 53161831.0,
      "step": 28825
    },
    {
      "entropy": 5.540849065780639,
      "epoch": 2.4220961982776728,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00044103636044181947,
      "loss": 5.1573,
      "mean_token_accuracy": 0.1874516114592552,
      "num_tokens": 53171506.0,
      "step": 28830
    },
    {
      "entropy": 5.482629108428955,
      "epoch": 2.4225162780928375,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00044101614903335154,
      "loss": 5.0665,
      "mean_token_accuracy": 0.18963238298892976,
      "num_tokens": 53180795.0,
      "step": 28835
    },
    {
      "entropy": 5.4538390159606935,
      "epoch": 2.4229363579080028,
      "grad_norm": 1.4609375,
      "learning_rate": 0.000440995934683993,
      "loss": 5.1257,
      "mean_token_accuracy": 0.19243815690279006,
      "num_tokens": 53189788.0,
      "step": 28840
    },
    {
      "entropy": 5.473388814926148,
      "epoch": 2.4233564377231676,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004409757173941019,
      "loss": 5.1704,
      "mean_token_accuracy": 0.18885728418827058,
      "num_tokens": 53199798.0,
      "step": 28845
    },
    {
      "entropy": 5.561349964141845,
      "epoch": 2.4237765175383323,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004409554971640363,
      "loss": 5.1259,
      "mean_token_accuracy": 0.18675463795661926,
      "num_tokens": 53208744.0,
      "step": 28850
    },
    {
      "entropy": 5.5404953956604,
      "epoch": 2.424196597353497,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004409352739941547,
      "loss": 5.2935,
      "mean_token_accuracy": 0.18673704117536544,
      "num_tokens": 53217705.0,
      "step": 28855
    },
    {
      "entropy": 5.590827941894531,
      "epoch": 2.424616677168662,
      "grad_norm": 1.140625,
      "learning_rate": 0.00044091504788481515,
      "loss": 5.2243,
      "mean_token_accuracy": 0.176769657433033,
      "num_tokens": 53226888.0,
      "step": 28860
    },
    {
      "entropy": 5.50829005241394,
      "epoch": 2.425036756983827,
      "grad_norm": 1.140625,
      "learning_rate": 0.00044089481883637587,
      "loss": 5.1341,
      "mean_token_accuracy": 0.1881402090191841,
      "num_tokens": 53236651.0,
      "step": 28865
    },
    {
      "entropy": 5.491011047363282,
      "epoch": 2.425456836798992,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004408745868491954,
      "loss": 5.1995,
      "mean_token_accuracy": 0.1820113480091095,
      "num_tokens": 53245488.0,
      "step": 28870
    },
    {
      "entropy": 5.532497930526733,
      "epoch": 2.4258769166141567,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004408543519236319,
      "loss": 5.1475,
      "mean_token_accuracy": 0.18922454863786697,
      "num_tokens": 53254244.0,
      "step": 28875
    },
    {
      "entropy": 5.565892171859741,
      "epoch": 2.4262969964293215,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004408341140600441,
      "loss": 5.2441,
      "mean_token_accuracy": 0.18073679655790328,
      "num_tokens": 53263784.0,
      "step": 28880
    },
    {
      "entropy": 5.548540496826172,
      "epoch": 2.4267170762444863,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00044081387325879033,
      "loss": 5.2065,
      "mean_token_accuracy": 0.17995698004961014,
      "num_tokens": 53273442.0,
      "step": 28885
    },
    {
      "entropy": 5.5463193416595455,
      "epoch": 2.4271371560596515,
      "grad_norm": 1.078125,
      "learning_rate": 0.00044079362952022916,
      "loss": 5.2253,
      "mean_token_accuracy": 0.18165879100561141,
      "num_tokens": 53282774.0,
      "step": 28890
    },
    {
      "entropy": 5.589892244338989,
      "epoch": 2.4275572358748163,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00044077338284471924,
      "loss": 5.2746,
      "mean_token_accuracy": 0.17773274928331376,
      "num_tokens": 53292346.0,
      "step": 28895
    },
    {
      "entropy": 5.65087480545044,
      "epoch": 2.427977315689981,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004407531332326191,
      "loss": 5.2623,
      "mean_token_accuracy": 0.17988606840372084,
      "num_tokens": 53301628.0,
      "step": 28900
    },
    {
      "entropy": 5.540248918533325,
      "epoch": 2.428397395505146,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00044073288068428764,
      "loss": 5.2418,
      "mean_token_accuracy": 0.18733856678009034,
      "num_tokens": 53311514.0,
      "step": 28905
    },
    {
      "entropy": 5.586027526855469,
      "epoch": 2.4288174753203107,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004407126252000835,
      "loss": 5.2804,
      "mean_token_accuracy": 0.18010050803422928,
      "num_tokens": 53320652.0,
      "step": 28910
    },
    {
      "entropy": 5.583913326263428,
      "epoch": 2.429237555135476,
      "grad_norm": 1.21875,
      "learning_rate": 0.00044069236678036553,
      "loss": 5.2834,
      "mean_token_accuracy": 0.18287194967269899,
      "num_tokens": 53329989.0,
      "step": 28915
    },
    {
      "entropy": 5.6377854347229,
      "epoch": 2.4296576349506407,
      "grad_norm": 1.125,
      "learning_rate": 0.0004406721054254927,
      "loss": 5.3553,
      "mean_token_accuracy": 0.1749402716755867,
      "num_tokens": 53339017.0,
      "step": 28920
    },
    {
      "entropy": 5.580083322525025,
      "epoch": 2.4300777147658055,
      "grad_norm": 1.125,
      "learning_rate": 0.0004406518411358238,
      "loss": 5.1469,
      "mean_token_accuracy": 0.18651410192251205,
      "num_tokens": 53348629.0,
      "step": 28925
    },
    {
      "entropy": 5.46579532623291,
      "epoch": 2.4304977945809703,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00044063157391171777,
      "loss": 5.1487,
      "mean_token_accuracy": 0.1882142871618271,
      "num_tokens": 53356997.0,
      "step": 28930
    },
    {
      "entropy": 5.546019744873047,
      "epoch": 2.430917874396135,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00044061130375353365,
      "loss": 5.2087,
      "mean_token_accuracy": 0.18367630541324614,
      "num_tokens": 53366688.0,
      "step": 28935
    },
    {
      "entropy": 5.498830795288086,
      "epoch": 2.4313379542113003,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004405910306616307,
      "loss": 5.1221,
      "mean_token_accuracy": 0.19729892164468765,
      "num_tokens": 53375851.0,
      "step": 28940
    },
    {
      "entropy": 5.644898796081543,
      "epoch": 2.431758034026465,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004405707546363678,
      "loss": 5.3903,
      "mean_token_accuracy": 0.1727769896388054,
      "num_tokens": 53385848.0,
      "step": 28945
    },
    {
      "entropy": 5.542472696304321,
      "epoch": 2.43217811384163,
      "grad_norm": 1.125,
      "learning_rate": 0.0004405504756781043,
      "loss": 5.138,
      "mean_token_accuracy": 0.1862499088048935,
      "num_tokens": 53395472.0,
      "step": 28950
    },
    {
      "entropy": 5.483242750167847,
      "epoch": 2.4325981936567946,
      "grad_norm": 1.140625,
      "learning_rate": 0.00044053019378719935,
      "loss": 5.1593,
      "mean_token_accuracy": 0.19229598045349122,
      "num_tokens": 53404571.0,
      "step": 28955
    },
    {
      "entropy": 5.523399782180786,
      "epoch": 2.4330182734719594,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004405099089640122,
      "loss": 5.2758,
      "mean_token_accuracy": 0.18314277231693268,
      "num_tokens": 53413991.0,
      "step": 28960
    },
    {
      "entropy": 5.622995519638062,
      "epoch": 2.4334383532871247,
      "grad_norm": 1.125,
      "learning_rate": 0.00044048962120890237,
      "loss": 5.2356,
      "mean_token_accuracy": 0.18619776368141175,
      "num_tokens": 53423116.0,
      "step": 28965
    },
    {
      "entropy": 5.546614360809326,
      "epoch": 2.4338584331022894,
      "grad_norm": 1.109375,
      "learning_rate": 0.00044046933052222897,
      "loss": 5.2303,
      "mean_token_accuracy": 0.18268172889947892,
      "num_tokens": 53432750.0,
      "step": 28970
    },
    {
      "entropy": 5.556704568862915,
      "epoch": 2.4342785129174542,
      "grad_norm": 1.078125,
      "learning_rate": 0.00044044903690435163,
      "loss": 5.2859,
      "mean_token_accuracy": 0.17932282835245134,
      "num_tokens": 53442847.0,
      "step": 28975
    },
    {
      "entropy": 5.550503778457641,
      "epoch": 2.434698592732619,
      "grad_norm": 1.109375,
      "learning_rate": 0.00044042874035562986,
      "loss": 5.2452,
      "mean_token_accuracy": 0.17973012626171112,
      "num_tokens": 53452521.0,
      "step": 28980
    },
    {
      "entropy": 5.4958109855651855,
      "epoch": 2.4351186725477842,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004404084408764231,
      "loss": 5.1234,
      "mean_token_accuracy": 0.18417319506406785,
      "num_tokens": 53461557.0,
      "step": 28985
    },
    {
      "entropy": 5.504124879837036,
      "epoch": 2.435538752362949,
      "grad_norm": 1.125,
      "learning_rate": 0.000440388138467091,
      "loss": 5.2023,
      "mean_token_accuracy": 0.1856328085064888,
      "num_tokens": 53470639.0,
      "step": 28990
    },
    {
      "entropy": 5.535301399230957,
      "epoch": 2.435958832178114,
      "grad_norm": 1.140625,
      "learning_rate": 0.00044036783312799313,
      "loss": 5.1803,
      "mean_token_accuracy": 0.1888363778591156,
      "num_tokens": 53480160.0,
      "step": 28995
    },
    {
      "entropy": 5.585223150253296,
      "epoch": 2.4363789119932786,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00044034752485948926,
      "loss": 5.277,
      "mean_token_accuracy": 0.17818109691143036,
      "num_tokens": 53488853.0,
      "step": 29000
    },
    {
      "entropy": 5.609626388549804,
      "epoch": 2.436798991808444,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004403272136619391,
      "loss": 5.2874,
      "mean_token_accuracy": 0.186862076818943,
      "num_tokens": 53498629.0,
      "step": 29005
    },
    {
      "entropy": 5.539486694335937,
      "epoch": 2.4372190716236086,
      "grad_norm": 1.25,
      "learning_rate": 0.00044030689953570255,
      "loss": 5.155,
      "mean_token_accuracy": 0.18356800675392151,
      "num_tokens": 53506708.0,
      "step": 29010
    },
    {
      "entropy": 5.537010955810547,
      "epoch": 2.4376391514387734,
      "grad_norm": 1.109375,
      "learning_rate": 0.00044028658248113935,
      "loss": 5.1756,
      "mean_token_accuracy": 0.1855998530983925,
      "num_tokens": 53515890.0,
      "step": 29015
    },
    {
      "entropy": 5.590860080718994,
      "epoch": 2.438059231253938,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004402662624986095,
      "loss": 5.3244,
      "mean_token_accuracy": 0.17995219081640243,
      "num_tokens": 53525987.0,
      "step": 29020
    },
    {
      "entropy": 5.525879049301148,
      "epoch": 2.438479311069103,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00044024593958847286,
      "loss": 5.1114,
      "mean_token_accuracy": 0.18431872725486756,
      "num_tokens": 53535757.0,
      "step": 29025
    },
    {
      "entropy": 5.462279176712036,
      "epoch": 2.438899390884268,
      "grad_norm": 1.0625,
      "learning_rate": 0.00044022561375108954,
      "loss": 5.2243,
      "mean_token_accuracy": 0.19052463620901108,
      "num_tokens": 53544946.0,
      "step": 29030
    },
    {
      "entropy": 5.4971414566040036,
      "epoch": 2.439319470699433,
      "grad_norm": 1.125,
      "learning_rate": 0.0004402052849868195,
      "loss": 5.1401,
      "mean_token_accuracy": 0.17866429835557937,
      "num_tokens": 53554594.0,
      "step": 29035
    },
    {
      "entropy": 5.491042757034302,
      "epoch": 2.439739550514598,
      "grad_norm": 1.140625,
      "learning_rate": 0.00044018495329602294,
      "loss": 5.1033,
      "mean_token_accuracy": 0.19087252616882325,
      "num_tokens": 53563074.0,
      "step": 29040
    },
    {
      "entropy": 5.617511796951294,
      "epoch": 2.4401596303297626,
      "grad_norm": 1.09375,
      "learning_rate": 0.00044016461867906,
      "loss": 5.337,
      "mean_token_accuracy": 0.17830381244421006,
      "num_tokens": 53572552.0,
      "step": 29045
    },
    {
      "entropy": 5.496214437484741,
      "epoch": 2.4405797101449274,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004401442811362908,
      "loss": 5.1217,
      "mean_token_accuracy": 0.1876271203160286,
      "num_tokens": 53582049.0,
      "step": 29050
    },
    {
      "entropy": 5.566537237167358,
      "epoch": 2.4409997899600926,
      "grad_norm": 1.4375,
      "learning_rate": 0.0004401239406680758,
      "loss": 5.2844,
      "mean_token_accuracy": 0.17607432305812837,
      "num_tokens": 53590796.0,
      "step": 29055
    },
    {
      "entropy": 5.4898299217224125,
      "epoch": 2.4414198697752574,
      "grad_norm": 1.1875,
      "learning_rate": 0.00044010359727477517,
      "loss": 5.188,
      "mean_token_accuracy": 0.17525816112756729,
      "num_tokens": 53600221.0,
      "step": 29060
    },
    {
      "entropy": 5.62618670463562,
      "epoch": 2.441839949590422,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004400832509567493,
      "loss": 5.2705,
      "mean_token_accuracy": 0.18592259734869004,
      "num_tokens": 53610601.0,
      "step": 29065
    },
    {
      "entropy": 5.6392402172088625,
      "epoch": 2.442260029405587,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004400629017143587,
      "loss": 5.2682,
      "mean_token_accuracy": 0.18635309785604476,
      "num_tokens": 53619563.0,
      "step": 29070
    },
    {
      "entropy": 5.502844572067261,
      "epoch": 2.4426801092207517,
      "grad_norm": 1.21875,
      "learning_rate": 0.00044004254954796386,
      "loss": 5.1477,
      "mean_token_accuracy": 0.18284059017896653,
      "num_tokens": 53628061.0,
      "step": 29075
    },
    {
      "entropy": 5.512226867675781,
      "epoch": 2.443100189035917,
      "grad_norm": 1.125,
      "learning_rate": 0.0004400221944579251,
      "loss": 5.2201,
      "mean_token_accuracy": 0.1894795686006546,
      "num_tokens": 53636874.0,
      "step": 29080
    },
    {
      "entropy": 5.587353610992432,
      "epoch": 2.4435202688510818,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00044000183644460323,
      "loss": 5.245,
      "mean_token_accuracy": 0.1774780869483948,
      "num_tokens": 53646956.0,
      "step": 29085
    },
    {
      "entropy": 5.5900627136230465,
      "epoch": 2.4439403486662465,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004399814755083587,
      "loss": 5.2515,
      "mean_token_accuracy": 0.1786671280860901,
      "num_tokens": 53655878.0,
      "step": 29090
    },
    {
      "entropy": 5.539036417007447,
      "epoch": 2.4443604284814113,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004399611116495524,
      "loss": 5.2399,
      "mean_token_accuracy": 0.18649572283029556,
      "num_tokens": 53664852.0,
      "step": 29095
    },
    {
      "entropy": 5.573687410354614,
      "epoch": 2.444780508296576,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004399407448685449,
      "loss": 5.2169,
      "mean_token_accuracy": 0.18377803415060043,
      "num_tokens": 53674031.0,
      "step": 29100
    },
    {
      "entropy": 5.517513704299927,
      "epoch": 2.4452005881117413,
      "grad_norm": 1.1875,
      "learning_rate": 0.00043992037516569696,
      "loss": 5.1792,
      "mean_token_accuracy": 0.18113501667976378,
      "num_tokens": 53683626.0,
      "step": 29105
    },
    {
      "entropy": 5.514502096176147,
      "epoch": 2.445620667926906,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004399000025413696,
      "loss": 5.2235,
      "mean_token_accuracy": 0.18019933998584747,
      "num_tokens": 53693280.0,
      "step": 29110
    },
    {
      "entropy": 5.56322283744812,
      "epoch": 2.446040747742071,
      "grad_norm": 1.125,
      "learning_rate": 0.0004398796269959235,
      "loss": 5.2587,
      "mean_token_accuracy": 0.17992278635501863,
      "num_tokens": 53703057.0,
      "step": 29115
    },
    {
      "entropy": 5.556336975097656,
      "epoch": 2.4464608275572357,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004398592485297198,
      "loss": 5.1358,
      "mean_token_accuracy": 0.18886060863733292,
      "num_tokens": 53712488.0,
      "step": 29120
    },
    {
      "entropy": 5.537156200408935,
      "epoch": 2.446880907372401,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00043983886714311937,
      "loss": 5.2354,
      "mean_token_accuracy": 0.191415935754776,
      "num_tokens": 53721770.0,
      "step": 29125
    },
    {
      "entropy": 5.558753824234008,
      "epoch": 2.4473009871875657,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004398184828364833,
      "loss": 5.2194,
      "mean_token_accuracy": 0.18968403488397598,
      "num_tokens": 53731074.0,
      "step": 29130
    },
    {
      "entropy": 5.638004112243652,
      "epoch": 2.4477210670027305,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004397980956101727,
      "loss": 5.2392,
      "mean_token_accuracy": 0.19312198758125304,
      "num_tokens": 53740108.0,
      "step": 29135
    },
    {
      "entropy": 5.556782293319702,
      "epoch": 2.4481411468178953,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00043977770546454857,
      "loss": 5.191,
      "mean_token_accuracy": 0.1786320239305496,
      "num_tokens": 53748949.0,
      "step": 29140
    },
    {
      "entropy": 5.5517580032348635,
      "epoch": 2.4485612266330605,
      "grad_norm": 1.09375,
      "learning_rate": 0.00043975731239997236,
      "loss": 5.2062,
      "mean_token_accuracy": 0.18673846423625945,
      "num_tokens": 53758098.0,
      "step": 29145
    },
    {
      "entropy": 5.5298246383667,
      "epoch": 2.4489813064482253,
      "grad_norm": 1.109375,
      "learning_rate": 0.00043973691641680516,
      "loss": 5.2241,
      "mean_token_accuracy": 0.1822909817099571,
      "num_tokens": 53766833.0,
      "step": 29150
    },
    {
      "entropy": 5.524859762191772,
      "epoch": 2.44940138626339,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004397165175154083,
      "loss": 5.244,
      "mean_token_accuracy": 0.17905723601579665,
      "num_tokens": 53777292.0,
      "step": 29155
    },
    {
      "entropy": 5.5696775913238525,
      "epoch": 2.449821466078555,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004396961156961432,
      "loss": 5.2575,
      "mean_token_accuracy": 0.1780897483229637,
      "num_tokens": 53787401.0,
      "step": 29160
    },
    {
      "entropy": 5.607601642608643,
      "epoch": 2.4502415458937197,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004396757109593711,
      "loss": 5.2172,
      "mean_token_accuracy": 0.18097588568925857,
      "num_tokens": 53796429.0,
      "step": 29165
    },
    {
      "entropy": 5.52450532913208,
      "epoch": 2.450661625708885,
      "grad_norm": 1.125,
      "learning_rate": 0.00043965530330545373,
      "loss": 5.162,
      "mean_token_accuracy": 0.18766281008720398,
      "num_tokens": 53805107.0,
      "step": 29170
    },
    {
      "entropy": 5.601441478729248,
      "epoch": 2.4510817055240497,
      "grad_norm": 1.0625,
      "learning_rate": 0.00043963489273475233,
      "loss": 5.2412,
      "mean_token_accuracy": 0.1818762704730034,
      "num_tokens": 53815244.0,
      "step": 29175
    },
    {
      "entropy": 5.5366918563842775,
      "epoch": 2.4515017853392145,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004396144792476286,
      "loss": 5.2141,
      "mean_token_accuracy": 0.18369029760360717,
      "num_tokens": 53824278.0,
      "step": 29180
    },
    {
      "entropy": 5.504783344268799,
      "epoch": 2.4519218651543793,
      "grad_norm": 1.125,
      "learning_rate": 0.0004395940628444442,
      "loss": 5.0554,
      "mean_token_accuracy": 0.19375375658273697,
      "num_tokens": 53833048.0,
      "step": 29185
    },
    {
      "entropy": 5.542215156555176,
      "epoch": 2.452341944969544,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004395736435255607,
      "loss": 5.2532,
      "mean_token_accuracy": 0.18100365102291108,
      "num_tokens": 53842680.0,
      "step": 29190
    },
    {
      "entropy": 5.503448534011841,
      "epoch": 2.4527620247847093,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004395532212913398,
      "loss": 5.2737,
      "mean_token_accuracy": 0.17892590761184693,
      "num_tokens": 53852501.0,
      "step": 29195
    },
    {
      "entropy": 5.660436296463013,
      "epoch": 2.453182104599874,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00043953279614214344,
      "loss": 5.2987,
      "mean_token_accuracy": 0.18075794130563735,
      "num_tokens": 53861957.0,
      "step": 29200
    },
    {
      "entropy": 5.6201292991638185,
      "epoch": 2.453602184415039,
      "grad_norm": 1.125,
      "learning_rate": 0.00043951236807833314,
      "loss": 5.2195,
      "mean_token_accuracy": 0.18423888385295867,
      "num_tokens": 53872273.0,
      "step": 29205
    },
    {
      "entropy": 5.50013313293457,
      "epoch": 2.4540222642302036,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004394919371002711,
      "loss": 5.1529,
      "mean_token_accuracy": 0.18838194757699966,
      "num_tokens": 53881878.0,
      "step": 29210
    },
    {
      "entropy": 5.5232439041137695,
      "epoch": 2.4544423440453684,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00043947150320831907,
      "loss": 5.2106,
      "mean_token_accuracy": 0.19609739035367965,
      "num_tokens": 53890836.0,
      "step": 29215
    },
    {
      "entropy": 5.519877004623413,
      "epoch": 2.4548624238605337,
      "grad_norm": 1.15625,
      "learning_rate": 0.00043945106640283895,
      "loss": 5.1559,
      "mean_token_accuracy": 0.1952807530760765,
      "num_tokens": 53899883.0,
      "step": 29220
    },
    {
      "entropy": 5.50154333114624,
      "epoch": 2.4552825036756984,
      "grad_norm": 1.125,
      "learning_rate": 0.00043943062668419297,
      "loss": 5.0728,
      "mean_token_accuracy": 0.18553778380155564,
      "num_tokens": 53908062.0,
      "step": 29225
    },
    {
      "entropy": 5.575306940078735,
      "epoch": 2.4557025834908632,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004394101840527431,
      "loss": 5.2833,
      "mean_token_accuracy": 0.1794822633266449,
      "num_tokens": 53917079.0,
      "step": 29230
    },
    {
      "entropy": 5.613675308227539,
      "epoch": 2.456122663306028,
      "grad_norm": 1.15625,
      "learning_rate": 0.00043938973850885145,
      "loss": 5.1902,
      "mean_token_accuracy": 0.19583875238895415,
      "num_tokens": 53927282.0,
      "step": 29235
    },
    {
      "entropy": 5.558969116210937,
      "epoch": 2.456542743121193,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00043936929005288015,
      "loss": 5.2405,
      "mean_token_accuracy": 0.19228090047836305,
      "num_tokens": 53936731.0,
      "step": 29240
    },
    {
      "entropy": 5.446701145172119,
      "epoch": 2.456962822936358,
      "grad_norm": 1.171875,
      "learning_rate": 0.00043934883868519166,
      "loss": 5.1624,
      "mean_token_accuracy": 0.19660073518753052,
      "num_tokens": 53944893.0,
      "step": 29245
    },
    {
      "entropy": 5.57428822517395,
      "epoch": 2.457382902751523,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00043932838440614803,
      "loss": 5.264,
      "mean_token_accuracy": 0.18196238726377487,
      "num_tokens": 53954625.0,
      "step": 29250
    },
    {
      "entropy": 5.641480779647827,
      "epoch": 2.4578029825666876,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004393079272161118,
      "loss": 5.2197,
      "mean_token_accuracy": 0.18749945014715194,
      "num_tokens": 53963206.0,
      "step": 29255
    },
    {
      "entropy": 5.461625862121582,
      "epoch": 2.4582230623818524,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004392874671154451,
      "loss": 5.1303,
      "mean_token_accuracy": 0.18572693169116974,
      "num_tokens": 53972256.0,
      "step": 29260
    },
    {
      "entropy": 5.598461675643921,
      "epoch": 2.458643142197017,
      "grad_norm": 1.203125,
      "learning_rate": 0.00043926700410451054,
      "loss": 5.2214,
      "mean_token_accuracy": 0.1835291087627411,
      "num_tokens": 53981253.0,
      "step": 29265
    },
    {
      "entropy": 5.590818119049072,
      "epoch": 2.4590632220121824,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00043924653818367066,
      "loss": 5.2978,
      "mean_token_accuracy": 0.17848872542381286,
      "num_tokens": 53991065.0,
      "step": 29270
    },
    {
      "entropy": 5.507749128341675,
      "epoch": 2.459483301827347,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00043922606935328784,
      "loss": 5.1447,
      "mean_token_accuracy": 0.18229628652334212,
      "num_tokens": 54000768.0,
      "step": 29275
    },
    {
      "entropy": 5.6343849182128904,
      "epoch": 2.459903381642512,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004392055976137248,
      "loss": 5.3307,
      "mean_token_accuracy": 0.17547892183065414,
      "num_tokens": 54011332.0,
      "step": 29280
    },
    {
      "entropy": 5.623957824707031,
      "epoch": 2.4603234614576768,
      "grad_norm": 1.078125,
      "learning_rate": 0.00043918512296534426,
      "loss": 5.2296,
      "mean_token_accuracy": 0.1866276741027832,
      "num_tokens": 54020627.0,
      "step": 29285
    },
    {
      "entropy": 5.59463472366333,
      "epoch": 2.460743541272842,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004391646454085087,
      "loss": 5.2493,
      "mean_token_accuracy": 0.18365287333726882,
      "num_tokens": 54029564.0,
      "step": 29290
    },
    {
      "entropy": 5.529559373855591,
      "epoch": 2.461163621088007,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000439144164943581,
      "loss": 5.2714,
      "mean_token_accuracy": 0.1799517333507538,
      "num_tokens": 54038638.0,
      "step": 29295
    },
    {
      "entropy": 5.451008033752442,
      "epoch": 2.4615837009031716,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004391236815709239,
      "loss": 5.0856,
      "mean_token_accuracy": 0.19029180109500884,
      "num_tokens": 54047007.0,
      "step": 29300
    },
    {
      "entropy": 5.653260087966919,
      "epoch": 2.4620037807183364,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004391031952909003,
      "loss": 5.2711,
      "mean_token_accuracy": 0.1809989720582962,
      "num_tokens": 54056505.0,
      "step": 29305
    },
    {
      "entropy": 5.57639889717102,
      "epoch": 2.4624238605335016,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00043908270610387316,
      "loss": 5.1524,
      "mean_token_accuracy": 0.18705198615789415,
      "num_tokens": 54065250.0,
      "step": 29310
    },
    {
      "entropy": 5.464943790435791,
      "epoch": 2.4628439403486664,
      "grad_norm": 1.5,
      "learning_rate": 0.00043906221401020533,
      "loss": 5.1904,
      "mean_token_accuracy": 0.18636624962091447,
      "num_tokens": 54073780.0,
      "step": 29315
    },
    {
      "entropy": 5.633752632141113,
      "epoch": 2.463264020163831,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00043904171901025985,
      "loss": 5.3417,
      "mean_token_accuracy": 0.1856680318713188,
      "num_tokens": 54083765.0,
      "step": 29320
    },
    {
      "entropy": 5.645575475692749,
      "epoch": 2.463684099978996,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00043902122110439987,
      "loss": 5.2166,
      "mean_token_accuracy": 0.18845554888248445,
      "num_tokens": 54093163.0,
      "step": 29325
    },
    {
      "entropy": 5.5238134384155275,
      "epoch": 2.4641041797941607,
      "grad_norm": 1.203125,
      "learning_rate": 0.00043900072029298833,
      "loss": 5.2257,
      "mean_token_accuracy": 0.18344321548938752,
      "num_tokens": 54101835.0,
      "step": 29330
    },
    {
      "entropy": 5.560903024673462,
      "epoch": 2.464524259609326,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004389802165763885,
      "loss": 5.2414,
      "mean_token_accuracy": 0.1791019394993782,
      "num_tokens": 54111053.0,
      "step": 29335
    },
    {
      "entropy": 5.572770071029663,
      "epoch": 2.4649443394244908,
      "grad_norm": 1.25,
      "learning_rate": 0.0004389597099549635,
      "loss": 5.1834,
      "mean_token_accuracy": 0.18763154596090317,
      "num_tokens": 54120098.0,
      "step": 29340
    },
    {
      "entropy": 5.557012462615967,
      "epoch": 2.4653644192396555,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00043893920042907677,
      "loss": 5.1916,
      "mean_token_accuracy": 0.18703642934560777,
      "num_tokens": 54129129.0,
      "step": 29345
    },
    {
      "entropy": 5.552294588088989,
      "epoch": 2.4657844990548203,
      "grad_norm": 1.140625,
      "learning_rate": 0.00043891868799909146,
      "loss": 5.2448,
      "mean_token_accuracy": 0.1821316659450531,
      "num_tokens": 54138459.0,
      "step": 29350
    },
    {
      "entropy": 5.623362064361572,
      "epoch": 2.466204578869985,
      "grad_norm": 1.171875,
      "learning_rate": 0.000438898172665371,
      "loss": 5.3197,
      "mean_token_accuracy": 0.17712099403142928,
      "num_tokens": 54148046.0,
      "step": 29355
    },
    {
      "entropy": 5.62133092880249,
      "epoch": 2.4666246586851504,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004388776544282789,
      "loss": 5.2922,
      "mean_token_accuracy": 0.18155093789100646,
      "num_tokens": 54157310.0,
      "step": 29360
    },
    {
      "entropy": 5.4977943897247314,
      "epoch": 2.467044738500315,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00043885713328817847,
      "loss": 5.1251,
      "mean_token_accuracy": 0.19148373156785964,
      "num_tokens": 54165784.0,
      "step": 29365
    },
    {
      "entropy": 5.478043031692505,
      "epoch": 2.46746481831548,
      "grad_norm": 1.078125,
      "learning_rate": 0.00043883660924543325,
      "loss": 5.1973,
      "mean_token_accuracy": 0.18560468256473542,
      "num_tokens": 54174504.0,
      "step": 29370
    },
    {
      "entropy": 5.56305046081543,
      "epoch": 2.4678848981306447,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00043881608230040685,
      "loss": 5.1911,
      "mean_token_accuracy": 0.19022597074508668,
      "num_tokens": 54183534.0,
      "step": 29375
    },
    {
      "entropy": 5.594707775115967,
      "epoch": 2.4683049779458095,
      "grad_norm": 1.125,
      "learning_rate": 0.000438795552453463,
      "loss": 5.2639,
      "mean_token_accuracy": 0.1856859639286995,
      "num_tokens": 54192101.0,
      "step": 29380
    },
    {
      "entropy": 5.553570222854614,
      "epoch": 2.4687250577609747,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004387750197049652,
      "loss": 5.1749,
      "mean_token_accuracy": 0.18143926709890365,
      "num_tokens": 54200771.0,
      "step": 29385
    },
    {
      "entropy": 5.510892724990844,
      "epoch": 2.4691451375761395,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004387544840552773,
      "loss": 5.203,
      "mean_token_accuracy": 0.18002791404724122,
      "num_tokens": 54208816.0,
      "step": 29390
    },
    {
      "entropy": 5.527430009841919,
      "epoch": 2.4695652173913043,
      "grad_norm": 1.421875,
      "learning_rate": 0.00043873394550476304,
      "loss": 5.2003,
      "mean_token_accuracy": 0.1852567970752716,
      "num_tokens": 54218507.0,
      "step": 29395
    },
    {
      "entropy": 5.550060272216797,
      "epoch": 2.469985297206469,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004387134040537862,
      "loss": 5.2409,
      "mean_token_accuracy": 0.18957040458917618,
      "num_tokens": 54227611.0,
      "step": 29400
    },
    {
      "entropy": 5.655142116546631,
      "epoch": 2.470405377021634,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004386928597027108,
      "loss": 5.2701,
      "mean_token_accuracy": 0.1839274764060974,
      "num_tokens": 54237692.0,
      "step": 29405
    },
    {
      "entropy": 5.533599805831909,
      "epoch": 2.470825456836799,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004386723124519006,
      "loss": 5.1246,
      "mean_token_accuracy": 0.1855357751250267,
      "num_tokens": 54247187.0,
      "step": 29410
    },
    {
      "entropy": 5.554217195510864,
      "epoch": 2.471245536651964,
      "grad_norm": 1.125,
      "learning_rate": 0.00043865176230171966,
      "loss": 5.2867,
      "mean_token_accuracy": 0.1796165481209755,
      "num_tokens": 54256129.0,
      "step": 29415
    },
    {
      "entropy": 5.572955846786499,
      "epoch": 2.4716656164671287,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000438631209252532,
      "loss": 5.2435,
      "mean_token_accuracy": 0.1845137044787407,
      "num_tokens": 54265369.0,
      "step": 29420
    },
    {
      "entropy": 5.484858989715576,
      "epoch": 2.4720856962822935,
      "grad_norm": 1.109375,
      "learning_rate": 0.00043861065330470187,
      "loss": 5.1622,
      "mean_token_accuracy": 0.18543054014444352,
      "num_tokens": 54274342.0,
      "step": 29425
    },
    {
      "entropy": 5.513204288482666,
      "epoch": 2.4725057760974587,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004385900944585931,
      "loss": 5.2139,
      "mean_token_accuracy": 0.1824742615222931,
      "num_tokens": 54283216.0,
      "step": 29430
    },
    {
      "entropy": 5.539039087295532,
      "epoch": 2.4729258559126235,
      "grad_norm": 1.1875,
      "learning_rate": 0.00043856953271457014,
      "loss": 5.1747,
      "mean_token_accuracy": 0.193391814827919,
      "num_tokens": 54291595.0,
      "step": 29435
    },
    {
      "entropy": 5.503043842315674,
      "epoch": 2.4733459357277883,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004385489680729971,
      "loss": 5.1509,
      "mean_token_accuracy": 0.18663114309310913,
      "num_tokens": 54300498.0,
      "step": 29440
    },
    {
      "entropy": 5.585883712768554,
      "epoch": 2.473766015542953,
      "grad_norm": 1.125,
      "learning_rate": 0.0004385284005342383,
      "loss": 5.1767,
      "mean_token_accuracy": 0.18575852811336518,
      "num_tokens": 54309929.0,
      "step": 29445
    },
    {
      "entropy": 5.513310337066651,
      "epoch": 2.4741860953581183,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004385078300986581,
      "loss": 5.2316,
      "mean_token_accuracy": 0.18242986351251603,
      "num_tokens": 54320440.0,
      "step": 29450
    },
    {
      "entropy": 5.567957544326783,
      "epoch": 2.474606175173283,
      "grad_norm": 1.25,
      "learning_rate": 0.00043848725676662087,
      "loss": 5.2428,
      "mean_token_accuracy": 0.1879749044775963,
      "num_tokens": 54329028.0,
      "step": 29455
    },
    {
      "entropy": 5.4896656513214115,
      "epoch": 2.475026254988448,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0004384666805384911,
      "loss": 5.1688,
      "mean_token_accuracy": 0.18956854641437532,
      "num_tokens": 54337986.0,
      "step": 29460
    },
    {
      "entropy": 5.566294717788696,
      "epoch": 2.4754463348036126,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004384461014146332,
      "loss": 5.2258,
      "mean_token_accuracy": 0.178206866979599,
      "num_tokens": 54346135.0,
      "step": 29465
    },
    {
      "entropy": 5.4656284809112545,
      "epoch": 2.4758664146187774,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004384255193954118,
      "loss": 5.1311,
      "mean_token_accuracy": 0.1903390944004059,
      "num_tokens": 54354914.0,
      "step": 29470
    },
    {
      "entropy": 5.562745475769043,
      "epoch": 2.4762864944339427,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004384049344811915,
      "loss": 5.2112,
      "mean_token_accuracy": 0.18274080902338027,
      "num_tokens": 54364697.0,
      "step": 29475
    },
    {
      "entropy": 5.539513158798218,
      "epoch": 2.4767065742491075,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004383843466723369,
      "loss": 5.1853,
      "mean_token_accuracy": 0.1856016054749489,
      "num_tokens": 54374196.0,
      "step": 29480
    },
    {
      "entropy": 5.541793632507324,
      "epoch": 2.4771266540642722,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00043836375596921273,
      "loss": 5.2284,
      "mean_token_accuracy": 0.18964599221944808,
      "num_tokens": 54383708.0,
      "step": 29485
    },
    {
      "entropy": 5.5847498893737795,
      "epoch": 2.477546733879437,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00043834316237218373,
      "loss": 5.2678,
      "mean_token_accuracy": 0.1818906396627426,
      "num_tokens": 54393906.0,
      "step": 29490
    },
    {
      "entropy": 5.636795711517334,
      "epoch": 2.477966813694602,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004383225658816148,
      "loss": 5.2039,
      "mean_token_accuracy": 0.18862106055021285,
      "num_tokens": 54402640.0,
      "step": 29495
    },
    {
      "entropy": 5.4754595279693605,
      "epoch": 2.478386893509767,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004383019664978707,
      "loss": 5.1499,
      "mean_token_accuracy": 0.18825850635766983,
      "num_tokens": 54412382.0,
      "step": 29500
    },
    {
      "entropy": 5.499002456665039,
      "epoch": 2.478806973324932,
      "grad_norm": 1.078125,
      "learning_rate": 0.00043828136422131625,
      "loss": 5.1059,
      "mean_token_accuracy": 0.189065383374691,
      "num_tokens": 54421375.0,
      "step": 29505
    },
    {
      "entropy": 5.576247692108154,
      "epoch": 2.4792270531400966,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00043826075905231655,
      "loss": 5.2871,
      "mean_token_accuracy": 0.1874477446079254,
      "num_tokens": 54430794.0,
      "step": 29510
    },
    {
      "entropy": 5.50276288986206,
      "epoch": 2.4796471329552614,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004382401509912366,
      "loss": 5.1692,
      "mean_token_accuracy": 0.18385108858346938,
      "num_tokens": 54440913.0,
      "step": 29515
    },
    {
      "entropy": 5.575009059906006,
      "epoch": 2.480067212770426,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004382195400384414,
      "loss": 5.2508,
      "mean_token_accuracy": 0.1884200915694237,
      "num_tokens": 54449978.0,
      "step": 29520
    },
    {
      "entropy": 5.572093391418457,
      "epoch": 2.4804872925855914,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00043819892619429617,
      "loss": 5.1903,
      "mean_token_accuracy": 0.1885163515806198,
      "num_tokens": 54459187.0,
      "step": 29525
    },
    {
      "entropy": 5.584470987319946,
      "epoch": 2.480907372400756,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004381783094591659,
      "loss": 5.3574,
      "mean_token_accuracy": 0.1774732068181038,
      "num_tokens": 54468354.0,
      "step": 29530
    },
    {
      "entropy": 5.58954119682312,
      "epoch": 2.481327452215921,
      "grad_norm": 1.078125,
      "learning_rate": 0.000438157689833416,
      "loss": 5.2353,
      "mean_token_accuracy": 0.18211048990488052,
      "num_tokens": 54478331.0,
      "step": 29535
    },
    {
      "entropy": 5.51962571144104,
      "epoch": 2.481747532031086,
      "grad_norm": 1.046875,
      "learning_rate": 0.00043813706731741153,
      "loss": 5.187,
      "mean_token_accuracy": 0.19129844903945922,
      "num_tokens": 54488243.0,
      "step": 29540
    },
    {
      "entropy": 5.523867893218994,
      "epoch": 2.4821676118462506,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00043811644191151796,
      "loss": 5.1138,
      "mean_token_accuracy": 0.18619782477617264,
      "num_tokens": 54496985.0,
      "step": 29545
    },
    {
      "entropy": 5.50580415725708,
      "epoch": 2.482587691661416,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004380958136161006,
      "loss": 5.2597,
      "mean_token_accuracy": 0.1791873648762703,
      "num_tokens": 54506012.0,
      "step": 29550
    },
    {
      "entropy": 5.558646631240845,
      "epoch": 2.4830077714765806,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004380751824315249,
      "loss": 5.3043,
      "mean_token_accuracy": 0.1813256025314331,
      "num_tokens": 54514883.0,
      "step": 29555
    },
    {
      "entropy": 5.5091229438781735,
      "epoch": 2.4834278512917454,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00043805454835815636,
      "loss": 5.155,
      "mean_token_accuracy": 0.1882467657327652,
      "num_tokens": 54523590.0,
      "step": 29560
    },
    {
      "entropy": 5.468760633468628,
      "epoch": 2.48384793110691,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004380339113963604,
      "loss": 5.0737,
      "mean_token_accuracy": 0.1947824165225029,
      "num_tokens": 54532696.0,
      "step": 29565
    },
    {
      "entropy": 5.493862771987915,
      "epoch": 2.4842680109220754,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004380132715465027,
      "loss": 5.1518,
      "mean_token_accuracy": 0.19219310730695724,
      "num_tokens": 54541792.0,
      "step": 29570
    },
    {
      "entropy": 5.501084184646606,
      "epoch": 2.48468809073724,
      "grad_norm": 1.15625,
      "learning_rate": 0.00043799262880894876,
      "loss": 5.1962,
      "mean_token_accuracy": 0.19057877361774445,
      "num_tokens": 54550625.0,
      "step": 29575
    },
    {
      "entropy": 5.565542936325073,
      "epoch": 2.485108170552405,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004379719831840644,
      "loss": 5.2829,
      "mean_token_accuracy": 0.17507699131965637,
      "num_tokens": 54560490.0,
      "step": 29580
    },
    {
      "entropy": 5.6347448348999025,
      "epoch": 2.4855282503675697,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004379513346722152,
      "loss": 5.2987,
      "mean_token_accuracy": 0.18178594410419463,
      "num_tokens": 54569897.0,
      "step": 29585
    },
    {
      "entropy": 5.624663972854615,
      "epoch": 2.4859483301827345,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004379306832737671,
      "loss": 5.2856,
      "mean_token_accuracy": 0.17986716479063034,
      "num_tokens": 54579711.0,
      "step": 29590
    },
    {
      "entropy": 5.421242427825928,
      "epoch": 2.4863684099978998,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004379100289890858,
      "loss": 5.1366,
      "mean_token_accuracy": 0.19197900593280792,
      "num_tokens": 54589354.0,
      "step": 29595
    },
    {
      "entropy": 5.565298414230346,
      "epoch": 2.4867884898130646,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00043788937181853723,
      "loss": 5.1937,
      "mean_token_accuracy": 0.18625818341970443,
      "num_tokens": 54598575.0,
      "step": 29600
    },
    {
      "entropy": 5.408510828018189,
      "epoch": 2.4872085696282293,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004378687117624873,
      "loss": 5.0562,
      "mean_token_accuracy": 0.18632789105176925,
      "num_tokens": 54608014.0,
      "step": 29605
    },
    {
      "entropy": 5.410258007049561,
      "epoch": 2.487628649443394,
      "grad_norm": 1.203125,
      "learning_rate": 0.00043784804882130205,
      "loss": 5.1557,
      "mean_token_accuracy": 0.1872216358780861,
      "num_tokens": 54617300.0,
      "step": 29610
    },
    {
      "entropy": 5.557710790634156,
      "epoch": 2.4880487292585594,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004378273829953474,
      "loss": 5.1946,
      "mean_token_accuracy": 0.1810102716088295,
      "num_tokens": 54626777.0,
      "step": 29615
    },
    {
      "entropy": 5.460691738128662,
      "epoch": 2.488468809073724,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00043780671428498945,
      "loss": 5.1408,
      "mean_token_accuracy": 0.18708737641572953,
      "num_tokens": 54636357.0,
      "step": 29620
    },
    {
      "entropy": 5.494891405105591,
      "epoch": 2.488888888888889,
      "grad_norm": 1.171875,
      "learning_rate": 0.00043778604269059456,
      "loss": 5.0902,
      "mean_token_accuracy": 0.19202718883752823,
      "num_tokens": 54645126.0,
      "step": 29625
    },
    {
      "entropy": 5.619252681732178,
      "epoch": 2.4893089687040537,
      "grad_norm": 1.09375,
      "learning_rate": 0.00043776536821252867,
      "loss": 5.2925,
      "mean_token_accuracy": 0.18507904410362244,
      "num_tokens": 54653920.0,
      "step": 29630
    },
    {
      "entropy": 5.592084503173828,
      "epoch": 2.4897290485192185,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000437744690851158,
      "loss": 5.2323,
      "mean_token_accuracy": 0.18127165585756302,
      "num_tokens": 54663627.0,
      "step": 29635
    },
    {
      "entropy": 5.571045827865601,
      "epoch": 2.4901491283343837,
      "grad_norm": 1.28125,
      "learning_rate": 0.00043772401060684907,
      "loss": 5.2769,
      "mean_token_accuracy": 0.18583530187606812,
      "num_tokens": 54673741.0,
      "step": 29640
    },
    {
      "entropy": 5.5890645503997805,
      "epoch": 2.4905692081495485,
      "grad_norm": 1.09375,
      "learning_rate": 0.000437703327479968,
      "loss": 5.2153,
      "mean_token_accuracy": 0.18174385875463486,
      "num_tokens": 54683387.0,
      "step": 29645
    },
    {
      "entropy": 5.598749256134033,
      "epoch": 2.4909892879647133,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00043768264147088135,
      "loss": 5.3357,
      "mean_token_accuracy": 0.17516226768493653,
      "num_tokens": 54693807.0,
      "step": 29650
    },
    {
      "entropy": 5.5415647506713865,
      "epoch": 2.491409367779878,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004376619525799554,
      "loss": 5.211,
      "mean_token_accuracy": 0.18271642327308654,
      "num_tokens": 54703001.0,
      "step": 29655
    },
    {
      "entropy": 5.505050468444824,
      "epoch": 2.491829447595043,
      "grad_norm": 1.25,
      "learning_rate": 0.0004376412608075567,
      "loss": 5.1047,
      "mean_token_accuracy": 0.1972477689385414,
      "num_tokens": 54712863.0,
      "step": 29660
    },
    {
      "entropy": 5.533771133422851,
      "epoch": 2.492249527410208,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00043762056615405186,
      "loss": 5.19,
      "mean_token_accuracy": 0.1835066184401512,
      "num_tokens": 54721784.0,
      "step": 29665
    },
    {
      "entropy": 5.592694234848023,
      "epoch": 2.492669607225373,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004375998686198074,
      "loss": 5.2535,
      "mean_token_accuracy": 0.18107277750968934,
      "num_tokens": 54730961.0,
      "step": 29670
    },
    {
      "entropy": 5.518999195098877,
      "epoch": 2.4930896870405377,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00043757916820519,
      "loss": 5.2078,
      "mean_token_accuracy": 0.18575378507375717,
      "num_tokens": 54740124.0,
      "step": 29675
    },
    {
      "entropy": 5.500892400741577,
      "epoch": 2.4935097668557025,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004375584649105664,
      "loss": 5.198,
      "mean_token_accuracy": 0.18089412599802018,
      "num_tokens": 54749486.0,
      "step": 29680
    },
    {
      "entropy": 5.557789850234985,
      "epoch": 2.4939298466708673,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004375377587363033,
      "loss": 5.2076,
      "mean_token_accuracy": 0.18331368118524552,
      "num_tokens": 54759167.0,
      "step": 29685
    },
    {
      "entropy": 5.529939985275268,
      "epoch": 2.4943499264860325,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00043751704968276745,
      "loss": 5.1544,
      "mean_token_accuracy": 0.19281903207302092,
      "num_tokens": 54767403.0,
      "step": 29690
    },
    {
      "entropy": 5.448578500747681,
      "epoch": 2.4947700063011973,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004374963377503257,
      "loss": 5.195,
      "mean_token_accuracy": 0.18184948414564134,
      "num_tokens": 54777373.0,
      "step": 29695
    },
    {
      "entropy": 5.545592594146728,
      "epoch": 2.495190086116362,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00043747562293934507,
      "loss": 5.204,
      "mean_token_accuracy": 0.18878304362297058,
      "num_tokens": 54786082.0,
      "step": 29700
    },
    {
      "entropy": 5.594045734405517,
      "epoch": 2.495610165931527,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00043745490525019245,
      "loss": 5.2288,
      "mean_token_accuracy": 0.18173081427812576,
      "num_tokens": 54794879.0,
      "step": 29705
    },
    {
      "entropy": 5.577703905105591,
      "epoch": 2.4960302457466916,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004374341846832348,
      "loss": 5.2032,
      "mean_token_accuracy": 0.17970330119132996,
      "num_tokens": 54804095.0,
      "step": 29710
    },
    {
      "entropy": 5.559214448928833,
      "epoch": 2.496450325561857,
      "grad_norm": 1.109375,
      "learning_rate": 0.00043741346123883927,
      "loss": 5.2164,
      "mean_token_accuracy": 0.1915532723069191,
      "num_tokens": 54813135.0,
      "step": 29715
    },
    {
      "entropy": 5.504313039779663,
      "epoch": 2.4968704053770217,
      "grad_norm": 1.25,
      "learning_rate": 0.0004373927349173728,
      "loss": 5.2137,
      "mean_token_accuracy": 0.19273382276296616,
      "num_tokens": 54822129.0,
      "step": 29720
    },
    {
      "entropy": 5.619400072097778,
      "epoch": 2.4972904851921864,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004373720057192028,
      "loss": 5.296,
      "mean_token_accuracy": 0.17706447690725327,
      "num_tokens": 54831342.0,
      "step": 29725
    },
    {
      "entropy": 5.530300569534302,
      "epoch": 2.4977105650073512,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004373512736446962,
      "loss": 5.2099,
      "mean_token_accuracy": 0.18635396510362626,
      "num_tokens": 54840327.0,
      "step": 29730
    },
    {
      "entropy": 5.560689544677734,
      "epoch": 2.4981306448225165,
      "grad_norm": 2.1875,
      "learning_rate": 0.00043733053869422046,
      "loss": 5.1944,
      "mean_token_accuracy": 0.18562428951263427,
      "num_tokens": 54849259.0,
      "step": 29735
    },
    {
      "entropy": 5.46874680519104,
      "epoch": 2.4985507246376812,
      "grad_norm": 1.125,
      "learning_rate": 0.0004373098008681428,
      "loss": 5.0961,
      "mean_token_accuracy": 0.1887846365571022,
      "num_tokens": 54858217.0,
      "step": 29740
    },
    {
      "entropy": 5.513695192337036,
      "epoch": 2.498970804452846,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004372890601668305,
      "loss": 5.1334,
      "mean_token_accuracy": 0.18895409405231475,
      "num_tokens": 54867256.0,
      "step": 29745
    },
    {
      "entropy": 5.538665294647217,
      "epoch": 2.499390884268011,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00043726831659065114,
      "loss": 5.2202,
      "mean_token_accuracy": 0.1919365182518959,
      "num_tokens": 54875621.0,
      "step": 29750
    },
    {
      "entropy": 5.510224342346191,
      "epoch": 2.499810964083176,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004372475701399721,
      "loss": 5.1006,
      "mean_token_accuracy": 0.1918555662035942,
      "num_tokens": 54884153.0,
      "step": 29755
    },
    {
      "entropy": 5.4649358749389645,
      "epoch": 2.500231043898341,
      "grad_norm": 1.125,
      "learning_rate": 0.00043722682081516093,
      "loss": 5.0904,
      "mean_token_accuracy": 0.1931763395667076,
      "num_tokens": 54892800.0,
      "step": 29760
    },
    {
      "entropy": 5.34162335395813,
      "epoch": 2.5006511237135056,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004372060686165851,
      "loss": 5.047,
      "mean_token_accuracy": 0.19717031717300415,
      "num_tokens": 54902083.0,
      "step": 29765
    },
    {
      "entropy": 5.549012899398804,
      "epoch": 2.5010712035286704,
      "grad_norm": 1.09375,
      "learning_rate": 0.00043718531354461235,
      "loss": 5.2103,
      "mean_token_accuracy": 0.18642665147781373,
      "num_tokens": 54911733.0,
      "step": 29770
    },
    {
      "entropy": 5.598842906951904,
      "epoch": 2.501491283343835,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004371645555996103,
      "loss": 5.3246,
      "mean_token_accuracy": 0.18342870324850083,
      "num_tokens": 54921835.0,
      "step": 29775
    },
    {
      "entropy": 5.494769191741943,
      "epoch": 2.5019113631590004,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004371437947819466,
      "loss": 5.1074,
      "mean_token_accuracy": 0.18644446432590484,
      "num_tokens": 54930452.0,
      "step": 29780
    },
    {
      "entropy": 5.540318298339844,
      "epoch": 2.502331442974165,
      "grad_norm": 1.203125,
      "learning_rate": 0.00043712303109198905,
      "loss": 5.2152,
      "mean_token_accuracy": 0.18059332966804503,
      "num_tokens": 54938989.0,
      "step": 29785
    },
    {
      "entropy": 5.4791045665740965,
      "epoch": 2.50275152278933,
      "grad_norm": 1.0625,
      "learning_rate": 0.00043710226453010553,
      "loss": 5.1392,
      "mean_token_accuracy": 0.1821642130613327,
      "num_tokens": 54948595.0,
      "step": 29790
    },
    {
      "entropy": 5.5085203647613525,
      "epoch": 2.503171602604495,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00043708149509666383,
      "loss": 5.2392,
      "mean_token_accuracy": 0.18129568845033645,
      "num_tokens": 54958561.0,
      "step": 29795
    },
    {
      "entropy": 5.535826253890991,
      "epoch": 2.5035916824196596,
      "grad_norm": 1.2421875,
      "learning_rate": 0.000437060722792032,
      "loss": 5.2464,
      "mean_token_accuracy": 0.17864807099103927,
      "num_tokens": 54968515.0,
      "step": 29800
    },
    {
      "entropy": 5.520928430557251,
      "epoch": 2.504011762234825,
      "grad_norm": 1.171875,
      "learning_rate": 0.00043703994761657783,
      "loss": 5.1262,
      "mean_token_accuracy": 0.18556703329086305,
      "num_tokens": 54977645.0,
      "step": 29805
    },
    {
      "entropy": 5.570339488983154,
      "epoch": 2.5044318420499896,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004370191695706694,
      "loss": 5.3021,
      "mean_token_accuracy": 0.1795802891254425,
      "num_tokens": 54987842.0,
      "step": 29810
    },
    {
      "entropy": 5.528403806686401,
      "epoch": 2.5048519218651544,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004369983886546748,
      "loss": 5.2268,
      "mean_token_accuracy": 0.17993136793375014,
      "num_tokens": 54997182.0,
      "step": 29815
    },
    {
      "entropy": 5.462173843383789,
      "epoch": 2.505272001680319,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004369776048689622,
      "loss": 5.032,
      "mean_token_accuracy": 0.19719351679086686,
      "num_tokens": 55005740.0,
      "step": 29820
    },
    {
      "entropy": 5.529299640655518,
      "epoch": 2.505692081495484,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004369568182138998,
      "loss": 5.1792,
      "mean_token_accuracy": 0.1894216701388359,
      "num_tokens": 55015130.0,
      "step": 29825
    },
    {
      "entropy": 5.513470602035523,
      "epoch": 2.506112161310649,
      "grad_norm": 1.1875,
      "learning_rate": 0.00043693602868985563,
      "loss": 5.2047,
      "mean_token_accuracy": 0.18935481011867522,
      "num_tokens": 55025206.0,
      "step": 29830
    },
    {
      "entropy": 5.565616464614868,
      "epoch": 2.506532241125814,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004369152362971982,
      "loss": 5.1425,
      "mean_token_accuracy": 0.19364583492279053,
      "num_tokens": 55034258.0,
      "step": 29835
    },
    {
      "entropy": 5.515293025970459,
      "epoch": 2.5069523209409788,
      "grad_norm": 1.125,
      "learning_rate": 0.0004368944410362957,
      "loss": 5.1939,
      "mean_token_accuracy": 0.18538242876529692,
      "num_tokens": 55042732.0,
      "step": 29840
    },
    {
      "entropy": 5.50224199295044,
      "epoch": 2.5073724007561435,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004368736429075165,
      "loss": 5.2214,
      "mean_token_accuracy": 0.17743287980556488,
      "num_tokens": 55051728.0,
      "step": 29845
    },
    {
      "entropy": 5.482735872268677,
      "epoch": 2.5077924805713083,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00043685284191122915,
      "loss": 5.1619,
      "mean_token_accuracy": 0.18984907120466232,
      "num_tokens": 55060509.0,
      "step": 29850
    },
    {
      "entropy": 5.5265758514404295,
      "epoch": 2.5082125603864736,
      "grad_norm": 1.109375,
      "learning_rate": 0.000436832038047802,
      "loss": 5.233,
      "mean_token_accuracy": 0.18164493441581725,
      "num_tokens": 55069637.0,
      "step": 29855
    },
    {
      "entropy": 5.527748870849609,
      "epoch": 2.5086326402016383,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004368112313176037,
      "loss": 5.2068,
      "mean_token_accuracy": 0.17903198599815368,
      "num_tokens": 55079547.0,
      "step": 29860
    },
    {
      "entropy": 5.543684101104736,
      "epoch": 2.509052720016803,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004367904217210026,
      "loss": 5.1552,
      "mean_token_accuracy": 0.19642953276634217,
      "num_tokens": 55088126.0,
      "step": 29865
    },
    {
      "entropy": 5.5448168277740475,
      "epoch": 2.509472799831968,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004367696092583676,
      "loss": 5.1852,
      "mean_token_accuracy": 0.18272463828325272,
      "num_tokens": 55097458.0,
      "step": 29870
    },
    {
      "entropy": 5.531081342697144,
      "epoch": 2.5098928796471327,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004367487939300673,
      "loss": 5.1466,
      "mean_token_accuracy": 0.1912153497338295,
      "num_tokens": 55105969.0,
      "step": 29875
    },
    {
      "entropy": 5.432087135314942,
      "epoch": 2.510312959462298,
      "grad_norm": 1.15625,
      "learning_rate": 0.00043672797573647033,
      "loss": 5.1194,
      "mean_token_accuracy": 0.19519298225641252,
      "num_tokens": 55114985.0,
      "step": 29880
    },
    {
      "entropy": 5.50970458984375,
      "epoch": 2.5107330392774627,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004367071546779456,
      "loss": 5.1667,
      "mean_token_accuracy": 0.1873796373605728,
      "num_tokens": 55123576.0,
      "step": 29885
    },
    {
      "entropy": 5.556103372573853,
      "epoch": 2.5111531190926275,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004366863307548618,
      "loss": 5.1496,
      "mean_token_accuracy": 0.18584027737379075,
      "num_tokens": 55131758.0,
      "step": 29890
    },
    {
      "entropy": 5.501550197601318,
      "epoch": 2.5115731989077927,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000436665503967588,
      "loss": 5.1646,
      "mean_token_accuracy": 0.1923701211810112,
      "num_tokens": 55141288.0,
      "step": 29895
    },
    {
      "entropy": 5.613256597518921,
      "epoch": 2.5119932787229575,
      "grad_norm": 1.15625,
      "learning_rate": 0.000436644674316493,
      "loss": 5.2875,
      "mean_token_accuracy": 0.17961977273225785,
      "num_tokens": 55150834.0,
      "step": 29900
    },
    {
      "entropy": 5.52540340423584,
      "epoch": 2.5124133585381223,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00043662384180194583,
      "loss": 5.1458,
      "mean_token_accuracy": 0.18736265748739242,
      "num_tokens": 55159581.0,
      "step": 29905
    },
    {
      "entropy": 5.457185316085815,
      "epoch": 2.512833438353287,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00043660300642431554,
      "loss": 5.1419,
      "mean_token_accuracy": 0.188640858232975,
      "num_tokens": 55167740.0,
      "step": 29910
    },
    {
      "entropy": 5.557588958740235,
      "epoch": 2.513253518168452,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00043658216818397123,
      "loss": 5.2328,
      "mean_token_accuracy": 0.19203262627124787,
      "num_tokens": 55176788.0,
      "step": 29915
    },
    {
      "entropy": 5.493827152252197,
      "epoch": 2.513673597983617,
      "grad_norm": 1.171875,
      "learning_rate": 0.000436561327081282,
      "loss": 5.1053,
      "mean_token_accuracy": 0.19105474203824996,
      "num_tokens": 55185234.0,
      "step": 29920
    },
    {
      "entropy": 5.478183031082153,
      "epoch": 2.514093677798782,
      "grad_norm": 1.15625,
      "learning_rate": 0.00043654048311661704,
      "loss": 5.1457,
      "mean_token_accuracy": 0.19244595170021056,
      "num_tokens": 55193784.0,
      "step": 29925
    },
    {
      "entropy": 5.56584906578064,
      "epoch": 2.5145137576139467,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00043651963629034557,
      "loss": 5.2875,
      "mean_token_accuracy": 0.17293037176132203,
      "num_tokens": 55203271.0,
      "step": 29930
    },
    {
      "entropy": 5.555710124969482,
      "epoch": 2.5149338374291115,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004364987866028369,
      "loss": 5.1255,
      "mean_token_accuracy": 0.18800238221883775,
      "num_tokens": 55211888.0,
      "step": 29935
    },
    {
      "entropy": 5.464906406402588,
      "epoch": 2.5153539172442763,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004364779340544605,
      "loss": 5.1792,
      "mean_token_accuracy": 0.18260872215032578,
      "num_tokens": 55221261.0,
      "step": 29940
    },
    {
      "entropy": 5.605620956420898,
      "epoch": 2.5157739970594415,
      "grad_norm": 1.328125,
      "learning_rate": 0.00043645707864558555,
      "loss": 5.271,
      "mean_token_accuracy": 0.17893969863653184,
      "num_tokens": 55229792.0,
      "step": 29945
    },
    {
      "entropy": 5.581491327285766,
      "epoch": 2.5161940768746063,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00043643622037658163,
      "loss": 5.2229,
      "mean_token_accuracy": 0.1842711552977562,
      "num_tokens": 55238908.0,
      "step": 29950
    },
    {
      "entropy": 5.489570569992066,
      "epoch": 2.516614156689771,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004364153592478182,
      "loss": 5.1677,
      "mean_token_accuracy": 0.18315381854772567,
      "num_tokens": 55248305.0,
      "step": 29955
    },
    {
      "entropy": 5.622816801071167,
      "epoch": 2.517034236504936,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004363944952596647,
      "loss": 5.2613,
      "mean_token_accuracy": 0.18171187937259675,
      "num_tokens": 55257430.0,
      "step": 29960
    },
    {
      "entropy": 5.515021324157715,
      "epoch": 2.5174543163201006,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004363736284124909,
      "loss": 5.1574,
      "mean_token_accuracy": 0.18651944249868393,
      "num_tokens": 55266088.0,
      "step": 29965
    },
    {
      "entropy": 5.510216808319091,
      "epoch": 2.517874396135266,
      "grad_norm": 1.140625,
      "learning_rate": 0.00043635275870666643,
      "loss": 5.1966,
      "mean_token_accuracy": 0.18795276433229446,
      "num_tokens": 55276530.0,
      "step": 29970
    },
    {
      "entropy": 5.54561676979065,
      "epoch": 2.5182944759504307,
      "grad_norm": 1.125,
      "learning_rate": 0.00043633188614256084,
      "loss": 5.2161,
      "mean_token_accuracy": 0.18643974065780639,
      "num_tokens": 55286465.0,
      "step": 29975
    },
    {
      "entropy": 5.442957353591919,
      "epoch": 2.5187145557655954,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00043631101072054396,
      "loss": 5.1101,
      "mean_token_accuracy": 0.1891075298190117,
      "num_tokens": 55295577.0,
      "step": 29980
    },
    {
      "entropy": 5.439893770217895,
      "epoch": 2.5191346355807602,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004362901324409856,
      "loss": 5.1771,
      "mean_token_accuracy": 0.18889234215021133,
      "num_tokens": 55304201.0,
      "step": 29985
    },
    {
      "entropy": 5.505253887176513,
      "epoch": 2.519554715395925,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004362692513042556,
      "loss": 5.1781,
      "mean_token_accuracy": 0.1840092882514,
      "num_tokens": 55313269.0,
      "step": 29990
    },
    {
      "entropy": 5.5223259925842285,
      "epoch": 2.5199747952110902,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00043624836731072386,
      "loss": 5.2112,
      "mean_token_accuracy": 0.17900725603103637,
      "num_tokens": 55322301.0,
      "step": 29995
    },
    {
      "entropy": 5.491001224517822,
      "epoch": 2.520394875026255,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004362274804607604,
      "loss": 5.1548,
      "mean_token_accuracy": 0.18585173785686493,
      "num_tokens": 55331764.0,
      "step": 30000
    },
    {
      "epoch": 2.520394875026255,
      "eval_entropy": 5.292404083643142,
      "eval_loss": 5.268798828125,
      "eval_mean_token_accuracy": 0.19115851967139127,
      "eval_num_tokens": 55331764.0,
      "eval_runtime": 27.4061,
      "eval_samples_per_second": 1363.417,
      "eval_steps_per_second": 170.436,
      "step": 30000
    },
    {
      "entropy": 5.561005926132202,
      "epoch": 2.52081495484142,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00043620659075473497,
      "loss": 5.1622,
      "mean_token_accuracy": 0.18346392065286637,
      "num_tokens": 55340874.0,
      "step": 30005
    },
    {
      "entropy": 5.502564287185669,
      "epoch": 2.5212350346565846,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004361856981930179,
      "loss": 5.1328,
      "mean_token_accuracy": 0.19491781145334244,
      "num_tokens": 55349846.0,
      "step": 30010
    },
    {
      "entropy": 5.5002528667449955,
      "epoch": 2.5216551144717494,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004361648027759792,
      "loss": 5.1684,
      "mean_token_accuracy": 0.18813228756189346,
      "num_tokens": 55357865.0,
      "step": 30015
    },
    {
      "entropy": 5.459154891967773,
      "epoch": 2.5220751942869146,
      "grad_norm": 1.109375,
      "learning_rate": 0.00043614390450398896,
      "loss": 5.2101,
      "mean_token_accuracy": 0.19158217757940293,
      "num_tokens": 55367096.0,
      "step": 30020
    },
    {
      "entropy": 5.547244691848755,
      "epoch": 2.5224952741020794,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00043612300337741744,
      "loss": 5.2862,
      "mean_token_accuracy": 0.18425606489181517,
      "num_tokens": 55376557.0,
      "step": 30025
    },
    {
      "entropy": 5.560650205612182,
      "epoch": 2.522915353917244,
      "grad_norm": 1.15625,
      "learning_rate": 0.00043610209939663486,
      "loss": 5.1998,
      "mean_token_accuracy": 0.18963392525911332,
      "num_tokens": 55385336.0,
      "step": 30030
    },
    {
      "entropy": 5.478680658340454,
      "epoch": 2.5233354337324094,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004360811925620117,
      "loss": 5.1403,
      "mean_token_accuracy": 0.18616828918457032,
      "num_tokens": 55393349.0,
      "step": 30035
    },
    {
      "entropy": 5.562954044342041,
      "epoch": 2.5237555135475738,
      "grad_norm": 1.171875,
      "learning_rate": 0.00043606028287391797,
      "loss": 5.2579,
      "mean_token_accuracy": 0.17833357453346252,
      "num_tokens": 55402964.0,
      "step": 30040
    },
    {
      "entropy": 5.428455018997193,
      "epoch": 2.524175593362739,
      "grad_norm": 1.0625,
      "learning_rate": 0.00043603937033272433,
      "loss": 5.1486,
      "mean_token_accuracy": 0.1959857240319252,
      "num_tokens": 55412861.0,
      "step": 30045
    },
    {
      "entropy": 5.467377328872681,
      "epoch": 2.524595673177904,
      "grad_norm": 1.171875,
      "learning_rate": 0.00043601845493880113,
      "loss": 5.1936,
      "mean_token_accuracy": 0.18656812310218812,
      "num_tokens": 55421922.0,
      "step": 30050
    },
    {
      "entropy": 5.5830670356750485,
      "epoch": 2.5250157529930686,
      "grad_norm": 1.03125,
      "learning_rate": 0.000435997536692519,
      "loss": 5.2047,
      "mean_token_accuracy": 0.1785131201148033,
      "num_tokens": 55432043.0,
      "step": 30055
    },
    {
      "entropy": 5.548874378204346,
      "epoch": 2.525435832808234,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00043597661559424835,
      "loss": 5.1482,
      "mean_token_accuracy": 0.18541997969150542,
      "num_tokens": 55440659.0,
      "step": 30060
    },
    {
      "entropy": 5.436228704452515,
      "epoch": 2.5258559126233986,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004359556916443598,
      "loss": 5.1091,
      "mean_token_accuracy": 0.19129268527030946,
      "num_tokens": 55449680.0,
      "step": 30065
    },
    {
      "entropy": 5.555661916732788,
      "epoch": 2.5262759924385634,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00043593476484322415,
      "loss": 5.2754,
      "mean_token_accuracy": 0.18203043788671494,
      "num_tokens": 55459591.0,
      "step": 30070
    },
    {
      "entropy": 5.6066246509552,
      "epoch": 2.526696072253728,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00043591383519121194,
      "loss": 5.2497,
      "mean_token_accuracy": 0.18374426960945128,
      "num_tokens": 55468921.0,
      "step": 30075
    },
    {
      "entropy": 5.589461469650269,
      "epoch": 2.527116152068893,
      "grad_norm": 1.15625,
      "learning_rate": 0.00043589290268869404,
      "loss": 5.2612,
      "mean_token_accuracy": 0.18617295771837233,
      "num_tokens": 55479077.0,
      "step": 30080
    },
    {
      "entropy": 5.5364480972290036,
      "epoch": 2.527536231884058,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004358719673360412,
      "loss": 5.176,
      "mean_token_accuracy": 0.1842726469039917,
      "num_tokens": 55488098.0,
      "step": 30085
    },
    {
      "entropy": 5.528754711151123,
      "epoch": 2.527956311699223,
      "grad_norm": 1.203125,
      "learning_rate": 0.00043585102913362424,
      "loss": 5.1888,
      "mean_token_accuracy": 0.18737610280513764,
      "num_tokens": 55497096.0,
      "step": 30090
    },
    {
      "entropy": 5.517615079879761,
      "epoch": 2.5283763915143878,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00043583008808181426,
      "loss": 5.1675,
      "mean_token_accuracy": 0.1872638300061226,
      "num_tokens": 55506612.0,
      "step": 30095
    },
    {
      "entropy": 5.502489948272705,
      "epoch": 2.5287964713295525,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00043580914418098193,
      "loss": 5.1834,
      "mean_token_accuracy": 0.1863545522093773,
      "num_tokens": 55515660.0,
      "step": 30100
    },
    {
      "entropy": 5.536638498306274,
      "epoch": 2.5292165511447173,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004357881974314985,
      "loss": 5.1298,
      "mean_token_accuracy": 0.19418651163578032,
      "num_tokens": 55523935.0,
      "step": 30105
    },
    {
      "entropy": 5.5432099342346195,
      "epoch": 2.5296366309598826,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004357672478337349,
      "loss": 5.1902,
      "mean_token_accuracy": 0.18808967918157576,
      "num_tokens": 55533209.0,
      "step": 30110
    },
    {
      "entropy": 5.481627559661865,
      "epoch": 2.5300567107750473,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004357462953880623,
      "loss": 5.0771,
      "mean_token_accuracy": 0.19041562527418138,
      "num_tokens": 55541954.0,
      "step": 30115
    },
    {
      "entropy": 5.495776081085205,
      "epoch": 2.530476790590212,
      "grad_norm": 1.078125,
      "learning_rate": 0.00043572534009485195,
      "loss": 5.1727,
      "mean_token_accuracy": 0.18813026696443558,
      "num_tokens": 55551342.0,
      "step": 30120
    },
    {
      "entropy": 5.510941410064698,
      "epoch": 2.530896870405377,
      "grad_norm": 1.265625,
      "learning_rate": 0.00043570438195447486,
      "loss": 5.1503,
      "mean_token_accuracy": 0.18221098333597183,
      "num_tokens": 55560105.0,
      "step": 30125
    },
    {
      "entropy": 5.486083745956421,
      "epoch": 2.5313169502205417,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00043568342096730244,
      "loss": 5.2213,
      "mean_token_accuracy": 0.1863243743777275,
      "num_tokens": 55569594.0,
      "step": 30130
    },
    {
      "entropy": 5.4965620040893555,
      "epoch": 2.531737030035707,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004356624571337059,
      "loss": 5.1299,
      "mean_token_accuracy": 0.1870052084326744,
      "num_tokens": 55578442.0,
      "step": 30135
    },
    {
      "entropy": 5.446897506713867,
      "epoch": 2.5321571098508717,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004356414904540567,
      "loss": 5.1345,
      "mean_token_accuracy": 0.1878222107887268,
      "num_tokens": 55587823.0,
      "step": 30140
    },
    {
      "entropy": 5.4988195419311525,
      "epoch": 2.5325771896660365,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004356205209287262,
      "loss": 5.1452,
      "mean_token_accuracy": 0.1884509116411209,
      "num_tokens": 55597303.0,
      "step": 30145
    },
    {
      "entropy": 5.542957019805908,
      "epoch": 2.5329972694812013,
      "grad_norm": 1.09375,
      "learning_rate": 0.00043559954855808595,
      "loss": 5.1923,
      "mean_token_accuracy": 0.18760495036840438,
      "num_tokens": 55606273.0,
      "step": 30150
    },
    {
      "entropy": 5.555788230895996,
      "epoch": 2.533417349296366,
      "grad_norm": 1.125,
      "learning_rate": 0.0004355785733425072,
      "loss": 5.2329,
      "mean_token_accuracy": 0.18020462095737458,
      "num_tokens": 55615537.0,
      "step": 30155
    },
    {
      "entropy": 5.455713605880737,
      "epoch": 2.5338374291115313,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00043555759528236186,
      "loss": 5.1233,
      "mean_token_accuracy": 0.18227144628763198,
      "num_tokens": 55624682.0,
      "step": 30160
    },
    {
      "entropy": 5.51131238937378,
      "epoch": 2.534257508926696,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00043553661437802137,
      "loss": 5.1899,
      "mean_token_accuracy": 0.17861048728227616,
      "num_tokens": 55634684.0,
      "step": 30165
    },
    {
      "entropy": 5.599049758911133,
      "epoch": 2.534677588741861,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00043551563062985745,
      "loss": 5.2071,
      "mean_token_accuracy": 0.1912361741065979,
      "num_tokens": 55644141.0,
      "step": 30170
    },
    {
      "entropy": 5.483036041259766,
      "epoch": 2.5350976685570257,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004354946440382418,
      "loss": 5.1947,
      "mean_token_accuracy": 0.19904180318117143,
      "num_tokens": 55653916.0,
      "step": 30175
    },
    {
      "entropy": 5.524238729476929,
      "epoch": 2.5355177483721905,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004354736546035461,
      "loss": 5.3232,
      "mean_token_accuracy": 0.17546216100454332,
      "num_tokens": 55664125.0,
      "step": 30180
    },
    {
      "entropy": 5.494501304626465,
      "epoch": 2.5359378281873557,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004354526623261423,
      "loss": 5.1608,
      "mean_token_accuracy": 0.19005006849765776,
      "num_tokens": 55673647.0,
      "step": 30185
    },
    {
      "entropy": 5.537136697769165,
      "epoch": 2.5363579080025205,
      "grad_norm": 1.140625,
      "learning_rate": 0.00043543166720640223,
      "loss": 5.2237,
      "mean_token_accuracy": 0.1840776413679123,
      "num_tokens": 55683422.0,
      "step": 30190
    },
    {
      "entropy": 5.567773246765137,
      "epoch": 2.5367779878176853,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004354106692446977,
      "loss": 5.1982,
      "mean_token_accuracy": 0.18441236913204193,
      "num_tokens": 55694177.0,
      "step": 30195
    },
    {
      "entropy": 5.525666570663452,
      "epoch": 2.5371980676328505,
      "grad_norm": 1.171875,
      "learning_rate": 0.00043538966844140076,
      "loss": 5.2455,
      "mean_token_accuracy": 0.18847995549440383,
      "num_tokens": 55703534.0,
      "step": 30200
    },
    {
      "entropy": 5.499099636077881,
      "epoch": 2.5376181474480153,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004353686647968835,
      "loss": 5.1433,
      "mean_token_accuracy": 0.18674810379743575,
      "num_tokens": 55712920.0,
      "step": 30205
    },
    {
      "entropy": 5.4816710472106935,
      "epoch": 2.53803822726318,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004353476583115179,
      "loss": 5.1822,
      "mean_token_accuracy": 0.17836027443408967,
      "num_tokens": 55721706.0,
      "step": 30210
    },
    {
      "entropy": 5.563427877426148,
      "epoch": 2.538458307078345,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004353266489856761,
      "loss": 5.2531,
      "mean_token_accuracy": 0.18895183652639388,
      "num_tokens": 55730626.0,
      "step": 30215
    },
    {
      "entropy": 5.559794282913208,
      "epoch": 2.5388783868935096,
      "grad_norm": 1.0625,
      "learning_rate": 0.00043530563681973023,
      "loss": 5.2278,
      "mean_token_accuracy": 0.18621088564395905,
      "num_tokens": 55740044.0,
      "step": 30220
    },
    {
      "entropy": 5.4596044540405275,
      "epoch": 2.539298466708675,
      "grad_norm": 1.25,
      "learning_rate": 0.0004352846218140526,
      "loss": 5.0571,
      "mean_token_accuracy": 0.19070547074079514,
      "num_tokens": 55748907.0,
      "step": 30225
    },
    {
      "entropy": 5.507432985305786,
      "epoch": 2.5397185465238397,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004352636039690154,
      "loss": 5.1672,
      "mean_token_accuracy": 0.18893044888973237,
      "num_tokens": 55758011.0,
      "step": 30230
    },
    {
      "entropy": 5.443060684204101,
      "epoch": 2.5401386263390044,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000435242583284991,
      "loss": 5.1256,
      "mean_token_accuracy": 0.19015419036149978,
      "num_tokens": 55766937.0,
      "step": 30235
    },
    {
      "entropy": 5.5758201599121096,
      "epoch": 2.5405587061541692,
      "grad_norm": 1.28125,
      "learning_rate": 0.00043522155976235177,
      "loss": 5.2496,
      "mean_token_accuracy": 0.1833208054304123,
      "num_tokens": 55776160.0,
      "step": 30240
    },
    {
      "entropy": 5.545102834701538,
      "epoch": 2.540978785969334,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00043520053340147003,
      "loss": 5.2221,
      "mean_token_accuracy": 0.19086914360523224,
      "num_tokens": 55785857.0,
      "step": 30245
    },
    {
      "entropy": 5.535794448852539,
      "epoch": 2.5413988657844993,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004351795042027184,
      "loss": 5.1718,
      "mean_token_accuracy": 0.19211527854204177,
      "num_tokens": 55795062.0,
      "step": 30250
    },
    {
      "entropy": 5.513463306427002,
      "epoch": 2.541818945599664,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00043515847216646933,
      "loss": 5.2437,
      "mean_token_accuracy": 0.1792295292019844,
      "num_tokens": 55805099.0,
      "step": 30255
    },
    {
      "entropy": 5.456079626083374,
      "epoch": 2.542239025414829,
      "grad_norm": 1.078125,
      "learning_rate": 0.00043513743729309533,
      "loss": 5.1482,
      "mean_token_accuracy": 0.18917175531387329,
      "num_tokens": 55815006.0,
      "step": 30260
    },
    {
      "entropy": 5.550273323059082,
      "epoch": 2.5426591052299936,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004351163995829692,
      "loss": 5.1872,
      "mean_token_accuracy": 0.18823999911546707,
      "num_tokens": 55823352.0,
      "step": 30265
    },
    {
      "entropy": 5.514914608001709,
      "epoch": 2.5430791850451584,
      "grad_norm": 1.125,
      "learning_rate": 0.0004350953590364634,
      "loss": 5.1671,
      "mean_token_accuracy": 0.19051527231931686,
      "num_tokens": 55832853.0,
      "step": 30270
    },
    {
      "entropy": 5.625768661499023,
      "epoch": 2.5434992648603236,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00043507431565395076,
      "loss": 5.2751,
      "mean_token_accuracy": 0.17636271044611931,
      "num_tokens": 55842040.0,
      "step": 30275
    },
    {
      "entropy": 5.480972814559936,
      "epoch": 2.5439193446754884,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004350532694358041,
      "loss": 5.1254,
      "mean_token_accuracy": 0.19026660323143005,
      "num_tokens": 55850907.0,
      "step": 30280
    },
    {
      "entropy": 5.389648532867431,
      "epoch": 2.544339424490653,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004350322203823962,
      "loss": 5.1411,
      "mean_token_accuracy": 0.18881702721118926,
      "num_tokens": 55860271.0,
      "step": 30285
    },
    {
      "entropy": 5.573144340515137,
      "epoch": 2.544759504305818,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004350111684940998,
      "loss": 5.2136,
      "mean_token_accuracy": 0.18614331036806106,
      "num_tokens": 55868917.0,
      "step": 30290
    },
    {
      "entropy": 5.505610704421997,
      "epoch": 2.5451795841209828,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004349901137712881,
      "loss": 5.1947,
      "mean_token_accuracy": 0.1902918055653572,
      "num_tokens": 55877781.0,
      "step": 30295
    },
    {
      "entropy": 5.46375880241394,
      "epoch": 2.545599663936148,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004349690562143338,
      "loss": 5.1454,
      "mean_token_accuracy": 0.1949262723326683,
      "num_tokens": 55886829.0,
      "step": 30300
    },
    {
      "entropy": 5.520553684234619,
      "epoch": 2.546019743751313,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004349479958236101,
      "loss": 5.183,
      "mean_token_accuracy": 0.18316598385572433,
      "num_tokens": 55896491.0,
      "step": 30305
    },
    {
      "entropy": 5.575927305221557,
      "epoch": 2.5464398235664776,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00043492693259949,
      "loss": 5.2514,
      "mean_token_accuracy": 0.18494346737861633,
      "num_tokens": 55905616.0,
      "step": 30310
    },
    {
      "entropy": 5.506926965713501,
      "epoch": 2.5468599033816424,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004349058665423466,
      "loss": 5.035,
      "mean_token_accuracy": 0.1961224392056465,
      "num_tokens": 55914175.0,
      "step": 30315
    },
    {
      "entropy": 5.473574018478393,
      "epoch": 2.547279983196807,
      "grad_norm": 1.109375,
      "learning_rate": 0.00043488479765255313,
      "loss": 5.1343,
      "mean_token_accuracy": 0.19165848344564437,
      "num_tokens": 55923182.0,
      "step": 30320
    },
    {
      "entropy": 5.477904891967773,
      "epoch": 2.5477000630119724,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004348637259304828,
      "loss": 5.1365,
      "mean_token_accuracy": 0.18794819265604018,
      "num_tokens": 55932461.0,
      "step": 30325
    },
    {
      "entropy": 5.482801818847657,
      "epoch": 2.548120142827137,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004348426513765089,
      "loss": 5.1685,
      "mean_token_accuracy": 0.18381258100271225,
      "num_tokens": 55941487.0,
      "step": 30330
    },
    {
      "entropy": 5.505146837234497,
      "epoch": 2.548540222642302,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004348215739910048,
      "loss": 5.2351,
      "mean_token_accuracy": 0.1843118041753769,
      "num_tokens": 55950503.0,
      "step": 30335
    },
    {
      "entropy": 5.57849154472351,
      "epoch": 2.548960302457467,
      "grad_norm": 1.09375,
      "learning_rate": 0.00043480049377434373,
      "loss": 5.1988,
      "mean_token_accuracy": 0.18146841377019882,
      "num_tokens": 55960012.0,
      "step": 30340
    },
    {
      "entropy": 5.558857870101929,
      "epoch": 2.5493803822726315,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004347794107268992,
      "loss": 5.1453,
      "mean_token_accuracy": 0.18700069040060044,
      "num_tokens": 55969985.0,
      "step": 30345
    },
    {
      "entropy": 5.455258464813232,
      "epoch": 2.5498004620877968,
      "grad_norm": 1.09375,
      "learning_rate": 0.00043475832484904473,
      "loss": 5.1539,
      "mean_token_accuracy": 0.19157430678606033,
      "num_tokens": 55978760.0,
      "step": 30350
    },
    {
      "entropy": 5.4585436344146725,
      "epoch": 2.5502205419029615,
      "grad_norm": 1.140625,
      "learning_rate": 0.00043473723614115376,
      "loss": 5.1328,
      "mean_token_accuracy": 0.1835753872990608,
      "num_tokens": 55986630.0,
      "step": 30355
    },
    {
      "entropy": 5.568150758743286,
      "epoch": 2.5506406217181263,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00043471614460359985,
      "loss": 5.2455,
      "mean_token_accuracy": 0.1823856309056282,
      "num_tokens": 55995361.0,
      "step": 30360
    },
    {
      "entropy": 5.5567298412323,
      "epoch": 2.5510607015332916,
      "grad_norm": 1.203125,
      "learning_rate": 0.00043469505023675684,
      "loss": 5.2042,
      "mean_token_accuracy": 0.1851331427693367,
      "num_tokens": 56004601.0,
      "step": 30365
    },
    {
      "entropy": 5.512044858932495,
      "epoch": 2.5514807813484564,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004346739530409981,
      "loss": 5.1881,
      "mean_token_accuracy": 0.18556287437677382,
      "num_tokens": 56014426.0,
      "step": 30370
    },
    {
      "entropy": 5.494995021820069,
      "epoch": 2.551900861163621,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00043465285301669753,
      "loss": 5.093,
      "mean_token_accuracy": 0.19320179969072343,
      "num_tokens": 56022943.0,
      "step": 30375
    },
    {
      "entropy": 5.540584516525269,
      "epoch": 2.552320940978786,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004346317501642289,
      "loss": 5.2367,
      "mean_token_accuracy": 0.18688902258872986,
      "num_tokens": 56032802.0,
      "step": 30380
    },
    {
      "entropy": 5.531328010559082,
      "epoch": 2.5527410207939507,
      "grad_norm": 1.0703125,
      "learning_rate": 0.000434610644483966,
      "loss": 5.2689,
      "mean_token_accuracy": 0.17920759618282317,
      "num_tokens": 56043074.0,
      "step": 30385
    },
    {
      "entropy": 5.604576683044433,
      "epoch": 2.553161100609116,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00043458953597628276,
      "loss": 5.2969,
      "mean_token_accuracy": 0.18369821459054947,
      "num_tokens": 56053031.0,
      "step": 30390
    },
    {
      "entropy": 5.4993165016174315,
      "epoch": 2.5535811804242807,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00043456842464155307,
      "loss": 5.1777,
      "mean_token_accuracy": 0.18591511249542236,
      "num_tokens": 56062019.0,
      "step": 30395
    },
    {
      "entropy": 5.4437967300415036,
      "epoch": 2.5540012602394455,
      "grad_norm": 1.0625,
      "learning_rate": 0.00043454731048015084,
      "loss": 5.1671,
      "mean_token_accuracy": 0.18459604531526566,
      "num_tokens": 56071050.0,
      "step": 30400
    },
    {
      "entropy": 5.571620941162109,
      "epoch": 2.5544213400546103,
      "grad_norm": 1.125,
      "learning_rate": 0.0004345261934924502,
      "loss": 5.198,
      "mean_token_accuracy": 0.18528946191072465,
      "num_tokens": 56079911.0,
      "step": 30405
    },
    {
      "entropy": 5.517910003662109,
      "epoch": 2.554841419869775,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00043450507367882515,
      "loss": 5.1283,
      "mean_token_accuracy": 0.19141360521316528,
      "num_tokens": 56089377.0,
      "step": 30410
    },
    {
      "entropy": 5.482418203353882,
      "epoch": 2.5552614996849403,
      "grad_norm": 1.046875,
      "learning_rate": 0.00043448395103964986,
      "loss": 5.1659,
      "mean_token_accuracy": 0.1895528331398964,
      "num_tokens": 56098374.0,
      "step": 30415
    },
    {
      "entropy": 5.449095058441162,
      "epoch": 2.555681579500105,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00043446282557529854,
      "loss": 5.0475,
      "mean_token_accuracy": 0.19309964179992675,
      "num_tokens": 56107965.0,
      "step": 30420
    },
    {
      "entropy": 5.515769529342651,
      "epoch": 2.55610165931527,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00043444169728614536,
      "loss": 5.1901,
      "mean_token_accuracy": 0.19088118821382521,
      "num_tokens": 56116795.0,
      "step": 30425
    },
    {
      "entropy": 5.404253911972046,
      "epoch": 2.5565217391304347,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004344205661725646,
      "loss": 5.1431,
      "mean_token_accuracy": 0.19149255901575088,
      "num_tokens": 56125653.0,
      "step": 30430
    },
    {
      "entropy": 5.468082046508789,
      "epoch": 2.5569418189455995,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00043439943223493065,
      "loss": 5.214,
      "mean_token_accuracy": 0.1869577243924141,
      "num_tokens": 56135451.0,
      "step": 30435
    },
    {
      "entropy": 5.50917615890503,
      "epoch": 2.5573618987607647,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00043437829547361776,
      "loss": 5.1261,
      "mean_token_accuracy": 0.18682323694229125,
      "num_tokens": 56144454.0,
      "step": 30440
    },
    {
      "entropy": 5.543835973739624,
      "epoch": 2.5577819785759295,
      "grad_norm": 1.109375,
      "learning_rate": 0.00043435715588900045,
      "loss": 5.2475,
      "mean_token_accuracy": 0.1778271824121475,
      "num_tokens": 56154415.0,
      "step": 30445
    },
    {
      "entropy": 5.517132663726807,
      "epoch": 2.5582020583910943,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004343360134814532,
      "loss": 5.1447,
      "mean_token_accuracy": 0.19460151791572572,
      "num_tokens": 56163375.0,
      "step": 30450
    },
    {
      "entropy": 5.523903751373291,
      "epoch": 2.558622138206259,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004343148682513506,
      "loss": 5.1572,
      "mean_token_accuracy": 0.18758442550897597,
      "num_tokens": 56172282.0,
      "step": 30455
    },
    {
      "entropy": 5.492652082443238,
      "epoch": 2.559042218021424,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000434293720199067,
      "loss": 5.2096,
      "mean_token_accuracy": 0.17500833719968795,
      "num_tokens": 56181450.0,
      "step": 30460
    },
    {
      "entropy": 5.57803750038147,
      "epoch": 2.559462297836589,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004342725693249772,
      "loss": 5.2576,
      "mean_token_accuracy": 0.18270053565502167,
      "num_tokens": 56190837.0,
      "step": 30465
    },
    {
      "entropy": 5.605830812454224,
      "epoch": 2.559882377651754,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00043425141562945585,
      "loss": 5.1812,
      "mean_token_accuracy": 0.19086648225784303,
      "num_tokens": 56200253.0,
      "step": 30470
    },
    {
      "entropy": 5.518631839752198,
      "epoch": 2.5603024574669186,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004342302591128777,
      "loss": 5.1445,
      "mean_token_accuracy": 0.1917570099234581,
      "num_tokens": 56209779.0,
      "step": 30475
    },
    {
      "entropy": 5.45139708518982,
      "epoch": 2.5607225372820834,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004342090997756175,
      "loss": 5.1686,
      "mean_token_accuracy": 0.19412333518266678,
      "num_tokens": 56218987.0,
      "step": 30480
    },
    {
      "entropy": 5.5333188533782955,
      "epoch": 2.561142617097248,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004341879376180501,
      "loss": 5.176,
      "mean_token_accuracy": 0.17995717525482177,
      "num_tokens": 56228155.0,
      "step": 30485
    },
    {
      "entropy": 5.531607341766358,
      "epoch": 2.5615626969124135,
      "grad_norm": 1.0,
      "learning_rate": 0.0004341667726405503,
      "loss": 5.2212,
      "mean_token_accuracy": 0.1899396613240242,
      "num_tokens": 56237807.0,
      "step": 30490
    },
    {
      "entropy": 5.505568170547486,
      "epoch": 2.5619827767275782,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004341456048434932,
      "loss": 5.2,
      "mean_token_accuracy": 0.1869048669934273,
      "num_tokens": 56247616.0,
      "step": 30495
    },
    {
      "entropy": 5.423261880874634,
      "epoch": 2.562402856542743,
      "grad_norm": 1.125,
      "learning_rate": 0.0004341244342272536,
      "loss": 5.1121,
      "mean_token_accuracy": 0.19179700911045075,
      "num_tokens": 56256586.0,
      "step": 30500
    },
    {
      "entropy": 5.536703586578369,
      "epoch": 2.5628229363579083,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004341032607922065,
      "loss": 5.2274,
      "mean_token_accuracy": 0.18869781941175462,
      "num_tokens": 56266711.0,
      "step": 30505
    },
    {
      "entropy": 5.577420091629028,
      "epoch": 2.563243016173073,
      "grad_norm": 1.109375,
      "learning_rate": 0.00043408208453872717,
      "loss": 5.1933,
      "mean_token_accuracy": 0.18505366146564484,
      "num_tokens": 56276650.0,
      "step": 30510
    },
    {
      "entropy": 5.531051588058472,
      "epoch": 2.563663095988238,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00043406090546719054,
      "loss": 5.1938,
      "mean_token_accuracy": 0.1871090278029442,
      "num_tokens": 56285364.0,
      "step": 30515
    },
    {
      "entropy": 5.572980260848999,
      "epoch": 2.5640831758034026,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004340397235779719,
      "loss": 5.2145,
      "mean_token_accuracy": 0.18858835399150847,
      "num_tokens": 56295243.0,
      "step": 30520
    },
    {
      "entropy": 5.603300428390503,
      "epoch": 2.5645032556185674,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004340185388714465,
      "loss": 5.2014,
      "mean_token_accuracy": 0.1853489637374878,
      "num_tokens": 56305052.0,
      "step": 30525
    },
    {
      "entropy": 5.491787672042847,
      "epoch": 2.5649233354337326,
      "grad_norm": 1.125,
      "learning_rate": 0.0004339973513479895,
      "loss": 5.1785,
      "mean_token_accuracy": 0.18497277349233626,
      "num_tokens": 56314213.0,
      "step": 30530
    },
    {
      "entropy": 5.568684244155884,
      "epoch": 2.5653434152488974,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004339761610079763,
      "loss": 5.2527,
      "mean_token_accuracy": 0.18332169502973555,
      "num_tokens": 56324068.0,
      "step": 30535
    },
    {
      "entropy": 5.540251922607422,
      "epoch": 2.565763495064062,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004339549678517823,
      "loss": 5.1292,
      "mean_token_accuracy": 0.18547285348176956,
      "num_tokens": 56332423.0,
      "step": 30540
    },
    {
      "entropy": 5.458168363571167,
      "epoch": 2.566183574879227,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004339337718797828,
      "loss": 5.1621,
      "mean_token_accuracy": 0.18933589905500411,
      "num_tokens": 56341725.0,
      "step": 30545
    },
    {
      "entropy": 5.529430913925171,
      "epoch": 2.566603654694392,
      "grad_norm": 1.234375,
      "learning_rate": 0.00043391257309235347,
      "loss": 5.3199,
      "mean_token_accuracy": 0.17914132177829742,
      "num_tokens": 56351079.0,
      "step": 30550
    },
    {
      "entropy": 5.524666976928711,
      "epoch": 2.567023734509557,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00043389137148986973,
      "loss": 5.0935,
      "mean_token_accuracy": 0.18982401937246324,
      "num_tokens": 56361007.0,
      "step": 30555
    },
    {
      "entropy": 5.5907755374908445,
      "epoch": 2.567443814324722,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004338701670727072,
      "loss": 5.3205,
      "mean_token_accuracy": 0.1783326283097267,
      "num_tokens": 56370881.0,
      "step": 30560
    },
    {
      "entropy": 5.613198280334473,
      "epoch": 2.5678638941398866,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004338489598412414,
      "loss": 5.2199,
      "mean_token_accuracy": 0.18669498711824417,
      "num_tokens": 56380148.0,
      "step": 30565
    },
    {
      "entropy": 5.4834630489349365,
      "epoch": 2.5682839739550514,
      "grad_norm": 1.125,
      "learning_rate": 0.00043382774979584804,
      "loss": 5.1949,
      "mean_token_accuracy": 0.18154257237911225,
      "num_tokens": 56388931.0,
      "step": 30570
    },
    {
      "entropy": 5.434946537017822,
      "epoch": 2.568704053770216,
      "grad_norm": 1.109375,
      "learning_rate": 0.000433806536936903,
      "loss": 5.1435,
      "mean_token_accuracy": 0.18382776230573655,
      "num_tokens": 56398249.0,
      "step": 30575
    },
    {
      "entropy": 5.524672412872315,
      "epoch": 2.5691241335853814,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004337853212647819,
      "loss": 5.1864,
      "mean_token_accuracy": 0.1901516616344452,
      "num_tokens": 56406761.0,
      "step": 30580
    },
    {
      "entropy": 5.580526971817017,
      "epoch": 2.569544213400546,
      "grad_norm": 1.40625,
      "learning_rate": 0.00043376410277986047,
      "loss": 5.2791,
      "mean_token_accuracy": 0.1770018681883812,
      "num_tokens": 56416460.0,
      "step": 30585
    },
    {
      "entropy": 5.485388708114624,
      "epoch": 2.569964293215711,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004337428814825148,
      "loss": 5.2537,
      "mean_token_accuracy": 0.18627409785985946,
      "num_tokens": 56425867.0,
      "step": 30590
    },
    {
      "entropy": 5.49087438583374,
      "epoch": 2.5703843730308757,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004337216573731207,
      "loss": 5.0778,
      "mean_token_accuracy": 0.18904729783535004,
      "num_tokens": 56434719.0,
      "step": 30595
    },
    {
      "entropy": 5.525493717193603,
      "epoch": 2.5708044528460405,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004337004304520542,
      "loss": 5.1491,
      "mean_token_accuracy": 0.19119103550910949,
      "num_tokens": 56444260.0,
      "step": 30600
    },
    {
      "entropy": 5.517488241195679,
      "epoch": 2.5712245326612058,
      "grad_norm": 1.125,
      "learning_rate": 0.0004336792007196913,
      "loss": 5.1692,
      "mean_token_accuracy": 0.19265806972980498,
      "num_tokens": 56453662.0,
      "step": 30605
    },
    {
      "entropy": 5.574575567245484,
      "epoch": 2.5716446124763706,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00043365796817640797,
      "loss": 5.1947,
      "mean_token_accuracy": 0.19081658720970154,
      "num_tokens": 56462521.0,
      "step": 30610
    },
    {
      "entropy": 5.447072601318359,
      "epoch": 2.5720646922915353,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00043363673282258055,
      "loss": 5.1426,
      "mean_token_accuracy": 0.18875426948070526,
      "num_tokens": 56471236.0,
      "step": 30615
    },
    {
      "entropy": 5.513901996612549,
      "epoch": 2.5724847721067,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004336154946585851,
      "loss": 5.2089,
      "mean_token_accuracy": 0.18929343819618225,
      "num_tokens": 56481094.0,
      "step": 30620
    },
    {
      "entropy": 5.482191896438598,
      "epoch": 2.572904851921865,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004335942536847977,
      "loss": 5.112,
      "mean_token_accuracy": 0.1907144844532013,
      "num_tokens": 56490997.0,
      "step": 30625
    },
    {
      "entropy": 5.566748762130738,
      "epoch": 2.57332493173703,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004335730099015949,
      "loss": 5.2185,
      "mean_token_accuracy": 0.18360241502523422,
      "num_tokens": 56500118.0,
      "step": 30630
    },
    {
      "entropy": 5.598846006393432,
      "epoch": 2.573745011552195,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004335517633093528,
      "loss": 5.3099,
      "mean_token_accuracy": 0.1762065514922142,
      "num_tokens": 56509952.0,
      "step": 30635
    },
    {
      "entropy": 5.5550366878509525,
      "epoch": 2.5741650913673597,
      "grad_norm": 1.15625,
      "learning_rate": 0.00043353051390844787,
      "loss": 5.1519,
      "mean_token_accuracy": 0.19180550128221513,
      "num_tokens": 56518637.0,
      "step": 30640
    },
    {
      "entropy": 5.5070943355560305,
      "epoch": 2.574585171182525,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004335092616992565,
      "loss": 5.2482,
      "mean_token_accuracy": 0.18046484887599945,
      "num_tokens": 56529152.0,
      "step": 30645
    },
    {
      "entropy": 5.522659635543823,
      "epoch": 2.5750052509976893,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00043348800668215526,
      "loss": 5.1016,
      "mean_token_accuracy": 0.19492861479520798,
      "num_tokens": 56538724.0,
      "step": 30650
    },
    {
      "entropy": 5.519808340072632,
      "epoch": 2.5754253308128545,
      "grad_norm": 1.140625,
      "learning_rate": 0.00043346674885752056,
      "loss": 5.2598,
      "mean_token_accuracy": 0.1791925385594368,
      "num_tokens": 56547856.0,
      "step": 30655
    },
    {
      "entropy": 5.59095139503479,
      "epoch": 2.5758454106280193,
      "grad_norm": 1.140625,
      "learning_rate": 0.00043344548822572896,
      "loss": 5.2244,
      "mean_token_accuracy": 0.18618252873420715,
      "num_tokens": 56556705.0,
      "step": 30660
    },
    {
      "entropy": 5.613050556182861,
      "epoch": 2.576265490443184,
      "grad_norm": 1.15625,
      "learning_rate": 0.00043342422478715717,
      "loss": 5.2853,
      "mean_token_accuracy": 0.1819715604186058,
      "num_tokens": 56565945.0,
      "step": 30665
    },
    {
      "entropy": 5.51687479019165,
      "epoch": 2.5766855702583493,
      "grad_norm": 1.25,
      "learning_rate": 0.0004334029585421818,
      "loss": 5.1749,
      "mean_token_accuracy": 0.18692291378974915,
      "num_tokens": 56574950.0,
      "step": 30670
    },
    {
      "entropy": 5.473475980758667,
      "epoch": 2.577105650073514,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004333816894911795,
      "loss": 5.1639,
      "mean_token_accuracy": 0.18168231844902039,
      "num_tokens": 56584670.0,
      "step": 30675
    },
    {
      "entropy": 5.520859003067017,
      "epoch": 2.577525729888679,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00043336041763452726,
      "loss": 5.1665,
      "mean_token_accuracy": 0.18315354883670806,
      "num_tokens": 56594776.0,
      "step": 30680
    },
    {
      "entropy": 5.579127407073974,
      "epoch": 2.5779458097038437,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004333391429726016,
      "loss": 5.1886,
      "mean_token_accuracy": 0.18612463027238846,
      "num_tokens": 56605302.0,
      "step": 30685
    },
    {
      "entropy": 5.565712881088257,
      "epoch": 2.5783658895190085,
      "grad_norm": 1.234375,
      "learning_rate": 0.00043331786550577974,
      "loss": 5.2219,
      "mean_token_accuracy": 0.17601052671670914,
      "num_tokens": 56614388.0,
      "step": 30690
    },
    {
      "entropy": 5.445408296585083,
      "epoch": 2.5787859693341737,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00043329658523443834,
      "loss": 5.1091,
      "mean_token_accuracy": 0.19393621385097504,
      "num_tokens": 56623349.0,
      "step": 30695
    },
    {
      "entropy": 5.451387405395508,
      "epoch": 2.5792060491493385,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00043327530215895443,
      "loss": 5.1047,
      "mean_token_accuracy": 0.18892927318811417,
      "num_tokens": 56632503.0,
      "step": 30700
    },
    {
      "entropy": 5.5531768798828125,
      "epoch": 2.5796261289645033,
      "grad_norm": 1.0625,
      "learning_rate": 0.00043325401627970506,
      "loss": 5.2243,
      "mean_token_accuracy": 0.18752769827842714,
      "num_tokens": 56642055.0,
      "step": 30705
    },
    {
      "entropy": 5.476781702041626,
      "epoch": 2.580046208779668,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004332327275970672,
      "loss": 5.0995,
      "mean_token_accuracy": 0.19201021939516066,
      "num_tokens": 56651071.0,
      "step": 30710
    },
    {
      "entropy": 5.619375133514405,
      "epoch": 2.580466288594833,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00043321143611141816,
      "loss": 5.3084,
      "mean_token_accuracy": 0.1782824471592903,
      "num_tokens": 56662091.0,
      "step": 30715
    },
    {
      "entropy": 5.5708229541778564,
      "epoch": 2.580886368409998,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00043319014182313496,
      "loss": 5.2368,
      "mean_token_accuracy": 0.1842041239142418,
      "num_tokens": 56671261.0,
      "step": 30720
    },
    {
      "entropy": 5.48547396659851,
      "epoch": 2.581306448225163,
      "grad_norm": 1.15625,
      "learning_rate": 0.00043316884473259485,
      "loss": 5.1318,
      "mean_token_accuracy": 0.1891549825668335,
      "num_tokens": 56680906.0,
      "step": 30725
    },
    {
      "entropy": 5.555780267715454,
      "epoch": 2.5817265280403277,
      "grad_norm": 1.15625,
      "learning_rate": 0.00043314754484017503,
      "loss": 5.2366,
      "mean_token_accuracy": 0.18437355905771255,
      "num_tokens": 56689933.0,
      "step": 30730
    },
    {
      "entropy": 5.518023252487183,
      "epoch": 2.5821466078554924,
      "grad_norm": 1.125,
      "learning_rate": 0.000433126242146253,
      "loss": 5.2254,
      "mean_token_accuracy": 0.18642848283052443,
      "num_tokens": 56699065.0,
      "step": 30735
    },
    {
      "entropy": 5.527374315261841,
      "epoch": 2.5825666876706572,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000433104936651206,
      "loss": 5.2285,
      "mean_token_accuracy": 0.18672621846199036,
      "num_tokens": 56707986.0,
      "step": 30740
    },
    {
      "entropy": 5.648441028594971,
      "epoch": 2.5829867674858225,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004330836283554114,
      "loss": 5.2229,
      "mean_token_accuracy": 0.1840919941663742,
      "num_tokens": 56716190.0,
      "step": 30745
    },
    {
      "entropy": 5.524356698989868,
      "epoch": 2.5834068473009872,
      "grad_norm": 1.140625,
      "learning_rate": 0.00043306231725924677,
      "loss": 5.1502,
      "mean_token_accuracy": 0.19233141243457794,
      "num_tokens": 56725097.0,
      "step": 30750
    },
    {
      "entropy": 5.520098400115967,
      "epoch": 2.583826927116152,
      "grad_norm": 1.28125,
      "learning_rate": 0.00043304100336308954,
      "loss": 5.243,
      "mean_token_accuracy": 0.18152838796377183,
      "num_tokens": 56734440.0,
      "step": 30755
    },
    {
      "entropy": 5.5877519130706785,
      "epoch": 2.584247006931317,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00043301968666731734,
      "loss": 5.2935,
      "mean_token_accuracy": 0.18458796441555023,
      "num_tokens": 56744521.0,
      "step": 30760
    },
    {
      "entropy": 5.434829902648926,
      "epoch": 2.5846670867464816,
      "grad_norm": 1.125,
      "learning_rate": 0.0004329983671723078,
      "loss": 5.1255,
      "mean_token_accuracy": 0.19039041996002198,
      "num_tokens": 56754134.0,
      "step": 30765
    },
    {
      "entropy": 5.463501834869385,
      "epoch": 2.585087166561647,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004329770448784384,
      "loss": 5.0766,
      "mean_token_accuracy": 0.19357369989156722,
      "num_tokens": 56762750.0,
      "step": 30770
    },
    {
      "entropy": 5.571072578430176,
      "epoch": 2.5855072463768116,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004329557197860872,
      "loss": 5.2365,
      "mean_token_accuracy": 0.18252337276935576,
      "num_tokens": 56771954.0,
      "step": 30775
    },
    {
      "entropy": 5.524416732788086,
      "epoch": 2.5859273261919764,
      "grad_norm": 1.109375,
      "learning_rate": 0.00043293439189563167,
      "loss": 5.1425,
      "mean_token_accuracy": 0.1968068301677704,
      "num_tokens": 56780191.0,
      "step": 30780
    },
    {
      "entropy": 5.468764019012451,
      "epoch": 2.586347406007141,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004329130612074497,
      "loss": 5.2157,
      "mean_token_accuracy": 0.17977382093667985,
      "num_tokens": 56790295.0,
      "step": 30785
    },
    {
      "entropy": 5.483250761032105,
      "epoch": 2.586767485822306,
      "grad_norm": 1.125,
      "learning_rate": 0.0004328917277219191,
      "loss": 5.0542,
      "mean_token_accuracy": 0.19256909489631652,
      "num_tokens": 56798601.0,
      "step": 30790
    },
    {
      "entropy": 5.406556129455566,
      "epoch": 2.587187565637471,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00043287039143941785,
      "loss": 5.0325,
      "mean_token_accuracy": 0.19216762632131576,
      "num_tokens": 56808499.0,
      "step": 30795
    },
    {
      "entropy": 5.483097076416016,
      "epoch": 2.587607645452636,
      "grad_norm": 1.125,
      "learning_rate": 0.000432849052360324,
      "loss": 5.1781,
      "mean_token_accuracy": 0.18428063541650772,
      "num_tokens": 56818073.0,
      "step": 30800
    },
    {
      "entropy": 5.478659343719483,
      "epoch": 2.588027725267801,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004328277104850154,
      "loss": 5.1187,
      "mean_token_accuracy": 0.19104427397251128,
      "num_tokens": 56828190.0,
      "step": 30805
    },
    {
      "entropy": 5.553390216827393,
      "epoch": 2.588447805082966,
      "grad_norm": 1.25,
      "learning_rate": 0.00043280636581387023,
      "loss": 5.1751,
      "mean_token_accuracy": 0.18797917664051056,
      "num_tokens": 56837032.0,
      "step": 30810
    },
    {
      "entropy": 5.4357363224029545,
      "epoch": 2.588867884898131,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004327850183472665,
      "loss": 5.0576,
      "mean_token_accuracy": 0.20539725869894027,
      "num_tokens": 56846138.0,
      "step": 30815
    },
    {
      "entropy": 5.470719575881958,
      "epoch": 2.5892879647132956,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004327636680855824,
      "loss": 5.1868,
      "mean_token_accuracy": 0.18760330826044083,
      "num_tokens": 56856336.0,
      "step": 30820
    },
    {
      "entropy": 5.523378944396972,
      "epoch": 2.5897080445284604,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00043274231502919626,
      "loss": 5.1678,
      "mean_token_accuracy": 0.18023600578308105,
      "num_tokens": 56865555.0,
      "step": 30825
    },
    {
      "entropy": 5.487934923171997,
      "epoch": 2.590128124343625,
      "grad_norm": 1.0625,
      "learning_rate": 0.00043272095917848614,
      "loss": 5.1512,
      "mean_token_accuracy": 0.1860804960131645,
      "num_tokens": 56875194.0,
      "step": 30830
    },
    {
      "entropy": 5.530652952194214,
      "epoch": 2.5905482041587904,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004326996005338305,
      "loss": 5.2301,
      "mean_token_accuracy": 0.1816500172019005,
      "num_tokens": 56884571.0,
      "step": 30835
    },
    {
      "entropy": 5.598943185806275,
      "epoch": 2.590968283973955,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004326782390956076,
      "loss": 5.2248,
      "mean_token_accuracy": 0.18915073573589325,
      "num_tokens": 56893833.0,
      "step": 30840
    },
    {
      "entropy": 5.470236921310425,
      "epoch": 2.59138836378912,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004326568748641959,
      "loss": 5.1871,
      "mean_token_accuracy": 0.1904459998011589,
      "num_tokens": 56903382.0,
      "step": 30845
    },
    {
      "entropy": 5.3941178798675535,
      "epoch": 2.5918084436042848,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004326355078399738,
      "loss": 5.0925,
      "mean_token_accuracy": 0.18878293484449388,
      "num_tokens": 56912317.0,
      "step": 30850
    },
    {
      "entropy": 5.509728956222534,
      "epoch": 2.5922285234194495,
      "grad_norm": 1.25,
      "learning_rate": 0.00043261413802331993,
      "loss": 5.0553,
      "mean_token_accuracy": 0.19022527635097503,
      "num_tokens": 56921596.0,
      "step": 30855
    },
    {
      "entropy": 5.451567125320435,
      "epoch": 2.5926486032346148,
      "grad_norm": 1.296875,
      "learning_rate": 0.00043259276541461275,
      "loss": 5.0818,
      "mean_token_accuracy": 0.19151041507720948,
      "num_tokens": 56930061.0,
      "step": 30860
    },
    {
      "entropy": 5.550184869766236,
      "epoch": 2.5930686830497796,
      "grad_norm": 1.21875,
      "learning_rate": 0.00043257139001423085,
      "loss": 5.2376,
      "mean_token_accuracy": 0.18742966800928115,
      "num_tokens": 56938622.0,
      "step": 30865
    },
    {
      "entropy": 5.514289522171021,
      "epoch": 2.5934887628649443,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00043255001182255294,
      "loss": 5.1624,
      "mean_token_accuracy": 0.18814336210489274,
      "num_tokens": 56947379.0,
      "step": 30870
    },
    {
      "entropy": 5.501409244537354,
      "epoch": 2.593908842680109,
      "grad_norm": 1.109375,
      "learning_rate": 0.00043252863083995764,
      "loss": 5.2096,
      "mean_token_accuracy": 0.18396289944648742,
      "num_tokens": 56956572.0,
      "step": 30875
    },
    {
      "entropy": 5.5362626075744625,
      "epoch": 2.594328922495274,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004325072470668238,
      "loss": 5.2454,
      "mean_token_accuracy": 0.1810558781027794,
      "num_tokens": 56966038.0,
      "step": 30880
    },
    {
      "entropy": 5.587355089187622,
      "epoch": 2.594749002310439,
      "grad_norm": 1.125,
      "learning_rate": 0.00043248586050353017,
      "loss": 5.2105,
      "mean_token_accuracy": 0.18523591458797456,
      "num_tokens": 56975287.0,
      "step": 30885
    },
    {
      "entropy": 5.468898725509644,
      "epoch": 2.595169082125604,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00043246447115045564,
      "loss": 5.1456,
      "mean_token_accuracy": 0.18643122166395187,
      "num_tokens": 56984798.0,
      "step": 30890
    },
    {
      "entropy": 5.420856523513794,
      "epoch": 2.5955891619407687,
      "grad_norm": 1.171875,
      "learning_rate": 0.000432443079007979,
      "loss": 5.1725,
      "mean_token_accuracy": 0.18259409964084625,
      "num_tokens": 56993497.0,
      "step": 30895
    },
    {
      "entropy": 5.513040828704834,
      "epoch": 2.5960092417559335,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00043242168407647943,
      "loss": 5.1026,
      "mean_token_accuracy": 0.1908549875020981,
      "num_tokens": 57002667.0,
      "step": 30900
    },
    {
      "entropy": 5.546390438079834,
      "epoch": 2.5964293215710983,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00043240028635633566,
      "loss": 5.1508,
      "mean_token_accuracy": 0.1886509969830513,
      "num_tokens": 57011051.0,
      "step": 30905
    },
    {
      "entropy": 5.50711727142334,
      "epoch": 2.5968494013862635,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004323788858479269,
      "loss": 5.1909,
      "mean_token_accuracy": 0.1905672252178192,
      "num_tokens": 57020777.0,
      "step": 30910
    },
    {
      "entropy": 5.534630870819091,
      "epoch": 2.5972694812014283,
      "grad_norm": 1.125,
      "learning_rate": 0.00043235748255163225,
      "loss": 5.212,
      "mean_token_accuracy": 0.1858745127916336,
      "num_tokens": 57030009.0,
      "step": 30915
    },
    {
      "entropy": 5.523935794830322,
      "epoch": 2.597689561016593,
      "grad_norm": 1.171875,
      "learning_rate": 0.00043233607646783084,
      "loss": 5.1114,
      "mean_token_accuracy": 0.19237939417362213,
      "num_tokens": 57039128.0,
      "step": 30920
    },
    {
      "entropy": 5.389064979553223,
      "epoch": 2.598109640831758,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004323146675969018,
      "loss": 5.1325,
      "mean_token_accuracy": 0.19352680444717407,
      "num_tokens": 57048067.0,
      "step": 30925
    },
    {
      "entropy": 5.469068431854248,
      "epoch": 2.5985297206469227,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004322932559392244,
      "loss": 5.1636,
      "mean_token_accuracy": 0.1910024553537369,
      "num_tokens": 57057494.0,
      "step": 30930
    },
    {
      "entropy": 5.5181457042694095,
      "epoch": 2.598949800462088,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00043227184149517803,
      "loss": 5.1958,
      "mean_token_accuracy": 0.19010515362024308,
      "num_tokens": 57067259.0,
      "step": 30935
    },
    {
      "entropy": 5.438419675827026,
      "epoch": 2.5993698802772527,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00043225042426514197,
      "loss": 5.1058,
      "mean_token_accuracy": 0.19481806457042694,
      "num_tokens": 57076650.0,
      "step": 30940
    },
    {
      "entropy": 5.539617967605591,
      "epoch": 2.5997899600924175,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004322290042494956,
      "loss": 5.2598,
      "mean_token_accuracy": 0.17913757413625717,
      "num_tokens": 57087789.0,
      "step": 30945
    },
    {
      "entropy": 5.4568370342254635,
      "epoch": 2.6002100399075827,
      "grad_norm": 1.109375,
      "learning_rate": 0.00043220758144861836,
      "loss": 5.03,
      "mean_token_accuracy": 0.19456931054592133,
      "num_tokens": 57096112.0,
      "step": 30950
    },
    {
      "entropy": 5.456935834884644,
      "epoch": 2.600630119722747,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004321861558628898,
      "loss": 5.1467,
      "mean_token_accuracy": 0.18871685415506362,
      "num_tokens": 57105342.0,
      "step": 30955
    },
    {
      "entropy": 5.489228868484497,
      "epoch": 2.6010501995379123,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00043216472749268937,
      "loss": 5.1022,
      "mean_token_accuracy": 0.18674609214067459,
      "num_tokens": 57114137.0,
      "step": 30960
    },
    {
      "entropy": 5.4588991641998295,
      "epoch": 2.601470279353077,
      "grad_norm": 1.140625,
      "learning_rate": 0.00043214329633839676,
      "loss": 5.1008,
      "mean_token_accuracy": 0.1896684616804123,
      "num_tokens": 57122494.0,
      "step": 30965
    },
    {
      "entropy": 5.498457622528076,
      "epoch": 2.601890359168242,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004321218624003916,
      "loss": 5.2703,
      "mean_token_accuracy": 0.1770902931690216,
      "num_tokens": 57131546.0,
      "step": 30970
    },
    {
      "entropy": 5.50720853805542,
      "epoch": 2.602310438983407,
      "grad_norm": 1.109375,
      "learning_rate": 0.00043210042567905357,
      "loss": 5.1004,
      "mean_token_accuracy": 0.19787617027759552,
      "num_tokens": 57140356.0,
      "step": 30975
    },
    {
      "entropy": 5.483405256271363,
      "epoch": 2.602730518798572,
      "grad_norm": 1.078125,
      "learning_rate": 0.00043207898617476226,
      "loss": 5.1388,
      "mean_token_accuracy": 0.1927089586853981,
      "num_tokens": 57149415.0,
      "step": 30980
    },
    {
      "entropy": 5.423073577880859,
      "epoch": 2.6031505986137367,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004320575438878977,
      "loss": 5.2444,
      "mean_token_accuracy": 0.18724982738494872,
      "num_tokens": 57159330.0,
      "step": 30985
    },
    {
      "entropy": 5.418785429000854,
      "epoch": 2.6035706784289014,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004320360988188396,
      "loss": 5.1112,
      "mean_token_accuracy": 0.19583241194486617,
      "num_tokens": 57168950.0,
      "step": 30990
    },
    {
      "entropy": 5.562031078338623,
      "epoch": 2.6039907582440662,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004320146509679679,
      "loss": 5.1749,
      "mean_token_accuracy": 0.18444464802742006,
      "num_tokens": 57178094.0,
      "step": 30995
    },
    {
      "entropy": 5.556294870376587,
      "epoch": 2.6044108380592315,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004319932003356625,
      "loss": 5.1788,
      "mean_token_accuracy": 0.1941351518034935,
      "num_tokens": 57187179.0,
      "step": 31000
    },
    {
      "entropy": 5.482481002807617,
      "epoch": 2.6048309178743962,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004319717469223034,
      "loss": 5.0796,
      "mean_token_accuracy": 0.18961135298013687,
      "num_tokens": 57195933.0,
      "step": 31005
    },
    {
      "entropy": 5.517612934112549,
      "epoch": 2.605250997689561,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00043195029072827057,
      "loss": 5.2215,
      "mean_token_accuracy": 0.18126191198825836,
      "num_tokens": 57205582.0,
      "step": 31010
    },
    {
      "entropy": 5.5099423885345455,
      "epoch": 2.605671077504726,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004319288317539442,
      "loss": 5.246,
      "mean_token_accuracy": 0.1892160579562187,
      "num_tokens": 57214178.0,
      "step": 31015
    },
    {
      "entropy": 5.4801712989807125,
      "epoch": 2.6060911573198906,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00043190736999970436,
      "loss": 5.075,
      "mean_token_accuracy": 0.190556363761425,
      "num_tokens": 57223646.0,
      "step": 31020
    },
    {
      "entropy": 5.461994600296021,
      "epoch": 2.606511237135056,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004318859054659313,
      "loss": 5.1639,
      "mean_token_accuracy": 0.18457725495100022,
      "num_tokens": 57232355.0,
      "step": 31025
    },
    {
      "entropy": 5.638788414001465,
      "epoch": 2.6069313169502206,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00043186443815300515,
      "loss": 5.3598,
      "mean_token_accuracy": 0.18325842320919036,
      "num_tokens": 57241429.0,
      "step": 31030
    },
    {
      "entropy": 5.651486873626709,
      "epoch": 2.6073513967653854,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004318429680613063,
      "loss": 5.2717,
      "mean_token_accuracy": 0.18895856887102128,
      "num_tokens": 57250280.0,
      "step": 31035
    },
    {
      "entropy": 5.462978076934815,
      "epoch": 2.60777147658055,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00043182149519121506,
      "loss": 5.119,
      "mean_token_accuracy": 0.19427376687526704,
      "num_tokens": 57259469.0,
      "step": 31040
    },
    {
      "entropy": 5.440052938461304,
      "epoch": 2.608191556395715,
      "grad_norm": 1.15625,
      "learning_rate": 0.00043180001954311174,
      "loss": 5.1854,
      "mean_token_accuracy": 0.18484414517879486,
      "num_tokens": 57269081.0,
      "step": 31045
    },
    {
      "entropy": 5.5504563331604,
      "epoch": 2.60861163621088,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004317785411173768,
      "loss": 5.215,
      "mean_token_accuracy": 0.1852765515446663,
      "num_tokens": 57278744.0,
      "step": 31050
    },
    {
      "entropy": 5.572060203552246,
      "epoch": 2.609031716026045,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00043175705991439073,
      "loss": 5.2185,
      "mean_token_accuracy": 0.18530469238758088,
      "num_tokens": 57287041.0,
      "step": 31055
    },
    {
      "entropy": 5.543928623199463,
      "epoch": 2.60945179584121,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004317355759345341,
      "loss": 5.1828,
      "mean_token_accuracy": 0.18777253925800325,
      "num_tokens": 57296897.0,
      "step": 31060
    },
    {
      "entropy": 5.461090755462647,
      "epoch": 2.6098718756563746,
      "grad_norm": 1.234375,
      "learning_rate": 0.00043171408917818744,
      "loss": 5.0895,
      "mean_token_accuracy": 0.194972525537014,
      "num_tokens": 57306821.0,
      "step": 31065
    },
    {
      "entropy": 5.50712218284607,
      "epoch": 2.6102919554715394,
      "grad_norm": 1.15625,
      "learning_rate": 0.00043169259964573136,
      "loss": 5.172,
      "mean_token_accuracy": 0.1905507206916809,
      "num_tokens": 57315341.0,
      "step": 31070
    },
    {
      "entropy": 5.61094651222229,
      "epoch": 2.6107120352867046,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004316711073375466,
      "loss": 5.2953,
      "mean_token_accuracy": 0.17852546721696855,
      "num_tokens": 57325250.0,
      "step": 31075
    },
    {
      "entropy": 5.596871280670166,
      "epoch": 2.6111321151018694,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004316496122540138,
      "loss": 5.223,
      "mean_token_accuracy": 0.18692165166139602,
      "num_tokens": 57333889.0,
      "step": 31080
    },
    {
      "entropy": 5.54134578704834,
      "epoch": 2.611552194917034,
      "grad_norm": 1.25,
      "learning_rate": 0.0004316281143955138,
      "loss": 5.2473,
      "mean_token_accuracy": 0.17749307602643966,
      "num_tokens": 57342779.0,
      "step": 31085
    },
    {
      "entropy": 5.535732078552246,
      "epoch": 2.6119722747321994,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004316066137624274,
      "loss": 5.1586,
      "mean_token_accuracy": 0.19258043467998504,
      "num_tokens": 57351955.0,
      "step": 31090
    },
    {
      "entropy": 5.536253976821899,
      "epoch": 2.6123923545473637,
      "grad_norm": 1.28125,
      "learning_rate": 0.00043158511035513547,
      "loss": 5.2059,
      "mean_token_accuracy": 0.18777984082698823,
      "num_tokens": 57360540.0,
      "step": 31095
    },
    {
      "entropy": 5.4605199813842775,
      "epoch": 2.612812434362529,
      "grad_norm": 1.2734375,
      "learning_rate": 0.000431563604174019,
      "loss": 5.1437,
      "mean_token_accuracy": 0.18310712575912474,
      "num_tokens": 57370322.0,
      "step": 31100
    },
    {
      "entropy": 5.49638524055481,
      "epoch": 2.6132325141776938,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004315420952194588,
      "loss": 5.1442,
      "mean_token_accuracy": 0.18825990706682205,
      "num_tokens": 57379577.0,
      "step": 31105
    },
    {
      "entropy": 5.42961311340332,
      "epoch": 2.6136525939928585,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004315205834918361,
      "loss": 5.0153,
      "mean_token_accuracy": 0.188102525472641,
      "num_tokens": 57388862.0,
      "step": 31110
    },
    {
      "entropy": 5.520054197311401,
      "epoch": 2.6140726738080238,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004314990689915318,
      "loss": 5.2129,
      "mean_token_accuracy": 0.19174993336200713,
      "num_tokens": 57398323.0,
      "step": 31115
    },
    {
      "entropy": 5.489413833618164,
      "epoch": 2.6144927536231886,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004314775517189271,
      "loss": 5.1317,
      "mean_token_accuracy": 0.18952895253896712,
      "num_tokens": 57407317.0,
      "step": 31120
    },
    {
      "entropy": 5.478981876373291,
      "epoch": 2.6149128334383533,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004314560316744031,
      "loss": 5.142,
      "mean_token_accuracy": 0.19114441573619842,
      "num_tokens": 57415936.0,
      "step": 31125
    },
    {
      "entropy": 5.432548761367798,
      "epoch": 2.615332913253518,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004314345088583411,
      "loss": 5.0966,
      "mean_token_accuracy": 0.19122074395418168,
      "num_tokens": 57424548.0,
      "step": 31130
    },
    {
      "entropy": 5.521729850769043,
      "epoch": 2.615752993068683,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00043141298327112234,
      "loss": 5.1372,
      "mean_token_accuracy": 0.18605623692274093,
      "num_tokens": 57433991.0,
      "step": 31135
    },
    {
      "entropy": 5.535295248031616,
      "epoch": 2.616173072883848,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00043139145491312815,
      "loss": 5.2155,
      "mean_token_accuracy": 0.18910533040761948,
      "num_tokens": 57442921.0,
      "step": 31140
    },
    {
      "entropy": 5.638869428634644,
      "epoch": 2.616593152699013,
      "grad_norm": 1.15625,
      "learning_rate": 0.00043136992378473975,
      "loss": 5.2917,
      "mean_token_accuracy": 0.1784400537610054,
      "num_tokens": 57451015.0,
      "step": 31145
    },
    {
      "entropy": 5.498442506790161,
      "epoch": 2.6170132325141777,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004313483898863387,
      "loss": 5.0844,
      "mean_token_accuracy": 0.1925796538591385,
      "num_tokens": 57460117.0,
      "step": 31150
    },
    {
      "entropy": 5.511572456359863,
      "epoch": 2.6174333123293425,
      "grad_norm": 1.125,
      "learning_rate": 0.0004313268532183065,
      "loss": 5.1295,
      "mean_token_accuracy": 0.19704737216234208,
      "num_tokens": 57470319.0,
      "step": 31155
    },
    {
      "entropy": 5.461356830596924,
      "epoch": 2.6178533921445073,
      "grad_norm": 1.171875,
      "learning_rate": 0.00043130531378102454,
      "loss": 5.1195,
      "mean_token_accuracy": 0.192134065926075,
      "num_tokens": 57479980.0,
      "step": 31160
    },
    {
      "entropy": 5.5626781463623045,
      "epoch": 2.6182734719596725,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004312837715748745,
      "loss": 5.3077,
      "mean_token_accuracy": 0.18076588064432145,
      "num_tokens": 57490498.0,
      "step": 31165
    },
    {
      "entropy": 5.451368570327759,
      "epoch": 2.6186935517748373,
      "grad_norm": 1.09375,
      "learning_rate": 0.00043126222660023783,
      "loss": 5.1439,
      "mean_token_accuracy": 0.18602858632802963,
      "num_tokens": 57500597.0,
      "step": 31170
    },
    {
      "entropy": 5.551350402832031,
      "epoch": 2.619113631590002,
      "grad_norm": 1.1875,
      "learning_rate": 0.00043124067885749636,
      "loss": 5.2031,
      "mean_token_accuracy": 0.18549803495407105,
      "num_tokens": 57510107.0,
      "step": 31175
    },
    {
      "entropy": 5.469557571411133,
      "epoch": 2.619533711405167,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004312191283470316,
      "loss": 5.0919,
      "mean_token_accuracy": 0.19560882598161697,
      "num_tokens": 57519348.0,
      "step": 31180
    },
    {
      "entropy": 5.484923028945923,
      "epoch": 2.6199537912203317,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004311975750692255,
      "loss": 5.1467,
      "mean_token_accuracy": 0.18700451105833055,
      "num_tokens": 57528607.0,
      "step": 31185
    },
    {
      "entropy": 5.464229583740234,
      "epoch": 2.620373871035497,
      "grad_norm": 1.109375,
      "learning_rate": 0.00043117601902445987,
      "loss": 5.178,
      "mean_token_accuracy": 0.1882578358054161,
      "num_tokens": 57538024.0,
      "step": 31190
    },
    {
      "entropy": 5.533995008468628,
      "epoch": 2.6207939508506617,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00043115446021311637,
      "loss": 5.2302,
      "mean_token_accuracy": 0.18295171558856965,
      "num_tokens": 57548534.0,
      "step": 31195
    },
    {
      "entropy": 5.52661247253418,
      "epoch": 2.6212140306658265,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00043113289863557706,
      "loss": 5.1608,
      "mean_token_accuracy": 0.19171425253152846,
      "num_tokens": 57557614.0,
      "step": 31200
    },
    {
      "entropy": 5.559832668304443,
      "epoch": 2.6216341104809913,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004311113342922238,
      "loss": 5.1902,
      "mean_token_accuracy": 0.18718696087598802,
      "num_tokens": 57566720.0,
      "step": 31205
    },
    {
      "entropy": 5.452651023864746,
      "epoch": 2.622054190296156,
      "grad_norm": 1.265625,
      "learning_rate": 0.00043108976718343874,
      "loss": 5.1083,
      "mean_token_accuracy": 0.1869623616337776,
      "num_tokens": 57575823.0,
      "step": 31210
    },
    {
      "entropy": 5.504107570648193,
      "epoch": 2.6224742701113213,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004310681973096037,
      "loss": 5.1527,
      "mean_token_accuracy": 0.18810490965843202,
      "num_tokens": 57585556.0,
      "step": 31215
    },
    {
      "entropy": 5.607685518264771,
      "epoch": 2.622894349926486,
      "grad_norm": 1.125,
      "learning_rate": 0.00043104662467110096,
      "loss": 5.2868,
      "mean_token_accuracy": 0.18124920278787612,
      "num_tokens": 57594573.0,
      "step": 31220
    },
    {
      "entropy": 5.50871787071228,
      "epoch": 2.623314429741651,
      "grad_norm": 1.125,
      "learning_rate": 0.0004310250492683126,
      "loss": 5.1314,
      "mean_token_accuracy": 0.19426925778388976,
      "num_tokens": 57603600.0,
      "step": 31225
    },
    {
      "entropy": 5.480623197555542,
      "epoch": 2.6237345095568156,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00043100347110162094,
      "loss": 5.1153,
      "mean_token_accuracy": 0.19267239272594452,
      "num_tokens": 57612371.0,
      "step": 31230
    },
    {
      "entropy": 5.540894889831543,
      "epoch": 2.6241545893719804,
      "grad_norm": 1.234375,
      "learning_rate": 0.000430981890171408,
      "loss": 5.1725,
      "mean_token_accuracy": 0.18404174000024795,
      "num_tokens": 57620994.0,
      "step": 31235
    },
    {
      "entropy": 5.505887365341186,
      "epoch": 2.6245746691871457,
      "grad_norm": 1.125,
      "learning_rate": 0.0004309603064780562,
      "loss": 5.2467,
      "mean_token_accuracy": 0.17667874097824096,
      "num_tokens": 57630953.0,
      "step": 31240
    },
    {
      "entropy": 5.499809503555298,
      "epoch": 2.6249947490023104,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004309387200219479,
      "loss": 5.1173,
      "mean_token_accuracy": 0.19299881309270858,
      "num_tokens": 57640352.0,
      "step": 31245
    },
    {
      "entropy": 5.546654891967774,
      "epoch": 2.6254148288174752,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004309171308034655,
      "loss": 5.2015,
      "mean_token_accuracy": 0.18597430884838104,
      "num_tokens": 57649204.0,
      "step": 31250
    },
    {
      "entropy": 5.461164045333862,
      "epoch": 2.6258349086326405,
      "grad_norm": 1.09375,
      "learning_rate": 0.00043089553882299137,
      "loss": 5.0639,
      "mean_token_accuracy": 0.19460459798574448,
      "num_tokens": 57658609.0,
      "step": 31255
    },
    {
      "entropy": 5.491698551177978,
      "epoch": 2.626254988447805,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00043087394408090814,
      "loss": 5.2151,
      "mean_token_accuracy": 0.1897429570555687,
      "num_tokens": 57667896.0,
      "step": 31260
    },
    {
      "entropy": 5.497282218933106,
      "epoch": 2.62667506826297,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004308523465775981,
      "loss": 5.1902,
      "mean_token_accuracy": 0.18800776600837707,
      "num_tokens": 57676470.0,
      "step": 31265
    },
    {
      "entropy": 5.493685579299926,
      "epoch": 2.627095148078135,
      "grad_norm": 1.09375,
      "learning_rate": 0.00043083074631344414,
      "loss": 5.1349,
      "mean_token_accuracy": 0.19348333775997162,
      "num_tokens": 57685428.0,
      "step": 31270
    },
    {
      "entropy": 5.5044145584106445,
      "epoch": 2.6275152278932996,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00043080914328882865,
      "loss": 5.1604,
      "mean_token_accuracy": 0.19172224998474122,
      "num_tokens": 57694926.0,
      "step": 31275
    },
    {
      "entropy": 5.442847871780396,
      "epoch": 2.627935307708465,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00043078753750413443,
      "loss": 5.1238,
      "mean_token_accuracy": 0.1946580857038498,
      "num_tokens": 57703336.0,
      "step": 31280
    },
    {
      "entropy": 5.47878131866455,
      "epoch": 2.6283553875236296,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004307659289597442,
      "loss": 5.1934,
      "mean_token_accuracy": 0.189879147708416,
      "num_tokens": 57712386.0,
      "step": 31285
    },
    {
      "entropy": 5.4924901008605955,
      "epoch": 2.6287754673387944,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00043074431765604084,
      "loss": 5.1302,
      "mean_token_accuracy": 0.18908077329397202,
      "num_tokens": 57721742.0,
      "step": 31290
    },
    {
      "entropy": 5.494763040542603,
      "epoch": 2.629195547153959,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004307227035934069,
      "loss": 5.223,
      "mean_token_accuracy": 0.18487150967121124,
      "num_tokens": 57731700.0,
      "step": 31295
    },
    {
      "entropy": 5.4781969547271725,
      "epoch": 2.629615626969124,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004307010867722256,
      "loss": 5.1671,
      "mean_token_accuracy": 0.18733351677656174,
      "num_tokens": 57739801.0,
      "step": 31300
    },
    {
      "entropy": 5.488827419281006,
      "epoch": 2.630035706784289,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004306794671928797,
      "loss": 5.1077,
      "mean_token_accuracy": 0.18807401210069657,
      "num_tokens": 57748755.0,
      "step": 31305
    },
    {
      "entropy": 5.531401681900024,
      "epoch": 2.630455786599454,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00043065784485575223,
      "loss": 5.2538,
      "mean_token_accuracy": 0.1889948531985283,
      "num_tokens": 57758809.0,
      "step": 31310
    },
    {
      "entropy": 5.527392292022705,
      "epoch": 2.630875866414619,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004306362197612261,
      "loss": 5.2054,
      "mean_token_accuracy": 0.18517615050077438,
      "num_tokens": 57768576.0,
      "step": 31315
    },
    {
      "entropy": 5.490324544906616,
      "epoch": 2.6312959462297836,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004306145919096846,
      "loss": 5.2271,
      "mean_token_accuracy": 0.18547224700450898,
      "num_tokens": 57776954.0,
      "step": 31320
    },
    {
      "entropy": 5.578684854507446,
      "epoch": 2.6317160260449484,
      "grad_norm": 1.15625,
      "learning_rate": 0.00043059296130151066,
      "loss": 5.1456,
      "mean_token_accuracy": 0.19583648890256883,
      "num_tokens": 57785048.0,
      "step": 31325
    },
    {
      "entropy": 5.5071258544921875,
      "epoch": 2.6321361058601136,
      "grad_norm": 1.09375,
      "learning_rate": 0.00043057132793708746,
      "loss": 5.1638,
      "mean_token_accuracy": 0.19135524332523346,
      "num_tokens": 57794467.0,
      "step": 31330
    },
    {
      "entropy": 5.417876958847046,
      "epoch": 2.6325561856752784,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004305496918167984,
      "loss": 5.0861,
      "mean_token_accuracy": 0.19663921594619752,
      "num_tokens": 57803342.0,
      "step": 31335
    },
    {
      "entropy": 5.581414270401001,
      "epoch": 2.632976265490443,
      "grad_norm": 1.3125,
      "learning_rate": 0.00043052805294102657,
      "loss": 5.1975,
      "mean_token_accuracy": 0.1845385417342186,
      "num_tokens": 57813290.0,
      "step": 31340
    },
    {
      "entropy": 5.578276872634888,
      "epoch": 2.633396345305608,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004305064113101554,
      "loss": 5.1818,
      "mean_token_accuracy": 0.18541130125522615,
      "num_tokens": 57822440.0,
      "step": 31345
    },
    {
      "entropy": 5.437310886383057,
      "epoch": 2.6338164251207727,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004304847669245683,
      "loss": 5.1084,
      "mean_token_accuracy": 0.1885760799050331,
      "num_tokens": 57831673.0,
      "step": 31350
    },
    {
      "entropy": 5.515083599090576,
      "epoch": 2.634236504935938,
      "grad_norm": 1.15625,
      "learning_rate": 0.00043046311978464847,
      "loss": 5.1488,
      "mean_token_accuracy": 0.18923182189464569,
      "num_tokens": 57840506.0,
      "step": 31355
    },
    {
      "entropy": 5.449732732772827,
      "epoch": 2.6346565847511028,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00043044146989077966,
      "loss": 5.1239,
      "mean_token_accuracy": 0.19112024903297425,
      "num_tokens": 57849376.0,
      "step": 31360
    },
    {
      "entropy": 5.5899138927459715,
      "epoch": 2.6350766645662675,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004304198172433452,
      "loss": 5.2557,
      "mean_token_accuracy": 0.18877221643924713,
      "num_tokens": 57859161.0,
      "step": 31365
    },
    {
      "entropy": 5.52102313041687,
      "epoch": 2.6354967443814323,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004303981618427287,
      "loss": 5.1013,
      "mean_token_accuracy": 0.18980057239532472,
      "num_tokens": 57867598.0,
      "step": 31370
    },
    {
      "entropy": 5.586728811264038,
      "epoch": 2.635916824196597,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004303765036893138,
      "loss": 5.213,
      "mean_token_accuracy": 0.18789438307285308,
      "num_tokens": 57877569.0,
      "step": 31375
    },
    {
      "entropy": 5.546453285217285,
      "epoch": 2.6363369040117623,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004303548427834841,
      "loss": 5.2339,
      "mean_token_accuracy": 0.18781997859477997,
      "num_tokens": 57887104.0,
      "step": 31380
    },
    {
      "entropy": 5.5429223537445065,
      "epoch": 2.636756983826927,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004303331791256234,
      "loss": 5.1376,
      "mean_token_accuracy": 0.19429703056812286,
      "num_tokens": 57895699.0,
      "step": 31385
    },
    {
      "entropy": 5.477449131011963,
      "epoch": 2.637177063642092,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00043031151271611534,
      "loss": 5.1719,
      "mean_token_accuracy": 0.18631191551685333,
      "num_tokens": 57904997.0,
      "step": 31390
    },
    {
      "entropy": 5.4463067054748535,
      "epoch": 2.637597143457257,
      "grad_norm": 1.125,
      "learning_rate": 0.00043028984355534394,
      "loss": 5.1777,
      "mean_token_accuracy": 0.19996869713068008,
      "num_tokens": 57913934.0,
      "step": 31395
    },
    {
      "entropy": 5.524392223358154,
      "epoch": 2.6380172232724215,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00043026817164369273,
      "loss": 5.1585,
      "mean_token_accuracy": 0.18881889581680297,
      "num_tokens": 57923114.0,
      "step": 31400
    },
    {
      "entropy": 5.527156019210816,
      "epoch": 2.6384373030875867,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000430246496981546,
      "loss": 5.189,
      "mean_token_accuracy": 0.19257629662752151,
      "num_tokens": 57932462.0,
      "step": 31405
    },
    {
      "entropy": 5.447067165374756,
      "epoch": 2.6388573829027515,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00043022481956928743,
      "loss": 5.0855,
      "mean_token_accuracy": 0.18848930448293685,
      "num_tokens": 57940833.0,
      "step": 31410
    },
    {
      "entropy": 5.432824945449829,
      "epoch": 2.6392774627179163,
      "grad_norm": 1.1875,
      "learning_rate": 0.00043020313940730123,
      "loss": 5.1101,
      "mean_token_accuracy": 0.19345290660858155,
      "num_tokens": 57949462.0,
      "step": 31415
    },
    {
      "entropy": 5.549391031265259,
      "epoch": 2.6396975425330815,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00043018145649597114,
      "loss": 5.2916,
      "mean_token_accuracy": 0.177751524746418,
      "num_tokens": 57958772.0,
      "step": 31420
    },
    {
      "entropy": 5.5230474948883055,
      "epoch": 2.6401176223482463,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004301597708356815,
      "loss": 5.1634,
      "mean_token_accuracy": 0.17990897744894027,
      "num_tokens": 57969200.0,
      "step": 31425
    },
    {
      "entropy": 5.553324604034424,
      "epoch": 2.640537702163411,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00043013808242681645,
      "loss": 5.187,
      "mean_token_accuracy": 0.193012036383152,
      "num_tokens": 57977488.0,
      "step": 31430
    },
    {
      "entropy": 5.471883058547974,
      "epoch": 2.640957781978576,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004301163912697602,
      "loss": 5.0637,
      "mean_token_accuracy": 0.1923823744058609,
      "num_tokens": 57985870.0,
      "step": 31435
    },
    {
      "entropy": 5.554318571090699,
      "epoch": 2.6413778617937407,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004300946973648969,
      "loss": 5.2375,
      "mean_token_accuracy": 0.17931884974241258,
      "num_tokens": 57995378.0,
      "step": 31440
    },
    {
      "entropy": 5.545085716247558,
      "epoch": 2.641797941608906,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004300730007126109,
      "loss": 5.1991,
      "mean_token_accuracy": 0.18169928044080735,
      "num_tokens": 58005623.0,
      "step": 31445
    },
    {
      "entropy": 5.550463724136352,
      "epoch": 2.6422180214240707,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00043005130131328664,
      "loss": 5.18,
      "mean_token_accuracy": 0.19500381350517274,
      "num_tokens": 58014123.0,
      "step": 31450
    },
    {
      "entropy": 5.516544008255005,
      "epoch": 2.6426381012392355,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00043002959916730834,
      "loss": 5.2109,
      "mean_token_accuracy": 0.17840952128171922,
      "num_tokens": 58023292.0,
      "step": 31455
    },
    {
      "entropy": 5.499023580551148,
      "epoch": 2.6430581810544003,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004300078942750604,
      "loss": 5.1177,
      "mean_token_accuracy": 0.18940901160240173,
      "num_tokens": 58032165.0,
      "step": 31460
    },
    {
      "entropy": 5.508650302886963,
      "epoch": 2.643478260869565,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004299861866369276,
      "loss": 5.0722,
      "mean_token_accuracy": 0.19311090111732482,
      "num_tokens": 58041518.0,
      "step": 31465
    },
    {
      "entropy": 5.533271837234497,
      "epoch": 2.6438983406847303,
      "grad_norm": 1.0625,
      "learning_rate": 0.00042996447625329425,
      "loss": 5.2249,
      "mean_token_accuracy": 0.18608324527740477,
      "num_tokens": 58051414.0,
      "step": 31470
    },
    {
      "entropy": 5.522424983978271,
      "epoch": 2.644318420499895,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00042994276312454505,
      "loss": 5.1225,
      "mean_token_accuracy": 0.18800418972969055,
      "num_tokens": 58060594.0,
      "step": 31475
    },
    {
      "entropy": 5.6601495265960695,
      "epoch": 2.64473850031506,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004299210472510645,
      "loss": 5.2711,
      "mean_token_accuracy": 0.17957811057567596,
      "num_tokens": 58070255.0,
      "step": 31480
    },
    {
      "entropy": 5.520308637619019,
      "epoch": 2.6451585801302246,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00042989932863323746,
      "loss": 5.187,
      "mean_token_accuracy": 0.18470439463853836,
      "num_tokens": 58079892.0,
      "step": 31485
    },
    {
      "entropy": 5.509823942184449,
      "epoch": 2.6455786599453894,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004298776072714484,
      "loss": 5.1892,
      "mean_token_accuracy": 0.18613259345293046,
      "num_tokens": 58088551.0,
      "step": 31490
    },
    {
      "entropy": 5.638829851150513,
      "epoch": 2.6459987397605547,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004298558831660824,
      "loss": 5.3144,
      "mean_token_accuracy": 0.17869030833244323,
      "num_tokens": 58098189.0,
      "step": 31495
    },
    {
      "entropy": 5.579032564163208,
      "epoch": 2.6464188195757194,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004298341563175242,
      "loss": 5.2197,
      "mean_token_accuracy": 0.18762410432100296,
      "num_tokens": 58107980.0,
      "step": 31500
    },
    {
      "entropy": 5.599653244018555,
      "epoch": 2.6468388993908842,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004298124267261586,
      "loss": 5.2737,
      "mean_token_accuracy": 0.18462742418050765,
      "num_tokens": 58117084.0,
      "step": 31505
    },
    {
      "entropy": 5.543706464767456,
      "epoch": 2.647258979206049,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004297906943923706,
      "loss": 5.2229,
      "mean_token_accuracy": 0.1849900409579277,
      "num_tokens": 58126304.0,
      "step": 31510
    },
    {
      "entropy": 5.483429765701294,
      "epoch": 2.647679059021214,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004297689593165451,
      "loss": 5.0478,
      "mean_token_accuracy": 0.1987412765622139,
      "num_tokens": 58134643.0,
      "step": 31515
    },
    {
      "entropy": 5.506999397277832,
      "epoch": 2.648099138836379,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004297472214990673,
      "loss": 5.0598,
      "mean_token_accuracy": 0.1998411774635315,
      "num_tokens": 58142815.0,
      "step": 31520
    },
    {
      "entropy": 5.3832722187042235,
      "epoch": 2.648519218651544,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00042972548094032207,
      "loss": 5.1078,
      "mean_token_accuracy": 0.19795266687870025,
      "num_tokens": 58151618.0,
      "step": 31525
    },
    {
      "entropy": 5.458821773529053,
      "epoch": 2.6489392984667086,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00042970373764069465,
      "loss": 5.1552,
      "mean_token_accuracy": 0.1921141967177391,
      "num_tokens": 58160371.0,
      "step": 31530
    },
    {
      "entropy": 5.487640476226806,
      "epoch": 2.6493593782818734,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00042968199160057016,
      "loss": 5.1808,
      "mean_token_accuracy": 0.19331714063882827,
      "num_tokens": 58170536.0,
      "step": 31535
    },
    {
      "entropy": 5.635578870773315,
      "epoch": 2.649779458097038,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004296602428203338,
      "loss": 5.2845,
      "mean_token_accuracy": 0.18153747618198396,
      "num_tokens": 58181271.0,
      "step": 31540
    },
    {
      "entropy": 5.542571496963501,
      "epoch": 2.6501995379122034,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004296384913003709,
      "loss": 5.2212,
      "mean_token_accuracy": 0.1785634085536003,
      "num_tokens": 58192011.0,
      "step": 31545
    },
    {
      "entropy": 5.561027908325196,
      "epoch": 2.650619617727368,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00042961673704106676,
      "loss": 5.1337,
      "mean_token_accuracy": 0.19455562233924867,
      "num_tokens": 58201407.0,
      "step": 31550
    },
    {
      "entropy": 5.505473852157593,
      "epoch": 2.651039697542533,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004295949800428067,
      "loss": 5.0915,
      "mean_token_accuracy": 0.1885404571890831,
      "num_tokens": 58211298.0,
      "step": 31555
    },
    {
      "entropy": 5.5699666976928714,
      "epoch": 2.651459777357698,
      "grad_norm": 1.171875,
      "learning_rate": 0.00042957322030597625,
      "loss": 5.2551,
      "mean_token_accuracy": 0.18663469403982164,
      "num_tokens": 58220498.0,
      "step": 31560
    },
    {
      "entropy": 5.510002088546753,
      "epoch": 2.651879857172863,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00042955145783096077,
      "loss": 5.1571,
      "mean_token_accuracy": 0.191057288646698,
      "num_tokens": 58229620.0,
      "step": 31565
    },
    {
      "entropy": 5.519064664840698,
      "epoch": 2.652299936988028,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004295296926181458,
      "loss": 5.1441,
      "mean_token_accuracy": 0.1930877149105072,
      "num_tokens": 58237835.0,
      "step": 31570
    },
    {
      "entropy": 5.507362937927246,
      "epoch": 2.6527200168031926,
      "grad_norm": 1.140625,
      "learning_rate": 0.00042950792466791687,
      "loss": 5.1529,
      "mean_token_accuracy": 0.1891555294394493,
      "num_tokens": 58246562.0,
      "step": 31575
    },
    {
      "entropy": 5.565838766098023,
      "epoch": 2.6531400966183574,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004294861539806596,
      "loss": 5.1868,
      "mean_token_accuracy": 0.18729240894317628,
      "num_tokens": 58256033.0,
      "step": 31580
    },
    {
      "entropy": 5.5462500095367435,
      "epoch": 2.6535601764335226,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004294643805567597,
      "loss": 5.1592,
      "mean_token_accuracy": 0.18930304646492005,
      "num_tokens": 58265407.0,
      "step": 31585
    },
    {
      "entropy": 5.502084350585937,
      "epoch": 2.6539802562486874,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004294426043966029,
      "loss": 5.1409,
      "mean_token_accuracy": 0.18440657556056977,
      "num_tokens": 58275091.0,
      "step": 31590
    },
    {
      "entropy": 5.5084959983825685,
      "epoch": 2.654400336063852,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00042942082550057476,
      "loss": 5.182,
      "mean_token_accuracy": 0.19245699942111968,
      "num_tokens": 58283669.0,
      "step": 31595
    },
    {
      "entropy": 5.467723989486695,
      "epoch": 2.654820415879017,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004293990438690613,
      "loss": 5.1709,
      "mean_token_accuracy": 0.18093273937702178,
      "num_tokens": 58293482.0,
      "step": 31600
    },
    {
      "entropy": 5.568612766265869,
      "epoch": 2.6552404956941817,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004293772595024482,
      "loss": 5.2388,
      "mean_token_accuracy": 0.1866317942738533,
      "num_tokens": 58302098.0,
      "step": 31605
    },
    {
      "entropy": 5.543168354034424,
      "epoch": 2.655660575509347,
      "grad_norm": 1.0,
      "learning_rate": 0.0004293554724011215,
      "loss": 5.094,
      "mean_token_accuracy": 0.19098658710718155,
      "num_tokens": 58310785.0,
      "step": 31610
    },
    {
      "entropy": 5.499950790405274,
      "epoch": 2.6560806553245118,
      "grad_norm": 1.125,
      "learning_rate": 0.00042933368256546704,
      "loss": 5.1098,
      "mean_token_accuracy": 0.195769827067852,
      "num_tokens": 58319197.0,
      "step": 31615
    },
    {
      "entropy": 5.487706232070923,
      "epoch": 2.6565007351396766,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00042931188999587093,
      "loss": 5.0926,
      "mean_token_accuracy": 0.19332176744937896,
      "num_tokens": 58328136.0,
      "step": 31620
    },
    {
      "entropy": 5.5242870330810545,
      "epoch": 2.6569208149548413,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004292900946927191,
      "loss": 5.3194,
      "mean_token_accuracy": 0.1798632487654686,
      "num_tokens": 58337735.0,
      "step": 31625
    },
    {
      "entropy": 5.534972858428955,
      "epoch": 2.657340894770006,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004292682966563977,
      "loss": 5.1371,
      "mean_token_accuracy": 0.18654308915138246,
      "num_tokens": 58347936.0,
      "step": 31630
    },
    {
      "entropy": 5.549806547164917,
      "epoch": 2.6577609745851714,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00042924649588729286,
      "loss": 5.2109,
      "mean_token_accuracy": 0.18906860053539276,
      "num_tokens": 58357111.0,
      "step": 31635
    },
    {
      "entropy": 5.50647201538086,
      "epoch": 2.658181054400336,
      "grad_norm": 1.125,
      "learning_rate": 0.00042922469238579076,
      "loss": 5.0752,
      "mean_token_accuracy": 0.19402608275413513,
      "num_tokens": 58366396.0,
      "step": 31640
    },
    {
      "entropy": 5.584261703491211,
      "epoch": 2.658601134215501,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004292028861522777,
      "loss": 5.1941,
      "mean_token_accuracy": 0.185604327917099,
      "num_tokens": 58375197.0,
      "step": 31645
    },
    {
      "entropy": 5.546419715881347,
      "epoch": 2.6590212140306657,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00042918107718713987,
      "loss": 5.2734,
      "mean_token_accuracy": 0.18710661083459854,
      "num_tokens": 58383937.0,
      "step": 31650
    },
    {
      "entropy": 5.5493193626403805,
      "epoch": 2.6594412938458305,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004291592654907637,
      "loss": 5.196,
      "mean_token_accuracy": 0.18481591045856477,
      "num_tokens": 58392855.0,
      "step": 31655
    },
    {
      "entropy": 5.537775611877441,
      "epoch": 2.6598613736609957,
      "grad_norm": 1.140625,
      "learning_rate": 0.00042913745106353543,
      "loss": 5.1018,
      "mean_token_accuracy": 0.18996986448764802,
      "num_tokens": 58402359.0,
      "step": 31660
    },
    {
      "entropy": 5.457790899276733,
      "epoch": 2.6602814534761605,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004291156339058417,
      "loss": 5.0706,
      "mean_token_accuracy": 0.18627034425735473,
      "num_tokens": 58411377.0,
      "step": 31665
    },
    {
      "entropy": 5.472506475448609,
      "epoch": 2.6607015332913253,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00042909381401806874,
      "loss": 5.0728,
      "mean_token_accuracy": 0.1947233945131302,
      "num_tokens": 58420535.0,
      "step": 31670
    },
    {
      "entropy": 5.473201131820678,
      "epoch": 2.66112161310649,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00042907199140060327,
      "loss": 5.1229,
      "mean_token_accuracy": 0.18842351734638213,
      "num_tokens": 58429122.0,
      "step": 31675
    },
    {
      "entropy": 5.543404865264892,
      "epoch": 2.661541692921655,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004290501660538318,
      "loss": 5.1231,
      "mean_token_accuracy": 0.19052474051713944,
      "num_tokens": 58437870.0,
      "step": 31680
    },
    {
      "entropy": 5.486902189254761,
      "epoch": 2.66196177273682,
      "grad_norm": 1.171875,
      "learning_rate": 0.00042902833797814105,
      "loss": 5.1591,
      "mean_token_accuracy": 0.1876027837395668,
      "num_tokens": 58446411.0,
      "step": 31685
    },
    {
      "entropy": 5.458968591690064,
      "epoch": 2.662381852551985,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004290065071739175,
      "loss": 5.1091,
      "mean_token_accuracy": 0.18474307656288147,
      "num_tokens": 58454629.0,
      "step": 31690
    },
    {
      "entropy": 5.595303535461426,
      "epoch": 2.6628019323671497,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00042898467364154796,
      "loss": 5.1947,
      "mean_token_accuracy": 0.18659019619226455,
      "num_tokens": 58464340.0,
      "step": 31695
    },
    {
      "entropy": 5.526461553573609,
      "epoch": 2.663222012182315,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00042896283738141927,
      "loss": 5.0724,
      "mean_token_accuracy": 0.19423792660236358,
      "num_tokens": 58473540.0,
      "step": 31700
    },
    {
      "entropy": 5.476904582977295,
      "epoch": 2.6636420919974793,
      "grad_norm": 1.0625,
      "learning_rate": 0.00042894099839391826,
      "loss": 5.1114,
      "mean_token_accuracy": 0.1902385488152504,
      "num_tokens": 58482309.0,
      "step": 31705
    },
    {
      "entropy": 5.504754066467285,
      "epoch": 2.6640621718126445,
      "grad_norm": 1.171875,
      "learning_rate": 0.00042891915667943157,
      "loss": 5.2238,
      "mean_token_accuracy": 0.18778826743364335,
      "num_tokens": 58492019.0,
      "step": 31710
    },
    {
      "entropy": 5.485935163497925,
      "epoch": 2.6644822516278093,
      "grad_norm": 1.140625,
      "learning_rate": 0.00042889731223834637,
      "loss": 5.1471,
      "mean_token_accuracy": 0.18740614205598832,
      "num_tokens": 58501016.0,
      "step": 31715
    },
    {
      "entropy": 5.472194242477417,
      "epoch": 2.664902331442974,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004288754650710496,
      "loss": 5.111,
      "mean_token_accuracy": 0.19510672241449356,
      "num_tokens": 58511042.0,
      "step": 31720
    },
    {
      "entropy": 5.465752840042114,
      "epoch": 2.6653224112581393,
      "grad_norm": 1.234375,
      "learning_rate": 0.00042885361517792817,
      "loss": 5.1169,
      "mean_token_accuracy": 0.187202151119709,
      "num_tokens": 58519446.0,
      "step": 31725
    },
    {
      "entropy": 5.568733263015747,
      "epoch": 2.665742491073304,
      "grad_norm": 1.015625,
      "learning_rate": 0.00042883176255936907,
      "loss": 5.2474,
      "mean_token_accuracy": 0.18532796055078507,
      "num_tokens": 58529573.0,
      "step": 31730
    },
    {
      "entropy": 5.626787614822388,
      "epoch": 2.666162570888469,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004288099072157596,
      "loss": 5.3871,
      "mean_token_accuracy": 0.17746454924345018,
      "num_tokens": 58538602.0,
      "step": 31735
    },
    {
      "entropy": 5.597516298294067,
      "epoch": 2.6665826507036337,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004287880491474868,
      "loss": 5.2152,
      "mean_token_accuracy": 0.18562946170568467,
      "num_tokens": 58547776.0,
      "step": 31740
    },
    {
      "entropy": 5.483911037445068,
      "epoch": 2.6670027305187984,
      "grad_norm": 1.109375,
      "learning_rate": 0.00042876618835493784,
      "loss": 5.1216,
      "mean_token_accuracy": 0.19108203649520875,
      "num_tokens": 58556734.0,
      "step": 31745
    },
    {
      "entropy": 5.469761562347412,
      "epoch": 2.6674228103339637,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004287443248385001,
      "loss": 5.1293,
      "mean_token_accuracy": 0.1948942258954048,
      "num_tokens": 58567549.0,
      "step": 31750
    },
    {
      "entropy": 5.492172288894653,
      "epoch": 2.6678428901491285,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004287224585985608,
      "loss": 5.123,
      "mean_token_accuracy": 0.18862698078155518,
      "num_tokens": 58577007.0,
      "step": 31755
    },
    {
      "entropy": 5.523219251632691,
      "epoch": 2.6682629699642932,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004287005896355072,
      "loss": 5.1909,
      "mean_token_accuracy": 0.1914129838347435,
      "num_tokens": 58586140.0,
      "step": 31760
    },
    {
      "entropy": 5.5228574752807615,
      "epoch": 2.668683049779458,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00042867871794972695,
      "loss": 5.2673,
      "mean_token_accuracy": 0.18643626868724822,
      "num_tokens": 58595382.0,
      "step": 31765
    },
    {
      "entropy": 5.534815549850464,
      "epoch": 2.669103129594623,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00042865684354160736,
      "loss": 5.2235,
      "mean_token_accuracy": 0.1864734560251236,
      "num_tokens": 58603525.0,
      "step": 31770
    },
    {
      "entropy": 5.475832319259643,
      "epoch": 2.669523209409788,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004286349664115358,
      "loss": 5.1153,
      "mean_token_accuracy": 0.19935484379529952,
      "num_tokens": 58611720.0,
      "step": 31775
    },
    {
      "entropy": 5.567657041549682,
      "epoch": 2.669943289224953,
      "grad_norm": 1.1875,
      "learning_rate": 0.00042861308655989987,
      "loss": 5.2196,
      "mean_token_accuracy": 0.18767392337322236,
      "num_tokens": 58620961.0,
      "step": 31780
    },
    {
      "entropy": 5.48509955406189,
      "epoch": 2.6703633690401176,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00042859120398708734,
      "loss": 5.2091,
      "mean_token_accuracy": 0.18599287867546083,
      "num_tokens": 58630384.0,
      "step": 31785
    },
    {
      "entropy": 5.474519395828247,
      "epoch": 2.6707834488552824,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004285693186934857,
      "loss": 5.1011,
      "mean_token_accuracy": 0.1951151192188263,
      "num_tokens": 58640245.0,
      "step": 31790
    },
    {
      "entropy": 5.4632610321044925,
      "epoch": 2.671203528670447,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00042854743067948257,
      "loss": 5.1683,
      "mean_token_accuracy": 0.18845604509115219,
      "num_tokens": 58649780.0,
      "step": 31795
    },
    {
      "entropy": 5.567822504043579,
      "epoch": 2.6716236084856124,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004285255399454659,
      "loss": 5.2341,
      "mean_token_accuracy": 0.17280092984437942,
      "num_tokens": 58659322.0,
      "step": 31800
    },
    {
      "entropy": 5.571087789535523,
      "epoch": 2.672043688300777,
      "grad_norm": 1.140625,
      "learning_rate": 0.00042850364649182324,
      "loss": 5.1526,
      "mean_token_accuracy": 0.186312997341156,
      "num_tokens": 58668995.0,
      "step": 31805
    },
    {
      "entropy": 5.559656190872192,
      "epoch": 2.672463768115942,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004284817503189426,
      "loss": 5.166,
      "mean_token_accuracy": 0.1892475053668022,
      "num_tokens": 58677329.0,
      "step": 31810
    },
    {
      "entropy": 5.480695533752441,
      "epoch": 2.672883847931107,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004284598514272117,
      "loss": 5.1189,
      "mean_token_accuracy": 0.18911078572273254,
      "num_tokens": 58686619.0,
      "step": 31815
    },
    {
      "entropy": 5.4438111782073975,
      "epoch": 2.6733039277462716,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00042843794981701865,
      "loss": 5.1529,
      "mean_token_accuracy": 0.1926642581820488,
      "num_tokens": 58695637.0,
      "step": 31820
    },
    {
      "entropy": 5.575824022293091,
      "epoch": 2.673724007561437,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00042841604548875126,
      "loss": 5.2568,
      "mean_token_accuracy": 0.1840103328227997,
      "num_tokens": 58706161.0,
      "step": 31825
    },
    {
      "entropy": 5.502618598937988,
      "epoch": 2.6741440873766016,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00042839413844279755,
      "loss": 5.0905,
      "mean_token_accuracy": 0.1954127535223961,
      "num_tokens": 58714368.0,
      "step": 31830
    },
    {
      "entropy": 5.46441159248352,
      "epoch": 2.6745641671917664,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004283722286795458,
      "loss": 5.1152,
      "mean_token_accuracy": 0.19484198242425918,
      "num_tokens": 58723518.0,
      "step": 31835
    },
    {
      "entropy": 5.429950332641601,
      "epoch": 2.674984247006931,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004283503161993839,
      "loss": 5.0702,
      "mean_token_accuracy": 0.189122574031353,
      "num_tokens": 58732533.0,
      "step": 31840
    },
    {
      "entropy": 5.48168454170227,
      "epoch": 2.675404326822096,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004283284010027002,
      "loss": 5.2247,
      "mean_token_accuracy": 0.18161537796258925,
      "num_tokens": 58741373.0,
      "step": 31845
    },
    {
      "entropy": 5.500475263595581,
      "epoch": 2.675824406637261,
      "grad_norm": 1.25,
      "learning_rate": 0.00042830648308988276,
      "loss": 5.1674,
      "mean_token_accuracy": 0.1898893177509308,
      "num_tokens": 58750867.0,
      "step": 31850
    },
    {
      "entropy": 5.512835168838501,
      "epoch": 2.676244486452426,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004282845624613199,
      "loss": 5.0799,
      "mean_token_accuracy": 0.1889073967933655,
      "num_tokens": 58759389.0,
      "step": 31855
    },
    {
      "entropy": 5.504146528244019,
      "epoch": 2.6766645662675908,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00042826263911740006,
      "loss": 5.2178,
      "mean_token_accuracy": 0.19097888171672822,
      "num_tokens": 58768034.0,
      "step": 31860
    },
    {
      "entropy": 5.40824327468872,
      "epoch": 2.677084646082756,
      "grad_norm": 1.109375,
      "learning_rate": 0.00042824071305851136,
      "loss": 5.1592,
      "mean_token_accuracy": 0.1904303938150406,
      "num_tokens": 58777651.0,
      "step": 31865
    },
    {
      "entropy": 5.518398475646973,
      "epoch": 2.6775047258979208,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004282187842850424,
      "loss": 5.1384,
      "mean_token_accuracy": 0.18952865153551102,
      "num_tokens": 58787490.0,
      "step": 31870
    },
    {
      "entropy": 5.517455244064331,
      "epoch": 2.6779248057130856,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00042819685279738153,
      "loss": 5.1307,
      "mean_token_accuracy": 0.19434959888458253,
      "num_tokens": 58797134.0,
      "step": 31875
    },
    {
      "entropy": 5.495564699172974,
      "epoch": 2.6783448855282503,
      "grad_norm": 1.109375,
      "learning_rate": 0.00042817491859591735,
      "loss": 5.1363,
      "mean_token_accuracy": 0.19423845112323762,
      "num_tokens": 58805500.0,
      "step": 31880
    },
    {
      "entropy": 5.478946542739868,
      "epoch": 2.678764965343415,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00042815298168103833,
      "loss": 5.1655,
      "mean_token_accuracy": 0.1876504585146904,
      "num_tokens": 58814429.0,
      "step": 31885
    },
    {
      "entropy": 5.471153116226196,
      "epoch": 2.6791850451585804,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004281310420531331,
      "loss": 5.0897,
      "mean_token_accuracy": 0.1865275502204895,
      "num_tokens": 58824250.0,
      "step": 31890
    },
    {
      "entropy": 5.5553735256195065,
      "epoch": 2.679605124973745,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004281090997125903,
      "loss": 5.2345,
      "mean_token_accuracy": 0.18151485472917556,
      "num_tokens": 58833773.0,
      "step": 31895
    },
    {
      "entropy": 5.5642791271209715,
      "epoch": 2.68002520478891,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004280871546597987,
      "loss": 5.1869,
      "mean_token_accuracy": 0.18891675621271134,
      "num_tokens": 58843557.0,
      "step": 31900
    },
    {
      "entropy": 5.59925799369812,
      "epoch": 2.6804452846040747,
      "grad_norm": 1.0,
      "learning_rate": 0.0004280652068951469,
      "loss": 5.2835,
      "mean_token_accuracy": 0.18016165494918823,
      "num_tokens": 58853699.0,
      "step": 31905
    },
    {
      "entropy": 5.486154937744141,
      "epoch": 2.6808653644192395,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00042804325641902384,
      "loss": 5.0676,
      "mean_token_accuracy": 0.19662893563508987,
      "num_tokens": 58862355.0,
      "step": 31910
    },
    {
      "entropy": 5.4126464366912845,
      "epoch": 2.6812854442344047,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00042802130323181824,
      "loss": 5.0656,
      "mean_token_accuracy": 0.1947772964835167,
      "num_tokens": 58870906.0,
      "step": 31915
    },
    {
      "entropy": 5.461640501022339,
      "epoch": 2.6817055240495695,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004279993473339191,
      "loss": 5.1153,
      "mean_token_accuracy": 0.19114603102207184,
      "num_tokens": 58879843.0,
      "step": 31920
    },
    {
      "entropy": 5.472156715393067,
      "epoch": 2.6821256038647343,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004279773887257153,
      "loss": 5.0894,
      "mean_token_accuracy": 0.19156940430402755,
      "num_tokens": 58888837.0,
      "step": 31925
    },
    {
      "entropy": 5.530322074890137,
      "epoch": 2.682545683679899,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004279554274075958,
      "loss": 5.2604,
      "mean_token_accuracy": 0.1827099844813347,
      "num_tokens": 58898414.0,
      "step": 31930
    },
    {
      "entropy": 5.4821672439575195,
      "epoch": 2.682965763495064,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004279334633799497,
      "loss": 5.0926,
      "mean_token_accuracy": 0.1880260542035103,
      "num_tokens": 58906877.0,
      "step": 31935
    },
    {
      "entropy": 5.510844802856445,
      "epoch": 2.683385843310229,
      "grad_norm": 1.140625,
      "learning_rate": 0.00042791149664316605,
      "loss": 5.0931,
      "mean_token_accuracy": 0.1910909652709961,
      "num_tokens": 58915911.0,
      "step": 31940
    },
    {
      "entropy": 5.5120336532592775,
      "epoch": 2.683805923125394,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004278895271976339,
      "loss": 5.1538,
      "mean_token_accuracy": 0.1864549770951271,
      "num_tokens": 58924992.0,
      "step": 31945
    },
    {
      "entropy": 5.507591104507446,
      "epoch": 2.6842260029405587,
      "grad_norm": 1.109375,
      "learning_rate": 0.00042786755504374254,
      "loss": 5.19,
      "mean_token_accuracy": 0.19081332683563232,
      "num_tokens": 58933362.0,
      "step": 31950
    },
    {
      "entropy": 5.487693357467651,
      "epoch": 2.6846460827557235,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004278455801818812,
      "loss": 5.1382,
      "mean_token_accuracy": 0.18852897733449936,
      "num_tokens": 58942810.0,
      "step": 31955
    },
    {
      "entropy": 5.552665281295776,
      "epoch": 2.6850661625708883,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004278236026124391,
      "loss": 5.2289,
      "mean_token_accuracy": 0.18671203553676605,
      "num_tokens": 58952178.0,
      "step": 31960
    },
    {
      "entropy": 5.556945419311523,
      "epoch": 2.6854862423860535,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00042780162233580556,
      "loss": 5.1245,
      "mean_token_accuracy": 0.1876200556755066,
      "num_tokens": 58960653.0,
      "step": 31965
    },
    {
      "entropy": 5.468992900848389,
      "epoch": 2.6859063222012183,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00042777963935236997,
      "loss": 5.0243,
      "mean_token_accuracy": 0.1885147750377655,
      "num_tokens": 58969201.0,
      "step": 31970
    },
    {
      "entropy": 5.458089590072632,
      "epoch": 2.686326402016383,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004277576536625217,
      "loss": 5.2342,
      "mean_token_accuracy": 0.18691180944442748,
      "num_tokens": 58978547.0,
      "step": 31975
    },
    {
      "entropy": 5.537410831451416,
      "epoch": 2.686746481831548,
      "grad_norm": 1.0,
      "learning_rate": 0.0004277356652666502,
      "loss": 5.1638,
      "mean_token_accuracy": 0.18795710504055024,
      "num_tokens": 58988872.0,
      "step": 31980
    },
    {
      "entropy": 5.53727159500122,
      "epoch": 2.6871665616467126,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004277136741651452,
      "loss": 5.1203,
      "mean_token_accuracy": 0.18943584263324736,
      "num_tokens": 58997375.0,
      "step": 31985
    },
    {
      "entropy": 5.511028146743774,
      "epoch": 2.687586641461878,
      "grad_norm": 1.1875,
      "learning_rate": 0.00042769168035839593,
      "loss": 5.2012,
      "mean_token_accuracy": 0.18758673816919327,
      "num_tokens": 59006138.0,
      "step": 31990
    },
    {
      "entropy": 5.435510873794556,
      "epoch": 2.6880067212770427,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004276696838467923,
      "loss": 5.067,
      "mean_token_accuracy": 0.19309657365083693,
      "num_tokens": 59015352.0,
      "step": 31995
    },
    {
      "entropy": 5.536050081253052,
      "epoch": 2.6884268010922074,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004276476846307237,
      "loss": 5.1394,
      "mean_token_accuracy": 0.19312843829393386,
      "num_tokens": 59024150.0,
      "step": 32000
    },
    {
      "entropy": 5.401519680023194,
      "epoch": 2.6888468809073727,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004276256827105802,
      "loss": 5.0568,
      "mean_token_accuracy": 0.19748203009366988,
      "num_tokens": 59033031.0,
      "step": 32005
    },
    {
      "entropy": 5.5632641315460205,
      "epoch": 2.689266960722537,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004276036780867511,
      "loss": 5.2168,
      "mean_token_accuracy": 0.1844797819852829,
      "num_tokens": 59041777.0,
      "step": 32010
    },
    {
      "entropy": 5.52613935470581,
      "epoch": 2.6896870405377022,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00042758167075962646,
      "loss": 5.147,
      "mean_token_accuracy": 0.2021887257695198,
      "num_tokens": 59049954.0,
      "step": 32015
    },
    {
      "entropy": 5.479363346099854,
      "epoch": 2.690107120352867,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00042755966072959613,
      "loss": 5.2388,
      "mean_token_accuracy": 0.1858629211783409,
      "num_tokens": 59058490.0,
      "step": 32020
    },
    {
      "entropy": 5.573346662521362,
      "epoch": 2.690527200168032,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00042753764799705,
      "loss": 5.172,
      "mean_token_accuracy": 0.1949906051158905,
      "num_tokens": 59066855.0,
      "step": 32025
    },
    {
      "entropy": 5.528661775588989,
      "epoch": 2.690947279983197,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004275156325623779,
      "loss": 5.1554,
      "mean_token_accuracy": 0.18438617289066314,
      "num_tokens": 59077160.0,
      "step": 32030
    },
    {
      "entropy": 5.541542196273804,
      "epoch": 2.691367359798362,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004274936144259699,
      "loss": 5.1934,
      "mean_token_accuracy": 0.18539103418588637,
      "num_tokens": 59086001.0,
      "step": 32035
    },
    {
      "entropy": 5.480588674545288,
      "epoch": 2.6917874396135266,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00042747159358821614,
      "loss": 5.1122,
      "mean_token_accuracy": 0.18840526938438415,
      "num_tokens": 59095140.0,
      "step": 32040
    },
    {
      "entropy": 5.4794799327850345,
      "epoch": 2.6922075194286914,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004274495700495065,
      "loss": 5.0565,
      "mean_token_accuracy": 0.19380540847778321,
      "num_tokens": 59103832.0,
      "step": 32045
    },
    {
      "entropy": 5.456091117858887,
      "epoch": 2.692627599243856,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00042742754381023136,
      "loss": 5.0566,
      "mean_token_accuracy": 0.1943239986896515,
      "num_tokens": 59112555.0,
      "step": 32050
    },
    {
      "entropy": 5.474074745178223,
      "epoch": 2.6930476790590214,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00042740551487078067,
      "loss": 5.0917,
      "mean_token_accuracy": 0.18809391260147096,
      "num_tokens": 59122001.0,
      "step": 32055
    },
    {
      "entropy": 5.4939416408538815,
      "epoch": 2.693467758874186,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004273834832315448,
      "loss": 5.1104,
      "mean_token_accuracy": 0.19263185262680055,
      "num_tokens": 59130396.0,
      "step": 32060
    },
    {
      "entropy": 5.544941234588623,
      "epoch": 2.693887838689351,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000427361448892914,
      "loss": 5.2141,
      "mean_token_accuracy": 0.18485944867134094,
      "num_tokens": 59139877.0,
      "step": 32065
    },
    {
      "entropy": 5.487826824188232,
      "epoch": 2.694307918504516,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00042733941185527845,
      "loss": 5.14,
      "mean_token_accuracy": 0.19104765057563783,
      "num_tokens": 59148079.0,
      "step": 32070
    },
    {
      "entropy": 5.535975551605224,
      "epoch": 2.6947279983196806,
      "grad_norm": 1.15625,
      "learning_rate": 0.00042731737211902887,
      "loss": 5.0542,
      "mean_token_accuracy": 0.19436222463846206,
      "num_tokens": 59156469.0,
      "step": 32075
    },
    {
      "entropy": 5.523702955245971,
      "epoch": 2.695148078134846,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004272953296845554,
      "loss": 5.1231,
      "mean_token_accuracy": 0.19055446833372117,
      "num_tokens": 59166004.0,
      "step": 32080
    },
    {
      "entropy": 5.531969594955444,
      "epoch": 2.6955681579500106,
      "grad_norm": 1.09375,
      "learning_rate": 0.00042727328455224856,
      "loss": 5.2039,
      "mean_token_accuracy": 0.18869642466306685,
      "num_tokens": 59176669.0,
      "step": 32085
    },
    {
      "entropy": 5.502488470077514,
      "epoch": 2.6959882377651754,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00042725123672249883,
      "loss": 5.2002,
      "mean_token_accuracy": 0.1777956709265709,
      "num_tokens": 59186434.0,
      "step": 32090
    },
    {
      "entropy": 5.545776510238648,
      "epoch": 2.69640831758034,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00042722918619569693,
      "loss": 5.143,
      "mean_token_accuracy": 0.19044192433357238,
      "num_tokens": 59196959.0,
      "step": 32095
    },
    {
      "entropy": 5.503176832199097,
      "epoch": 2.696828397395505,
      "grad_norm": 1.03125,
      "learning_rate": 0.00042720713297223335,
      "loss": 5.1751,
      "mean_token_accuracy": 0.19509955644607543,
      "num_tokens": 59206193.0,
      "step": 32100
    },
    {
      "entropy": 5.546988391876221,
      "epoch": 2.69724847721067,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004271850770524988,
      "loss": 5.2124,
      "mean_token_accuracy": 0.18815256506204606,
      "num_tokens": 59214841.0,
      "step": 32105
    },
    {
      "entropy": 5.504896926879883,
      "epoch": 2.697668557025835,
      "grad_norm": 1.046875,
      "learning_rate": 0.000427163018436884,
      "loss": 5.0605,
      "mean_token_accuracy": 0.20411996245384217,
      "num_tokens": 59223929.0,
      "step": 32110
    },
    {
      "entropy": 5.4086226463317875,
      "epoch": 2.6980886368409998,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004271409571257797,
      "loss": 5.1188,
      "mean_token_accuracy": 0.19527552723884584,
      "num_tokens": 59234159.0,
      "step": 32115
    },
    {
      "entropy": 5.53556547164917,
      "epoch": 2.6985087166561645,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004271188931195766,
      "loss": 5.1891,
      "mean_token_accuracy": 0.19035711288452148,
      "num_tokens": 59243642.0,
      "step": 32120
    },
    {
      "entropy": 5.565714931488037,
      "epoch": 2.6989287964713293,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004270968264186656,
      "loss": 5.2052,
      "mean_token_accuracy": 0.18331160247325898,
      "num_tokens": 59253164.0,
      "step": 32125
    },
    {
      "entropy": 5.562779283523559,
      "epoch": 2.6993488762864946,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00042707475702343775,
      "loss": 5.1685,
      "mean_token_accuracy": 0.19206316471099855,
      "num_tokens": 59261697.0,
      "step": 32130
    },
    {
      "entropy": 5.558929347991944,
      "epoch": 2.6997689561016593,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00042705268493428385,
      "loss": 5.2234,
      "mean_token_accuracy": 0.18469423651695252,
      "num_tokens": 59271583.0,
      "step": 32135
    },
    {
      "entropy": 5.485651254653931,
      "epoch": 2.700189035916824,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00042703061015159495,
      "loss": 5.1343,
      "mean_token_accuracy": 0.18612797558307648,
      "num_tokens": 59281024.0,
      "step": 32140
    },
    {
      "entropy": 5.446543407440186,
      "epoch": 2.700609115731989,
      "grad_norm": 1.25,
      "learning_rate": 0.00042700853267576205,
      "loss": 5.0827,
      "mean_token_accuracy": 0.19838642776012422,
      "num_tokens": 59289719.0,
      "step": 32145
    },
    {
      "entropy": 5.495032262802124,
      "epoch": 2.7010291955471537,
      "grad_norm": 1.078125,
      "learning_rate": 0.00042698645250717623,
      "loss": 5.0728,
      "mean_token_accuracy": 0.20161413103342057,
      "num_tokens": 59299242.0,
      "step": 32150
    },
    {
      "entropy": 5.5463203430175785,
      "epoch": 2.701449275362319,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004269643696462287,
      "loss": 5.2267,
      "mean_token_accuracy": 0.18648971766233444,
      "num_tokens": 59308075.0,
      "step": 32155
    },
    {
      "entropy": 5.5361980438232425,
      "epoch": 2.7018693551774837,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00042694228409331065,
      "loss": 5.1832,
      "mean_token_accuracy": 0.18274750262498857,
      "num_tokens": 59317347.0,
      "step": 32160
    },
    {
      "entropy": 5.549434566497803,
      "epoch": 2.7022894349926485,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00042692019584881325,
      "loss": 5.1924,
      "mean_token_accuracy": 0.18794670104980468,
      "num_tokens": 59327237.0,
      "step": 32165
    },
    {
      "entropy": 5.560223865509033,
      "epoch": 2.7027095148078137,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004268981049131278,
      "loss": 5.0488,
      "mean_token_accuracy": 0.19761396944522858,
      "num_tokens": 59335769.0,
      "step": 32170
    },
    {
      "entropy": 5.495412921905517,
      "epoch": 2.7031295946229785,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004268760112866456,
      "loss": 5.1416,
      "mean_token_accuracy": 0.19815137088298798,
      "num_tokens": 59344677.0,
      "step": 32175
    },
    {
      "entropy": 5.531300401687622,
      "epoch": 2.7035496744381433,
      "grad_norm": 1.109375,
      "learning_rate": 0.00042685391496975804,
      "loss": 5.2051,
      "mean_token_accuracy": 0.18210283517837525,
      "num_tokens": 59354089.0,
      "step": 32180
    },
    {
      "entropy": 5.547787809371949,
      "epoch": 2.703969754253308,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004268318159628567,
      "loss": 5.2626,
      "mean_token_accuracy": 0.17912011444568635,
      "num_tokens": 59362965.0,
      "step": 32185
    },
    {
      "entropy": 5.556027936935425,
      "epoch": 2.704389834068473,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004268097142663329,
      "loss": 5.1443,
      "mean_token_accuracy": 0.18544437140226364,
      "num_tokens": 59372137.0,
      "step": 32190
    },
    {
      "entropy": 5.5214704990386965,
      "epoch": 2.704809913883638,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004267876098805781,
      "loss": 5.1156,
      "mean_token_accuracy": 0.19306689798831939,
      "num_tokens": 59381269.0,
      "step": 32195
    },
    {
      "entropy": 5.475510215759277,
      "epoch": 2.705229993698803,
      "grad_norm": 1.140625,
      "learning_rate": 0.000426765502805984,
      "loss": 5.0928,
      "mean_token_accuracy": 0.192424476146698,
      "num_tokens": 59389713.0,
      "step": 32200
    },
    {
      "entropy": 5.551198530197143,
      "epoch": 2.7056500735139677,
      "grad_norm": 1.125,
      "learning_rate": 0.00042674339304294215,
      "loss": 5.1781,
      "mean_token_accuracy": 0.18733997493982316,
      "num_tokens": 59399756.0,
      "step": 32205
    },
    {
      "entropy": 5.5207396984100345,
      "epoch": 2.7060701533291325,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004267212805918442,
      "loss": 5.1585,
      "mean_token_accuracy": 0.18896391242742538,
      "num_tokens": 59408504.0,
      "step": 32210
    },
    {
      "entropy": 5.394768238067627,
      "epoch": 2.7064902331442973,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00042669916545308196,
      "loss": 5.0673,
      "mean_token_accuracy": 0.19746910482645036,
      "num_tokens": 59417241.0,
      "step": 32215
    },
    {
      "entropy": 5.41165337562561,
      "epoch": 2.7069103129594625,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004266770476270471,
      "loss": 5.0572,
      "mean_token_accuracy": 0.19736387431621552,
      "num_tokens": 59426730.0,
      "step": 32220
    },
    {
      "entropy": 5.477003669738769,
      "epoch": 2.7073303927746273,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004266549271141314,
      "loss": 5.0227,
      "mean_token_accuracy": 0.19999369084835053,
      "num_tokens": 59435197.0,
      "step": 32225
    },
    {
      "entropy": 5.423827505111694,
      "epoch": 2.707750472589792,
      "grad_norm": 1.0,
      "learning_rate": 0.00042663280391472676,
      "loss": 5.1129,
      "mean_token_accuracy": 0.19266332387924195,
      "num_tokens": 59444684.0,
      "step": 32230
    },
    {
      "entropy": 5.44116849899292,
      "epoch": 2.708170552404957,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004266106780292251,
      "loss": 5.0421,
      "mean_token_accuracy": 0.1930217444896698,
      "num_tokens": 59453869.0,
      "step": 32235
    },
    {
      "entropy": 5.488416290283203,
      "epoch": 2.7085906322201216,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00042658854945801835,
      "loss": 5.0849,
      "mean_token_accuracy": 0.19126610606908798,
      "num_tokens": 59462713.0,
      "step": 32240
    },
    {
      "entropy": 5.520013093948364,
      "epoch": 2.709010712035287,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004265664182014985,
      "loss": 5.166,
      "mean_token_accuracy": 0.19304297864437103,
      "num_tokens": 59471636.0,
      "step": 32245
    },
    {
      "entropy": 5.438134336471558,
      "epoch": 2.7094307918504517,
      "grad_norm": 1.015625,
      "learning_rate": 0.00042654428426005755,
      "loss": 5.0837,
      "mean_token_accuracy": 0.1953807830810547,
      "num_tokens": 59480871.0,
      "step": 32250
    },
    {
      "entropy": 5.525129985809326,
      "epoch": 2.7098508716656164,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004265221476340877,
      "loss": 5.152,
      "mean_token_accuracy": 0.18774610608816147,
      "num_tokens": 59489483.0,
      "step": 32255
    },
    {
      "entropy": 5.463180208206177,
      "epoch": 2.7102709514807812,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000426500008323981,
      "loss": 5.0382,
      "mean_token_accuracy": 0.19121588319540023,
      "num_tokens": 59498369.0,
      "step": 32260
    },
    {
      "entropy": 5.548600530624389,
      "epoch": 2.710691031295946,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004264778663301296,
      "loss": 5.1717,
      "mean_token_accuracy": 0.19113343954086304,
      "num_tokens": 59507611.0,
      "step": 32265
    },
    {
      "entropy": 5.487517642974853,
      "epoch": 2.7111111111111112,
      "grad_norm": 1.046875,
      "learning_rate": 0.00042645572165292596,
      "loss": 5.1026,
      "mean_token_accuracy": 0.19018220156431198,
      "num_tokens": 59517842.0,
      "step": 32270
    },
    {
      "entropy": 5.461910343170166,
      "epoch": 2.711531190926276,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004264335742927621,
      "loss": 5.1385,
      "mean_token_accuracy": 0.1877092808485031,
      "num_tokens": 59527081.0,
      "step": 32275
    },
    {
      "entropy": 5.4827563762664795,
      "epoch": 2.711951270741441,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004264114242500304,
      "loss": 5.2377,
      "mean_token_accuracy": 0.18913124203681947,
      "num_tokens": 59535862.0,
      "step": 32280
    },
    {
      "entropy": 5.5397951126098635,
      "epoch": 2.7123713505566056,
      "grad_norm": 1.09375,
      "learning_rate": 0.00042638927152512335,
      "loss": 5.0755,
      "mean_token_accuracy": 0.1927748590707779,
      "num_tokens": 59544417.0,
      "step": 32285
    },
    {
      "entropy": 5.51967134475708,
      "epoch": 2.7127914303717704,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004263671161184333,
      "loss": 5.1072,
      "mean_token_accuracy": 0.19049109816551207,
      "num_tokens": 59554089.0,
      "step": 32290
    },
    {
      "entropy": 5.543796730041504,
      "epoch": 2.7132115101869356,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00042634495803035274,
      "loss": 5.1797,
      "mean_token_accuracy": 0.1915469288825989,
      "num_tokens": 59563049.0,
      "step": 32295
    },
    {
      "entropy": 5.381501483917236,
      "epoch": 2.7136315900021004,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00042632279726127417,
      "loss": 5.004,
      "mean_token_accuracy": 0.19829919189214706,
      "num_tokens": 59571677.0,
      "step": 32300
    },
    {
      "entropy": 5.506620693206787,
      "epoch": 2.714051669817265,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004263006338115902,
      "loss": 5.1866,
      "mean_token_accuracy": 0.18170081079006195,
      "num_tokens": 59580859.0,
      "step": 32305
    },
    {
      "entropy": 5.484807252883911,
      "epoch": 2.7144717496324304,
      "grad_norm": 1.125,
      "learning_rate": 0.0004262784676816933,
      "loss": 5.0735,
      "mean_token_accuracy": 0.1962905630469322,
      "num_tokens": 59590495.0,
      "step": 32310
    },
    {
      "entropy": 5.526616764068604,
      "epoch": 2.7148918294475948,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004262562988719763,
      "loss": 5.198,
      "mean_token_accuracy": 0.18103057742118836,
      "num_tokens": 59599647.0,
      "step": 32315
    },
    {
      "entropy": 5.594880628585815,
      "epoch": 2.71531190926276,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00042623412738283193,
      "loss": 5.3077,
      "mean_token_accuracy": 0.17943628877401352,
      "num_tokens": 59609762.0,
      "step": 32320
    },
    {
      "entropy": 5.5695405960083,
      "epoch": 2.715731989077925,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0004262119532146528,
      "loss": 5.2481,
      "mean_token_accuracy": 0.18445321172475815,
      "num_tokens": 59618849.0,
      "step": 32325
    },
    {
      "entropy": 5.590132427215576,
      "epoch": 2.7161520688930896,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004261897763678318,
      "loss": 5.1637,
      "mean_token_accuracy": 0.18754151612520217,
      "num_tokens": 59628205.0,
      "step": 32330
    },
    {
      "entropy": 5.443504667282104,
      "epoch": 2.716572148708255,
      "grad_norm": 1.140625,
      "learning_rate": 0.00042616759684276176,
      "loss": 5.1319,
      "mean_token_accuracy": 0.19118031561374665,
      "num_tokens": 59637418.0,
      "step": 32335
    },
    {
      "entropy": 5.479847860336304,
      "epoch": 2.7169922285234196,
      "grad_norm": 1.140625,
      "learning_rate": 0.00042614541463983555,
      "loss": 5.0763,
      "mean_token_accuracy": 0.19885910004377366,
      "num_tokens": 59646622.0,
      "step": 32340
    },
    {
      "entropy": 5.528528833389283,
      "epoch": 2.7174123083385844,
      "grad_norm": 1.34375,
      "learning_rate": 0.00042612322975944615,
      "loss": 5.2118,
      "mean_token_accuracy": 0.18919140994548797,
      "num_tokens": 59655802.0,
      "step": 32345
    },
    {
      "entropy": 5.467700052261352,
      "epoch": 2.717832388153749,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004261010422019866,
      "loss": 5.122,
      "mean_token_accuracy": 0.200204236805439,
      "num_tokens": 59664479.0,
      "step": 32350
    },
    {
      "entropy": 5.471924114227295,
      "epoch": 2.718252467968914,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00042607885196784977,
      "loss": 5.1616,
      "mean_token_accuracy": 0.18732985854148865,
      "num_tokens": 59673794.0,
      "step": 32355
    },
    {
      "entropy": 5.52311954498291,
      "epoch": 2.718672547784079,
      "grad_norm": 1.09375,
      "learning_rate": 0.00042605665905742903,
      "loss": 5.1446,
      "mean_token_accuracy": 0.1900731936097145,
      "num_tokens": 59682865.0,
      "step": 32360
    },
    {
      "entropy": 5.537504053115844,
      "epoch": 2.719092627599244,
      "grad_norm": 1.09375,
      "learning_rate": 0.00042603446347111727,
      "loss": 5.1712,
      "mean_token_accuracy": 0.18773337006568908,
      "num_tokens": 59692768.0,
      "step": 32365
    },
    {
      "entropy": 5.560811328887939,
      "epoch": 2.7195127074144088,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004260122652093077,
      "loss": 5.2203,
      "mean_token_accuracy": 0.17865605503320695,
      "num_tokens": 59702504.0,
      "step": 32370
    },
    {
      "entropy": 5.5044793605804445,
      "epoch": 2.7199327872295735,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004259900642723938,
      "loss": 5.1272,
      "mean_token_accuracy": 0.19321154057979584,
      "num_tokens": 59712162.0,
      "step": 32375
    },
    {
      "entropy": 5.480482578277588,
      "epoch": 2.7203528670447383,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00042596786066076853,
      "loss": 5.0413,
      "mean_token_accuracy": 0.19717402309179305,
      "num_tokens": 59720984.0,
      "step": 32380
    },
    {
      "entropy": 5.5122718334198,
      "epoch": 2.7207729468599036,
      "grad_norm": 1.046875,
      "learning_rate": 0.00042594565437482543,
      "loss": 5.1213,
      "mean_token_accuracy": 0.19708336293697357,
      "num_tokens": 59730338.0,
      "step": 32385
    },
    {
      "entropy": 5.520055866241455,
      "epoch": 2.7211930266750683,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00042592344541495766,
      "loss": 5.2163,
      "mean_token_accuracy": 0.1902167782187462,
      "num_tokens": 59739504.0,
      "step": 32390
    },
    {
      "entropy": 5.511720848083496,
      "epoch": 2.721613106490233,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004259012337815588,
      "loss": 5.0548,
      "mean_token_accuracy": 0.19298285990953445,
      "num_tokens": 59747975.0,
      "step": 32395
    },
    {
      "entropy": 5.585185813903808,
      "epoch": 2.722033186305398,
      "grad_norm": 1.125,
      "learning_rate": 0.00042587901947502234,
      "loss": 5.2233,
      "mean_token_accuracy": 0.18600738048553467,
      "num_tokens": 59756351.0,
      "step": 32400
    },
    {
      "entropy": 5.423395299911499,
      "epoch": 2.7224532661205627,
      "grad_norm": 1.078125,
      "learning_rate": 0.00042585680249574174,
      "loss": 5.0205,
      "mean_token_accuracy": 0.1861748680472374,
      "num_tokens": 59764528.0,
      "step": 32405
    },
    {
      "entropy": 5.501670503616333,
      "epoch": 2.722873345935728,
      "grad_norm": 1.09375,
      "learning_rate": 0.00042583458284411053,
      "loss": 5.1288,
      "mean_token_accuracy": 0.18831104934215545,
      "num_tokens": 59773348.0,
      "step": 32410
    },
    {
      "entropy": 5.457783937454224,
      "epoch": 2.7232934257508927,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00042581236052052237,
      "loss": 5.1322,
      "mean_token_accuracy": 0.19076666384935378,
      "num_tokens": 59782817.0,
      "step": 32415
    },
    {
      "entropy": 5.495490646362304,
      "epoch": 2.7237135055660575,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00042579013552537093,
      "loss": 5.177,
      "mean_token_accuracy": 0.18139076679944993,
      "num_tokens": 59792798.0,
      "step": 32420
    },
    {
      "entropy": 5.537419939041138,
      "epoch": 2.7241335853812223,
      "grad_norm": 1.140625,
      "learning_rate": 0.00042576790785904984,
      "loss": 5.2129,
      "mean_token_accuracy": 0.18909365236759185,
      "num_tokens": 59802152.0,
      "step": 32425
    },
    {
      "entropy": 5.513925313949585,
      "epoch": 2.724553665196387,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004257456775219529,
      "loss": 5.0671,
      "mean_token_accuracy": 0.19678291380405427,
      "num_tokens": 59811415.0,
      "step": 32430
    },
    {
      "entropy": 5.494617938995361,
      "epoch": 2.7249737450115523,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00042572344451447387,
      "loss": 5.1195,
      "mean_token_accuracy": 0.18683870136737823,
      "num_tokens": 59820246.0,
      "step": 32435
    },
    {
      "entropy": 5.4859192848205565,
      "epoch": 2.725393824826717,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00042570120883700667,
      "loss": 5.1514,
      "mean_token_accuracy": 0.19427174776792527,
      "num_tokens": 59829258.0,
      "step": 32440
    },
    {
      "entropy": 5.551913070678711,
      "epoch": 2.725813904641882,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00042567897048994527,
      "loss": 5.1629,
      "mean_token_accuracy": 0.1912239044904709,
      "num_tokens": 59838442.0,
      "step": 32445
    },
    {
      "entropy": 5.509301280975341,
      "epoch": 2.7262339844570467,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00042565672947368334,
      "loss": 5.1746,
      "mean_token_accuracy": 0.18840901255607606,
      "num_tokens": 59847696.0,
      "step": 32450
    },
    {
      "entropy": 5.484036207199097,
      "epoch": 2.7266540642722115,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004256344857886151,
      "loss": 5.1252,
      "mean_token_accuracy": 0.1853390485048294,
      "num_tokens": 59856074.0,
      "step": 32455
    },
    {
      "entropy": 5.614726781845093,
      "epoch": 2.7270741440873767,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004256122394351344,
      "loss": 5.318,
      "mean_token_accuracy": 0.17645250558853148,
      "num_tokens": 59866113.0,
      "step": 32460
    },
    {
      "entropy": 5.627318096160889,
      "epoch": 2.7274942239025415,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004255899904136356,
      "loss": 5.178,
      "mean_token_accuracy": 0.18889697045087814,
      "num_tokens": 59875175.0,
      "step": 32465
    },
    {
      "entropy": 5.536414527893067,
      "epoch": 2.7279143037177063,
      "grad_norm": 1.09375,
      "learning_rate": 0.00042556773872451256,
      "loss": 5.1766,
      "mean_token_accuracy": 0.18583211302757263,
      "num_tokens": 59884690.0,
      "step": 32470
    },
    {
      "entropy": 5.471788787841797,
      "epoch": 2.7283343835328715,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00042554548436815956,
      "loss": 5.1725,
      "mean_token_accuracy": 0.1923118144273758,
      "num_tokens": 59893711.0,
      "step": 32475
    },
    {
      "entropy": 5.487539958953858,
      "epoch": 2.7287544633480363,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00042552322734497084,
      "loss": 5.1137,
      "mean_token_accuracy": 0.1889615923166275,
      "num_tokens": 59902552.0,
      "step": 32480
    },
    {
      "entropy": 5.541813230514526,
      "epoch": 2.729174543163201,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004255009676553406,
      "loss": 5.1314,
      "mean_token_accuracy": 0.19435261636972428,
      "num_tokens": 59912832.0,
      "step": 32485
    },
    {
      "entropy": 5.4968709468841555,
      "epoch": 2.729594622978366,
      "grad_norm": 1.0625,
      "learning_rate": 0.00042547870529966326,
      "loss": 5.1454,
      "mean_token_accuracy": 0.19329885244369507,
      "num_tokens": 59922407.0,
      "step": 32490
    },
    {
      "entropy": 5.475763273239136,
      "epoch": 2.7300147027935306,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004254564402783332,
      "loss": 5.1352,
      "mean_token_accuracy": 0.19636459797620773,
      "num_tokens": 59930619.0,
      "step": 32495
    },
    {
      "entropy": 5.388323450088501,
      "epoch": 2.730434782608696,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004254341725917447,
      "loss": 5.0446,
      "mean_token_accuracy": 0.1970406472682953,
      "num_tokens": 59939386.0,
      "step": 32500
    },
    {
      "entropy": 5.498639678955078,
      "epoch": 2.7308548624238607,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00042541190224029235,
      "loss": 5.1995,
      "mean_token_accuracy": 0.19097101986408233,
      "num_tokens": 59949174.0,
      "step": 32505
    },
    {
      "entropy": 5.548995733261108,
      "epoch": 2.7312749422390254,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004253896292243705,
      "loss": 5.174,
      "mean_token_accuracy": 0.18924199789762497,
      "num_tokens": 59957658.0,
      "step": 32510
    },
    {
      "entropy": 5.417181921005249,
      "epoch": 2.7316950220541902,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004253673535443739,
      "loss": 5.0783,
      "mean_token_accuracy": 0.1997922033071518,
      "num_tokens": 59966441.0,
      "step": 32515
    },
    {
      "entropy": 5.421912384033203,
      "epoch": 2.732115101869355,
      "grad_norm": 1.0625,
      "learning_rate": 0.00042534507520069706,
      "loss": 5.049,
      "mean_token_accuracy": 0.19343101233243942,
      "num_tokens": 59974917.0,
      "step": 32520
    },
    {
      "entropy": 5.490866565704346,
      "epoch": 2.7325351816845203,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004253227941937346,
      "loss": 5.1117,
      "mean_token_accuracy": 0.19077766090631484,
      "num_tokens": 59983931.0,
      "step": 32525
    },
    {
      "entropy": 5.486564826965332,
      "epoch": 2.732955261499685,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00042530051052388124,
      "loss": 5.0652,
      "mean_token_accuracy": 0.18910451084375382,
      "num_tokens": 59992210.0,
      "step": 32530
    },
    {
      "entropy": 5.529584074020386,
      "epoch": 2.73337534131485,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00042527822419153173,
      "loss": 5.2367,
      "mean_token_accuracy": 0.18290263563394546,
      "num_tokens": 60001775.0,
      "step": 32535
    },
    {
      "entropy": 5.605470991134643,
      "epoch": 2.7337954211300146,
      "grad_norm": 1.0,
      "learning_rate": 0.00042525593519708094,
      "loss": 5.3201,
      "mean_token_accuracy": 0.18211833238601685,
      "num_tokens": 60012385.0,
      "step": 32540
    },
    {
      "entropy": 5.526547956466675,
      "epoch": 2.7342155009451794,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004252336435409235,
      "loss": 5.1003,
      "mean_token_accuracy": 0.18949010521173476,
      "num_tokens": 60021745.0,
      "step": 32545
    },
    {
      "entropy": 5.488250398635865,
      "epoch": 2.7346355807603446,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004252113492234545,
      "loss": 5.1182,
      "mean_token_accuracy": 0.193010912835598,
      "num_tokens": 60031359.0,
      "step": 32550
    },
    {
      "entropy": 5.529601049423218,
      "epoch": 2.7350556605755094,
      "grad_norm": 1.03125,
      "learning_rate": 0.00042518905224506876,
      "loss": 5.1977,
      "mean_token_accuracy": 0.18095816373825074,
      "num_tokens": 60041293.0,
      "step": 32555
    },
    {
      "entropy": 5.571140289306641,
      "epoch": 2.735475740390674,
      "grad_norm": 1.1875,
      "learning_rate": 0.00042516675260616135,
      "loss": 5.2959,
      "mean_token_accuracy": 0.1793665200471878,
      "num_tokens": 60050766.0,
      "step": 32560
    },
    {
      "entropy": 5.589223051071167,
      "epoch": 2.735895820205839,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004251444503071272,
      "loss": 5.2168,
      "mean_token_accuracy": 0.1866133376955986,
      "num_tokens": 60060034.0,
      "step": 32565
    },
    {
      "entropy": 5.590306329727173,
      "epoch": 2.7363159000210038,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004251221453483614,
      "loss": 5.2079,
      "mean_token_accuracy": 0.18845759630203246,
      "num_tokens": 60068821.0,
      "step": 32570
    },
    {
      "entropy": 5.495641899108887,
      "epoch": 2.736735979836169,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004250998377302591,
      "loss": 5.1226,
      "mean_token_accuracy": 0.1851772129535675,
      "num_tokens": 60078220.0,
      "step": 32575
    },
    {
      "entropy": 5.442682266235352,
      "epoch": 2.737156059651334,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00042507752745321554,
      "loss": 5.1027,
      "mean_token_accuracy": 0.194226635992527,
      "num_tokens": 60086620.0,
      "step": 32580
    },
    {
      "entropy": 5.536481618881226,
      "epoch": 2.7375761394664986,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004250552145176258,
      "loss": 5.1368,
      "mean_token_accuracy": 0.1961093246936798,
      "num_tokens": 60096208.0,
      "step": 32585
    },
    {
      "entropy": 5.48199234008789,
      "epoch": 2.7379962192816634,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004250328989238852,
      "loss": 5.1085,
      "mean_token_accuracy": 0.18975895941257476,
      "num_tokens": 60105640.0,
      "step": 32590
    },
    {
      "entropy": 5.469611167907715,
      "epoch": 2.738416299096828,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004250105806723891,
      "loss": 5.1584,
      "mean_token_accuracy": 0.1853770360350609,
      "num_tokens": 60114824.0,
      "step": 32595
    },
    {
      "entropy": 5.606094789505005,
      "epoch": 2.7388363789119934,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004249882597635328,
      "loss": 5.2383,
      "mean_token_accuracy": 0.187895730137825,
      "num_tokens": 60124453.0,
      "step": 32600
    },
    {
      "entropy": 5.59290771484375,
      "epoch": 2.739256458727158,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004249659361977116,
      "loss": 5.2341,
      "mean_token_accuracy": 0.181234672665596,
      "num_tokens": 60134515.0,
      "step": 32605
    },
    {
      "entropy": 5.492084741592407,
      "epoch": 2.739676538542323,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00042494360997532123,
      "loss": 5.1211,
      "mean_token_accuracy": 0.1906079575419426,
      "num_tokens": 60143738.0,
      "step": 32610
    },
    {
      "entropy": 5.481599807739258,
      "epoch": 2.740096618357488,
      "grad_norm": 0.98828125,
      "learning_rate": 0.0004249212810967569,
      "loss": 5.1604,
      "mean_token_accuracy": 0.19371348470449448,
      "num_tokens": 60154378.0,
      "step": 32615
    },
    {
      "entropy": 5.534238576889038,
      "epoch": 2.7405166981726525,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004248989495624143,
      "loss": 5.2105,
      "mean_token_accuracy": 0.18124944418668748,
      "num_tokens": 60165174.0,
      "step": 32620
    },
    {
      "entropy": 5.5479700565338135,
      "epoch": 2.7409367779878178,
      "grad_norm": 1.0625,
      "learning_rate": 0.00042487661537268903,
      "loss": 5.1144,
      "mean_token_accuracy": 0.19148980528116227,
      "num_tokens": 60174954.0,
      "step": 32625
    },
    {
      "entropy": 5.596116638183593,
      "epoch": 2.7413568578029825,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004248542785279766,
      "loss": 5.2777,
      "mean_token_accuracy": 0.18008917421102524,
      "num_tokens": 60183879.0,
      "step": 32630
    },
    {
      "entropy": 5.577101135253907,
      "epoch": 2.7417769376181473,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004248319390286729,
      "loss": 5.1771,
      "mean_token_accuracy": 0.18558914512395858,
      "num_tokens": 60192824.0,
      "step": 32635
    },
    {
      "entropy": 5.528452014923095,
      "epoch": 2.7421970174333126,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00042480959687517353,
      "loss": 5.2019,
      "mean_token_accuracy": 0.18577608466148376,
      "num_tokens": 60201337.0,
      "step": 32640
    },
    {
      "entropy": 5.543659687042236,
      "epoch": 2.7426170972484774,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00042478725206787426,
      "loss": 5.2288,
      "mean_token_accuracy": 0.18760357946157455,
      "num_tokens": 60210622.0,
      "step": 32645
    },
    {
      "entropy": 5.484847688674927,
      "epoch": 2.743037177063642,
      "grad_norm": 1.125,
      "learning_rate": 0.00042476490460717086,
      "loss": 5.1222,
      "mean_token_accuracy": 0.19325744062662126,
      "num_tokens": 60220121.0,
      "step": 32650
    },
    {
      "entropy": 5.441361570358277,
      "epoch": 2.743457256878807,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00042474255449345943,
      "loss": 5.0744,
      "mean_token_accuracy": 0.1884977012872696,
      "num_tokens": 60228305.0,
      "step": 32655
    },
    {
      "entropy": 5.4978515625,
      "epoch": 2.7438773366939717,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004247202017271357,
      "loss": 5.2503,
      "mean_token_accuracy": 0.18103688359260559,
      "num_tokens": 60237560.0,
      "step": 32660
    },
    {
      "entropy": 5.488110303878784,
      "epoch": 2.744297416509137,
      "grad_norm": 1.125,
      "learning_rate": 0.00042469784630859577,
      "loss": 5.0983,
      "mean_token_accuracy": 0.19624828845262526,
      "num_tokens": 60247254.0,
      "step": 32665
    },
    {
      "entropy": 5.561001539230347,
      "epoch": 2.7447174963243017,
      "grad_norm": 1.25,
      "learning_rate": 0.0004246754882382355,
      "loss": 5.1988,
      "mean_token_accuracy": 0.1787947416305542,
      "num_tokens": 60256286.0,
      "step": 32670
    },
    {
      "entropy": 5.569347858428955,
      "epoch": 2.7451375761394665,
      "grad_norm": 1.0625,
      "learning_rate": 0.000424653127516451,
      "loss": 5.2205,
      "mean_token_accuracy": 0.18646084666252136,
      "num_tokens": 60265984.0,
      "step": 32675
    },
    {
      "entropy": 5.482955646514893,
      "epoch": 2.7455576559546313,
      "grad_norm": 1.078125,
      "learning_rate": 0.00042463076414363845,
      "loss": 5.1538,
      "mean_token_accuracy": 0.19143000096082688,
      "num_tokens": 60274929.0,
      "step": 32680
    },
    {
      "entropy": 5.43619966506958,
      "epoch": 2.745977735769796,
      "grad_norm": 1.09375,
      "learning_rate": 0.00042460839812019397,
      "loss": 5.1209,
      "mean_token_accuracy": 0.19873330742120743,
      "num_tokens": 60283978.0,
      "step": 32685
    },
    {
      "entropy": 5.500925493240357,
      "epoch": 2.7463978155849613,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00042458602944651377,
      "loss": 5.1709,
      "mean_token_accuracy": 0.1909547507762909,
      "num_tokens": 60292831.0,
      "step": 32690
    },
    {
      "entropy": 5.427049207687378,
      "epoch": 2.746817895400126,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000424563658122994,
      "loss": 4.9816,
      "mean_token_accuracy": 0.19579073786735535,
      "num_tokens": 60302129.0,
      "step": 32695
    },
    {
      "entropy": 5.445233678817749,
      "epoch": 2.747237975215291,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004245412841500311,
      "loss": 5.0292,
      "mean_token_accuracy": 0.19725656360387803,
      "num_tokens": 60310327.0,
      "step": 32700
    },
    {
      "entropy": 5.517823696136475,
      "epoch": 2.7476580550304557,
      "grad_norm": 1.0625,
      "learning_rate": 0.00042451890752802135,
      "loss": 5.1353,
      "mean_token_accuracy": 0.19051516950130462,
      "num_tokens": 60320174.0,
      "step": 32705
    },
    {
      "entropy": 5.512983179092407,
      "epoch": 2.7480781348456205,
      "grad_norm": 1.046875,
      "learning_rate": 0.00042449652825736115,
      "loss": 5.2668,
      "mean_token_accuracy": 0.17661212682723998,
      "num_tokens": 60329901.0,
      "step": 32710
    },
    {
      "entropy": 5.571869659423828,
      "epoch": 2.7484982146607857,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004244741463384469,
      "loss": 5.334,
      "mean_token_accuracy": 0.1754305839538574,
      "num_tokens": 60339219.0,
      "step": 32715
    },
    {
      "entropy": 5.508697509765625,
      "epoch": 2.7489182944759505,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004244517617716751,
      "loss": 5.1566,
      "mean_token_accuracy": 0.1851864993572235,
      "num_tokens": 60348745.0,
      "step": 32720
    },
    {
      "entropy": 5.527063703536987,
      "epoch": 2.7493383742911153,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00042442937455744234,
      "loss": 5.187,
      "mean_token_accuracy": 0.18124708086252211,
      "num_tokens": 60358362.0,
      "step": 32725
    },
    {
      "entropy": 5.569707918167114,
      "epoch": 2.74975845410628,
      "grad_norm": 1.09375,
      "learning_rate": 0.00042440698469614515,
      "loss": 5.1893,
      "mean_token_accuracy": 0.19093824326992034,
      "num_tokens": 60368169.0,
      "step": 32730
    },
    {
      "entropy": 5.615330600738526,
      "epoch": 2.750178533921445,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00042438459218818015,
      "loss": 5.2305,
      "mean_token_accuracy": 0.1766258090734482,
      "num_tokens": 60377710.0,
      "step": 32735
    },
    {
      "entropy": 5.3946802616119385,
      "epoch": 2.75059861373661,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004243621970339441,
      "loss": 5.0666,
      "mean_token_accuracy": 0.1917450413107872,
      "num_tokens": 60387138.0,
      "step": 32740
    },
    {
      "entropy": 5.537346458435058,
      "epoch": 2.751018693551775,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004243397992338335,
      "loss": 5.2448,
      "mean_token_accuracy": 0.18444229960441588,
      "num_tokens": 60397271.0,
      "step": 32745
    },
    {
      "entropy": 5.617393684387207,
      "epoch": 2.7514387733669396,
      "grad_norm": 1.03125,
      "learning_rate": 0.00042431739878824533,
      "loss": 5.2314,
      "mean_token_accuracy": 0.18078678995370864,
      "num_tokens": 60407058.0,
      "step": 32750
    },
    {
      "entropy": 5.558119821548462,
      "epoch": 2.7518588531821044,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00042429499569757634,
      "loss": 5.189,
      "mean_token_accuracy": 0.19019585698843003,
      "num_tokens": 60416455.0,
      "step": 32755
    },
    {
      "entropy": 5.435431337356567,
      "epoch": 2.7522789329972692,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004242725899622234,
      "loss": 5.1659,
      "mean_token_accuracy": 0.19023742526769638,
      "num_tokens": 60425943.0,
      "step": 32760
    },
    {
      "entropy": 5.549010848999023,
      "epoch": 2.7526990128124345,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004242501815825833,
      "loss": 5.2733,
      "mean_token_accuracy": 0.17894731760025023,
      "num_tokens": 60435649.0,
      "step": 32765
    },
    {
      "entropy": 5.545685911178589,
      "epoch": 2.7531190926275992,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004242277705590531,
      "loss": 5.0732,
      "mean_token_accuracy": 0.1909948021173477,
      "num_tokens": 60445147.0,
      "step": 32770
    },
    {
      "entropy": 5.486676454544067,
      "epoch": 2.753539172442764,
      "grad_norm": 1.171875,
      "learning_rate": 0.00042420535689202975,
      "loss": 5.1811,
      "mean_token_accuracy": 0.18564487993717194,
      "num_tokens": 60455345.0,
      "step": 32775
    },
    {
      "entropy": 5.464388608932495,
      "epoch": 2.7539592522579293,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004241829405819105,
      "loss": 5.1451,
      "mean_token_accuracy": 0.18987516909837723,
      "num_tokens": 60464247.0,
      "step": 32780
    },
    {
      "entropy": 5.5392097473144535,
      "epoch": 2.754379332073094,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004241605216290921,
      "loss": 5.2422,
      "mean_token_accuracy": 0.18268522322177888,
      "num_tokens": 60472703.0,
      "step": 32785
    },
    {
      "entropy": 5.492978191375732,
      "epoch": 2.754799411888259,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000424138100033972,
      "loss": 5.0946,
      "mean_token_accuracy": 0.19168958961963653,
      "num_tokens": 60481895.0,
      "step": 32790
    },
    {
      "entropy": 5.472929620742798,
      "epoch": 2.7552194917034236,
      "grad_norm": 1.125,
      "learning_rate": 0.00042411567579694713,
      "loss": 5.2699,
      "mean_token_accuracy": 0.1799950510263443,
      "num_tokens": 60491477.0,
      "step": 32795
    },
    {
      "entropy": 5.587131309509277,
      "epoch": 2.7556395715185884,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000424093248918415,
      "loss": 5.2261,
      "mean_token_accuracy": 0.1847395971417427,
      "num_tokens": 60500683.0,
      "step": 32800
    },
    {
      "entropy": 5.592820119857788,
      "epoch": 2.7560596513337536,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004240708193987726,
      "loss": 5.1998,
      "mean_token_accuracy": 0.18610698580741883,
      "num_tokens": 60510302.0,
      "step": 32805
    },
    {
      "entropy": 5.3883239269256595,
      "epoch": 2.7564797311489184,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004240483872384175,
      "loss": 5.0568,
      "mean_token_accuracy": 0.19091489762067795,
      "num_tokens": 60518720.0,
      "step": 32810
    },
    {
      "entropy": 5.540193176269531,
      "epoch": 2.756899810964083,
      "grad_norm": 1.046875,
      "learning_rate": 0.00042402595243774686,
      "loss": 5.217,
      "mean_token_accuracy": 0.18941036611795425,
      "num_tokens": 60528800.0,
      "step": 32815
    },
    {
      "entropy": 5.478592872619629,
      "epoch": 2.757319890779248,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00042400351499715825,
      "loss": 5.0272,
      "mean_token_accuracy": 0.19434731900691987,
      "num_tokens": 60537962.0,
      "step": 32820
    },
    {
      "entropy": 5.476925992965699,
      "epoch": 2.757739970594413,
      "grad_norm": 1.0625,
      "learning_rate": 0.00042398107491704916,
      "loss": 5.1481,
      "mean_token_accuracy": 0.19325276762247084,
      "num_tokens": 60547020.0,
      "step": 32825
    },
    {
      "entropy": 5.552495384216309,
      "epoch": 2.758160050409578,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00042395863219781693,
      "loss": 5.1535,
      "mean_token_accuracy": 0.19571975171566008,
      "num_tokens": 60555768.0,
      "step": 32830
    },
    {
      "entropy": 5.458609104156494,
      "epoch": 2.758580130224743,
      "grad_norm": 1.03125,
      "learning_rate": 0.00042393618683985937,
      "loss": 5.1033,
      "mean_token_accuracy": 0.19157058298587798,
      "num_tokens": 60564712.0,
      "step": 32835
    },
    {
      "entropy": 5.453562831878662,
      "epoch": 2.7590002100399076,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004239137388435739,
      "loss": 5.0547,
      "mean_token_accuracy": 0.1909452944993973,
      "num_tokens": 60573315.0,
      "step": 32840
    },
    {
      "entropy": 5.563107299804687,
      "epoch": 2.7594202898550724,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004238912882093581,
      "loss": 5.2959,
      "mean_token_accuracy": 0.17827516347169875,
      "num_tokens": 60582387.0,
      "step": 32845
    },
    {
      "entropy": 5.49106125831604,
      "epoch": 2.759840369670237,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004238688349376099,
      "loss": 5.1177,
      "mean_token_accuracy": 0.1906960904598236,
      "num_tokens": 60592304.0,
      "step": 32850
    },
    {
      "entropy": 5.490115308761597,
      "epoch": 2.7602604494854024,
      "grad_norm": 1.0625,
      "learning_rate": 0.00042384637902872694,
      "loss": 5.148,
      "mean_token_accuracy": 0.18595395535230635,
      "num_tokens": 60602031.0,
      "step": 32855
    },
    {
      "entropy": 5.563278722763061,
      "epoch": 2.760680529300567,
      "grad_norm": 1.28125,
      "learning_rate": 0.000423823920483107,
      "loss": 5.1408,
      "mean_token_accuracy": 0.18822016268968583,
      "num_tokens": 60611313.0,
      "step": 32860
    },
    {
      "entropy": 5.562054777145386,
      "epoch": 2.761100609115732,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004238014593011481,
      "loss": 5.12,
      "mean_token_accuracy": 0.19612104892730714,
      "num_tokens": 60620217.0,
      "step": 32865
    },
    {
      "entropy": 5.416946792602539,
      "epoch": 2.7615206889308967,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00042377899548324774,
      "loss": 5.1261,
      "mean_token_accuracy": 0.1885024920105934,
      "num_tokens": 60629257.0,
      "step": 32870
    },
    {
      "entropy": 5.569584083557129,
      "epoch": 2.7619407687460615,
      "grad_norm": 1.09375,
      "learning_rate": 0.00042375652902980414,
      "loss": 5.2663,
      "mean_token_accuracy": 0.1784951001405716,
      "num_tokens": 60640377.0,
      "step": 32875
    },
    {
      "entropy": 5.625590419769287,
      "epoch": 2.7623608485612268,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004237340599412153,
      "loss": 5.2337,
      "mean_token_accuracy": 0.18224918097257614,
      "num_tokens": 60649794.0,
      "step": 32880
    },
    {
      "entropy": 5.524117040634155,
      "epoch": 2.7627809283763916,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00042371158821787915,
      "loss": 5.2235,
      "mean_token_accuracy": 0.17889872789382935,
      "num_tokens": 60659476.0,
      "step": 32885
    },
    {
      "entropy": 5.547109460830688,
      "epoch": 2.7632010081915563,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004236891138601938,
      "loss": 5.1924,
      "mean_token_accuracy": 0.1842721238732338,
      "num_tokens": 60668386.0,
      "step": 32890
    },
    {
      "entropy": 5.4622180461883545,
      "epoch": 2.763621088006721,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00042366663686855735,
      "loss": 5.1252,
      "mean_token_accuracy": 0.19580145925283432,
      "num_tokens": 60677333.0,
      "step": 32895
    },
    {
      "entropy": 5.466990947723389,
      "epoch": 2.764041167821886,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004236441572433679,
      "loss": 5.1714,
      "mean_token_accuracy": 0.18812146335840224,
      "num_tokens": 60686627.0,
      "step": 32900
    },
    {
      "entropy": 5.4342104434967045,
      "epoch": 2.764461247637051,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004236216749850238,
      "loss": 5.0484,
      "mean_token_accuracy": 0.19730760157108307,
      "num_tokens": 60695510.0,
      "step": 32905
    },
    {
      "entropy": 5.451471567153931,
      "epoch": 2.764881327452216,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004235991900939233,
      "loss": 5.1746,
      "mean_token_accuracy": 0.18866305202245712,
      "num_tokens": 60704852.0,
      "step": 32910
    },
    {
      "entropy": 5.523501873016357,
      "epoch": 2.7653014072673807,
      "grad_norm": 1.046875,
      "learning_rate": 0.00042357670257046464,
      "loss": 5.258,
      "mean_token_accuracy": 0.1878501832485199,
      "num_tokens": 60714649.0,
      "step": 32915
    },
    {
      "entropy": 5.485390567779541,
      "epoch": 2.765721487082546,
      "grad_norm": 1.03125,
      "learning_rate": 0.00042355421241504614,
      "loss": 5.1454,
      "mean_token_accuracy": 0.18071362376213074,
      "num_tokens": 60723960.0,
      "step": 32920
    },
    {
      "entropy": 5.457985067367554,
      "epoch": 2.7661415668977103,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00042353171962806633,
      "loss": 5.1241,
      "mean_token_accuracy": 0.18894348442554473,
      "num_tokens": 60733035.0,
      "step": 32925
    },
    {
      "entropy": 5.585499954223633,
      "epoch": 2.7665616467128755,
      "grad_norm": 1.25,
      "learning_rate": 0.0004235092242099236,
      "loss": 5.1895,
      "mean_token_accuracy": 0.1878058210015297,
      "num_tokens": 60742183.0,
      "step": 32930
    },
    {
      "entropy": 5.49779748916626,
      "epoch": 2.7669817265280403,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004234867261610164,
      "loss": 5.1508,
      "mean_token_accuracy": 0.18840529173612594,
      "num_tokens": 60752163.0,
      "step": 32935
    },
    {
      "entropy": 5.3586818218231205,
      "epoch": 2.767401806343205,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004234642254817433,
      "loss": 5.0076,
      "mean_token_accuracy": 0.2033040463924408,
      "num_tokens": 60760921.0,
      "step": 32940
    },
    {
      "entropy": 5.3651612281799315,
      "epoch": 2.7678218861583703,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00042344172217250294,
      "loss": 5.0394,
      "mean_token_accuracy": 0.20291271060705185,
      "num_tokens": 60769245.0,
      "step": 32945
    },
    {
      "entropy": 5.583138084411621,
      "epoch": 2.768241965973535,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00042341921623369384,
      "loss": 5.2033,
      "mean_token_accuracy": 0.19108508825302123,
      "num_tokens": 60780246.0,
      "step": 32950
    },
    {
      "entropy": 5.565692138671875,
      "epoch": 2.7686620457887,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004233967076657148,
      "loss": 5.2761,
      "mean_token_accuracy": 0.18315211534500123,
      "num_tokens": 60790180.0,
      "step": 32955
    },
    {
      "entropy": 5.4778160572052,
      "epoch": 2.7690821256038647,
      "grad_norm": 1.078125,
      "learning_rate": 0.00042337419646896454,
      "loss": 5.113,
      "mean_token_accuracy": 0.1923173412680626,
      "num_tokens": 60799097.0,
      "step": 32960
    },
    {
      "entropy": 5.5484942436218265,
      "epoch": 2.7695022054190295,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004233516826438417,
      "loss": 5.2266,
      "mean_token_accuracy": 0.18718329817056656,
      "num_tokens": 60808180.0,
      "step": 32965
    },
    {
      "entropy": 5.548680973052979,
      "epoch": 2.7699222852341947,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004233291661907452,
      "loss": 5.2172,
      "mean_token_accuracy": 0.18492037951946258,
      "num_tokens": 60817564.0,
      "step": 32970
    },
    {
      "entropy": 5.521090412139893,
      "epoch": 2.7703423650493595,
      "grad_norm": 1.0625,
      "learning_rate": 0.00042330664711007394,
      "loss": 5.1847,
      "mean_token_accuracy": 0.19097026139497758,
      "num_tokens": 60826461.0,
      "step": 32975
    },
    {
      "entropy": 5.449438953399659,
      "epoch": 2.7707624448645243,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004232841254022267,
      "loss": 5.1256,
      "mean_token_accuracy": 0.19081373512744904,
      "num_tokens": 60836514.0,
      "step": 32980
    },
    {
      "entropy": 5.495569705963135,
      "epoch": 2.771182524679689,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004232616010676026,
      "loss": 5.1563,
      "mean_token_accuracy": 0.1918776422739029,
      "num_tokens": 60846896.0,
      "step": 32985
    },
    {
      "entropy": 5.528952741622925,
      "epoch": 2.771602604494854,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004232390741066007,
      "loss": 5.254,
      "mean_token_accuracy": 0.17992745339870453,
      "num_tokens": 60856629.0,
      "step": 32990
    },
    {
      "entropy": 5.499015855789184,
      "epoch": 2.772022684310019,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004232165445196198,
      "loss": 5.1154,
      "mean_token_accuracy": 0.196100115776062,
      "num_tokens": 60865783.0,
      "step": 32995
    },
    {
      "entropy": 5.503053283691406,
      "epoch": 2.772442764125184,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004231940123070591,
      "loss": 5.1171,
      "mean_token_accuracy": 0.19027782827615738,
      "num_tokens": 60875626.0,
      "step": 33000
    },
    {
      "epoch": 2.772442764125184,
      "eval_entropy": 5.26532346894516,
      "eval_loss": 5.221850872039795,
      "eval_mean_token_accuracy": 0.1954741600659235,
      "eval_num_tokens": 60875626.0,
      "eval_runtime": 27.2393,
      "eval_samples_per_second": 1371.767,
      "eval_steps_per_second": 171.48,
      "step": 33000
    },
    {
      "entropy": 5.419650077819824,
      "epoch": 2.7728628439403487,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004231714774693179,
      "loss": 5.059,
      "mean_token_accuracy": 0.1923991173505783,
      "num_tokens": 60884227.0,
      "step": 33005
    },
    {
      "entropy": 5.402521419525146,
      "epoch": 2.7732829237555134,
      "grad_norm": 1.09375,
      "learning_rate": 0.00042314894000679515,
      "loss": 5.0918,
      "mean_token_accuracy": 0.2012058287858963,
      "num_tokens": 60892937.0,
      "step": 33010
    },
    {
      "entropy": 5.420406866073608,
      "epoch": 2.7737030035706782,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004231263999198903,
      "loss": 5.0585,
      "mean_token_accuracy": 0.19150620698928833,
      "num_tokens": 60901494.0,
      "step": 33015
    },
    {
      "entropy": 5.557015752792358,
      "epoch": 2.7741230833858435,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00042310385720900254,
      "loss": 5.1582,
      "mean_token_accuracy": 0.19145326763391496,
      "num_tokens": 60910708.0,
      "step": 33020
    },
    {
      "entropy": 5.489293003082276,
      "epoch": 2.7745431632010082,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004230813118745312,
      "loss": 5.1868,
      "mean_token_accuracy": 0.188532517850399,
      "num_tokens": 60920042.0,
      "step": 33025
    },
    {
      "entropy": 5.4459045886993405,
      "epoch": 2.774963243016173,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004230587639168757,
      "loss": 5.1055,
      "mean_token_accuracy": 0.1953945443034172,
      "num_tokens": 60930052.0,
      "step": 33030
    },
    {
      "entropy": 5.503060388565063,
      "epoch": 2.775383322831338,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004230362133364354,
      "loss": 5.1474,
      "mean_token_accuracy": 0.1858691930770874,
      "num_tokens": 60939448.0,
      "step": 33035
    },
    {
      "entropy": 5.570564222335816,
      "epoch": 2.7758034026465026,
      "grad_norm": 1.15625,
      "learning_rate": 0.00042301366013360975,
      "loss": 5.2739,
      "mean_token_accuracy": 0.18787156865000726,
      "num_tokens": 60948523.0,
      "step": 33040
    },
    {
      "entropy": 5.5619665622711185,
      "epoch": 2.776223482461668,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004229911043087984,
      "loss": 5.1764,
      "mean_token_accuracy": 0.18692446053028106,
      "num_tokens": 60957527.0,
      "step": 33045
    },
    {
      "entropy": 5.522700929641724,
      "epoch": 2.7766435622768326,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004229685458624009,
      "loss": 5.1772,
      "mean_token_accuracy": 0.18710265457630157,
      "num_tokens": 60966538.0,
      "step": 33050
    },
    {
      "entropy": 5.442922925949096,
      "epoch": 2.7770636420919974,
      "grad_norm": 1.140625,
      "learning_rate": 0.00042294598479481664,
      "loss": 5.0016,
      "mean_token_accuracy": 0.19550456255674362,
      "num_tokens": 60974934.0,
      "step": 33055
    },
    {
      "entropy": 5.464436960220337,
      "epoch": 2.777483721907162,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004229234211064456,
      "loss": 5.1896,
      "mean_token_accuracy": 0.1815264955163002,
      "num_tokens": 60984151.0,
      "step": 33060
    },
    {
      "entropy": 5.457467699050904,
      "epoch": 2.777903801722327,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004229008547976872,
      "loss": 5.1647,
      "mean_token_accuracy": 0.18598568588495254,
      "num_tokens": 60993898.0,
      "step": 33065
    },
    {
      "entropy": 5.440926599502563,
      "epoch": 2.778323881537492,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004228782858689414,
      "loss": 5.0759,
      "mean_token_accuracy": 0.2019492045044899,
      "num_tokens": 61002709.0,
      "step": 33070
    },
    {
      "entropy": 5.530676984786988,
      "epoch": 2.778743961352657,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004228557143206079,
      "loss": 5.1652,
      "mean_token_accuracy": 0.1923561155796051,
      "num_tokens": 61012120.0,
      "step": 33075
    },
    {
      "entropy": 5.509269666671753,
      "epoch": 2.779164041167822,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004228331401530865,
      "loss": 5.088,
      "mean_token_accuracy": 0.20057015120983124,
      "num_tokens": 61021012.0,
      "step": 33080
    },
    {
      "entropy": 5.5382880687713625,
      "epoch": 2.779584120982987,
      "grad_norm": 1.125,
      "learning_rate": 0.00042281056336677714,
      "loss": 5.1688,
      "mean_token_accuracy": 0.18928511887788774,
      "num_tokens": 61031229.0,
      "step": 33085
    },
    {
      "entropy": 5.446176242828369,
      "epoch": 2.780004200798152,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004227879839620798,
      "loss": 5.0833,
      "mean_token_accuracy": 0.19775192737579345,
      "num_tokens": 61040875.0,
      "step": 33090
    },
    {
      "entropy": 5.414700984954834,
      "epoch": 2.7804242806133166,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004227654019393945,
      "loss": 5.1077,
      "mean_token_accuracy": 0.19425052553415298,
      "num_tokens": 61049966.0,
      "step": 33095
    },
    {
      "entropy": 5.546001338958741,
      "epoch": 2.7808443604284814,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004227428172991211,
      "loss": 5.1781,
      "mean_token_accuracy": 0.1798539862036705,
      "num_tokens": 61059263.0,
      "step": 33100
    },
    {
      "entropy": 5.494558191299438,
      "epoch": 2.781264440243646,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004227202300416598,
      "loss": 5.1569,
      "mean_token_accuracy": 0.19556684345006942,
      "num_tokens": 61068413.0,
      "step": 33105
    },
    {
      "entropy": 5.45640344619751,
      "epoch": 2.7816845200588114,
      "grad_norm": 1.1875,
      "learning_rate": 0.00042269764016741065,
      "loss": 5.0971,
      "mean_token_accuracy": 0.19722375124692917,
      "num_tokens": 61078085.0,
      "step": 33110
    },
    {
      "entropy": 5.463348293304444,
      "epoch": 2.782104599873976,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00042267504767677384,
      "loss": 5.099,
      "mean_token_accuracy": 0.19107034355401992,
      "num_tokens": 61086813.0,
      "step": 33115
    },
    {
      "entropy": 5.550022220611572,
      "epoch": 2.782524679689141,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00042265245257014963,
      "loss": 5.1651,
      "mean_token_accuracy": 0.182588854432106,
      "num_tokens": 61097134.0,
      "step": 33120
    },
    {
      "entropy": 5.483772230148316,
      "epoch": 2.7829447595043058,
      "grad_norm": 1.078125,
      "learning_rate": 0.00042262985484793825,
      "loss": 5.1004,
      "mean_token_accuracy": 0.19497378617525102,
      "num_tokens": 61106282.0,
      "step": 33125
    },
    {
      "entropy": 5.588615655899048,
      "epoch": 2.7833648393194705,
      "grad_norm": 1.09375,
      "learning_rate": 0.00042260725451054006,
      "loss": 5.2798,
      "mean_token_accuracy": 0.18287320882081987,
      "num_tokens": 61115792.0,
      "step": 33130
    },
    {
      "entropy": 5.48019118309021,
      "epoch": 2.7837849191346358,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00042258465155835533,
      "loss": 5.2028,
      "mean_token_accuracy": 0.18220615833997728,
      "num_tokens": 61124524.0,
      "step": 33135
    },
    {
      "entropy": 5.519755697250366,
      "epoch": 2.7842049989498006,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004225620459917845,
      "loss": 5.1482,
      "mean_token_accuracy": 0.1936796262860298,
      "num_tokens": 61133587.0,
      "step": 33140
    },
    {
      "entropy": 5.59322681427002,
      "epoch": 2.7846250787649653,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000422539437811228,
      "loss": 5.2299,
      "mean_token_accuracy": 0.18537639826536179,
      "num_tokens": 61142040.0,
      "step": 33145
    },
    {
      "entropy": 5.505942296981812,
      "epoch": 2.78504515858013,
      "grad_norm": 1.109375,
      "learning_rate": 0.00042251682701708633,
      "loss": 5.1454,
      "mean_token_accuracy": 0.18493940979242324,
      "num_tokens": 61151705.0,
      "step": 33150
    },
    {
      "entropy": 5.503108263015747,
      "epoch": 2.785465238395295,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00042249421360976,
      "loss": 5.0965,
      "mean_token_accuracy": 0.18932847827672958,
      "num_tokens": 61159467.0,
      "step": 33155
    },
    {
      "entropy": 5.452883958816528,
      "epoch": 2.78588531821046,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004224715975896497,
      "loss": 5.1478,
      "mean_token_accuracy": 0.18876161873340608,
      "num_tokens": 61169794.0,
      "step": 33160
    },
    {
      "entropy": 5.588238382339478,
      "epoch": 2.786305398025625,
      "grad_norm": 1.078125,
      "learning_rate": 0.000422448978957156,
      "loss": 5.263,
      "mean_token_accuracy": 0.17270570546388625,
      "num_tokens": 61178998.0,
      "step": 33165
    },
    {
      "entropy": 5.578292179107666,
      "epoch": 2.7867254778407897,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00042242635771267946,
      "loss": 5.113,
      "mean_token_accuracy": 0.1952620193362236,
      "num_tokens": 61187969.0,
      "step": 33170
    },
    {
      "entropy": 5.539179086685181,
      "epoch": 2.7871455576559545,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004224037338566209,
      "loss": 5.2434,
      "mean_token_accuracy": 0.17949973940849304,
      "num_tokens": 61198302.0,
      "step": 33175
    },
    {
      "entropy": 5.574012231826782,
      "epoch": 2.7875656374711193,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004223811073893812,
      "loss": 5.2657,
      "mean_token_accuracy": 0.18411405235528946,
      "num_tokens": 61208021.0,
      "step": 33180
    },
    {
      "entropy": 5.567242527008057,
      "epoch": 2.7879857172862845,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00042235847831136096,
      "loss": 5.2347,
      "mean_token_accuracy": 0.18428660482168197,
      "num_tokens": 61216987.0,
      "step": 33185
    },
    {
      "entropy": 5.539680862426758,
      "epoch": 2.7884057971014493,
      "grad_norm": 1.03125,
      "learning_rate": 0.00042233584662296127,
      "loss": 5.1394,
      "mean_token_accuracy": 0.18816847801208497,
      "num_tokens": 61226813.0,
      "step": 33190
    },
    {
      "entropy": 5.471296739578247,
      "epoch": 2.788825876916614,
      "grad_norm": 1.25,
      "learning_rate": 0.0004223132123245828,
      "loss": 5.136,
      "mean_token_accuracy": 0.1894991248846054,
      "num_tokens": 61236954.0,
      "step": 33195
    },
    {
      "entropy": 5.500982999801636,
      "epoch": 2.789245956731779,
      "grad_norm": 1.0625,
      "learning_rate": 0.00042229057541662675,
      "loss": 5.1796,
      "mean_token_accuracy": 0.18310328722000122,
      "num_tokens": 61246134.0,
      "step": 33200
    },
    {
      "entropy": 5.449151611328125,
      "epoch": 2.7896660365469437,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00042226793589949396,
      "loss": 5.0596,
      "mean_token_accuracy": 0.19759368747472764,
      "num_tokens": 61255229.0,
      "step": 33205
    },
    {
      "entropy": 5.496486854553223,
      "epoch": 2.790086116362109,
      "grad_norm": 1.125,
      "learning_rate": 0.00042224529377358545,
      "loss": 5.1834,
      "mean_token_accuracy": 0.18899080157279968,
      "num_tokens": 61263814.0,
      "step": 33210
    },
    {
      "entropy": 5.5116406917572025,
      "epoch": 2.7905061961772737,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004222226490393025,
      "loss": 5.2074,
      "mean_token_accuracy": 0.1880073994398117,
      "num_tokens": 61273669.0,
      "step": 33215
    },
    {
      "entropy": 5.426926326751709,
      "epoch": 2.7909262759924385,
      "grad_norm": 1.0625,
      "learning_rate": 0.00042220000169704606,
      "loss": 5.0032,
      "mean_token_accuracy": 0.19529864490032195,
      "num_tokens": 61282594.0,
      "step": 33220
    },
    {
      "entropy": 5.483434963226318,
      "epoch": 2.7913463558076037,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004221773517472174,
      "loss": 5.1012,
      "mean_token_accuracy": 0.19553681164979936,
      "num_tokens": 61291262.0,
      "step": 33225
    },
    {
      "entropy": 5.421890306472778,
      "epoch": 2.791766435622768,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00042215469919021766,
      "loss": 5.1593,
      "mean_token_accuracy": 0.18894450217485428,
      "num_tokens": 61300562.0,
      "step": 33230
    },
    {
      "entropy": 5.498262548446656,
      "epoch": 2.7921865154379333,
      "grad_norm": 1.125,
      "learning_rate": 0.00042213204402644826,
      "loss": 5.1459,
      "mean_token_accuracy": 0.1889219343662262,
      "num_tokens": 61310522.0,
      "step": 33235
    },
    {
      "entropy": 5.54006872177124,
      "epoch": 2.792606595253098,
      "grad_norm": 1.09375,
      "learning_rate": 0.00042210938625631046,
      "loss": 5.19,
      "mean_token_accuracy": 0.19234640449285506,
      "num_tokens": 61319654.0,
      "step": 33240
    },
    {
      "entropy": 5.47195348739624,
      "epoch": 2.793026675068263,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004220867258802056,
      "loss": 5.138,
      "mean_token_accuracy": 0.19514184147119523,
      "num_tokens": 61329002.0,
      "step": 33245
    },
    {
      "entropy": 5.4467963695526125,
      "epoch": 2.793446754883428,
      "grad_norm": 1.125,
      "learning_rate": 0.0004220640628985352,
      "loss": 5.0908,
      "mean_token_accuracy": 0.1965054988861084,
      "num_tokens": 61338884.0,
      "step": 33250
    },
    {
      "entropy": 5.5481291770935055,
      "epoch": 2.793866834698593,
      "grad_norm": 1.078125,
      "learning_rate": 0.00042204139731170064,
      "loss": 5.1611,
      "mean_token_accuracy": 0.19106656163930893,
      "num_tokens": 61348248.0,
      "step": 33255
    },
    {
      "entropy": 5.562717342376709,
      "epoch": 2.7942869145137577,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004220187291201034,
      "loss": 5.2429,
      "mean_token_accuracy": 0.17765413224697113,
      "num_tokens": 61358154.0,
      "step": 33260
    },
    {
      "entropy": 5.522534036636353,
      "epoch": 2.7947069943289224,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004219960583241451,
      "loss": 5.1482,
      "mean_token_accuracy": 0.18722030967473985,
      "num_tokens": 61368225.0,
      "step": 33265
    },
    {
      "entropy": 5.3999958515167235,
      "epoch": 2.7951270741440872,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004219733849242274,
      "loss": 4.9609,
      "mean_token_accuracy": 0.20284724682569505,
      "num_tokens": 61376721.0,
      "step": 33270
    },
    {
      "entropy": 5.457062244415283,
      "epoch": 2.7955471539592525,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004219507089207518,
      "loss": 5.1658,
      "mean_token_accuracy": 0.1840301349759102,
      "num_tokens": 61386333.0,
      "step": 33275
    },
    {
      "entropy": 5.3815103530883786,
      "epoch": 2.7959672337744172,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00042192803031412,
      "loss": 5.0835,
      "mean_token_accuracy": 0.18579688370227815,
      "num_tokens": 61394993.0,
      "step": 33280
    },
    {
      "entropy": 5.567025852203369,
      "epoch": 2.796387313589582,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004219053491047338,
      "loss": 5.2411,
      "mean_token_accuracy": 0.17920802682638168,
      "num_tokens": 61404703.0,
      "step": 33285
    },
    {
      "entropy": 5.501824140548706,
      "epoch": 2.796807393404747,
      "grad_norm": 1.09375,
      "learning_rate": 0.00042188266529299506,
      "loss": 5.1066,
      "mean_token_accuracy": 0.18974769860506058,
      "num_tokens": 61413433.0,
      "step": 33290
    },
    {
      "entropy": 5.555290842056275,
      "epoch": 2.7972274732199116,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004218599788793055,
      "loss": 5.2463,
      "mean_token_accuracy": 0.18054435700178145,
      "num_tokens": 61422979.0,
      "step": 33295
    },
    {
      "entropy": 5.546030187606812,
      "epoch": 2.797647553035077,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004218372898640671,
      "loss": 5.2036,
      "mean_token_accuracy": 0.18140602111816406,
      "num_tokens": 61432637.0,
      "step": 33300
    },
    {
      "entropy": 5.475613927841186,
      "epoch": 2.7980676328502416,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00042181459824768166,
      "loss": 5.1452,
      "mean_token_accuracy": 0.19480802714824677,
      "num_tokens": 61441951.0,
      "step": 33305
    },
    {
      "entropy": 5.5111823081970215,
      "epoch": 2.7984877126654064,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004217919040305512,
      "loss": 5.0994,
      "mean_token_accuracy": 0.19139852076768876,
      "num_tokens": 61451564.0,
      "step": 33310
    },
    {
      "entropy": 5.506212043762207,
      "epoch": 2.798907792480571,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004217692072130777,
      "loss": 5.1999,
      "mean_token_accuracy": 0.19007823020219802,
      "num_tokens": 61460374.0,
      "step": 33315
    },
    {
      "entropy": 5.502078199386597,
      "epoch": 2.799327872295736,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00042174650779566334,
      "loss": 5.19,
      "mean_token_accuracy": 0.1819556325674057,
      "num_tokens": 61469420.0,
      "step": 33320
    },
    {
      "entropy": 5.565682315826416,
      "epoch": 2.799747952110901,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004217238057787102,
      "loss": 5.1664,
      "mean_token_accuracy": 0.1916860669851303,
      "num_tokens": 61479835.0,
      "step": 33325
    },
    {
      "entropy": 5.545136785507202,
      "epoch": 2.800168031926066,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00042170110116262035,
      "loss": 5.2078,
      "mean_token_accuracy": 0.18273142874240875,
      "num_tokens": 61490176.0,
      "step": 33330
    },
    {
      "entropy": 5.321015501022339,
      "epoch": 2.800588111741231,
      "grad_norm": 1.078125,
      "learning_rate": 0.000421678393947796,
      "loss": 4.9669,
      "mean_token_accuracy": 0.2054958388209343,
      "num_tokens": 61499893.0,
      "step": 33335
    },
    {
      "entropy": 5.483001327514648,
      "epoch": 2.8010081915563956,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004216556841346395,
      "loss": 5.2046,
      "mean_token_accuracy": 0.18619178384542465,
      "num_tokens": 61508610.0,
      "step": 33340
    },
    {
      "entropy": 5.536673736572266,
      "epoch": 2.8014282713715604,
      "grad_norm": 1.109375,
      "learning_rate": 0.000421632971723553,
      "loss": 5.1294,
      "mean_token_accuracy": 0.19168639183044434,
      "num_tokens": 61518118.0,
      "step": 33345
    },
    {
      "entropy": 5.538899850845337,
      "epoch": 2.8018483511867256,
      "grad_norm": 1.078125,
      "learning_rate": 0.00042161025671493885,
      "loss": 5.1662,
      "mean_token_accuracy": 0.1938593327999115,
      "num_tokens": 61527930.0,
      "step": 33350
    },
    {
      "entropy": 5.528418827056885,
      "epoch": 2.8022684310018904,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004215875391091996,
      "loss": 5.156,
      "mean_token_accuracy": 0.18987095952033997,
      "num_tokens": 61537232.0,
      "step": 33355
    },
    {
      "entropy": 5.502023935317993,
      "epoch": 2.802688510817055,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004215648189067376,
      "loss": 5.161,
      "mean_token_accuracy": 0.1929175525903702,
      "num_tokens": 61546752.0,
      "step": 33360
    },
    {
      "entropy": 5.407737064361572,
      "epoch": 2.8031085906322204,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00042154209610795526,
      "loss": 5.0645,
      "mean_token_accuracy": 0.1988336518406868,
      "num_tokens": 61555999.0,
      "step": 33365
    },
    {
      "entropy": 5.506551027297974,
      "epoch": 2.8035286704473847,
      "grad_norm": 1.125,
      "learning_rate": 0.00042151937071325515,
      "loss": 5.192,
      "mean_token_accuracy": 0.1874662920832634,
      "num_tokens": 61565854.0,
      "step": 33370
    },
    {
      "entropy": 5.518421316146851,
      "epoch": 2.80394875026255,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00042149664272303977,
      "loss": 5.0407,
      "mean_token_accuracy": 0.20103824734687806,
      "num_tokens": 61573382.0,
      "step": 33375
    },
    {
      "entropy": 5.4667175769805905,
      "epoch": 2.8043688300777148,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004214739121377119,
      "loss": 5.1398,
      "mean_token_accuracy": 0.19388413727283477,
      "num_tokens": 61582361.0,
      "step": 33380
    },
    {
      "entropy": 5.522353458404541,
      "epoch": 2.8047889098928795,
      "grad_norm": 1.03125,
      "learning_rate": 0.000421451178957674,
      "loss": 5.1406,
      "mean_token_accuracy": 0.19262910336256028,
      "num_tokens": 61591797.0,
      "step": 33385
    },
    {
      "entropy": 5.4393645286560055,
      "epoch": 2.8052089897080448,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000421428443183329,
      "loss": 5.041,
      "mean_token_accuracy": 0.19516123831272125,
      "num_tokens": 61600380.0,
      "step": 33390
    },
    {
      "entropy": 5.512635612487793,
      "epoch": 2.8056290695232096,
      "grad_norm": 1.15625,
      "learning_rate": 0.00042140570481507937,
      "loss": 5.2005,
      "mean_token_accuracy": 0.18186173141002654,
      "num_tokens": 61610544.0,
      "step": 33395
    },
    {
      "entropy": 5.484258794784546,
      "epoch": 2.8060491493383743,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004213829638533282,
      "loss": 5.0852,
      "mean_token_accuracy": 0.19889645278453827,
      "num_tokens": 61619444.0,
      "step": 33400
    },
    {
      "entropy": 5.462441110610962,
      "epoch": 2.806469229153539,
      "grad_norm": 1.109375,
      "learning_rate": 0.00042136022029847815,
      "loss": 5.0616,
      "mean_token_accuracy": 0.1949600964784622,
      "num_tokens": 61628018.0,
      "step": 33405
    },
    {
      "entropy": 5.327430248260498,
      "epoch": 2.806889308968704,
      "grad_norm": 1.0625,
      "learning_rate": 0.00042133747415093215,
      "loss": 4.9738,
      "mean_token_accuracy": 0.21071843355894088,
      "num_tokens": 61636884.0,
      "step": 33410
    },
    {
      "entropy": 5.453093767166138,
      "epoch": 2.807309388783869,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004213147254110932,
      "loss": 5.183,
      "mean_token_accuracy": 0.18368187546730042,
      "num_tokens": 61647461.0,
      "step": 33415
    },
    {
      "entropy": 5.500353479385376,
      "epoch": 2.807729468599034,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004212919740793642,
      "loss": 5.0972,
      "mean_token_accuracy": 0.19665896594524385,
      "num_tokens": 61655641.0,
      "step": 33420
    },
    {
      "entropy": 5.500789737701416,
      "epoch": 2.8081495484141987,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004212692201561482,
      "loss": 5.1681,
      "mean_token_accuracy": 0.18578539937734603,
      "num_tokens": 61665131.0,
      "step": 33425
    },
    {
      "entropy": 5.466317510604858,
      "epoch": 2.8085696282293635,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00042124646364184834,
      "loss": 5.0508,
      "mean_token_accuracy": 0.19593564420938492,
      "num_tokens": 61674645.0,
      "step": 33430
    },
    {
      "entropy": 5.391623640060425,
      "epoch": 2.8089897080445283,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00042122370453686757,
      "loss": 5.1043,
      "mean_token_accuracy": 0.19235869795083999,
      "num_tokens": 61683457.0,
      "step": 33435
    },
    {
      "entropy": 5.533511447906494,
      "epoch": 2.8094097878596935,
      "grad_norm": 1.203125,
      "learning_rate": 0.00042120094284160925,
      "loss": 5.2308,
      "mean_token_accuracy": 0.19083941876888275,
      "num_tokens": 61691648.0,
      "step": 33440
    },
    {
      "entropy": 5.566288661956787,
      "epoch": 2.8098298676748583,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004211781785564765,
      "loss": 5.1788,
      "mean_token_accuracy": 0.18830012828111647,
      "num_tokens": 61701518.0,
      "step": 33445
    },
    {
      "entropy": 5.528993606567383,
      "epoch": 2.810249947490023,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00042115541168187255,
      "loss": 5.2775,
      "mean_token_accuracy": 0.1836669161915779,
      "num_tokens": 61711517.0,
      "step": 33450
    },
    {
      "entropy": 5.471734523773193,
      "epoch": 2.810670027305188,
      "grad_norm": 1.125,
      "learning_rate": 0.0004211326422182009,
      "loss": 4.9724,
      "mean_token_accuracy": 0.20092063248157502,
      "num_tokens": 61719931.0,
      "step": 33455
    },
    {
      "entropy": 5.531092643737793,
      "epoch": 2.8110901071203527,
      "grad_norm": 1.0,
      "learning_rate": 0.00042110987016586457,
      "loss": 5.1863,
      "mean_token_accuracy": 0.18776781260967254,
      "num_tokens": 61730038.0,
      "step": 33460
    },
    {
      "entropy": 5.487159204483032,
      "epoch": 2.811510186935518,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004210870955252671,
      "loss": 5.1103,
      "mean_token_accuracy": 0.19541231095790862,
      "num_tokens": 61738589.0,
      "step": 33465
    },
    {
      "entropy": 5.509237003326416,
      "epoch": 2.8119302667506827,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00042106431829681194,
      "loss": 5.1943,
      "mean_token_accuracy": 0.1905078575015068,
      "num_tokens": 61748602.0,
      "step": 33470
    },
    {
      "entropy": 5.450013589859009,
      "epoch": 2.8123503465658475,
      "grad_norm": 1.125,
      "learning_rate": 0.0004210415384809027,
      "loss": 5.1486,
      "mean_token_accuracy": 0.19212673604488373,
      "num_tokens": 61758381.0,
      "step": 33475
    },
    {
      "entropy": 5.56746244430542,
      "epoch": 2.8127704263810123,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004210187560779428,
      "loss": 5.1344,
      "mean_token_accuracy": 0.1950449153780937,
      "num_tokens": 61767556.0,
      "step": 33480
    },
    {
      "entropy": 5.453706741333008,
      "epoch": 2.813190506196177,
      "grad_norm": 1.390625,
      "learning_rate": 0.00042099597108833585,
      "loss": 5.139,
      "mean_token_accuracy": 0.19216284900903702,
      "num_tokens": 61776892.0,
      "step": 33485
    },
    {
      "entropy": 5.480470800399781,
      "epoch": 2.8136105860113423,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00042097318351248537,
      "loss": 5.155,
      "mean_token_accuracy": 0.19227145165205,
      "num_tokens": 61786915.0,
      "step": 33490
    },
    {
      "entropy": 5.570703792572021,
      "epoch": 2.814030665826507,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00042095039335079515,
      "loss": 5.2258,
      "mean_token_accuracy": 0.186313459277153,
      "num_tokens": 61796835.0,
      "step": 33495
    },
    {
      "entropy": 5.566649627685547,
      "epoch": 2.814450745641672,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004209276006036689,
      "loss": 5.2122,
      "mean_token_accuracy": 0.18739298433065416,
      "num_tokens": 61806154.0,
      "step": 33500
    },
    {
      "entropy": 5.462141513824463,
      "epoch": 2.8148708254568366,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00042090480527151033,
      "loss": 5.101,
      "mean_token_accuracy": 0.19279856979846954,
      "num_tokens": 61815610.0,
      "step": 33505
    },
    {
      "entropy": 5.5131471157073975,
      "epoch": 2.8152909052720014,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004208820073547232,
      "loss": 5.1731,
      "mean_token_accuracy": 0.1904915452003479,
      "num_tokens": 61825017.0,
      "step": 33510
    },
    {
      "entropy": 5.487086248397827,
      "epoch": 2.8157109850871667,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004208592068537115,
      "loss": 5.156,
      "mean_token_accuracy": 0.1934222847223282,
      "num_tokens": 61834535.0,
      "step": 33515
    },
    {
      "entropy": 5.437507772445679,
      "epoch": 2.8161310649023314,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00042083640376887896,
      "loss": 5.0811,
      "mean_token_accuracy": 0.19071603417396546,
      "num_tokens": 61843042.0,
      "step": 33520
    },
    {
      "entropy": 5.451783895492554,
      "epoch": 2.8165511447174962,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004208135981006297,
      "loss": 5.088,
      "mean_token_accuracy": 0.19646525084972383,
      "num_tokens": 61852019.0,
      "step": 33525
    },
    {
      "entropy": 5.44593620300293,
      "epoch": 2.8169712245326615,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004207907898493676,
      "loss": 5.1473,
      "mean_token_accuracy": 0.19231730848550796,
      "num_tokens": 61860599.0,
      "step": 33530
    },
    {
      "entropy": 5.518928670883179,
      "epoch": 2.8173913043478263,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004207679790154967,
      "loss": 5.1429,
      "mean_token_accuracy": 0.19223110377788544,
      "num_tokens": 61869048.0,
      "step": 33535
    },
    {
      "entropy": 5.512473917007446,
      "epoch": 2.817811384162991,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004207451655994212,
      "loss": 5.1327,
      "mean_token_accuracy": 0.19238006323575974,
      "num_tokens": 61878075.0,
      "step": 33540
    },
    {
      "entropy": 5.48830213546753,
      "epoch": 2.818231463978156,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004207223496015451,
      "loss": 5.2052,
      "mean_token_accuracy": 0.1883029282093048,
      "num_tokens": 61887570.0,
      "step": 33545
    },
    {
      "entropy": 5.481220626831055,
      "epoch": 2.8186515437933206,
      "grad_norm": 1.03125,
      "learning_rate": 0.00042069953102227267,
      "loss": 5.1385,
      "mean_token_accuracy": 0.1912101075053215,
      "num_tokens": 61897518.0,
      "step": 33550
    },
    {
      "entropy": 5.40591025352478,
      "epoch": 2.819071623608486,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00042067670986200797,
      "loss": 4.9994,
      "mean_token_accuracy": 0.1968576118350029,
      "num_tokens": 61907467.0,
      "step": 33555
    },
    {
      "entropy": 5.449512529373169,
      "epoch": 2.8194917034236506,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004206538861211554,
      "loss": 5.0781,
      "mean_token_accuracy": 0.1953936353325844,
      "num_tokens": 61916663.0,
      "step": 33560
    },
    {
      "entropy": 5.427246046066284,
      "epoch": 2.8199117832388154,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004206310598001192,
      "loss": 5.039,
      "mean_token_accuracy": 0.19581185579299926,
      "num_tokens": 61925238.0,
      "step": 33565
    },
    {
      "entropy": 5.466272592544556,
      "epoch": 2.82033186305398,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00042060823089930385,
      "loss": 5.1745,
      "mean_token_accuracy": 0.19229332953691483,
      "num_tokens": 61934405.0,
      "step": 33570
    },
    {
      "entropy": 5.530587673187256,
      "epoch": 2.820751942869145,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00042058539941911363,
      "loss": 5.2298,
      "mean_token_accuracy": 0.1920618385076523,
      "num_tokens": 61944608.0,
      "step": 33575
    },
    {
      "entropy": 5.470606946945191,
      "epoch": 2.82117202268431,
      "grad_norm": 1.0703125,
      "learning_rate": 0.000420562565359953,
      "loss": 5.0646,
      "mean_token_accuracy": 0.19687624722719194,
      "num_tokens": 61954217.0,
      "step": 33580
    },
    {
      "entropy": 5.517790460586548,
      "epoch": 2.821592102499475,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004205397287222265,
      "loss": 5.1932,
      "mean_token_accuracy": 0.17823396176099776,
      "num_tokens": 61965676.0,
      "step": 33585
    },
    {
      "entropy": 5.447310304641723,
      "epoch": 2.82201218231464,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00042051688950633866,
      "loss": 5.0803,
      "mean_token_accuracy": 0.19708986580371857,
      "num_tokens": 61975557.0,
      "step": 33590
    },
    {
      "entropy": 5.5395763397216795,
      "epoch": 2.8224322621298046,
      "grad_norm": 1.15625,
      "learning_rate": 0.00042049404771269403,
      "loss": 5.1322,
      "mean_token_accuracy": 0.19186748713254928,
      "num_tokens": 61984303.0,
      "step": 33595
    },
    {
      "entropy": 5.493498373031616,
      "epoch": 2.8228523419449694,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004204712033416973,
      "loss": 5.1993,
      "mean_token_accuracy": 0.1827894553542137,
      "num_tokens": 61993634.0,
      "step": 33600
    },
    {
      "entropy": 5.471193838119507,
      "epoch": 2.8232724217601346,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004204483563937531,
      "loss": 5.0437,
      "mean_token_accuracy": 0.2000648021697998,
      "num_tokens": 62002375.0,
      "step": 33605
    },
    {
      "entropy": 5.47894058227539,
      "epoch": 2.8236925015752994,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004204255068692661,
      "loss": 5.135,
      "mean_token_accuracy": 0.19317652881145478,
      "num_tokens": 62011266.0,
      "step": 33610
    },
    {
      "entropy": 5.459631156921387,
      "epoch": 2.824112581390464,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004204026547686412,
      "loss": 5.0703,
      "mean_token_accuracy": 0.1927222952246666,
      "num_tokens": 62020513.0,
      "step": 33615
    },
    {
      "entropy": 5.483730220794678,
      "epoch": 2.824532661205629,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004203798000922831,
      "loss": 5.22,
      "mean_token_accuracy": 0.18952584862709046,
      "num_tokens": 62029947.0,
      "step": 33620
    },
    {
      "entropy": 5.598268270492554,
      "epoch": 2.8249527410207937,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004203569428405967,
      "loss": 5.238,
      "mean_token_accuracy": 0.18217831254005432,
      "num_tokens": 62038619.0,
      "step": 33625
    },
    {
      "entropy": 5.505864381790161,
      "epoch": 2.825372820835959,
      "grad_norm": 1.078125,
      "learning_rate": 0.000420334083013987,
      "loss": 5.0879,
      "mean_token_accuracy": 0.19599718004465103,
      "num_tokens": 62047051.0,
      "step": 33630
    },
    {
      "entropy": 5.399864339828492,
      "epoch": 2.8257929006511238,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004203112206128587,
      "loss": 5.0614,
      "mean_token_accuracy": 0.19462891519069672,
      "num_tokens": 62055721.0,
      "step": 33635
    },
    {
      "entropy": 5.4286713123321535,
      "epoch": 2.8262129804662885,
      "grad_norm": 1.4921875,
      "learning_rate": 0.000420288355637617,
      "loss": 5.1141,
      "mean_token_accuracy": 0.18994710147380828,
      "num_tokens": 62064769.0,
      "step": 33640
    },
    {
      "entropy": 5.524600791931152,
      "epoch": 2.8266330602814533,
      "grad_norm": 1.09375,
      "learning_rate": 0.00042026548808866694,
      "loss": 5.1582,
      "mean_token_accuracy": 0.1894179627299309,
      "num_tokens": 62074246.0,
      "step": 33645
    },
    {
      "entropy": 5.468540906906128,
      "epoch": 2.827053140096618,
      "grad_norm": 1.078125,
      "learning_rate": 0.00042024261796641353,
      "loss": 5.0823,
      "mean_token_accuracy": 0.19448432326316833,
      "num_tokens": 62082542.0,
      "step": 33650
    },
    {
      "entropy": 5.470477199554443,
      "epoch": 2.8274732199117834,
      "grad_norm": 1.046875,
      "learning_rate": 0.00042021974527126196,
      "loss": 5.1158,
      "mean_token_accuracy": 0.18607185930013656,
      "num_tokens": 62092543.0,
      "step": 33655
    },
    {
      "entropy": 5.56717529296875,
      "epoch": 2.827893299726948,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00042019687000361734,
      "loss": 5.2848,
      "mean_token_accuracy": 0.1824136570096016,
      "num_tokens": 62101357.0,
      "step": 33660
    },
    {
      "entropy": 5.473857259750366,
      "epoch": 2.828313379542113,
      "grad_norm": 1.046875,
      "learning_rate": 0.000420173992163885,
      "loss": 5.0762,
      "mean_token_accuracy": 0.19643852412700652,
      "num_tokens": 62110867.0,
      "step": 33665
    },
    {
      "entropy": 5.4252479553222654,
      "epoch": 2.828733459357278,
      "grad_norm": 1.125,
      "learning_rate": 0.0004201511117524701,
      "loss": 5.049,
      "mean_token_accuracy": 0.19505926966667175,
      "num_tokens": 62120156.0,
      "step": 33670
    },
    {
      "entropy": 5.474018859863281,
      "epoch": 2.8291535391724425,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00042012822876977794,
      "loss": 5.113,
      "mean_token_accuracy": 0.19402114152908326,
      "num_tokens": 62129382.0,
      "step": 33675
    },
    {
      "entropy": 5.4876624584198,
      "epoch": 2.8295736189876077,
      "grad_norm": 1.03125,
      "learning_rate": 0.000420105343216214,
      "loss": 5.0762,
      "mean_token_accuracy": 0.19471762627363204,
      "num_tokens": 62138508.0,
      "step": 33680
    },
    {
      "entropy": 5.545414304733276,
      "epoch": 2.8299936988027725,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004200824550921836,
      "loss": 5.1924,
      "mean_token_accuracy": 0.18810187727212907,
      "num_tokens": 62146812.0,
      "step": 33685
    },
    {
      "entropy": 5.534640264511109,
      "epoch": 2.8304137786179373,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00042005956439809225,
      "loss": 5.1929,
      "mean_token_accuracy": 0.18330300748348236,
      "num_tokens": 62156460.0,
      "step": 33690
    },
    {
      "entropy": 5.492739725112915,
      "epoch": 2.8308338584331025,
      "grad_norm": 1.3125,
      "learning_rate": 0.00042003667113434535,
      "loss": 5.147,
      "mean_token_accuracy": 0.18835052251815795,
      "num_tokens": 62165916.0,
      "step": 33695
    },
    {
      "entropy": 5.422282934188843,
      "epoch": 2.8312539382482673,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004200137753013486,
      "loss": 5.1147,
      "mean_token_accuracy": 0.19628043472766876,
      "num_tokens": 62175394.0,
      "step": 33700
    },
    {
      "entropy": 5.4803790092468265,
      "epoch": 2.831674018063432,
      "grad_norm": 0.96875,
      "learning_rate": 0.00041999087689950746,
      "loss": 5.0859,
      "mean_token_accuracy": 0.19891131520271302,
      "num_tokens": 62185026.0,
      "step": 33705
    },
    {
      "entropy": 5.417493057250977,
      "epoch": 2.832094097878597,
      "grad_norm": 1.109375,
      "learning_rate": 0.00041996797592922755,
      "loss": 5.0861,
      "mean_token_accuracy": 0.19294508397579194,
      "num_tokens": 62194282.0,
      "step": 33710
    },
    {
      "entropy": 5.404213190078735,
      "epoch": 2.8325141776937617,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004199450723909146,
      "loss": 5.0843,
      "mean_token_accuracy": 0.19138962626457215,
      "num_tokens": 62203693.0,
      "step": 33715
    },
    {
      "entropy": 5.5540123462677,
      "epoch": 2.832934257508927,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004199221662849743,
      "loss": 5.1751,
      "mean_token_accuracy": 0.18949620574712753,
      "num_tokens": 62213553.0,
      "step": 33720
    },
    {
      "entropy": 5.513018941879272,
      "epoch": 2.8333543373240917,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00041989925761181247,
      "loss": 5.1491,
      "mean_token_accuracy": 0.1956335961818695,
      "num_tokens": 62222663.0,
      "step": 33725
    },
    {
      "entropy": 5.454687976837159,
      "epoch": 2.8337744171392565,
      "grad_norm": 1.09375,
      "learning_rate": 0.00041987634637183493,
      "loss": 5.1015,
      "mean_token_accuracy": 0.1874675840139389,
      "num_tokens": 62231028.0,
      "step": 33730
    },
    {
      "entropy": 5.420101451873779,
      "epoch": 2.8341944969544213,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004198534325654475,
      "loss": 5.0973,
      "mean_token_accuracy": 0.19661280512809753,
      "num_tokens": 62240015.0,
      "step": 33735
    },
    {
      "entropy": 5.507527494430542,
      "epoch": 2.834614576769586,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00041983051619305607,
      "loss": 5.1101,
      "mean_token_accuracy": 0.19478517770767212,
      "num_tokens": 62249265.0,
      "step": 33740
    },
    {
      "entropy": 5.442920064926147,
      "epoch": 2.8350346565847513,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004198075972550667,
      "loss": 5.1099,
      "mean_token_accuracy": 0.19002259969711305,
      "num_tokens": 62258267.0,
      "step": 33745
    },
    {
      "entropy": 5.456583881378174,
      "epoch": 2.835454736399916,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004197846757518853,
      "loss": 5.1108,
      "mean_token_accuracy": 0.1921181708574295,
      "num_tokens": 62268384.0,
      "step": 33750
    },
    {
      "entropy": 5.444548463821411,
      "epoch": 2.835874816215081,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00041976175168391785,
      "loss": 5.0134,
      "mean_token_accuracy": 0.19747166484594345,
      "num_tokens": 62277262.0,
      "step": 33755
    },
    {
      "entropy": 5.5200952053070065,
      "epoch": 2.8362948960302456,
      "grad_norm": 1.25,
      "learning_rate": 0.00041973882505157053,
      "loss": 5.1006,
      "mean_token_accuracy": 0.1907456859946251,
      "num_tokens": 62285271.0,
      "step": 33760
    },
    {
      "entropy": 5.438438892364502,
      "epoch": 2.8367149758454104,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004197158958552495,
      "loss": 5.0631,
      "mean_token_accuracy": 0.20222104489803314,
      "num_tokens": 62293555.0,
      "step": 33765
    },
    {
      "entropy": 5.459361839294433,
      "epoch": 2.8371350556605757,
      "grad_norm": 1.046875,
      "learning_rate": 0.00041969296409536083,
      "loss": 5.1314,
      "mean_token_accuracy": 0.18603244721889495,
      "num_tokens": 62303563.0,
      "step": 33770
    },
    {
      "entropy": 5.454679298400879,
      "epoch": 2.8375551354757405,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004196700297723109,
      "loss": 5.1306,
      "mean_token_accuracy": 0.19671635329723358,
      "num_tokens": 62312040.0,
      "step": 33775
    },
    {
      "entropy": 5.506616926193237,
      "epoch": 2.8379752152909052,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004196470928865058,
      "loss": 5.1971,
      "mean_token_accuracy": 0.1852075919508934,
      "num_tokens": 62322147.0,
      "step": 33780
    },
    {
      "entropy": 5.50431227684021,
      "epoch": 2.83839529510607,
      "grad_norm": 1.078125,
      "learning_rate": 0.000419624153438352,
      "loss": 5.1057,
      "mean_token_accuracy": 0.18890834152698516,
      "num_tokens": 62331959.0,
      "step": 33785
    },
    {
      "entropy": 5.497161149978638,
      "epoch": 2.838815374921235,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004196012114282557,
      "loss": 5.0861,
      "mean_token_accuracy": 0.1960807576775551,
      "num_tokens": 62341578.0,
      "step": 33790
    },
    {
      "entropy": 5.48693881034851,
      "epoch": 2.8392354547364,
      "grad_norm": 1.046875,
      "learning_rate": 0.00041957826685662343,
      "loss": 5.0986,
      "mean_token_accuracy": 0.19845594614744186,
      "num_tokens": 62350421.0,
      "step": 33795
    },
    {
      "entropy": 5.507822513580322,
      "epoch": 2.839655534551565,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004195553197238617,
      "loss": 5.1416,
      "mean_token_accuracy": 0.18711406886577606,
      "num_tokens": 62359528.0,
      "step": 33800
    },
    {
      "entropy": 5.437806034088135,
      "epoch": 2.8400756143667296,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004195323700303768,
      "loss": 5.1458,
      "mean_token_accuracy": 0.18895759284496308,
      "num_tokens": 62369041.0,
      "step": 33805
    },
    {
      "entropy": 5.44670000076294,
      "epoch": 2.8404956941818944,
      "grad_norm": 1.109375,
      "learning_rate": 0.00041950941777657547,
      "loss": 4.9876,
      "mean_token_accuracy": 0.19658997058868408,
      "num_tokens": 62377536.0,
      "step": 33810
    },
    {
      "entropy": 5.515492391586304,
      "epoch": 2.840915773997059,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004194864629628642,
      "loss": 5.2556,
      "mean_token_accuracy": 0.1848062753677368,
      "num_tokens": 62388002.0,
      "step": 33815
    },
    {
      "entropy": 5.537766742706299,
      "epoch": 2.8413358538122244,
      "grad_norm": 1.125,
      "learning_rate": 0.0004194635055896496,
      "loss": 5.1156,
      "mean_token_accuracy": 0.19646653085947036,
      "num_tokens": 62396332.0,
      "step": 33820
    },
    {
      "entropy": 5.4660265922546385,
      "epoch": 2.841755933627389,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00041944054565733836,
      "loss": 5.085,
      "mean_token_accuracy": 0.1970125511288643,
      "num_tokens": 62405137.0,
      "step": 33825
    },
    {
      "entropy": 5.449013948440552,
      "epoch": 2.842176013442554,
      "grad_norm": 1.171875,
      "learning_rate": 0.00041941758316633727,
      "loss": 5.2018,
      "mean_token_accuracy": 0.19560250639915466,
      "num_tokens": 62413849.0,
      "step": 33830
    },
    {
      "entropy": 5.512109565734863,
      "epoch": 2.8425960932577192,
      "grad_norm": 1.078125,
      "learning_rate": 0.00041939461811705306,
      "loss": 5.1114,
      "mean_token_accuracy": 0.19488338530063629,
      "num_tokens": 62422693.0,
      "step": 33835
    },
    {
      "entropy": 5.550516605377197,
      "epoch": 2.843016173072884,
      "grad_norm": 1.015625,
      "learning_rate": 0.00041937165050989257,
      "loss": 5.1768,
      "mean_token_accuracy": 0.18723349869251252,
      "num_tokens": 62432960.0,
      "step": 33840
    },
    {
      "entropy": 5.388506841659546,
      "epoch": 2.843436252888049,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00041934868034526265,
      "loss": 5.0444,
      "mean_token_accuracy": 0.1981922909617424,
      "num_tokens": 62441838.0,
      "step": 33845
    },
    {
      "entropy": 5.476451635360718,
      "epoch": 2.8438563327032136,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004193257076235701,
      "loss": 5.1003,
      "mean_token_accuracy": 0.1922067642211914,
      "num_tokens": 62451111.0,
      "step": 33850
    },
    {
      "entropy": 5.513261079788208,
      "epoch": 2.8442764125183784,
      "grad_norm": 1.2421875,
      "learning_rate": 0.000419302732345222,
      "loss": 5.1998,
      "mean_token_accuracy": 0.18796076476573945,
      "num_tokens": 62459975.0,
      "step": 33855
    },
    {
      "entropy": 5.534435844421386,
      "epoch": 2.8446964923335436,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004192797545106252,
      "loss": 5.2411,
      "mean_token_accuracy": 0.18431964218616487,
      "num_tokens": 62469529.0,
      "step": 33860
    },
    {
      "entropy": 5.476895427703857,
      "epoch": 2.8451165721487084,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000419256774120187,
      "loss": 5.0919,
      "mean_token_accuracy": 0.19499186873435975,
      "num_tokens": 62479122.0,
      "step": 33865
    },
    {
      "entropy": 5.486008214950561,
      "epoch": 2.845536651963873,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004192337911743143,
      "loss": 5.1349,
      "mean_token_accuracy": 0.18790909349918367,
      "num_tokens": 62489457.0,
      "step": 33870
    },
    {
      "entropy": 5.450651407241821,
      "epoch": 2.845956731779038,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004192108056734142,
      "loss": 5.1053,
      "mean_token_accuracy": 0.20715516209602355,
      "num_tokens": 62499063.0,
      "step": 33875
    },
    {
      "entropy": 5.545217800140381,
      "epoch": 2.8463768115942027,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004191878176178939,
      "loss": 5.0993,
      "mean_token_accuracy": 0.19380984008312224,
      "num_tokens": 62507728.0,
      "step": 33880
    },
    {
      "entropy": 5.598149967193604,
      "epoch": 2.846796891409368,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004191648270081608,
      "loss": 5.2728,
      "mean_token_accuracy": 0.17632481902837754,
      "num_tokens": 62517770.0,
      "step": 33885
    },
    {
      "entropy": 5.561535310745239,
      "epoch": 2.8472169712245328,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000419141833844622,
      "loss": 5.2193,
      "mean_token_accuracy": 0.1925253227353096,
      "num_tokens": 62526988.0,
      "step": 33890
    },
    {
      "entropy": 5.486953210830689,
      "epoch": 2.8476370510396976,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004191188381276848,
      "loss": 5.1252,
      "mean_token_accuracy": 0.18847648948431014,
      "num_tokens": 62536096.0,
      "step": 33895
    },
    {
      "entropy": 5.515914344787598,
      "epoch": 2.8480571308548623,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004190958398577565,
      "loss": 5.1231,
      "mean_token_accuracy": 0.19405727237462997,
      "num_tokens": 62546316.0,
      "step": 33900
    },
    {
      "entropy": 5.475354242324829,
      "epoch": 2.848477210670027,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004190728390352447,
      "loss": 5.0238,
      "mean_token_accuracy": 0.19783015847206115,
      "num_tokens": 62555141.0,
      "step": 33905
    },
    {
      "entropy": 5.375357675552368,
      "epoch": 2.8488972904851924,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004190498356605567,
      "loss": 5.1638,
      "mean_token_accuracy": 0.19103687405586242,
      "num_tokens": 62564459.0,
      "step": 33910
    },
    {
      "entropy": 5.545132875442505,
      "epoch": 2.849317370300357,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004190268297341001,
      "loss": 5.1671,
      "mean_token_accuracy": 0.18415624350309373,
      "num_tokens": 62573740.0,
      "step": 33915
    },
    {
      "entropy": 5.622381067276001,
      "epoch": 2.849737450115522,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004190038212562822,
      "loss": 5.2196,
      "mean_token_accuracy": 0.18408464640378952,
      "num_tokens": 62582727.0,
      "step": 33920
    },
    {
      "entropy": 5.484413719177246,
      "epoch": 2.8501575299306867,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004189808102275109,
      "loss": 5.0989,
      "mean_token_accuracy": 0.19487728774547577,
      "num_tokens": 62591722.0,
      "step": 33925
    },
    {
      "entropy": 5.5154776096344,
      "epoch": 2.8505776097458515,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00041895779664819367,
      "loss": 5.1786,
      "mean_token_accuracy": 0.19144383817911148,
      "num_tokens": 62600127.0,
      "step": 33930
    },
    {
      "entropy": 5.479609107971191,
      "epoch": 2.8509976895610167,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004189347805187381,
      "loss": 5.1953,
      "mean_token_accuracy": 0.18851183354854584,
      "num_tokens": 62609452.0,
      "step": 33935
    },
    {
      "entropy": 5.583991050720215,
      "epoch": 2.8514177693761815,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004189117618395522,
      "loss": 5.1735,
      "mean_token_accuracy": 0.18708045780658722,
      "num_tokens": 62618390.0,
      "step": 33940
    },
    {
      "entropy": 5.504609155654907,
      "epoch": 2.8518378491913463,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004188887406110434,
      "loss": 5.1579,
      "mean_token_accuracy": 0.18528572767972945,
      "num_tokens": 62627088.0,
      "step": 33945
    },
    {
      "entropy": 5.454321384429932,
      "epoch": 2.852257929006511,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00041886571683361973,
      "loss": 5.0069,
      "mean_token_accuracy": 0.19464404582977296,
      "num_tokens": 62635318.0,
      "step": 33950
    },
    {
      "entropy": 5.464006328582764,
      "epoch": 2.852678008821676,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004188426905076889,
      "loss": 5.1447,
      "mean_token_accuracy": 0.19257236272096634,
      "num_tokens": 62644226.0,
      "step": 33955
    },
    {
      "entropy": 5.4716192245483395,
      "epoch": 2.853098088636841,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004188196616336589,
      "loss": 5.1055,
      "mean_token_accuracy": 0.19755740612745284,
      "num_tokens": 62653403.0,
      "step": 33960
    },
    {
      "entropy": 5.503452205657959,
      "epoch": 2.853518168452006,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004187966302119377,
      "loss": 5.1016,
      "mean_token_accuracy": 0.1924648702144623,
      "num_tokens": 62662711.0,
      "step": 33965
    },
    {
      "entropy": 5.507772445678711,
      "epoch": 2.8539382482671707,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00041877359624293317,
      "loss": 5.0797,
      "mean_token_accuracy": 0.1881128206849098,
      "num_tokens": 62671673.0,
      "step": 33970
    },
    {
      "entropy": 5.49568886756897,
      "epoch": 2.854358328082336,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00041875055972705346,
      "loss": 5.0549,
      "mean_token_accuracy": 0.193782302737236,
      "num_tokens": 62681479.0,
      "step": 33975
    },
    {
      "entropy": 5.3642333984375,
      "epoch": 2.8547784078975003,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004187275206647066,
      "loss": 5.0411,
      "mean_token_accuracy": 0.198749141395092,
      "num_tokens": 62690487.0,
      "step": 33980
    },
    {
      "entropy": 5.45506272315979,
      "epoch": 2.8551984877126655,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004187044790563007,
      "loss": 5.043,
      "mean_token_accuracy": 0.19798607379198074,
      "num_tokens": 62699438.0,
      "step": 33985
    },
    {
      "entropy": 5.574428510665894,
      "epoch": 2.8556185675278303,
      "grad_norm": 1.03125,
      "learning_rate": 0.00041868143490224395,
      "loss": 5.1731,
      "mean_token_accuracy": 0.18919626921415328,
      "num_tokens": 62708856.0,
      "step": 33990
    },
    {
      "entropy": 5.480016803741455,
      "epoch": 2.856038647342995,
      "grad_norm": 1.125,
      "learning_rate": 0.00041865838820294454,
      "loss": 5.1413,
      "mean_token_accuracy": 0.1964523434638977,
      "num_tokens": 62718759.0,
      "step": 33995
    },
    {
      "entropy": 5.469720649719238,
      "epoch": 2.8564587271581603,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004186353389588108,
      "loss": 5.1785,
      "mean_token_accuracy": 0.18466883152723312,
      "num_tokens": 62729112.0,
      "step": 34000
    },
    {
      "entropy": 5.56209363937378,
      "epoch": 2.856878806973325,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00041861228717025097,
      "loss": 5.2189,
      "mean_token_accuracy": 0.18416063338518143,
      "num_tokens": 62738688.0,
      "step": 34005
    },
    {
      "entropy": 5.611526536941528,
      "epoch": 2.85729888678849,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00041858923283767343,
      "loss": 5.2279,
      "mean_token_accuracy": 0.18384682536125183,
      "num_tokens": 62748818.0,
      "step": 34010
    },
    {
      "entropy": 5.4365599155426025,
      "epoch": 2.8577189666036547,
      "grad_norm": 1.109375,
      "learning_rate": 0.00041856617596148653,
      "loss": 5.0724,
      "mean_token_accuracy": 0.19544958621263503,
      "num_tokens": 62757739.0,
      "step": 34015
    },
    {
      "entropy": 5.472734546661377,
      "epoch": 2.8581390464188194,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004185431165420988,
      "loss": 5.1237,
      "mean_token_accuracy": 0.19300475120544433,
      "num_tokens": 62766050.0,
      "step": 34020
    },
    {
      "entropy": 5.477480173110962,
      "epoch": 2.8585591262339847,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004185200545799186,
      "loss": 5.1477,
      "mean_token_accuracy": 0.19001148641109467,
      "num_tokens": 62776803.0,
      "step": 34025
    },
    {
      "entropy": 5.544997072219848,
      "epoch": 2.8589792060491495,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00041849699007535474,
      "loss": 5.1853,
      "mean_token_accuracy": 0.18223918825387955,
      "num_tokens": 62785846.0,
      "step": 34030
    },
    {
      "entropy": 5.410720443725586,
      "epoch": 2.8593992858643142,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004184739230288154,
      "loss": 5.0146,
      "mean_token_accuracy": 0.20033304393291473,
      "num_tokens": 62794656.0,
      "step": 34035
    },
    {
      "entropy": 5.4477303981781,
      "epoch": 2.859819365679479,
      "grad_norm": 1.09375,
      "learning_rate": 0.00041845085344070944,
      "loss": 5.052,
      "mean_token_accuracy": 0.19343211948871614,
      "num_tokens": 62804102.0,
      "step": 34040
    },
    {
      "entropy": 5.5210319519042965,
      "epoch": 2.860239445494644,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004184277813114455,
      "loss": 5.1931,
      "mean_token_accuracy": 0.18655677735805512,
      "num_tokens": 62813345.0,
      "step": 34045
    },
    {
      "entropy": 5.521042203903198,
      "epoch": 2.860659525309809,
      "grad_norm": 1.109375,
      "learning_rate": 0.00041840470664143226,
      "loss": 5.1812,
      "mean_token_accuracy": 0.18784910291433335,
      "num_tokens": 62822666.0,
      "step": 34050
    },
    {
      "entropy": 5.433137989044189,
      "epoch": 2.861079605124974,
      "grad_norm": 1.09375,
      "learning_rate": 0.00041838162943107844,
      "loss": 5.042,
      "mean_token_accuracy": 0.20162107199430465,
      "num_tokens": 62831313.0,
      "step": 34055
    },
    {
      "entropy": 5.466751146316528,
      "epoch": 2.8614996849401386,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004183585496807929,
      "loss": 5.082,
      "mean_token_accuracy": 0.19314389079809188,
      "num_tokens": 62840697.0,
      "step": 34060
    },
    {
      "entropy": 5.443022012710571,
      "epoch": 2.8619197647553034,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004183354673909845,
      "loss": 5.0958,
      "mean_token_accuracy": 0.1937166526913643,
      "num_tokens": 62850415.0,
      "step": 34065
    },
    {
      "entropy": 5.458136940002442,
      "epoch": 2.862339844570468,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00041831238256206206,
      "loss": 5.0887,
      "mean_token_accuracy": 0.1882678508758545,
      "num_tokens": 62859470.0,
      "step": 34070
    },
    {
      "entropy": 5.548860168457031,
      "epoch": 2.8627599243856334,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004182892951944346,
      "loss": 5.1944,
      "mean_token_accuracy": 0.18420394212007524,
      "num_tokens": 62869925.0,
      "step": 34075
    },
    {
      "entropy": 5.504069089889526,
      "epoch": 2.863180004200798,
      "grad_norm": 1.0703125,
      "learning_rate": 0.000418266205288511,
      "loss": 5.1078,
      "mean_token_accuracy": 0.1945462092757225,
      "num_tokens": 62879848.0,
      "step": 34080
    },
    {
      "entropy": 5.495843076705933,
      "epoch": 2.863600084015963,
      "grad_norm": 1.03125,
      "learning_rate": 0.00041824311284470044,
      "loss": 5.064,
      "mean_token_accuracy": 0.1953660652041435,
      "num_tokens": 62889221.0,
      "step": 34085
    },
    {
      "entropy": 5.441092777252197,
      "epoch": 2.864020163831128,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00041822001786341183,
      "loss": 5.0822,
      "mean_token_accuracy": 0.1925696462392807,
      "num_tokens": 62899257.0,
      "step": 34090
    },
    {
      "entropy": 5.470065975189209,
      "epoch": 2.8644402436462926,
      "grad_norm": 1.078125,
      "learning_rate": 0.00041819692034505436,
      "loss": 5.1413,
      "mean_token_accuracy": 0.1787967637181282,
      "num_tokens": 62908467.0,
      "step": 34095
    },
    {
      "entropy": 5.379863643646241,
      "epoch": 2.864860323461458,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004181738202900372,
      "loss": 4.9981,
      "mean_token_accuracy": 0.20966061502695083,
      "num_tokens": 62918264.0,
      "step": 34100
    },
    {
      "entropy": 5.439889526367187,
      "epoch": 2.8652804032766226,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004181507176987695,
      "loss": 5.0576,
      "mean_token_accuracy": 0.20413824170827866,
      "num_tokens": 62926208.0,
      "step": 34105
    },
    {
      "entropy": 5.479845190048218,
      "epoch": 2.8657004830917874,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004181276125716606,
      "loss": 5.1925,
      "mean_token_accuracy": 0.188927960395813,
      "num_tokens": 62934761.0,
      "step": 34110
    },
    {
      "entropy": 5.546288013458252,
      "epoch": 2.866120562906952,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004181045049091197,
      "loss": 5.1686,
      "mean_token_accuracy": 0.185087850689888,
      "num_tokens": 62944653.0,
      "step": 34115
    },
    {
      "entropy": 5.575192546844482,
      "epoch": 2.866540642722117,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00041808139471155624,
      "loss": 5.0993,
      "mean_token_accuracy": 0.19228082448244094,
      "num_tokens": 62952829.0,
      "step": 34120
    },
    {
      "entropy": 5.416741561889649,
      "epoch": 2.866960722537282,
      "grad_norm": 1.09375,
      "learning_rate": 0.00041805828197937953,
      "loss": 5.0655,
      "mean_token_accuracy": 0.1927979439496994,
      "num_tokens": 62961577.0,
      "step": 34125
    },
    {
      "entropy": 5.50274772644043,
      "epoch": 2.867380802352447,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004180351667129989,
      "loss": 5.13,
      "mean_token_accuracy": 0.19666069149971008,
      "num_tokens": 62970911.0,
      "step": 34130
    },
    {
      "entropy": 5.577594852447509,
      "epoch": 2.8678008821676118,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004180120489128241,
      "loss": 5.264,
      "mean_token_accuracy": 0.1803381085395813,
      "num_tokens": 62980280.0,
      "step": 34135
    },
    {
      "entropy": 5.5255537033081055,
      "epoch": 2.868220961982777,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004179889285792644,
      "loss": 5.1306,
      "mean_token_accuracy": 0.1885185495018959,
      "num_tokens": 62989504.0,
      "step": 34140
    },
    {
      "entropy": 5.4962399959564205,
      "epoch": 2.8686410417979418,
      "grad_norm": 1.125,
      "learning_rate": 0.00041796580571272946,
      "loss": 5.1589,
      "mean_token_accuracy": 0.18722187131643295,
      "num_tokens": 62998815.0,
      "step": 34145
    },
    {
      "entropy": 5.48746771812439,
      "epoch": 2.8690611216131066,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004179426803136289,
      "loss": 5.1615,
      "mean_token_accuracy": 0.19009145647287368,
      "num_tokens": 63009280.0,
      "step": 34150
    },
    {
      "entropy": 5.569098901748657,
      "epoch": 2.8694812014282713,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004179195523823724,
      "loss": 5.2003,
      "mean_token_accuracy": 0.18994356840848922,
      "num_tokens": 63018732.0,
      "step": 34155
    },
    {
      "entropy": 5.460860729217529,
      "epoch": 2.869901281243436,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004178964219193697,
      "loss": 5.0589,
      "mean_token_accuracy": 0.19980073422193528,
      "num_tokens": 63027761.0,
      "step": 34160
    },
    {
      "entropy": 5.445990133285522,
      "epoch": 2.8703213610586014,
      "grad_norm": 1.09375,
      "learning_rate": 0.00041787328892503036,
      "loss": 5.1575,
      "mean_token_accuracy": 0.18934472501277924,
      "num_tokens": 63036562.0,
      "step": 34165
    },
    {
      "entropy": 5.583927249908447,
      "epoch": 2.870741440873766,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00041785015339976424,
      "loss": 5.1688,
      "mean_token_accuracy": 0.18923258632421494,
      "num_tokens": 63045448.0,
      "step": 34170
    },
    {
      "entropy": 5.49445948600769,
      "epoch": 2.871161520688931,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004178270153439812,
      "loss": 5.0929,
      "mean_token_accuracy": 0.1921106293797493,
      "num_tokens": 63054677.0,
      "step": 34175
    },
    {
      "entropy": 5.446563482284546,
      "epoch": 2.8715816005040957,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004178038747580912,
      "loss": 5.0744,
      "mean_token_accuracy": 0.19566801488399505,
      "num_tokens": 63064498.0,
      "step": 34180
    },
    {
      "entropy": 5.362453508377075,
      "epoch": 2.8720016803192605,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00041778073164250415,
      "loss": 5.0795,
      "mean_token_accuracy": 0.18977631777524948,
      "num_tokens": 63073252.0,
      "step": 34185
    },
    {
      "entropy": 5.485049438476563,
      "epoch": 2.8724217601344257,
      "grad_norm": 1.046875,
      "learning_rate": 0.00041775758599762986,
      "loss": 5.112,
      "mean_token_accuracy": 0.19804288148880006,
      "num_tokens": 63082397.0,
      "step": 34190
    },
    {
      "entropy": 5.51261796951294,
      "epoch": 2.8728418399495905,
      "grad_norm": 1.0625,
      "learning_rate": 0.00041773443782387845,
      "loss": 5.1519,
      "mean_token_accuracy": 0.18867940008640288,
      "num_tokens": 63091233.0,
      "step": 34195
    },
    {
      "entropy": 5.537660932540893,
      "epoch": 2.8732619197647553,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00041771128712165997,
      "loss": 5.183,
      "mean_token_accuracy": 0.18269954174757003,
      "num_tokens": 63101083.0,
      "step": 34200
    },
    {
      "entropy": 5.516936302185059,
      "epoch": 2.87368199957992,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004176881338913845,
      "loss": 5.1485,
      "mean_token_accuracy": 0.19299533516168593,
      "num_tokens": 63109956.0,
      "step": 34205
    },
    {
      "entropy": 5.482325506210327,
      "epoch": 2.874102079395085,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00041766497813346235,
      "loss": 5.1216,
      "mean_token_accuracy": 0.19227983355522155,
      "num_tokens": 63119357.0,
      "step": 34210
    },
    {
      "entropy": 5.627237367630005,
      "epoch": 2.87452215921025,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00041764181984830346,
      "loss": 5.2315,
      "mean_token_accuracy": 0.17984583377838134,
      "num_tokens": 63128963.0,
      "step": 34215
    },
    {
      "entropy": 5.504008483886719,
      "epoch": 2.874942239025415,
      "grad_norm": 1.078125,
      "learning_rate": 0.00041761865903631817,
      "loss": 5.1423,
      "mean_token_accuracy": 0.19032400250434875,
      "num_tokens": 63137817.0,
      "step": 34220
    },
    {
      "entropy": 5.362332391738891,
      "epoch": 2.8753623188405797,
      "grad_norm": 1.171875,
      "learning_rate": 0.00041759549569791684,
      "loss": 4.981,
      "mean_token_accuracy": 0.20141476690769194,
      "num_tokens": 63146191.0,
      "step": 34225
    },
    {
      "entropy": 5.366325569152832,
      "epoch": 2.8757823986557445,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004175723298335097,
      "loss": 5.0409,
      "mean_token_accuracy": 0.20048535615205765,
      "num_tokens": 63154834.0,
      "step": 34230
    },
    {
      "entropy": 5.340492630004883,
      "epoch": 2.8762024784709093,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004175491614435071,
      "loss": 4.9561,
      "mean_token_accuracy": 0.20559122562408447,
      "num_tokens": 63163388.0,
      "step": 34235
    },
    {
      "entropy": 5.533594799041748,
      "epoch": 2.8766225582860745,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00041752599052831955,
      "loss": 5.2045,
      "mean_token_accuracy": 0.1826794385910034,
      "num_tokens": 63172749.0,
      "step": 34240
    },
    {
      "entropy": 5.538428497314453,
      "epoch": 2.8770426381012393,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00041750281708835747,
      "loss": 5.1601,
      "mean_token_accuracy": 0.1880051463842392,
      "num_tokens": 63182823.0,
      "step": 34245
    },
    {
      "entropy": 5.469561243057251,
      "epoch": 2.877462717916404,
      "grad_norm": 1.109375,
      "learning_rate": 0.00041747964112403137,
      "loss": 5.1062,
      "mean_token_accuracy": 0.1973096638917923,
      "num_tokens": 63191770.0,
      "step": 34250
    },
    {
      "entropy": 5.452563714981079,
      "epoch": 2.877882797731569,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00041745646263575183,
      "loss": 5.1286,
      "mean_token_accuracy": 0.18779418468475342,
      "num_tokens": 63201343.0,
      "step": 34255
    },
    {
      "entropy": 5.455980205535889,
      "epoch": 2.8783028775467336,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00041743328162392935,
      "loss": 5.105,
      "mean_token_accuracy": 0.1929558113217354,
      "num_tokens": 63209673.0,
      "step": 34260
    },
    {
      "entropy": 5.535132789611817,
      "epoch": 2.878722957361899,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00041741009808897455,
      "loss": 5.1689,
      "mean_token_accuracy": 0.18816379755735396,
      "num_tokens": 63218873.0,
      "step": 34265
    },
    {
      "entropy": 5.538436460494995,
      "epoch": 2.8791430371770637,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00041738691203129836,
      "loss": 5.1535,
      "mean_token_accuracy": 0.18706075102090836,
      "num_tokens": 63228100.0,
      "step": 34270
    },
    {
      "entropy": 5.524617290496826,
      "epoch": 2.8795631169922284,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00041736372345131125,
      "loss": 5.1526,
      "mean_token_accuracy": 0.1906675025820732,
      "num_tokens": 63237036.0,
      "step": 34275
    },
    {
      "entropy": 5.463055992126465,
      "epoch": 2.8799831968073937,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004173405323494241,
      "loss": 5.0528,
      "mean_token_accuracy": 0.19800469279289246,
      "num_tokens": 63246982.0,
      "step": 34280
    },
    {
      "entropy": 5.6203936576843265,
      "epoch": 2.880403276622558,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004173173387260477,
      "loss": 5.252,
      "mean_token_accuracy": 0.1832195371389389,
      "num_tokens": 63256380.0,
      "step": 34285
    },
    {
      "entropy": 5.479637098312378,
      "epoch": 2.8808233564377232,
      "grad_norm": 1.140625,
      "learning_rate": 0.000417294142581593,
      "loss": 5.0414,
      "mean_token_accuracy": 0.19895968288183213,
      "num_tokens": 63265098.0,
      "step": 34290
    },
    {
      "entropy": 5.424125909805298,
      "epoch": 2.881243436252888,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004172709439164707,
      "loss": 5.1132,
      "mean_token_accuracy": 0.19669598042964936,
      "num_tokens": 63274083.0,
      "step": 34295
    },
    {
      "entropy": 5.455857181549073,
      "epoch": 2.881663516068053,
      "grad_norm": 1.078125,
      "learning_rate": 0.00041724774273109195,
      "loss": 5.0637,
      "mean_token_accuracy": 0.19472724944353104,
      "num_tokens": 63283387.0,
      "step": 34300
    },
    {
      "entropy": 5.612506341934204,
      "epoch": 2.882083595883218,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004172245390258677,
      "loss": 5.2705,
      "mean_token_accuracy": 0.17917906492948532,
      "num_tokens": 63293583.0,
      "step": 34305
    },
    {
      "entropy": 5.544731855392456,
      "epoch": 2.882503675698383,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00041720133280120903,
      "loss": 5.1752,
      "mean_token_accuracy": 0.18712000399827958,
      "num_tokens": 63303274.0,
      "step": 34310
    },
    {
      "entropy": 5.505207967758179,
      "epoch": 2.8829237555135476,
      "grad_norm": 1.09375,
      "learning_rate": 0.00041717812405752693,
      "loss": 5.2075,
      "mean_token_accuracy": 0.18840183913707734,
      "num_tokens": 63312299.0,
      "step": 34315
    },
    {
      "entropy": 5.433008861541748,
      "epoch": 2.8833438353287124,
      "grad_norm": 1.0625,
      "learning_rate": 0.00041715491279523256,
      "loss": 5.1165,
      "mean_token_accuracy": 0.19268639534711837,
      "num_tokens": 63321616.0,
      "step": 34320
    },
    {
      "entropy": 5.5508214950561525,
      "epoch": 2.883763915143877,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004171316990147371,
      "loss": 5.1318,
      "mean_token_accuracy": 0.18942791670560838,
      "num_tokens": 63330777.0,
      "step": 34325
    },
    {
      "entropy": 5.547058820724487,
      "epoch": 2.8841839949590424,
      "grad_norm": 1.125,
      "learning_rate": 0.00041710848271645174,
      "loss": 5.1207,
      "mean_token_accuracy": 0.19070937484502792,
      "num_tokens": 63340852.0,
      "step": 34330
    },
    {
      "entropy": 5.478681945800782,
      "epoch": 2.884604074774207,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004170852639007878,
      "loss": 5.1961,
      "mean_token_accuracy": 0.18505971878767014,
      "num_tokens": 63349572.0,
      "step": 34335
    },
    {
      "entropy": 5.4204412460327145,
      "epoch": 2.885024154589372,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004170620425681566,
      "loss": 5.0063,
      "mean_token_accuracy": 0.2026737928390503,
      "num_tokens": 63358250.0,
      "step": 34340
    },
    {
      "entropy": 5.461003208160401,
      "epoch": 2.885444234404537,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00041703881871896947,
      "loss": 5.1118,
      "mean_token_accuracy": 0.19534686654806138,
      "num_tokens": 63366656.0,
      "step": 34345
    },
    {
      "entropy": 5.552058458328247,
      "epoch": 2.8858643142197016,
      "grad_norm": 1.03125,
      "learning_rate": 0.00041701559235363784,
      "loss": 5.3304,
      "mean_token_accuracy": 0.1758106529712677,
      "num_tokens": 63376455.0,
      "step": 34350
    },
    {
      "entropy": 5.575404977798462,
      "epoch": 2.886284394034867,
      "grad_norm": 1.03125,
      "learning_rate": 0.00041699236347257315,
      "loss": 5.1363,
      "mean_token_accuracy": 0.18783602267503738,
      "num_tokens": 63385333.0,
      "step": 34355
    },
    {
      "entropy": 5.606816625595092,
      "epoch": 2.8867044738500316,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00041696913207618674,
      "loss": 5.2407,
      "mean_token_accuracy": 0.1845146134495735,
      "num_tokens": 63396174.0,
      "step": 34360
    },
    {
      "entropy": 5.4764491558074955,
      "epoch": 2.8871245536651964,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00041694589816489034,
      "loss": 5.0305,
      "mean_token_accuracy": 0.19854321628808974,
      "num_tokens": 63404441.0,
      "step": 34365
    },
    {
      "entropy": 5.38673849105835,
      "epoch": 2.887544633480361,
      "grad_norm": 1.125,
      "learning_rate": 0.00041692266173909545,
      "loss": 5.1047,
      "mean_token_accuracy": 0.19164083451032637,
      "num_tokens": 63412884.0,
      "step": 34370
    },
    {
      "entropy": 5.465523290634155,
      "epoch": 2.887964713295526,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004168994227992136,
      "loss": 5.0698,
      "mean_token_accuracy": 0.19117487519979476,
      "num_tokens": 63422666.0,
      "step": 34375
    },
    {
      "entropy": 5.610438537597656,
      "epoch": 2.888384793110691,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004168761813456566,
      "loss": 5.2113,
      "mean_token_accuracy": 0.19196246564388275,
      "num_tokens": 63432235.0,
      "step": 34380
    },
    {
      "entropy": 5.492319011688233,
      "epoch": 2.888804872925856,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004168529373788361,
      "loss": 5.1345,
      "mean_token_accuracy": 0.1956768348813057,
      "num_tokens": 63441569.0,
      "step": 34385
    },
    {
      "entropy": 5.507290506362915,
      "epoch": 2.8892249527410208,
      "grad_norm": 1.046875,
      "learning_rate": 0.00041682969089916385,
      "loss": 5.2315,
      "mean_token_accuracy": 0.17850172966718675,
      "num_tokens": 63451500.0,
      "step": 34390
    },
    {
      "entropy": 5.620055723190307,
      "epoch": 2.8896450325561855,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004168064419070516,
      "loss": 5.2579,
      "mean_token_accuracy": 0.17940694838762283,
      "num_tokens": 63461384.0,
      "step": 34395
    },
    {
      "entropy": 5.544316816329956,
      "epoch": 2.8900651123713503,
      "grad_norm": 1.078125,
      "learning_rate": 0.00041678319040291137,
      "loss": 5.2245,
      "mean_token_accuracy": 0.18533851355314254,
      "num_tokens": 63471835.0,
      "step": 34400
    },
    {
      "entropy": 5.499411153793335,
      "epoch": 2.8904851921865156,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004167599363871549,
      "loss": 5.1867,
      "mean_token_accuracy": 0.19069780856370927,
      "num_tokens": 63482066.0,
      "step": 34405
    },
    {
      "entropy": 5.557842493057251,
      "epoch": 2.8909052720016803,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004167366798601941,
      "loss": 5.182,
      "mean_token_accuracy": 0.18594102263450624,
      "num_tokens": 63491554.0,
      "step": 34410
    },
    {
      "entropy": 5.530141592025757,
      "epoch": 2.891325351816845,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000416713420822441,
      "loss": 5.1937,
      "mean_token_accuracy": 0.19428158700466155,
      "num_tokens": 63500410.0,
      "step": 34415
    },
    {
      "entropy": 5.425908041000366,
      "epoch": 2.89174543163201,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00041669015927430766,
      "loss": 5.0451,
      "mean_token_accuracy": 0.1976461663842201,
      "num_tokens": 63508831.0,
      "step": 34420
    },
    {
      "entropy": 5.530622148513794,
      "epoch": 2.8921655114471747,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004166668952162061,
      "loss": 5.1603,
      "mean_token_accuracy": 0.19381408393383026,
      "num_tokens": 63517696.0,
      "step": 34425
    },
    {
      "entropy": 5.48453106880188,
      "epoch": 2.89258559126234,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004166436286485484,
      "loss": 5.1942,
      "mean_token_accuracy": 0.19175271689891815,
      "num_tokens": 63527071.0,
      "step": 34430
    },
    {
      "entropy": 5.516212892532349,
      "epoch": 2.8930056710775047,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004166203595717468,
      "loss": 5.206,
      "mean_token_accuracy": 0.19028412103652953,
      "num_tokens": 63536458.0,
      "step": 34435
    },
    {
      "entropy": 5.512440776824951,
      "epoch": 2.8934257508926695,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004165970879862134,
      "loss": 5.0866,
      "mean_token_accuracy": 0.19820043295621873,
      "num_tokens": 63545718.0,
      "step": 34440
    },
    {
      "entropy": 5.5632719039917,
      "epoch": 2.8938458307078347,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004165738138923607,
      "loss": 5.2081,
      "mean_token_accuracy": 0.1905220404267311,
      "num_tokens": 63554416.0,
      "step": 34445
    },
    {
      "entropy": 5.4885155200958256,
      "epoch": 2.8942659105229995,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004165505372906005,
      "loss": 5.1816,
      "mean_token_accuracy": 0.1837071180343628,
      "num_tokens": 63563448.0,
      "step": 34450
    },
    {
      "entropy": 5.503169822692871,
      "epoch": 2.8946859903381643,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00041652725818134553,
      "loss": 5.133,
      "mean_token_accuracy": 0.1945609048008919,
      "num_tokens": 63572101.0,
      "step": 34455
    },
    {
      "entropy": 5.5840332984924315,
      "epoch": 2.895106070153329,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004165039765650081,
      "loss": 5.2052,
      "mean_token_accuracy": 0.1891447052359581,
      "num_tokens": 63581122.0,
      "step": 34460
    },
    {
      "entropy": 5.567932176589966,
      "epoch": 2.895526149968494,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00041648069244200055,
      "loss": 5.1646,
      "mean_token_accuracy": 0.18871976137161256,
      "num_tokens": 63590360.0,
      "step": 34465
    },
    {
      "entropy": 5.495755577087403,
      "epoch": 2.895946229783659,
      "grad_norm": 1.125,
      "learning_rate": 0.00041645740581273537,
      "loss": 5.043,
      "mean_token_accuracy": 0.19775806963443757,
      "num_tokens": 63599412.0,
      "step": 34470
    },
    {
      "entropy": 5.444697713851928,
      "epoch": 2.896366309598824,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004164341166776251,
      "loss": 5.1515,
      "mean_token_accuracy": 0.18879654109477997,
      "num_tokens": 63609117.0,
      "step": 34475
    },
    {
      "entropy": 5.496561765670776,
      "epoch": 2.8967863894139887,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004164108250370823,
      "loss": 5.0968,
      "mean_token_accuracy": 0.19284131973981858,
      "num_tokens": 63618841.0,
      "step": 34480
    },
    {
      "entropy": 5.491406345367432,
      "epoch": 2.8972064692291535,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00041638753089151954,
      "loss": 5.1729,
      "mean_token_accuracy": 0.18188054114580154,
      "num_tokens": 63628152.0,
      "step": 34485
    },
    {
      "entropy": 5.567108774185181,
      "epoch": 2.8976265490443183,
      "grad_norm": 1.140625,
      "learning_rate": 0.00041636423424134953,
      "loss": 5.1618,
      "mean_token_accuracy": 0.1872869148850441,
      "num_tokens": 63637016.0,
      "step": 34490
    },
    {
      "entropy": 5.518188381195069,
      "epoch": 2.8980466288594835,
      "grad_norm": 1.046875,
      "learning_rate": 0.00041634093508698486,
      "loss": 5.1445,
      "mean_token_accuracy": 0.19007288813591003,
      "num_tokens": 63646842.0,
      "step": 34495
    },
    {
      "entropy": 5.484399795532227,
      "epoch": 2.8984667086746483,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004163176334288383,
      "loss": 5.1916,
      "mean_token_accuracy": 0.18980153948068618,
      "num_tokens": 63656229.0,
      "step": 34500
    },
    {
      "entropy": 5.527144813537598,
      "epoch": 2.898886788489813,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004162943292673226,
      "loss": 5.1568,
      "mean_token_accuracy": 0.19695499986410142,
      "num_tokens": 63665149.0,
      "step": 34505
    },
    {
      "entropy": 5.553585577011108,
      "epoch": 2.899306868304978,
      "grad_norm": 1.109375,
      "learning_rate": 0.00041627102260285065,
      "loss": 5.1301,
      "mean_token_accuracy": 0.1854572117328644,
      "num_tokens": 63673896.0,
      "step": 34510
    },
    {
      "entropy": 5.469697093963623,
      "epoch": 2.8997269481201426,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00041624771343583516,
      "loss": 5.0137,
      "mean_token_accuracy": 0.20320852994918823,
      "num_tokens": 63683219.0,
      "step": 34515
    },
    {
      "entropy": 5.465766334533692,
      "epoch": 2.900147027935308,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00041622440176668934,
      "loss": 5.0921,
      "mean_token_accuracy": 0.1893975928425789,
      "num_tokens": 63692480.0,
      "step": 34520
    },
    {
      "entropy": 5.486859703063965,
      "epoch": 2.9005671077504727,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004162010875958259,
      "loss": 5.1579,
      "mean_token_accuracy": 0.1898076593875885,
      "num_tokens": 63700935.0,
      "step": 34525
    },
    {
      "entropy": 5.47415599822998,
      "epoch": 2.9009871875656374,
      "grad_norm": 1.03125,
      "learning_rate": 0.00041617777092365786,
      "loss": 5.0857,
      "mean_token_accuracy": 0.1976298600435257,
      "num_tokens": 63709971.0,
      "step": 34530
    },
    {
      "entropy": 5.486195039749146,
      "epoch": 2.9014072673808022,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004161544517505983,
      "loss": 5.1566,
      "mean_token_accuracy": 0.18416651338338852,
      "num_tokens": 63719340.0,
      "step": 34535
    },
    {
      "entropy": 5.468698263168335,
      "epoch": 2.901827347195967,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004161311300770603,
      "loss": 5.1415,
      "mean_token_accuracy": 0.19030894190073014,
      "num_tokens": 63728099.0,
      "step": 34540
    },
    {
      "entropy": 5.4471112251281735,
      "epoch": 2.9022474270111323,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004161078059034572,
      "loss": 5.061,
      "mean_token_accuracy": 0.20128671377897261,
      "num_tokens": 63737507.0,
      "step": 34545
    },
    {
      "entropy": 5.396541404724121,
      "epoch": 2.902667506826297,
      "grad_norm": 1.09375,
      "learning_rate": 0.00041608447923020174,
      "loss": 5.0417,
      "mean_token_accuracy": 0.20088258385658264,
      "num_tokens": 63747007.0,
      "step": 34550
    },
    {
      "entropy": 5.462326240539551,
      "epoch": 2.903087586641462,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00041606115005770743,
      "loss": 5.0943,
      "mean_token_accuracy": 0.19060726463794708,
      "num_tokens": 63755667.0,
      "step": 34555
    },
    {
      "entropy": 5.445726203918457,
      "epoch": 2.9035076664566266,
      "grad_norm": 1.171875,
      "learning_rate": 0.00041603781838638754,
      "loss": 5.0883,
      "mean_token_accuracy": 0.19573043882846833,
      "num_tokens": 63764427.0,
      "step": 34560
    },
    {
      "entropy": 5.595377254486084,
      "epoch": 2.9039277462717914,
      "grad_norm": 1.046875,
      "learning_rate": 0.00041601448421665536,
      "loss": 5.2625,
      "mean_token_accuracy": 0.18697209358215333,
      "num_tokens": 63775223.0,
      "step": 34565
    },
    {
      "entropy": 5.578097772598267,
      "epoch": 2.9043478260869566,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004159911475489241,
      "loss": 5.1753,
      "mean_token_accuracy": 0.18703010082244872,
      "num_tokens": 63784366.0,
      "step": 34570
    },
    {
      "entropy": 5.52233099937439,
      "epoch": 2.9047679059021214,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00041596780838360734,
      "loss": 5.1271,
      "mean_token_accuracy": 0.19338102787733077,
      "num_tokens": 63793175.0,
      "step": 34575
    },
    {
      "entropy": 5.474031543731689,
      "epoch": 2.905187985717286,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00041594446672111836,
      "loss": 5.127,
      "mean_token_accuracy": 0.18894228786230088,
      "num_tokens": 63802425.0,
      "step": 34580
    },
    {
      "entropy": 5.533958482742309,
      "epoch": 2.9056080655324514,
      "grad_norm": 1.046875,
      "learning_rate": 0.00041592112256187073,
      "loss": 5.1394,
      "mean_token_accuracy": 0.19058039784431458,
      "num_tokens": 63811665.0,
      "step": 34585
    },
    {
      "entropy": 5.550299882888794,
      "epoch": 2.9060281453476158,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000415897775906278,
      "loss": 5.1832,
      "mean_token_accuracy": 0.1985544368624687,
      "num_tokens": 63821684.0,
      "step": 34590
    },
    {
      "entropy": 5.538525390625,
      "epoch": 2.906448225162781,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00041587442675475376,
      "loss": 5.1397,
      "mean_token_accuracy": 0.19365429282188415,
      "num_tokens": 63830641.0,
      "step": 34595
    },
    {
      "entropy": 5.503012371063233,
      "epoch": 2.906868304977946,
      "grad_norm": 1.109375,
      "learning_rate": 0.00041585107510771157,
      "loss": 5.0688,
      "mean_token_accuracy": 0.1976266846060753,
      "num_tokens": 63838761.0,
      "step": 34600
    },
    {
      "entropy": 5.4291627407073975,
      "epoch": 2.9072883847931106,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004158277209655651,
      "loss": 5.0913,
      "mean_token_accuracy": 0.19638801217079163,
      "num_tokens": 63847140.0,
      "step": 34605
    },
    {
      "entropy": 5.538237714767456,
      "epoch": 2.907708464608276,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004158043643287281,
      "loss": 5.1953,
      "mean_token_accuracy": 0.18881040066480637,
      "num_tokens": 63857598.0,
      "step": 34610
    },
    {
      "entropy": 5.558329010009766,
      "epoch": 2.9081285444234406,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00041578100519761425,
      "loss": 5.0475,
      "mean_token_accuracy": 0.1969304710626602,
      "num_tokens": 63866382.0,
      "step": 34615
    },
    {
      "entropy": 5.441248893737793,
      "epoch": 2.9085486242386054,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004157576435726374,
      "loss": 5.0595,
      "mean_token_accuracy": 0.19906711727380752,
      "num_tokens": 63876047.0,
      "step": 34620
    },
    {
      "entropy": 5.419703149795533,
      "epoch": 2.90896870405377,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00041573427945421136,
      "loss": 5.1232,
      "mean_token_accuracy": 0.1951432228088379,
      "num_tokens": 63885867.0,
      "step": 34625
    },
    {
      "entropy": 5.51802430152893,
      "epoch": 2.909388783868935,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00041571091284275003,
      "loss": 5.1379,
      "mean_token_accuracy": 0.19438683986663818,
      "num_tokens": 63895087.0,
      "step": 34630
    },
    {
      "entropy": 5.4204058170318605,
      "epoch": 2.9098088636841,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004156875437386674,
      "loss": 4.9553,
      "mean_token_accuracy": 0.20195096135139465,
      "num_tokens": 63904006.0,
      "step": 34635
    },
    {
      "entropy": 5.512786436080932,
      "epoch": 2.910228943499265,
      "grad_norm": 1.109375,
      "learning_rate": 0.00041566417214237733,
      "loss": 5.1981,
      "mean_token_accuracy": 0.18454414755105972,
      "num_tokens": 63913180.0,
      "step": 34640
    },
    {
      "entropy": 5.558633041381836,
      "epoch": 2.9106490233144298,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004156407980542938,
      "loss": 5.217,
      "mean_token_accuracy": 0.1852862611413002,
      "num_tokens": 63922966.0,
      "step": 34645
    },
    {
      "entropy": 5.5811584949493405,
      "epoch": 2.9110691031295945,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004156174214748311,
      "loss": 5.2373,
      "mean_token_accuracy": 0.18396363854408265,
      "num_tokens": 63933069.0,
      "step": 34650
    },
    {
      "entropy": 5.52872223854065,
      "epoch": 2.9114891829447593,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00041559404240440305,
      "loss": 5.1685,
      "mean_token_accuracy": 0.18825455754995346,
      "num_tokens": 63942485.0,
      "step": 34655
    },
    {
      "entropy": 5.586717176437378,
      "epoch": 2.9119092627599246,
      "grad_norm": 1.046875,
      "learning_rate": 0.000415570660843424,
      "loss": 5.333,
      "mean_token_accuracy": 0.17211450040340423,
      "num_tokens": 63953651.0,
      "step": 34660
    },
    {
      "entropy": 5.519646120071411,
      "epoch": 2.9123293425750894,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00041554727679230815,
      "loss": 5.1272,
      "mean_token_accuracy": 0.20003220736980437,
      "num_tokens": 63963694.0,
      "step": 34665
    },
    {
      "entropy": 5.387348461151123,
      "epoch": 2.912749422390254,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00041552389025146955,
      "loss": 5.0616,
      "mean_token_accuracy": 0.1955530509352684,
      "num_tokens": 63972897.0,
      "step": 34670
    },
    {
      "entropy": 5.580181550979614,
      "epoch": 2.913169502205419,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00041550050122132266,
      "loss": 5.2112,
      "mean_token_accuracy": 0.18108618706464769,
      "num_tokens": 63981977.0,
      "step": 34675
    },
    {
      "entropy": 5.531153964996338,
      "epoch": 2.9135895820205837,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00041547710970228164,
      "loss": 5.1351,
      "mean_token_accuracy": 0.18354482352733612,
      "num_tokens": 63991713.0,
      "step": 34680
    },
    {
      "entropy": 5.508871936798096,
      "epoch": 2.914009661835749,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00041545371569476103,
      "loss": 5.2049,
      "mean_token_accuracy": 0.1820350095629692,
      "num_tokens": 64000763.0,
      "step": 34685
    },
    {
      "entropy": 5.386038827896118,
      "epoch": 2.9144297416509137,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004154303191991751,
      "loss": 4.9655,
      "mean_token_accuracy": 0.20129634588956832,
      "num_tokens": 64009889.0,
      "step": 34690
    },
    {
      "entropy": 5.415867471694947,
      "epoch": 2.9148498214660785,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004154069202159385,
      "loss": 5.0341,
      "mean_token_accuracy": 0.19363775998353958,
      "num_tokens": 64019441.0,
      "step": 34695
    },
    {
      "entropy": 5.399961233139038,
      "epoch": 2.9152699012812433,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004153835187454655,
      "loss": 5.0398,
      "mean_token_accuracy": 0.19832223951816558,
      "num_tokens": 64028953.0,
      "step": 34700
    },
    {
      "entropy": 5.506924152374268,
      "epoch": 2.915689981096408,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004153601147881708,
      "loss": 5.1427,
      "mean_token_accuracy": 0.19072931706905366,
      "num_tokens": 64038492.0,
      "step": 34705
    },
    {
      "entropy": 5.535037279129028,
      "epoch": 2.9161100609115733,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000415336708344469,
      "loss": 5.1831,
      "mean_token_accuracy": 0.19534684717655182,
      "num_tokens": 64046949.0,
      "step": 34710
    },
    {
      "entropy": 5.447229957580566,
      "epoch": 2.916530140726738,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004153132994147746,
      "loss": 4.9675,
      "mean_token_accuracy": 0.20139404982328415,
      "num_tokens": 64055628.0,
      "step": 34715
    },
    {
      "entropy": 5.444513559341431,
      "epoch": 2.916950220541903,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00041528988799950233,
      "loss": 5.0857,
      "mean_token_accuracy": 0.1997833549976349,
      "num_tokens": 64064625.0,
      "step": 34720
    },
    {
      "entropy": 5.545530891418457,
      "epoch": 2.9173703003570677,
      "grad_norm": 1.0390625,
      "learning_rate": 0.000415266474099067,
      "loss": 5.2235,
      "mean_token_accuracy": 0.19269941449165345,
      "num_tokens": 64074870.0,
      "step": 34725
    },
    {
      "entropy": 5.405319309234619,
      "epoch": 2.9177903801722325,
      "grad_norm": 1.078125,
      "learning_rate": 0.00041524305771388324,
      "loss": 5.0185,
      "mean_token_accuracy": 0.19345683753490447,
      "num_tokens": 64083303.0,
      "step": 34730
    },
    {
      "entropy": 5.449851083755493,
      "epoch": 2.9182104599873977,
      "grad_norm": 1.234375,
      "learning_rate": 0.00041521963884436595,
      "loss": 5.0735,
      "mean_token_accuracy": 0.19839128404855727,
      "num_tokens": 64092062.0,
      "step": 34735
    },
    {
      "entropy": 5.651334381103515,
      "epoch": 2.9186305398025625,
      "grad_norm": 1.078125,
      "learning_rate": 0.00041519621749093,
      "loss": 5.3665,
      "mean_token_accuracy": 0.180675907433033,
      "num_tokens": 64102340.0,
      "step": 34740
    },
    {
      "entropy": 5.419963598251343,
      "epoch": 2.9190506196177273,
      "grad_norm": 0.96484375,
      "learning_rate": 0.0004151727936539902,
      "loss": 5.0752,
      "mean_token_accuracy": 0.20067397207021714,
      "num_tokens": 64111678.0,
      "step": 34745
    },
    {
      "entropy": 5.524853849411011,
      "epoch": 2.9194706994328925,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004151493673339615,
      "loss": 5.1243,
      "mean_token_accuracy": 0.19252129048109054,
      "num_tokens": 64121650.0,
      "step": 34750
    },
    {
      "entropy": 5.486769962310791,
      "epoch": 2.9198907792480573,
      "grad_norm": 1.15625,
      "learning_rate": 0.000415125938531259,
      "loss": 5.1001,
      "mean_token_accuracy": 0.1996917173266411,
      "num_tokens": 64130443.0,
      "step": 34755
    },
    {
      "entropy": 5.45972580909729,
      "epoch": 2.920310859063222,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004151025072462977,
      "loss": 5.0349,
      "mean_token_accuracy": 0.1938069388270378,
      "num_tokens": 64139222.0,
      "step": 34760
    },
    {
      "entropy": 5.517575407028199,
      "epoch": 2.920730938878387,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004150790734794925,
      "loss": 5.2162,
      "mean_token_accuracy": 0.19339461773633956,
      "num_tokens": 64148646.0,
      "step": 34765
    },
    {
      "entropy": 5.444821357727051,
      "epoch": 2.9211510186935516,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004150556372312587,
      "loss": 5.1063,
      "mean_token_accuracy": 0.19065937548875808,
      "num_tokens": 64157620.0,
      "step": 34770
    },
    {
      "entropy": 5.445981454849243,
      "epoch": 2.921571098508717,
      "grad_norm": 1.109375,
      "learning_rate": 0.00041503219850201145,
      "loss": 5.0649,
      "mean_token_accuracy": 0.18817218542098998,
      "num_tokens": 64166624.0,
      "step": 34775
    },
    {
      "entropy": 5.514461946487427,
      "epoch": 2.9219911783238817,
      "grad_norm": 1.0625,
      "learning_rate": 0.00041500875729216585,
      "loss": 5.0764,
      "mean_token_accuracy": 0.1927737072110176,
      "num_tokens": 64174881.0,
      "step": 34780
    },
    {
      "entropy": 5.554870891571045,
      "epoch": 2.9224112581390465,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00041498531360213724,
      "loss": 5.1794,
      "mean_token_accuracy": 0.18906476199626923,
      "num_tokens": 64184269.0,
      "step": 34785
    },
    {
      "entropy": 5.398800373077393,
      "epoch": 2.9228313379542112,
      "grad_norm": 1.125,
      "learning_rate": 0.00041496186743234095,
      "loss": 5.0206,
      "mean_token_accuracy": 0.19861071407794953,
      "num_tokens": 64192744.0,
      "step": 34790
    },
    {
      "entropy": 5.471615171432495,
      "epoch": 2.923251417769376,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004149384187831921,
      "loss": 5.1533,
      "mean_token_accuracy": 0.18541189581155776,
      "num_tokens": 64201367.0,
      "step": 34795
    },
    {
      "entropy": 5.564061784744263,
      "epoch": 2.9236714975845413,
      "grad_norm": 1.328125,
      "learning_rate": 0.0004149149676551063,
      "loss": 5.224,
      "mean_token_accuracy": 0.18430808782577515,
      "num_tokens": 64210354.0,
      "step": 34800
    },
    {
      "entropy": 5.580433177947998,
      "epoch": 2.924091577399706,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00041489151404849883,
      "loss": 5.123,
      "mean_token_accuracy": 0.1916743814945221,
      "num_tokens": 64219902.0,
      "step": 34805
    },
    {
      "entropy": 5.574774265289307,
      "epoch": 2.924511657214871,
      "grad_norm": 1.015625,
      "learning_rate": 0.00041486805796378523,
      "loss": 5.2098,
      "mean_token_accuracy": 0.19181687086820604,
      "num_tokens": 64228952.0,
      "step": 34810
    },
    {
      "entropy": 5.490260744094849,
      "epoch": 2.9249317370300356,
      "grad_norm": 1.078125,
      "learning_rate": 0.00041484459940138116,
      "loss": 5.1745,
      "mean_token_accuracy": 0.18672867119312286,
      "num_tokens": 64238515.0,
      "step": 34815
    },
    {
      "entropy": 5.504387044906617,
      "epoch": 2.9253518168452004,
      "grad_norm": 1.125,
      "learning_rate": 0.0004148211383617018,
      "loss": 5.1505,
      "mean_token_accuracy": 0.19004315584897996,
      "num_tokens": 64248141.0,
      "step": 34820
    },
    {
      "entropy": 5.508262872695923,
      "epoch": 2.9257718966603656,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004147976748451631,
      "loss": 5.1081,
      "mean_token_accuracy": 0.1929086849093437,
      "num_tokens": 64257376.0,
      "step": 34825
    },
    {
      "entropy": 5.423662233352661,
      "epoch": 2.9261919764755304,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004147742088521806,
      "loss": 5.1128,
      "mean_token_accuracy": 0.1979533091187477,
      "num_tokens": 64266848.0,
      "step": 34830
    },
    {
      "entropy": 5.457590341567993,
      "epoch": 2.926612056290695,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004147507403831699,
      "loss": 5.0856,
      "mean_token_accuracy": 0.19195687621831894,
      "num_tokens": 64276363.0,
      "step": 34835
    },
    {
      "entropy": 5.56764407157898,
      "epoch": 2.92703213610586,
      "grad_norm": 1.078125,
      "learning_rate": 0.00041472726943854677,
      "loss": 5.2426,
      "mean_token_accuracy": 0.185099458694458,
      "num_tokens": 64286173.0,
      "step": 34840
    },
    {
      "entropy": 5.505204772949218,
      "epoch": 2.927452215921025,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004147037960187271,
      "loss": 5.0982,
      "mean_token_accuracy": 0.20124226808547974,
      "num_tokens": 64294326.0,
      "step": 34845
    },
    {
      "entropy": 5.432236528396606,
      "epoch": 2.92787229573619,
      "grad_norm": 1.078125,
      "learning_rate": 0.00041468032012412654,
      "loss": 5.0173,
      "mean_token_accuracy": 0.20148802250623704,
      "num_tokens": 64303657.0,
      "step": 34850
    },
    {
      "entropy": 5.493842506408692,
      "epoch": 2.928292375551355,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000414656841755161,
      "loss": 5.0934,
      "mean_token_accuracy": 0.19198398888111115,
      "num_tokens": 64312445.0,
      "step": 34855
    },
    {
      "entropy": 5.440077495574951,
      "epoch": 2.9287124553665196,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00041463336091224657,
      "loss": 5.0299,
      "mean_token_accuracy": 0.19843946993350983,
      "num_tokens": 64321238.0,
      "step": 34860
    },
    {
      "entropy": 5.367404747009277,
      "epoch": 2.9291325351816844,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000414609877595799,
      "loss": 4.9805,
      "mean_token_accuracy": 0.20942900478839874,
      "num_tokens": 64330830.0,
      "step": 34865
    },
    {
      "entropy": 5.46281943321228,
      "epoch": 2.929552614996849,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00041458639180623426,
      "loss": 5.2298,
      "mean_token_accuracy": 0.18720622658729552,
      "num_tokens": 64339944.0,
      "step": 34870
    },
    {
      "entropy": 5.580064535140991,
      "epoch": 2.9299726948120144,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004145629035439685,
      "loss": 5.0939,
      "mean_token_accuracy": 0.1964957445859909,
      "num_tokens": 64349417.0,
      "step": 34875
    },
    {
      "entropy": 5.535786724090576,
      "epoch": 2.930392774627179,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00041453941280941774,
      "loss": 5.1624,
      "mean_token_accuracy": 0.18553792387247087,
      "num_tokens": 64358728.0,
      "step": 34880
    },
    {
      "entropy": 5.456266784667969,
      "epoch": 2.930812854442344,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00041451591960299815,
      "loss": 5.1862,
      "mean_token_accuracy": 0.18820584416389466,
      "num_tokens": 64368999.0,
      "step": 34885
    },
    {
      "entropy": 5.566990995407105,
      "epoch": 2.931232934257509,
      "grad_norm": 1.21875,
      "learning_rate": 0.000414492423925126,
      "loss": 5.2304,
      "mean_token_accuracy": 0.18706901967525483,
      "num_tokens": 64380079.0,
      "step": 34890
    },
    {
      "entropy": 5.575073337554931,
      "epoch": 2.9316530140726735,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004144689257762173,
      "loss": 5.1437,
      "mean_token_accuracy": 0.18843214362859725,
      "num_tokens": 64389980.0,
      "step": 34895
    },
    {
      "entropy": 5.416708755493164,
      "epoch": 2.9320730938878388,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00041444542515668833,
      "loss": 5.0591,
      "mean_token_accuracy": 0.19698309004306794,
      "num_tokens": 64398852.0,
      "step": 34900
    },
    {
      "entropy": 5.447628545761108,
      "epoch": 2.9324931737030036,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004144219220669555,
      "loss": 5.0612,
      "mean_token_accuracy": 0.19845951050519944,
      "num_tokens": 64407857.0,
      "step": 34905
    },
    {
      "entropy": 5.4501558303833,
      "epoch": 2.9329132535181683,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00041439841650743516,
      "loss": 5.0652,
      "mean_token_accuracy": 0.20315168499946595,
      "num_tokens": 64417072.0,
      "step": 34910
    },
    {
      "entropy": 5.4429638385772705,
      "epoch": 2.9333333333333336,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004143749084785436,
      "loss": 5.1051,
      "mean_token_accuracy": 0.19334739148616792,
      "num_tokens": 64426145.0,
      "step": 34915
    },
    {
      "entropy": 5.480884265899658,
      "epoch": 2.9337534131484984,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00041435139798069737,
      "loss": 5.1183,
      "mean_token_accuracy": 0.18856251537799834,
      "num_tokens": 64435672.0,
      "step": 34920
    },
    {
      "entropy": 5.543004846572876,
      "epoch": 2.934173492963663,
      "grad_norm": 1.0625,
      "learning_rate": 0.00041432788501431284,
      "loss": 5.1326,
      "mean_token_accuracy": 0.19355908483266832,
      "num_tokens": 64445401.0,
      "step": 34925
    },
    {
      "entropy": 5.472995042800903,
      "epoch": 2.934593572778828,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004143043695798065,
      "loss": 5.1693,
      "mean_token_accuracy": 0.1832781121134758,
      "num_tokens": 64455652.0,
      "step": 34930
    },
    {
      "entropy": 5.5011899948120115,
      "epoch": 2.9350136525939927,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004142808516775951,
      "loss": 5.1236,
      "mean_token_accuracy": 0.1904413789510727,
      "num_tokens": 64465058.0,
      "step": 34935
    },
    {
      "entropy": 5.460579490661621,
      "epoch": 2.935433732409158,
      "grad_norm": 1.0625,
      "learning_rate": 0.000414257331308095,
      "loss": 5.1578,
      "mean_token_accuracy": 0.19213116616010667,
      "num_tokens": 64474534.0,
      "step": 34940
    },
    {
      "entropy": 5.501315259933472,
      "epoch": 2.9358538122243227,
      "grad_norm": 1.078125,
      "learning_rate": 0.00041423380847172307,
      "loss": 5.1616,
      "mean_token_accuracy": 0.19088026583194734,
      "num_tokens": 64483849.0,
      "step": 34945
    },
    {
      "entropy": 5.587479591369629,
      "epoch": 2.9362738920394875,
      "grad_norm": 1.15625,
      "learning_rate": 0.00041421028316889597,
      "loss": 5.1894,
      "mean_token_accuracy": 0.19051756709814072,
      "num_tokens": 64492451.0,
      "step": 34950
    },
    {
      "entropy": 5.5317769050598145,
      "epoch": 2.9366939718546523,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004141867554000303,
      "loss": 5.1228,
      "mean_token_accuracy": 0.19579073488712312,
      "num_tokens": 64502592.0,
      "step": 34955
    },
    {
      "entropy": 5.462168502807617,
      "epoch": 2.937114051669817,
      "grad_norm": 1.203125,
      "learning_rate": 0.00041416322516554295,
      "loss": 5.093,
      "mean_token_accuracy": 0.20584900975227355,
      "num_tokens": 64511769.0,
      "step": 34960
    },
    {
      "entropy": 5.487573909759521,
      "epoch": 2.9375341314849823,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004141396924658507,
      "loss": 5.1756,
      "mean_token_accuracy": 0.185503725707531,
      "num_tokens": 64521303.0,
      "step": 34965
    },
    {
      "entropy": 5.492021226882935,
      "epoch": 2.937954211300147,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004141161573013705,
      "loss": 5.0572,
      "mean_token_accuracy": 0.1976169005036354,
      "num_tokens": 64530629.0,
      "step": 34970
    },
    {
      "entropy": 5.570366382598877,
      "epoch": 2.938374291115312,
      "grad_norm": 1.125,
      "learning_rate": 0.00041409261967251915,
      "loss": 5.2121,
      "mean_token_accuracy": 0.1885258212685585,
      "num_tokens": 64539350.0,
      "step": 34975
    },
    {
      "entropy": 5.479995250701904,
      "epoch": 2.9387943709304767,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00041406907957971373,
      "loss": 5.0476,
      "mean_token_accuracy": 0.19195208549499512,
      "num_tokens": 64547662.0,
      "step": 34980
    },
    {
      "entropy": 5.505616283416748,
      "epoch": 2.9392144507456415,
      "grad_norm": 1.125,
      "learning_rate": 0.0004140455370233711,
      "loss": 5.0965,
      "mean_token_accuracy": 0.19365034103393555,
      "num_tokens": 64558075.0,
      "step": 34985
    },
    {
      "entropy": 5.508046817779541,
      "epoch": 2.9396345305608067,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004140219920039085,
      "loss": 5.2181,
      "mean_token_accuracy": 0.19038281589746475,
      "num_tokens": 64567817.0,
      "step": 34990
    },
    {
      "entropy": 5.520916318893432,
      "epoch": 2.9400546103759715,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004139984445217427,
      "loss": 5.1366,
      "mean_token_accuracy": 0.1958916440606117,
      "num_tokens": 64576656.0,
      "step": 34995
    },
    {
      "entropy": 5.523613309860229,
      "epoch": 2.9404746901911363,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004139748945772912,
      "loss": 5.0638,
      "mean_token_accuracy": 0.1954411432147026,
      "num_tokens": 64585537.0,
      "step": 35000
    },
    {
      "entropy": 5.4937979221344,
      "epoch": 2.940894770006301,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000413951342170971,
      "loss": 5.1568,
      "mean_token_accuracy": 0.19870034158229827,
      "num_tokens": 64595104.0,
      "step": 35005
    },
    {
      "entropy": 5.367499351501465,
      "epoch": 2.941314849821466,
      "grad_norm": 1.1875,
      "learning_rate": 0.00041392778730319917,
      "loss": 4.9277,
      "mean_token_accuracy": 0.20519796013832092,
      "num_tokens": 64602917.0,
      "step": 35010
    },
    {
      "entropy": 5.524792003631592,
      "epoch": 2.941734929636631,
      "grad_norm": 1.140625,
      "learning_rate": 0.00041390422997439325,
      "loss": 5.2242,
      "mean_token_accuracy": 0.17886930108070373,
      "num_tokens": 64612383.0,
      "step": 35015
    },
    {
      "entropy": 5.552180528640747,
      "epoch": 2.942155009451796,
      "grad_norm": 1.171875,
      "learning_rate": 0.00041388067018497044,
      "loss": 5.0944,
      "mean_token_accuracy": 0.1997029095888138,
      "num_tokens": 64621557.0,
      "step": 35020
    },
    {
      "entropy": 5.482445526123047,
      "epoch": 2.9425750892669607,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00041385710793534806,
      "loss": 5.0947,
      "mean_token_accuracy": 0.19084917455911637,
      "num_tokens": 64631513.0,
      "step": 35025
    },
    {
      "entropy": 5.483479118347168,
      "epoch": 2.9429951690821254,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00041383354322594346,
      "loss": 5.1538,
      "mean_token_accuracy": 0.1907978892326355,
      "num_tokens": 64641050.0,
      "step": 35030
    },
    {
      "entropy": 5.519584608078003,
      "epoch": 2.9434152488972902,
      "grad_norm": 1.078125,
      "learning_rate": 0.00041380997605717417,
      "loss": 5.1558,
      "mean_token_accuracy": 0.1914592519402504,
      "num_tokens": 64650010.0,
      "step": 35035
    },
    {
      "entropy": 5.51144495010376,
      "epoch": 2.9438353287124555,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004137864064294576,
      "loss": 5.0551,
      "mean_token_accuracy": 0.19929561167955398,
      "num_tokens": 64659586.0,
      "step": 35040
    },
    {
      "entropy": 5.4796123027801515,
      "epoch": 2.9442554085276202,
      "grad_norm": 1.125,
      "learning_rate": 0.0004137628343432113,
      "loss": 5.0969,
      "mean_token_accuracy": 0.19279415160417557,
      "num_tokens": 64669759.0,
      "step": 35045
    },
    {
      "entropy": 5.570368099212646,
      "epoch": 2.944675488342785,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00041373925979885283,
      "loss": 5.2628,
      "mean_token_accuracy": 0.18147145956754684,
      "num_tokens": 64678614.0,
      "step": 35050
    },
    {
      "entropy": 5.480563640594482,
      "epoch": 2.9450955681579503,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004137156827967999,
      "loss": 5.1232,
      "mean_token_accuracy": 0.1948764741420746,
      "num_tokens": 64688253.0,
      "step": 35055
    },
    {
      "entropy": 5.56344952583313,
      "epoch": 2.945515647973115,
      "grad_norm": 1.109375,
      "learning_rate": 0.00041369210333747005,
      "loss": 5.239,
      "mean_token_accuracy": 0.18596306443214417,
      "num_tokens": 64697755.0,
      "step": 35060
    },
    {
      "entropy": 5.5035120964050295,
      "epoch": 2.94593572778828,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004136685214212809,
      "loss": 5.061,
      "mean_token_accuracy": 0.19562260657548905,
      "num_tokens": 64706668.0,
      "step": 35065
    },
    {
      "entropy": 5.399061775207519,
      "epoch": 2.9463558076034446,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00041364493704865044,
      "loss": 5.0975,
      "mean_token_accuracy": 0.19697138667106628,
      "num_tokens": 64715770.0,
      "step": 35070
    },
    {
      "entropy": 5.532909774780274,
      "epoch": 2.9467758874186094,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004136213502199962,
      "loss": 5.1458,
      "mean_token_accuracy": 0.19033319503068924,
      "num_tokens": 64725912.0,
      "step": 35075
    },
    {
      "entropy": 5.477070569992065,
      "epoch": 2.9471959672337746,
      "grad_norm": 1.0,
      "learning_rate": 0.00041359776093573617,
      "loss": 5.0947,
      "mean_token_accuracy": 0.19358094930648803,
      "num_tokens": 64735567.0,
      "step": 35080
    },
    {
      "entropy": 5.5041838645935055,
      "epoch": 2.9476160470489394,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00041357416919628816,
      "loss": 5.1081,
      "mean_token_accuracy": 0.18995219469070435,
      "num_tokens": 64743972.0,
      "step": 35085
    },
    {
      "entropy": 5.521734809875488,
      "epoch": 2.948036126864104,
      "grad_norm": 1.140625,
      "learning_rate": 0.00041355057500207004,
      "loss": 5.1128,
      "mean_token_accuracy": 0.19542832523584366,
      "num_tokens": 64753030.0,
      "step": 35090
    },
    {
      "entropy": 5.579628753662109,
      "epoch": 2.948456206679269,
      "grad_norm": 1.0625,
      "learning_rate": 0.00041352697835349994,
      "loss": 5.2066,
      "mean_token_accuracy": 0.18894146829843522,
      "num_tokens": 64762717.0,
      "step": 35095
    },
    {
      "entropy": 5.5053894996643065,
      "epoch": 2.948876286494434,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004135033792509957,
      "loss": 5.1369,
      "mean_token_accuracy": 0.19228631258010864,
      "num_tokens": 64771776.0,
      "step": 35100
    },
    {
      "entropy": 5.51665849685669,
      "epoch": 2.949296366309599,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004134797776949755,
      "loss": 5.1655,
      "mean_token_accuracy": 0.19232920408248902,
      "num_tokens": 64781418.0,
      "step": 35105
    },
    {
      "entropy": 5.49482159614563,
      "epoch": 2.949716446124764,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004134561736858572,
      "loss": 5.1379,
      "mean_token_accuracy": 0.19592520147562026,
      "num_tokens": 64790343.0,
      "step": 35110
    },
    {
      "entropy": 5.61163182258606,
      "epoch": 2.9501365259399286,
      "grad_norm": 1.125,
      "learning_rate": 0.00041343256722405915,
      "loss": 5.1597,
      "mean_token_accuracy": 0.19193761497735978,
      "num_tokens": 64799189.0,
      "step": 35115
    },
    {
      "entropy": 5.537360954284668,
      "epoch": 2.9505566057550934,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004134089583099994,
      "loss": 5.1876,
      "mean_token_accuracy": 0.18351052403450013,
      "num_tokens": 64809276.0,
      "step": 35120
    },
    {
      "entropy": 5.457766103744507,
      "epoch": 2.950976685570258,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004133853469440963,
      "loss": 5.1128,
      "mean_token_accuracy": 0.19435537606477737,
      "num_tokens": 64818008.0,
      "step": 35125
    },
    {
      "entropy": 5.482647705078125,
      "epoch": 2.9513967653854234,
      "grad_norm": 1.125,
      "learning_rate": 0.00041336173312676795,
      "loss": 5.0295,
      "mean_token_accuracy": 0.19150387793779372,
      "num_tokens": 64826576.0,
      "step": 35130
    },
    {
      "entropy": 5.5025506019592285,
      "epoch": 2.951816845200588,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004133381168584329,
      "loss": 5.1241,
      "mean_token_accuracy": 0.19089802503585815,
      "num_tokens": 64835510.0,
      "step": 35135
    },
    {
      "entropy": 5.4147309303283695,
      "epoch": 2.952236925015753,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004133144981395092,
      "loss": 5.0538,
      "mean_token_accuracy": 0.19505382925271988,
      "num_tokens": 64845031.0,
      "step": 35140
    },
    {
      "entropy": 5.498800420761109,
      "epoch": 2.9526570048309178,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004132908769704154,
      "loss": 5.0948,
      "mean_token_accuracy": 0.19157644361257553,
      "num_tokens": 64855365.0,
      "step": 35145
    },
    {
      "entropy": 5.566997814178467,
      "epoch": 2.9530770846460825,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004132672533515699,
      "loss": 5.1389,
      "mean_token_accuracy": 0.1940545380115509,
      "num_tokens": 64864014.0,
      "step": 35150
    },
    {
      "entropy": 5.513829040527344,
      "epoch": 2.9534971644612478,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004132436272833913,
      "loss": 5.1425,
      "mean_token_accuracy": 0.19533935487270354,
      "num_tokens": 64873127.0,
      "step": 35155
    },
    {
      "entropy": 5.478203582763672,
      "epoch": 2.9539172442764126,
      "grad_norm": 1.09375,
      "learning_rate": 0.00041321999876629795,
      "loss": 5.1148,
      "mean_token_accuracy": 0.19842046201229097,
      "num_tokens": 64881549.0,
      "step": 35160
    },
    {
      "entropy": 5.475726842880249,
      "epoch": 2.9543373240915773,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0004131963678007085,
      "loss": 5.0982,
      "mean_token_accuracy": 0.20223446637392045,
      "num_tokens": 64890204.0,
      "step": 35165
    },
    {
      "entropy": 5.492347669601441,
      "epoch": 2.954757403906742,
      "grad_norm": 1.09375,
      "learning_rate": 0.00041317273438704164,
      "loss": 5.1566,
      "mean_token_accuracy": 0.18796612024307252,
      "num_tokens": 64899466.0,
      "step": 35170
    },
    {
      "entropy": 5.527065563201904,
      "epoch": 2.955177483721907,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004131490985257159,
      "loss": 5.1372,
      "mean_token_accuracy": 0.19572864174842836,
      "num_tokens": 64908917.0,
      "step": 35175
    },
    {
      "entropy": 5.561987972259521,
      "epoch": 2.955597563537072,
      "grad_norm": 1.125,
      "learning_rate": 0.00041312546021714995,
      "loss": 5.1718,
      "mean_token_accuracy": 0.184937484562397,
      "num_tokens": 64918048.0,
      "step": 35180
    },
    {
      "entropy": 5.367765331268311,
      "epoch": 2.956017643352237,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00041310181946176263,
      "loss": 4.9324,
      "mean_token_accuracy": 0.20686799734830857,
      "num_tokens": 64926664.0,
      "step": 35185
    },
    {
      "entropy": 5.485003137588501,
      "epoch": 2.9564377231674017,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00041307817625997275,
      "loss": 5.0587,
      "mean_token_accuracy": 0.19784820824861526,
      "num_tokens": 64935283.0,
      "step": 35190
    },
    {
      "entropy": 5.5401591777801515,
      "epoch": 2.956857802982567,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00041305453061219903,
      "loss": 5.136,
      "mean_token_accuracy": 0.18867112696170807,
      "num_tokens": 64944432.0,
      "step": 35195
    },
    {
      "entropy": 5.5116349220275875,
      "epoch": 2.9572778827977313,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004130308825188604,
      "loss": 5.0489,
      "mean_token_accuracy": 0.19186958521604539,
      "num_tokens": 64953565.0,
      "step": 35200
    },
    {
      "entropy": 5.536571073532104,
      "epoch": 2.9576979626128965,
      "grad_norm": 1.109375,
      "learning_rate": 0.00041300723198037573,
      "loss": 5.1676,
      "mean_token_accuracy": 0.18567388653755187,
      "num_tokens": 64963387.0,
      "step": 35205
    },
    {
      "entropy": 5.459193992614746,
      "epoch": 2.9581180424280613,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004129835789971639,
      "loss": 5.1497,
      "mean_token_accuracy": 0.19477196633815766,
      "num_tokens": 64973481.0,
      "step": 35210
    },
    {
      "entropy": 5.575457906723022,
      "epoch": 2.958538122243226,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00041295992356964417,
      "loss": 5.208,
      "mean_token_accuracy": 0.18496087342500686,
      "num_tokens": 64982614.0,
      "step": 35215
    },
    {
      "entropy": 5.571555709838867,
      "epoch": 2.9589582020583913,
      "grad_norm": 1.125,
      "learning_rate": 0.00041293626569823547,
      "loss": 5.115,
      "mean_token_accuracy": 0.193866129219532,
      "num_tokens": 64991981.0,
      "step": 35220
    },
    {
      "entropy": 5.554536914825439,
      "epoch": 2.959378281873556,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004129126053833568,
      "loss": 5.1355,
      "mean_token_accuracy": 0.19373015463352203,
      "num_tokens": 65001527.0,
      "step": 35225
    },
    {
      "entropy": 5.345325040817261,
      "epoch": 2.959798361688721,
      "grad_norm": 1.015625,
      "learning_rate": 0.00041288894262542724,
      "loss": 5.0345,
      "mean_token_accuracy": 0.20166415274143218,
      "num_tokens": 65011021.0,
      "step": 35230
    },
    {
      "entropy": 5.532878446578979,
      "epoch": 2.9602184415038857,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00041286527742486617,
      "loss": 5.1551,
      "mean_token_accuracy": 0.18933893889188766,
      "num_tokens": 65020151.0,
      "step": 35235
    },
    {
      "entropy": 5.464282655715943,
      "epoch": 2.9606385213190505,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004128416097820927,
      "loss": 5.1336,
      "mean_token_accuracy": 0.19856935292482375,
      "num_tokens": 65028526.0,
      "step": 35240
    },
    {
      "entropy": 5.439998197555542,
      "epoch": 2.9610586011342157,
      "grad_norm": 1.09375,
      "learning_rate": 0.00041281793969752607,
      "loss": 5.0676,
      "mean_token_accuracy": 0.19876400828361512,
      "num_tokens": 65038552.0,
      "step": 35245
    },
    {
      "entropy": 5.570680904388428,
      "epoch": 2.9614786809493805,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004127942671715856,
      "loss": 5.1971,
      "mean_token_accuracy": 0.1906136080622673,
      "num_tokens": 65048321.0,
      "step": 35250
    },
    {
      "entropy": 5.4406503200531,
      "epoch": 2.9618987607645453,
      "grad_norm": 1.078125,
      "learning_rate": 0.00041277059220469063,
      "loss": 4.9833,
      "mean_token_accuracy": 0.20574960559606553,
      "num_tokens": 65057239.0,
      "step": 35255
    },
    {
      "entropy": 5.476824474334717,
      "epoch": 2.96231884057971,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00041274691479726064,
      "loss": 5.1385,
      "mean_token_accuracy": 0.18857208788394927,
      "num_tokens": 65066248.0,
      "step": 35260
    },
    {
      "entropy": 5.501867341995239,
      "epoch": 2.962738920394875,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00041272323494971494,
      "loss": 5.1239,
      "mean_token_accuracy": 0.18967415988445283,
      "num_tokens": 65076174.0,
      "step": 35265
    },
    {
      "entropy": 5.447040128707886,
      "epoch": 2.96315900021004,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000412699552662473,
      "loss": 5.0493,
      "mean_token_accuracy": 0.1957394450902939,
      "num_tokens": 65085588.0,
      "step": 35270
    },
    {
      "entropy": 5.562263870239258,
      "epoch": 2.963579080025205,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00041267586793595443,
      "loss": 5.1608,
      "mean_token_accuracy": 0.18813272267580033,
      "num_tokens": 65095997.0,
      "step": 35275
    },
    {
      "entropy": 5.487229681015014,
      "epoch": 2.9639991598403697,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004126521807705787,
      "loss": 4.9874,
      "mean_token_accuracy": 0.20471231788396835,
      "num_tokens": 65104709.0,
      "step": 35280
    },
    {
      "entropy": 5.509799385070801,
      "epoch": 2.9644192396555344,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004126284911667655,
      "loss": 5.114,
      "mean_token_accuracy": 0.19482651650905608,
      "num_tokens": 65113884.0,
      "step": 35285
    },
    {
      "entropy": 5.525826168060303,
      "epoch": 2.9648393194706992,
      "grad_norm": 1.125,
      "learning_rate": 0.0004126047991249345,
      "loss": 5.1152,
      "mean_token_accuracy": 0.1918068826198578,
      "num_tokens": 65122629.0,
      "step": 35290
    },
    {
      "entropy": 5.4873597621917725,
      "epoch": 2.9652593992858645,
      "grad_norm": 1.09375,
      "learning_rate": 0.00041258110464550523,
      "loss": 5.0738,
      "mean_token_accuracy": 0.1886337146162987,
      "num_tokens": 65132037.0,
      "step": 35295
    },
    {
      "entropy": 5.575516414642334,
      "epoch": 2.9656794791010292,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00041255740772889766,
      "loss": 5.2843,
      "mean_token_accuracy": 0.18659748136997223,
      "num_tokens": 65141679.0,
      "step": 35300
    },
    {
      "entropy": 5.555933046340942,
      "epoch": 2.966099558916194,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004125337083755314,
      "loss": 5.1094,
      "mean_token_accuracy": 0.19363160729408263,
      "num_tokens": 65150503.0,
      "step": 35305
    },
    {
      "entropy": 5.467652463912964,
      "epoch": 2.966519638731359,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004125100065858263,
      "loss": 5.1228,
      "mean_token_accuracy": 0.1897498846054077,
      "num_tokens": 65159742.0,
      "step": 35310
    },
    {
      "entropy": 5.526147890090942,
      "epoch": 2.9669397185465236,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004124863023602022,
      "loss": 5.1246,
      "mean_token_accuracy": 0.18518997281789779,
      "num_tokens": 65169189.0,
      "step": 35315
    },
    {
      "entropy": 5.538198041915893,
      "epoch": 2.967359798361689,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00041246259569907914,
      "loss": 5.0693,
      "mean_token_accuracy": 0.19899025410413743,
      "num_tokens": 65177904.0,
      "step": 35320
    },
    {
      "entropy": 5.495224857330323,
      "epoch": 2.9677798781768536,
      "grad_norm": 1.125,
      "learning_rate": 0.0004124388866028769,
      "loss": 5.1866,
      "mean_token_accuracy": 0.18977791517972947,
      "num_tokens": 65187139.0,
      "step": 35325
    },
    {
      "entropy": 5.520587825775147,
      "epoch": 2.9681999579920184,
      "grad_norm": 1.046875,
      "learning_rate": 0.00041241517507201555,
      "loss": 5.124,
      "mean_token_accuracy": 0.19078657925128936,
      "num_tokens": 65195760.0,
      "step": 35330
    },
    {
      "entropy": 5.503946924209595,
      "epoch": 2.968620037807183,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00041239146110691515,
      "loss": 5.0534,
      "mean_token_accuracy": 0.19238725155591965,
      "num_tokens": 65205039.0,
      "step": 35335
    },
    {
      "entropy": 5.460809659957886,
      "epoch": 2.969040117622348,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004123677447079958,
      "loss": 5.1892,
      "mean_token_accuracy": 0.18456120491027833,
      "num_tokens": 65214274.0,
      "step": 35340
    },
    {
      "entropy": 5.5375439643859865,
      "epoch": 2.969460197437513,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00041234402587567756,
      "loss": 5.0766,
      "mean_token_accuracy": 0.19547394365072251,
      "num_tokens": 65223205.0,
      "step": 35345
    },
    {
      "entropy": 5.436900854110718,
      "epoch": 2.969880277252678,
      "grad_norm": 1.015625,
      "learning_rate": 0.00041232030461038063,
      "loss": 5.011,
      "mean_token_accuracy": 0.19745693057775499,
      "num_tokens": 65232009.0,
      "step": 35350
    },
    {
      "entropy": 5.500965785980225,
      "epoch": 2.970300357067843,
      "grad_norm": 1.109375,
      "learning_rate": 0.00041229658091252515,
      "loss": 5.1506,
      "mean_token_accuracy": 0.1991293177008629,
      "num_tokens": 65240578.0,
      "step": 35355
    },
    {
      "entropy": 5.463811826705933,
      "epoch": 2.970720436883008,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004122728547825316,
      "loss": 5.1193,
      "mean_token_accuracy": 0.1986285462975502,
      "num_tokens": 65250143.0,
      "step": 35360
    },
    {
      "entropy": 5.512031078338623,
      "epoch": 2.971140516698173,
      "grad_norm": 1.046875,
      "learning_rate": 0.00041224912622081993,
      "loss": 5.1573,
      "mean_token_accuracy": 0.19484902024269105,
      "num_tokens": 65258556.0,
      "step": 35365
    },
    {
      "entropy": 5.455294132232666,
      "epoch": 2.9715605965133376,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00041222539522781077,
      "loss": 5.0786,
      "mean_token_accuracy": 0.19163677841424942,
      "num_tokens": 65267326.0,
      "step": 35370
    },
    {
      "entropy": 5.520256042480469,
      "epoch": 2.9719806763285024,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004122016618039244,
      "loss": 5.1461,
      "mean_token_accuracy": 0.1983138918876648,
      "num_tokens": 65276564.0,
      "step": 35375
    },
    {
      "entropy": 5.550859689712524,
      "epoch": 2.972400756143667,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004121779259495811,
      "loss": 5.0734,
      "mean_token_accuracy": 0.19976602643728256,
      "num_tokens": 65286265.0,
      "step": 35380
    },
    {
      "entropy": 5.434077501296997,
      "epoch": 2.9728208359588324,
      "grad_norm": 1.125,
      "learning_rate": 0.00041215418766520165,
      "loss": 5.0784,
      "mean_token_accuracy": 0.1963101789355278,
      "num_tokens": 65295682.0,
      "step": 35385
    },
    {
      "entropy": 5.483694648742675,
      "epoch": 2.973240915773997,
      "grad_norm": 1.125,
      "learning_rate": 0.0004121304469512063,
      "loss": 5.1727,
      "mean_token_accuracy": 0.19163414388895034,
      "num_tokens": 65304417.0,
      "step": 35390
    },
    {
      "entropy": 5.477642917633057,
      "epoch": 2.973660995589162,
      "grad_norm": 1.09375,
      "learning_rate": 0.00041210670380801575,
      "loss": 5.0815,
      "mean_token_accuracy": 0.19957055300474166,
      "num_tokens": 65313195.0,
      "step": 35395
    },
    {
      "entropy": 5.467132997512818,
      "epoch": 2.9740810754043268,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004120829582360505,
      "loss": 5.0443,
      "mean_token_accuracy": 0.2048305317759514,
      "num_tokens": 65321938.0,
      "step": 35400
    },
    {
      "entropy": 5.544682168960572,
      "epoch": 2.9745011552194915,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004120592102357312,
      "loss": 5.1526,
      "mean_token_accuracy": 0.186233489215374,
      "num_tokens": 65331652.0,
      "step": 35405
    },
    {
      "entropy": 5.474103927612305,
      "epoch": 2.9749212350346568,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00041203545980747865,
      "loss": 5.1459,
      "mean_token_accuracy": 0.1893192321062088,
      "num_tokens": 65340237.0,
      "step": 35410
    },
    {
      "entropy": 5.439836025238037,
      "epoch": 2.9753413148498216,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00041201170695171337,
      "loss": 5.0688,
      "mean_token_accuracy": 0.1980351760983467,
      "num_tokens": 65349856.0,
      "step": 35415
    },
    {
      "entropy": 5.50892744064331,
      "epoch": 2.9757613946649863,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004119879516688564,
      "loss": 5.0624,
      "mean_token_accuracy": 0.19521780908107758,
      "num_tokens": 65358599.0,
      "step": 35420
    },
    {
      "entropy": 5.542368364334107,
      "epoch": 2.976181474480151,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004119641939593283,
      "loss": 5.1245,
      "mean_token_accuracy": 0.1874506652355194,
      "num_tokens": 65367875.0,
      "step": 35425
    },
    {
      "entropy": 5.530491971969605,
      "epoch": 2.976601554295316,
      "grad_norm": 1.125,
      "learning_rate": 0.00041194043382355007,
      "loss": 5.1733,
      "mean_token_accuracy": 0.1862184464931488,
      "num_tokens": 65377490.0,
      "step": 35430
    },
    {
      "entropy": 5.445527410507202,
      "epoch": 2.977021634110481,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00041191667126194253,
      "loss": 5.2043,
      "mean_token_accuracy": 0.19062521755695344,
      "num_tokens": 65386903.0,
      "step": 35435
    },
    {
      "entropy": 5.436396503448487,
      "epoch": 2.977441713925646,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00041189290627492676,
      "loss": 5.0488,
      "mean_token_accuracy": 0.19577572345733643,
      "num_tokens": 65396178.0,
      "step": 35440
    },
    {
      "entropy": 5.508113145828247,
      "epoch": 2.9778617937408107,
      "grad_norm": 1.15625,
      "learning_rate": 0.00041186913886292353,
      "loss": 5.1287,
      "mean_token_accuracy": 0.19279970228672028,
      "num_tokens": 65404904.0,
      "step": 35445
    },
    {
      "entropy": 5.429017496109009,
      "epoch": 2.9782818735559755,
      "grad_norm": 1.046875,
      "learning_rate": 0.00041184536902635406,
      "loss": 5.0817,
      "mean_token_accuracy": 0.19307987093925477,
      "num_tokens": 65413806.0,
      "step": 35450
    },
    {
      "entropy": 5.481058597564697,
      "epoch": 2.9787019533711403,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004118215967656393,
      "loss": 5.0799,
      "mean_token_accuracy": 0.19279286861419678,
      "num_tokens": 65422734.0,
      "step": 35455
    },
    {
      "entropy": 5.564998388290405,
      "epoch": 2.9791220331863055,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004117978220812004,
      "loss": 5.144,
      "mean_token_accuracy": 0.18999119251966476,
      "num_tokens": 65431150.0,
      "step": 35460
    },
    {
      "entropy": 5.422258090972901,
      "epoch": 2.9795421130014703,
      "grad_norm": 1.109375,
      "learning_rate": 0.00041177404497345856,
      "loss": 5.0425,
      "mean_token_accuracy": 0.1973016545176506,
      "num_tokens": 65440086.0,
      "step": 35465
    },
    {
      "entropy": 5.550136470794678,
      "epoch": 2.979962192816635,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004117502654428349,
      "loss": 5.1693,
      "mean_token_accuracy": 0.19391715973615647,
      "num_tokens": 65449212.0,
      "step": 35470
    },
    {
      "entropy": 5.50499153137207,
      "epoch": 2.9803822726318,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004117264834897508,
      "loss": 5.0606,
      "mean_token_accuracy": 0.1986944183707237,
      "num_tokens": 65458109.0,
      "step": 35475
    },
    {
      "entropy": 5.544162845611572,
      "epoch": 2.9808023524469647,
      "grad_norm": 0.9609375,
      "learning_rate": 0.00041170269911462726,
      "loss": 5.2167,
      "mean_token_accuracy": 0.18930570036172867,
      "num_tokens": 65467630.0,
      "step": 35480
    },
    {
      "entropy": 5.506665897369385,
      "epoch": 2.98122243226213,
      "grad_norm": 1.1875,
      "learning_rate": 0.00041167891231788596,
      "loss": 5.1809,
      "mean_token_accuracy": 0.18532657921314238,
      "num_tokens": 65476778.0,
      "step": 35485
    },
    {
      "entropy": 5.4466370105743405,
      "epoch": 2.9816425120772947,
      "grad_norm": 1.078125,
      "learning_rate": 0.000411655123099948,
      "loss": 5.0767,
      "mean_token_accuracy": 0.19661378264427185,
      "num_tokens": 65486472.0,
      "step": 35490
    },
    {
      "entropy": 5.5246068954467775,
      "epoch": 2.9820625918924595,
      "grad_norm": 1.7578125,
      "learning_rate": 0.000411631331461235,
      "loss": 5.0996,
      "mean_token_accuracy": 0.1925339952111244,
      "num_tokens": 65496591.0,
      "step": 35495
    },
    {
      "entropy": 5.536343669891357,
      "epoch": 2.9824826717076247,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00041160753740216826,
      "loss": 5.1501,
      "mean_token_accuracy": 0.1941231980919838,
      "num_tokens": 65506021.0,
      "step": 35500
    },
    {
      "entropy": 5.342656850814819,
      "epoch": 2.982902751522789,
      "grad_norm": 1.109375,
      "learning_rate": 0.00041158374092316937,
      "loss": 4.9841,
      "mean_token_accuracy": 0.19849487245082856,
      "num_tokens": 65514795.0,
      "step": 35505
    },
    {
      "entropy": 5.42282543182373,
      "epoch": 2.9833228313379543,
      "grad_norm": 1.0625,
      "learning_rate": 0.00041155994202465986,
      "loss": 5.0722,
      "mean_token_accuracy": 0.1991378679871559,
      "num_tokens": 65523217.0,
      "step": 35510
    },
    {
      "entropy": 5.543342542648316,
      "epoch": 2.983742911153119,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00041153614070706124,
      "loss": 5.1035,
      "mean_token_accuracy": 0.18771611005067826,
      "num_tokens": 65532526.0,
      "step": 35515
    },
    {
      "entropy": 5.435732460021972,
      "epoch": 2.984162990968284,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00041151233697079523,
      "loss": 5.0299,
      "mean_token_accuracy": 0.20367373079061507,
      "num_tokens": 65541149.0,
      "step": 35520
    },
    {
      "entropy": 5.517777585983277,
      "epoch": 2.984583070783449,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004114885308162834,
      "loss": 5.2207,
      "mean_token_accuracy": 0.1861576810479164,
      "num_tokens": 65550785.0,
      "step": 35525
    },
    {
      "entropy": 5.505411052703858,
      "epoch": 2.985003150598614,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004114647222439476,
      "loss": 5.1851,
      "mean_token_accuracy": 0.1908480018377304,
      "num_tokens": 65561115.0,
      "step": 35530
    },
    {
      "entropy": 5.597310876846313,
      "epoch": 2.9854232304137787,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004114409112542095,
      "loss": 5.164,
      "mean_token_accuracy": 0.18903884440660476,
      "num_tokens": 65569641.0,
      "step": 35535
    },
    {
      "entropy": 5.459335517883301,
      "epoch": 2.9858433102289434,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00041141709784749093,
      "loss": 4.9948,
      "mean_token_accuracy": 0.19991908371448516,
      "num_tokens": 65578553.0,
      "step": 35540
    },
    {
      "entropy": 5.591910934448242,
      "epoch": 2.9862633900441082,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004113932820242137,
      "loss": 5.2521,
      "mean_token_accuracy": 0.18688166588544847,
      "num_tokens": 65587401.0,
      "step": 35545
    },
    {
      "entropy": 5.423793935775757,
      "epoch": 2.9866834698592735,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004113694637847996,
      "loss": 5.0235,
      "mean_token_accuracy": 0.19850461781024933,
      "num_tokens": 65595997.0,
      "step": 35550
    },
    {
      "entropy": 5.469153547286988,
      "epoch": 2.9871035496744383,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00041134564312967075,
      "loss": 5.1187,
      "mean_token_accuracy": 0.1824229031801224,
      "num_tokens": 65605849.0,
      "step": 35555
    },
    {
      "entropy": 5.532993221282959,
      "epoch": 2.987523629489603,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004113218200592491,
      "loss": 5.1017,
      "mean_token_accuracy": 0.19594498872756957,
      "num_tokens": 65614951.0,
      "step": 35560
    },
    {
      "entropy": 5.404997634887695,
      "epoch": 2.987943709304768,
      "grad_norm": 1.125,
      "learning_rate": 0.00041129799457395653,
      "loss": 5.0652,
      "mean_token_accuracy": 0.20138913840055467,
      "num_tokens": 65623535.0,
      "step": 35565
    },
    {
      "entropy": 5.468096923828125,
      "epoch": 2.9883637891199326,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00041127416667421517,
      "loss": 5.1521,
      "mean_token_accuracy": 0.1919802740216255,
      "num_tokens": 65631761.0,
      "step": 35570
    },
    {
      "entropy": 5.478867912292481,
      "epoch": 2.988783868935098,
      "grad_norm": 1.109375,
      "learning_rate": 0.00041125033636044725,
      "loss": 5.028,
      "mean_token_accuracy": 0.19726316034793853,
      "num_tokens": 65640859.0,
      "step": 35575
    },
    {
      "entropy": 5.47500376701355,
      "epoch": 2.9892039487502626,
      "grad_norm": 1.125,
      "learning_rate": 0.00041122650363307464,
      "loss": 5.1325,
      "mean_token_accuracy": 0.1867962583899498,
      "num_tokens": 65649901.0,
      "step": 35580
    },
    {
      "entropy": 5.4246728897094725,
      "epoch": 2.9896240285654274,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004112026684925197,
      "loss": 5.0418,
      "mean_token_accuracy": 0.20020534694194794,
      "num_tokens": 65658294.0,
      "step": 35585
    },
    {
      "entropy": 5.563457059860229,
      "epoch": 2.990044108380592,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004111788309392046,
      "loss": 5.1997,
      "mean_token_accuracy": 0.1867037296295166,
      "num_tokens": 65667441.0,
      "step": 35590
    },
    {
      "entropy": 5.528369045257568,
      "epoch": 2.990464188195757,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004111549909735517,
      "loss": 5.1372,
      "mean_token_accuracy": 0.1919739231467247,
      "num_tokens": 65676898.0,
      "step": 35595
    },
    {
      "entropy": 5.474306535720825,
      "epoch": 2.990884268010922,
      "grad_norm": 1.140625,
      "learning_rate": 0.00041113114859598314,
      "loss": 5.0449,
      "mean_token_accuracy": 0.1996339038014412,
      "num_tokens": 65685650.0,
      "step": 35600
    },
    {
      "entropy": 5.516799402236939,
      "epoch": 2.991304347826087,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00041110730380692153,
      "loss": 5.094,
      "mean_token_accuracy": 0.19118584245443343,
      "num_tokens": 65694197.0,
      "step": 35605
    },
    {
      "entropy": 5.48815507888794,
      "epoch": 2.991724427641252,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00041108345660678897,
      "loss": 5.0925,
      "mean_token_accuracy": 0.1914933741092682,
      "num_tokens": 65702604.0,
      "step": 35610
    },
    {
      "entropy": 5.538705968856812,
      "epoch": 2.9921445074564166,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004110596069960081,
      "loss": 5.1679,
      "mean_token_accuracy": 0.1882033884525299,
      "num_tokens": 65711855.0,
      "step": 35615
    },
    {
      "entropy": 5.485380506515503,
      "epoch": 2.9925645872715814,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004110357549750013,
      "loss": 5.105,
      "mean_token_accuracy": 0.20062516927719115,
      "num_tokens": 65720731.0,
      "step": 35620
    },
    {
      "entropy": 5.537209701538086,
      "epoch": 2.9929846670867466,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004110119005441913,
      "loss": 5.1327,
      "mean_token_accuracy": 0.1899155169725418,
      "num_tokens": 65729578.0,
      "step": 35625
    },
    {
      "entropy": 5.563924503326416,
      "epoch": 2.9934047469019114,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00041098804370400037,
      "loss": 5.2393,
      "mean_token_accuracy": 0.18969980478286744,
      "num_tokens": 65739970.0,
      "step": 35630
    },
    {
      "entropy": 5.5988527774810795,
      "epoch": 2.993824826717076,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00041096418445485134,
      "loss": 5.1715,
      "mean_token_accuracy": 0.1847497045993805,
      "num_tokens": 65749733.0,
      "step": 35635
    },
    {
      "entropy": 5.511327457427979,
      "epoch": 2.9942449065322414,
      "grad_norm": 1.0,
      "learning_rate": 0.0004109403227971668,
      "loss": 5.1441,
      "mean_token_accuracy": 0.18563793152570723,
      "num_tokens": 65760516.0,
      "step": 35640
    },
    {
      "entropy": 5.518554306030273,
      "epoch": 2.9946649863474057,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00041091645873136934,
      "loss": 5.2151,
      "mean_token_accuracy": 0.18696589767932892,
      "num_tokens": 65770731.0,
      "step": 35645
    },
    {
      "entropy": 5.523782730102539,
      "epoch": 2.995085066162571,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004108925922578819,
      "loss": 5.1546,
      "mean_token_accuracy": 0.18982863873243333,
      "num_tokens": 65780710.0,
      "step": 35650
    },
    {
      "entropy": 5.468017864227295,
      "epoch": 2.9955051459777358,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004108687233771272,
      "loss": 5.0429,
      "mean_token_accuracy": 0.20044193863868714,
      "num_tokens": 65788843.0,
      "step": 35655
    },
    {
      "entropy": 5.500338935852051,
      "epoch": 2.9959252257929005,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004108448520895279,
      "loss": 5.0729,
      "mean_token_accuracy": 0.19514599740505217,
      "num_tokens": 65797451.0,
      "step": 35660
    },
    {
      "entropy": 5.387264060974121,
      "epoch": 2.996345305608066,
      "grad_norm": 1.078125,
      "learning_rate": 0.00041082097839550714,
      "loss": 5.093,
      "mean_token_accuracy": 0.1886108085513115,
      "num_tokens": 65806701.0,
      "step": 35665
    },
    {
      "entropy": 5.49517183303833,
      "epoch": 2.9967653854232306,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004107971022954876,
      "loss": 5.1118,
      "mean_token_accuracy": 0.18911003172397614,
      "num_tokens": 65816384.0,
      "step": 35670
    },
    {
      "entropy": 5.560473394393921,
      "epoch": 2.9971854652383954,
      "grad_norm": 1.140625,
      "learning_rate": 0.00041077322378989224,
      "loss": 5.2156,
      "mean_token_accuracy": 0.18747902810573577,
      "num_tokens": 65826595.0,
      "step": 35675
    },
    {
      "entropy": 5.4923436641693115,
      "epoch": 2.99760554505356,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004107493428791442,
      "loss": 5.0935,
      "mean_token_accuracy": 0.19220330715179443,
      "num_tokens": 65836540.0,
      "step": 35680
    },
    {
      "entropy": 5.523050737380982,
      "epoch": 2.998025624868725,
      "grad_norm": 1.078125,
      "learning_rate": 0.00041072545956366655,
      "loss": 5.1442,
      "mean_token_accuracy": 0.19756075292825698,
      "num_tokens": 65845594.0,
      "step": 35685
    },
    {
      "entropy": 5.416144132614136,
      "epoch": 2.99844570468389,
      "grad_norm": 1.0,
      "learning_rate": 0.0004107015738438821,
      "loss": 5.0553,
      "mean_token_accuracy": 0.19796534180641173,
      "num_tokens": 65854634.0,
      "step": 35690
    },
    {
      "entropy": 5.392003870010376,
      "epoch": 2.998865784499055,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004106776857202143,
      "loss": 5.0472,
      "mean_token_accuracy": 0.19410841166973114,
      "num_tokens": 65863677.0,
      "step": 35695
    },
    {
      "entropy": 5.487256956100464,
      "epoch": 2.9992858643142197,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004106537951930861,
      "loss": 5.092,
      "mean_token_accuracy": 0.1994085729122162,
      "num_tokens": 65873140.0,
      "step": 35700
    },
    {
      "entropy": 5.453729581832886,
      "epoch": 2.9997059441293845,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00041062990226292076,
      "loss": 5.0937,
      "mean_token_accuracy": 0.18739318251609802,
      "num_tokens": 65883269.0,
      "step": 35705
    },
    {
      "entropy": 5.485110335879856,
      "epoch": 3.000084015963033,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00041060600693014157,
      "loss": 5.0885,
      "mean_token_accuracy": 0.20302523838149178,
      "num_tokens": 65891649.0,
      "step": 35710
    },
    {
      "entropy": 5.536953783035278,
      "epoch": 3.0005040957781977,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004105821091951717,
      "loss": 5.1398,
      "mean_token_accuracy": 0.1885131061077118,
      "num_tokens": 65901044.0,
      "step": 35715
    },
    {
      "entropy": 5.524022579193115,
      "epoch": 3.000924175593363,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00041055820905843473,
      "loss": 5.0079,
      "mean_token_accuracy": 0.20484793335199356,
      "num_tokens": 65910382.0,
      "step": 35720
    },
    {
      "entropy": 5.424823522567749,
      "epoch": 3.0013442554085277,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004105343065203538,
      "loss": 5.0337,
      "mean_token_accuracy": 0.19090310335159302,
      "num_tokens": 65919770.0,
      "step": 35725
    },
    {
      "entropy": 5.412285566329956,
      "epoch": 3.0017643352236925,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00041051040158135237,
      "loss": 5.025,
      "mean_token_accuracy": 0.195604807138443,
      "num_tokens": 65928451.0,
      "step": 35730
    },
    {
      "entropy": 5.513675498962402,
      "epoch": 3.0021844150388572,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004104864942418541,
      "loss": 5.0289,
      "mean_token_accuracy": 0.20022004395723342,
      "num_tokens": 65938499.0,
      "step": 35735
    },
    {
      "entropy": 5.472689771652222,
      "epoch": 3.0026044948540225,
      "grad_norm": 1.09375,
      "learning_rate": 0.00041046258450228224,
      "loss": 5.041,
      "mean_token_accuracy": 0.1998012199997902,
      "num_tokens": 65946967.0,
      "step": 35740
    },
    {
      "entropy": 5.449934434890747,
      "epoch": 3.0030245746691873,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004104386723630604,
      "loss": 5.148,
      "mean_token_accuracy": 0.19105601757764817,
      "num_tokens": 65956524.0,
      "step": 35745
    },
    {
      "entropy": 5.544133281707763,
      "epoch": 3.003444654484352,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004104147578246123,
      "loss": 5.0777,
      "mean_token_accuracy": 0.19751427471637725,
      "num_tokens": 65965483.0,
      "step": 35750
    },
    {
      "entropy": 5.426173734664917,
      "epoch": 3.003864734299517,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004103908408873615,
      "loss": 4.9973,
      "mean_token_accuracy": 0.20418467372655869,
      "num_tokens": 65974603.0,
      "step": 35755
    },
    {
      "entropy": 5.475445699691773,
      "epoch": 3.0042848141146816,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004103669215517317,
      "loss": 5.0848,
      "mean_token_accuracy": 0.19851524084806443,
      "num_tokens": 65983504.0,
      "step": 35760
    },
    {
      "entropy": 5.484887933731079,
      "epoch": 3.004704893929847,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00041034299981814647,
      "loss": 5.0825,
      "mean_token_accuracy": 0.19301870167255403,
      "num_tokens": 65993078.0,
      "step": 35765
    },
    {
      "entropy": 5.501962661743164,
      "epoch": 3.0051249737450116,
      "grad_norm": 1.0625,
      "learning_rate": 0.00041031907568702975,
      "loss": 5.0788,
      "mean_token_accuracy": 0.1955012708902359,
      "num_tokens": 66001371.0,
      "step": 35770
    },
    {
      "entropy": 5.425278568267823,
      "epoch": 3.0055450535601764,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004102951491588054,
      "loss": 4.9948,
      "mean_token_accuracy": 0.20173658281564713,
      "num_tokens": 66011066.0,
      "step": 35775
    },
    {
      "entropy": 5.4830292701721195,
      "epoch": 3.005965133375341,
      "grad_norm": 1.125,
      "learning_rate": 0.00041027122023389696,
      "loss": 5.097,
      "mean_token_accuracy": 0.18897994458675385,
      "num_tokens": 66020342.0,
      "step": 35780
    },
    {
      "entropy": 5.562666130065918,
      "epoch": 3.006385213190506,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004102472889127286,
      "loss": 5.162,
      "mean_token_accuracy": 0.18886986523866653,
      "num_tokens": 66029994.0,
      "step": 35785
    },
    {
      "entropy": 5.428258895874023,
      "epoch": 3.0068052930056712,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004102233551957241,
      "loss": 4.927,
      "mean_token_accuracy": 0.20315689444541932,
      "num_tokens": 66038696.0,
      "step": 35790
    },
    {
      "entropy": 5.486414861679077,
      "epoch": 3.007225372820836,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004101994190833076,
      "loss": 5.1404,
      "mean_token_accuracy": 0.1865907520055771,
      "num_tokens": 66048032.0,
      "step": 35795
    },
    {
      "entropy": 5.488538789749145,
      "epoch": 3.007645452636001,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00041017548057590295,
      "loss": 5.0598,
      "mean_token_accuracy": 0.19838932305574417,
      "num_tokens": 66057494.0,
      "step": 35800
    },
    {
      "entropy": 5.524308204650879,
      "epoch": 3.0080655324511656,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00041015153967393427,
      "loss": 5.0372,
      "mean_token_accuracy": 0.1967750683426857,
      "num_tokens": 66066525.0,
      "step": 35805
    },
    {
      "entropy": 5.500882816314697,
      "epoch": 3.008485612266331,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004101275963778257,
      "loss": 5.0466,
      "mean_token_accuracy": 0.18694385886192322,
      "num_tokens": 66075204.0,
      "step": 35810
    },
    {
      "entropy": 5.454538726806641,
      "epoch": 3.0089056920814956,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00041010365068800124,
      "loss": 5.0441,
      "mean_token_accuracy": 0.19964899718761445,
      "num_tokens": 66084070.0,
      "step": 35815
    },
    {
      "entropy": 5.4897057056427006,
      "epoch": 3.0093257718966604,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004100797026048852,
      "loss": 5.0868,
      "mean_token_accuracy": 0.19847610741853713,
      "num_tokens": 66093891.0,
      "step": 35820
    },
    {
      "entropy": 5.4776379585266115,
      "epoch": 3.009745851711825,
      "grad_norm": 1.140625,
      "learning_rate": 0.00041005575212890185,
      "loss": 5.035,
      "mean_token_accuracy": 0.19349817037582398,
      "num_tokens": 66102605.0,
      "step": 35825
    },
    {
      "entropy": 5.537686204910278,
      "epoch": 3.01016593152699,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00041003179926047534,
      "loss": 5.1649,
      "mean_token_accuracy": 0.18321017771959305,
      "num_tokens": 66111645.0,
      "step": 35830
    },
    {
      "entropy": 5.4796764850616455,
      "epoch": 3.010586011342155,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004100078440000301,
      "loss": 5.072,
      "mean_token_accuracy": 0.20022705048322678,
      "num_tokens": 66120444.0,
      "step": 35835
    },
    {
      "entropy": 5.511021709442138,
      "epoch": 3.01100609115732,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004099838863479904,
      "loss": 5.0616,
      "mean_token_accuracy": 0.1911832571029663,
      "num_tokens": 66129934.0,
      "step": 35840
    },
    {
      "entropy": 5.55395541191101,
      "epoch": 3.0114261709724848,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004099599263047806,
      "loss": 5.0852,
      "mean_token_accuracy": 0.19820544123649597,
      "num_tokens": 66139898.0,
      "step": 35845
    },
    {
      "entropy": 5.504702568054199,
      "epoch": 3.0118462507876496,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004099359638708253,
      "loss": 5.0473,
      "mean_token_accuracy": 0.20223422050476075,
      "num_tokens": 66148036.0,
      "step": 35850
    },
    {
      "entropy": 5.408350419998169,
      "epoch": 3.0122663306028143,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004099119990465487,
      "loss": 4.9922,
      "mean_token_accuracy": 0.20455104261636733,
      "num_tokens": 66157249.0,
      "step": 35855
    },
    {
      "entropy": 5.447210645675659,
      "epoch": 3.0126864104179796,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004098880318323757,
      "loss": 5.069,
      "mean_token_accuracy": 0.1921029657125473,
      "num_tokens": 66167676.0,
      "step": 35860
    },
    {
      "entropy": 5.494170522689819,
      "epoch": 3.0131064902331444,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00040986406222873065,
      "loss": 5.0584,
      "mean_token_accuracy": 0.19474762976169585,
      "num_tokens": 66176925.0,
      "step": 35865
    },
    {
      "entropy": 5.481577014923095,
      "epoch": 3.013526570048309,
      "grad_norm": 1.09375,
      "learning_rate": 0.00040984009023603806,
      "loss": 4.994,
      "mean_token_accuracy": 0.1939884051680565,
      "num_tokens": 66186656.0,
      "step": 35870
    },
    {
      "entropy": 5.447309923171997,
      "epoch": 3.013946649863474,
      "grad_norm": 1.1875,
      "learning_rate": 0.00040981611585472276,
      "loss": 5.03,
      "mean_token_accuracy": 0.20165349096059798,
      "num_tokens": 66196240.0,
      "step": 35875
    },
    {
      "entropy": 5.478545188903809,
      "epoch": 3.0143667296786387,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004097921390852094,
      "loss": 5.0442,
      "mean_token_accuracy": 0.19514481872320175,
      "num_tokens": 66205153.0,
      "step": 35880
    },
    {
      "entropy": 5.485676574707031,
      "epoch": 3.014786809493804,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004097681599279227,
      "loss": 5.0678,
      "mean_token_accuracy": 0.19278930127620697,
      "num_tokens": 66214063.0,
      "step": 35885
    },
    {
      "entropy": 5.4477513313293455,
      "epoch": 3.0152068893089687,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004097441783832875,
      "loss": 5.0503,
      "mean_token_accuracy": 0.19659637212753295,
      "num_tokens": 66222647.0,
      "step": 35890
    },
    {
      "entropy": 5.462867212295532,
      "epoch": 3.0156269691241335,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004097201944517285,
      "loss": 5.0727,
      "mean_token_accuracy": 0.19954401552677153,
      "num_tokens": 66231701.0,
      "step": 35895
    },
    {
      "entropy": 5.4897904872894285,
      "epoch": 3.0160470489392983,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00040969620813367065,
      "loss": 5.0555,
      "mean_token_accuracy": 0.19261444211006165,
      "num_tokens": 66240927.0,
      "step": 35900
    },
    {
      "entropy": 5.502402019500733,
      "epoch": 3.0164671287544635,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004096722194295388,
      "loss": 5.0502,
      "mean_token_accuracy": 0.19569913297891617,
      "num_tokens": 66249688.0,
      "step": 35905
    },
    {
      "entropy": 5.496035099029541,
      "epoch": 3.0168872085696283,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004096482283397579,
      "loss": 5.0254,
      "mean_token_accuracy": 0.19214614033699035,
      "num_tokens": 66258981.0,
      "step": 35910
    },
    {
      "entropy": 5.470937824249267,
      "epoch": 3.017307288384793,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000409624234864753,
      "loss": 5.0946,
      "mean_token_accuracy": 0.19222043007612227,
      "num_tokens": 66268049.0,
      "step": 35915
    },
    {
      "entropy": 5.410239362716675,
      "epoch": 3.017727368199958,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004096002390049491,
      "loss": 5.0245,
      "mean_token_accuracy": 0.1960095539689064,
      "num_tokens": 66277165.0,
      "step": 35920
    },
    {
      "entropy": 5.453079175949097,
      "epoch": 3.0181474480151227,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004095762407607714,
      "loss": 5.0183,
      "mean_token_accuracy": 0.19874116033315659,
      "num_tokens": 66286717.0,
      "step": 35925
    },
    {
      "entropy": 5.473143196105957,
      "epoch": 3.018567527830288,
      "grad_norm": 1.109375,
      "learning_rate": 0.00040955224013264476,
      "loss": 5.0859,
      "mean_token_accuracy": 0.1932698369026184,
      "num_tokens": 66296326.0,
      "step": 35930
    },
    {
      "entropy": 5.480472612380981,
      "epoch": 3.0189876076454527,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004095282371209945,
      "loss": 5.0838,
      "mean_token_accuracy": 0.1930262878537178,
      "num_tokens": 66306362.0,
      "step": 35935
    },
    {
      "entropy": 5.49335880279541,
      "epoch": 3.0194076874606175,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00040950423172624576,
      "loss": 5.0916,
      "mean_token_accuracy": 0.19384943693876266,
      "num_tokens": 66316281.0,
      "step": 35940
    },
    {
      "entropy": 5.480083036422729,
      "epoch": 3.0198277672757823,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00040948022394882383,
      "loss": 5.0485,
      "mean_token_accuracy": 0.19824572950601577,
      "num_tokens": 66325415.0,
      "step": 35945
    },
    {
      "entropy": 5.420438480377197,
      "epoch": 3.020247847090947,
      "grad_norm": 1.015625,
      "learning_rate": 0.00040945621378915396,
      "loss": 4.9646,
      "mean_token_accuracy": 0.20745909959077835,
      "num_tokens": 66333872.0,
      "step": 35950
    },
    {
      "entropy": 5.460140895843506,
      "epoch": 3.0206679269061123,
      "grad_norm": 1.078125,
      "learning_rate": 0.00040943220124766154,
      "loss": 5.078,
      "mean_token_accuracy": 0.1963142052292824,
      "num_tokens": 66343383.0,
      "step": 35955
    },
    {
      "entropy": 5.470748472213745,
      "epoch": 3.021088006721277,
      "grad_norm": 1.125,
      "learning_rate": 0.00040940818632477185,
      "loss": 5.0297,
      "mean_token_accuracy": 0.18993196934461593,
      "num_tokens": 66352191.0,
      "step": 35960
    },
    {
      "entropy": 5.346229076385498,
      "epoch": 3.021508086536442,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004093841690209105,
      "loss": 4.873,
      "mean_token_accuracy": 0.2116714745759964,
      "num_tokens": 66360913.0,
      "step": 35965
    },
    {
      "entropy": 5.510502433776855,
      "epoch": 3.0219281663516067,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00040936014933650263,
      "loss": 5.1559,
      "mean_token_accuracy": 0.19312859922647477,
      "num_tokens": 66369180.0,
      "step": 35970
    },
    {
      "entropy": 5.505979251861572,
      "epoch": 3.022348246166772,
      "grad_norm": 1.078125,
      "learning_rate": 0.00040933612727197394,
      "loss": 5.0344,
      "mean_token_accuracy": 0.20626410841941833,
      "num_tokens": 66378538.0,
      "step": 35975
    },
    {
      "entropy": 5.537656831741333,
      "epoch": 3.0227683259819367,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00040931210282774995,
      "loss": 5.141,
      "mean_token_accuracy": 0.18564762324094772,
      "num_tokens": 66387993.0,
      "step": 35980
    },
    {
      "entropy": 5.45195779800415,
      "epoch": 3.0231884057971015,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00040928807600425617,
      "loss": 4.999,
      "mean_token_accuracy": 0.2020214766263962,
      "num_tokens": 66397218.0,
      "step": 35985
    },
    {
      "entropy": 5.338820600509644,
      "epoch": 3.0236084856122663,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004092640468019183,
      "loss": 4.9745,
      "mean_token_accuracy": 0.2013292670249939,
      "num_tokens": 66406633.0,
      "step": 35990
    },
    {
      "entropy": 5.4200958728790285,
      "epoch": 3.024028565427431,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000409240015221162,
      "loss": 4.985,
      "mean_token_accuracy": 0.20107954889535903,
      "num_tokens": 66415535.0,
      "step": 35995
    },
    {
      "entropy": 5.539206600189209,
      "epoch": 3.0244486452425963,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0004092159812624129,
      "loss": 5.08,
      "mean_token_accuracy": 0.1915460154414177,
      "num_tokens": 66425574.0,
      "step": 36000
    },
    {
      "epoch": 3.0244486452425963,
      "eval_entropy": 5.329894793413865,
      "eval_loss": 5.178470611572266,
      "eval_mean_token_accuracy": 0.1989016598232092,
      "eval_num_tokens": 66425574.0,
      "eval_runtime": 27.3911,
      "eval_samples_per_second": 1364.164,
      "eval_steps_per_second": 170.53,
      "step": 36000
    },
    {
      "entropy": 5.461531114578247,
      "epoch": 3.024868725057761,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00040919194492609683,
      "loss": 4.989,
      "mean_token_accuracy": 0.2031841680407524,
      "num_tokens": 66434385.0,
      "step": 36005
    },
    {
      "entropy": 5.4593902111053465,
      "epoch": 3.025288804872926,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004091679062126396,
      "loss": 5.062,
      "mean_token_accuracy": 0.19631518721580504,
      "num_tokens": 66443462.0,
      "step": 36010
    },
    {
      "entropy": 5.466905736923218,
      "epoch": 3.0257088846880906,
      "grad_norm": 1.109375,
      "learning_rate": 0.000409143865122467,
      "loss": 5.1478,
      "mean_token_accuracy": 0.1920713111758232,
      "num_tokens": 66452035.0,
      "step": 36015
    },
    {
      "entropy": 5.44120044708252,
      "epoch": 3.0261289645032554,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004091198216560048,
      "loss": 4.9527,
      "mean_token_accuracy": 0.2012202709913254,
      "num_tokens": 66460912.0,
      "step": 36020
    },
    {
      "entropy": 5.546938228607178,
      "epoch": 3.0265490443184206,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004090957758136791,
      "loss": 5.098,
      "mean_token_accuracy": 0.19483367651700972,
      "num_tokens": 66470096.0,
      "step": 36025
    },
    {
      "entropy": 5.568629264831543,
      "epoch": 3.0269691241335854,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00040907172759591576,
      "loss": 5.1487,
      "mean_token_accuracy": 0.18963441103696824,
      "num_tokens": 66479297.0,
      "step": 36030
    },
    {
      "entropy": 5.5290168762207035,
      "epoch": 3.02738920394875,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004090476770031408,
      "loss": 5.1238,
      "mean_token_accuracy": 0.1933576673269272,
      "num_tokens": 66488343.0,
      "step": 36035
    },
    {
      "entropy": 5.522050952911377,
      "epoch": 3.027809283763915,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00040902362403578025,
      "loss": 5.0637,
      "mean_token_accuracy": 0.19831849485635758,
      "num_tokens": 66497692.0,
      "step": 36040
    },
    {
      "entropy": 5.48843822479248,
      "epoch": 3.0282293635790802,
      "grad_norm": 1.125,
      "learning_rate": 0.00040899956869426025,
      "loss": 5.0696,
      "mean_token_accuracy": 0.1917540580034256,
      "num_tokens": 66507088.0,
      "step": 36045
    },
    {
      "entropy": 5.491654253005981,
      "epoch": 3.028649443394245,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00040897551097900684,
      "loss": 5.0301,
      "mean_token_accuracy": 0.20103213638067247,
      "num_tokens": 66516577.0,
      "step": 36050
    },
    {
      "entropy": 5.466914558410645,
      "epoch": 3.02906952320941,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004089514508904463,
      "loss": 5.0624,
      "mean_token_accuracy": 0.19457801580429077,
      "num_tokens": 66526116.0,
      "step": 36055
    },
    {
      "entropy": 5.494164943695068,
      "epoch": 3.0294896030245746,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00040892738842900474,
      "loss": 5.0233,
      "mean_token_accuracy": 0.19657996594905852,
      "num_tokens": 66535410.0,
      "step": 36060
    },
    {
      "entropy": 5.620948696136475,
      "epoch": 3.0299096828397394,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00040890332359510846,
      "loss": 5.1978,
      "mean_token_accuracy": 0.18840090930461884,
      "num_tokens": 66544853.0,
      "step": 36065
    },
    {
      "entropy": 5.445910215377808,
      "epoch": 3.0303297626549046,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00040887925638918377,
      "loss": 5.0145,
      "mean_token_accuracy": 0.2004779726266861,
      "num_tokens": 66553603.0,
      "step": 36070
    },
    {
      "entropy": 5.494457149505616,
      "epoch": 3.0307498424700694,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00040885518681165703,
      "loss": 5.0197,
      "mean_token_accuracy": 0.20122525990009307,
      "num_tokens": 66561971.0,
      "step": 36075
    },
    {
      "entropy": 5.421007776260376,
      "epoch": 3.031169922285234,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004088311148629545,
      "loss": 5.0048,
      "mean_token_accuracy": 0.19446080625057222,
      "num_tokens": 66571373.0,
      "step": 36080
    },
    {
      "entropy": 5.508461618423462,
      "epoch": 3.031590002100399,
      "grad_norm": 1.0,
      "learning_rate": 0.00040880704054350276,
      "loss": 5.1401,
      "mean_token_accuracy": 0.1922255799174309,
      "num_tokens": 66581372.0,
      "step": 36085
    },
    {
      "entropy": 5.55433406829834,
      "epoch": 3.0320100819155638,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004087829638537281,
      "loss": 5.1277,
      "mean_token_accuracy": 0.19068804532289504,
      "num_tokens": 66590269.0,
      "step": 36090
    },
    {
      "entropy": 5.519551467895508,
      "epoch": 3.032430161730729,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004087588847940572,
      "loss": 5.1107,
      "mean_token_accuracy": 0.1920703426003456,
      "num_tokens": 66599746.0,
      "step": 36095
    },
    {
      "entropy": 5.391542148590088,
      "epoch": 3.0328502415458938,
      "grad_norm": 1.0625,
      "learning_rate": 0.00040873480336491654,
      "loss": 4.8984,
      "mean_token_accuracy": 0.21278276443481445,
      "num_tokens": 66609186.0,
      "step": 36100
    },
    {
      "entropy": 5.509831523895263,
      "epoch": 3.0332703213610586,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004087107195667326,
      "loss": 5.1331,
      "mean_token_accuracy": 0.19672030657529832,
      "num_tokens": 66619054.0,
      "step": 36105
    },
    {
      "entropy": 5.54485387802124,
      "epoch": 3.0336904011762234,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00040868663339993223,
      "loss": 5.1061,
      "mean_token_accuracy": 0.20254358798265457,
      "num_tokens": 66628859.0,
      "step": 36110
    },
    {
      "entropy": 5.431337928771972,
      "epoch": 3.0341104809913886,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004086625448649419,
      "loss": 4.9922,
      "mean_token_accuracy": 0.2038020223379135,
      "num_tokens": 66637737.0,
      "step": 36115
    },
    {
      "entropy": 5.502682065963745,
      "epoch": 3.0345305608065534,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00040863845396218844,
      "loss": 5.0973,
      "mean_token_accuracy": 0.1946641355752945,
      "num_tokens": 66647363.0,
      "step": 36120
    },
    {
      "entropy": 5.521983098983765,
      "epoch": 3.034950640621718,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004086143606920986,
      "loss": 5.0526,
      "mean_token_accuracy": 0.19065672755241395,
      "num_tokens": 66656947.0,
      "step": 36125
    },
    {
      "entropy": 5.460814523696899,
      "epoch": 3.035370720436883,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00040859026505509925,
      "loss": 5.0148,
      "mean_token_accuracy": 0.20019488483667375,
      "num_tokens": 66666891.0,
      "step": 36130
    },
    {
      "entropy": 5.487487554550171,
      "epoch": 3.0357908002520477,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000408566167051617,
      "loss": 5.0635,
      "mean_token_accuracy": 0.19461333900690078,
      "num_tokens": 66676161.0,
      "step": 36135
    },
    {
      "entropy": 5.48242301940918,
      "epoch": 3.036210880067213,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00040854206668207893,
      "loss": 5.1131,
      "mean_token_accuracy": 0.19102763384580612,
      "num_tokens": 66684750.0,
      "step": 36140
    },
    {
      "entropy": 5.4765537738800045,
      "epoch": 3.0366309598823777,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00040851796394691193,
      "loss": 5.0067,
      "mean_token_accuracy": 0.1992656871676445,
      "num_tokens": 66694153.0,
      "step": 36145
    },
    {
      "entropy": 5.463165616989135,
      "epoch": 3.0370510396975425,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00040849385884654294,
      "loss": 5.0114,
      "mean_token_accuracy": 0.19860501140356063,
      "num_tokens": 66704311.0,
      "step": 36150
    },
    {
      "entropy": 5.481912231445312,
      "epoch": 3.0374711195127073,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00040846975138139895,
      "loss": 5.1221,
      "mean_token_accuracy": 0.18945369571447374,
      "num_tokens": 66714280.0,
      "step": 36155
    },
    {
      "entropy": 5.4697953224182125,
      "epoch": 3.037891199327872,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00040844564155190704,
      "loss": 5.0084,
      "mean_token_accuracy": 0.2024833381175995,
      "num_tokens": 66723750.0,
      "step": 36160
    },
    {
      "entropy": 5.462112712860107,
      "epoch": 3.0383112791430373,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004084215293584943,
      "loss": 5.0339,
      "mean_token_accuracy": 0.19870579689741136,
      "num_tokens": 66733370.0,
      "step": 36165
    },
    {
      "entropy": 5.392741537094116,
      "epoch": 3.038731358958202,
      "grad_norm": 1.046875,
      "learning_rate": 0.00040839741480158795,
      "loss": 4.96,
      "mean_token_accuracy": 0.2047358274459839,
      "num_tokens": 66743364.0,
      "step": 36170
    },
    {
      "entropy": 5.550750827789306,
      "epoch": 3.039151438773367,
      "grad_norm": 1.0625,
      "learning_rate": 0.00040837329788161506,
      "loss": 5.1886,
      "mean_token_accuracy": 0.18607351183891296,
      "num_tokens": 66753383.0,
      "step": 36175
    },
    {
      "entropy": 5.581467866897583,
      "epoch": 3.0395715185885317,
      "grad_norm": 1.109375,
      "learning_rate": 0.00040834917859900285,
      "loss": 5.1239,
      "mean_token_accuracy": 0.1897878721356392,
      "num_tokens": 66762563.0,
      "step": 36180
    },
    {
      "entropy": 5.509537649154663,
      "epoch": 3.039991598403697,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004083250569541786,
      "loss": 5.0923,
      "mean_token_accuracy": 0.1993363991379738,
      "num_tokens": 66771433.0,
      "step": 36185
    },
    {
      "entropy": 5.5688270092010494,
      "epoch": 3.0404116782188617,
      "grad_norm": 1.125,
      "learning_rate": 0.00040830093294756957,
      "loss": 5.1719,
      "mean_token_accuracy": 0.187734754383564,
      "num_tokens": 66780107.0,
      "step": 36190
    },
    {
      "entropy": 5.492384004592895,
      "epoch": 3.0408317580340265,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00040827680657960324,
      "loss": 5.0527,
      "mean_token_accuracy": 0.19926704615354537,
      "num_tokens": 66789310.0,
      "step": 36195
    },
    {
      "entropy": 5.5590606212615965,
      "epoch": 3.0412518378491913,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00040825267785070683,
      "loss": 5.1266,
      "mean_token_accuracy": 0.20015718787908554,
      "num_tokens": 66798445.0,
      "step": 36200
    },
    {
      "entropy": 5.448334360122681,
      "epoch": 3.041671917664356,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00040822854676130795,
      "loss": 5.0621,
      "mean_token_accuracy": 0.1916187584400177,
      "num_tokens": 66807329.0,
      "step": 36205
    },
    {
      "entropy": 5.416155767440796,
      "epoch": 3.0420919974795213,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004082044133118339,
      "loss": 5.0369,
      "mean_token_accuracy": 0.20214586555957795,
      "num_tokens": 66816568.0,
      "step": 36210
    },
    {
      "entropy": 5.479371690750122,
      "epoch": 3.042512077294686,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004081802775027123,
      "loss": 5.0763,
      "mean_token_accuracy": 0.1921592563390732,
      "num_tokens": 66826285.0,
      "step": 36215
    },
    {
      "entropy": 5.4218779563903805,
      "epoch": 3.042932157109851,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00040815613933437055,
      "loss": 4.9528,
      "mean_token_accuracy": 0.20159282088279723,
      "num_tokens": 66835358.0,
      "step": 36220
    },
    {
      "entropy": 5.446489048004151,
      "epoch": 3.0433522369250157,
      "grad_norm": 1.125,
      "learning_rate": 0.0004081319988072365,
      "loss": 5.0315,
      "mean_token_accuracy": 0.19329327940940857,
      "num_tokens": 66844563.0,
      "step": 36225
    },
    {
      "entropy": 5.498879528045654,
      "epoch": 3.0437723167401805,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004081078559217375,
      "loss": 5.1018,
      "mean_token_accuracy": 0.20236636698246002,
      "num_tokens": 66854910.0,
      "step": 36230
    },
    {
      "entropy": 5.507366800308228,
      "epoch": 3.0441923965553457,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004080837106783015,
      "loss": 5.0954,
      "mean_token_accuracy": 0.19628165662288666,
      "num_tokens": 66863911.0,
      "step": 36235
    },
    {
      "entropy": 5.471851825714111,
      "epoch": 3.0446124763705105,
      "grad_norm": 1.0625,
      "learning_rate": 0.000408059563077356,
      "loss": 4.9468,
      "mean_token_accuracy": 0.2002256840467453,
      "num_tokens": 66872783.0,
      "step": 36240
    },
    {
      "entropy": 5.379462194442749,
      "epoch": 3.0450325561856753,
      "grad_norm": 1.09375,
      "learning_rate": 0.00040803541311932895,
      "loss": 4.9755,
      "mean_token_accuracy": 0.19963306784629822,
      "num_tokens": 66881605.0,
      "step": 36245
    },
    {
      "entropy": 5.4245490550994875,
      "epoch": 3.04545263600084,
      "grad_norm": 1.0703125,
      "learning_rate": 0.000408011260804648,
      "loss": 5.0074,
      "mean_token_accuracy": 0.19986070096492767,
      "num_tokens": 66891553.0,
      "step": 36250
    },
    {
      "entropy": 5.48874831199646,
      "epoch": 3.045872715816005,
      "grad_norm": 1.125,
      "learning_rate": 0.0004079871061337411,
      "loss": 5.1692,
      "mean_token_accuracy": 0.18617062419652938,
      "num_tokens": 66900152.0,
      "step": 36255
    },
    {
      "entropy": 5.490781450271607,
      "epoch": 3.04629279563117,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000407962949107036,
      "loss": 4.9963,
      "mean_token_accuracy": 0.19513806104660034,
      "num_tokens": 66909028.0,
      "step": 36260
    },
    {
      "entropy": 5.47644829750061,
      "epoch": 3.046712875446335,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004079387897249608,
      "loss": 4.9928,
      "mean_token_accuracy": 0.2001377671957016,
      "num_tokens": 66918714.0,
      "step": 36265
    },
    {
      "entropy": 5.510960531234741,
      "epoch": 3.0471329552614996,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004079146279879434,
      "loss": 5.1252,
      "mean_token_accuracy": 0.19257944375276564,
      "num_tokens": 66928437.0,
      "step": 36270
    },
    {
      "entropy": 5.354205703735351,
      "epoch": 3.0475530350766644,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004078904638964118,
      "loss": 4.9261,
      "mean_token_accuracy": 0.21180663406848907,
      "num_tokens": 66937303.0,
      "step": 36275
    },
    {
      "entropy": 5.429401206970215,
      "epoch": 3.0479731148918296,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00040786629745079403,
      "loss": 5.0296,
      "mean_token_accuracy": 0.1932580754160881,
      "num_tokens": 66947536.0,
      "step": 36280
    },
    {
      "entropy": 5.507110738754273,
      "epoch": 3.0483931947069944,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004078421286515182,
      "loss": 5.0474,
      "mean_token_accuracy": 0.19936630576848985,
      "num_tokens": 66955970.0,
      "step": 36285
    },
    {
      "entropy": 5.372875165939331,
      "epoch": 3.0488132745221592,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004078179574990125,
      "loss": 4.9666,
      "mean_token_accuracy": 0.20392196327447892,
      "num_tokens": 66964407.0,
      "step": 36290
    },
    {
      "entropy": 5.470786762237549,
      "epoch": 3.049233354337324,
      "grad_norm": 1.171875,
      "learning_rate": 0.000407793783993705,
      "loss": 5.12,
      "mean_token_accuracy": 0.1976682126522064,
      "num_tokens": 66973961.0,
      "step": 36295
    },
    {
      "entropy": 5.519054317474366,
      "epoch": 3.049653434152489,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004077696081360241,
      "loss": 5.0553,
      "mean_token_accuracy": 0.19529610872268677,
      "num_tokens": 66982792.0,
      "step": 36300
    },
    {
      "entropy": 5.430067682266236,
      "epoch": 3.050073513967654,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004077454299263979,
      "loss": 5.0222,
      "mean_token_accuracy": 0.19650598913431166,
      "num_tokens": 66992081.0,
      "step": 36305
    },
    {
      "entropy": 5.446254110336303,
      "epoch": 3.050493593782819,
      "grad_norm": 1.09375,
      "learning_rate": 0.00040772124936525484,
      "loss": 4.9876,
      "mean_token_accuracy": 0.20464977324008943,
      "num_tokens": 67001242.0,
      "step": 36310
    },
    {
      "entropy": 5.376339054107666,
      "epoch": 3.0509136735979836,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00040769706645302315,
      "loss": 4.9815,
      "mean_token_accuracy": 0.19508668780326843,
      "num_tokens": 67010541.0,
      "step": 36315
    },
    {
      "entropy": 5.399825096130371,
      "epoch": 3.0513337534131484,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004076728811901312,
      "loss": 5.0351,
      "mean_token_accuracy": 0.20375278294086457,
      "num_tokens": 67019387.0,
      "step": 36320
    },
    {
      "entropy": 5.504778432846069,
      "epoch": 3.051753833228313,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004076486935770075,
      "loss": 5.0463,
      "mean_token_accuracy": 0.19872868210077285,
      "num_tokens": 67027902.0,
      "step": 36325
    },
    {
      "entropy": 5.464659214019775,
      "epoch": 3.0521739130434784,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004076245036140805,
      "loss": 5.0482,
      "mean_token_accuracy": 0.1923934519290924,
      "num_tokens": 67036662.0,
      "step": 36330
    },
    {
      "entropy": 5.390840101242065,
      "epoch": 3.052593992858643,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004076003113017788,
      "loss": 4.98,
      "mean_token_accuracy": 0.20446646958589554,
      "num_tokens": 67045960.0,
      "step": 36335
    },
    {
      "entropy": 5.437082958221436,
      "epoch": 3.053014072673808,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004075761166405307,
      "loss": 5.0237,
      "mean_token_accuracy": 0.20041168928146363,
      "num_tokens": 67055470.0,
      "step": 36340
    },
    {
      "entropy": 5.494598150253296,
      "epoch": 3.0534341524889728,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00040755191963076507,
      "loss": 5.0464,
      "mean_token_accuracy": 0.19808410853147507,
      "num_tokens": 67065133.0,
      "step": 36345
    },
    {
      "entropy": 5.436485958099365,
      "epoch": 3.053854232304138,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004075277202729104,
      "loss": 5.0463,
      "mean_token_accuracy": 0.20186401307582855,
      "num_tokens": 67075016.0,
      "step": 36350
    },
    {
      "entropy": 5.4362915515899655,
      "epoch": 3.054274312119303,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00040750351856739544,
      "loss": 4.9922,
      "mean_token_accuracy": 0.19443870037794114,
      "num_tokens": 67084789.0,
      "step": 36355
    },
    {
      "entropy": 5.377323246002197,
      "epoch": 3.0546943919344676,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004074793145146488,
      "loss": 4.9865,
      "mean_token_accuracy": 0.19881643056869508,
      "num_tokens": 67094078.0,
      "step": 36360
    },
    {
      "entropy": 5.512041139602661,
      "epoch": 3.0551144717496324,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004074551081150994,
      "loss": 5.0453,
      "mean_token_accuracy": 0.19995046257972718,
      "num_tokens": 67103805.0,
      "step": 36365
    },
    {
      "entropy": 5.445550012588501,
      "epoch": 3.055534551564797,
      "grad_norm": 1.0625,
      "learning_rate": 0.00040743089936917594,
      "loss": 5.0668,
      "mean_token_accuracy": 0.2007469654083252,
      "num_tokens": 67113066.0,
      "step": 36370
    },
    {
      "entropy": 5.434814834594727,
      "epoch": 3.0559546313799624,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00040740668827730724,
      "loss": 5.0374,
      "mean_token_accuracy": 0.19531422555446626,
      "num_tokens": 67122926.0,
      "step": 36375
    },
    {
      "entropy": 5.518543291091919,
      "epoch": 3.056374711195127,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00040738247483992234,
      "loss": 5.0346,
      "mean_token_accuracy": 0.1938914880156517,
      "num_tokens": 67131813.0,
      "step": 36380
    },
    {
      "entropy": 5.468732070922852,
      "epoch": 3.056794791010292,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00040735825905745,
      "loss": 5.0503,
      "mean_token_accuracy": 0.1981032520532608,
      "num_tokens": 67139991.0,
      "step": 36385
    },
    {
      "entropy": 5.516648483276367,
      "epoch": 3.0572148708254567,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004073340409303193,
      "loss": 5.199,
      "mean_token_accuracy": 0.18875140100717544,
      "num_tokens": 67150389.0,
      "step": 36390
    },
    {
      "entropy": 5.439210224151611,
      "epoch": 3.0576349506406215,
      "grad_norm": 1.1875,
      "learning_rate": 0.00040730982045895914,
      "loss": 4.9456,
      "mean_token_accuracy": 0.20006504654884338,
      "num_tokens": 67159222.0,
      "step": 36395
    },
    {
      "entropy": 5.443967533111572,
      "epoch": 3.0580550304557867,
      "grad_norm": 1.125,
      "learning_rate": 0.00040728559764379867,
      "loss": 5.027,
      "mean_token_accuracy": 0.2002795934677124,
      "num_tokens": 67168101.0,
      "step": 36400
    },
    {
      "entropy": 5.520462894439698,
      "epoch": 3.0584751102709515,
      "grad_norm": 1.140625,
      "learning_rate": 0.00040726137248526704,
      "loss": 5.1116,
      "mean_token_accuracy": 0.1880872756242752,
      "num_tokens": 67177959.0,
      "step": 36405
    },
    {
      "entropy": 5.409431982040405,
      "epoch": 3.0588951900861163,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00040723714498379316,
      "loss": 5.0093,
      "mean_token_accuracy": 0.20425566285848618,
      "num_tokens": 67187976.0,
      "step": 36410
    },
    {
      "entropy": 5.504729700088501,
      "epoch": 3.059315269901281,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004072129151398064,
      "loss": 5.0948,
      "mean_token_accuracy": 0.19266462475061416,
      "num_tokens": 67198781.0,
      "step": 36415
    },
    {
      "entropy": 5.571239900588989,
      "epoch": 3.0597353497164463,
      "grad_norm": 1.15625,
      "learning_rate": 0.00040718868295373594,
      "loss": 5.2188,
      "mean_token_accuracy": 0.18141181617975236,
      "num_tokens": 67208153.0,
      "step": 36420
    },
    {
      "entropy": 5.4903889179229735,
      "epoch": 3.060155429531611,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00040716444842601107,
      "loss": 5.0937,
      "mean_token_accuracy": 0.19402771145105363,
      "num_tokens": 67217899.0,
      "step": 36425
    },
    {
      "entropy": 5.528034210205078,
      "epoch": 3.060575509346776,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00040714021155706094,
      "loss": 5.11,
      "mean_token_accuracy": 0.1911466211080551,
      "num_tokens": 67227172.0,
      "step": 36430
    },
    {
      "entropy": 5.49673638343811,
      "epoch": 3.0609955891619407,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00040711597234731507,
      "loss": 5.0612,
      "mean_token_accuracy": 0.1990983560681343,
      "num_tokens": 67236501.0,
      "step": 36435
    },
    {
      "entropy": 5.472562217712403,
      "epoch": 3.0614156689771055,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004070917307972028,
      "loss": 5.0138,
      "mean_token_accuracy": 0.19877882152795792,
      "num_tokens": 67246227.0,
      "step": 36440
    },
    {
      "entropy": 5.499462413787842,
      "epoch": 3.0618357487922707,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004070674869071535,
      "loss": 5.0601,
      "mean_token_accuracy": 0.19779631346464158,
      "num_tokens": 67255051.0,
      "step": 36445
    },
    {
      "entropy": 5.451749658584594,
      "epoch": 3.0622558286074355,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00040704324067759667,
      "loss": 5.0775,
      "mean_token_accuracy": 0.1968258872628212,
      "num_tokens": 67264832.0,
      "step": 36450
    },
    {
      "entropy": 5.516327953338623,
      "epoch": 3.0626759084226003,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00040701899210896186,
      "loss": 5.0858,
      "mean_token_accuracy": 0.19461202323436738,
      "num_tokens": 67274212.0,
      "step": 36455
    },
    {
      "entropy": 5.497186899185181,
      "epoch": 3.063095988237765,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004069947412016786,
      "loss": 5.0195,
      "mean_token_accuracy": 0.19886412918567659,
      "num_tokens": 67282277.0,
      "step": 36460
    },
    {
      "entropy": 5.481935453414917,
      "epoch": 3.06351606805293,
      "grad_norm": 1.03125,
      "learning_rate": 0.00040697048795617643,
      "loss": 5.0981,
      "mean_token_accuracy": 0.19208865463733674,
      "num_tokens": 67291768.0,
      "step": 36465
    },
    {
      "entropy": 5.427156925201416,
      "epoch": 3.063936147868095,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00040694623237288503,
      "loss": 5.0166,
      "mean_token_accuracy": 0.1976889505982399,
      "num_tokens": 67300026.0,
      "step": 36470
    },
    {
      "entropy": 5.435185241699219,
      "epoch": 3.06435622768326,
      "grad_norm": 1.0625,
      "learning_rate": 0.00040692197445223405,
      "loss": 5.0659,
      "mean_token_accuracy": 0.19916162341833116,
      "num_tokens": 67308924.0,
      "step": 36475
    },
    {
      "entropy": 5.5619100570678714,
      "epoch": 3.0647763074984247,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004068977141946532,
      "loss": 5.1055,
      "mean_token_accuracy": 0.19270513355731964,
      "num_tokens": 67317938.0,
      "step": 36480
    },
    {
      "entropy": 5.543318796157837,
      "epoch": 3.0651963873135895,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00040687345160057235,
      "loss": 5.0919,
      "mean_token_accuracy": 0.18511808663606644,
      "num_tokens": 67328194.0,
      "step": 36485
    },
    {
      "entropy": 5.497243881225586,
      "epoch": 3.0656164671287547,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00040684918667042107,
      "loss": 5.0686,
      "mean_token_accuracy": 0.19367452561855317,
      "num_tokens": 67337824.0,
      "step": 36490
    },
    {
      "entropy": 5.45278377532959,
      "epoch": 3.0660365469439195,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00040682491940462944,
      "loss": 5.0089,
      "mean_token_accuracy": 0.1985178753733635,
      "num_tokens": 67347366.0,
      "step": 36495
    },
    {
      "entropy": 5.418626165390014,
      "epoch": 3.0664566267590843,
      "grad_norm": 1.1875,
      "learning_rate": 0.00040680064980362727,
      "loss": 5.002,
      "mean_token_accuracy": 0.1985209733247757,
      "num_tokens": 67356348.0,
      "step": 36500
    },
    {
      "entropy": 5.399560451507568,
      "epoch": 3.066876706574249,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00040677637786784435,
      "loss": 4.9194,
      "mean_token_accuracy": 0.20970872640609742,
      "num_tokens": 67364524.0,
      "step": 36505
    },
    {
      "entropy": 5.431404113769531,
      "epoch": 3.067296786389414,
      "grad_norm": 1.21875,
      "learning_rate": 0.00040675210359771084,
      "loss": 4.9286,
      "mean_token_accuracy": 0.20987903475761413,
      "num_tokens": 67373652.0,
      "step": 36510
    },
    {
      "entropy": 5.393062400817871,
      "epoch": 3.067716866204579,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004067278269936566,
      "loss": 4.9624,
      "mean_token_accuracy": 0.20401716828346253,
      "num_tokens": 67381939.0,
      "step": 36515
    },
    {
      "entropy": 5.400965690612793,
      "epoch": 3.068136946019744,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004067035480561118,
      "loss": 5.1532,
      "mean_token_accuracy": 0.18321592658758162,
      "num_tokens": 67391140.0,
      "step": 36520
    },
    {
      "entropy": 5.4459864616394045,
      "epoch": 3.0685570258349086,
      "grad_norm": 1.125,
      "learning_rate": 0.0004066792667855064,
      "loss": 5.0527,
      "mean_token_accuracy": 0.2028964266180992,
      "num_tokens": 67400189.0,
      "step": 36525
    },
    {
      "entropy": 5.425999927520752,
      "epoch": 3.0689771056500734,
      "grad_norm": 1.359375,
      "learning_rate": 0.0004066549831822706,
      "loss": 4.9522,
      "mean_token_accuracy": 0.20299385190010072,
      "num_tokens": 67409250.0,
      "step": 36530
    },
    {
      "entropy": 5.450418901443482,
      "epoch": 3.069397185465238,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004066306972468346,
      "loss": 5.0524,
      "mean_token_accuracy": 0.20712998658418655,
      "num_tokens": 67418233.0,
      "step": 36535
    },
    {
      "entropy": 5.547991609573364,
      "epoch": 3.0698172652804034,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004066064089796286,
      "loss": 5.1472,
      "mean_token_accuracy": 0.19905162006616592,
      "num_tokens": 67427580.0,
      "step": 36540
    },
    {
      "entropy": 5.435709667205811,
      "epoch": 3.0702373450955682,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004065821183810828,
      "loss": 5.0514,
      "mean_token_accuracy": 0.20444692969322203,
      "num_tokens": 67436032.0,
      "step": 36545
    },
    {
      "entropy": 5.508110857009887,
      "epoch": 3.070657424910733,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004065578254516275,
      "loss": 5.1229,
      "mean_token_accuracy": 0.19800358265638351,
      "num_tokens": 67445073.0,
      "step": 36550
    },
    {
      "entropy": 5.465146207809449,
      "epoch": 3.071077504725898,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004065335301916931,
      "loss": 5.1183,
      "mean_token_accuracy": 0.19000251293182374,
      "num_tokens": 67453801.0,
      "step": 36555
    },
    {
      "entropy": 5.5526186466217045,
      "epoch": 3.0714975845410626,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004065092326017099,
      "loss": 5.1336,
      "mean_token_accuracy": 0.19885693043470382,
      "num_tokens": 67462613.0,
      "step": 36560
    },
    {
      "entropy": 5.585727405548096,
      "epoch": 3.071917664356228,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004064849326821084,
      "loss": 5.0973,
      "mean_token_accuracy": 0.18565405160188675,
      "num_tokens": 67472079.0,
      "step": 36565
    },
    {
      "entropy": 5.510654449462891,
      "epoch": 3.0723377441713926,
      "grad_norm": 1.1875,
      "learning_rate": 0.000406460630433319,
      "loss": 5.0397,
      "mean_token_accuracy": 0.1961069107055664,
      "num_tokens": 67481407.0,
      "step": 36570
    },
    {
      "entropy": 5.492890214920044,
      "epoch": 3.0727578239865574,
      "grad_norm": 1.0625,
      "learning_rate": 0.00040643632585577225,
      "loss": 5.1116,
      "mean_token_accuracy": 0.18607887923717498,
      "num_tokens": 67490893.0,
      "step": 36575
    },
    {
      "entropy": 5.401546907424927,
      "epoch": 3.073177903801722,
      "grad_norm": 1.078125,
      "learning_rate": 0.00040641201894989865,
      "loss": 5.0057,
      "mean_token_accuracy": 0.19736894518136977,
      "num_tokens": 67499624.0,
      "step": 36580
    },
    {
      "entropy": 5.4746074199676515,
      "epoch": 3.0735979836168874,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004063877097161288,
      "loss": 5.1158,
      "mean_token_accuracy": 0.2040226235985756,
      "num_tokens": 67508353.0,
      "step": 36585
    },
    {
      "entropy": 5.484482002258301,
      "epoch": 3.074018063432052,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004063633981548933,
      "loss": 5.0489,
      "mean_token_accuracy": 0.200349323451519,
      "num_tokens": 67517498.0,
      "step": 36590
    },
    {
      "entropy": 5.531420612335205,
      "epoch": 3.074438143247217,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004063390842666229,
      "loss": 5.0508,
      "mean_token_accuracy": 0.1995563194155693,
      "num_tokens": 67526246.0,
      "step": 36595
    },
    {
      "entropy": 5.526435613632202,
      "epoch": 3.0748582230623818,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0004063147680517483,
      "loss": 5.0788,
      "mean_token_accuracy": 0.19205912500619887,
      "num_tokens": 67536283.0,
      "step": 36600
    },
    {
      "entropy": 5.4193198680877686,
      "epoch": 3.0752783028775466,
      "grad_norm": 1.25,
      "learning_rate": 0.00040629044951070005,
      "loss": 5.0442,
      "mean_token_accuracy": 0.2022979348897934,
      "num_tokens": 67545797.0,
      "step": 36605
    },
    {
      "entropy": 5.4707310676574705,
      "epoch": 3.075698382692712,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00040626612864390924,
      "loss": 5.1704,
      "mean_token_accuracy": 0.1952272281050682,
      "num_tokens": 67555257.0,
      "step": 36610
    },
    {
      "entropy": 5.435746335983277,
      "epoch": 3.0761184625078766,
      "grad_norm": 1.0625,
      "learning_rate": 0.00040624180545180644,
      "loss": 4.9346,
      "mean_token_accuracy": 0.20403581112623215,
      "num_tokens": 67563490.0,
      "step": 36615
    },
    {
      "entropy": 5.414826965332031,
      "epoch": 3.0765385423230414,
      "grad_norm": 1.03125,
      "learning_rate": 0.00040621747993482274,
      "loss": 4.9471,
      "mean_token_accuracy": 0.2055983915925026,
      "num_tokens": 67571742.0,
      "step": 36620
    },
    {
      "entropy": 5.432819175720215,
      "epoch": 3.076958622138206,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004061931520933889,
      "loss": 5.0385,
      "mean_token_accuracy": 0.20162640661001205,
      "num_tokens": 67581577.0,
      "step": 36625
    },
    {
      "entropy": 5.500415897369384,
      "epoch": 3.077378701953371,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00040616882192793586,
      "loss": 5.1002,
      "mean_token_accuracy": 0.19179852455854415,
      "num_tokens": 67590403.0,
      "step": 36630
    },
    {
      "entropy": 5.510203075408936,
      "epoch": 3.077798781768536,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004061444894388947,
      "loss": 5.0055,
      "mean_token_accuracy": 0.1999790519475937,
      "num_tokens": 67599342.0,
      "step": 36635
    },
    {
      "entropy": 5.401316118240357,
      "epoch": 3.078218861583701,
      "grad_norm": 1.125,
      "learning_rate": 0.0004061201546266965,
      "loss": 5.0118,
      "mean_token_accuracy": 0.1967810407280922,
      "num_tokens": 67608813.0,
      "step": 36640
    },
    {
      "entropy": 5.400562715530396,
      "epoch": 3.0786389413988657,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004060958174917722,
      "loss": 5.0655,
      "mean_token_accuracy": 0.1937006264925003,
      "num_tokens": 67617996.0,
      "step": 36645
    },
    {
      "entropy": 5.445846700668335,
      "epoch": 3.0790590212140305,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004060714780345531,
      "loss": 5.0156,
      "mean_token_accuracy": 0.20387190133333205,
      "num_tokens": 67626995.0,
      "step": 36650
    },
    {
      "entropy": 5.4038714408874515,
      "epoch": 3.0794791010291958,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004060471362554702,
      "loss": 4.938,
      "mean_token_accuracy": 0.2022659197449684,
      "num_tokens": 67636308.0,
      "step": 36655
    },
    {
      "entropy": 5.494613409042358,
      "epoch": 3.0798991808443605,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004060227921549548,
      "loss": 5.0667,
      "mean_token_accuracy": 0.19164302200078964,
      "num_tokens": 67644420.0,
      "step": 36660
    },
    {
      "entropy": 5.5449446678161625,
      "epoch": 3.0803192606595253,
      "grad_norm": 1.046875,
      "learning_rate": 0.00040599844573343803,
      "loss": 5.1605,
      "mean_token_accuracy": 0.18748796433210374,
      "num_tokens": 67654003.0,
      "step": 36665
    },
    {
      "entropy": 5.484644412994385,
      "epoch": 3.08073934047469,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004059740969913513,
      "loss": 5.0026,
      "mean_token_accuracy": 0.20330924689769744,
      "num_tokens": 67664295.0,
      "step": 36670
    },
    {
      "entropy": 5.406100273132324,
      "epoch": 3.081159420289855,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004059497459291259,
      "loss": 5.0174,
      "mean_token_accuracy": 0.19572587460279464,
      "num_tokens": 67673494.0,
      "step": 36675
    },
    {
      "entropy": 5.479547309875488,
      "epoch": 3.08157950010502,
      "grad_norm": 1.03125,
      "learning_rate": 0.00040592539254719317,
      "loss": 5.1015,
      "mean_token_accuracy": 0.1949545055627823,
      "num_tokens": 67682868.0,
      "step": 36680
    },
    {
      "entropy": 5.516588830947876,
      "epoch": 3.081999579920185,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004059010368459845,
      "loss": 5.0303,
      "mean_token_accuracy": 0.2038336455821991,
      "num_tokens": 67692990.0,
      "step": 36685
    },
    {
      "entropy": 5.5016854763031,
      "epoch": 3.0824196597353497,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004058766788259314,
      "loss": 5.1044,
      "mean_token_accuracy": 0.18818871974945067,
      "num_tokens": 67702896.0,
      "step": 36690
    },
    {
      "entropy": 5.431376791000366,
      "epoch": 3.0828397395505145,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004058523184874653,
      "loss": 5.0296,
      "mean_token_accuracy": 0.21038350313901902,
      "num_tokens": 67712261.0,
      "step": 36695
    },
    {
      "entropy": 5.408006191253662,
      "epoch": 3.0832598193656793,
      "grad_norm": 1.03125,
      "learning_rate": 0.00040582795583101773,
      "loss": 4.9507,
      "mean_token_accuracy": 0.20272739976644516,
      "num_tokens": 67721159.0,
      "step": 36700
    },
    {
      "entropy": 5.42426290512085,
      "epoch": 3.0836798991808445,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00040580359085702036,
      "loss": 4.9604,
      "mean_token_accuracy": 0.20506570488214493,
      "num_tokens": 67731093.0,
      "step": 36705
    },
    {
      "entropy": 5.486782217025757,
      "epoch": 3.0840999789960093,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004057792235659046,
      "loss": 5.0739,
      "mean_token_accuracy": 0.19931560456752778,
      "num_tokens": 67739900.0,
      "step": 36710
    },
    {
      "entropy": 5.583210563659668,
      "epoch": 3.084520058811174,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004057548539581023,
      "loss": 5.1184,
      "mean_token_accuracy": 0.18786950409412384,
      "num_tokens": 67748303.0,
      "step": 36715
    },
    {
      "entropy": 5.442339849472046,
      "epoch": 3.084940138626339,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004057304820340452,
      "loss": 5.0541,
      "mean_token_accuracy": 0.19533055573701857,
      "num_tokens": 67758055.0,
      "step": 36720
    },
    {
      "entropy": 5.461254692077636,
      "epoch": 3.085360218441504,
      "grad_norm": 1.25,
      "learning_rate": 0.00040570610779416485,
      "loss": 5.1138,
      "mean_token_accuracy": 0.18523765504360198,
      "num_tokens": 67767340.0,
      "step": 36725
    },
    {
      "entropy": 5.484048175811767,
      "epoch": 3.085780298256669,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004056817312388931,
      "loss": 5.0556,
      "mean_token_accuracy": 0.19171391129493714,
      "num_tokens": 67776395.0,
      "step": 36730
    },
    {
      "entropy": 5.51213960647583,
      "epoch": 3.0862003780718337,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004056573523686617,
      "loss": 5.0202,
      "mean_token_accuracy": 0.19632165282964706,
      "num_tokens": 67785158.0,
      "step": 36735
    },
    {
      "entropy": 5.47672028541565,
      "epoch": 3.0866204578869985,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004056329711839027,
      "loss": 5.0265,
      "mean_token_accuracy": 0.202332304418087,
      "num_tokens": 67794137.0,
      "step": 36740
    },
    {
      "entropy": 5.465050077438354,
      "epoch": 3.0870405377021632,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004056085876850479,
      "loss": 4.9767,
      "mean_token_accuracy": 0.19827782958745957,
      "num_tokens": 67802767.0,
      "step": 36745
    },
    {
      "entropy": 5.3995623111724855,
      "epoch": 3.0874606175173285,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00040558420187252907,
      "loss": 5.0095,
      "mean_token_accuracy": 0.20225257873535157,
      "num_tokens": 67811684.0,
      "step": 36750
    },
    {
      "entropy": 5.465032768249512,
      "epoch": 3.0878806973324933,
      "grad_norm": 1.078125,
      "learning_rate": 0.00040555981374677845,
      "loss": 5.0287,
      "mean_token_accuracy": 0.19452692270278932,
      "num_tokens": 67821022.0,
      "step": 36755
    },
    {
      "entropy": 5.419591188430786,
      "epoch": 3.088300777147658,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004055354233082279,
      "loss": 4.9601,
      "mean_token_accuracy": 0.203678922355175,
      "num_tokens": 67830070.0,
      "step": 36760
    },
    {
      "entropy": 5.428658771514892,
      "epoch": 3.088720856962823,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00040551103055730967,
      "loss": 4.9381,
      "mean_token_accuracy": 0.20855812430381776,
      "num_tokens": 67839872.0,
      "step": 36765
    },
    {
      "entropy": 5.564185905456543,
      "epoch": 3.0891409367779876,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004054866354944556,
      "loss": 5.2142,
      "mean_token_accuracy": 0.18484880030155182,
      "num_tokens": 67848824.0,
      "step": 36770
    },
    {
      "entropy": 5.482000684738159,
      "epoch": 3.089561016593153,
      "grad_norm": 1.1875,
      "learning_rate": 0.000405462238120098,
      "loss": 4.9818,
      "mean_token_accuracy": 0.20479614287614822,
      "num_tokens": 67857157.0,
      "step": 36775
    },
    {
      "entropy": 5.4357444763183596,
      "epoch": 3.0899810964083176,
      "grad_norm": 1.140625,
      "learning_rate": 0.00040543783843466905,
      "loss": 5.0718,
      "mean_token_accuracy": 0.195577971637249,
      "num_tokens": 67866969.0,
      "step": 36780
    },
    {
      "entropy": 5.460166883468628,
      "epoch": 3.0904011762234824,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00040541343643860095,
      "loss": 5.0122,
      "mean_token_accuracy": 0.20013866871595382,
      "num_tokens": 67876955.0,
      "step": 36785
    },
    {
      "entropy": 5.430066537857056,
      "epoch": 3.090821256038647,
      "grad_norm": 1.09375,
      "learning_rate": 0.00040538903213232597,
      "loss": 4.9579,
      "mean_token_accuracy": 0.20697559267282487,
      "num_tokens": 67885503.0,
      "step": 36790
    },
    {
      "entropy": 5.505274486541748,
      "epoch": 3.0912413358538124,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004053646255162765,
      "loss": 5.1457,
      "mean_token_accuracy": 0.18909599035978317,
      "num_tokens": 67894382.0,
      "step": 36795
    },
    {
      "entropy": 5.449555540084839,
      "epoch": 3.0916614156689772,
      "grad_norm": 1.140625,
      "learning_rate": 0.00040534021659088473,
      "loss": 5.0723,
      "mean_token_accuracy": 0.20043508410453797,
      "num_tokens": 67904185.0,
      "step": 36800
    },
    {
      "entropy": 5.5433300018310545,
      "epoch": 3.092081495484142,
      "grad_norm": 1.0625,
      "learning_rate": 0.00040531580535658313,
      "loss": 5.1152,
      "mean_token_accuracy": 0.19590960443019867,
      "num_tokens": 67913464.0,
      "step": 36805
    },
    {
      "entropy": 5.426630973815918,
      "epoch": 3.092501575299307,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004052913918138043,
      "loss": 4.9592,
      "mean_token_accuracy": 0.2108973518013954,
      "num_tokens": 67921669.0,
      "step": 36810
    },
    {
      "entropy": 5.4249614715576175,
      "epoch": 3.0929216551144716,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00040526697596298035,
      "loss": 5.0335,
      "mean_token_accuracy": 0.20230104476213456,
      "num_tokens": 67931283.0,
      "step": 36815
    },
    {
      "entropy": 5.481754779815674,
      "epoch": 3.093341734929637,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004052425578045441,
      "loss": 5.021,
      "mean_token_accuracy": 0.19355047047138213,
      "num_tokens": 67940173.0,
      "step": 36820
    },
    {
      "entropy": 5.445657682418823,
      "epoch": 3.0937618147448016,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00040521813733892793,
      "loss": 5.0939,
      "mean_token_accuracy": 0.1888069584965706,
      "num_tokens": 67949652.0,
      "step": 36825
    },
    {
      "entropy": 5.434751081466675,
      "epoch": 3.0941818945599664,
      "grad_norm": 1.09375,
      "learning_rate": 0.00040519371456656454,
      "loss": 4.9957,
      "mean_token_accuracy": 0.20824392288923263,
      "num_tokens": 67959082.0,
      "step": 36830
    },
    {
      "entropy": 5.481770181655884,
      "epoch": 3.094601974375131,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004051692894878866,
      "loss": 5.0172,
      "mean_token_accuracy": 0.2019238993525505,
      "num_tokens": 67970190.0,
      "step": 36835
    },
    {
      "entropy": 5.529017686843872,
      "epoch": 3.095022054190296,
      "grad_norm": 1.125,
      "learning_rate": 0.0004051448621033267,
      "loss": 5.1119,
      "mean_token_accuracy": 0.1933869257569313,
      "num_tokens": 67979305.0,
      "step": 36840
    },
    {
      "entropy": 5.521956062316894,
      "epoch": 3.095442134005461,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004051204324133175,
      "loss": 5.1027,
      "mean_token_accuracy": 0.1934965059161186,
      "num_tokens": 67988980.0,
      "step": 36845
    },
    {
      "entropy": 5.425851440429687,
      "epoch": 3.095862213820626,
      "grad_norm": 1.140625,
      "learning_rate": 0.000405096000418292,
      "loss": 5.092,
      "mean_token_accuracy": 0.19185224324464797,
      "num_tokens": 67998354.0,
      "step": 36850
    },
    {
      "entropy": 5.4498100757598875,
      "epoch": 3.0962822936357908,
      "grad_norm": 1.15625,
      "learning_rate": 0.00040507156611868265,
      "loss": 5.0232,
      "mean_token_accuracy": 0.20007188469171525,
      "num_tokens": 68006659.0,
      "step": 36855
    },
    {
      "entropy": 5.553119945526123,
      "epoch": 3.0967023734509556,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004050471295149226,
      "loss": 5.0867,
      "mean_token_accuracy": 0.19918424487113953,
      "num_tokens": 68015282.0,
      "step": 36860
    },
    {
      "entropy": 5.508892631530761,
      "epoch": 3.0971224532661203,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004050226906074446,
      "loss": 5.1786,
      "mean_token_accuracy": 0.18682672679424286,
      "num_tokens": 68024343.0,
      "step": 36865
    },
    {
      "entropy": 5.431039667129516,
      "epoch": 3.0975425330812856,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00040499824939668164,
      "loss": 5.0145,
      "mean_token_accuracy": 0.19997421652078629,
      "num_tokens": 68033342.0,
      "step": 36870
    },
    {
      "entropy": 5.492595863342285,
      "epoch": 3.0979626128964504,
      "grad_norm": 1.125,
      "learning_rate": 0.00040497380588306654,
      "loss": 5.0517,
      "mean_token_accuracy": 0.19343648254871368,
      "num_tokens": 68042522.0,
      "step": 36875
    },
    {
      "entropy": 5.457835865020752,
      "epoch": 3.098382692711615,
      "grad_norm": 1.125,
      "learning_rate": 0.00040494936006703244,
      "loss": 5.0382,
      "mean_token_accuracy": 0.20170203894376754,
      "num_tokens": 68051831.0,
      "step": 36880
    },
    {
      "entropy": 5.426235151290894,
      "epoch": 3.09880277252678,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004049249119490123,
      "loss": 5.0158,
      "mean_token_accuracy": 0.19758880734443665,
      "num_tokens": 68060490.0,
      "step": 36885
    },
    {
      "entropy": 5.41799840927124,
      "epoch": 3.099222852341945,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00040490046152943926,
      "loss": 4.9904,
      "mean_token_accuracy": 0.2011590927839279,
      "num_tokens": 68069644.0,
      "step": 36890
    },
    {
      "entropy": 5.523201847076416,
      "epoch": 3.09964293215711,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00040487600880874646,
      "loss": 5.1275,
      "mean_token_accuracy": 0.1937434956431389,
      "num_tokens": 68079310.0,
      "step": 36895
    },
    {
      "entropy": 5.505442428588867,
      "epoch": 3.1000630119722747,
      "grad_norm": 1.078125,
      "learning_rate": 0.00040485155378736706,
      "loss": 5.0914,
      "mean_token_accuracy": 0.19415756762027742,
      "num_tokens": 68088362.0,
      "step": 36900
    },
    {
      "entropy": 5.458452367782593,
      "epoch": 3.1004830917874395,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00040482709646573424,
      "loss": 5.0758,
      "mean_token_accuracy": 0.19346683770418166,
      "num_tokens": 68097219.0,
      "step": 36905
    },
    {
      "entropy": 5.493978834152221,
      "epoch": 3.1009031716026043,
      "grad_norm": 1.1875,
      "learning_rate": 0.00040480263684428114,
      "loss": 5.0939,
      "mean_token_accuracy": 0.19533015340566634,
      "num_tokens": 68106492.0,
      "step": 36910
    },
    {
      "entropy": 5.53242678642273,
      "epoch": 3.1013232514177695,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004047781749234413,
      "loss": 5.0295,
      "mean_token_accuracy": 0.2041526958346367,
      "num_tokens": 68116899.0,
      "step": 36915
    },
    {
      "entropy": 5.405179262161255,
      "epoch": 3.1017433312329343,
      "grad_norm": 1.125,
      "learning_rate": 0.0004047537107036479,
      "loss": 4.9769,
      "mean_token_accuracy": 0.20520587116479874,
      "num_tokens": 68126183.0,
      "step": 36920
    },
    {
      "entropy": 5.485712289810181,
      "epoch": 3.102163411048099,
      "grad_norm": 1.140625,
      "learning_rate": 0.00040472924418533427,
      "loss": 5.1475,
      "mean_token_accuracy": 0.19264002591371537,
      "num_tokens": 68136023.0,
      "step": 36925
    },
    {
      "entropy": 5.4969398021698,
      "epoch": 3.102583490863264,
      "grad_norm": 1.0625,
      "learning_rate": 0.00040470477536893397,
      "loss": 5.0849,
      "mean_token_accuracy": 0.19051930606365203,
      "num_tokens": 68145794.0,
      "step": 36930
    },
    {
      "entropy": 5.43305516242981,
      "epoch": 3.1030035706784287,
      "grad_norm": 1.125,
      "learning_rate": 0.0004046803042548803,
      "loss": 4.9533,
      "mean_token_accuracy": 0.2052049919962883,
      "num_tokens": 68154972.0,
      "step": 36935
    },
    {
      "entropy": 5.472270345687866,
      "epoch": 3.103423650493594,
      "grad_norm": 1.046875,
      "learning_rate": 0.00040465583084360677,
      "loss": 5.125,
      "mean_token_accuracy": 0.20127080529928207,
      "num_tokens": 68164728.0,
      "step": 36940
    },
    {
      "entropy": 5.566928958892822,
      "epoch": 3.1038437303087587,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004046313551355471,
      "loss": 5.1684,
      "mean_token_accuracy": 0.19277972877025604,
      "num_tokens": 68175071.0,
      "step": 36945
    },
    {
      "entropy": 5.5222711086273195,
      "epoch": 3.1042638101239235,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004046068771311346,
      "loss": 5.0786,
      "mean_token_accuracy": 0.19121738374233246,
      "num_tokens": 68184722.0,
      "step": 36950
    },
    {
      "entropy": 5.423430013656616,
      "epoch": 3.1046838899390883,
      "grad_norm": 1.078125,
      "learning_rate": 0.000404582396830803,
      "loss": 4.9157,
      "mean_token_accuracy": 0.20369754284620284,
      "num_tokens": 68193394.0,
      "step": 36955
    },
    {
      "entropy": 5.4124520778656,
      "epoch": 3.1051039697542535,
      "grad_norm": 1.078125,
      "learning_rate": 0.00040455791423498605,
      "loss": 5.0094,
      "mean_token_accuracy": 0.19534585773944854,
      "num_tokens": 68202614.0,
      "step": 36960
    },
    {
      "entropy": 5.465539073944091,
      "epoch": 3.1055240495694183,
      "grad_norm": 1.078125,
      "learning_rate": 0.00040453342934411733,
      "loss": 5.0499,
      "mean_token_accuracy": 0.20168117433786392,
      "num_tokens": 68211819.0,
      "step": 36965
    },
    {
      "entropy": 5.49946665763855,
      "epoch": 3.105944129384583,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004045089421586306,
      "loss": 5.0912,
      "mean_token_accuracy": 0.19259946197271346,
      "num_tokens": 68221689.0,
      "step": 36970
    },
    {
      "entropy": 5.4267548561096195,
      "epoch": 3.106364209199748,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004044844526789596,
      "loss": 4.9659,
      "mean_token_accuracy": 0.20118236243724824,
      "num_tokens": 68231160.0,
      "step": 36975
    },
    {
      "entropy": 5.451442623138428,
      "epoch": 3.1067842890149127,
      "grad_norm": 1.109375,
      "learning_rate": 0.00040445996090553827,
      "loss": 5.0806,
      "mean_token_accuracy": 0.19495833069086074,
      "num_tokens": 68240240.0,
      "step": 36980
    },
    {
      "entropy": 5.386570453643799,
      "epoch": 3.107204368830078,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00040443546683880034,
      "loss": 4.9499,
      "mean_token_accuracy": 0.20886672288179398,
      "num_tokens": 68248966.0,
      "step": 36985
    },
    {
      "entropy": 5.408881664276123,
      "epoch": 3.1076244486452427,
      "grad_norm": 1.140625,
      "learning_rate": 0.00040441097047917983,
      "loss": 5.0136,
      "mean_token_accuracy": 0.19405990093946457,
      "num_tokens": 68258340.0,
      "step": 36990
    },
    {
      "entropy": 5.418718576431274,
      "epoch": 3.1080445284604075,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004043864718271106,
      "loss": 5.0574,
      "mean_token_accuracy": 0.20335628986358642,
      "num_tokens": 68266295.0,
      "step": 36995
    },
    {
      "entropy": 5.469725799560547,
      "epoch": 3.1084646082755722,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00040436197088302664,
      "loss": 5.0347,
      "mean_token_accuracy": 0.1984075352549553,
      "num_tokens": 68275636.0,
      "step": 37000
    },
    {
      "entropy": 5.595454359054566,
      "epoch": 3.108884688090737,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00040433746764736197,
      "loss": 5.2688,
      "mean_token_accuracy": 0.18121397346258164,
      "num_tokens": 68285310.0,
      "step": 37005
    },
    {
      "entropy": 5.497693347930908,
      "epoch": 3.1093047679059023,
      "grad_norm": 1.0625,
      "learning_rate": 0.00040431296212055064,
      "loss": 5.0864,
      "mean_token_accuracy": 0.19135702550411224,
      "num_tokens": 68295600.0,
      "step": 37010
    },
    {
      "entropy": 5.419069051742554,
      "epoch": 3.109724847721067,
      "grad_norm": 1.125,
      "learning_rate": 0.0004042884543030268,
      "loss": 4.9386,
      "mean_token_accuracy": 0.20311663597822188,
      "num_tokens": 68304165.0,
      "step": 37015
    },
    {
      "entropy": 5.435239982604981,
      "epoch": 3.110144927536232,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004042639441952245,
      "loss": 5.0596,
      "mean_token_accuracy": 0.19845403134822845,
      "num_tokens": 68313078.0,
      "step": 37020
    },
    {
      "entropy": 5.524499416351318,
      "epoch": 3.1105650073513966,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00040423943179757803,
      "loss": 5.107,
      "mean_token_accuracy": 0.19545991122722625,
      "num_tokens": 68322346.0,
      "step": 37025
    },
    {
      "entropy": 5.449826765060425,
      "epoch": 3.110985087166562,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0004042149171105216,
      "loss": 5.0116,
      "mean_token_accuracy": 0.19548784494400023,
      "num_tokens": 68331872.0,
      "step": 37030
    },
    {
      "entropy": 5.586096096038818,
      "epoch": 3.1114051669817266,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004041904001344894,
      "loss": 5.1831,
      "mean_token_accuracy": 0.18889451324939727,
      "num_tokens": 68340861.0,
      "step": 37035
    },
    {
      "entropy": 5.449587202072143,
      "epoch": 3.1118252467968914,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00040416588086991586,
      "loss": 5.0105,
      "mean_token_accuracy": 0.20464838445186614,
      "num_tokens": 68349873.0,
      "step": 37040
    },
    {
      "entropy": 5.425828218460083,
      "epoch": 3.112245326612056,
      "grad_norm": 1.09375,
      "learning_rate": 0.00040414135931723515,
      "loss": 5.0788,
      "mean_token_accuracy": 0.18867596089839936,
      "num_tokens": 68360052.0,
      "step": 37045
    },
    {
      "entropy": 5.380428838729858,
      "epoch": 3.112665406427221,
      "grad_norm": 1.015625,
      "learning_rate": 0.00040411683547688184,
      "loss": 4.9327,
      "mean_token_accuracy": 0.20658088028430938,
      "num_tokens": 68369464.0,
      "step": 37050
    },
    {
      "entropy": 5.494271278381348,
      "epoch": 3.1130854862423862,
      "grad_norm": 1.03125,
      "learning_rate": 0.00040409230934929026,
      "loss": 5.1465,
      "mean_token_accuracy": 0.1917133077979088,
      "num_tokens": 68378945.0,
      "step": 37055
    },
    {
      "entropy": 5.485577917098999,
      "epoch": 3.113505566057551,
      "grad_norm": 1.21875,
      "learning_rate": 0.00040406778093489485,
      "loss": 5.1253,
      "mean_token_accuracy": 0.19507837891578675,
      "num_tokens": 68388460.0,
      "step": 37060
    },
    {
      "entropy": 5.55605263710022,
      "epoch": 3.113925645872716,
      "grad_norm": 1.109375,
      "learning_rate": 0.00040404325023413016,
      "loss": 5.181,
      "mean_token_accuracy": 0.18146060556173324,
      "num_tokens": 68397570.0,
      "step": 37065
    },
    {
      "entropy": 5.55609917640686,
      "epoch": 3.1143457256878806,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00040401871724743085,
      "loss": 5.0883,
      "mean_token_accuracy": 0.19098480343818663,
      "num_tokens": 68407073.0,
      "step": 37070
    },
    {
      "entropy": 5.483094787597656,
      "epoch": 3.1147658055030454,
      "grad_norm": 1.109375,
      "learning_rate": 0.00040399418197523135,
      "loss": 5.0742,
      "mean_token_accuracy": 0.19383518695831298,
      "num_tokens": 68416711.0,
      "step": 37075
    },
    {
      "entropy": 5.479394626617432,
      "epoch": 3.1151858853182106,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004039696444179663,
      "loss": 5.149,
      "mean_token_accuracy": 0.1961574897170067,
      "num_tokens": 68426272.0,
      "step": 37080
    },
    {
      "entropy": 5.493901920318604,
      "epoch": 3.1156059651333754,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00040394510457607036,
      "loss": 4.9989,
      "mean_token_accuracy": 0.20552368462085724,
      "num_tokens": 68435581.0,
      "step": 37085
    },
    {
      "entropy": 5.497586584091186,
      "epoch": 3.11602604494854,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004039205624499784,
      "loss": 5.142,
      "mean_token_accuracy": 0.20069656819105147,
      "num_tokens": 68444419.0,
      "step": 37090
    },
    {
      "entropy": 5.38513970375061,
      "epoch": 3.116446124763705,
      "grad_norm": 1.125,
      "learning_rate": 0.000403896018040125,
      "loss": 5.008,
      "mean_token_accuracy": 0.19949458092451094,
      "num_tokens": 68453777.0,
      "step": 37095
    },
    {
      "entropy": 5.533619832992554,
      "epoch": 3.11686620457887,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000403871471346945,
      "loss": 5.1433,
      "mean_token_accuracy": 0.1914212927222252,
      "num_tokens": 68462827.0,
      "step": 37100
    },
    {
      "entropy": 5.539425277709961,
      "epoch": 3.117286284394035,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004038469223708733,
      "loss": 5.0886,
      "mean_token_accuracy": 0.20238180607557296,
      "num_tokens": 68472431.0,
      "step": 37105
    },
    {
      "entropy": 5.444122695922852,
      "epoch": 3.1177063642091998,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00040382237111234466,
      "loss": 4.9905,
      "mean_token_accuracy": 0.20489882081747054,
      "num_tokens": 68481405.0,
      "step": 37110
    },
    {
      "entropy": 5.494864892959595,
      "epoch": 3.1181264440243646,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000403797817571794,
      "loss": 5.0464,
      "mean_token_accuracy": 0.19652849435806274,
      "num_tokens": 68490233.0,
      "step": 37115
    },
    {
      "entropy": 5.4617271900177,
      "epoch": 3.1185465238395293,
      "grad_norm": 1.0625,
      "learning_rate": 0.00040377326174965647,
      "loss": 5.0569,
      "mean_token_accuracy": 0.19728433936834336,
      "num_tokens": 68499767.0,
      "step": 37120
    },
    {
      "entropy": 5.456508016586303,
      "epoch": 3.1189666036546946,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004037487036463668,
      "loss": 4.9883,
      "mean_token_accuracy": 0.20494547486305237,
      "num_tokens": 68509220.0,
      "step": 37125
    },
    {
      "entropy": 5.491450595855713,
      "epoch": 3.1193866834698594,
      "grad_norm": 0.96875,
      "learning_rate": 0.0004037241432623602,
      "loss": 5.0317,
      "mean_token_accuracy": 0.19916688948869704,
      "num_tokens": 68518802.0,
      "step": 37130
    },
    {
      "entropy": 5.459437417984009,
      "epoch": 3.119806763285024,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00040369958059807167,
      "loss": 5.0979,
      "mean_token_accuracy": 0.1930837169289589,
      "num_tokens": 68528588.0,
      "step": 37135
    },
    {
      "entropy": 5.392247056961059,
      "epoch": 3.120226843100189,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004036750156539363,
      "loss": 4.985,
      "mean_token_accuracy": 0.2029929682612419,
      "num_tokens": 68537824.0,
      "step": 37140
    },
    {
      "entropy": 5.441455316543579,
      "epoch": 3.1206469229153537,
      "grad_norm": 1.15625,
      "learning_rate": 0.00040365044843038937,
      "loss": 5.0324,
      "mean_token_accuracy": 0.20397647023200988,
      "num_tokens": 68547500.0,
      "step": 37145
    },
    {
      "entropy": 5.518270444869995,
      "epoch": 3.121067002730519,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004036258789278659,
      "loss": 5.1262,
      "mean_token_accuracy": 0.20003576427698136,
      "num_tokens": 68557416.0,
      "step": 37150
    },
    {
      "entropy": 5.452860355377197,
      "epoch": 3.1214870825456837,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004036013071468013,
      "loss": 4.9708,
      "mean_token_accuracy": 0.1975026771426201,
      "num_tokens": 68565857.0,
      "step": 37155
    },
    {
      "entropy": 5.528408622741699,
      "epoch": 3.1219071623608485,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004035767330876307,
      "loss": 5.1329,
      "mean_token_accuracy": 0.19657427370548247,
      "num_tokens": 68576093.0,
      "step": 37160
    },
    {
      "entropy": 5.455206298828125,
      "epoch": 3.1223272421760133,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004035521567507895,
      "loss": 5.0491,
      "mean_token_accuracy": 0.19560959488153457,
      "num_tokens": 68585925.0,
      "step": 37165
    },
    {
      "entropy": 5.392210149765015,
      "epoch": 3.122747321991178,
      "grad_norm": 1.0625,
      "learning_rate": 0.000403527578136713,
      "loss": 5.0229,
      "mean_token_accuracy": 0.19384076893329621,
      "num_tokens": 68594832.0,
      "step": 37170
    },
    {
      "entropy": 5.49750657081604,
      "epoch": 3.1231674018063433,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004035029972458367,
      "loss": 5.1456,
      "mean_token_accuracy": 0.19387038201093673,
      "num_tokens": 68603901.0,
      "step": 37175
    },
    {
      "entropy": 5.461624670028686,
      "epoch": 3.123587481621508,
      "grad_norm": 1.03125,
      "learning_rate": 0.000403478414078596,
      "loss": 4.9897,
      "mean_token_accuracy": 0.20168686360120774,
      "num_tokens": 68612622.0,
      "step": 37180
    },
    {
      "entropy": 5.527934789657593,
      "epoch": 3.124007561436673,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004034538286354263,
      "loss": 5.1359,
      "mean_token_accuracy": 0.18955207020044326,
      "num_tokens": 68621896.0,
      "step": 37185
    },
    {
      "entropy": 5.593404245376587,
      "epoch": 3.1244276412518377,
      "grad_norm": 1.109375,
      "learning_rate": 0.00040342924091676306,
      "loss": 5.0915,
      "mean_token_accuracy": 0.1953461304306984,
      "num_tokens": 68630886.0,
      "step": 37190
    },
    {
      "entropy": 5.4334605693817135,
      "epoch": 3.124847721067003,
      "grad_norm": 1.34375,
      "learning_rate": 0.00040340465092304214,
      "loss": 5.0448,
      "mean_token_accuracy": 0.20044403672218322,
      "num_tokens": 68640621.0,
      "step": 37195
    },
    {
      "entropy": 5.507030725479126,
      "epoch": 3.1252678008821677,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00040338005865469883,
      "loss": 5.1704,
      "mean_token_accuracy": 0.1907038688659668,
      "num_tokens": 68650209.0,
      "step": 37200
    },
    {
      "entropy": 5.570762586593628,
      "epoch": 3.1256878806973325,
      "grad_norm": 1.109375,
      "learning_rate": 0.00040335546411216893,
      "loss": 5.112,
      "mean_token_accuracy": 0.18649213165044784,
      "num_tokens": 68659728.0,
      "step": 37205
    },
    {
      "entropy": 5.500170707702637,
      "epoch": 3.1261079605124973,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004033308672958881,
      "loss": 5.073,
      "mean_token_accuracy": 0.20222654789686204,
      "num_tokens": 68668691.0,
      "step": 37210
    },
    {
      "entropy": 5.341836404800415,
      "epoch": 3.126528040327662,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000403306268206292,
      "loss": 4.9718,
      "mean_token_accuracy": 0.1966631144285202,
      "num_tokens": 68678006.0,
      "step": 37215
    },
    {
      "entropy": 5.498757982254029,
      "epoch": 3.1269481201428273,
      "grad_norm": 1.171875,
      "learning_rate": 0.00040328166684381646,
      "loss": 5.1858,
      "mean_token_accuracy": 0.19477528631687163,
      "num_tokens": 68687836.0,
      "step": 37220
    },
    {
      "entropy": 5.553184366226196,
      "epoch": 3.127368199957992,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004032570632088972,
      "loss": 5.0625,
      "mean_token_accuracy": 0.193172088265419,
      "num_tokens": 68697374.0,
      "step": 37225
    },
    {
      "entropy": 5.5148721694946286,
      "epoch": 3.127788279773157,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00040323245730197017,
      "loss": 5.1062,
      "mean_token_accuracy": 0.19437498599290848,
      "num_tokens": 68707331.0,
      "step": 37230
    },
    {
      "entropy": 5.491467475891113,
      "epoch": 3.1282083595883217,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004032078491234711,
      "loss": 4.9911,
      "mean_token_accuracy": 0.2024996817111969,
      "num_tokens": 68716073.0,
      "step": 37235
    },
    {
      "entropy": 5.494626140594482,
      "epoch": 3.128628439403487,
      "grad_norm": 1.0625,
      "learning_rate": 0.00040318323867383606,
      "loss": 5.0125,
      "mean_token_accuracy": 0.20422501415014266,
      "num_tokens": 68725074.0,
      "step": 37240
    },
    {
      "entropy": 5.41781063079834,
      "epoch": 3.1290485192186517,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00040315862595350087,
      "loss": 5.0868,
      "mean_token_accuracy": 0.19065423160791398,
      "num_tokens": 68734099.0,
      "step": 37245
    },
    {
      "entropy": 5.4235645771026615,
      "epoch": 3.1294685990338165,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0004031340109629017,
      "loss": 5.021,
      "mean_token_accuracy": 0.20203627347946168,
      "num_tokens": 68743352.0,
      "step": 37250
    },
    {
      "entropy": 5.501015090942383,
      "epoch": 3.1298886788489813,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00040310939370247445,
      "loss": 5.0886,
      "mean_token_accuracy": 0.19790876060724258,
      "num_tokens": 68753468.0,
      "step": 37255
    },
    {
      "entropy": 5.4864317893981935,
      "epoch": 3.130308758664146,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004030847741726553,
      "loss": 5.0049,
      "mean_token_accuracy": 0.2015596553683281,
      "num_tokens": 68761805.0,
      "step": 37260
    },
    {
      "entropy": 5.495039463043213,
      "epoch": 3.1307288384793113,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00040306015237388034,
      "loss": 5.0225,
      "mean_token_accuracy": 0.20048529654741287,
      "num_tokens": 68771074.0,
      "step": 37265
    },
    {
      "entropy": 5.445593214035034,
      "epoch": 3.131148918294476,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00040303552830658575,
      "loss": 5.0554,
      "mean_token_accuracy": 0.1918517217040062,
      "num_tokens": 68780302.0,
      "step": 37270
    },
    {
      "entropy": 5.440789318084716,
      "epoch": 3.131568998109641,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004030109019712076,
      "loss": 5.0389,
      "mean_token_accuracy": 0.2008921355009079,
      "num_tokens": 68789501.0,
      "step": 37275
    },
    {
      "entropy": 5.419162368774414,
      "epoch": 3.1319890779248056,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00040298627336818235,
      "loss": 4.9317,
      "mean_token_accuracy": 0.2010892927646637,
      "num_tokens": 68798425.0,
      "step": 37280
    },
    {
      "entropy": 5.550200748443603,
      "epoch": 3.1324091577399704,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00040296164249794614,
      "loss": 5.1837,
      "mean_token_accuracy": 0.1877496987581253,
      "num_tokens": 68808425.0,
      "step": 37285
    },
    {
      "entropy": 5.413539791107178,
      "epoch": 3.1328292375551356,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0004029370093609352,
      "loss": 5.049,
      "mean_token_accuracy": 0.1896977722644806,
      "num_tokens": 68817394.0,
      "step": 37290
    },
    {
      "entropy": 5.475667715072632,
      "epoch": 3.1332493173703004,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00040291237395758615,
      "loss": 5.0885,
      "mean_token_accuracy": 0.19433989822864534,
      "num_tokens": 68826675.0,
      "step": 37295
    },
    {
      "entropy": 5.506033039093017,
      "epoch": 3.133669397185465,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00040288773628833525,
      "loss": 5.0614,
      "mean_token_accuracy": 0.20223445296287537,
      "num_tokens": 68835503.0,
      "step": 37300
    },
    {
      "entropy": 5.546300601959229,
      "epoch": 3.13408947700063,
      "grad_norm": 1.046875,
      "learning_rate": 0.00040286309635361887,
      "loss": 5.0911,
      "mean_token_accuracy": 0.1957233339548111,
      "num_tokens": 68845280.0,
      "step": 37305
    },
    {
      "entropy": 5.492376661300659,
      "epoch": 3.134509556815795,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00040283845415387367,
      "loss": 5.0828,
      "mean_token_accuracy": 0.19655944257974625,
      "num_tokens": 68854549.0,
      "step": 37310
    },
    {
      "entropy": 5.450186347961425,
      "epoch": 3.13492963663096,
      "grad_norm": 1.15625,
      "learning_rate": 0.00040281380968953603,
      "loss": 5.0199,
      "mean_token_accuracy": 0.20861994624137878,
      "num_tokens": 68863890.0,
      "step": 37315
    },
    {
      "entropy": 5.572993755340576,
      "epoch": 3.135349716446125,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00040278916296104263,
      "loss": 5.1993,
      "mean_token_accuracy": 0.19033473134040832,
      "num_tokens": 68873279.0,
      "step": 37320
    },
    {
      "entropy": 5.48322286605835,
      "epoch": 3.1357697962612896,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004027645139688299,
      "loss": 4.9563,
      "mean_token_accuracy": 0.2049584910273552,
      "num_tokens": 68881027.0,
      "step": 37325
    },
    {
      "entropy": 5.397610759735107,
      "epoch": 3.1361898760764544,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004027398627133347,
      "loss": 4.9793,
      "mean_token_accuracy": 0.20012938529253005,
      "num_tokens": 68889730.0,
      "step": 37330
    },
    {
      "entropy": 5.476833629608154,
      "epoch": 3.136609955891619,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004027152091949936,
      "loss": 5.0564,
      "mean_token_accuracy": 0.1959311455488205,
      "num_tokens": 68898833.0,
      "step": 37335
    },
    {
      "entropy": 5.430890035629273,
      "epoch": 3.1370300357067844,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004026905534142433,
      "loss": 5.0213,
      "mean_token_accuracy": 0.19718014150857927,
      "num_tokens": 68907701.0,
      "step": 37340
    },
    {
      "entropy": 5.512156772613525,
      "epoch": 3.137450115521949,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00040266589537152055,
      "loss": 5.1493,
      "mean_token_accuracy": 0.1925407439470291,
      "num_tokens": 68917190.0,
      "step": 37345
    },
    {
      "entropy": 5.478552436828613,
      "epoch": 3.137870195337114,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004026412350672623,
      "loss": 4.9991,
      "mean_token_accuracy": 0.19729665964841842,
      "num_tokens": 68926591.0,
      "step": 37350
    },
    {
      "entropy": 5.483969688415527,
      "epoch": 3.1382902751522788,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004026165725019052,
      "loss": 5.0348,
      "mean_token_accuracy": 0.19631063491106032,
      "num_tokens": 68936007.0,
      "step": 37355
    },
    {
      "entropy": 5.463288402557373,
      "epoch": 3.138710354967444,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004025919076758863,
      "loss": 5.0415,
      "mean_token_accuracy": 0.19574583023786546,
      "num_tokens": 68945548.0,
      "step": 37360
    },
    {
      "entropy": 5.532407283782959,
      "epoch": 3.139130434782609,
      "grad_norm": 1.046875,
      "learning_rate": 0.00040256724058964244,
      "loss": 5.0976,
      "mean_token_accuracy": 0.19446126222610474,
      "num_tokens": 68954837.0,
      "step": 37365
    },
    {
      "entropy": 5.595711088180542,
      "epoch": 3.1395505145977736,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004025425712436106,
      "loss": 5.1513,
      "mean_token_accuracy": 0.19656421691179277,
      "num_tokens": 68964169.0,
      "step": 37370
    },
    {
      "entropy": 5.5155867576599125,
      "epoch": 3.1399705944129384,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004025178996382277,
      "loss": 5.0852,
      "mean_token_accuracy": 0.19931106865406037,
      "num_tokens": 68974157.0,
      "step": 37375
    },
    {
      "entropy": 5.549352741241455,
      "epoch": 3.140390674228103,
      "grad_norm": 1.09375,
      "learning_rate": 0.00040249322577393093,
      "loss": 5.0858,
      "mean_token_accuracy": 0.1957484230399132,
      "num_tokens": 68983617.0,
      "step": 37380
    },
    {
      "entropy": 5.460577821731567,
      "epoch": 3.1408107540432684,
      "grad_norm": 1.21875,
      "learning_rate": 0.0004024685496511574,
      "loss": 5.0001,
      "mean_token_accuracy": 0.195146144926548,
      "num_tokens": 68992683.0,
      "step": 37385
    },
    {
      "entropy": 5.412485885620117,
      "epoch": 3.141230833858433,
      "grad_norm": 1.125,
      "learning_rate": 0.00040244387127034406,
      "loss": 5.0227,
      "mean_token_accuracy": 0.19566489309072493,
      "num_tokens": 69002915.0,
      "step": 37390
    },
    {
      "entropy": 5.534264612197876,
      "epoch": 3.141650913673598,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00040241919063192815,
      "loss": 5.1493,
      "mean_token_accuracy": 0.18589805215597152,
      "num_tokens": 69012557.0,
      "step": 37395
    },
    {
      "entropy": 5.548353481292724,
      "epoch": 3.1420709934887627,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00040239450773634693,
      "loss": 5.1073,
      "mean_token_accuracy": 0.19176244586706162,
      "num_tokens": 69021734.0,
      "step": 37400
    },
    {
      "entropy": 5.576347303390503,
      "epoch": 3.142491073303928,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0004023698225840377,
      "loss": 5.1203,
      "mean_token_accuracy": 0.1941645234823227,
      "num_tokens": 69029964.0,
      "step": 37405
    },
    {
      "entropy": 5.504487752914429,
      "epoch": 3.1429111531190927,
      "grad_norm": 1.125,
      "learning_rate": 0.0004023451351754375,
      "loss": 5.0645,
      "mean_token_accuracy": 0.19505347162485123,
      "num_tokens": 69039190.0,
      "step": 37410
    },
    {
      "entropy": 5.40836763381958,
      "epoch": 3.1433312329342575,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0004023204455109839,
      "loss": 5.0323,
      "mean_token_accuracy": 0.19752920269966126,
      "num_tokens": 69048241.0,
      "step": 37415
    },
    {
      "entropy": 5.4877265930175785,
      "epoch": 3.1437513127494223,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004022957535911141,
      "loss": 5.0507,
      "mean_token_accuracy": 0.19963303208351135,
      "num_tokens": 69057723.0,
      "step": 37420
    },
    {
      "entropy": 5.511162853240966,
      "epoch": 3.144171392564587,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004022710594162656,
      "loss": 5.0695,
      "mean_token_accuracy": 0.19686615020036696,
      "num_tokens": 69066605.0,
      "step": 37425
    },
    {
      "entropy": 5.420380735397339,
      "epoch": 3.1445914723797523,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00040224636298687573,
      "loss": 4.9863,
      "mean_token_accuracy": 0.19995601624250411,
      "num_tokens": 69075212.0,
      "step": 37430
    },
    {
      "entropy": 5.422891521453858,
      "epoch": 3.145011552194917,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004022216643033822,
      "loss": 5.0608,
      "mean_token_accuracy": 0.1992753729224205,
      "num_tokens": 69083957.0,
      "step": 37435
    },
    {
      "entropy": 5.494032287597657,
      "epoch": 3.145431632010082,
      "grad_norm": 1.171875,
      "learning_rate": 0.00040219696336622236,
      "loss": 5.1033,
      "mean_token_accuracy": 0.1939118191599846,
      "num_tokens": 69093588.0,
      "step": 37440
    },
    {
      "entropy": 5.429014348983765,
      "epoch": 3.1458517118252467,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004021722601758337,
      "loss": 4.9894,
      "mean_token_accuracy": 0.2073349341750145,
      "num_tokens": 69101992.0,
      "step": 37445
    },
    {
      "entropy": 5.51721158027649,
      "epoch": 3.1462717916404115,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00040214755473265407,
      "loss": 5.0419,
      "mean_token_accuracy": 0.1999168202280998,
      "num_tokens": 69111151.0,
      "step": 37450
    },
    {
      "entropy": 5.505342626571656,
      "epoch": 3.1466918714555767,
      "grad_norm": 1.09375,
      "learning_rate": 0.00040212284703712093,
      "loss": 5.1143,
      "mean_token_accuracy": 0.19308441430330275,
      "num_tokens": 69120191.0,
      "step": 37455
    },
    {
      "entropy": 5.44867172241211,
      "epoch": 3.1471119512707415,
      "grad_norm": 1.140625,
      "learning_rate": 0.00040209813708967196,
      "loss": 4.9742,
      "mean_token_accuracy": 0.19983160197734834,
      "num_tokens": 69129144.0,
      "step": 37460
    },
    {
      "entropy": 5.502027750015259,
      "epoch": 3.1475320310859063,
      "grad_norm": 1.15625,
      "learning_rate": 0.00040207342489074506,
      "loss": 5.0496,
      "mean_token_accuracy": 0.1995421126484871,
      "num_tokens": 69138530.0,
      "step": 37465
    },
    {
      "entropy": 5.46891040802002,
      "epoch": 3.147952110901071,
      "grad_norm": 1.125,
      "learning_rate": 0.0004020487104407778,
      "loss": 5.1003,
      "mean_token_accuracy": 0.193069925904274,
      "num_tokens": 69148119.0,
      "step": 37470
    },
    {
      "entropy": 5.433053112030029,
      "epoch": 3.148372190716236,
      "grad_norm": 1.046875,
      "learning_rate": 0.00040202399374020807,
      "loss": 5.0155,
      "mean_token_accuracy": 0.1964552715420723,
      "num_tokens": 69157248.0,
      "step": 37475
    },
    {
      "entropy": 5.5331268310546875,
      "epoch": 3.148792270531401,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004019992747894736,
      "loss": 5.0982,
      "mean_token_accuracy": 0.19293560534715654,
      "num_tokens": 69166990.0,
      "step": 37480
    },
    {
      "entropy": 5.481316614151001,
      "epoch": 3.149212350346566,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004019745535890125,
      "loss": 4.9654,
      "mean_token_accuracy": 0.20255730003118516,
      "num_tokens": 69175689.0,
      "step": 37485
    },
    {
      "entropy": 5.41104826927185,
      "epoch": 3.1496324301617307,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004019498301392626,
      "loss": 4.8958,
      "mean_token_accuracy": 0.19975327849388122,
      "num_tokens": 69184433.0,
      "step": 37490
    },
    {
      "entropy": 5.4346216201782225,
      "epoch": 3.1500525099768955,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004019251044406617,
      "loss": 5.1102,
      "mean_token_accuracy": 0.1969154730439186,
      "num_tokens": 69193908.0,
      "step": 37495
    },
    {
      "entropy": 5.497427701950073,
      "epoch": 3.1504725897920607,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00040190037649364796,
      "loss": 5.0556,
      "mean_token_accuracy": 0.19355034977197647,
      "num_tokens": 69202276.0,
      "step": 37500
    },
    {
      "entropy": 5.493128156661987,
      "epoch": 3.1508926696072255,
      "grad_norm": 1.078125,
      "learning_rate": 0.00040187564629865944,
      "loss": 5.1143,
      "mean_token_accuracy": 0.19257588535547257,
      "num_tokens": 69211519.0,
      "step": 37505
    },
    {
      "entropy": 5.51818323135376,
      "epoch": 3.1513127494223903,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00040185091385613414,
      "loss": 5.0571,
      "mean_token_accuracy": 0.19649405628442765,
      "num_tokens": 69221514.0,
      "step": 37510
    },
    {
      "entropy": 5.459303998947144,
      "epoch": 3.151732829237555,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004018261791665102,
      "loss": 4.9708,
      "mean_token_accuracy": 0.20355907827615738,
      "num_tokens": 69230075.0,
      "step": 37515
    },
    {
      "entropy": 5.450690698623657,
      "epoch": 3.15215290905272,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004018014422302259,
      "loss": 5.0369,
      "mean_token_accuracy": 0.1964396521449089,
      "num_tokens": 69239912.0,
      "step": 37520
    },
    {
      "entropy": 5.560799026489258,
      "epoch": 3.152572988867885,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00040177670304771923,
      "loss": 5.2221,
      "mean_token_accuracy": 0.18742327243089676,
      "num_tokens": 69249797.0,
      "step": 37525
    },
    {
      "entropy": 5.528155899047851,
      "epoch": 3.15299306868305,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004017519616194286,
      "loss": 5.002,
      "mean_token_accuracy": 0.20648789703845977,
      "num_tokens": 69259156.0,
      "step": 37530
    },
    {
      "entropy": 5.463320970535278,
      "epoch": 3.1534131484982146,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00040172721794579227,
      "loss": 5.0672,
      "mean_token_accuracy": 0.1967951014637947,
      "num_tokens": 69268802.0,
      "step": 37535
    },
    {
      "entropy": 5.468201351165772,
      "epoch": 3.1538332283133794,
      "grad_norm": 1.125,
      "learning_rate": 0.0004017024720272485,
      "loss": 5.009,
      "mean_token_accuracy": 0.20184170603752136,
      "num_tokens": 69277087.0,
      "step": 37540
    },
    {
      "entropy": 5.492333269119262,
      "epoch": 3.1542533081285447,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004016777238642356,
      "loss": 5.0258,
      "mean_token_accuracy": 0.19847363829612732,
      "num_tokens": 69285505.0,
      "step": 37545
    },
    {
      "entropy": 5.47888331413269,
      "epoch": 3.1546733879437094,
      "grad_norm": 1.140625,
      "learning_rate": 0.00040165297345719214,
      "loss": 4.9734,
      "mean_token_accuracy": 0.20321181416511536,
      "num_tokens": 69294922.0,
      "step": 37550
    },
    {
      "entropy": 5.445856666564941,
      "epoch": 3.1550934677588742,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004016282208065565,
      "loss": 5.0843,
      "mean_token_accuracy": 0.19782030284404756,
      "num_tokens": 69303391.0,
      "step": 37555
    },
    {
      "entropy": 5.392195129394532,
      "epoch": 3.155513547574039,
      "grad_norm": 1.09375,
      "learning_rate": 0.000401603465912767,
      "loss": 4.9697,
      "mean_token_accuracy": 0.20111674666404725,
      "num_tokens": 69313376.0,
      "step": 37560
    },
    {
      "entropy": 5.454456758499146,
      "epoch": 3.155933627389204,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004015787087762625,
      "loss": 5.0197,
      "mean_token_accuracy": 0.19969553202390672,
      "num_tokens": 69322420.0,
      "step": 37565
    },
    {
      "entropy": 5.4941442012786865,
      "epoch": 3.156353707204369,
      "grad_norm": 1.03125,
      "learning_rate": 0.00040155394939748117,
      "loss": 5.1387,
      "mean_token_accuracy": 0.18397351801395417,
      "num_tokens": 69332220.0,
      "step": 37570
    },
    {
      "entropy": 5.587920141220093,
      "epoch": 3.156773787019534,
      "grad_norm": 1.109375,
      "learning_rate": 0.00040152918777686185,
      "loss": 5.1494,
      "mean_token_accuracy": 0.1932758167386055,
      "num_tokens": 69341644.0,
      "step": 37575
    },
    {
      "entropy": 5.527471256256104,
      "epoch": 3.1571938668346986,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00040150442391484307,
      "loss": 5.1408,
      "mean_token_accuracy": 0.1991027846932411,
      "num_tokens": 69350987.0,
      "step": 37580
    },
    {
      "entropy": 5.308287715911865,
      "epoch": 3.1576139466498634,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0004014796578118636,
      "loss": 4.9574,
      "mean_token_accuracy": 0.21352432072162628,
      "num_tokens": 69359961.0,
      "step": 37585
    },
    {
      "entropy": 5.377066135406494,
      "epoch": 3.158034026465028,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00040145488946836223,
      "loss": 4.9927,
      "mean_token_accuracy": 0.21127232760190964,
      "num_tokens": 69369310.0,
      "step": 37590
    },
    {
      "entropy": 5.435453605651856,
      "epoch": 3.1584541062801934,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004014301188847775,
      "loss": 4.9895,
      "mean_token_accuracy": 0.20050756484270096,
      "num_tokens": 69378277.0,
      "step": 37595
    },
    {
      "entropy": 5.576424026489258,
      "epoch": 3.158874186095358,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00040140534606154826,
      "loss": 5.11,
      "mean_token_accuracy": 0.1930566906929016,
      "num_tokens": 69387754.0,
      "step": 37600
    },
    {
      "entropy": 5.447406911849976,
      "epoch": 3.159294265910523,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004013805709991135,
      "loss": 4.9854,
      "mean_token_accuracy": 0.20220333933830262,
      "num_tokens": 69396634.0,
      "step": 37605
    },
    {
      "entropy": 5.481628179550171,
      "epoch": 3.1597143457256878,
      "grad_norm": 1.140625,
      "learning_rate": 0.000401355793697912,
      "loss": 5.1071,
      "mean_token_accuracy": 0.1987527534365654,
      "num_tokens": 69406276.0,
      "step": 37610
    },
    {
      "entropy": 5.4095722198486325,
      "epoch": 3.1601344255408526,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00040133101415838263,
      "loss": 5.0108,
      "mean_token_accuracy": 0.1993941694498062,
      "num_tokens": 69414625.0,
      "step": 37615
    },
    {
      "entropy": 5.439039993286133,
      "epoch": 3.160554505356018,
      "grad_norm": 1.015625,
      "learning_rate": 0.00040130623238096444,
      "loss": 5.0158,
      "mean_token_accuracy": 0.19951988607645035,
      "num_tokens": 69423451.0,
      "step": 37620
    },
    {
      "entropy": 5.573368930816651,
      "epoch": 3.1609745851711826,
      "grad_norm": 1.078125,
      "learning_rate": 0.0004012814483660964,
      "loss": 5.114,
      "mean_token_accuracy": 0.20043063908815384,
      "num_tokens": 69433167.0,
      "step": 37625
    },
    {
      "entropy": 5.499403238296509,
      "epoch": 3.1613946649863474,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00040125666211421747,
      "loss": 5.0674,
      "mean_token_accuracy": 0.20231003761291505,
      "num_tokens": 69442167.0,
      "step": 37630
    },
    {
      "entropy": 5.483297538757324,
      "epoch": 3.161814744801512,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004012318736257667,
      "loss": 5.0975,
      "mean_token_accuracy": 0.19587513208389282,
      "num_tokens": 69451875.0,
      "step": 37635
    },
    {
      "entropy": 5.4706638813018795,
      "epoch": 3.1622348246166774,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004012070829011835,
      "loss": 5.0235,
      "mean_token_accuracy": 0.1985434979200363,
      "num_tokens": 69460758.0,
      "step": 37640
    },
    {
      "entropy": 5.5272523880004885,
      "epoch": 3.162654904431842,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004011822899409067,
      "loss": 5.1225,
      "mean_token_accuracy": 0.19923244118690492,
      "num_tokens": 69469856.0,
      "step": 37645
    },
    {
      "entropy": 5.463876104354858,
      "epoch": 3.163074984247007,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0004011574947453755,
      "loss": 5.0257,
      "mean_token_accuracy": 0.19461782574653624,
      "num_tokens": 69479058.0,
      "step": 37650
    },
    {
      "entropy": 5.483261251449585,
      "epoch": 3.1634950640621717,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0004011326973150294,
      "loss": 5.1056,
      "mean_token_accuracy": 0.1927894875407219,
      "num_tokens": 69488183.0,
      "step": 37655
    },
    {
      "entropy": 5.41206922531128,
      "epoch": 3.1639151438773365,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00040110789765030754,
      "loss": 4.9794,
      "mean_token_accuracy": 0.20240781605243682,
      "num_tokens": 69496282.0,
      "step": 37660
    },
    {
      "entropy": 5.475186824798584,
      "epoch": 3.1643352236925018,
      "grad_norm": 1.203125,
      "learning_rate": 0.00040108309575164906,
      "loss": 5.0053,
      "mean_token_accuracy": 0.19646296054124832,
      "num_tokens": 69504448.0,
      "step": 37665
    },
    {
      "entropy": 5.513285493850708,
      "epoch": 3.1647553035076665,
      "grad_norm": 1.171875,
      "learning_rate": 0.0004010582916194935,
      "loss": 5.1128,
      "mean_token_accuracy": 0.1934449404478073,
      "num_tokens": 69514496.0,
      "step": 37670
    },
    {
      "entropy": 5.449264812469482,
      "epoch": 3.1651753833228313,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004010334852542803,
      "loss": 4.9692,
      "mean_token_accuracy": 0.20130720138549804,
      "num_tokens": 69524255.0,
      "step": 37675
    },
    {
      "entropy": 5.469118595123291,
      "epoch": 3.165595463137996,
      "grad_norm": 1.078125,
      "learning_rate": 0.00040100867665644876,
      "loss": 5.0727,
      "mean_token_accuracy": 0.2016439601778984,
      "num_tokens": 69534209.0,
      "step": 37680
    },
    {
      "entropy": 5.489665603637695,
      "epoch": 3.166015542953161,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004009838658264384,
      "loss": 5.0297,
      "mean_token_accuracy": 0.19522945284843446,
      "num_tokens": 69543875.0,
      "step": 37685
    },
    {
      "entropy": 5.545066690444946,
      "epoch": 3.166435622768326,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004009590527646887,
      "loss": 5.0827,
      "mean_token_accuracy": 0.19576297104358673,
      "num_tokens": 69553311.0,
      "step": 37690
    },
    {
      "entropy": 5.4793627738952635,
      "epoch": 3.166855702583491,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004009342374716393,
      "loss": 5.0124,
      "mean_token_accuracy": 0.19759254902601242,
      "num_tokens": 69562885.0,
      "step": 37695
    },
    {
      "entropy": 5.448939847946167,
      "epoch": 3.1672757823986557,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004009094199477297,
      "loss": 4.9967,
      "mean_token_accuracy": 0.19954195767641067,
      "num_tokens": 69572956.0,
      "step": 37700
    },
    {
      "entropy": 5.389656829833984,
      "epoch": 3.1676958622138205,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00040088460019339954,
      "loss": 5.0574,
      "mean_token_accuracy": 0.20254495590925217,
      "num_tokens": 69581969.0,
      "step": 37705
    },
    {
      "entropy": 5.545743989944458,
      "epoch": 3.1681159420289857,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004008597782090886,
      "loss": 5.1161,
      "mean_token_accuracy": 0.19397306591272354,
      "num_tokens": 69592271.0,
      "step": 37710
    },
    {
      "entropy": 5.50772876739502,
      "epoch": 3.1685360218441505,
      "grad_norm": 1.03125,
      "learning_rate": 0.00040083495399523636,
      "loss": 5.1152,
      "mean_token_accuracy": 0.1985029011964798,
      "num_tokens": 69602685.0,
      "step": 37715
    },
    {
      "entropy": 5.492410898208618,
      "epoch": 3.1689561016593153,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0004008101275522827,
      "loss": 5.0811,
      "mean_token_accuracy": 0.194818814098835,
      "num_tokens": 69612572.0,
      "step": 37720
    },
    {
      "entropy": 5.436877870559693,
      "epoch": 3.16937618147448,
      "grad_norm": 1.1875,
      "learning_rate": 0.0004007852988806675,
      "loss": 4.9974,
      "mean_token_accuracy": 0.2033060073852539,
      "num_tokens": 69621661.0,
      "step": 37725
    },
    {
      "entropy": 5.382719087600708,
      "epoch": 3.169796261289645,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00040076046798083047,
      "loss": 4.9888,
      "mean_token_accuracy": 0.2018183708190918,
      "num_tokens": 69630803.0,
      "step": 37730
    },
    {
      "entropy": 5.506657075881958,
      "epoch": 3.17021634110481,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004007356348532115,
      "loss": 5.1154,
      "mean_token_accuracy": 0.1929847776889801,
      "num_tokens": 69639992.0,
      "step": 37735
    },
    {
      "entropy": 5.5031060695648195,
      "epoch": 3.170636420919975,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004007107994982505,
      "loss": 5.0268,
      "mean_token_accuracy": 0.19916586875915526,
      "num_tokens": 69649156.0,
      "step": 37740
    },
    {
      "entropy": 5.496027040481567,
      "epoch": 3.1710565007351397,
      "grad_norm": 1.125,
      "learning_rate": 0.0004006859619163875,
      "loss": 4.9886,
      "mean_token_accuracy": 0.1986471027135849,
      "num_tokens": 69659129.0,
      "step": 37745
    },
    {
      "entropy": 5.4438711643219,
      "epoch": 3.1714765805503045,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00040066112210806234,
      "loss": 5.0612,
      "mean_token_accuracy": 0.19768774658441543,
      "num_tokens": 69668103.0,
      "step": 37750
    },
    {
      "entropy": 5.506583404541016,
      "epoch": 3.1718966603654692,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00040063628007371504,
      "loss": 5.1644,
      "mean_token_accuracy": 0.18924216628074647,
      "num_tokens": 69678185.0,
      "step": 37755
    },
    {
      "entropy": 5.467357635498047,
      "epoch": 3.1723167401806345,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0004006114358137858,
      "loss": 5.0044,
      "mean_token_accuracy": 0.1998606264591217,
      "num_tokens": 69687283.0,
      "step": 37760
    },
    {
      "entropy": 5.524149608612061,
      "epoch": 3.1727368199957993,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004005865893287147,
      "loss": 5.1314,
      "mean_token_accuracy": 0.18758700639009476,
      "num_tokens": 69697121.0,
      "step": 37765
    },
    {
      "entropy": 5.444277763366699,
      "epoch": 3.173156899810964,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004005617406189418,
      "loss": 5.0146,
      "mean_token_accuracy": 0.20330785512924193,
      "num_tokens": 69706270.0,
      "step": 37770
    },
    {
      "entropy": 5.549006128311158,
      "epoch": 3.173576979626129,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0004005368896849073,
      "loss": 5.1432,
      "mean_token_accuracy": 0.19071868509054185,
      "num_tokens": 69717099.0,
      "step": 37775
    },
    {
      "entropy": 5.496282005310059,
      "epoch": 3.1739970594412936,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004005120365270514,
      "loss": 5.0319,
      "mean_token_accuracy": 0.19574330747127533,
      "num_tokens": 69727719.0,
      "step": 37780
    },
    {
      "entropy": 5.500689172744751,
      "epoch": 3.174417139256459,
      "grad_norm": 1.09375,
      "learning_rate": 0.0004004871811458145,
      "loss": 5.0111,
      "mean_token_accuracy": 0.20218536853790284,
      "num_tokens": 69736898.0,
      "step": 37785
    },
    {
      "entropy": 5.510283994674682,
      "epoch": 3.1748372190716236,
      "grad_norm": 1.109375,
      "learning_rate": 0.0004004623235416367,
      "loss": 5.0528,
      "mean_token_accuracy": 0.19760561734437943,
      "num_tokens": 69746520.0,
      "step": 37790
    },
    {
      "entropy": 5.511551189422607,
      "epoch": 3.1752572988867884,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00040043746371495854,
      "loss": 5.089,
      "mean_token_accuracy": 0.1995289668440819,
      "num_tokens": 69755125.0,
      "step": 37795
    },
    {
      "entropy": 5.425943756103516,
      "epoch": 3.175677378701953,
      "grad_norm": 1.15625,
      "learning_rate": 0.0004004126016662202,
      "loss": 5.0247,
      "mean_token_accuracy": 0.19436401575803758,
      "num_tokens": 69763965.0,
      "step": 37800
    },
    {
      "entropy": 5.389809560775757,
      "epoch": 3.1760974585171184,
      "grad_norm": 1.046875,
      "learning_rate": 0.00040038773739586224,
      "loss": 4.9816,
      "mean_token_accuracy": 0.19778828471899032,
      "num_tokens": 69773193.0,
      "step": 37805
    },
    {
      "entropy": 5.440859031677246,
      "epoch": 3.1765175383322832,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0004003628709043252,
      "loss": 5.0083,
      "mean_token_accuracy": 0.2012166365981102,
      "num_tokens": 69782485.0,
      "step": 37810
    },
    {
      "entropy": 5.469027853012085,
      "epoch": 3.176937618147448,
      "grad_norm": 1.125,
      "learning_rate": 0.0004003380021920493,
      "loss": 4.988,
      "mean_token_accuracy": 0.2005254551768303,
      "num_tokens": 69791304.0,
      "step": 37815
    },
    {
      "entropy": 5.495481395721436,
      "epoch": 3.177357697962613,
      "grad_norm": 1.046875,
      "learning_rate": 0.0004003131312594753,
      "loss": 5.015,
      "mean_token_accuracy": 0.19856343418359756,
      "num_tokens": 69800887.0,
      "step": 37820
    },
    {
      "entropy": 5.485507154464722,
      "epoch": 3.1777777777777776,
      "grad_norm": 1.015625,
      "learning_rate": 0.00040028825810704366,
      "loss": 5.079,
      "mean_token_accuracy": 0.1883752465248108,
      "num_tokens": 69811062.0,
      "step": 37825
    },
    {
      "entropy": 5.531276035308838,
      "epoch": 3.178197857592943,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00040026338273519514,
      "loss": 5.1135,
      "mean_token_accuracy": 0.19586759507656099,
      "num_tokens": 69819901.0,
      "step": 37830
    },
    {
      "entropy": 5.536779880523682,
      "epoch": 3.1786179374081076,
      "grad_norm": 1.03125,
      "learning_rate": 0.00040023850514437015,
      "loss": 5.0923,
      "mean_token_accuracy": 0.192196761071682,
      "num_tokens": 69830554.0,
      "step": 37835
    },
    {
      "entropy": 5.515115594863891,
      "epoch": 3.1790380172232724,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00040021362533500964,
      "loss": 5.0607,
      "mean_token_accuracy": 0.1959218680858612,
      "num_tokens": 69840461.0,
      "step": 37840
    },
    {
      "entropy": 5.452757263183594,
      "epoch": 3.179458097038437,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00040018874330755423,
      "loss": 5.1208,
      "mean_token_accuracy": 0.19716031700372696,
      "num_tokens": 69849546.0,
      "step": 37845
    },
    {
      "entropy": 5.4003886699676515,
      "epoch": 3.1798781768536024,
      "grad_norm": 1.0625,
      "learning_rate": 0.00040016385906244464,
      "loss": 4.9367,
      "mean_token_accuracy": 0.21069958657026291,
      "num_tokens": 69858875.0,
      "step": 37850
    },
    {
      "entropy": 5.470294046401977,
      "epoch": 3.180298256668767,
      "grad_norm": 1.0625,
      "learning_rate": 0.0004001389726001217,
      "loss": 5.0344,
      "mean_token_accuracy": 0.19666599929332734,
      "num_tokens": 69867440.0,
      "step": 37855
    },
    {
      "entropy": 5.382214784622192,
      "epoch": 3.180718336483932,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00040011408392102635,
      "loss": 4.9313,
      "mean_token_accuracy": 0.2025005802512169,
      "num_tokens": 69876167.0,
      "step": 37860
    },
    {
      "entropy": 5.4279735565185545,
      "epoch": 3.1811384162990968,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004000891930255994,
      "loss": 5.1032,
      "mean_token_accuracy": 0.19139716029167175,
      "num_tokens": 69886548.0,
      "step": 37865
    },
    {
      "entropy": 5.44639253616333,
      "epoch": 3.1815584961142616,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0004000642999142819,
      "loss": 5.0484,
      "mean_token_accuracy": 0.20145031958818435,
      "num_tokens": 69894969.0,
      "step": 37870
    },
    {
      "entropy": 5.472704124450684,
      "epoch": 3.181978575929427,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00040003940458751457,
      "loss": 5.0077,
      "mean_token_accuracy": 0.19840116798877716,
      "num_tokens": 69903649.0,
      "step": 37875
    },
    {
      "entropy": 5.477377557754517,
      "epoch": 3.1823986557445916,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00040001450704573875,
      "loss": 5.0553,
      "mean_token_accuracy": 0.19462950527668,
      "num_tokens": 69913266.0,
      "step": 37880
    },
    {
      "entropy": 5.430524492263794,
      "epoch": 3.1828187355597564,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003999896072893952,
      "loss": 5.0336,
      "mean_token_accuracy": 0.19790629297494888,
      "num_tokens": 69922821.0,
      "step": 37885
    },
    {
      "entropy": 5.585491180419922,
      "epoch": 3.183238815374921,
      "grad_norm": 1.125,
      "learning_rate": 0.0003999647053189252,
      "loss": 5.1532,
      "mean_token_accuracy": 0.19627265334129335,
      "num_tokens": 69932234.0,
      "step": 37890
    },
    {
      "entropy": 5.495842838287354,
      "epoch": 3.183658895190086,
      "grad_norm": 1.078125,
      "learning_rate": 0.00039993980113476967,
      "loss": 5.0535,
      "mean_token_accuracy": 0.19072479754686356,
      "num_tokens": 69941588.0,
      "step": 37895
    },
    {
      "entropy": 5.425223970413208,
      "epoch": 3.184078975005251,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00039991489473737,
      "loss": 4.9534,
      "mean_token_accuracy": 0.20830065459012986,
      "num_tokens": 69950676.0,
      "step": 37900
    },
    {
      "entropy": 5.447563743591308,
      "epoch": 3.184499054820416,
      "grad_norm": 1.3125,
      "learning_rate": 0.00039988998612716723,
      "loss": 4.986,
      "mean_token_accuracy": 0.2067314013838768,
      "num_tokens": 69958616.0,
      "step": 37905
    },
    {
      "entropy": 5.451863384246826,
      "epoch": 3.1849191346355807,
      "grad_norm": 1.109375,
      "learning_rate": 0.00039986507530460273,
      "loss": 5.0953,
      "mean_token_accuracy": 0.19281626045703887,
      "num_tokens": 69967818.0,
      "step": 37910
    },
    {
      "entropy": 5.518338012695312,
      "epoch": 3.1853392144507455,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00039984016227011764,
      "loss": 5.0878,
      "mean_token_accuracy": 0.19833649396896363,
      "num_tokens": 69976996.0,
      "step": 37915
    },
    {
      "entropy": 5.539672613143921,
      "epoch": 3.1857592942659103,
      "grad_norm": 0.96875,
      "learning_rate": 0.0003998152470241534,
      "loss": 5.0738,
      "mean_token_accuracy": 0.1931013733148575,
      "num_tokens": 69986337.0,
      "step": 37920
    },
    {
      "entropy": 5.42525086402893,
      "epoch": 3.1861793740810755,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003997903295671513,
      "loss": 4.9802,
      "mean_token_accuracy": 0.1996261715888977,
      "num_tokens": 69994980.0,
      "step": 37925
    },
    {
      "entropy": 5.35992751121521,
      "epoch": 3.1865994538962403,
      "grad_norm": 1.125,
      "learning_rate": 0.00039976540989955284,
      "loss": 4.9988,
      "mean_token_accuracy": 0.20013026446104049,
      "num_tokens": 70002842.0,
      "step": 37930
    },
    {
      "entropy": 5.35275411605835,
      "epoch": 3.187019533711405,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00039974048802179934,
      "loss": 4.9199,
      "mean_token_accuracy": 0.21143363416194916,
      "num_tokens": 70012148.0,
      "step": 37935
    },
    {
      "entropy": 5.469274187088013,
      "epoch": 3.18743961352657,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003997155639343323,
      "loss": 5.0756,
      "mean_token_accuracy": 0.1986454889178276,
      "num_tokens": 70021408.0,
      "step": 37940
    },
    {
      "entropy": 5.474008178710937,
      "epoch": 3.187859693341735,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003996906376375933,
      "loss": 4.9868,
      "mean_token_accuracy": 0.20342595130205154,
      "num_tokens": 70030484.0,
      "step": 37945
    },
    {
      "entropy": 5.369373321533203,
      "epoch": 3.1882797731569,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003996657091320239,
      "loss": 4.8972,
      "mean_token_accuracy": 0.2054077535867691,
      "num_tokens": 70039061.0,
      "step": 37950
    },
    {
      "entropy": 5.353460264205933,
      "epoch": 3.1886998529720647,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003996407784180656,
      "loss": 4.9716,
      "mean_token_accuracy": 0.20389628112316133,
      "num_tokens": 70048905.0,
      "step": 37955
    },
    {
      "entropy": 5.47247805595398,
      "epoch": 3.1891199327872295,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003996158454961601,
      "loss": 5.0562,
      "mean_token_accuracy": 0.19859642684459686,
      "num_tokens": 70057831.0,
      "step": 37960
    },
    {
      "entropy": 5.455327272415161,
      "epoch": 3.1895400126023943,
      "grad_norm": 1.1875,
      "learning_rate": 0.00039959091036674907,
      "loss": 5.0468,
      "mean_token_accuracy": 0.19777681529521943,
      "num_tokens": 70066799.0,
      "step": 37965
    },
    {
      "entropy": 5.390336227416992,
      "epoch": 3.1899600924175595,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00039956597303027414,
      "loss": 4.9306,
      "mean_token_accuracy": 0.20374771654605867,
      "num_tokens": 70075535.0,
      "step": 37970
    },
    {
      "entropy": 5.395354604721069,
      "epoch": 3.1903801722327243,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003995410334871773,
      "loss": 4.9283,
      "mean_token_accuracy": 0.21077781468629836,
      "num_tokens": 70083991.0,
      "step": 37975
    },
    {
      "entropy": 5.454667568206787,
      "epoch": 3.190800252047889,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00039951609173790003,
      "loss": 5.0624,
      "mean_token_accuracy": 0.1986052319407463,
      "num_tokens": 70093936.0,
      "step": 37980
    },
    {
      "entropy": 5.397274160385132,
      "epoch": 3.191220331863054,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003994911477828844,
      "loss": 4.9086,
      "mean_token_accuracy": 0.21685011237859725,
      "num_tokens": 70102501.0,
      "step": 37985
    },
    {
      "entropy": 5.4679731845855715,
      "epoch": 3.1916404116782187,
      "grad_norm": 1.0625,
      "learning_rate": 0.00039946620162257206,
      "loss": 5.0423,
      "mean_token_accuracy": 0.20021747648715973,
      "num_tokens": 70111074.0,
      "step": 37990
    },
    {
      "entropy": 5.465229558944702,
      "epoch": 3.192060491493384,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003994412532574053,
      "loss": 5.0225,
      "mean_token_accuracy": 0.20520105063915253,
      "num_tokens": 70120232.0,
      "step": 37995
    },
    {
      "entropy": 5.497832155227661,
      "epoch": 3.1924805713085487,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003994163026878256,
      "loss": 5.1004,
      "mean_token_accuracy": 0.19239026308059692,
      "num_tokens": 70129776.0,
      "step": 38000
    },
    {
      "entropy": 5.494420576095581,
      "epoch": 3.1929006511237135,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003993913499142752,
      "loss": 5.1207,
      "mean_token_accuracy": 0.19515856057405473,
      "num_tokens": 70139223.0,
      "step": 38005
    },
    {
      "entropy": 5.472791004180908,
      "epoch": 3.1933207309388782,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003993663949371962,
      "loss": 5.0072,
      "mean_token_accuracy": 0.2015344262123108,
      "num_tokens": 70148455.0,
      "step": 38010
    },
    {
      "entropy": 5.418723917007446,
      "epoch": 3.1937408107540435,
      "grad_norm": 1.046875,
      "learning_rate": 0.00039934143775703044,
      "loss": 4.9777,
      "mean_token_accuracy": 0.20343347936868666,
      "num_tokens": 70157924.0,
      "step": 38015
    },
    {
      "entropy": 5.470594644546509,
      "epoch": 3.1941608905692083,
      "grad_norm": 1.109375,
      "learning_rate": 0.00039931647837422016,
      "loss": 5.0729,
      "mean_token_accuracy": 0.20050048381090163,
      "num_tokens": 70167191.0,
      "step": 38020
    },
    {
      "entropy": 5.563162422180175,
      "epoch": 3.194580970384373,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003992915167892075,
      "loss": 5.1174,
      "mean_token_accuracy": 0.19889388382434844,
      "num_tokens": 70177426.0,
      "step": 38025
    },
    {
      "entropy": 5.512974500656128,
      "epoch": 3.195001050199538,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003992665530024346,
      "loss": 5.0577,
      "mean_token_accuracy": 0.19185696691274642,
      "num_tokens": 70186464.0,
      "step": 38030
    },
    {
      "entropy": 5.506241321563721,
      "epoch": 3.1954211300147026,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003992415870143437,
      "loss": 5.085,
      "mean_token_accuracy": 0.1837591201066971,
      "num_tokens": 70195528.0,
      "step": 38035
    },
    {
      "entropy": 5.627521896362305,
      "epoch": 3.195841209829868,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003992166188253771,
      "loss": 5.2529,
      "mean_token_accuracy": 0.18359163999557496,
      "num_tokens": 70206450.0,
      "step": 38040
    },
    {
      "entropy": 5.506794214248657,
      "epoch": 3.1962612896450326,
      "grad_norm": 1.109375,
      "learning_rate": 0.00039919164843597697,
      "loss": 5.0363,
      "mean_token_accuracy": 0.20015226900577546,
      "num_tokens": 70214729.0,
      "step": 38045
    },
    {
      "entropy": 5.4786333560943605,
      "epoch": 3.1966813694601974,
      "grad_norm": 1.109375,
      "learning_rate": 0.00039916667584658584,
      "loss": 5.0608,
      "mean_token_accuracy": 0.19533975571393966,
      "num_tokens": 70223473.0,
      "step": 38050
    },
    {
      "entropy": 5.392276668548584,
      "epoch": 3.197101449275362,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003991417010576459,
      "loss": 5.0054,
      "mean_token_accuracy": 0.2120511755347252,
      "num_tokens": 70232970.0,
      "step": 38055
    },
    {
      "entropy": 5.449040651321411,
      "epoch": 3.197521529090527,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003991167240695997,
      "loss": 5.0614,
      "mean_token_accuracy": 0.19526714086532593,
      "num_tokens": 70242734.0,
      "step": 38060
    },
    {
      "entropy": 5.424843883514404,
      "epoch": 3.1979416089056922,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003990917448828897,
      "loss": 5.0066,
      "mean_token_accuracy": 0.19849008470773696,
      "num_tokens": 70251606.0,
      "step": 38065
    },
    {
      "entropy": 5.500693225860596,
      "epoch": 3.198361688720857,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00039906676349795817,
      "loss": 4.9835,
      "mean_token_accuracy": 0.19965775460004806,
      "num_tokens": 70260228.0,
      "step": 38070
    },
    {
      "entropy": 5.42435131072998,
      "epoch": 3.198781768536022,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000399041779915248,
      "loss": 5.0958,
      "mean_token_accuracy": 0.19738757163286208,
      "num_tokens": 70268819.0,
      "step": 38075
    },
    {
      "entropy": 5.498068857192993,
      "epoch": 3.1992018483511866,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003990167941352014,
      "loss": 5.1881,
      "mean_token_accuracy": 0.18526765406131745,
      "num_tokens": 70278081.0,
      "step": 38080
    },
    {
      "entropy": 5.510485744476318,
      "epoch": 3.1996219281663514,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003989918061582613,
      "loss": 4.9906,
      "mean_token_accuracy": 0.2001370906829834,
      "num_tokens": 70287128.0,
      "step": 38085
    },
    {
      "entropy": 5.451419544219971,
      "epoch": 3.2000420079815166,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003989668159848701,
      "loss": 4.9795,
      "mean_token_accuracy": 0.1967062085866928,
      "num_tokens": 70296163.0,
      "step": 38090
    },
    {
      "entropy": 5.385620784759522,
      "epoch": 3.2004620877966814,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003989418236154707,
      "loss": 5.0093,
      "mean_token_accuracy": 0.19855705350637437,
      "num_tokens": 70305084.0,
      "step": 38095
    },
    {
      "entropy": 5.418306112289429,
      "epoch": 3.200882167611846,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003989168290505056,
      "loss": 4.9722,
      "mean_token_accuracy": 0.2017034724354744,
      "num_tokens": 70314634.0,
      "step": 38100
    },
    {
      "entropy": 5.4694016456604,
      "epoch": 3.201302247427011,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003988918322904177,
      "loss": 5.0202,
      "mean_token_accuracy": 0.20235758423805236,
      "num_tokens": 70324377.0,
      "step": 38105
    },
    {
      "entropy": 5.465602064132691,
      "epoch": 3.201722327242176,
      "grad_norm": 1.109375,
      "learning_rate": 0.00039886683333564983,
      "loss": 5.0036,
      "mean_token_accuracy": 0.20369037091732026,
      "num_tokens": 70333146.0,
      "step": 38110
    },
    {
      "entropy": 5.495989894866943,
      "epoch": 3.202142407057341,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003988418321866447,
      "loss": 5.0991,
      "mean_token_accuracy": 0.1942055657505989,
      "num_tokens": 70342896.0,
      "step": 38115
    },
    {
      "entropy": 5.397829580307007,
      "epoch": 3.2025624868725058,
      "grad_norm": 1.09375,
      "learning_rate": 0.00039881682884384536,
      "loss": 4.998,
      "mean_token_accuracy": 0.2018218919634819,
      "num_tokens": 70351993.0,
      "step": 38120
    },
    {
      "entropy": 5.487616395950317,
      "epoch": 3.2029825666876706,
      "grad_norm": 1.046875,
      "learning_rate": 0.00039879182330769465,
      "loss": 5.0506,
      "mean_token_accuracy": 0.19712638705968857,
      "num_tokens": 70362009.0,
      "step": 38125
    },
    {
      "entropy": 5.475993013381958,
      "epoch": 3.2034026465028353,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003987668155786355,
      "loss": 5.051,
      "mean_token_accuracy": 0.20201289057731628,
      "num_tokens": 70370724.0,
      "step": 38130
    },
    {
      "entropy": 5.387209177017212,
      "epoch": 3.2038227263180006,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00039874180565711094,
      "loss": 4.8942,
      "mean_token_accuracy": 0.21368774473667146,
      "num_tokens": 70379789.0,
      "step": 38135
    },
    {
      "entropy": 5.3684569835662845,
      "epoch": 3.2042428061331654,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00039871679354356405,
      "loss": 4.9423,
      "mean_token_accuracy": 0.20031996369361876,
      "num_tokens": 70388481.0,
      "step": 38140
    },
    {
      "entropy": 5.411509561538696,
      "epoch": 3.20466288594833,
      "grad_norm": 1.03125,
      "learning_rate": 0.00039869177923843784,
      "loss": 4.9755,
      "mean_token_accuracy": 0.2028844714164734,
      "num_tokens": 70397199.0,
      "step": 38145
    },
    {
      "entropy": 5.459854650497436,
      "epoch": 3.205082965763495,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003986667627421755,
      "loss": 4.953,
      "mean_token_accuracy": 0.2090589389204979,
      "num_tokens": 70406484.0,
      "step": 38150
    },
    {
      "entropy": 5.397031259536743,
      "epoch": 3.20550304557866,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003986417440552201,
      "loss": 5.0054,
      "mean_token_accuracy": 0.20412737131118774,
      "num_tokens": 70415023.0,
      "step": 38155
    },
    {
      "entropy": 5.408675575256348,
      "epoch": 3.205923125393825,
      "grad_norm": 1.203125,
      "learning_rate": 0.00039861672317801483,
      "loss": 4.9503,
      "mean_token_accuracy": 0.19749963879585267,
      "num_tokens": 70424882.0,
      "step": 38160
    },
    {
      "entropy": 5.534778070449829,
      "epoch": 3.2063432052089897,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000398591700111003,
      "loss": 5.1304,
      "mean_token_accuracy": 0.19425199031829835,
      "num_tokens": 70434024.0,
      "step": 38165
    },
    {
      "entropy": 5.488597679138183,
      "epoch": 3.2067632850241545,
      "grad_norm": 1.09375,
      "learning_rate": 0.00039856667485462785,
      "loss": 5.0129,
      "mean_token_accuracy": 0.20458656549453735,
      "num_tokens": 70442976.0,
      "step": 38170
    },
    {
      "entropy": 5.492371368408203,
      "epoch": 3.2071833648393193,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00039854164740933266,
      "loss": 5.0753,
      "mean_token_accuracy": 0.19784610271453856,
      "num_tokens": 70452820.0,
      "step": 38175
    },
    {
      "entropy": 5.337765741348266,
      "epoch": 3.2076034446544845,
      "grad_norm": 1.0625,
      "learning_rate": 0.00039851661777556087,
      "loss": 4.8665,
      "mean_token_accuracy": 0.21184876263141633,
      "num_tokens": 70460547.0,
      "step": 38180
    },
    {
      "entropy": 5.477932929992676,
      "epoch": 3.2080235244696493,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00039849158595375573,
      "loss": 5.052,
      "mean_token_accuracy": 0.19272105097770692,
      "num_tokens": 70469550.0,
      "step": 38185
    },
    {
      "entropy": 5.437862491607666,
      "epoch": 3.208443604284814,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003984665519443607,
      "loss": 4.9648,
      "mean_token_accuracy": 0.208087195456028,
      "num_tokens": 70478239.0,
      "step": 38190
    },
    {
      "entropy": 5.441293048858642,
      "epoch": 3.208863684099979,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00039844151574781937,
      "loss": 5.0317,
      "mean_token_accuracy": 0.19709651917219162,
      "num_tokens": 70487712.0,
      "step": 38195
    },
    {
      "entropy": 5.489355611801147,
      "epoch": 3.2092837639151437,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00039841647736457513,
      "loss": 5.0684,
      "mean_token_accuracy": 0.19870143234729767,
      "num_tokens": 70497118.0,
      "step": 38200
    },
    {
      "entropy": 5.396946763992309,
      "epoch": 3.209703843730309,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003983914367950715,
      "loss": 4.9226,
      "mean_token_accuracy": 0.20172645449638366,
      "num_tokens": 70505501.0,
      "step": 38205
    },
    {
      "entropy": 5.472188711166382,
      "epoch": 3.2101239235454737,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00039836639403975215,
      "loss": 5.0566,
      "mean_token_accuracy": 0.19529666006565094,
      "num_tokens": 70515729.0,
      "step": 38210
    },
    {
      "entropy": 5.425840711593628,
      "epoch": 3.2105440033606385,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00039834134909906067,
      "loss": 5.0054,
      "mean_token_accuracy": 0.2052968293428421,
      "num_tokens": 70525591.0,
      "step": 38215
    },
    {
      "entropy": 5.52920708656311,
      "epoch": 3.2109640831758033,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003983163019734406,
      "loss": 5.0618,
      "mean_token_accuracy": 0.19707242250442505,
      "num_tokens": 70534808.0,
      "step": 38220
    },
    {
      "entropy": 5.52397723197937,
      "epoch": 3.211384162990968,
      "grad_norm": 1.078125,
      "learning_rate": 0.00039829125266333584,
      "loss": 5.0646,
      "mean_token_accuracy": 0.1967554584145546,
      "num_tokens": 70543804.0,
      "step": 38225
    },
    {
      "entropy": 5.399419546127319,
      "epoch": 3.2118042428061333,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00039826620116918996,
      "loss": 5.0264,
      "mean_token_accuracy": 0.20804573297500611,
      "num_tokens": 70553555.0,
      "step": 38230
    },
    {
      "entropy": 5.45509934425354,
      "epoch": 3.212224322621298,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003982411474914468,
      "loss": 5.0836,
      "mean_token_accuracy": 0.19739553034305574,
      "num_tokens": 70562207.0,
      "step": 38235
    },
    {
      "entropy": 5.456160402297973,
      "epoch": 3.212644402436463,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0003982160916305502,
      "loss": 5.0883,
      "mean_token_accuracy": 0.18944403678178787,
      "num_tokens": 70572016.0,
      "step": 38240
    },
    {
      "entropy": 5.539586353302002,
      "epoch": 3.2130644822516277,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00039819103358694404,
      "loss": 5.0791,
      "mean_token_accuracy": 0.19510507881641387,
      "num_tokens": 70581842.0,
      "step": 38245
    },
    {
      "entropy": 5.37715973854065,
      "epoch": 3.213484562066793,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003981659733610721,
      "loss": 4.9741,
      "mean_token_accuracy": 0.20196669101715087,
      "num_tokens": 70590834.0,
      "step": 38250
    },
    {
      "entropy": 5.449229717254639,
      "epoch": 3.2139046418819577,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003981409109533783,
      "loss": 5.0696,
      "mean_token_accuracy": 0.19637497067451476,
      "num_tokens": 70599739.0,
      "step": 38255
    },
    {
      "entropy": 5.458176755905152,
      "epoch": 3.2143247216971225,
      "grad_norm": 1.03125,
      "learning_rate": 0.00039811584636430676,
      "loss": 5.0616,
      "mean_token_accuracy": 0.1950258195400238,
      "num_tokens": 70608995.0,
      "step": 38260
    },
    {
      "entropy": 5.5138020515441895,
      "epoch": 3.2147448015122873,
      "grad_norm": 1.15625,
      "learning_rate": 0.00039809077959430136,
      "loss": 5.0457,
      "mean_token_accuracy": 0.1988901436328888,
      "num_tokens": 70617598.0,
      "step": 38265
    },
    {
      "entropy": 5.4833508968353275,
      "epoch": 3.215164881327452,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003980657106438062,
      "loss": 5.0639,
      "mean_token_accuracy": 0.19712411165237426,
      "num_tokens": 70627590.0,
      "step": 38270
    },
    {
      "entropy": 5.495062065124512,
      "epoch": 3.2155849611426173,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003980406395132653,
      "loss": 5.0969,
      "mean_token_accuracy": 0.1947512537240982,
      "num_tokens": 70637216.0,
      "step": 38275
    },
    {
      "entropy": 5.523971748352051,
      "epoch": 3.216005040957782,
      "grad_norm": 1.0625,
      "learning_rate": 0.00039801556620312284,
      "loss": 5.0352,
      "mean_token_accuracy": 0.20067302882671356,
      "num_tokens": 70646330.0,
      "step": 38280
    },
    {
      "entropy": 5.533733892440796,
      "epoch": 3.216425120772947,
      "grad_norm": 1.09375,
      "learning_rate": 0.00039799049071382296,
      "loss": 5.0685,
      "mean_token_accuracy": 0.19276324957609176,
      "num_tokens": 70655568.0,
      "step": 38285
    },
    {
      "entropy": 5.425409412384033,
      "epoch": 3.2168452005881116,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0003979654130458099,
      "loss": 4.9953,
      "mean_token_accuracy": 0.20177243798971176,
      "num_tokens": 70664393.0,
      "step": 38290
    },
    {
      "entropy": 5.378610467910766,
      "epoch": 3.2172652804032764,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003979403331995279,
      "loss": 4.9724,
      "mean_token_accuracy": 0.2040316492319107,
      "num_tokens": 70672613.0,
      "step": 38295
    },
    {
      "entropy": 5.476820468902588,
      "epoch": 3.2176853602184416,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00039791525117542116,
      "loss": 5.1122,
      "mean_token_accuracy": 0.2043856844305992,
      "num_tokens": 70681695.0,
      "step": 38300
    },
    {
      "entropy": 5.4497569561004635,
      "epoch": 3.2181054400336064,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00039789016697393406,
      "loss": 5.0155,
      "mean_token_accuracy": 0.2014498621225357,
      "num_tokens": 70690871.0,
      "step": 38305
    },
    {
      "entropy": 5.438440656661987,
      "epoch": 3.218525519848771,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003978650805955109,
      "loss": 5.0303,
      "mean_token_accuracy": 0.19309404790401458,
      "num_tokens": 70699908.0,
      "step": 38310
    },
    {
      "entropy": 5.452841758728027,
      "epoch": 3.218945599663936,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00039783999204059614,
      "loss": 5.0181,
      "mean_token_accuracy": 0.2086564928293228,
      "num_tokens": 70709247.0,
      "step": 38315
    },
    {
      "entropy": 5.539927959442139,
      "epoch": 3.2193656794791012,
      "grad_norm": 1.109375,
      "learning_rate": 0.00039781490130963416,
      "loss": 5.1001,
      "mean_token_accuracy": 0.19491118043661118,
      "num_tokens": 70718304.0,
      "step": 38320
    },
    {
      "entropy": 5.5272839069366455,
      "epoch": 3.219785759294266,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003977898084030693,
      "loss": 5.1197,
      "mean_token_accuracy": 0.19272520393133163,
      "num_tokens": 70727424.0,
      "step": 38325
    },
    {
      "entropy": 5.577329778671265,
      "epoch": 3.220205839109431,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00039776471332134643,
      "loss": 5.0971,
      "mean_token_accuracy": 0.19392022490501404,
      "num_tokens": 70736779.0,
      "step": 38330
    },
    {
      "entropy": 5.421397972106933,
      "epoch": 3.2206259189245956,
      "grad_norm": 1.296875,
      "learning_rate": 0.00039773961606490984,
      "loss": 5.0385,
      "mean_token_accuracy": 0.19777588844299315,
      "num_tokens": 70745907.0,
      "step": 38335
    },
    {
      "entropy": 5.360295915603638,
      "epoch": 3.2210459987397604,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003977145166342041,
      "loss": 4.9404,
      "mean_token_accuracy": 0.20497331619262696,
      "num_tokens": 70754775.0,
      "step": 38340
    },
    {
      "entropy": 5.477067470550537,
      "epoch": 3.2214660785549256,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00039768941502967383,
      "loss": 5.0674,
      "mean_token_accuracy": 0.19632346481084822,
      "num_tokens": 70763544.0,
      "step": 38345
    },
    {
      "entropy": 5.404462814331055,
      "epoch": 3.2218861583700904,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00039766431125176383,
      "loss": 4.9826,
      "mean_token_accuracy": 0.20352896004915239,
      "num_tokens": 70772243.0,
      "step": 38350
    },
    {
      "entropy": 5.471671152114868,
      "epoch": 3.222306238185255,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00039763920530091866,
      "loss": 5.0133,
      "mean_token_accuracy": 0.19662639647722244,
      "num_tokens": 70781239.0,
      "step": 38355
    },
    {
      "entropy": 5.413935708999634,
      "epoch": 3.22272631800042,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00039761409717758316,
      "loss": 5.0256,
      "mean_token_accuracy": 0.2063068613409996,
      "num_tokens": 70790496.0,
      "step": 38360
    },
    {
      "entropy": 5.54300742149353,
      "epoch": 3.2231463978155848,
      "grad_norm": 1.03125,
      "learning_rate": 0.00039758898688220214,
      "loss": 5.1672,
      "mean_token_accuracy": 0.18218206614255905,
      "num_tokens": 70800705.0,
      "step": 38365
    },
    {
      "entropy": 5.54991979598999,
      "epoch": 3.22356647763075,
      "grad_norm": 1.125,
      "learning_rate": 0.0003975638744152202,
      "loss": 4.9819,
      "mean_token_accuracy": 0.20866531729698182,
      "num_tokens": 70809347.0,
      "step": 38370
    },
    {
      "entropy": 5.467056131362915,
      "epoch": 3.223986557445915,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003975387597770824,
      "loss": 5.0419,
      "mean_token_accuracy": 0.2055058151483536,
      "num_tokens": 70817720.0,
      "step": 38375
    },
    {
      "entropy": 5.458549165725708,
      "epoch": 3.2244066372610796,
      "grad_norm": 1.125,
      "learning_rate": 0.0003975136429682336,
      "loss": 5.0755,
      "mean_token_accuracy": 0.1971839800477028,
      "num_tokens": 70826871.0,
      "step": 38380
    },
    {
      "entropy": 5.4683879852294925,
      "epoch": 3.2248267170762444,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003974885239891187,
      "loss": 5.0822,
      "mean_token_accuracy": 0.1998901441693306,
      "num_tokens": 70835884.0,
      "step": 38385
    },
    {
      "entropy": 5.429448413848877,
      "epoch": 3.225246796891409,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00039746340284018257,
      "loss": 5.0015,
      "mean_token_accuracy": 0.1958163484930992,
      "num_tokens": 70844637.0,
      "step": 38390
    },
    {
      "entropy": 5.587738513946533,
      "epoch": 3.2256668767065744,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003974382795218704,
      "loss": 5.0889,
      "mean_token_accuracy": 0.1941320478916168,
      "num_tokens": 70853864.0,
      "step": 38395
    },
    {
      "entropy": 5.516822052001953,
      "epoch": 3.226086956521739,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003974131540346271,
      "loss": 5.101,
      "mean_token_accuracy": 0.19756476879119872,
      "num_tokens": 70862380.0,
      "step": 38400
    },
    {
      "entropy": 5.515109014511109,
      "epoch": 3.226507036336904,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003973880263788979,
      "loss": 5.1265,
      "mean_token_accuracy": 0.1957549661397934,
      "num_tokens": 70871553.0,
      "step": 38405
    },
    {
      "entropy": 5.517725086212158,
      "epoch": 3.2269271161520687,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003973628965551278,
      "loss": 5.1706,
      "mean_token_accuracy": 0.19123939126729966,
      "num_tokens": 70881195.0,
      "step": 38410
    },
    {
      "entropy": 5.534239053726196,
      "epoch": 3.227347195967234,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00039733776456376196,
      "loss": 5.0362,
      "mean_token_accuracy": 0.2033828988671303,
      "num_tokens": 70890968.0,
      "step": 38415
    },
    {
      "entropy": 5.461444759368897,
      "epoch": 3.2277672757823987,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003973126304052456,
      "loss": 4.9603,
      "mean_token_accuracy": 0.2052571401000023,
      "num_tokens": 70900335.0,
      "step": 38420
    },
    {
      "entropy": 5.489825630187989,
      "epoch": 3.2281873555975635,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003972874940800241,
      "loss": 5.0579,
      "mean_token_accuracy": 0.20117684006690978,
      "num_tokens": 70909718.0,
      "step": 38425
    },
    {
      "entropy": 5.419006776809693,
      "epoch": 3.2286074354127283,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003972623555885424,
      "loss": 4.9674,
      "mean_token_accuracy": 0.2101605460047722,
      "num_tokens": 70919188.0,
      "step": 38430
    },
    {
      "entropy": 5.476353311538697,
      "epoch": 3.229027515227893,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003972372149312462,
      "loss": 5.1126,
      "mean_token_accuracy": 0.18751921355724335,
      "num_tokens": 70928246.0,
      "step": 38435
    },
    {
      "entropy": 5.519124746322632,
      "epoch": 3.2294475950430583,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00039721207210858064,
      "loss": 5.0364,
      "mean_token_accuracy": 0.20115727484226226,
      "num_tokens": 70936086.0,
      "step": 38440
    },
    {
      "entropy": 5.507372283935547,
      "epoch": 3.229867674858223,
      "grad_norm": 1.03125,
      "learning_rate": 0.00039718692712099115,
      "loss": 5.0863,
      "mean_token_accuracy": 0.1942703455686569,
      "num_tokens": 70945408.0,
      "step": 38445
    },
    {
      "entropy": 5.486564445495605,
      "epoch": 3.230287754673388,
      "grad_norm": 1.140625,
      "learning_rate": 0.00039716177996892315,
      "loss": 5.0573,
      "mean_token_accuracy": 0.1931709662079811,
      "num_tokens": 70954678.0,
      "step": 38450
    },
    {
      "entropy": 5.547465467453003,
      "epoch": 3.2307078344885527,
      "grad_norm": 1.015625,
      "learning_rate": 0.00039713663065282215,
      "loss": 5.0579,
      "mean_token_accuracy": 0.19811778515577316,
      "num_tokens": 70964645.0,
      "step": 38455
    },
    {
      "entropy": 5.421202802658081,
      "epoch": 3.231127914303718,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003971114791731336,
      "loss": 4.956,
      "mean_token_accuracy": 0.20311288982629777,
      "num_tokens": 70973889.0,
      "step": 38460
    },
    {
      "entropy": 5.482452869415283,
      "epoch": 3.2315479941188827,
      "grad_norm": 1.21875,
      "learning_rate": 0.000397086325530303,
      "loss": 5.0341,
      "mean_token_accuracy": 0.19853378534317018,
      "num_tokens": 70982414.0,
      "step": 38465
    },
    {
      "entropy": 5.446375846862793,
      "epoch": 3.2319680739340475,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003970611697247761,
      "loss": 5.0507,
      "mean_token_accuracy": 0.20212431699037553,
      "num_tokens": 70992332.0,
      "step": 38470
    },
    {
      "entropy": 5.373746299743653,
      "epoch": 3.2323881537492123,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003970360117569984,
      "loss": 4.9324,
      "mean_token_accuracy": 0.21162808537483216,
      "num_tokens": 71000690.0,
      "step": 38475
    },
    {
      "entropy": 5.507378721237183,
      "epoch": 3.232808233564377,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003970108516274156,
      "loss": 5.0733,
      "mean_token_accuracy": 0.20191896110773086,
      "num_tokens": 71009872.0,
      "step": 38480
    },
    {
      "entropy": 5.545585012435913,
      "epoch": 3.2332283133795423,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003969856893364734,
      "loss": 5.0451,
      "mean_token_accuracy": 0.19898683577775955,
      "num_tokens": 71018607.0,
      "step": 38485
    },
    {
      "entropy": 5.445145177841186,
      "epoch": 3.233648393194707,
      "grad_norm": 1.109375,
      "learning_rate": 0.00039696052488461756,
      "loss": 5.0861,
      "mean_token_accuracy": 0.19712474346160888,
      "num_tokens": 71028092.0,
      "step": 38490
    },
    {
      "entropy": 5.523622846603393,
      "epoch": 3.234068473009872,
      "grad_norm": 1.015625,
      "learning_rate": 0.00039693535827229384,
      "loss": 5.1749,
      "mean_token_accuracy": 0.18967490941286086,
      "num_tokens": 71038576.0,
      "step": 38495
    },
    {
      "entropy": 5.416123867034912,
      "epoch": 3.2344885528250367,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00039691018949994795,
      "loss": 4.9406,
      "mean_token_accuracy": 0.20399712026119232,
      "num_tokens": 71048358.0,
      "step": 38500
    },
    {
      "entropy": 5.460847520828247,
      "epoch": 3.2349086326402015,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00039688501856802584,
      "loss": 4.9379,
      "mean_token_accuracy": 0.2067188709974289,
      "num_tokens": 71056869.0,
      "step": 38505
    },
    {
      "entropy": 5.555291700363159,
      "epoch": 3.2353287124553667,
      "grad_norm": 1.15625,
      "learning_rate": 0.00039685984547697343,
      "loss": 5.1817,
      "mean_token_accuracy": 0.17937737852334976,
      "num_tokens": 71067036.0,
      "step": 38510
    },
    {
      "entropy": 5.4427262306213375,
      "epoch": 3.2357487922705315,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003968346702272365,
      "loss": 5.0334,
      "mean_token_accuracy": 0.1972288131713867,
      "num_tokens": 71076160.0,
      "step": 38515
    },
    {
      "entropy": 5.51593427658081,
      "epoch": 3.2361688720856963,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003968094928192613,
      "loss": 5.0232,
      "mean_token_accuracy": 0.19836872518062593,
      "num_tokens": 71085074.0,
      "step": 38520
    },
    {
      "entropy": 5.508139133453369,
      "epoch": 3.236588951900861,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003967843132534935,
      "loss": 5.0408,
      "mean_token_accuracy": 0.20269520282745362,
      "num_tokens": 71095472.0,
      "step": 38525
    },
    {
      "entropy": 5.567239141464233,
      "epoch": 3.237009031716026,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003967591315303793,
      "loss": 5.1741,
      "mean_token_accuracy": 0.18870913684368135,
      "num_tokens": 71105483.0,
      "step": 38530
    },
    {
      "entropy": 5.468841981887818,
      "epoch": 3.237429111531191,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00039673394765036483,
      "loss": 5.0376,
      "mean_token_accuracy": 0.20532973855733871,
      "num_tokens": 71114821.0,
      "step": 38535
    },
    {
      "entropy": 5.407966136932373,
      "epoch": 3.237849191346356,
      "grad_norm": 1.171875,
      "learning_rate": 0.00039670876161389626,
      "loss": 4.9386,
      "mean_token_accuracy": 0.20577010810375213,
      "num_tokens": 71124283.0,
      "step": 38540
    },
    {
      "entropy": 5.477292537689209,
      "epoch": 3.2382692711615206,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00039668357342141956,
      "loss": 5.0529,
      "mean_token_accuracy": 0.19461095035076142,
      "num_tokens": 71133499.0,
      "step": 38545
    },
    {
      "entropy": 5.570844221115112,
      "epoch": 3.2386893509766854,
      "grad_norm": 1.0625,
      "learning_rate": 0.000396658383073381,
      "loss": 5.1328,
      "mean_token_accuracy": 0.1889559119939804,
      "num_tokens": 71142912.0,
      "step": 38550
    },
    {
      "entropy": 5.48607497215271,
      "epoch": 3.2391094307918507,
      "grad_norm": 1.046875,
      "learning_rate": 0.00039663319057022683,
      "loss": 5.0909,
      "mean_token_accuracy": 0.1992171511054039,
      "num_tokens": 71152215.0,
      "step": 38555
    },
    {
      "entropy": 5.390863037109375,
      "epoch": 3.2395295106070154,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003966079959124034,
      "loss": 4.9752,
      "mean_token_accuracy": 0.20873650014400483,
      "num_tokens": 71161411.0,
      "step": 38560
    },
    {
      "entropy": 5.457317066192627,
      "epoch": 3.2399495904221802,
      "grad_norm": 1.046875,
      "learning_rate": 0.00039658279910035683,
      "loss": 5.0399,
      "mean_token_accuracy": 0.20209368765354158,
      "num_tokens": 71169869.0,
      "step": 38565
    },
    {
      "entropy": 5.501398658752441,
      "epoch": 3.240369670237345,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003965576001345336,
      "loss": 5.0091,
      "mean_token_accuracy": 0.19604412764310836,
      "num_tokens": 71179282.0,
      "step": 38570
    },
    {
      "entropy": 5.476651954650879,
      "epoch": 3.24078975005251,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00039653239901538015,
      "loss": 5.0665,
      "mean_token_accuracy": 0.19993097633123397,
      "num_tokens": 71188089.0,
      "step": 38575
    },
    {
      "entropy": 5.480253076553344,
      "epoch": 3.241209829867675,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003965071957433428,
      "loss": 5.0019,
      "mean_token_accuracy": 0.20413262844085694,
      "num_tokens": 71196846.0,
      "step": 38580
    },
    {
      "entropy": 5.428996658325195,
      "epoch": 3.24162990968284,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000396481990318868,
      "loss": 4.9699,
      "mean_token_accuracy": 0.20008669495582582,
      "num_tokens": 71205546.0,
      "step": 38585
    },
    {
      "entropy": 5.489032983779907,
      "epoch": 3.2420499894980046,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003964567827424023,
      "loss": 5.0707,
      "mean_token_accuracy": 0.18786496073007583,
      "num_tokens": 71214112.0,
      "step": 38590
    },
    {
      "entropy": 5.51758770942688,
      "epoch": 3.2424700693131694,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003964315730143922,
      "loss": 5.062,
      "mean_token_accuracy": 0.19602219760417938,
      "num_tokens": 71223111.0,
      "step": 38595
    },
    {
      "entropy": 5.477372407913208,
      "epoch": 3.242890149128334,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003964063611352844,
      "loss": 5.1229,
      "mean_token_accuracy": 0.19094838798046113,
      "num_tokens": 71232696.0,
      "step": 38600
    },
    {
      "entropy": 5.514743375778198,
      "epoch": 3.2433102289434994,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003963811471055254,
      "loss": 5.0892,
      "mean_token_accuracy": 0.1999577611684799,
      "num_tokens": 71242850.0,
      "step": 38605
    },
    {
      "entropy": 5.463720798492432,
      "epoch": 3.243730308758664,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003963559309255619,
      "loss": 4.9441,
      "mean_token_accuracy": 0.20783167481422424,
      "num_tokens": 71251475.0,
      "step": 38610
    },
    {
      "entropy": 5.362878656387329,
      "epoch": 3.244150388573829,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00039633071259584054,
      "loss": 4.9526,
      "mean_token_accuracy": 0.19633639603853226,
      "num_tokens": 71260206.0,
      "step": 38615
    },
    {
      "entropy": 5.403380441665649,
      "epoch": 3.2445704683889938,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003963054921168081,
      "loss": 5.0763,
      "mean_token_accuracy": 0.19751823097467422,
      "num_tokens": 71268755.0,
      "step": 38620
    },
    {
      "entropy": 5.406933879852295,
      "epoch": 3.244990548204159,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003962802694889114,
      "loss": 4.9586,
      "mean_token_accuracy": 0.20227221846580506,
      "num_tokens": 71279530.0,
      "step": 38625
    },
    {
      "entropy": 5.513580560684204,
      "epoch": 3.245410628019324,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00039625504471259705,
      "loss": 5.0184,
      "mean_token_accuracy": 0.1931679368019104,
      "num_tokens": 71288101.0,
      "step": 38630
    },
    {
      "entropy": 5.4115385055542,
      "epoch": 3.2458307078344886,
      "grad_norm": 1.140625,
      "learning_rate": 0.00039622981778831206,
      "loss": 5.0677,
      "mean_token_accuracy": 0.19942721724510193,
      "num_tokens": 71297213.0,
      "step": 38635
    },
    {
      "entropy": 5.402326440811157,
      "epoch": 3.2462507876496534,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00039620458871650327,
      "loss": 4.9937,
      "mean_token_accuracy": 0.20248122811317443,
      "num_tokens": 71306502.0,
      "step": 38640
    },
    {
      "entropy": 5.440655660629273,
      "epoch": 3.246670867464818,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00039617935749761764,
      "loss": 5.04,
      "mean_token_accuracy": 0.19904790073633194,
      "num_tokens": 71315190.0,
      "step": 38645
    },
    {
      "entropy": 5.438282537460327,
      "epoch": 3.2470909472799834,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0003961541241321021,
      "loss": 4.9441,
      "mean_token_accuracy": 0.20155466049909593,
      "num_tokens": 71325132.0,
      "step": 38650
    },
    {
      "entropy": 5.44139986038208,
      "epoch": 3.247511027095148,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00039612888862040354,
      "loss": 5.0326,
      "mean_token_accuracy": 0.19212429076433182,
      "num_tokens": 71334346.0,
      "step": 38655
    },
    {
      "entropy": 5.537966680526734,
      "epoch": 3.247931106910313,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00039610365096296916,
      "loss": 5.0752,
      "mean_token_accuracy": 0.19618357121944427,
      "num_tokens": 71343456.0,
      "step": 38660
    },
    {
      "entropy": 5.63804440498352,
      "epoch": 3.2483511867254777,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003960784111602459,
      "loss": 5.2002,
      "mean_token_accuracy": 0.18793464154005052,
      "num_tokens": 71353164.0,
      "step": 38665
    },
    {
      "entropy": 5.411434030532837,
      "epoch": 3.2487712665406425,
      "grad_norm": 1.0390625,
      "learning_rate": 0.000396053169212681,
      "loss": 4.967,
      "mean_token_accuracy": 0.20716451108455658,
      "num_tokens": 71362601.0,
      "step": 38670
    },
    {
      "entropy": 5.411359596252441,
      "epoch": 3.2491913463558078,
      "grad_norm": 1.0625,
      "learning_rate": 0.00039602792512072153,
      "loss": 5.0552,
      "mean_token_accuracy": 0.1916898876428604,
      "num_tokens": 71372782.0,
      "step": 38675
    },
    {
      "entropy": 5.468555021286011,
      "epoch": 3.2496114261709725,
      "grad_norm": 1.109375,
      "learning_rate": 0.00039600267888481475,
      "loss": 5.0615,
      "mean_token_accuracy": 0.20386357456445695,
      "num_tokens": 71382139.0,
      "step": 38680
    },
    {
      "entropy": 5.489431142807007,
      "epoch": 3.2500315059861373,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003959774305054077,
      "loss": 5.0475,
      "mean_token_accuracy": 0.20170669853687287,
      "num_tokens": 71391503.0,
      "step": 38685
    },
    {
      "entropy": 5.415591859817505,
      "epoch": 3.250451585801302,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003959521799829478,
      "loss": 4.8869,
      "mean_token_accuracy": 0.2066614121198654,
      "num_tokens": 71399730.0,
      "step": 38690
    },
    {
      "entropy": 5.373458671569824,
      "epoch": 3.250871665616467,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003959269273178823,
      "loss": 5.0502,
      "mean_token_accuracy": 0.1958072930574417,
      "num_tokens": 71409540.0,
      "step": 38695
    },
    {
      "entropy": 5.508123874664307,
      "epoch": 3.251291745431632,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003959016725106587,
      "loss": 5.1456,
      "mean_token_accuracy": 0.19175198674201965,
      "num_tokens": 71418844.0,
      "step": 38700
    },
    {
      "entropy": 5.427259922027588,
      "epoch": 3.251711825246797,
      "grad_norm": 1.03125,
      "learning_rate": 0.00039587641556172406,
      "loss": 5.0914,
      "mean_token_accuracy": 0.2029981344938278,
      "num_tokens": 71429662.0,
      "step": 38705
    },
    {
      "entropy": 5.5217719078063965,
      "epoch": 3.2521319050619617,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00039585115647152596,
      "loss": 5.1759,
      "mean_token_accuracy": 0.18642050623893738,
      "num_tokens": 71439828.0,
      "step": 38710
    },
    {
      "entropy": 5.594878149032593,
      "epoch": 3.2525519848771265,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003958258952405119,
      "loss": 5.1835,
      "mean_token_accuracy": 0.19510931372642518,
      "num_tokens": 71449303.0,
      "step": 38715
    },
    {
      "entropy": 5.552255916595459,
      "epoch": 3.2529720646922917,
      "grad_norm": 1.125,
      "learning_rate": 0.00039580063186912936,
      "loss": 5.0781,
      "mean_token_accuracy": 0.19411520957946776,
      "num_tokens": 71459401.0,
      "step": 38720
    },
    {
      "entropy": 5.493060970306397,
      "epoch": 3.2533921445074565,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003957753663578258,
      "loss": 5.1297,
      "mean_token_accuracy": 0.19033108353614808,
      "num_tokens": 71468138.0,
      "step": 38725
    },
    {
      "entropy": 5.476982831954956,
      "epoch": 3.2538122243226213,
      "grad_norm": 1.0625,
      "learning_rate": 0.00039575009870704877,
      "loss": 5.0599,
      "mean_token_accuracy": 0.19668983966112136,
      "num_tokens": 71478830.0,
      "step": 38730
    },
    {
      "entropy": 5.470194530487061,
      "epoch": 3.254232304137786,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000395724828917246,
      "loss": 5.0031,
      "mean_token_accuracy": 0.20401521027088165,
      "num_tokens": 71487580.0,
      "step": 38735
    },
    {
      "entropy": 5.522530603408813,
      "epoch": 3.254652383952951,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000395699556988865,
      "loss": 5.2136,
      "mean_token_accuracy": 0.19076721370220184,
      "num_tokens": 71497156.0,
      "step": 38740
    },
    {
      "entropy": 5.443408632278443,
      "epoch": 3.255072463768116,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00039567428292235345,
      "loss": 5.0555,
      "mean_token_accuracy": 0.19114759117364882,
      "num_tokens": 71506621.0,
      "step": 38745
    },
    {
      "entropy": 5.541314268112183,
      "epoch": 3.255492543583281,
      "grad_norm": 1.0625,
      "learning_rate": 0.00039564900671815916,
      "loss": 5.1542,
      "mean_token_accuracy": 0.18620955795049668,
      "num_tokens": 71516055.0,
      "step": 38750
    },
    {
      "entropy": 5.533073282241821,
      "epoch": 3.2559126233984457,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003956237283767298,
      "loss": 4.9597,
      "mean_token_accuracy": 0.21313890516757966,
      "num_tokens": 71525899.0,
      "step": 38755
    },
    {
      "entropy": 5.414023542404175,
      "epoch": 3.2563327032136105,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003955984478985133,
      "loss": 5.0222,
      "mean_token_accuracy": 0.19863211512565612,
      "num_tokens": 71534391.0,
      "step": 38760
    },
    {
      "entropy": 5.341168069839478,
      "epoch": 3.2567527830287757,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0003955731652839574,
      "loss": 4.978,
      "mean_token_accuracy": 0.20819198191165925,
      "num_tokens": 71543973.0,
      "step": 38765
    },
    {
      "entropy": 5.391443586349487,
      "epoch": 3.2571728628439405,
      "grad_norm": 1.125,
      "learning_rate": 0.0003955478805335099,
      "loss": 4.8892,
      "mean_token_accuracy": 0.208958637714386,
      "num_tokens": 71552046.0,
      "step": 38770
    },
    {
      "entropy": 5.525752353668213,
      "epoch": 3.2575929426591053,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003955225936476188,
      "loss": 5.1754,
      "mean_token_accuracy": 0.18944562673568727,
      "num_tokens": 71561998.0,
      "step": 38775
    },
    {
      "entropy": 5.521106433868408,
      "epoch": 3.25801302247427,
      "grad_norm": 1.0390625,
      "learning_rate": 0.000395497304626732,
      "loss": 5.0557,
      "mean_token_accuracy": 0.19156258553266525,
      "num_tokens": 71572608.0,
      "step": 38780
    },
    {
      "entropy": 5.5300031185150145,
      "epoch": 3.258433102289435,
      "grad_norm": 1.03125,
      "learning_rate": 0.00039547201347129744,
      "loss": 5.0125,
      "mean_token_accuracy": 0.1937969818711281,
      "num_tokens": 71581746.0,
      "step": 38785
    },
    {
      "entropy": 5.488735914230347,
      "epoch": 3.2588531821046,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003954467201817633,
      "loss": 5.0644,
      "mean_token_accuracy": 0.20219399333000182,
      "num_tokens": 71590460.0,
      "step": 38790
    },
    {
      "entropy": 5.463373279571533,
      "epoch": 3.259273261919765,
      "grad_norm": 1.078125,
      "learning_rate": 0.00039542142475857745,
      "loss": 5.0907,
      "mean_token_accuracy": 0.19154943972826005,
      "num_tokens": 71600248.0,
      "step": 38795
    },
    {
      "entropy": 5.563459634780884,
      "epoch": 3.2596933417349296,
      "grad_norm": 1.09375,
      "learning_rate": 0.000395396127202188,
      "loss": 5.1054,
      "mean_token_accuracy": 0.1954115629196167,
      "num_tokens": 71610578.0,
      "step": 38800
    },
    {
      "entropy": 5.440321540832519,
      "epoch": 3.2601134215500944,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003953708275130433,
      "loss": 5.056,
      "mean_token_accuracy": 0.19524663537740708,
      "num_tokens": 71619076.0,
      "step": 38805
    },
    {
      "entropy": 5.434045886993408,
      "epoch": 3.260533501365259,
      "grad_norm": 1.09375,
      "learning_rate": 0.00039534552569159135,
      "loss": 4.9922,
      "mean_token_accuracy": 0.1988002061843872,
      "num_tokens": 71628612.0,
      "step": 38810
    },
    {
      "entropy": 5.4867936134338375,
      "epoch": 3.2609535811804244,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0003953202217382803,
      "loss": 4.9598,
      "mean_token_accuracy": 0.208766907453537,
      "num_tokens": 71638349.0,
      "step": 38815
    },
    {
      "entropy": 5.4553834915161135,
      "epoch": 3.2613736609955892,
      "grad_norm": 1.015625,
      "learning_rate": 0.00039529491565355854,
      "loss": 4.9472,
      "mean_token_accuracy": 0.20204528719186782,
      "num_tokens": 71647343.0,
      "step": 38820
    },
    {
      "entropy": 5.480633115768432,
      "epoch": 3.261793740810754,
      "grad_norm": 1.109375,
      "learning_rate": 0.00039526960743787426,
      "loss": 5.0836,
      "mean_token_accuracy": 0.1978367567062378,
      "num_tokens": 71657453.0,
      "step": 38825
    },
    {
      "entropy": 5.4329774379730225,
      "epoch": 3.262213820625919,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00039524429709167586,
      "loss": 5.0436,
      "mean_token_accuracy": 0.20464547276496886,
      "num_tokens": 71666714.0,
      "step": 38830
    },
    {
      "entropy": 5.520344877243042,
      "epoch": 3.2626339004410836,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00039521898461541163,
      "loss": 5.1008,
      "mean_token_accuracy": 0.1871581569314003,
      "num_tokens": 71675634.0,
      "step": 38835
    },
    {
      "entropy": 5.4343163013458256,
      "epoch": 3.263053980256249,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00039519367000953,
      "loss": 5.0317,
      "mean_token_accuracy": 0.19805255234241487,
      "num_tokens": 71684252.0,
      "step": 38840
    },
    {
      "entropy": 5.44269208908081,
      "epoch": 3.2634740600714136,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003951683532744794,
      "loss": 4.9482,
      "mean_token_accuracy": 0.21304819881916046,
      "num_tokens": 71693347.0,
      "step": 38845
    },
    {
      "entropy": 5.385577249526977,
      "epoch": 3.2638941398865784,
      "grad_norm": 1.09375,
      "learning_rate": 0.00039514303441070826,
      "loss": 4.9904,
      "mean_token_accuracy": 0.2005073308944702,
      "num_tokens": 71701915.0,
      "step": 38850
    },
    {
      "entropy": 5.401216268539429,
      "epoch": 3.264314219701743,
      "grad_norm": 1.0625,
      "learning_rate": 0.00039511771341866513,
      "loss": 5.0332,
      "mean_token_accuracy": 0.19992626011371611,
      "num_tokens": 71710933.0,
      "step": 38855
    },
    {
      "entropy": 5.550104188919067,
      "epoch": 3.264734299516908,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003950923902987986,
      "loss": 5.1177,
      "mean_token_accuracy": 0.1894332468509674,
      "num_tokens": 71720111.0,
      "step": 38860
    },
    {
      "entropy": 5.519208765029907,
      "epoch": 3.265154379332073,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00039506706505155716,
      "loss": 5.133,
      "mean_token_accuracy": 0.19137758165597915,
      "num_tokens": 71730008.0,
      "step": 38865
    },
    {
      "entropy": 5.537456607818603,
      "epoch": 3.265574459147238,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00039504173767738955,
      "loss": 5.1114,
      "mean_token_accuracy": 0.19876579642295839,
      "num_tokens": 71739312.0,
      "step": 38870
    },
    {
      "entropy": 5.330493545532226,
      "epoch": 3.2659945389624028,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003950164081767443,
      "loss": 4.891,
      "mean_token_accuracy": 0.21410842835903168,
      "num_tokens": 71748866.0,
      "step": 38875
    },
    {
      "entropy": 5.444952201843262,
      "epoch": 3.2664146187775676,
      "grad_norm": 1.046875,
      "learning_rate": 0.00039499107655007024,
      "loss": 4.9416,
      "mean_token_accuracy": 0.204986073076725,
      "num_tokens": 71757885.0,
      "step": 38880
    },
    {
      "entropy": 5.3641400814056395,
      "epoch": 3.266834698592733,
      "grad_norm": 1.046875,
      "learning_rate": 0.000394965742797816,
      "loss": 4.9313,
      "mean_token_accuracy": 0.21296755969524384,
      "num_tokens": 71766418.0,
      "step": 38885
    },
    {
      "entropy": 5.3971106052398685,
      "epoch": 3.2672547784078976,
      "grad_norm": 1.0625,
      "learning_rate": 0.00039494040692043044,
      "loss": 4.9975,
      "mean_token_accuracy": 0.20789370387792588,
      "num_tokens": 71776335.0,
      "step": 38890
    },
    {
      "entropy": 5.374029684066772,
      "epoch": 3.2676748582230624,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003949150689183623,
      "loss": 4.9468,
      "mean_token_accuracy": 0.2066345140337944,
      "num_tokens": 71784731.0,
      "step": 38895
    },
    {
      "entropy": 5.501846408843994,
      "epoch": 3.268094938038227,
      "grad_norm": 0.96875,
      "learning_rate": 0.0003948897287920605,
      "loss": 5.1268,
      "mean_token_accuracy": 0.19161910712718963,
      "num_tokens": 71795106.0,
      "step": 38900
    },
    {
      "entropy": 5.396377992630005,
      "epoch": 3.2685150178533924,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00039486438654197386,
      "loss": 4.9225,
      "mean_token_accuracy": 0.20965481996536256,
      "num_tokens": 71804267.0,
      "step": 38905
    },
    {
      "entropy": 5.407109785079956,
      "epoch": 3.268935097668557,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003948390421685514,
      "loss": 5.0208,
      "mean_token_accuracy": 0.20196111053228377,
      "num_tokens": 71813754.0,
      "step": 38910
    },
    {
      "entropy": 5.610664558410645,
      "epoch": 3.269355177483722,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003948136956722419,
      "loss": 5.2374,
      "mean_token_accuracy": 0.18890220373868943,
      "num_tokens": 71823810.0,
      "step": 38915
    },
    {
      "entropy": 5.51533317565918,
      "epoch": 3.2697752572988867,
      "grad_norm": 1.15625,
      "learning_rate": 0.00039478834705349453,
      "loss": 5.0968,
      "mean_token_accuracy": 0.18956945538520814,
      "num_tokens": 71832263.0,
      "step": 38920
    },
    {
      "entropy": 5.490974998474121,
      "epoch": 3.2701953371140515,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003947629963127583,
      "loss": 4.9981,
      "mean_token_accuracy": 0.19647212475538253,
      "num_tokens": 71841218.0,
      "step": 38925
    },
    {
      "entropy": 5.566789960861206,
      "epoch": 3.2706154169292168,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003947376434504822,
      "loss": 5.0715,
      "mean_token_accuracy": 0.19923887252807618,
      "num_tokens": 71851054.0,
      "step": 38930
    },
    {
      "entropy": 5.470800971984863,
      "epoch": 3.2710354967443815,
      "grad_norm": 0.9609375,
      "learning_rate": 0.00039471228846711545,
      "loss": 5.0143,
      "mean_token_accuracy": 0.19818977564573287,
      "num_tokens": 71860274.0,
      "step": 38935
    },
    {
      "entropy": 5.4273944854736325,
      "epoch": 3.2714555765595463,
      "grad_norm": 1.125,
      "learning_rate": 0.0003946869313631072,
      "loss": 5.0334,
      "mean_token_accuracy": 0.20037660002708435,
      "num_tokens": 71868806.0,
      "step": 38940
    },
    {
      "entropy": 5.421088838577271,
      "epoch": 3.271875656374711,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003946615721389065,
      "loss": 4.9809,
      "mean_token_accuracy": 0.20176684260368347,
      "num_tokens": 71877395.0,
      "step": 38945
    },
    {
      "entropy": 5.388388347625733,
      "epoch": 3.272295736189876,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003946362107949627,
      "loss": 4.9066,
      "mean_token_accuracy": 0.20472208857536317,
      "num_tokens": 71885373.0,
      "step": 38950
    },
    {
      "entropy": 5.44447660446167,
      "epoch": 3.272715816005041,
      "grad_norm": 1.0,
      "learning_rate": 0.000394610847331725,
      "loss": 5.0478,
      "mean_token_accuracy": 0.1998363107442856,
      "num_tokens": 71894392.0,
      "step": 38955
    },
    {
      "entropy": 5.463215017318726,
      "epoch": 3.273135895820206,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00039458548174964276,
      "loss": 4.9492,
      "mean_token_accuracy": 0.20942233502864838,
      "num_tokens": 71902319.0,
      "step": 38960
    },
    {
      "entropy": 5.577249479293823,
      "epoch": 3.2735559756353707,
      "grad_norm": 1.046875,
      "learning_rate": 0.00039456011404916526,
      "loss": 5.1406,
      "mean_token_accuracy": 0.18870128989219664,
      "num_tokens": 71912196.0,
      "step": 38965
    },
    {
      "entropy": 5.544307661056519,
      "epoch": 3.2739760554505355,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00039453474423074196,
      "loss": 5.0773,
      "mean_token_accuracy": 0.19610945135354996,
      "num_tokens": 71920401.0,
      "step": 38970
    },
    {
      "entropy": 5.485994958877564,
      "epoch": 3.2743961352657003,
      "grad_norm": 1.0625,
      "learning_rate": 0.00039450937229482217,
      "loss": 4.9705,
      "mean_token_accuracy": 0.20180615037679672,
      "num_tokens": 71930168.0,
      "step": 38975
    },
    {
      "entropy": 5.417222929000855,
      "epoch": 3.2748162150808655,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003944839982418554,
      "loss": 5.0287,
      "mean_token_accuracy": 0.20355153381824492,
      "num_tokens": 71939533.0,
      "step": 38980
    },
    {
      "entropy": 5.440293884277343,
      "epoch": 3.2752362948960303,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003944586220722911,
      "loss": 5.0947,
      "mean_token_accuracy": 0.1939294546842575,
      "num_tokens": 71949843.0,
      "step": 38985
    },
    {
      "entropy": 5.594786739349365,
      "epoch": 3.275656374711195,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003944332437865789,
      "loss": 5.1708,
      "mean_token_accuracy": 0.19337702244520188,
      "num_tokens": 71959581.0,
      "step": 38990
    },
    {
      "entropy": 5.471716117858887,
      "epoch": 3.27607645452636,
      "grad_norm": 1.734375,
      "learning_rate": 0.00039440786338516826,
      "loss": 4.994,
      "mean_token_accuracy": 0.19591638594865798,
      "num_tokens": 71968548.0,
      "step": 38995
    },
    {
      "entropy": 5.432680082321167,
      "epoch": 3.2764965343415247,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003943824808685087,
      "loss": 5.0172,
      "mean_token_accuracy": 0.20379807353019713,
      "num_tokens": 71977575.0,
      "step": 39000
    },
    {
      "epoch": 3.2764965343415247,
      "eval_entropy": 5.1958782738726645,
      "eval_loss": 5.147716999053955,
      "eval_mean_token_accuracy": 0.20248313478326369,
      "eval_num_tokens": 71977575.0,
      "eval_runtime": 27.2308,
      "eval_samples_per_second": 1372.198,
      "eval_steps_per_second": 171.534,
      "step": 39000
    },
    {
      "entropy": 5.4687401294708256,
      "epoch": 3.27691661415669,
      "grad_norm": 1.09375,
      "learning_rate": 0.00039435709623705003,
      "loss": 5.0795,
      "mean_token_accuracy": 0.199334779381752,
      "num_tokens": 71987312.0,
      "step": 39005
    },
    {
      "entropy": 5.513651561737061,
      "epoch": 3.2773366939718547,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003943317094912419,
      "loss": 5.0927,
      "mean_token_accuracy": 0.19342975318431854,
      "num_tokens": 71996026.0,
      "step": 39010
    },
    {
      "entropy": 5.496533966064453,
      "epoch": 3.2777567737870195,
      "grad_norm": 1.15625,
      "learning_rate": 0.00039430632063153394,
      "loss": 5.0139,
      "mean_token_accuracy": 0.2084006667137146,
      "num_tokens": 72005027.0,
      "step": 39015
    },
    {
      "entropy": 5.425692510604859,
      "epoch": 3.2781768536021842,
      "grad_norm": 1.0703125,
      "learning_rate": 0.000394280929658376,
      "loss": 4.9613,
      "mean_token_accuracy": 0.20361865758895875,
      "num_tokens": 72014428.0,
      "step": 39020
    },
    {
      "entropy": 5.501386642456055,
      "epoch": 3.2785969334173495,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00039425553657221774,
      "loss": 5.0704,
      "mean_token_accuracy": 0.19421038627624512,
      "num_tokens": 72024289.0,
      "step": 39025
    },
    {
      "entropy": 5.459223747253418,
      "epoch": 3.2790170132325143,
      "grad_norm": 1.109375,
      "learning_rate": 0.00039423014137350917,
      "loss": 5.0355,
      "mean_token_accuracy": 0.197259421646595,
      "num_tokens": 72034015.0,
      "step": 39030
    },
    {
      "entropy": 5.467311191558838,
      "epoch": 3.279437093047679,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003942047440626999,
      "loss": 5.0774,
      "mean_token_accuracy": 0.19047977030277252,
      "num_tokens": 72042453.0,
      "step": 39035
    },
    {
      "entropy": 5.475006818771362,
      "epoch": 3.279857172862844,
      "grad_norm": 1.0625,
      "learning_rate": 0.00039417934464024005,
      "loss": 4.9813,
      "mean_token_accuracy": 0.20115895420312882,
      "num_tokens": 72052146.0,
      "step": 39040
    },
    {
      "entropy": 5.6027685642242435,
      "epoch": 3.280277252678009,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003941539431065795,
      "loss": 5.1274,
      "mean_token_accuracy": 0.190945366024971,
      "num_tokens": 72060314.0,
      "step": 39045
    },
    {
      "entropy": 5.464647436141968,
      "epoch": 3.280697332493174,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00039412853946216807,
      "loss": 4.9381,
      "mean_token_accuracy": 0.2116213023662567,
      "num_tokens": 72069654.0,
      "step": 39050
    },
    {
      "entropy": 5.4337762832641605,
      "epoch": 3.2811174123083386,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00039410313370745605,
      "loss": 5.1009,
      "mean_token_accuracy": 0.20290783792734146,
      "num_tokens": 72079527.0,
      "step": 39055
    },
    {
      "entropy": 5.445814752578736,
      "epoch": 3.2815374921235034,
      "grad_norm": 1.171875,
      "learning_rate": 0.00039407772584289333,
      "loss": 5.1239,
      "mean_token_accuracy": 0.19803788959980012,
      "num_tokens": 72088561.0,
      "step": 39060
    },
    {
      "entropy": 5.493371438980103,
      "epoch": 3.281957571938668,
      "grad_norm": 1.03125,
      "learning_rate": 0.00039405231586892996,
      "loss": 4.9933,
      "mean_token_accuracy": 0.1975429356098175,
      "num_tokens": 72097834.0,
      "step": 39065
    },
    {
      "entropy": 5.5226236343383786,
      "epoch": 3.2823776517538334,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003940269037860161,
      "loss": 5.0897,
      "mean_token_accuracy": 0.18927628993988038,
      "num_tokens": 72107508.0,
      "step": 39070
    },
    {
      "entropy": 5.4738075733184814,
      "epoch": 3.2827977315689982,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003940014895946019,
      "loss": 5.1065,
      "mean_token_accuracy": 0.20568249374628067,
      "num_tokens": 72118112.0,
      "step": 39075
    },
    {
      "entropy": 5.450890064239502,
      "epoch": 3.283217811384163,
      "grad_norm": 1.046875,
      "learning_rate": 0.00039397607329513774,
      "loss": 4.9404,
      "mean_token_accuracy": 0.20007828027009963,
      "num_tokens": 72128141.0,
      "step": 39080
    },
    {
      "entropy": 5.463668489456177,
      "epoch": 3.283637891199328,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003939506548880736,
      "loss": 5.0055,
      "mean_token_accuracy": 0.19991113543510436,
      "num_tokens": 72137847.0,
      "step": 39085
    },
    {
      "entropy": 5.43254337310791,
      "epoch": 3.2840579710144926,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00039392523437385983,
      "loss": 4.9036,
      "mean_token_accuracy": 0.211875818669796,
      "num_tokens": 72147026.0,
      "step": 39090
    },
    {
      "entropy": 5.37700343132019,
      "epoch": 3.284478050829658,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00039389981175294683,
      "loss": 4.9906,
      "mean_token_accuracy": 0.20191797465085984,
      "num_tokens": 72157091.0,
      "step": 39095
    },
    {
      "entropy": 5.409897708892823,
      "epoch": 3.2848981306448226,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003938743870257849,
      "loss": 5.0204,
      "mean_token_accuracy": 0.20363060384988785,
      "num_tokens": 72165426.0,
      "step": 39100
    },
    {
      "entropy": 5.449233722686768,
      "epoch": 3.2853182104599874,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003938489601928244,
      "loss": 5.0837,
      "mean_token_accuracy": 0.19735811352729798,
      "num_tokens": 72174357.0,
      "step": 39105
    },
    {
      "entropy": 5.488987588882447,
      "epoch": 3.285738290275152,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00039382353125451576,
      "loss": 5.0301,
      "mean_token_accuracy": 0.19887611418962478,
      "num_tokens": 72183645.0,
      "step": 39110
    },
    {
      "entropy": 5.514805555343628,
      "epoch": 3.286158370090317,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00039379810021130947,
      "loss": 5.0882,
      "mean_token_accuracy": 0.1976764291524887,
      "num_tokens": 72192804.0,
      "step": 39115
    },
    {
      "entropy": 5.532272624969482,
      "epoch": 3.286578449905482,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00039377266706365596,
      "loss": 5.0504,
      "mean_token_accuracy": 0.19561469107866286,
      "num_tokens": 72202592.0,
      "step": 39120
    },
    {
      "entropy": 5.48313193321228,
      "epoch": 3.286998529720647,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00039374723181200585,
      "loss": 4.9847,
      "mean_token_accuracy": 0.2094379797577858,
      "num_tokens": 72211561.0,
      "step": 39125
    },
    {
      "entropy": 5.476066255569458,
      "epoch": 3.2874186095358118,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003937217944568096,
      "loss": 5.0618,
      "mean_token_accuracy": 0.19907549023628235,
      "num_tokens": 72220960.0,
      "step": 39130
    },
    {
      "entropy": 5.565478420257568,
      "epoch": 3.2878386893509766,
      "grad_norm": 1.0,
      "learning_rate": 0.0003936963549985179,
      "loss": 5.2108,
      "mean_token_accuracy": 0.19328196495771408,
      "num_tokens": 72229925.0,
      "step": 39135
    },
    {
      "entropy": 5.496634817123413,
      "epoch": 3.2882587691661413,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003936709134375815,
      "loss": 4.9935,
      "mean_token_accuracy": 0.1998977467417717,
      "num_tokens": 72238525.0,
      "step": 39140
    },
    {
      "entropy": 5.454565382003784,
      "epoch": 3.2886788489813066,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003936454697744509,
      "loss": 5.052,
      "mean_token_accuracy": 0.19902195483446122,
      "num_tokens": 72247882.0,
      "step": 39145
    },
    {
      "entropy": 5.435986042022705,
      "epoch": 3.2890989287964714,
      "grad_norm": 1.0625,
      "learning_rate": 0.00039362002400957695,
      "loss": 4.9963,
      "mean_token_accuracy": 0.20131367594003677,
      "num_tokens": 72256672.0,
      "step": 39150
    },
    {
      "entropy": 5.455707311630249,
      "epoch": 3.289519008611636,
      "grad_norm": 1.125,
      "learning_rate": 0.00039359457614341026,
      "loss": 5.0439,
      "mean_token_accuracy": 0.20332731157541276,
      "num_tokens": 72265516.0,
      "step": 39155
    },
    {
      "entropy": 5.386205196380615,
      "epoch": 3.289939088426801,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003935691261764018,
      "loss": 4.995,
      "mean_token_accuracy": 0.19935181736946106,
      "num_tokens": 72274724.0,
      "step": 39160
    },
    {
      "entropy": 5.5007359981536865,
      "epoch": 3.2903591682419657,
      "grad_norm": 1.078125,
      "learning_rate": 0.00039354367410900234,
      "loss": 5.0637,
      "mean_token_accuracy": 0.19958698749542236,
      "num_tokens": 72283768.0,
      "step": 39165
    },
    {
      "entropy": 5.440158414840698,
      "epoch": 3.290779248057131,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003935182199416627,
      "loss": 4.965,
      "mean_token_accuracy": 0.20392192304134368,
      "num_tokens": 72293575.0,
      "step": 39170
    },
    {
      "entropy": 5.5118231773376465,
      "epoch": 3.2911993278722957,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003934927636748338,
      "loss": 5.0392,
      "mean_token_accuracy": 0.19397572726011275,
      "num_tokens": 72302538.0,
      "step": 39175
    },
    {
      "entropy": 5.473312425613403,
      "epoch": 3.2916194076874605,
      "grad_norm": 1.03125,
      "learning_rate": 0.00039346730530896663,
      "loss": 5.0502,
      "mean_token_accuracy": 0.19534387588500976,
      "num_tokens": 72310919.0,
      "step": 39180
    },
    {
      "entropy": 5.396135759353638,
      "epoch": 3.2920394875026253,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003934418448445122,
      "loss": 4.993,
      "mean_token_accuracy": 0.2065129354596138,
      "num_tokens": 72320172.0,
      "step": 39185
    },
    {
      "entropy": 5.493361282348633,
      "epoch": 3.2924595673177905,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003934163822819214,
      "loss": 5.0265,
      "mean_token_accuracy": 0.20064228028059006,
      "num_tokens": 72328903.0,
      "step": 39190
    },
    {
      "entropy": 5.448569250106812,
      "epoch": 3.2928796471329553,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003933909176216454,
      "loss": 5.06,
      "mean_token_accuracy": 0.20301271826028824,
      "num_tokens": 72337723.0,
      "step": 39195
    },
    {
      "entropy": 5.45998740196228,
      "epoch": 3.29329972694812,
      "grad_norm": 1.25,
      "learning_rate": 0.00039336545086413516,
      "loss": 4.972,
      "mean_token_accuracy": 0.21169600933790206,
      "num_tokens": 72345923.0,
      "step": 39200
    },
    {
      "entropy": 5.380030393600464,
      "epoch": 3.293719806763285,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003933399820098421,
      "loss": 5.028,
      "mean_token_accuracy": 0.19931160509586335,
      "num_tokens": 72354258.0,
      "step": 39205
    },
    {
      "entropy": 5.461247682571411,
      "epoch": 3.29413988657845,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00039331451105921694,
      "loss": 5.0582,
      "mean_token_accuracy": 0.20544617921113967,
      "num_tokens": 72363102.0,
      "step": 39210
    },
    {
      "entropy": 5.5212836265563965,
      "epoch": 3.294559966393615,
      "grad_norm": 1.125,
      "learning_rate": 0.0003932890380127113,
      "loss": 5.0298,
      "mean_token_accuracy": 0.195964714884758,
      "num_tokens": 72371952.0,
      "step": 39215
    },
    {
      "entropy": 5.43128604888916,
      "epoch": 3.2949800462087797,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003932635628707763,
      "loss": 5.0024,
      "mean_token_accuracy": 0.20096266120672227,
      "num_tokens": 72380358.0,
      "step": 39220
    },
    {
      "entropy": 5.432626867294312,
      "epoch": 3.2954001260239445,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00039323808563386314,
      "loss": 5.04,
      "mean_token_accuracy": 0.19534651190042496,
      "num_tokens": 72391226.0,
      "step": 39225
    },
    {
      "entropy": 5.501989841461182,
      "epoch": 3.2958202058391093,
      "grad_norm": 1.125,
      "learning_rate": 0.00039321260630242313,
      "loss": 5.1081,
      "mean_token_accuracy": 0.18888347297906877,
      "num_tokens": 72401241.0,
      "step": 39230
    },
    {
      "entropy": 5.576904344558716,
      "epoch": 3.2962402856542745,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003931871248769077,
      "loss": 5.1314,
      "mean_token_accuracy": 0.19600296169519424,
      "num_tokens": 72410831.0,
      "step": 39235
    },
    {
      "entropy": 5.519799995422363,
      "epoch": 3.2966603654694393,
      "grad_norm": 1.21875,
      "learning_rate": 0.0003931616413577682,
      "loss": 5.1092,
      "mean_token_accuracy": 0.19318706244230271,
      "num_tokens": 72420435.0,
      "step": 39240
    },
    {
      "entropy": 5.497009038925171,
      "epoch": 3.297080445284604,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00039313615574545607,
      "loss": 4.988,
      "mean_token_accuracy": 0.2048809915781021,
      "num_tokens": 72430358.0,
      "step": 39245
    },
    {
      "entropy": 5.422053098678589,
      "epoch": 3.297500525099769,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003931106680404228,
      "loss": 4.9765,
      "mean_token_accuracy": 0.20306041687726975,
      "num_tokens": 72439298.0,
      "step": 39250
    },
    {
      "entropy": 5.436789655685425,
      "epoch": 3.2979206049149337,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00039308517824311986,
      "loss": 4.9891,
      "mean_token_accuracy": 0.20402228981256484,
      "num_tokens": 72448195.0,
      "step": 39255
    },
    {
      "entropy": 5.40903148651123,
      "epoch": 3.298340684730099,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00039305968635399883,
      "loss": 5.0432,
      "mean_token_accuracy": 0.1978927582502365,
      "num_tokens": 72457463.0,
      "step": 39260
    },
    {
      "entropy": 5.542185068130493,
      "epoch": 3.2987607645452637,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003930341923735111,
      "loss": 5.1477,
      "mean_token_accuracy": 0.19202170222997667,
      "num_tokens": 72467447.0,
      "step": 39265
    },
    {
      "entropy": 5.5613658905029295,
      "epoch": 3.2991808443604285,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003930086963021085,
      "loss": 5.148,
      "mean_token_accuracy": 0.19350708276033401,
      "num_tokens": 72477926.0,
      "step": 39270
    },
    {
      "entropy": 5.503479909896851,
      "epoch": 3.2996009241755933,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00039298319814024267,
      "loss": 4.9841,
      "mean_token_accuracy": 0.20805478543043138,
      "num_tokens": 72486045.0,
      "step": 39275
    },
    {
      "entropy": 5.458708429336548,
      "epoch": 3.300021003990758,
      "grad_norm": 1.140625,
      "learning_rate": 0.00039295769788836514,
      "loss": 5.0017,
      "mean_token_accuracy": 0.20412308275699614,
      "num_tokens": 72495451.0,
      "step": 39280
    },
    {
      "entropy": 5.494474744796753,
      "epoch": 3.3004410838059233,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003929321955469279,
      "loss": 5.0975,
      "mean_token_accuracy": 0.19329831302165984,
      "num_tokens": 72505360.0,
      "step": 39285
    },
    {
      "entropy": 5.323743200302124,
      "epoch": 3.300861163621088,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003929066911163824,
      "loss": 4.9343,
      "mean_token_accuracy": 0.20930885821580886,
      "num_tokens": 72514389.0,
      "step": 39290
    },
    {
      "entropy": 5.505958175659179,
      "epoch": 3.301281243436253,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003928811845971806,
      "loss": 5.1449,
      "mean_token_accuracy": 0.18539626151323318,
      "num_tokens": 72523832.0,
      "step": 39295
    },
    {
      "entropy": 5.548021221160889,
      "epoch": 3.3017013232514176,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00039285567598977436,
      "loss": 5.0831,
      "mean_token_accuracy": 0.20539772361516953,
      "num_tokens": 72533096.0,
      "step": 39300
    },
    {
      "entropy": 5.520937156677246,
      "epoch": 3.3021214030665824,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00039283016529461544,
      "loss": 5.0197,
      "mean_token_accuracy": 0.20372340977191924,
      "num_tokens": 72542493.0,
      "step": 39305
    },
    {
      "entropy": 5.435170316696167,
      "epoch": 3.3025414828817476,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003928046525121559,
      "loss": 5.0471,
      "mean_token_accuracy": 0.20085572749376296,
      "num_tokens": 72551388.0,
      "step": 39310
    },
    {
      "entropy": 5.474884366989135,
      "epoch": 3.3029615626969124,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003927791376428476,
      "loss": 5.0103,
      "mean_token_accuracy": 0.1960359126329422,
      "num_tokens": 72560535.0,
      "step": 39315
    },
    {
      "entropy": 5.513616847991943,
      "epoch": 3.303381642512077,
      "grad_norm": 1.046875,
      "learning_rate": 0.00039275362068714244,
      "loss": 5.1416,
      "mean_token_accuracy": 0.1937769830226898,
      "num_tokens": 72571040.0,
      "step": 39320
    },
    {
      "entropy": 5.55484185218811,
      "epoch": 3.303801722327242,
      "grad_norm": 1.125,
      "learning_rate": 0.0003927281016454925,
      "loss": 5.123,
      "mean_token_accuracy": 0.1963898941874504,
      "num_tokens": 72580296.0,
      "step": 39325
    },
    {
      "entropy": 5.607099151611328,
      "epoch": 3.3042218021424072,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00039270258051834995,
      "loss": 5.1146,
      "mean_token_accuracy": 0.1922413945198059,
      "num_tokens": 72589719.0,
      "step": 39330
    },
    {
      "entropy": 5.495239925384522,
      "epoch": 3.304641881957572,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003926770573061668,
      "loss": 5.0437,
      "mean_token_accuracy": 0.19565072059631347,
      "num_tokens": 72597855.0,
      "step": 39335
    },
    {
      "entropy": 5.49463300704956,
      "epoch": 3.305061961772737,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003926515320093951,
      "loss": 5.1012,
      "mean_token_accuracy": 0.2010340392589569,
      "num_tokens": 72606433.0,
      "step": 39340
    },
    {
      "entropy": 5.538996362686158,
      "epoch": 3.3054820415879016,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00039262600462848713,
      "loss": 5.1032,
      "mean_token_accuracy": 0.2035371333360672,
      "num_tokens": 72615988.0,
      "step": 39345
    },
    {
      "entropy": 5.464063549041748,
      "epoch": 3.305902121403067,
      "grad_norm": 1.09375,
      "learning_rate": 0.000392600475163895,
      "loss": 4.9244,
      "mean_token_accuracy": 0.2132748082280159,
      "num_tokens": 72625612.0,
      "step": 39350
    },
    {
      "entropy": 5.385740900039673,
      "epoch": 3.3063222012182316,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00039257494361607105,
      "loss": 4.9937,
      "mean_token_accuracy": 0.19689498096704483,
      "num_tokens": 72635822.0,
      "step": 39355
    },
    {
      "entropy": 5.514395427703858,
      "epoch": 3.3067422810333964,
      "grad_norm": 1.078125,
      "learning_rate": 0.00039254940998546757,
      "loss": 5.0991,
      "mean_token_accuracy": 0.19105500131845474,
      "num_tokens": 72645554.0,
      "step": 39360
    },
    {
      "entropy": 5.554669046401978,
      "epoch": 3.307162360848561,
      "grad_norm": 1.078125,
      "learning_rate": 0.00039252387427253684,
      "loss": 5.1613,
      "mean_token_accuracy": 0.18855011463165283,
      "num_tokens": 72655308.0,
      "step": 39365
    },
    {
      "entropy": 5.433311891555786,
      "epoch": 3.307582440663726,
      "grad_norm": 1.0390625,
      "learning_rate": 0.000392498336477731,
      "loss": 5.0587,
      "mean_token_accuracy": 0.19985253512859344,
      "num_tokens": 72664155.0,
      "step": 39370
    },
    {
      "entropy": 5.409799528121948,
      "epoch": 3.308002520478891,
      "grad_norm": 1.140625,
      "learning_rate": 0.00039247279660150285,
      "loss": 5.0174,
      "mean_token_accuracy": 0.2025215744972229,
      "num_tokens": 72673607.0,
      "step": 39375
    },
    {
      "entropy": 5.446762895584106,
      "epoch": 3.308422600294056,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003924472546443045,
      "loss": 5.1022,
      "mean_token_accuracy": 0.19940768480300902,
      "num_tokens": 72682427.0,
      "step": 39380
    },
    {
      "entropy": 5.48456883430481,
      "epoch": 3.308842680109221,
      "grad_norm": 1.21875,
      "learning_rate": 0.00039242171060658855,
      "loss": 5.0136,
      "mean_token_accuracy": 0.20138149559497834,
      "num_tokens": 72691178.0,
      "step": 39385
    },
    {
      "entropy": 5.6019792556762695,
      "epoch": 3.3092627599243856,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00039239616448880744,
      "loss": 5.0917,
      "mean_token_accuracy": 0.1964701846241951,
      "num_tokens": 72699729.0,
      "step": 39390
    },
    {
      "entropy": 5.57307391166687,
      "epoch": 3.3096828397395504,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00039237061629141375,
      "loss": 5.2219,
      "mean_token_accuracy": 0.19604016989469528,
      "num_tokens": 72709480.0,
      "step": 39395
    },
    {
      "entropy": 5.44943470954895,
      "epoch": 3.3101029195547156,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00039234506601485997,
      "loss": 4.9948,
      "mean_token_accuracy": 0.20711460709571838,
      "num_tokens": 72718672.0,
      "step": 39400
    },
    {
      "entropy": 5.510012197494507,
      "epoch": 3.3105229993698804,
      "grad_norm": 1.125,
      "learning_rate": 0.00039231951365959876,
      "loss": 5.0354,
      "mean_token_accuracy": 0.20188443809747697,
      "num_tokens": 72727362.0,
      "step": 39405
    },
    {
      "entropy": 5.4499499797821045,
      "epoch": 3.310943079185045,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003922939592260828,
      "loss": 4.9455,
      "mean_token_accuracy": 0.20624760836362838,
      "num_tokens": 72735981.0,
      "step": 39410
    },
    {
      "entropy": 5.440515804290771,
      "epoch": 3.31136315900021,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00039226840271476483,
      "loss": 5.0309,
      "mean_token_accuracy": 0.1995528146624565,
      "num_tokens": 72745812.0,
      "step": 39415
    },
    {
      "entropy": 5.473303127288818,
      "epoch": 3.3117832388153747,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00039224284412609737,
      "loss": 5.0849,
      "mean_token_accuracy": 0.19594075828790664,
      "num_tokens": 72754896.0,
      "step": 39420
    },
    {
      "entropy": 5.463706684112549,
      "epoch": 3.31220331863054,
      "grad_norm": 1.125,
      "learning_rate": 0.00039221728346053335,
      "loss": 5.0188,
      "mean_token_accuracy": 0.19613999575376512,
      "num_tokens": 72763941.0,
      "step": 39425
    },
    {
      "entropy": 5.544646167755127,
      "epoch": 3.3126233984457047,
      "grad_norm": 1.078125,
      "learning_rate": 0.00039219172071852556,
      "loss": 5.1041,
      "mean_token_accuracy": 0.20596878230571747,
      "num_tokens": 72773694.0,
      "step": 39430
    },
    {
      "entropy": 5.489722347259521,
      "epoch": 3.3130434782608695,
      "grad_norm": 1.0,
      "learning_rate": 0.0003921661559005267,
      "loss": 5.0277,
      "mean_token_accuracy": 0.2042843893170357,
      "num_tokens": 72783573.0,
      "step": 39435
    },
    {
      "entropy": 5.5153344631195065,
      "epoch": 3.3134635580760343,
      "grad_norm": 1.0625,
      "learning_rate": 0.00039214058900698974,
      "loss": 5.0413,
      "mean_token_accuracy": 0.1986306667327881,
      "num_tokens": 72792996.0,
      "step": 39440
    },
    {
      "entropy": 5.646125411987304,
      "epoch": 3.313883637891199,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003921150200383676,
      "loss": 5.2695,
      "mean_token_accuracy": 0.17919933348894118,
      "num_tokens": 72804100.0,
      "step": 39445
    },
    {
      "entropy": 5.4986732006073,
      "epoch": 3.3143037177063643,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00039208944899511315,
      "loss": 4.9759,
      "mean_token_accuracy": 0.20211080312728882,
      "num_tokens": 72813300.0,
      "step": 39450
    },
    {
      "entropy": 5.602730083465576,
      "epoch": 3.314723797521529,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00039206387587767947,
      "loss": 5.1549,
      "mean_token_accuracy": 0.20046345740556717,
      "num_tokens": 72823714.0,
      "step": 39455
    },
    {
      "entropy": 5.397006225585938,
      "epoch": 3.315143877336694,
      "grad_norm": 0.984375,
      "learning_rate": 0.00039203830068651946,
      "loss": 4.9368,
      "mean_token_accuracy": 0.20844587683677673,
      "num_tokens": 72833002.0,
      "step": 39460
    },
    {
      "entropy": 5.517983770370483,
      "epoch": 3.3155639571518587,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0003920127234220862,
      "loss": 5.128,
      "mean_token_accuracy": 0.19423598796129227,
      "num_tokens": 72842036.0,
      "step": 39465
    },
    {
      "entropy": 5.42535433769226,
      "epoch": 3.3159840369670235,
      "grad_norm": 1.09375,
      "learning_rate": 0.00039198714408483277,
      "loss": 4.9985,
      "mean_token_accuracy": 0.2024834558367729,
      "num_tokens": 72850673.0,
      "step": 39470
    },
    {
      "entropy": 5.490534830093384,
      "epoch": 3.3164041167821887,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0003919615626752124,
      "loss": 5.0957,
      "mean_token_accuracy": 0.19746340215206146,
      "num_tokens": 72859530.0,
      "step": 39475
    },
    {
      "entropy": 5.478901767730713,
      "epoch": 3.3168241965973535,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003919359791936781,
      "loss": 5.0459,
      "mean_token_accuracy": 0.20108666270971298,
      "num_tokens": 72868373.0,
      "step": 39480
    },
    {
      "entropy": 5.487500619888306,
      "epoch": 3.3172442764125183,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003919103936406831,
      "loss": 5.0621,
      "mean_token_accuracy": 0.19498859345912933,
      "num_tokens": 72877861.0,
      "step": 39485
    },
    {
      "entropy": 5.430802679061889,
      "epoch": 3.317664356227683,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00039188480601668087,
      "loss": 5.0369,
      "mean_token_accuracy": 0.2019065797328949,
      "num_tokens": 72887001.0,
      "step": 39490
    },
    {
      "entropy": 5.4603196144104,
      "epoch": 3.3180844360428483,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003918592163221243,
      "loss": 5.0382,
      "mean_token_accuracy": 0.19960967153310777,
      "num_tokens": 72895776.0,
      "step": 39495
    },
    {
      "entropy": 5.4019896507263185,
      "epoch": 3.318504515858013,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000391833624557467,
      "loss": 4.9688,
      "mean_token_accuracy": 0.19650120437145233,
      "num_tokens": 72905129.0,
      "step": 39500
    },
    {
      "entropy": 5.413442993164063,
      "epoch": 3.318924595673178,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003918080307231622,
      "loss": 5.0208,
      "mean_token_accuracy": 0.1970360830426216,
      "num_tokens": 72914223.0,
      "step": 39505
    },
    {
      "entropy": 5.439428091049194,
      "epoch": 3.3193446754883427,
      "grad_norm": 1.125,
      "learning_rate": 0.00039178243481966326,
      "loss": 4.964,
      "mean_token_accuracy": 0.2006939694285393,
      "num_tokens": 72922653.0,
      "step": 39510
    },
    {
      "entropy": 5.44273796081543,
      "epoch": 3.319764755303508,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003917568368474236,
      "loss": 4.9806,
      "mean_token_accuracy": 0.20005615055561066,
      "num_tokens": 72931663.0,
      "step": 39515
    },
    {
      "entropy": 5.555417394638061,
      "epoch": 3.3201848351186727,
      "grad_norm": 0.96875,
      "learning_rate": 0.00039173123680689666,
      "loss": 5.1503,
      "mean_token_accuracy": 0.19180955588817597,
      "num_tokens": 72941610.0,
      "step": 39520
    },
    {
      "entropy": 5.559923124313355,
      "epoch": 3.3206049149338375,
      "grad_norm": 1.125,
      "learning_rate": 0.000391705634698536,
      "loss": 5.1533,
      "mean_token_accuracy": 0.19030606150627136,
      "num_tokens": 72950082.0,
      "step": 39525
    },
    {
      "entropy": 5.5419470310211185,
      "epoch": 3.3210249947490023,
      "grad_norm": 1.109375,
      "learning_rate": 0.00039168003052279517,
      "loss": 5.1078,
      "mean_token_accuracy": 0.19871915578842164,
      "num_tokens": 72959145.0,
      "step": 39530
    },
    {
      "entropy": 5.451178979873657,
      "epoch": 3.321445074564167,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003916544242801276,
      "loss": 4.9998,
      "mean_token_accuracy": 0.2082699567079544,
      "num_tokens": 72968033.0,
      "step": 39535
    },
    {
      "entropy": 5.423096418380737,
      "epoch": 3.3218651543793323,
      "grad_norm": 1.125,
      "learning_rate": 0.00039162881597098705,
      "loss": 5.0195,
      "mean_token_accuracy": 0.19772105664014816,
      "num_tokens": 72977201.0,
      "step": 39540
    },
    {
      "entropy": 5.533817100524902,
      "epoch": 3.322285234194497,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00039160320559582695,
      "loss": 5.0154,
      "mean_token_accuracy": 0.20067536681890488,
      "num_tokens": 72986132.0,
      "step": 39545
    },
    {
      "entropy": 5.496947383880615,
      "epoch": 3.322705314009662,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003915775931551012,
      "loss": 5.0618,
      "mean_token_accuracy": 0.1995258614420891,
      "num_tokens": 72995406.0,
      "step": 39550
    },
    {
      "entropy": 5.463552618026734,
      "epoch": 3.3231253938248266,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0003915519786492634,
      "loss": 4.972,
      "mean_token_accuracy": 0.2104253053665161,
      "num_tokens": 73004423.0,
      "step": 39555
    },
    {
      "entropy": 5.437215566635132,
      "epoch": 3.3235454736399914,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00039152636207876736,
      "loss": 5.0647,
      "mean_token_accuracy": 0.20133743733167647,
      "num_tokens": 73013766.0,
      "step": 39560
    },
    {
      "entropy": 5.508475875854492,
      "epoch": 3.3239655534551567,
      "grad_norm": 1.0625,
      "learning_rate": 0.00039150074344406675,
      "loss": 5.0506,
      "mean_token_accuracy": 0.1990188330411911,
      "num_tokens": 73022918.0,
      "step": 39565
    },
    {
      "entropy": 5.508993339538574,
      "epoch": 3.3243856332703214,
      "grad_norm": 1.015625,
      "learning_rate": 0.00039147512274561555,
      "loss": 5.0789,
      "mean_token_accuracy": 0.19938021749258042,
      "num_tokens": 73032792.0,
      "step": 39570
    },
    {
      "entropy": 5.5398767471313475,
      "epoch": 3.3248057130854862,
      "grad_norm": 1.015625,
      "learning_rate": 0.00039144949998386744,
      "loss": 5.0426,
      "mean_token_accuracy": 0.19627858102321624,
      "num_tokens": 73042458.0,
      "step": 39575
    },
    {
      "entropy": 5.469062328338623,
      "epoch": 3.325225792900651,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003914238751592764,
      "loss": 5.027,
      "mean_token_accuracy": 0.20040905922651292,
      "num_tokens": 73052440.0,
      "step": 39580
    },
    {
      "entropy": 5.435955762863159,
      "epoch": 3.325645872715816,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003913982482722964,
      "loss": 5.0336,
      "mean_token_accuracy": 0.20214163213968278,
      "num_tokens": 73060953.0,
      "step": 39585
    },
    {
      "entropy": 5.401927709579468,
      "epoch": 3.326065952530981,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00039137261932338134,
      "loss": 5.0518,
      "mean_token_accuracy": 0.19831053912639618,
      "num_tokens": 73069477.0,
      "step": 39590
    },
    {
      "entropy": 5.518612957000732,
      "epoch": 3.326486032346146,
      "grad_norm": 1.0,
      "learning_rate": 0.00039134698831298526,
      "loss": 5.0452,
      "mean_token_accuracy": 0.20004485100507735,
      "num_tokens": 73078470.0,
      "step": 39595
    },
    {
      "entropy": 5.442956256866455,
      "epoch": 3.3269061121613106,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003913213552415622,
      "loss": 4.9081,
      "mean_token_accuracy": 0.2095432087779045,
      "num_tokens": 73086755.0,
      "step": 39600
    },
    {
      "entropy": 5.466091012954712,
      "epoch": 3.3273261919764754,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00039129572010956627,
      "loss": 5.1543,
      "mean_token_accuracy": 0.19407884776592255,
      "num_tokens": 73096022.0,
      "step": 39605
    },
    {
      "entropy": 5.4759495735168455,
      "epoch": 3.32774627179164,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00039127008291745143,
      "loss": 4.9921,
      "mean_token_accuracy": 0.20736410170793534,
      "num_tokens": 73104352.0,
      "step": 39610
    },
    {
      "entropy": 5.6092206001281735,
      "epoch": 3.3281663516068054,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003912444436656721,
      "loss": 5.083,
      "mean_token_accuracy": 0.1988602727651596,
      "num_tokens": 73113277.0,
      "step": 39615
    },
    {
      "entropy": 5.484511756896973,
      "epoch": 3.32858643142197,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00039121880235468213,
      "loss": 5.0004,
      "mean_token_accuracy": 0.19920268803834915,
      "num_tokens": 73123450.0,
      "step": 39620
    },
    {
      "entropy": 5.399061107635498,
      "epoch": 3.329006511237135,
      "grad_norm": 1.125,
      "learning_rate": 0.000391193158984936,
      "loss": 4.9544,
      "mean_token_accuracy": 0.2073909431695938,
      "num_tokens": 73133274.0,
      "step": 39625
    },
    {
      "entropy": 5.454407978057861,
      "epoch": 3.3294265910522998,
      "grad_norm": 1.0703125,
      "learning_rate": 0.000391167513556888,
      "loss": 5.0815,
      "mean_token_accuracy": 0.193120314180851,
      "num_tokens": 73142297.0,
      "step": 39630
    },
    {
      "entropy": 5.533403301239014,
      "epoch": 3.329846670867465,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00039114186607099217,
      "loss": 5.0001,
      "mean_token_accuracy": 0.2096371531486511,
      "num_tokens": 73151232.0,
      "step": 39635
    },
    {
      "entropy": 5.532507658004761,
      "epoch": 3.33026675068263,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00039111621652770294,
      "loss": 5.0826,
      "mean_token_accuracy": 0.204738050699234,
      "num_tokens": 73160802.0,
      "step": 39640
    },
    {
      "entropy": 5.435887336730957,
      "epoch": 3.3306868304977946,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003910905649274749,
      "loss": 4.9534,
      "mean_token_accuracy": 0.2093126505613327,
      "num_tokens": 73169105.0,
      "step": 39645
    },
    {
      "entropy": 5.458085775375366,
      "epoch": 3.3311069103129594,
      "grad_norm": 1.09375,
      "learning_rate": 0.00039106491127076213,
      "loss": 5.0929,
      "mean_token_accuracy": 0.20128274708986282,
      "num_tokens": 73177253.0,
      "step": 39650
    },
    {
      "entropy": 5.479613590240478,
      "epoch": 3.3315269901281246,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00039103925555801933,
      "loss": 5.037,
      "mean_token_accuracy": 0.19606575965881348,
      "num_tokens": 73186276.0,
      "step": 39655
    },
    {
      "entropy": 5.543245935440064,
      "epoch": 3.3319470699432894,
      "grad_norm": 1.140625,
      "learning_rate": 0.00039101359778970083,
      "loss": 5.1239,
      "mean_token_accuracy": 0.19171832203865052,
      "num_tokens": 73196248.0,
      "step": 39660
    },
    {
      "entropy": 5.42986421585083,
      "epoch": 3.332367149758454,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003909879379662612,
      "loss": 4.951,
      "mean_token_accuracy": 0.20498599112033844,
      "num_tokens": 73205262.0,
      "step": 39665
    },
    {
      "entropy": 5.407404232025146,
      "epoch": 3.332787229573619,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00039096227608815496,
      "loss": 4.9412,
      "mean_token_accuracy": 0.21119264811277388,
      "num_tokens": 73214713.0,
      "step": 39670
    },
    {
      "entropy": 5.424417400360108,
      "epoch": 3.3332073093887837,
      "grad_norm": 1.109375,
      "learning_rate": 0.00039093661215583664,
      "loss": 5.0293,
      "mean_token_accuracy": 0.20185726284980773,
      "num_tokens": 73223043.0,
      "step": 39675
    },
    {
      "entropy": 5.497419595718384,
      "epoch": 3.333627389203949,
      "grad_norm": 1.078125,
      "learning_rate": 0.00039091094616976104,
      "loss": 5.125,
      "mean_token_accuracy": 0.19541600495576858,
      "num_tokens": 73232868.0,
      "step": 39680
    },
    {
      "entropy": 5.522312164306641,
      "epoch": 3.3340474690191138,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003908852781303826,
      "loss": 5.0924,
      "mean_token_accuracy": 0.2004834994673729,
      "num_tokens": 73242094.0,
      "step": 39685
    },
    {
      "entropy": 5.476487064361573,
      "epoch": 3.3344675488342785,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00039085960803815625,
      "loss": 5.0286,
      "mean_token_accuracy": 0.19607701599597932,
      "num_tokens": 73251499.0,
      "step": 39690
    },
    {
      "entropy": 5.5556896209716795,
      "epoch": 3.3348876286494433,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00039083393589353654,
      "loss": 5.0809,
      "mean_token_accuracy": 0.20240718722343445,
      "num_tokens": 73260920.0,
      "step": 39695
    },
    {
      "entropy": 5.534152173995972,
      "epoch": 3.335307708464608,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003908082616969783,
      "loss": 5.1257,
      "mean_token_accuracy": 0.19669075161218644,
      "num_tokens": 73269775.0,
      "step": 39700
    },
    {
      "entropy": 5.54823055267334,
      "epoch": 3.3357277882797733,
      "grad_norm": 1.078125,
      "learning_rate": 0.00039078258544893635,
      "loss": 5.1054,
      "mean_token_accuracy": 0.19955178797245027,
      "num_tokens": 73278678.0,
      "step": 39705
    },
    {
      "entropy": 5.408019351959228,
      "epoch": 3.336147868094938,
      "grad_norm": 1.125,
      "learning_rate": 0.0003907569071498655,
      "loss": 4.9934,
      "mean_token_accuracy": 0.19895051568746566,
      "num_tokens": 73287579.0,
      "step": 39710
    },
    {
      "entropy": 5.509636735916137,
      "epoch": 3.336567947910103,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003907312268002207,
      "loss": 5.0548,
      "mean_token_accuracy": 0.2067049875855446,
      "num_tokens": 73297006.0,
      "step": 39715
    },
    {
      "entropy": 5.463198709487915,
      "epoch": 3.3369880277252677,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00039070554440045677,
      "loss": 5.0645,
      "mean_token_accuracy": 0.20386135280132295,
      "num_tokens": 73306147.0,
      "step": 39720
    },
    {
      "entropy": 5.483867597579956,
      "epoch": 3.3374081075404325,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003906798599510287,
      "loss": 5.0757,
      "mean_token_accuracy": 0.19663428366184235,
      "num_tokens": 73315584.0,
      "step": 39725
    },
    {
      "entropy": 5.452593421936035,
      "epoch": 3.3378281873555977,
      "grad_norm": 1.21875,
      "learning_rate": 0.00039065417345239144,
      "loss": 4.9809,
      "mean_token_accuracy": 0.2054636374115944,
      "num_tokens": 73324756.0,
      "step": 39730
    },
    {
      "entropy": 5.50985689163208,
      "epoch": 3.3382482671707625,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003906284849050001,
      "loss": 5.0459,
      "mean_token_accuracy": 0.1946302220225334,
      "num_tokens": 73334177.0,
      "step": 39735
    },
    {
      "entropy": 5.429146814346313,
      "epoch": 3.3386683469859273,
      "grad_norm": 1.078125,
      "learning_rate": 0.00039060279430930966,
      "loss": 5.0228,
      "mean_token_accuracy": 0.2012965887784958,
      "num_tokens": 73343965.0,
      "step": 39740
    },
    {
      "entropy": 5.4725288391113285,
      "epoch": 3.339088426801092,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00039057710166577527,
      "loss": 5.0207,
      "mean_token_accuracy": 0.200817508995533,
      "num_tokens": 73352853.0,
      "step": 39745
    },
    {
      "entropy": 5.405805683135986,
      "epoch": 3.339508506616257,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00039055140697485203,
      "loss": 4.8564,
      "mean_token_accuracy": 0.2122504398226738,
      "num_tokens": 73361062.0,
      "step": 39750
    },
    {
      "entropy": 5.409728956222534,
      "epoch": 3.339928586431422,
      "grad_norm": 1.15625,
      "learning_rate": 0.00039052571023699516,
      "loss": 5.029,
      "mean_token_accuracy": 0.1988515853881836,
      "num_tokens": 73370207.0,
      "step": 39755
    },
    {
      "entropy": 5.482611131668091,
      "epoch": 3.340348666246587,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00039050001145265973,
      "loss": 5.1241,
      "mean_token_accuracy": 0.19601619094610215,
      "num_tokens": 73379823.0,
      "step": 39760
    },
    {
      "entropy": 5.424804925918579,
      "epoch": 3.3407687460617517,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00039047431062230113,
      "loss": 4.9687,
      "mean_token_accuracy": 0.21315180361270905,
      "num_tokens": 73388765.0,
      "step": 39765
    },
    {
      "entropy": 5.511932373046875,
      "epoch": 3.3411888258769165,
      "grad_norm": 1.0,
      "learning_rate": 0.0003904486077463746,
      "loss": 5.0328,
      "mean_token_accuracy": 0.2046278327703476,
      "num_tokens": 73397701.0,
      "step": 39770
    },
    {
      "entropy": 5.448305892944336,
      "epoch": 3.3416089056920817,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003904229028253354,
      "loss": 5.0913,
      "mean_token_accuracy": 0.1942526638507843,
      "num_tokens": 73406761.0,
      "step": 39775
    },
    {
      "entropy": 5.463598585128784,
      "epoch": 3.3420289855072465,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003903971958596389,
      "loss": 5.0421,
      "mean_token_accuracy": 0.20046697407960892,
      "num_tokens": 73417195.0,
      "step": 39780
    },
    {
      "entropy": 5.496078157424927,
      "epoch": 3.3424490653224113,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003903714868497405,
      "loss": 5.0568,
      "mean_token_accuracy": 0.20035720467567444,
      "num_tokens": 73426048.0,
      "step": 39785
    },
    {
      "entropy": 5.405896711349487,
      "epoch": 3.342869145137576,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00039034577579609566,
      "loss": 4.8799,
      "mean_token_accuracy": 0.20844816118478776,
      "num_tokens": 73434055.0,
      "step": 39790
    },
    {
      "entropy": 5.427240037918091,
      "epoch": 3.343289224952741,
      "grad_norm": 1.078125,
      "learning_rate": 0.00039032006269915976,
      "loss": 5.0234,
      "mean_token_accuracy": 0.19856555610895157,
      "num_tokens": 73442778.0,
      "step": 39795
    },
    {
      "entropy": 5.363059711456299,
      "epoch": 3.343709304767906,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003902943475593883,
      "loss": 4.9491,
      "mean_token_accuracy": 0.20369938164949417,
      "num_tokens": 73451502.0,
      "step": 39800
    },
    {
      "entropy": 5.519345951080322,
      "epoch": 3.344129384583071,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003902686303772369,
      "loss": 5.0944,
      "mean_token_accuracy": 0.19312414079904555,
      "num_tokens": 73460097.0,
      "step": 39805
    },
    {
      "entropy": 5.542056083679199,
      "epoch": 3.3445494643982356,
      "grad_norm": 1.109375,
      "learning_rate": 0.000390242911153161,
      "loss": 5.0135,
      "mean_token_accuracy": 0.19710678458213807,
      "num_tokens": 73469015.0,
      "step": 39810
    },
    {
      "entropy": 5.38657660484314,
      "epoch": 3.3449695442134004,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003902171898876162,
      "loss": 4.9247,
      "mean_token_accuracy": 0.20762436389923095,
      "num_tokens": 73477924.0,
      "step": 39815
    },
    {
      "entropy": 5.438928651809692,
      "epoch": 3.3453896240285657,
      "grad_norm": 1.125,
      "learning_rate": 0.00039019146658105837,
      "loss": 5.005,
      "mean_token_accuracy": 0.2003820315003395,
      "num_tokens": 73486981.0,
      "step": 39820
    },
    {
      "entropy": 5.537396383285523,
      "epoch": 3.3458097038437304,
      "grad_norm": 1.078125,
      "learning_rate": 0.000390165741233943,
      "loss": 5.0611,
      "mean_token_accuracy": 0.1940318301320076,
      "num_tokens": 73495747.0,
      "step": 39825
    },
    {
      "entropy": 5.45509901046753,
      "epoch": 3.3462297836588952,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00039014001384672577,
      "loss": 4.9981,
      "mean_token_accuracy": 0.2001711204648018,
      "num_tokens": 73504959.0,
      "step": 39830
    },
    {
      "entropy": 5.4455403804779055,
      "epoch": 3.34664986347406,
      "grad_norm": 1.265625,
      "learning_rate": 0.0003901142844198625,
      "loss": 5.0223,
      "mean_token_accuracy": 0.1982518121600151,
      "num_tokens": 73513554.0,
      "step": 39835
    },
    {
      "entropy": 5.46872091293335,
      "epoch": 3.347069943289225,
      "grad_norm": 1.0390625,
      "learning_rate": 0.000390088552953809,
      "loss": 5.0479,
      "mean_token_accuracy": 0.20246828049421312,
      "num_tokens": 73523831.0,
      "step": 39840
    },
    {
      "entropy": 5.434358930587768,
      "epoch": 3.34749002310439,
      "grad_norm": 1.03125,
      "learning_rate": 0.00039006281944902106,
      "loss": 5.0006,
      "mean_token_accuracy": 0.20279668718576432,
      "num_tokens": 73532392.0,
      "step": 39845
    },
    {
      "entropy": 5.460875129699707,
      "epoch": 3.347910102919555,
      "grad_norm": 1.078125,
      "learning_rate": 0.00039003708390595443,
      "loss": 5.0228,
      "mean_token_accuracy": 0.20405727624893188,
      "num_tokens": 73542240.0,
      "step": 39850
    },
    {
      "entropy": 5.5676628112792965,
      "epoch": 3.3483301827347196,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00039001134632506515,
      "loss": 5.0992,
      "mean_token_accuracy": 0.198851315677166,
      "num_tokens": 73552372.0,
      "step": 39855
    },
    {
      "entropy": 5.405711126327515,
      "epoch": 3.3487502625498844,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0003899856067068091,
      "loss": 4.9835,
      "mean_token_accuracy": 0.2049234315752983,
      "num_tokens": 73561265.0,
      "step": 39860
    },
    {
      "entropy": 5.507012462615966,
      "epoch": 3.349170342365049,
      "grad_norm": 1.078125,
      "learning_rate": 0.00038995986505164224,
      "loss": 5.09,
      "mean_token_accuracy": 0.19579315930604935,
      "num_tokens": 73570654.0,
      "step": 39865
    },
    {
      "entropy": 5.539546203613281,
      "epoch": 3.3495904221802144,
      "grad_norm": 1.125,
      "learning_rate": 0.0003899341213600205,
      "loss": 5.0337,
      "mean_token_accuracy": 0.19766349643468856,
      "num_tokens": 73579621.0,
      "step": 39870
    },
    {
      "entropy": 5.557824754714966,
      "epoch": 3.350010501995379,
      "grad_norm": 1.0625,
      "learning_rate": 0.00038990837563240003,
      "loss": 5.0707,
      "mean_token_accuracy": 0.20265442728996277,
      "num_tokens": 73589139.0,
      "step": 39875
    },
    {
      "entropy": 5.44979567527771,
      "epoch": 3.350430581810544,
      "grad_norm": 1.078125,
      "learning_rate": 0.00038988262786923683,
      "loss": 4.9952,
      "mean_token_accuracy": 0.20338311940431594,
      "num_tokens": 73597781.0,
      "step": 39880
    },
    {
      "entropy": 5.450107097625732,
      "epoch": 3.3508506616257088,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000389856878070987,
      "loss": 4.9768,
      "mean_token_accuracy": 0.2040846213698387,
      "num_tokens": 73605886.0,
      "step": 39885
    },
    {
      "entropy": 5.376223182678222,
      "epoch": 3.3512707414408736,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00038983112623810676,
      "loss": 4.9571,
      "mean_token_accuracy": 0.20872874706983566,
      "num_tokens": 73615313.0,
      "step": 39890
    },
    {
      "entropy": 5.4263842582702635,
      "epoch": 3.351690821256039,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003898053723710523,
      "loss": 5.0425,
      "mean_token_accuracy": 0.19819953739643098,
      "num_tokens": 73626561.0,
      "step": 39895
    },
    {
      "entropy": 5.539656639099121,
      "epoch": 3.3521109010712036,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003897796164702797,
      "loss": 5.0077,
      "mean_token_accuracy": 0.1987126350402832,
      "num_tokens": 73635968.0,
      "step": 39900
    },
    {
      "entropy": 5.4279664039611815,
      "epoch": 3.3525309808863684,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003897538585362454,
      "loss": 4.9311,
      "mean_token_accuracy": 0.21370018422603607,
      "num_tokens": 73645276.0,
      "step": 39905
    },
    {
      "entropy": 5.386754703521729,
      "epoch": 3.352951060701533,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003897280985694055,
      "loss": 5.0057,
      "mean_token_accuracy": 0.20120760649442673,
      "num_tokens": 73653315.0,
      "step": 39910
    },
    {
      "entropy": 5.4811114311218265,
      "epoch": 3.353371140516698,
      "grad_norm": 1.015625,
      "learning_rate": 0.00038970233657021643,
      "loss": 5.0865,
      "mean_token_accuracy": 0.19560213685035704,
      "num_tokens": 73662994.0,
      "step": 39915
    },
    {
      "entropy": 5.518267679214477,
      "epoch": 3.353791220331863,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003896765725391346,
      "loss": 4.9849,
      "mean_token_accuracy": 0.20477323830127717,
      "num_tokens": 73672109.0,
      "step": 39920
    },
    {
      "entropy": 5.461318445205689,
      "epoch": 3.354211300147028,
      "grad_norm": 1.0625,
      "learning_rate": 0.00038965080647661624,
      "loss": 5.0051,
      "mean_token_accuracy": 0.20527378469705582,
      "num_tokens": 73682321.0,
      "step": 39925
    },
    {
      "entropy": 5.453238773345947,
      "epoch": 3.3546313799621927,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003896250383831179,
      "loss": 5.0219,
      "mean_token_accuracy": 0.20542233288288117,
      "num_tokens": 73692494.0,
      "step": 39930
    },
    {
      "entropy": 5.44519076347351,
      "epoch": 3.3550514597773575,
      "grad_norm": 1.078125,
      "learning_rate": 0.000389599268259096,
      "loss": 4.9477,
      "mean_token_accuracy": 0.20761592239141463,
      "num_tokens": 73701113.0,
      "step": 39935
    },
    {
      "entropy": 5.545299005508423,
      "epoch": 3.3554715395925228,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003895734961050071,
      "loss": 5.1605,
      "mean_token_accuracy": 0.19102946668863297,
      "num_tokens": 73710618.0,
      "step": 39940
    },
    {
      "entropy": 5.427897119522095,
      "epoch": 3.3558916194076875,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003895477219213078,
      "loss": 4.9962,
      "mean_token_accuracy": 0.2028183415532112,
      "num_tokens": 73719514.0,
      "step": 39945
    },
    {
      "entropy": 5.4049272537231445,
      "epoch": 3.3563116992228523,
      "grad_norm": 1.078125,
      "learning_rate": 0.00038952194570845446,
      "loss": 4.9932,
      "mean_token_accuracy": 0.19803538173437119,
      "num_tokens": 73728144.0,
      "step": 39950
    },
    {
      "entropy": 5.449640560150146,
      "epoch": 3.356731779038017,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00038949616746690387,
      "loss": 4.9818,
      "mean_token_accuracy": 0.20172092616558074,
      "num_tokens": 73736810.0,
      "step": 39955
    },
    {
      "entropy": 5.431718730926514,
      "epoch": 3.3571518588531823,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003894703871971126,
      "loss": 5.0008,
      "mean_token_accuracy": 0.20394983142614365,
      "num_tokens": 73746108.0,
      "step": 39960
    },
    {
      "entropy": 5.539293384552002,
      "epoch": 3.357571938668347,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00038944460489953744,
      "loss": 5.1085,
      "mean_token_accuracy": 0.19012277126312255,
      "num_tokens": 73755553.0,
      "step": 39965
    },
    {
      "entropy": 5.494189882278443,
      "epoch": 3.357992018483512,
      "grad_norm": 1.09375,
      "learning_rate": 0.00038941882057463503,
      "loss": 5.0483,
      "mean_token_accuracy": 0.2037704735994339,
      "num_tokens": 73764801.0,
      "step": 39970
    },
    {
      "entropy": 5.383739852905274,
      "epoch": 3.3584120982986767,
      "grad_norm": 1.0625,
      "learning_rate": 0.00038939303422286204,
      "loss": 4.9271,
      "mean_token_accuracy": 0.20814622342586517,
      "num_tokens": 73773244.0,
      "step": 39975
    },
    {
      "entropy": 5.459958696365357,
      "epoch": 3.3588321781138415,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003893672458446754,
      "loss": 5.0304,
      "mean_token_accuracy": 0.19757160246372224,
      "num_tokens": 73783141.0,
      "step": 39980
    },
    {
      "entropy": 5.46593337059021,
      "epoch": 3.3592522579290067,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003893414554405319,
      "loss": 5.0145,
      "mean_token_accuracy": 0.20026642829179764,
      "num_tokens": 73791854.0,
      "step": 39985
    },
    {
      "entropy": 5.505243921279908,
      "epoch": 3.3596723377441715,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003893156630108884,
      "loss": 4.971,
      "mean_token_accuracy": 0.2040352538228035,
      "num_tokens": 73800558.0,
      "step": 39990
    },
    {
      "entropy": 5.5115612030029295,
      "epoch": 3.3600924175593363,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003892898685562018,
      "loss": 5.0286,
      "mean_token_accuracy": 0.2018285110592842,
      "num_tokens": 73808938.0,
      "step": 39995
    },
    {
      "entropy": 5.366113948822021,
      "epoch": 3.360512497374501,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000389264072076929,
      "loss": 4.9771,
      "mean_token_accuracy": 0.201342111825943,
      "num_tokens": 73817810.0,
      "step": 40000
    },
    {
      "entropy": 5.461332559585571,
      "epoch": 3.360932577189666,
      "grad_norm": 1.09375,
      "learning_rate": 0.00038923827357352703,
      "loss": 5.0624,
      "mean_token_accuracy": 0.19703785330057144,
      "num_tokens": 73827198.0,
      "step": 40005
    },
    {
      "entropy": 5.491169404983521,
      "epoch": 3.361352657004831,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00038921247304645287,
      "loss": 5.0669,
      "mean_token_accuracy": 0.20022053718566896,
      "num_tokens": 73836406.0,
      "step": 40010
    },
    {
      "entropy": 5.445429468154908,
      "epoch": 3.361772736819996,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003891866704961635,
      "loss": 5.0382,
      "mean_token_accuracy": 0.19681195616722108,
      "num_tokens": 73846092.0,
      "step": 40015
    },
    {
      "entropy": 5.36952223777771,
      "epoch": 3.3621928166351607,
      "grad_norm": 1.140625,
      "learning_rate": 0.00038916086592311614,
      "loss": 4.8854,
      "mean_token_accuracy": 0.2122507095336914,
      "num_tokens": 73854447.0,
      "step": 40020
    },
    {
      "entropy": 5.51452784538269,
      "epoch": 3.3626128964503255,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003891350593277677,
      "loss": 5.08,
      "mean_token_accuracy": 0.19688859283924104,
      "num_tokens": 73864060.0,
      "step": 40025
    },
    {
      "entropy": 5.479233503341675,
      "epoch": 3.3630329762654902,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003891092507105756,
      "loss": 4.9302,
      "mean_token_accuracy": 0.21382567137479783,
      "num_tokens": 73872719.0,
      "step": 40030
    },
    {
      "entropy": 5.494566822052002,
      "epoch": 3.3634530560806555,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00038908344007199683,
      "loss": 5.0529,
      "mean_token_accuracy": 0.20304980427026748,
      "num_tokens": 73881927.0,
      "step": 40035
    },
    {
      "entropy": 5.420969867706299,
      "epoch": 3.3638731358958203,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00038905762741248866,
      "loss": 4.9524,
      "mean_token_accuracy": 0.20667487233877183,
      "num_tokens": 73890814.0,
      "step": 40040
    },
    {
      "entropy": 5.465305376052856,
      "epoch": 3.364293215710985,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003890318127325083,
      "loss": 4.9796,
      "mean_token_accuracy": 0.2033601939678192,
      "num_tokens": 73899615.0,
      "step": 40045
    },
    {
      "entropy": 5.4454731941223145,
      "epoch": 3.36471329552615,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003890059960325132,
      "loss": 5.055,
      "mean_token_accuracy": 0.19676412045955657,
      "num_tokens": 73908955.0,
      "step": 40050
    },
    {
      "entropy": 5.48215880393982,
      "epoch": 3.3651333753413146,
      "grad_norm": 1.078125,
      "learning_rate": 0.00038898017731296046,
      "loss": 5.0499,
      "mean_token_accuracy": 0.20134618878364563,
      "num_tokens": 73917429.0,
      "step": 40055
    },
    {
      "entropy": 5.5008598327636715,
      "epoch": 3.36555345515648,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00038895435657430763,
      "loss": 5.0369,
      "mean_token_accuracy": 0.200868359208107,
      "num_tokens": 73926114.0,
      "step": 40060
    },
    {
      "entropy": 5.4767999172210695,
      "epoch": 3.3659735349716446,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00038892853381701205,
      "loss": 5.0006,
      "mean_token_accuracy": 0.19878425300121308,
      "num_tokens": 73935560.0,
      "step": 40065
    },
    {
      "entropy": 5.413675022125244,
      "epoch": 3.3663936147868094,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003889027090415312,
      "loss": 4.9159,
      "mean_token_accuracy": 0.20387499332427977,
      "num_tokens": 73944563.0,
      "step": 40070
    },
    {
      "entropy": 5.42818250656128,
      "epoch": 3.366813694601974,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00038887688224832243,
      "loss": 4.9691,
      "mean_token_accuracy": 0.20193030089139938,
      "num_tokens": 73953936.0,
      "step": 40075
    },
    {
      "entropy": 5.446246814727783,
      "epoch": 3.3672337744171394,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00038885105343784346,
      "loss": 5.0476,
      "mean_token_accuracy": 0.1997009426355362,
      "num_tokens": 73963953.0,
      "step": 40080
    },
    {
      "entropy": 5.557108545303345,
      "epoch": 3.3676538542323042,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003888252226105516,
      "loss": 5.1045,
      "mean_token_accuracy": 0.2000908374786377,
      "num_tokens": 73973702.0,
      "step": 40085
    },
    {
      "entropy": 5.495908260345459,
      "epoch": 3.368073934047469,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00038879938976690457,
      "loss": 5.1402,
      "mean_token_accuracy": 0.19375399500131607,
      "num_tokens": 73984051.0,
      "step": 40090
    },
    {
      "entropy": 5.4464630603790285,
      "epoch": 3.368494013862634,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00038877355490735994,
      "loss": 5.0046,
      "mean_token_accuracy": 0.20208754986524582,
      "num_tokens": 73993632.0,
      "step": 40095
    },
    {
      "entropy": 5.464815235137939,
      "epoch": 3.3689140936777986,
      "grad_norm": 1.015625,
      "learning_rate": 0.00038874771803237536,
      "loss": 5.0299,
      "mean_token_accuracy": 0.20046349316835405,
      "num_tokens": 74003073.0,
      "step": 40100
    },
    {
      "entropy": 5.436737108230591,
      "epoch": 3.369334173492964,
      "grad_norm": 1.15625,
      "learning_rate": 0.00038872187914240847,
      "loss": 4.9517,
      "mean_token_accuracy": 0.1926019996404648,
      "num_tokens": 74011879.0,
      "step": 40105
    },
    {
      "entropy": 5.4585099697113035,
      "epoch": 3.3697542533081286,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003886960382379171,
      "loss": 4.967,
      "mean_token_accuracy": 0.21363348960876466,
      "num_tokens": 74020850.0,
      "step": 40110
    },
    {
      "entropy": 5.5004056930542,
      "epoch": 3.3701743331232934,
      "grad_norm": 1.109375,
      "learning_rate": 0.00038867019531935897,
      "loss": 5.13,
      "mean_token_accuracy": 0.19036279916763305,
      "num_tokens": 74030317.0,
      "step": 40115
    },
    {
      "entropy": 5.5306049346923825,
      "epoch": 3.370594412938458,
      "grad_norm": 1.15625,
      "learning_rate": 0.00038864435038719186,
      "loss": 5.0481,
      "mean_token_accuracy": 0.20011216402053833,
      "num_tokens": 74039675.0,
      "step": 40120
    },
    {
      "entropy": 5.479241132736206,
      "epoch": 3.3710144927536234,
      "grad_norm": 1.140625,
      "learning_rate": 0.00038861850344187356,
      "loss": 5.0138,
      "mean_token_accuracy": 0.1983097404241562,
      "num_tokens": 74049248.0,
      "step": 40125
    },
    {
      "entropy": 5.395142841339111,
      "epoch": 3.371434572568788,
      "grad_norm": 1.0390625,
      "learning_rate": 0.000388592654483862,
      "loss": 4.9355,
      "mean_token_accuracy": 0.21097283512353898,
      "num_tokens": 74057568.0,
      "step": 40130
    },
    {
      "entropy": 5.578443765640259,
      "epoch": 3.371854652383953,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00038856680351361504,
      "loss": 5.2311,
      "mean_token_accuracy": 0.1852891504764557,
      "num_tokens": 74067855.0,
      "step": 40135
    },
    {
      "entropy": 5.465858697891235,
      "epoch": 3.3722747321991178,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003885409505315907,
      "loss": 4.9723,
      "mean_token_accuracy": 0.1985010862350464,
      "num_tokens": 74076871.0,
      "step": 40140
    },
    {
      "entropy": 5.463525056838989,
      "epoch": 3.3726948120142826,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003885150955382469,
      "loss": 5.0713,
      "mean_token_accuracy": 0.19465240389108657,
      "num_tokens": 74085710.0,
      "step": 40145
    },
    {
      "entropy": 5.611171531677246,
      "epoch": 3.373114891829448,
      "grad_norm": 1.0625,
      "learning_rate": 0.00038848923853404153,
      "loss": 5.1425,
      "mean_token_accuracy": 0.19491250813007355,
      "num_tokens": 74094768.0,
      "step": 40150
    },
    {
      "entropy": 5.463613224029541,
      "epoch": 3.3735349716446126,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003884633795194328,
      "loss": 4.9703,
      "mean_token_accuracy": 0.20651810318231584,
      "num_tokens": 74104169.0,
      "step": 40155
    },
    {
      "entropy": 5.400127124786377,
      "epoch": 3.3739550514597774,
      "grad_norm": 1.15625,
      "learning_rate": 0.00038843751849487875,
      "loss": 5.0623,
      "mean_token_accuracy": 0.19634300768375396,
      "num_tokens": 74113493.0,
      "step": 40160
    },
    {
      "entropy": 5.352778196334839,
      "epoch": 3.374375131274942,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00038841165546083737,
      "loss": 4.9276,
      "mean_token_accuracy": 0.2094393253326416,
      "num_tokens": 74121774.0,
      "step": 40165
    },
    {
      "entropy": 5.488674879074097,
      "epoch": 3.374795211090107,
      "grad_norm": 1.109375,
      "learning_rate": 0.00038838579041776703,
      "loss": 5.0611,
      "mean_token_accuracy": 0.19690585434436797,
      "num_tokens": 74131644.0,
      "step": 40170
    },
    {
      "entropy": 5.634392499923706,
      "epoch": 3.375215290905272,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003883599233661257,
      "loss": 5.2109,
      "mean_token_accuracy": 0.18905020505189896,
      "num_tokens": 74142178.0,
      "step": 40175
    },
    {
      "entropy": 5.515800666809082,
      "epoch": 3.375635370720437,
      "grad_norm": 1.15625,
      "learning_rate": 0.00038833405430637174,
      "loss": 5.0393,
      "mean_token_accuracy": 0.19928470999002457,
      "num_tokens": 74151823.0,
      "step": 40180
    },
    {
      "entropy": 5.430172872543335,
      "epoch": 3.3760554505356017,
      "grad_norm": 1.140625,
      "learning_rate": 0.00038830818323896336,
      "loss": 4.955,
      "mean_token_accuracy": 0.2097111776471138,
      "num_tokens": 74160161.0,
      "step": 40185
    },
    {
      "entropy": 5.380005598068237,
      "epoch": 3.3764755303507665,
      "grad_norm": 1.0,
      "learning_rate": 0.0003882823101643589,
      "loss": 5.0434,
      "mean_token_accuracy": 0.1985524520277977,
      "num_tokens": 74168947.0,
      "step": 40190
    },
    {
      "entropy": 5.521566867828369,
      "epoch": 3.3768956101659313,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003882564350830166,
      "loss": 5.0328,
      "mean_token_accuracy": 0.19740534275770188,
      "num_tokens": 74178156.0,
      "step": 40195
    },
    {
      "entropy": 5.520093250274658,
      "epoch": 3.3773156899810965,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00038823055799539494,
      "loss": 5.0021,
      "mean_token_accuracy": 0.20786695629358293,
      "num_tokens": 74187314.0,
      "step": 40200
    },
    {
      "entropy": 5.4558557033538815,
      "epoch": 3.3777357697962613,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00038820467890195214,
      "loss": 4.9924,
      "mean_token_accuracy": 0.20120740234851836,
      "num_tokens": 74196569.0,
      "step": 40205
    },
    {
      "entropy": 5.46382360458374,
      "epoch": 3.378155849611426,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003881787978031469,
      "loss": 4.9701,
      "mean_token_accuracy": 0.2038396865129471,
      "num_tokens": 74205320.0,
      "step": 40210
    },
    {
      "entropy": 5.429127740859985,
      "epoch": 3.378575929426591,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00038815291469943735,
      "loss": 4.9764,
      "mean_token_accuracy": 0.20152422040700912,
      "num_tokens": 74214561.0,
      "step": 40215
    },
    {
      "entropy": 5.410698318481446,
      "epoch": 3.3789960092417557,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003881270295912823,
      "loss": 4.997,
      "mean_token_accuracy": 0.19913729131221772,
      "num_tokens": 74224015.0,
      "step": 40220
    },
    {
      "entropy": 5.49387526512146,
      "epoch": 3.379416089056921,
      "grad_norm": 0.984375,
      "learning_rate": 0.00038810114247914016,
      "loss": 5.127,
      "mean_token_accuracy": 0.19629132896661758,
      "num_tokens": 74233921.0,
      "step": 40225
    },
    {
      "entropy": 5.527532625198364,
      "epoch": 3.3798361688720857,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003880752533634695,
      "loss": 4.9812,
      "mean_token_accuracy": 0.21202592998743058,
      "num_tokens": 74242227.0,
      "step": 40230
    },
    {
      "entropy": 5.326673221588135,
      "epoch": 3.3802562486872505,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003880493622447289,
      "loss": 4.921,
      "mean_token_accuracy": 0.21125145107507706,
      "num_tokens": 74251103.0,
      "step": 40235
    },
    {
      "entropy": 5.484245491027832,
      "epoch": 3.3806763285024153,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003880234691233771,
      "loss": 5.144,
      "mean_token_accuracy": 0.19415847808122635,
      "num_tokens": 74261237.0,
      "step": 40240
    },
    {
      "entropy": 5.4812158107757565,
      "epoch": 3.3810964083175805,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003879975739998728,
      "loss": 5.0439,
      "mean_token_accuracy": 0.20109760612249375,
      "num_tokens": 74269776.0,
      "step": 40245
    },
    {
      "entropy": 5.478687047958374,
      "epoch": 3.3815164881327453,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003879716768746746,
      "loss": 4.9195,
      "mean_token_accuracy": 0.205182084441185,
      "num_tokens": 74277989.0,
      "step": 40250
    },
    {
      "entropy": 5.456452703475952,
      "epoch": 3.38193656794791,
      "grad_norm": 1.078125,
      "learning_rate": 0.00038794577774824135,
      "loss": 4.9833,
      "mean_token_accuracy": 0.1977366790175438,
      "num_tokens": 74287849.0,
      "step": 40255
    },
    {
      "entropy": 5.4076745986938475,
      "epoch": 3.382356647763075,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00038791987662103187,
      "loss": 4.9621,
      "mean_token_accuracy": 0.20274706333875656,
      "num_tokens": 74296989.0,
      "step": 40260
    },
    {
      "entropy": 5.5158617973327635,
      "epoch": 3.38277672757824,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0003878939734935048,
      "loss": 5.0293,
      "mean_token_accuracy": 0.19848229736089706,
      "num_tokens": 74305592.0,
      "step": 40265
    },
    {
      "entropy": 5.482783508300781,
      "epoch": 3.383196807393405,
      "grad_norm": 1.046875,
      "learning_rate": 0.00038786806836611917,
      "loss": 5.0467,
      "mean_token_accuracy": 0.20404752790927888,
      "num_tokens": 74314738.0,
      "step": 40270
    },
    {
      "entropy": 5.564902210235596,
      "epoch": 3.3836168872085697,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003878421612393338,
      "loss": 5.0831,
      "mean_token_accuracy": 0.19407080262899398,
      "num_tokens": 74323947.0,
      "step": 40275
    },
    {
      "entropy": 5.44973349571228,
      "epoch": 3.3840369670237345,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00038781625211360763,
      "loss": 5.023,
      "mean_token_accuracy": 0.19900759905576706,
      "num_tokens": 74333700.0,
      "step": 40280
    },
    {
      "entropy": 5.4210375308990475,
      "epoch": 3.3844570468388993,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00038779034098939975,
      "loss": 4.9933,
      "mean_token_accuracy": 0.2031307116150856,
      "num_tokens": 74342669.0,
      "step": 40285
    },
    {
      "entropy": 5.491822004318237,
      "epoch": 3.3848771266540645,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003877644278671689,
      "loss": 5.0026,
      "mean_token_accuracy": 0.20487653464078903,
      "num_tokens": 74351823.0,
      "step": 40290
    },
    {
      "entropy": 5.4061023712158205,
      "epoch": 3.3852972064692293,
      "grad_norm": 1.109375,
      "learning_rate": 0.00038773851274737445,
      "loss": 4.9183,
      "mean_token_accuracy": 0.2139199987053871,
      "num_tokens": 74360127.0,
      "step": 40295
    },
    {
      "entropy": 5.458399772644043,
      "epoch": 3.385717286284394,
      "grad_norm": 1.046875,
      "learning_rate": 0.00038771259563047514,
      "loss": 5.0738,
      "mean_token_accuracy": 0.20630223006010057,
      "num_tokens": 74369059.0,
      "step": 40300
    },
    {
      "entropy": 5.448560333251953,
      "epoch": 3.386137366099559,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003876866765169303,
      "loss": 5.0586,
      "mean_token_accuracy": 0.19824416190385818,
      "num_tokens": 74378649.0,
      "step": 40305
    },
    {
      "entropy": 5.534852838516235,
      "epoch": 3.3865574459147236,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00038766075540719904,
      "loss": 5.0646,
      "mean_token_accuracy": 0.19212009757757187,
      "num_tokens": 74388067.0,
      "step": 40310
    },
    {
      "entropy": 5.457349967956543,
      "epoch": 3.386977525729889,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00038763483230174053,
      "loss": 4.9705,
      "mean_token_accuracy": 0.20353264659643172,
      "num_tokens": 74396482.0,
      "step": 40315
    },
    {
      "entropy": 5.418964672088623,
      "epoch": 3.3873976055450536,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003876089072010139,
      "loss": 5.046,
      "mean_token_accuracy": 0.1941230520606041,
      "num_tokens": 74405547.0,
      "step": 40320
    },
    {
      "entropy": 5.433879375457764,
      "epoch": 3.3878176853602184,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003875829801054785,
      "loss": 4.9752,
      "mean_token_accuracy": 0.21133822500705718,
      "num_tokens": 74414836.0,
      "step": 40325
    },
    {
      "entropy": 5.531249952316284,
      "epoch": 3.388237765175383,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00038755705101559357,
      "loss": 5.0484,
      "mean_token_accuracy": 0.20320509374141693,
      "num_tokens": 74423545.0,
      "step": 40330
    },
    {
      "entropy": 5.398243618011475,
      "epoch": 3.388657844990548,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003875311199318185,
      "loss": 4.9493,
      "mean_token_accuracy": 0.20824916660785675,
      "num_tokens": 74432287.0,
      "step": 40335
    },
    {
      "entropy": 5.443069553375244,
      "epoch": 3.3890779248057132,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00038750518685461247,
      "loss": 5.1337,
      "mean_token_accuracy": 0.1930621474981308,
      "num_tokens": 74442175.0,
      "step": 40340
    },
    {
      "entropy": 5.428954315185547,
      "epoch": 3.389498004620878,
      "grad_norm": 1.171875,
      "learning_rate": 0.000387479251784435,
      "loss": 4.9437,
      "mean_token_accuracy": 0.20663276463747024,
      "num_tokens": 74450564.0,
      "step": 40345
    },
    {
      "entropy": 5.533010530471802,
      "epoch": 3.389918084436043,
      "grad_norm": 1.125,
      "learning_rate": 0.00038745331472174563,
      "loss": 5.2438,
      "mean_token_accuracy": 0.1876404255628586,
      "num_tokens": 74460743.0,
      "step": 40350
    },
    {
      "entropy": 5.499128675460815,
      "epoch": 3.3903381642512076,
      "grad_norm": 1.0625,
      "learning_rate": 0.00038742737566700356,
      "loss": 5.0875,
      "mean_token_accuracy": 0.19552286863327026,
      "num_tokens": 74469915.0,
      "step": 40355
    },
    {
      "entropy": 5.532469034194946,
      "epoch": 3.3907582440663724,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00038740143462066845,
      "loss": 5.0855,
      "mean_token_accuracy": 0.1953960418701172,
      "num_tokens": 74480307.0,
      "step": 40360
    },
    {
      "entropy": 5.517077493667602,
      "epoch": 3.3911783238815376,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00038737549158319984,
      "loss": 5.0607,
      "mean_token_accuracy": 0.19855692535638808,
      "num_tokens": 74490058.0,
      "step": 40365
    },
    {
      "entropy": 5.497185230255127,
      "epoch": 3.3915984036967024,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00038734954655505723,
      "loss": 4.9852,
      "mean_token_accuracy": 0.20253847688436508,
      "num_tokens": 74499183.0,
      "step": 40370
    },
    {
      "entropy": 5.550006675720215,
      "epoch": 3.392018483511867,
      "grad_norm": 1.109375,
      "learning_rate": 0.00038732359953670025,
      "loss": 5.0419,
      "mean_token_accuracy": 0.20175936371088027,
      "num_tokens": 74508213.0,
      "step": 40375
    },
    {
      "entropy": 5.3582593441009525,
      "epoch": 3.392438563327032,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00038729765052858856,
      "loss": 4.9692,
      "mean_token_accuracy": 0.20500424206256868,
      "num_tokens": 74517520.0,
      "step": 40380
    },
    {
      "entropy": 5.376613807678223,
      "epoch": 3.392858643142197,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00038727169953118185,
      "loss": 4.9278,
      "mean_token_accuracy": 0.20831578373908996,
      "num_tokens": 74527236.0,
      "step": 40385
    },
    {
      "entropy": 5.429298257827758,
      "epoch": 3.393278722957362,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003872457465449398,
      "loss": 5.0888,
      "mean_token_accuracy": 0.19535495340824127,
      "num_tokens": 74535886.0,
      "step": 40390
    },
    {
      "entropy": 5.472901678085327,
      "epoch": 3.393698802772527,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00038721979157032205,
      "loss": 5.0727,
      "mean_token_accuracy": 0.19230979681015015,
      "num_tokens": 74545751.0,
      "step": 40395
    },
    {
      "entropy": 5.526787662506104,
      "epoch": 3.3941188825876916,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00038719383460778856,
      "loss": 5.0331,
      "mean_token_accuracy": 0.20353594571352004,
      "num_tokens": 74555271.0,
      "step": 40400
    },
    {
      "entropy": 5.52058744430542,
      "epoch": 3.3945389624028564,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00038716787565779904,
      "loss": 5.0548,
      "mean_token_accuracy": 0.19204874336719513,
      "num_tokens": 74564215.0,
      "step": 40405
    },
    {
      "entropy": 5.4572710514068605,
      "epoch": 3.3949590422180216,
      "grad_norm": 1.140625,
      "learning_rate": 0.00038714191472081333,
      "loss": 5.0369,
      "mean_token_accuracy": 0.2045308008790016,
      "num_tokens": 74573251.0,
      "step": 40410
    },
    {
      "entropy": 5.447700834274292,
      "epoch": 3.3953791220331864,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003871159517972914,
      "loss": 5.0473,
      "mean_token_accuracy": 0.19822454899549485,
      "num_tokens": 74582476.0,
      "step": 40415
    },
    {
      "entropy": 5.488548517227173,
      "epoch": 3.395799201848351,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003870899868876931,
      "loss": 5.0496,
      "mean_token_accuracy": 0.1971263900399208,
      "num_tokens": 74591488.0,
      "step": 40420
    },
    {
      "entropy": 5.491970014572144,
      "epoch": 3.396219281663516,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00038706401999247833,
      "loss": 4.9778,
      "mean_token_accuracy": 0.2003817528486252,
      "num_tokens": 74601871.0,
      "step": 40425
    },
    {
      "entropy": 5.453405284881592,
      "epoch": 3.396639361478681,
      "grad_norm": 1.0,
      "learning_rate": 0.0003870380511121072,
      "loss": 5.0433,
      "mean_token_accuracy": 0.1897268697619438,
      "num_tokens": 74611618.0,
      "step": 40430
    },
    {
      "entropy": 5.3322181224823,
      "epoch": 3.397059441293846,
      "grad_norm": 1.0,
      "learning_rate": 0.0003870120802470397,
      "loss": 4.8699,
      "mean_token_accuracy": 0.20756149739027024,
      "num_tokens": 74621000.0,
      "step": 40435
    },
    {
      "entropy": 5.597333288192749,
      "epoch": 3.3974795211090107,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00038698610739773586,
      "loss": 5.1045,
      "mean_token_accuracy": 0.1936286762356758,
      "num_tokens": 74629767.0,
      "step": 40440
    },
    {
      "entropy": 5.372363090515137,
      "epoch": 3.3978996009241755,
      "grad_norm": 1.046875,
      "learning_rate": 0.00038696013256465586,
      "loss": 4.9049,
      "mean_token_accuracy": 0.21651263684034347,
      "num_tokens": 74638415.0,
      "step": 40445
    },
    {
      "entropy": 5.49319748878479,
      "epoch": 3.3983196807393403,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003869341557482597,
      "loss": 5.1542,
      "mean_token_accuracy": 0.18680234402418136,
      "num_tokens": 74647262.0,
      "step": 40450
    },
    {
      "entropy": 5.533249473571777,
      "epoch": 3.3987397605545056,
      "grad_norm": 1.328125,
      "learning_rate": 0.0003869081769490076,
      "loss": 5.0464,
      "mean_token_accuracy": 0.202031908929348,
      "num_tokens": 74656317.0,
      "step": 40455
    },
    {
      "entropy": 5.4653290748596195,
      "epoch": 3.3991598403696703,
      "grad_norm": 1.125,
      "learning_rate": 0.0003868821961673598,
      "loss": 4.9798,
      "mean_token_accuracy": 0.20389173030853272,
      "num_tokens": 74665209.0,
      "step": 40460
    },
    {
      "entropy": 5.384935092926026,
      "epoch": 3.399579920184835,
      "grad_norm": 1.109375,
      "learning_rate": 0.00038685621340377646,
      "loss": 5.0357,
      "mean_token_accuracy": 0.20396927297115325,
      "num_tokens": 74675175.0,
      "step": 40465
    },
    {
      "entropy": 5.418046760559082,
      "epoch": 3.4,
      "grad_norm": 1.109375,
      "learning_rate": 0.00038683022865871794,
      "loss": 5.0403,
      "mean_token_accuracy": 0.19940762966871262,
      "num_tokens": 74684207.0,
      "step": 40470
    },
    {
      "entropy": 5.550587272644043,
      "epoch": 3.4004200798151647,
      "grad_norm": 1.125,
      "learning_rate": 0.00038680424193264447,
      "loss": 5.1131,
      "mean_token_accuracy": 0.198056423664093,
      "num_tokens": 74692721.0,
      "step": 40475
    },
    {
      "entropy": 5.395085000991822,
      "epoch": 3.40084015963033,
      "grad_norm": 1.046875,
      "learning_rate": 0.00038677825322601644,
      "loss": 4.9416,
      "mean_token_accuracy": 0.21041325479745865,
      "num_tokens": 74701515.0,
      "step": 40480
    },
    {
      "entropy": 5.4646234035491945,
      "epoch": 3.4012602394454947,
      "grad_norm": 1.09375,
      "learning_rate": 0.00038675226253929426,
      "loss": 5.0256,
      "mean_token_accuracy": 0.19968093931674957,
      "num_tokens": 74710585.0,
      "step": 40485
    },
    {
      "entropy": 5.48362102508545,
      "epoch": 3.4016803192606595,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003867262698729382,
      "loss": 5.0472,
      "mean_token_accuracy": 0.20281360745429994,
      "num_tokens": 74719151.0,
      "step": 40490
    },
    {
      "entropy": 5.449999237060547,
      "epoch": 3.4021003990758243,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003867002752274088,
      "loss": 5.0027,
      "mean_token_accuracy": 0.19472084939479828,
      "num_tokens": 74729182.0,
      "step": 40495
    },
    {
      "entropy": 5.5444001197814945,
      "epoch": 3.402520478890989,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003866742786031666,
      "loss": 5.0577,
      "mean_token_accuracy": 0.20681241452693938,
      "num_tokens": 74738434.0,
      "step": 40500
    },
    {
      "entropy": 5.4415568828582765,
      "epoch": 3.4029405587061543,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003866482800006721,
      "loss": 5.0309,
      "mean_token_accuracy": 0.2003248706459999,
      "num_tokens": 74748400.0,
      "step": 40505
    },
    {
      "entropy": 5.411762475967407,
      "epoch": 3.403360638521319,
      "grad_norm": 1.109375,
      "learning_rate": 0.00038662227942038574,
      "loss": 5.058,
      "mean_token_accuracy": 0.19938201755285262,
      "num_tokens": 74757901.0,
      "step": 40510
    },
    {
      "entropy": 5.455457353591919,
      "epoch": 3.403780718336484,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00038659627686276824,
      "loss": 5.0328,
      "mean_token_accuracy": 0.20066287517547607,
      "num_tokens": 74766042.0,
      "step": 40515
    },
    {
      "entropy": 5.514354419708252,
      "epoch": 3.4042007981516487,
      "grad_norm": 1.09375,
      "learning_rate": 0.00038657027232828,
      "loss": 5.084,
      "mean_token_accuracy": 0.19570484906435012,
      "num_tokens": 74775056.0,
      "step": 40520
    },
    {
      "entropy": 5.495581912994385,
      "epoch": 3.4046208779668135,
      "grad_norm": 1.03125,
      "learning_rate": 0.00038654426581738205,
      "loss": 5.0822,
      "mean_token_accuracy": 0.19961578100919725,
      "num_tokens": 74784829.0,
      "step": 40525
    },
    {
      "entropy": 5.409826564788818,
      "epoch": 3.4050409577819787,
      "grad_norm": 1.09375,
      "learning_rate": 0.00038651825733053473,
      "loss": 4.9421,
      "mean_token_accuracy": 0.2015688896179199,
      "num_tokens": 74794497.0,
      "step": 40530
    },
    {
      "entropy": 5.522252702713013,
      "epoch": 3.4054610375971435,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00038649224686819895,
      "loss": 5.0878,
      "mean_token_accuracy": 0.19538922607898712,
      "num_tokens": 74803630.0,
      "step": 40535
    },
    {
      "entropy": 5.476738834381104,
      "epoch": 3.4058811174123083,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003864662344308354,
      "loss": 5.0426,
      "mean_token_accuracy": 0.1987762540578842,
      "num_tokens": 74812616.0,
      "step": 40540
    },
    {
      "entropy": 5.406031942367553,
      "epoch": 3.406301197227473,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00038644022001890494,
      "loss": 4.8936,
      "mean_token_accuracy": 0.21230674684047698,
      "num_tokens": 74820455.0,
      "step": 40545
    },
    {
      "entropy": 5.4990434646606445,
      "epoch": 3.4067212770426383,
      "grad_norm": 1.171875,
      "learning_rate": 0.00038641420363286834,
      "loss": 5.11,
      "mean_token_accuracy": 0.20019388645887376,
      "num_tokens": 74830264.0,
      "step": 40550
    },
    {
      "entropy": 5.483749151229858,
      "epoch": 3.407141356857803,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00038638818527318654,
      "loss": 5.0576,
      "mean_token_accuracy": 0.19607429802417756,
      "num_tokens": 74840859.0,
      "step": 40555
    },
    {
      "entropy": 5.38458743095398,
      "epoch": 3.407561436672968,
      "grad_norm": 1.140625,
      "learning_rate": 0.00038636216494032026,
      "loss": 4.8985,
      "mean_token_accuracy": 0.21218152195215226,
      "num_tokens": 74848979.0,
      "step": 40560
    },
    {
      "entropy": 5.4542311668396,
      "epoch": 3.4079815164881326,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003863361426347307,
      "loss": 5.0525,
      "mean_token_accuracy": 0.1917337715625763,
      "num_tokens": 74857874.0,
      "step": 40565
    },
    {
      "entropy": 5.480398225784302,
      "epoch": 3.408401596303298,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003863101183568786,
      "loss": 4.9701,
      "mean_token_accuracy": 0.20834922790527344,
      "num_tokens": 74866692.0,
      "step": 40570
    },
    {
      "entropy": 5.495686960220337,
      "epoch": 3.4088216761184627,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003862840921072252,
      "loss": 5.1161,
      "mean_token_accuracy": 0.19376163929700851,
      "num_tokens": 74876562.0,
      "step": 40575
    },
    {
      "entropy": 5.455256175994873,
      "epoch": 3.4092417559336274,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003862580638862314,
      "loss": 5.0539,
      "mean_token_accuracy": 0.20594460219144822,
      "num_tokens": 74886253.0,
      "step": 40580
    },
    {
      "entropy": 5.487432336807251,
      "epoch": 3.4096618357487922,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003862320336943582,
      "loss": 5.0015,
      "mean_token_accuracy": 0.200858236849308,
      "num_tokens": 74895078.0,
      "step": 40585
    },
    {
      "entropy": 5.405425119400024,
      "epoch": 3.410081915563957,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003862060015320668,
      "loss": 5.0111,
      "mean_token_accuracy": 0.2061142459511757,
      "num_tokens": 74904492.0,
      "step": 40590
    },
    {
      "entropy": 5.461684942245483,
      "epoch": 3.4105019953791222,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003861799673998184,
      "loss": 4.9902,
      "mean_token_accuracy": 0.20406969785690307,
      "num_tokens": 74912976.0,
      "step": 40595
    },
    {
      "entropy": 5.498585557937622,
      "epoch": 3.410922075194287,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003861539312980741,
      "loss": 5.108,
      "mean_token_accuracy": 0.19797789603471755,
      "num_tokens": 74921932.0,
      "step": 40600
    },
    {
      "entropy": 5.437571859359741,
      "epoch": 3.411342155009452,
      "grad_norm": 1.09375,
      "learning_rate": 0.00038612789322729513,
      "loss": 5.0349,
      "mean_token_accuracy": 0.20264993906021117,
      "num_tokens": 74930955.0,
      "step": 40605
    },
    {
      "entropy": 5.428435039520264,
      "epoch": 3.4117622348246166,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00038610185318794284,
      "loss": 4.9753,
      "mean_token_accuracy": 0.20630134642124176,
      "num_tokens": 74940590.0,
      "step": 40610
    },
    {
      "entropy": 5.352909326553345,
      "epoch": 3.4121823146397814,
      "grad_norm": 1.09375,
      "learning_rate": 0.00038607581118047836,
      "loss": 4.8768,
      "mean_token_accuracy": 0.21115022301673889,
      "num_tokens": 74948891.0,
      "step": 40615
    },
    {
      "entropy": 5.4320228576660154,
      "epoch": 3.4126023944549466,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00038604976720536306,
      "loss": 5.0296,
      "mean_token_accuracy": 0.20025899708271028,
      "num_tokens": 74957596.0,
      "step": 40620
    },
    {
      "entropy": 5.4445878028869625,
      "epoch": 3.4130224742701114,
      "grad_norm": 1.09375,
      "learning_rate": 0.00038602372126305827,
      "loss": 5.0135,
      "mean_token_accuracy": 0.19605618119239807,
      "num_tokens": 74966038.0,
      "step": 40625
    },
    {
      "entropy": 5.472671413421631,
      "epoch": 3.413442554085276,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00038599767335402554,
      "loss": 5.0631,
      "mean_token_accuracy": 0.1951650932431221,
      "num_tokens": 74975712.0,
      "step": 40630
    },
    {
      "entropy": 5.483481979370117,
      "epoch": 3.413862633900441,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003859716234787261,
      "loss": 5.0105,
      "mean_token_accuracy": 0.20387724339962005,
      "num_tokens": 74985067.0,
      "step": 40635
    },
    {
      "entropy": 5.467191171646118,
      "epoch": 3.4142827137156058,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003859455716376216,
      "loss": 5.0265,
      "mean_token_accuracy": 0.2054082378745079,
      "num_tokens": 74994576.0,
      "step": 40640
    },
    {
      "entropy": 5.4792993545532225,
      "epoch": 3.414702793530771,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00038591951783117337,
      "loss": 5.095,
      "mean_token_accuracy": 0.20241142958402633,
      "num_tokens": 75003553.0,
      "step": 40645
    },
    {
      "entropy": 5.4546546459198,
      "epoch": 3.415122873345936,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003858934620598429,
      "loss": 5.0226,
      "mean_token_accuracy": 0.197981595993042,
      "num_tokens": 75014293.0,
      "step": 40650
    },
    {
      "entropy": 5.508466720581055,
      "epoch": 3.4155429531611006,
      "grad_norm": 1.046875,
      "learning_rate": 0.00038586740432409197,
      "loss": 5.0533,
      "mean_token_accuracy": 0.20178150236606598,
      "num_tokens": 75024229.0,
      "step": 40655
    },
    {
      "entropy": 5.5003293514251705,
      "epoch": 3.4159630329762654,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00038584134462438203,
      "loss": 5.027,
      "mean_token_accuracy": 0.19792052656412124,
      "num_tokens": 75033278.0,
      "step": 40660
    },
    {
      "entropy": 5.486445617675781,
      "epoch": 3.41638311279143,
      "grad_norm": 1.1875,
      "learning_rate": 0.00038581528296117475,
      "loss": 5.0735,
      "mean_token_accuracy": 0.20035867542028427,
      "num_tokens": 75041656.0,
      "step": 40665
    },
    {
      "entropy": 5.452560949325561,
      "epoch": 3.4168031926065954,
      "grad_norm": 1.046875,
      "learning_rate": 0.00038578921933493177,
      "loss": 5.0473,
      "mean_token_accuracy": 0.1974870517849922,
      "num_tokens": 75050512.0,
      "step": 40670
    },
    {
      "entropy": 5.465746116638184,
      "epoch": 3.41722327242176,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00038576315374611486,
      "loss": 4.9998,
      "mean_token_accuracy": 0.20467359870672225,
      "num_tokens": 75059617.0,
      "step": 40675
    },
    {
      "entropy": 5.438613080978394,
      "epoch": 3.417643352236925,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003857370861951857,
      "loss": 5.0399,
      "mean_token_accuracy": 0.19988192915916442,
      "num_tokens": 75068484.0,
      "step": 40680
    },
    {
      "entropy": 5.468395090103149,
      "epoch": 3.4180634320520897,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000385711016682606,
      "loss": 5.0541,
      "mean_token_accuracy": 0.19752930253744125,
      "num_tokens": 75078348.0,
      "step": 40685
    },
    {
      "entropy": 5.412497615814209,
      "epoch": 3.418483511867255,
      "grad_norm": 1.078125,
      "learning_rate": 0.00038568494520883776,
      "loss": 4.965,
      "mean_token_accuracy": 0.20852314233779906,
      "num_tokens": 75087545.0,
      "step": 40690
    },
    {
      "entropy": 5.43758339881897,
      "epoch": 3.4189035916824198,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003856588717743426,
      "loss": 5.0164,
      "mean_token_accuracy": 0.20768542736768722,
      "num_tokens": 75096879.0,
      "step": 40695
    },
    {
      "entropy": 5.4454100131988525,
      "epoch": 3.4193236714975845,
      "grad_norm": 1.109375,
      "learning_rate": 0.00038563279637958257,
      "loss": 5.0426,
      "mean_token_accuracy": 0.19985296726226806,
      "num_tokens": 75105432.0,
      "step": 40700
    },
    {
      "entropy": 5.514800691604615,
      "epoch": 3.4197437513127493,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003856067190250195,
      "loss": 4.9823,
      "mean_token_accuracy": 0.2011534944176674,
      "num_tokens": 75114344.0,
      "step": 40705
    },
    {
      "entropy": 5.494446516036987,
      "epoch": 3.420163831127914,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003855806397111154,
      "loss": 5.0288,
      "mean_token_accuracy": 0.1949902281165123,
      "num_tokens": 75123133.0,
      "step": 40710
    },
    {
      "entropy": 5.387330484390259,
      "epoch": 3.4205839109430793,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003855545584383322,
      "loss": 5.0336,
      "mean_token_accuracy": 0.19842806160449983,
      "num_tokens": 75131891.0,
      "step": 40715
    },
    {
      "entropy": 5.484302139282226,
      "epoch": 3.421003990758244,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003855284752071319,
      "loss": 4.9951,
      "mean_token_accuracy": 0.1992482587695122,
      "num_tokens": 75140984.0,
      "step": 40720
    },
    {
      "entropy": 5.494569206237793,
      "epoch": 3.421424070573409,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003855023900179766,
      "loss": 5.0776,
      "mean_token_accuracy": 0.1976949840784073,
      "num_tokens": 75150234.0,
      "step": 40725
    },
    {
      "entropy": 5.549234008789062,
      "epoch": 3.4218441503885737,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003854763028713283,
      "loss": 5.0593,
      "mean_token_accuracy": 0.20432066321372985,
      "num_tokens": 75159821.0,
      "step": 40730
    },
    {
      "entropy": 5.485028886795044,
      "epoch": 3.422264230203739,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00038545021376764927,
      "loss": 5.0121,
      "mean_token_accuracy": 0.2040502518415451,
      "num_tokens": 75168998.0,
      "step": 40735
    },
    {
      "entropy": 5.525961589813233,
      "epoch": 3.4226843100189037,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003854241227074015,
      "loss": 5.1584,
      "mean_token_accuracy": 0.1925112634897232,
      "num_tokens": 75178661.0,
      "step": 40740
    },
    {
      "entropy": 5.445058012008667,
      "epoch": 3.4231043898340685,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003853980296910474,
      "loss": 5.0688,
      "mean_token_accuracy": 0.20515697002410888,
      "num_tokens": 75188226.0,
      "step": 40745
    },
    {
      "entropy": 5.541611766815185,
      "epoch": 3.4235244696492333,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003853719347190489,
      "loss": 5.0414,
      "mean_token_accuracy": 0.1949280396103859,
      "num_tokens": 75198500.0,
      "step": 40750
    },
    {
      "entropy": 5.505728006362915,
      "epoch": 3.423944549464398,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00038534583779186837,
      "loss": 5.0145,
      "mean_token_accuracy": 0.20165918618440629,
      "num_tokens": 75208190.0,
      "step": 40755
    },
    {
      "entropy": 5.429992818832398,
      "epoch": 3.4243646292795633,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003853197389099682,
      "loss": 4.9979,
      "mean_token_accuracy": 0.19410203844308854,
      "num_tokens": 75218341.0,
      "step": 40760
    },
    {
      "entropy": 5.452588605880737,
      "epoch": 3.424784709094728,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00038529363807381073,
      "loss": 5.0795,
      "mean_token_accuracy": 0.19990892559289933,
      "num_tokens": 75227327.0,
      "step": 40765
    },
    {
      "entropy": 5.539063882827759,
      "epoch": 3.425204788909893,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003852675352838582,
      "loss": 5.1127,
      "mean_token_accuracy": 0.18678201586008072,
      "num_tokens": 75236217.0,
      "step": 40770
    },
    {
      "entropy": 5.456395673751831,
      "epoch": 3.4256248687250577,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003852414305405731,
      "loss": 5.0018,
      "mean_token_accuracy": 0.2018206983804703,
      "num_tokens": 75244899.0,
      "step": 40775
    },
    {
      "entropy": 5.453414821624756,
      "epoch": 3.4260449485402225,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00038521532384441776,
      "loss": 4.9893,
      "mean_token_accuracy": 0.20739129930734634,
      "num_tokens": 75254020.0,
      "step": 40780
    },
    {
      "entropy": 5.535255289077758,
      "epoch": 3.4264650283553877,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003851892151958548,
      "loss": 5.0665,
      "mean_token_accuracy": 0.20011708438396453,
      "num_tokens": 75263135.0,
      "step": 40785
    },
    {
      "entropy": 5.405239582061768,
      "epoch": 3.4268851081705525,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003851631045953466,
      "loss": 4.9409,
      "mean_token_accuracy": 0.20157843083143234,
      "num_tokens": 75271488.0,
      "step": 40790
    },
    {
      "entropy": 5.480167293548584,
      "epoch": 3.4273051879857173,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003851369920433557,
      "loss": 5.0829,
      "mean_token_accuracy": 0.19455181062221527,
      "num_tokens": 75279702.0,
      "step": 40795
    },
    {
      "entropy": 5.495739603042603,
      "epoch": 3.427725267800882,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003851108775403446,
      "loss": 5.0818,
      "mean_token_accuracy": 0.20110051184892655,
      "num_tokens": 75289891.0,
      "step": 40800
    },
    {
      "entropy": 5.433069515228271,
      "epoch": 3.428145347616047,
      "grad_norm": 1.359375,
      "learning_rate": 0.0003850847610867761,
      "loss": 5.0161,
      "mean_token_accuracy": 0.19561911076307298,
      "num_tokens": 75298620.0,
      "step": 40805
    },
    {
      "entropy": 5.436840152740478,
      "epoch": 3.428565427431212,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003850586426831128,
      "loss": 4.9949,
      "mean_token_accuracy": 0.20416095107793808,
      "num_tokens": 75307554.0,
      "step": 40810
    },
    {
      "entropy": 5.49204797744751,
      "epoch": 3.428985507246377,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0003850325223298173,
      "loss": 5.0141,
      "mean_token_accuracy": 0.19911001920700072,
      "num_tokens": 75316507.0,
      "step": 40815
    },
    {
      "entropy": 5.510222244262695,
      "epoch": 3.4294055870615416,
      "grad_norm": 1.046875,
      "learning_rate": 0.00038500640002735225,
      "loss": 5.0362,
      "mean_token_accuracy": 0.1986050635576248,
      "num_tokens": 75326831.0,
      "step": 40820
    },
    {
      "entropy": 5.476550006866455,
      "epoch": 3.4298256668767064,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003849802757761805,
      "loss": 5.0587,
      "mean_token_accuracy": 0.19637830406427384,
      "num_tokens": 75335292.0,
      "step": 40825
    },
    {
      "entropy": 5.393226480484008,
      "epoch": 3.430245746691871,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003849541495767648,
      "loss": 4.9933,
      "mean_token_accuracy": 0.19616372883319855,
      "num_tokens": 75343858.0,
      "step": 40830
    },
    {
      "entropy": 5.415771865844727,
      "epoch": 3.4306658265070364,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00038492802142956796,
      "loss": 4.9075,
      "mean_token_accuracy": 0.2149045556783676,
      "num_tokens": 75353065.0,
      "step": 40835
    },
    {
      "entropy": 5.492343378067017,
      "epoch": 3.4310859063222012,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003849018913350528,
      "loss": 5.005,
      "mean_token_accuracy": 0.20628959983587264,
      "num_tokens": 75361224.0,
      "step": 40840
    },
    {
      "entropy": 5.4302510738372805,
      "epoch": 3.431505986137366,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003848757592936823,
      "loss": 5.0138,
      "mean_token_accuracy": 0.20292054563760759,
      "num_tokens": 75370703.0,
      "step": 40845
    },
    {
      "entropy": 5.4968091487884525,
      "epoch": 3.431926065952531,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00038484962530591923,
      "loss": 5.132,
      "mean_token_accuracy": 0.19122759252786636,
      "num_tokens": 75380893.0,
      "step": 40850
    },
    {
      "entropy": 5.48719596862793,
      "epoch": 3.432346145767696,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003848234893722267,
      "loss": 5.0134,
      "mean_token_accuracy": 0.19674866944551467,
      "num_tokens": 75390258.0,
      "step": 40855
    },
    {
      "entropy": 5.519319629669189,
      "epoch": 3.432766225582861,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003847973514930675,
      "loss": 5.1114,
      "mean_token_accuracy": 0.1955449640750885,
      "num_tokens": 75398988.0,
      "step": 40860
    },
    {
      "entropy": 5.451078033447265,
      "epoch": 3.4331863053980256,
      "grad_norm": 1.03125,
      "learning_rate": 0.00038477121166890485,
      "loss": 4.9525,
      "mean_token_accuracy": 0.21323716938495635,
      "num_tokens": 75407961.0,
      "step": 40865
    },
    {
      "entropy": 5.528894519805908,
      "epoch": 3.4336063852131904,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003847450699002016,
      "loss": 5.1227,
      "mean_token_accuracy": 0.2018387258052826,
      "num_tokens": 75417626.0,
      "step": 40870
    },
    {
      "entropy": 5.4885646343231205,
      "epoch": 3.4340264650283556,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00038471892618742107,
      "loss": 5.0103,
      "mean_token_accuracy": 0.2023346409201622,
      "num_tokens": 75427310.0,
      "step": 40875
    },
    {
      "entropy": 5.450112438201904,
      "epoch": 3.4344465448435204,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003846927805310261,
      "loss": 5.0482,
      "mean_token_accuracy": 0.19290814697742462,
      "num_tokens": 75436441.0,
      "step": 40880
    },
    {
      "entropy": 5.356011581420899,
      "epoch": 3.434866624658685,
      "grad_norm": 1.109375,
      "learning_rate": 0.00038466663293148016,
      "loss": 4.8837,
      "mean_token_accuracy": 0.2098330855369568,
      "num_tokens": 75445458.0,
      "step": 40885
    },
    {
      "entropy": 5.496508550643921,
      "epoch": 3.43528670447385,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00038464048338924617,
      "loss": 5.022,
      "mean_token_accuracy": 0.20561931729316713,
      "num_tokens": 75453512.0,
      "step": 40890
    },
    {
      "entropy": 5.519711208343506,
      "epoch": 3.4357067842890148,
      "grad_norm": 1.0625,
      "learning_rate": 0.00038461433190478754,
      "loss": 5.0292,
      "mean_token_accuracy": 0.2017187237739563,
      "num_tokens": 75462441.0,
      "step": 40895
    },
    {
      "entropy": 5.560032987594605,
      "epoch": 3.43612686410418,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003845881784785674,
      "loss": 5.1366,
      "mean_token_accuracy": 0.19255332499742508,
      "num_tokens": 75471779.0,
      "step": 40900
    },
    {
      "entropy": 5.540117502212524,
      "epoch": 3.436546943919345,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00038456202311104923,
      "loss": 5.0322,
      "mean_token_accuracy": 0.19619752764701842,
      "num_tokens": 75481295.0,
      "step": 40905
    },
    {
      "entropy": 5.462241697311401,
      "epoch": 3.4369670237345096,
      "grad_norm": 1.046875,
      "learning_rate": 0.00038453586580269617,
      "loss": 5.0056,
      "mean_token_accuracy": 0.20859057903289796,
      "num_tokens": 75490481.0,
      "step": 40910
    },
    {
      "entropy": 5.462757349014282,
      "epoch": 3.4373871035496744,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003845097065539716,
      "loss": 5.0781,
      "mean_token_accuracy": 0.20217459350824357,
      "num_tokens": 75499641.0,
      "step": 40915
    },
    {
      "entropy": 5.5030420303344725,
      "epoch": 3.437807183364839,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00038448354536533907,
      "loss": 5.0653,
      "mean_token_accuracy": 0.19237901270389557,
      "num_tokens": 75509765.0,
      "step": 40920
    },
    {
      "entropy": 5.3904952049255375,
      "epoch": 3.4382272631800044,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00038445738223726186,
      "loss": 5.0011,
      "mean_token_accuracy": 0.20173240900039674,
      "num_tokens": 75518557.0,
      "step": 40925
    },
    {
      "entropy": 5.579208898544311,
      "epoch": 3.438647342995169,
      "grad_norm": 1.203125,
      "learning_rate": 0.00038443121717020344,
      "loss": 5.1646,
      "mean_token_accuracy": 0.18969812989234924,
      "num_tokens": 75529176.0,
      "step": 40930
    },
    {
      "entropy": 5.579456806182861,
      "epoch": 3.439067422810334,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003844050501646274,
      "loss": 5.0799,
      "mean_token_accuracy": 0.19687377512454987,
      "num_tokens": 75539783.0,
      "step": 40935
    },
    {
      "entropy": 5.462978172302246,
      "epoch": 3.4394875026254987,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003843788812209972,
      "loss": 4.9674,
      "mean_token_accuracy": 0.20107146650552749,
      "num_tokens": 75549593.0,
      "step": 40940
    },
    {
      "entropy": 5.502810907363892,
      "epoch": 3.4399075824406635,
      "grad_norm": 1.1875,
      "learning_rate": 0.00038435271033977655,
      "loss": 5.1218,
      "mean_token_accuracy": 0.1899283319711685,
      "num_tokens": 75558975.0,
      "step": 40945
    },
    {
      "entropy": 5.534721040725708,
      "epoch": 3.4403276622558288,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003843265375214289,
      "loss": 5.0897,
      "mean_token_accuracy": 0.19405411034822465,
      "num_tokens": 75568554.0,
      "step": 40950
    },
    {
      "entropy": 5.525910043716431,
      "epoch": 3.4407477420709935,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00038430036276641783,
      "loss": 4.9823,
      "mean_token_accuracy": 0.20394998043775558,
      "num_tokens": 75578048.0,
      "step": 40955
    },
    {
      "entropy": 5.490762090682983,
      "epoch": 3.4411678218861583,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003842741860752072,
      "loss": 5.0917,
      "mean_token_accuracy": 0.19722630828619003,
      "num_tokens": 75586200.0,
      "step": 40960
    },
    {
      "entropy": 5.3852372646331785,
      "epoch": 3.441587901701323,
      "grad_norm": 1.0,
      "learning_rate": 0.0003842480074482606,
      "loss": 5.0086,
      "mean_token_accuracy": 0.19892919510602952,
      "num_tokens": 75596437.0,
      "step": 40965
    },
    {
      "entropy": 5.539888668060303,
      "epoch": 3.442007981516488,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003842218268860418,
      "loss": 5.1255,
      "mean_token_accuracy": 0.1956578642129898,
      "num_tokens": 75605893.0,
      "step": 40970
    },
    {
      "entropy": 5.469661855697632,
      "epoch": 3.442428061331653,
      "grad_norm": 1.21875,
      "learning_rate": 0.00038419564438901463,
      "loss": 4.9612,
      "mean_token_accuracy": 0.19987479001283645,
      "num_tokens": 75614837.0,
      "step": 40975
    },
    {
      "entropy": 5.433281660079956,
      "epoch": 3.442848141146818,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00038416945995764273,
      "loss": 4.9824,
      "mean_token_accuracy": 0.2082405760884285,
      "num_tokens": 75623854.0,
      "step": 40980
    },
    {
      "entropy": 5.452407503128052,
      "epoch": 3.4432682209619827,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003841432735923902,
      "loss": 4.9856,
      "mean_token_accuracy": 0.20098990797996522,
      "num_tokens": 75632988.0,
      "step": 40985
    },
    {
      "entropy": 5.446196365356445,
      "epoch": 3.4436883007771475,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003841170852937207,
      "loss": 4.9873,
      "mean_token_accuracy": 0.2119635298848152,
      "num_tokens": 75641342.0,
      "step": 40990
    },
    {
      "entropy": 5.562172746658325,
      "epoch": 3.4441083805923127,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003840908950620982,
      "loss": 5.0829,
      "mean_token_accuracy": 0.19349974691867827,
      "num_tokens": 75650529.0,
      "step": 40995
    },
    {
      "entropy": 5.456056785583496,
      "epoch": 3.4445284604074775,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003840647028979867,
      "loss": 5.0241,
      "mean_token_accuracy": 0.19862892627716064,
      "num_tokens": 75658669.0,
      "step": 41000
    },
    {
      "entropy": 5.453283596038818,
      "epoch": 3.4449485402226423,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003840385088018502,
      "loss": 5.001,
      "mean_token_accuracy": 0.1929282397031784,
      "num_tokens": 75667282.0,
      "step": 41005
    },
    {
      "entropy": 5.428957128524781,
      "epoch": 3.445368620037807,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003840123127741526,
      "loss": 5.0088,
      "mean_token_accuracy": 0.2010923817753792,
      "num_tokens": 75677501.0,
      "step": 41010
    },
    {
      "entropy": 5.528344774246216,
      "epoch": 3.4457886998529723,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00038398611481535813,
      "loss": 5.0763,
      "mean_token_accuracy": 0.20110705494880676,
      "num_tokens": 75686813.0,
      "step": 41015
    },
    {
      "entropy": 5.49477744102478,
      "epoch": 3.446208779668137,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003839599149259306,
      "loss": 4.9537,
      "mean_token_accuracy": 0.2048243135213852,
      "num_tokens": 75696832.0,
      "step": 41020
    },
    {
      "entropy": 5.473042726516724,
      "epoch": 3.446628859483302,
      "grad_norm": 1.09375,
      "learning_rate": 0.00038393371310633433,
      "loss": 4.988,
      "mean_token_accuracy": 0.20905155688524246,
      "num_tokens": 75705187.0,
      "step": 41025
    },
    {
      "entropy": 5.381354284286499,
      "epoch": 3.4470489392984667,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003839075093570334,
      "loss": 4.9212,
      "mean_token_accuracy": 0.21016015708446503,
      "num_tokens": 75714647.0,
      "step": 41030
    },
    {
      "entropy": 5.479573345184326,
      "epoch": 3.4474690191136315,
      "grad_norm": 1.09375,
      "learning_rate": 0.00038388130367849205,
      "loss": 5.0208,
      "mean_token_accuracy": 0.20302651077508926,
      "num_tokens": 75723312.0,
      "step": 41035
    },
    {
      "entropy": 5.395028209686279,
      "epoch": 3.4478890989287967,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003838550960711745,
      "loss": 4.9345,
      "mean_token_accuracy": 0.20351990610361098,
      "num_tokens": 75732562.0,
      "step": 41040
    },
    {
      "entropy": 5.43521785736084,
      "epoch": 3.4483091787439615,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003838288865355449,
      "loss": 5.0483,
      "mean_token_accuracy": 0.19510994106531143,
      "num_tokens": 75741381.0,
      "step": 41045
    },
    {
      "entropy": 5.533602952957153,
      "epoch": 3.4487292585591263,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003838026750720677,
      "loss": 5.069,
      "mean_token_accuracy": 0.20449003130197524,
      "num_tokens": 75750088.0,
      "step": 41050
    },
    {
      "entropy": 5.4367148876190186,
      "epoch": 3.449149338374291,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00038377646168120716,
      "loss": 4.9767,
      "mean_token_accuracy": 0.20012434870004653,
      "num_tokens": 75758854.0,
      "step": 41055
    },
    {
      "entropy": 5.423186492919922,
      "epoch": 3.449569418189456,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003837502463634275,
      "loss": 4.9557,
      "mean_token_accuracy": 0.20564365088939668,
      "num_tokens": 75767780.0,
      "step": 41060
    },
    {
      "entropy": 5.482051753997803,
      "epoch": 3.449989498004621,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003837240291191933,
      "loss": 5.0554,
      "mean_token_accuracy": 0.19927644580602646,
      "num_tokens": 75776466.0,
      "step": 41065
    },
    {
      "entropy": 5.486250400543213,
      "epoch": 3.450409577819786,
      "grad_norm": 1.109375,
      "learning_rate": 0.00038369780994896885,
      "loss": 5.0845,
      "mean_token_accuracy": 0.19662293046712875,
      "num_tokens": 75785320.0,
      "step": 41070
    },
    {
      "entropy": 5.51581654548645,
      "epoch": 3.4508296576349506,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003836715888532187,
      "loss": 5.106,
      "mean_token_accuracy": 0.1975643366575241,
      "num_tokens": 75794234.0,
      "step": 41075
    },
    {
      "entropy": 5.527983236312866,
      "epoch": 3.4512497374501154,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003836453658324074,
      "loss": 5.0174,
      "mean_token_accuracy": 0.200880266726017,
      "num_tokens": 75803360.0,
      "step": 41080
    },
    {
      "entropy": 5.469915199279785,
      "epoch": 3.45166981726528,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003836191408869993,
      "loss": 5.0617,
      "mean_token_accuracy": 0.1952296406030655,
      "num_tokens": 75812803.0,
      "step": 41085
    },
    {
      "entropy": 5.441331815719605,
      "epoch": 3.4520898970804454,
      "grad_norm": 1.078125,
      "learning_rate": 0.000383592914017459,
      "loss": 4.9994,
      "mean_token_accuracy": 0.19888804852962494,
      "num_tokens": 75821808.0,
      "step": 41090
    },
    {
      "entropy": 5.532679080963135,
      "epoch": 3.4525099768956102,
      "grad_norm": 1.171875,
      "learning_rate": 0.00038356668522425126,
      "loss": 5.0456,
      "mean_token_accuracy": 0.20265995264053344,
      "num_tokens": 75831241.0,
      "step": 41095
    },
    {
      "entropy": 5.506904411315918,
      "epoch": 3.452930056710775,
      "grad_norm": 1.078125,
      "learning_rate": 0.00038354045450784047,
      "loss": 5.0158,
      "mean_token_accuracy": 0.2003818467259407,
      "num_tokens": 75840641.0,
      "step": 41100
    },
    {
      "entropy": 5.448131322860718,
      "epoch": 3.45335013652594,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003835142218686915,
      "loss": 4.9716,
      "mean_token_accuracy": 0.21236786842346192,
      "num_tokens": 75850598.0,
      "step": 41105
    },
    {
      "entropy": 5.5280944347381595,
      "epoch": 3.4537702163411046,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00038348798730726894,
      "loss": 5.0171,
      "mean_token_accuracy": 0.19781518280506133,
      "num_tokens": 75859090.0,
      "step": 41110
    },
    {
      "entropy": 5.336886167526245,
      "epoch": 3.45419029615627,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003834617508240376,
      "loss": 4.9025,
      "mean_token_accuracy": 0.2113900825381279,
      "num_tokens": 75868241.0,
      "step": 41115
    },
    {
      "entropy": 5.525928640365601,
      "epoch": 3.4546103759714346,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003834355124194621,
      "loss": 5.0476,
      "mean_token_accuracy": 0.19343876391649245,
      "num_tokens": 75877440.0,
      "step": 41120
    },
    {
      "entropy": 5.51067795753479,
      "epoch": 3.4550304557865994,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003834092720940074,
      "loss": 5.0804,
      "mean_token_accuracy": 0.18958785384893417,
      "num_tokens": 75886847.0,
      "step": 41125
    },
    {
      "entropy": 5.478569984436035,
      "epoch": 3.455450535601764,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003833830298481383,
      "loss": 4.9768,
      "mean_token_accuracy": 0.20850801169872285,
      "num_tokens": 75895510.0,
      "step": 41130
    },
    {
      "entropy": 5.464271306991577,
      "epoch": 3.455870615416929,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003833567856823195,
      "loss": 5.0082,
      "mean_token_accuracy": 0.19979150593280792,
      "num_tokens": 75903942.0,
      "step": 41135
    },
    {
      "entropy": 5.583533000946045,
      "epoch": 3.456290695232094,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00038333053959701613,
      "loss": 5.1719,
      "mean_token_accuracy": 0.19547093212604522,
      "num_tokens": 75913758.0,
      "step": 41140
    },
    {
      "entropy": 5.4530348777771,
      "epoch": 3.456710775047259,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003833042915926931,
      "loss": 4.8986,
      "mean_token_accuracy": 0.20908272713422776,
      "num_tokens": 75922648.0,
      "step": 41145
    },
    {
      "entropy": 5.392917633056641,
      "epoch": 3.4571308548624238,
      "grad_norm": 1.140625,
      "learning_rate": 0.00038327804166981525,
      "loss": 4.9539,
      "mean_token_accuracy": 0.1997313380241394,
      "num_tokens": 75930532.0,
      "step": 41150
    },
    {
      "entropy": 5.434253597259522,
      "epoch": 3.4575509346775886,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00038325178982884754,
      "loss": 5.0175,
      "mean_token_accuracy": 0.20280464738607407,
      "num_tokens": 75939641.0,
      "step": 41155
    },
    {
      "entropy": 5.534775114059448,
      "epoch": 3.457971014492754,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003832255360702553,
      "loss": 5.0369,
      "mean_token_accuracy": 0.2056378647685051,
      "num_tokens": 75948197.0,
      "step": 41160
    },
    {
      "entropy": 5.512594079971313,
      "epoch": 3.4583910943079186,
      "grad_norm": 1.09375,
      "learning_rate": 0.00038319928039450327,
      "loss": 5.0166,
      "mean_token_accuracy": 0.19563610404729842,
      "num_tokens": 75957723.0,
      "step": 41165
    },
    {
      "entropy": 5.445789051055908,
      "epoch": 3.4588111741230834,
      "grad_norm": 1.15625,
      "learning_rate": 0.00038317302280205674,
      "loss": 5.014,
      "mean_token_accuracy": 0.20068946480751038,
      "num_tokens": 75966115.0,
      "step": 41170
    },
    {
      "entropy": 5.46546368598938,
      "epoch": 3.459231253938248,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003831467632933808,
      "loss": 4.9701,
      "mean_token_accuracy": 0.20936256349086763,
      "num_tokens": 75975533.0,
      "step": 41175
    },
    {
      "entropy": 5.51211256980896,
      "epoch": 3.4596513337534134,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003831205018689407,
      "loss": 5.0678,
      "mean_token_accuracy": 0.19951923340559005,
      "num_tokens": 75985019.0,
      "step": 41180
    },
    {
      "entropy": 5.452103900909424,
      "epoch": 3.460071413568578,
      "grad_norm": 1.0,
      "learning_rate": 0.00038309423852920155,
      "loss": 5.0174,
      "mean_token_accuracy": 0.2046293944120407,
      "num_tokens": 75993643.0,
      "step": 41185
    },
    {
      "entropy": 5.413336944580078,
      "epoch": 3.460491493383743,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003830679732746286,
      "loss": 4.9831,
      "mean_token_accuracy": 0.20422203093767166,
      "num_tokens": 76001924.0,
      "step": 41190
    },
    {
      "entropy": 5.428873014450073,
      "epoch": 3.4609115731989077,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003830417061056872,
      "loss": 4.9324,
      "mean_token_accuracy": 0.20035141408443452,
      "num_tokens": 76010886.0,
      "step": 41195
    },
    {
      "entropy": 5.376210784912109,
      "epoch": 3.4613316530140725,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003830154370228426,
      "loss": 4.9988,
      "mean_token_accuracy": 0.20099999606609345,
      "num_tokens": 76020232.0,
      "step": 41200
    },
    {
      "entropy": 5.470735359191894,
      "epoch": 3.4617517328292378,
      "grad_norm": 1.125,
      "learning_rate": 0.00038298916602656015,
      "loss": 5.0649,
      "mean_token_accuracy": 0.2005816876888275,
      "num_tokens": 76028998.0,
      "step": 41205
    },
    {
      "entropy": 5.49908218383789,
      "epoch": 3.4621718126444025,
      "grad_norm": 1.046875,
      "learning_rate": 0.00038296289311730514,
      "loss": 5.0528,
      "mean_token_accuracy": 0.19627745151519777,
      "num_tokens": 76038283.0,
      "step": 41210
    },
    {
      "entropy": 5.534060668945313,
      "epoch": 3.4625918924595673,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003829366182955432,
      "loss": 5.0709,
      "mean_token_accuracy": 0.19778421968221666,
      "num_tokens": 76046224.0,
      "step": 41215
    },
    {
      "entropy": 5.502718591690064,
      "epoch": 3.463011972274732,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003829103415617396,
      "loss": 5.0836,
      "mean_token_accuracy": 0.2007381021976471,
      "num_tokens": 76055485.0,
      "step": 41220
    },
    {
      "entropy": 5.545775365829468,
      "epoch": 3.463432052089897,
      "grad_norm": 1.03125,
      "learning_rate": 0.00038288406291635984,
      "loss": 5.096,
      "mean_token_accuracy": 0.1985618993639946,
      "num_tokens": 76065540.0,
      "step": 41225
    },
    {
      "entropy": 5.407785654067993,
      "epoch": 3.463852131905062,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003828577823598695,
      "loss": 4.9898,
      "mean_token_accuracy": 0.19965862929821016,
      "num_tokens": 76074498.0,
      "step": 41230
    },
    {
      "entropy": 5.47554874420166,
      "epoch": 3.464272211720227,
      "grad_norm": 1.0390625,
      "learning_rate": 0.000382831499892734,
      "loss": 5.0281,
      "mean_token_accuracy": 0.20668607354164123,
      "num_tokens": 76083852.0,
      "step": 41235
    },
    {
      "entropy": 5.584385871887207,
      "epoch": 3.4646922915353917,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0003828052155154191,
      "loss": 5.0373,
      "mean_token_accuracy": 0.19565241038799286,
      "num_tokens": 76093024.0,
      "step": 41240
    },
    {
      "entropy": 5.439512729644775,
      "epoch": 3.4651123713505565,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003827789292283903,
      "loss": 5.0129,
      "mean_token_accuracy": 0.20153848230838775,
      "num_tokens": 76102121.0,
      "step": 41245
    },
    {
      "entropy": 5.536998319625854,
      "epoch": 3.4655324511657213,
      "grad_norm": 1.125,
      "learning_rate": 0.0003827526410321132,
      "loss": 5.0671,
      "mean_token_accuracy": 0.2032197743654251,
      "num_tokens": 76111142.0,
      "step": 41250
    },
    {
      "entropy": 5.557734775543213,
      "epoch": 3.4659525309808865,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003827263509270536,
      "loss": 5.1495,
      "mean_token_accuracy": 0.19065097868442535,
      "num_tokens": 76120731.0,
      "step": 41255
    },
    {
      "entropy": 5.524546480178833,
      "epoch": 3.4663726107960513,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00038270005891367714,
      "loss": 5.0646,
      "mean_token_accuracy": 0.20327293127775192,
      "num_tokens": 76130596.0,
      "step": 41260
    },
    {
      "entropy": 5.532450103759766,
      "epoch": 3.466792690611216,
      "grad_norm": 1.046875,
      "learning_rate": 0.00038267376499244964,
      "loss": 5.0414,
      "mean_token_accuracy": 0.20358449965715408,
      "num_tokens": 76139608.0,
      "step": 41265
    },
    {
      "entropy": 5.374439907073975,
      "epoch": 3.467212770426381,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003826474691638368,
      "loss": 4.9381,
      "mean_token_accuracy": 0.20462915301322937,
      "num_tokens": 76148920.0,
      "step": 41270
    },
    {
      "entropy": 5.465162944793701,
      "epoch": 3.4676328502415457,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003826211714283045,
      "loss": 5.0215,
      "mean_token_accuracy": 0.20404383391141892,
      "num_tokens": 76158078.0,
      "step": 41275
    },
    {
      "entropy": 5.563294792175293,
      "epoch": 3.468052930056711,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003825948717863186,
      "loss": 5.1835,
      "mean_token_accuracy": 0.19669724851846696,
      "num_tokens": 76167646.0,
      "step": 41280
    },
    {
      "entropy": 5.424388122558594,
      "epoch": 3.4684730098718757,
      "grad_norm": 1.03125,
      "learning_rate": 0.00038256857023834484,
      "loss": 4.9575,
      "mean_token_accuracy": 0.20363347977399826,
      "num_tokens": 76176963.0,
      "step": 41285
    },
    {
      "entropy": 5.534464597702026,
      "epoch": 3.4688930896870405,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0003825422667848494,
      "loss": 5.0793,
      "mean_token_accuracy": 0.19392135441303254,
      "num_tokens": 76186315.0,
      "step": 41290
    },
    {
      "entropy": 5.543946933746338,
      "epoch": 3.4693131695022053,
      "grad_norm": 1.078125,
      "learning_rate": 0.00038251596142629794,
      "loss": 5.1232,
      "mean_token_accuracy": 0.19673240929841995,
      "num_tokens": 76195425.0,
      "step": 41295
    },
    {
      "entropy": 5.459482288360595,
      "epoch": 3.4697332493173705,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003824896541631566,
      "loss": 5.1086,
      "mean_token_accuracy": 0.1936744123697281,
      "num_tokens": 76204843.0,
      "step": 41300
    },
    {
      "entropy": 5.442884302139282,
      "epoch": 3.4701533291325353,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00038246334499589143,
      "loss": 5.0033,
      "mean_token_accuracy": 0.2036924511194229,
      "num_tokens": 76213880.0,
      "step": 41305
    },
    {
      "entropy": 5.549981021881104,
      "epoch": 3.4705734089477,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003824370339249684,
      "loss": 5.0144,
      "mean_token_accuracy": 0.20382943004369736,
      "num_tokens": 76222849.0,
      "step": 41310
    },
    {
      "entropy": 5.450321388244629,
      "epoch": 3.470993488762865,
      "grad_norm": 1.0,
      "learning_rate": 0.0003824107209508537,
      "loss": 4.9689,
      "mean_token_accuracy": 0.20037074238061905,
      "num_tokens": 76231893.0,
      "step": 41315
    },
    {
      "entropy": 5.417607831954956,
      "epoch": 3.47141356857803,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003823844060740133,
      "loss": 4.9913,
      "mean_token_accuracy": 0.20615085661411287,
      "num_tokens": 76241866.0,
      "step": 41320
    },
    {
      "entropy": 5.431712055206299,
      "epoch": 3.471833648393195,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00038235808929491355,
      "loss": 4.9969,
      "mean_token_accuracy": 0.20035785883665086,
      "num_tokens": 76251297.0,
      "step": 41325
    },
    {
      "entropy": 5.431808280944824,
      "epoch": 3.4722537282083596,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003823317706140205,
      "loss": 4.9986,
      "mean_token_accuracy": 0.2028497725725174,
      "num_tokens": 76260685.0,
      "step": 41330
    },
    {
      "entropy": 5.376401805877686,
      "epoch": 3.4726738080235244,
      "grad_norm": 1.03125,
      "learning_rate": 0.00038230545003180034,
      "loss": 4.9733,
      "mean_token_accuracy": 0.20760480165481568,
      "num_tokens": 76269843.0,
      "step": 41335
    },
    {
      "entropy": 5.458782768249511,
      "epoch": 3.473093887838689,
      "grad_norm": 1.0,
      "learning_rate": 0.00038227912754871943,
      "loss": 5.0099,
      "mean_token_accuracy": 0.2039141833782196,
      "num_tokens": 76279589.0,
      "step": 41340
    },
    {
      "entropy": 5.526598501205444,
      "epoch": 3.4735139676538545,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00038225280316524403,
      "loss": 5.101,
      "mean_token_accuracy": 0.19005334079265596,
      "num_tokens": 76288639.0,
      "step": 41345
    },
    {
      "entropy": 5.535937833786011,
      "epoch": 3.4739340474690192,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003822264768818404,
      "loss": 5.0722,
      "mean_token_accuracy": 0.19739603847265244,
      "num_tokens": 76297998.0,
      "step": 41350
    },
    {
      "entropy": 5.450116062164307,
      "epoch": 3.474354127284184,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000382200148698975,
      "loss": 5.0061,
      "mean_token_accuracy": 0.21035348922014235,
      "num_tokens": 76307604.0,
      "step": 41355
    },
    {
      "entropy": 5.541557025909424,
      "epoch": 3.474774207099349,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00038217381861711407,
      "loss": 5.1468,
      "mean_token_accuracy": 0.20088689178228378,
      "num_tokens": 76317697.0,
      "step": 41360
    },
    {
      "entropy": 5.498522424697876,
      "epoch": 3.4751942869145136,
      "grad_norm": 1.0625,
      "learning_rate": 0.00038214748663672424,
      "loss": 5.0923,
      "mean_token_accuracy": 0.19884381741285323,
      "num_tokens": 76327261.0,
      "step": 41365
    },
    {
      "entropy": 5.487779951095581,
      "epoch": 3.475614366729679,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00038212115275827177,
      "loss": 5.0171,
      "mean_token_accuracy": 0.20712169408798217,
      "num_tokens": 76336891.0,
      "step": 41370
    },
    {
      "entropy": 5.44382495880127,
      "epoch": 3.4760344465448436,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003820948169822233,
      "loss": 5.0091,
      "mean_token_accuracy": 0.19680973887443542,
      "num_tokens": 76346283.0,
      "step": 41375
    },
    {
      "entropy": 5.389850187301636,
      "epoch": 3.4764545263600084,
      "grad_norm": 1.03125,
      "learning_rate": 0.00038206847930904526,
      "loss": 5.0279,
      "mean_token_accuracy": 0.19664961099624634,
      "num_tokens": 76355670.0,
      "step": 41380
    },
    {
      "entropy": 5.4611061096191404,
      "epoch": 3.476874606175173,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00038204213973920423,
      "loss": 4.9705,
      "mean_token_accuracy": 0.21042758226394653,
      "num_tokens": 76364450.0,
      "step": 41385
    },
    {
      "entropy": 5.484128808975219,
      "epoch": 3.477294685990338,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00038201579827316684,
      "loss": 5.0735,
      "mean_token_accuracy": 0.19710435718297958,
      "num_tokens": 76374463.0,
      "step": 41390
    },
    {
      "entropy": 5.545244026184082,
      "epoch": 3.477714765805503,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003819894549113997,
      "loss": 5.1219,
      "mean_token_accuracy": 0.19710880368947983,
      "num_tokens": 76383772.0,
      "step": 41395
    },
    {
      "entropy": 5.493653392791748,
      "epoch": 3.478134845620668,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00038196310965436944,
      "loss": 5.0031,
      "mean_token_accuracy": 0.19973784387111665,
      "num_tokens": 76392463.0,
      "step": 41400
    },
    {
      "entropy": 5.459275484085083,
      "epoch": 3.478554925435833,
      "grad_norm": 1.09375,
      "learning_rate": 0.00038193676250254275,
      "loss": 4.9659,
      "mean_token_accuracy": 0.20418081134557725,
      "num_tokens": 76401193.0,
      "step": 41405
    },
    {
      "entropy": 5.531175374984741,
      "epoch": 3.4789750052509976,
      "grad_norm": 1.109375,
      "learning_rate": 0.00038191041345638643,
      "loss": 5.1275,
      "mean_token_accuracy": 0.189747554063797,
      "num_tokens": 76410069.0,
      "step": 41410
    },
    {
      "entropy": 5.497206497192383,
      "epoch": 3.4793950850661624,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00038188406251636717,
      "loss": 4.9909,
      "mean_token_accuracy": 0.20094853937625884,
      "num_tokens": 76419501.0,
      "step": 41415
    },
    {
      "entropy": 5.4364001750946045,
      "epoch": 3.4798151648813276,
      "grad_norm": 1.09375,
      "learning_rate": 0.00038185770968295177,
      "loss": 4.9458,
      "mean_token_accuracy": 0.20155225843191146,
      "num_tokens": 76428387.0,
      "step": 41420
    },
    {
      "entropy": 5.480662298202515,
      "epoch": 3.4802352446964924,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00038183135495660703,
      "loss": 4.9951,
      "mean_token_accuracy": 0.20440648049116134,
      "num_tokens": 76437358.0,
      "step": 41425
    },
    {
      "entropy": 5.507395505905151,
      "epoch": 3.480655324511657,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003818049983377999,
      "loss": 5.0854,
      "mean_token_accuracy": 0.19561264514923096,
      "num_tokens": 76446368.0,
      "step": 41430
    },
    {
      "entropy": 5.45729250907898,
      "epoch": 3.481075404326822,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003817786398269972,
      "loss": 4.9906,
      "mean_token_accuracy": 0.20268238186836243,
      "num_tokens": 76455646.0,
      "step": 41435
    },
    {
      "entropy": 5.450510168075562,
      "epoch": 3.4814954841419867,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003817522794246658,
      "loss": 4.9863,
      "mean_token_accuracy": 0.20552006959915162,
      "num_tokens": 76464257.0,
      "step": 41440
    },
    {
      "entropy": 5.536026048660278,
      "epoch": 3.481915563957152,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00038172591713127286,
      "loss": 5.09,
      "mean_token_accuracy": 0.20061916410923003,
      "num_tokens": 76473196.0,
      "step": 41445
    },
    {
      "entropy": 5.554019975662231,
      "epoch": 3.4823356437723167,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003816995529472853,
      "loss": 5.0391,
      "mean_token_accuracy": 0.1972286134958267,
      "num_tokens": 76482448.0,
      "step": 41450
    },
    {
      "entropy": 5.483493947982788,
      "epoch": 3.4827557235874815,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00038167318687316995,
      "loss": 5.0151,
      "mean_token_accuracy": 0.2031298831105232,
      "num_tokens": 76491934.0,
      "step": 41455
    },
    {
      "entropy": 5.558355617523193,
      "epoch": 3.4831758034026463,
      "grad_norm": 1.109375,
      "learning_rate": 0.00038164681890939404,
      "loss": 5.0839,
      "mean_token_accuracy": 0.1901874214410782,
      "num_tokens": 76501156.0,
      "step": 41460
    },
    {
      "entropy": 5.523767709732056,
      "epoch": 3.4835958832178116,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003816204490564247,
      "loss": 5.1302,
      "mean_token_accuracy": 0.20073478519916535,
      "num_tokens": 76510618.0,
      "step": 41465
    },
    {
      "entropy": 5.550440502166748,
      "epoch": 3.4840159630329763,
      "grad_norm": 1.09375,
      "learning_rate": 0.000381594077314729,
      "loss": 5.0976,
      "mean_token_accuracy": 0.19419453144073487,
      "num_tokens": 76519996.0,
      "step": 41470
    },
    {
      "entropy": 5.547517204284668,
      "epoch": 3.484436042848141,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00038156770368477416,
      "loss": 5.0983,
      "mean_token_accuracy": 0.20769452005624772,
      "num_tokens": 76529689.0,
      "step": 41475
    },
    {
      "entropy": 5.578455924987793,
      "epoch": 3.484856122663306,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00038154132816702724,
      "loss": 5.1168,
      "mean_token_accuracy": 0.19237210303545,
      "num_tokens": 76539661.0,
      "step": 41480
    },
    {
      "entropy": 5.441878604888916,
      "epoch": 3.485276202478471,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0003815149507619556,
      "loss": 4.9798,
      "mean_token_accuracy": 0.20315326750278473,
      "num_tokens": 76549506.0,
      "step": 41485
    },
    {
      "entropy": 5.47716875076294,
      "epoch": 3.485696282293636,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003814885714700264,
      "loss": 5.0197,
      "mean_token_accuracy": 0.2038324072957039,
      "num_tokens": 76558789.0,
      "step": 41490
    },
    {
      "entropy": 5.2550825595855715,
      "epoch": 3.4861163621088007,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00038146219029170703,
      "loss": 4.8221,
      "mean_token_accuracy": 0.21396696865558623,
      "num_tokens": 76567206.0,
      "step": 41495
    },
    {
      "entropy": 5.422353887557984,
      "epoch": 3.4865364419239655,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003814358072274648,
      "loss": 5.057,
      "mean_token_accuracy": 0.20134238451719283,
      "num_tokens": 76576853.0,
      "step": 41500
    },
    {
      "entropy": 5.558528041839599,
      "epoch": 3.4869565217391303,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000381409422277767,
      "loss": 5.0698,
      "mean_token_accuracy": 0.2005823642015457,
      "num_tokens": 76585933.0,
      "step": 41505
    },
    {
      "entropy": 5.47581639289856,
      "epoch": 3.4873766015542955,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00038138303544308104,
      "loss": 4.9997,
      "mean_token_accuracy": 0.19718085378408431,
      "num_tokens": 76596144.0,
      "step": 41510
    },
    {
      "entropy": 5.379652738571167,
      "epoch": 3.4877966813694603,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00038135664672387455,
      "loss": 4.9152,
      "mean_token_accuracy": 0.2056207224726677,
      "num_tokens": 76605607.0,
      "step": 41515
    },
    {
      "entropy": 5.533599710464477,
      "epoch": 3.488216761184625,
      "grad_norm": 1.03125,
      "learning_rate": 0.00038133025612061466,
      "loss": 4.9902,
      "mean_token_accuracy": 0.20906775295734406,
      "num_tokens": 76614312.0,
      "step": 41520
    },
    {
      "entropy": 5.450262641906738,
      "epoch": 3.48863684099979,
      "grad_norm": 1.09375,
      "learning_rate": 0.00038130386363376915,
      "loss": 5.0252,
      "mean_token_accuracy": 0.19539981931447983,
      "num_tokens": 76623065.0,
      "step": 41525
    },
    {
      "entropy": 5.447417163848877,
      "epoch": 3.4890569208149547,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00038127746926380535,
      "loss": 5.0125,
      "mean_token_accuracy": 0.19917043745517732,
      "num_tokens": 76632745.0,
      "step": 41530
    },
    {
      "entropy": 5.432551050186158,
      "epoch": 3.48947700063012,
      "grad_norm": 1.0625,
      "learning_rate": 0.000381251073011191,
      "loss": 4.9985,
      "mean_token_accuracy": 0.20124377310276031,
      "num_tokens": 76641623.0,
      "step": 41535
    },
    {
      "entropy": 5.456607437133789,
      "epoch": 3.4898970804452847,
      "grad_norm": 1.171875,
      "learning_rate": 0.00038122467487639353,
      "loss": 4.9648,
      "mean_token_accuracy": 0.2027956247329712,
      "num_tokens": 76651807.0,
      "step": 41540
    },
    {
      "entropy": 5.4497520446777346,
      "epoch": 3.4903171602604495,
      "grad_norm": 1.09375,
      "learning_rate": 0.00038119827485988064,
      "loss": 4.974,
      "mean_token_accuracy": 0.206527279317379,
      "num_tokens": 76660685.0,
      "step": 41545
    },
    {
      "entropy": 5.395687294006348,
      "epoch": 3.4907372400756143,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00038117187296212004,
      "loss": 4.9809,
      "mean_token_accuracy": 0.20999170392751693,
      "num_tokens": 76669883.0,
      "step": 41550
    },
    {
      "entropy": 5.524146890640258,
      "epoch": 3.491157319890779,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003811454691835794,
      "loss": 5.1038,
      "mean_token_accuracy": 0.1943800538778305,
      "num_tokens": 76679632.0,
      "step": 41555
    },
    {
      "entropy": 5.493244600296021,
      "epoch": 3.4915773997059443,
      "grad_norm": 1.046875,
      "learning_rate": 0.00038111906352472635,
      "loss": 4.9991,
      "mean_token_accuracy": 0.19568003565073014,
      "num_tokens": 76689812.0,
      "step": 41560
    },
    {
      "entropy": 5.390092658996582,
      "epoch": 3.491997479521109,
      "grad_norm": 1.0625,
      "learning_rate": 0.00038109265598602876,
      "loss": 4.9009,
      "mean_token_accuracy": 0.20770749151706697,
      "num_tokens": 76698812.0,
      "step": 41565
    },
    {
      "entropy": 5.463917541503906,
      "epoch": 3.492417559336274,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003810662465679544,
      "loss": 4.9696,
      "mean_token_accuracy": 0.207610122859478,
      "num_tokens": 76708533.0,
      "step": 41570
    },
    {
      "entropy": 5.360050296783447,
      "epoch": 3.4928376391514386,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003810398352709711,
      "loss": 4.9772,
      "mean_token_accuracy": 0.20495412796735762,
      "num_tokens": 76717374.0,
      "step": 41575
    },
    {
      "entropy": 5.444409656524658,
      "epoch": 3.4932577189666034,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003810134220955467,
      "loss": 4.9289,
      "mean_token_accuracy": 0.2027680605649948,
      "num_tokens": 76727220.0,
      "step": 41580
    },
    {
      "entropy": 5.484855890274048,
      "epoch": 3.4936777987817687,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00038098700704214915,
      "loss": 4.9329,
      "mean_token_accuracy": 0.20602016150951385,
      "num_tokens": 76735294.0,
      "step": 41585
    },
    {
      "entropy": 5.420042657852173,
      "epoch": 3.4940978785969334,
      "grad_norm": 1.0625,
      "learning_rate": 0.00038096059011124634,
      "loss": 5.0165,
      "mean_token_accuracy": 0.20611792355775832,
      "num_tokens": 76744713.0,
      "step": 41590
    },
    {
      "entropy": 5.43375883102417,
      "epoch": 3.4945179584120982,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00038093417130330627,
      "loss": 5.0461,
      "mean_token_accuracy": 0.19638347178697585,
      "num_tokens": 76754310.0,
      "step": 41595
    },
    {
      "entropy": 5.480909442901611,
      "epoch": 3.494938038227263,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003809077506187968,
      "loss": 4.9607,
      "mean_token_accuracy": 0.20083897411823273,
      "num_tokens": 76763381.0,
      "step": 41600
    },
    {
      "entropy": 5.57161283493042,
      "epoch": 3.4953581180424282,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00038088132805818615,
      "loss": 5.038,
      "mean_token_accuracy": 0.20269301235675813,
      "num_tokens": 76773529.0,
      "step": 41605
    },
    {
      "entropy": 5.375495052337646,
      "epoch": 3.495778197857593,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003808549036219423,
      "loss": 4.9538,
      "mean_token_accuracy": 0.20782232135534287,
      "num_tokens": 76782942.0,
      "step": 41610
    },
    {
      "entropy": 5.417570018768311,
      "epoch": 3.496198277672758,
      "grad_norm": 1.125,
      "learning_rate": 0.0003808284773105333,
      "loss": 5.0119,
      "mean_token_accuracy": 0.20199276357889176,
      "num_tokens": 76792492.0,
      "step": 41615
    },
    {
      "entropy": 5.5388813495635985,
      "epoch": 3.4966183574879226,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00038080204912442736,
      "loss": 5.0881,
      "mean_token_accuracy": 0.20440490692853927,
      "num_tokens": 76801123.0,
      "step": 41620
    },
    {
      "entropy": 5.461342191696167,
      "epoch": 3.497038437303088,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003807756190640926,
      "loss": 4.9818,
      "mean_token_accuracy": 0.20227698534727095,
      "num_tokens": 76809967.0,
      "step": 41625
    },
    {
      "entropy": 5.459470510482788,
      "epoch": 3.4974585171182526,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003807491871299971,
      "loss": 5.009,
      "mean_token_accuracy": 0.20300271064043046,
      "num_tokens": 76819493.0,
      "step": 41630
    },
    {
      "entropy": 5.417534685134887,
      "epoch": 3.4978785969334174,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003807227533226094,
      "loss": 4.9701,
      "mean_token_accuracy": 0.20952384173870087,
      "num_tokens": 76828904.0,
      "step": 41635
    },
    {
      "entropy": 5.4514768600463865,
      "epoch": 3.498298676748582,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003806963176423974,
      "loss": 4.9856,
      "mean_token_accuracy": 0.20161315947771072,
      "num_tokens": 76837779.0,
      "step": 41640
    },
    {
      "entropy": 5.439222002029419,
      "epoch": 3.498718756563747,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00038066988008982956,
      "loss": 4.9527,
      "mean_token_accuracy": 0.2036299392580986,
      "num_tokens": 76847351.0,
      "step": 41645
    },
    {
      "entropy": 5.424342489242553,
      "epoch": 3.499138836378912,
      "grad_norm": 1.046875,
      "learning_rate": 0.00038064344066537426,
      "loss": 5.0108,
      "mean_token_accuracy": 0.20303388983011245,
      "num_tokens": 76856845.0,
      "step": 41650
    },
    {
      "entropy": 5.387444305419922,
      "epoch": 3.499558916194077,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003806169993694998,
      "loss": 4.9631,
      "mean_token_accuracy": 0.21378893554210662,
      "num_tokens": 76866644.0,
      "step": 41655
    },
    {
      "entropy": 5.509460496902466,
      "epoch": 3.499978996009242,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003805905562026746,
      "loss": 5.0332,
      "mean_token_accuracy": 0.19724536389112474,
      "num_tokens": 76876853.0,
      "step": 41660
    },
    {
      "entropy": 5.459852838516236,
      "epoch": 3.5003990758244066,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003805641111653671,
      "loss": 5.0025,
      "mean_token_accuracy": 0.2029399186372757,
      "num_tokens": 76885474.0,
      "step": 41665
    },
    {
      "entropy": 5.433602428436279,
      "epoch": 3.5008191556395714,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00038053766425804567,
      "loss": 5.0738,
      "mean_token_accuracy": 0.1998681202530861,
      "num_tokens": 76894270.0,
      "step": 41670
    },
    {
      "entropy": 5.484888982772827,
      "epoch": 3.5012392354547366,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003805112154811789,
      "loss": 5.0739,
      "mean_token_accuracy": 0.18991642594337463,
      "num_tokens": 76903142.0,
      "step": 41675
    },
    {
      "entropy": 5.444649362564087,
      "epoch": 3.5016593152699014,
      "grad_norm": 1.109375,
      "learning_rate": 0.00038048476483523524,
      "loss": 4.9911,
      "mean_token_accuracy": 0.20166407525539398,
      "num_tokens": 76912221.0,
      "step": 41680
    },
    {
      "entropy": 5.484684705734253,
      "epoch": 3.502079395085066,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003804583123206833,
      "loss": 4.9876,
      "mean_token_accuracy": 0.19778616428375245,
      "num_tokens": 76921107.0,
      "step": 41685
    },
    {
      "entropy": 5.45374608039856,
      "epoch": 3.502499474900231,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003804318579379917,
      "loss": 4.9967,
      "mean_token_accuracy": 0.20603076219558716,
      "num_tokens": 76930101.0,
      "step": 41690
    },
    {
      "entropy": 5.442806005477905,
      "epoch": 3.5029195547153957,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00038040540168762896,
      "loss": 5.0025,
      "mean_token_accuracy": 0.2081575497984886,
      "num_tokens": 76938360.0,
      "step": 41695
    },
    {
      "entropy": 5.427228164672852,
      "epoch": 3.503339634530561,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003803789435700638,
      "loss": 4.9887,
      "mean_token_accuracy": 0.20752579867839813,
      "num_tokens": 76947636.0,
      "step": 41700
    },
    {
      "entropy": 5.398689317703247,
      "epoch": 3.5037597143457258,
      "grad_norm": 1.1875,
      "learning_rate": 0.00038035248358576494,
      "loss": 5.006,
      "mean_token_accuracy": 0.20310582220554352,
      "num_tokens": 76956383.0,
      "step": 41705
    },
    {
      "entropy": 5.5037037372589115,
      "epoch": 3.5041797941608905,
      "grad_norm": 0.96484375,
      "learning_rate": 0.00038032602173520105,
      "loss": 4.9951,
      "mean_token_accuracy": 0.1982650950551033,
      "num_tokens": 76966690.0,
      "step": 41710
    },
    {
      "entropy": 5.439539098739624,
      "epoch": 3.5045998739760553,
      "grad_norm": 1.0078125,
      "learning_rate": 0.000380299558018841,
      "loss": 4.9412,
      "mean_token_accuracy": 0.20539876967668533,
      "num_tokens": 76975910.0,
      "step": 41715
    },
    {
      "entropy": 5.42870831489563,
      "epoch": 3.50501995379122,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00038027309243715345,
      "loss": 5.0573,
      "mean_token_accuracy": 0.19935128539800645,
      "num_tokens": 76984562.0,
      "step": 41720
    },
    {
      "entropy": 5.460022211074829,
      "epoch": 3.5054400336063853,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003802466249906073,
      "loss": 5.0476,
      "mean_token_accuracy": 0.2115870714187622,
      "num_tokens": 76994533.0,
      "step": 41725
    },
    {
      "entropy": 5.441394472122193,
      "epoch": 3.50586011342155,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003802201556796713,
      "loss": 4.9168,
      "mean_token_accuracy": 0.21067630648612976,
      "num_tokens": 77003380.0,
      "step": 41730
    },
    {
      "entropy": 5.484267234802246,
      "epoch": 3.506280193236715,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003801936845048145,
      "loss": 4.9623,
      "mean_token_accuracy": 0.20023953318595886,
      "num_tokens": 77011633.0,
      "step": 41735
    },
    {
      "entropy": 5.4393682956695555,
      "epoch": 3.5067002730518797,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003801672114665058,
      "loss": 4.9506,
      "mean_token_accuracy": 0.2058985337615013,
      "num_tokens": 77019578.0,
      "step": 41740
    },
    {
      "entropy": 5.4331118106842045,
      "epoch": 3.5071203528670445,
      "grad_norm": 0.953125,
      "learning_rate": 0.00038014073656521404,
      "loss": 5.0011,
      "mean_token_accuracy": 0.20780327916145325,
      "num_tokens": 77029989.0,
      "step": 41745
    },
    {
      "entropy": 5.515163612365723,
      "epoch": 3.5075404326822097,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003801142598014083,
      "loss": 4.9319,
      "mean_token_accuracy": 0.20574312657117844,
      "num_tokens": 77038598.0,
      "step": 41750
    },
    {
      "entropy": 5.418437480926514,
      "epoch": 3.5079605124973745,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003800877811755575,
      "loss": 4.9806,
      "mean_token_accuracy": 0.20142956972122192,
      "num_tokens": 77047903.0,
      "step": 41755
    },
    {
      "entropy": 5.39657826423645,
      "epoch": 3.5083805923125393,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003800613006881308,
      "loss": 5.0012,
      "mean_token_accuracy": 0.19692383259534835,
      "num_tokens": 77058100.0,
      "step": 41760
    },
    {
      "entropy": 5.501422119140625,
      "epoch": 3.5088006721277045,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003800348183395972,
      "loss": 5.0423,
      "mean_token_accuracy": 0.20195895433425903,
      "num_tokens": 77067263.0,
      "step": 41765
    },
    {
      "entropy": 5.477256107330322,
      "epoch": 3.5092207519428693,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000380008334130426,
      "loss": 4.9239,
      "mean_token_accuracy": 0.20895657688379288,
      "num_tokens": 77076126.0,
      "step": 41770
    },
    {
      "entropy": 5.465082120895386,
      "epoch": 3.509640831758034,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00037998184806108614,
      "loss": 5.0493,
      "mean_token_accuracy": 0.1933387905359268,
      "num_tokens": 77085125.0,
      "step": 41775
    },
    {
      "entropy": 5.439409494400024,
      "epoch": 3.510060911573199,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003799553601320469,
      "loss": 5.0925,
      "mean_token_accuracy": 0.19547776877880096,
      "num_tokens": 77095129.0,
      "step": 41780
    },
    {
      "entropy": 5.48917407989502,
      "epoch": 3.5104809913883637,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003799288703437776,
      "loss": 4.9085,
      "mean_token_accuracy": 0.21522203981876373,
      "num_tokens": 77104291.0,
      "step": 41785
    },
    {
      "entropy": 5.526667976379395,
      "epoch": 3.510901071203529,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003799023786967473,
      "loss": 5.0678,
      "mean_token_accuracy": 0.19765110611915587,
      "num_tokens": 77113909.0,
      "step": 41790
    },
    {
      "entropy": 5.412902116775513,
      "epoch": 3.5113211510186937,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003798758851914254,
      "loss": 4.9308,
      "mean_token_accuracy": 0.2091570734977722,
      "num_tokens": 77122819.0,
      "step": 41795
    },
    {
      "entropy": 5.39959864616394,
      "epoch": 3.5117412308338585,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0003798493898282813,
      "loss": 4.957,
      "mean_token_accuracy": 0.20854039937257768,
      "num_tokens": 77132194.0,
      "step": 41800
    },
    {
      "entropy": 5.386740398406983,
      "epoch": 3.5121613106490233,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00037982289260778406,
      "loss": 4.8902,
      "mean_token_accuracy": 0.21232289373874663,
      "num_tokens": 77140867.0,
      "step": 41805
    },
    {
      "entropy": 5.430442810058594,
      "epoch": 3.512581390464188,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00037979639353040337,
      "loss": 4.9666,
      "mean_token_accuracy": 0.2089992344379425,
      "num_tokens": 77149518.0,
      "step": 41810
    },
    {
      "entropy": 5.466576719284058,
      "epoch": 3.5130014702793533,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003797698925966085,
      "loss": 4.9974,
      "mean_token_accuracy": 0.20694968700408936,
      "num_tokens": 77158918.0,
      "step": 41815
    },
    {
      "entropy": 5.459132432937622,
      "epoch": 3.513421550094518,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00037974338980686895,
      "loss": 5.0238,
      "mean_token_accuracy": 0.20669765025377274,
      "num_tokens": 77167704.0,
      "step": 41820
    },
    {
      "entropy": 5.406196117401123,
      "epoch": 3.513841629909683,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00037971688516165415,
      "loss": 4.9803,
      "mean_token_accuracy": 0.20528312772512436,
      "num_tokens": 77176515.0,
      "step": 41825
    },
    {
      "entropy": 5.490673065185547,
      "epoch": 3.5142617097248476,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00037969037866143366,
      "loss": 5.0277,
      "mean_token_accuracy": 0.20830559581518174,
      "num_tokens": 77185823.0,
      "step": 41830
    },
    {
      "entropy": 5.565599584579468,
      "epoch": 3.5146817895400124,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000379663870306677,
      "loss": 5.1457,
      "mean_token_accuracy": 0.1971273809671402,
      "num_tokens": 77194924.0,
      "step": 41835
    },
    {
      "entropy": 5.472319459915161,
      "epoch": 3.5151018693551777,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003796373600978539,
      "loss": 5.0245,
      "mean_token_accuracy": 0.2010311961174011,
      "num_tokens": 77204225.0,
      "step": 41840
    },
    {
      "entropy": 5.435476589202881,
      "epoch": 3.5155219491703424,
      "grad_norm": 1.09375,
      "learning_rate": 0.00037961084803543366,
      "loss": 4.9821,
      "mean_token_accuracy": 0.20526840090751647,
      "num_tokens": 77213497.0,
      "step": 41845
    },
    {
      "entropy": 5.362583017349243,
      "epoch": 3.5159420289855072,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0003795843341198862,
      "loss": 4.8992,
      "mean_token_accuracy": 0.20755566656589508,
      "num_tokens": 77223240.0,
      "step": 41850
    },
    {
      "entropy": 5.421979141235352,
      "epoch": 3.516362108800672,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003795578183516811,
      "loss": 4.9407,
      "mean_token_accuracy": 0.20885917097330092,
      "num_tokens": 77231892.0,
      "step": 41855
    },
    {
      "entropy": 5.443962049484253,
      "epoch": 3.516782188615837,
      "grad_norm": 1.078125,
      "learning_rate": 0.00037953130073128813,
      "loss": 5.0095,
      "mean_token_accuracy": 0.1957622915506363,
      "num_tokens": 77241383.0,
      "step": 41860
    },
    {
      "entropy": 5.438236904144287,
      "epoch": 3.517202268431002,
      "grad_norm": 1.046875,
      "learning_rate": 0.000379504781259177,
      "loss": 5.1056,
      "mean_token_accuracy": 0.19746636748313903,
      "num_tokens": 77250772.0,
      "step": 41865
    },
    {
      "entropy": 5.449894046783447,
      "epoch": 3.517622348246167,
      "grad_norm": 1.046875,
      "learning_rate": 0.00037947825993581743,
      "loss": 4.8898,
      "mean_token_accuracy": 0.211791555583477,
      "num_tokens": 77259806.0,
      "step": 41870
    },
    {
      "entropy": 5.561887931823731,
      "epoch": 3.5180424280613316,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00037945173676167933,
      "loss": 5.1641,
      "mean_token_accuracy": 0.19744636714458466,
      "num_tokens": 77269459.0,
      "step": 41875
    },
    {
      "entropy": 5.491716289520264,
      "epoch": 3.5184625078764964,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003794252117372324,
      "loss": 5.0352,
      "mean_token_accuracy": 0.20012157261371613,
      "num_tokens": 77279906.0,
      "step": 41880
    },
    {
      "entropy": 5.524547100067139,
      "epoch": 3.518882587691661,
      "grad_norm": 1.03125,
      "learning_rate": 0.00037939868486294676,
      "loss": 5.0602,
      "mean_token_accuracy": 0.20342698991298674,
      "num_tokens": 77288532.0,
      "step": 41885
    },
    {
      "entropy": 5.457267951965332,
      "epoch": 3.5193026675068264,
      "grad_norm": 1.0625,
      "learning_rate": 0.00037937215613929203,
      "loss": 4.9907,
      "mean_token_accuracy": 0.19673568159341812,
      "num_tokens": 77297761.0,
      "step": 41890
    },
    {
      "entropy": 5.436402130126953,
      "epoch": 3.519722747321991,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003793456255667384,
      "loss": 4.9455,
      "mean_token_accuracy": 0.20855904072523118,
      "num_tokens": 77306156.0,
      "step": 41895
    },
    {
      "entropy": 5.433886194229126,
      "epoch": 3.520142827137156,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00037931909314575573,
      "loss": 5.0154,
      "mean_token_accuracy": 0.19941528141498566,
      "num_tokens": 77315757.0,
      "step": 41900
    },
    {
      "entropy": 5.504807090759277,
      "epoch": 3.520562906952321,
      "grad_norm": 1.03125,
      "learning_rate": 0.000379292558876814,
      "loss": 5.0467,
      "mean_token_accuracy": 0.20079787373542785,
      "num_tokens": 77324878.0,
      "step": 41905
    },
    {
      "entropy": 5.522071790695191,
      "epoch": 3.5209829867674856,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003792660227603833,
      "loss": 5.0455,
      "mean_token_accuracy": 0.19743926525115968,
      "num_tokens": 77334048.0,
      "step": 41910
    },
    {
      "entropy": 5.557227563858032,
      "epoch": 3.521403066582651,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003792394847969337,
      "loss": 5.0654,
      "mean_token_accuracy": 0.20169486850500107,
      "num_tokens": 77342993.0,
      "step": 41915
    },
    {
      "entropy": 5.3832965850830075,
      "epoch": 3.5218231463978156,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003792129449869353,
      "loss": 4.9926,
      "mean_token_accuracy": 0.20021698027849197,
      "num_tokens": 77351418.0,
      "step": 41920
    },
    {
      "entropy": 5.438527965545655,
      "epoch": 3.5222432262129804,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00037918640333085824,
      "loss": 4.9811,
      "mean_token_accuracy": 0.20835264772176743,
      "num_tokens": 77360236.0,
      "step": 41925
    },
    {
      "entropy": 5.485334491729736,
      "epoch": 3.5226633060281456,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003791598598291727,
      "loss": 5.033,
      "mean_token_accuracy": 0.1983895018696785,
      "num_tokens": 77369731.0,
      "step": 41930
    },
    {
      "entropy": 5.505442333221436,
      "epoch": 3.5230833858433104,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003791333144823489,
      "loss": 5.0407,
      "mean_token_accuracy": 0.1994910329580307,
      "num_tokens": 77378058.0,
      "step": 41935
    },
    {
      "entropy": 5.489244842529297,
      "epoch": 3.523503465658475,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003791067672908571,
      "loss": 5.0831,
      "mean_token_accuracy": 0.20719923526048661,
      "num_tokens": 77387201.0,
      "step": 41940
    },
    {
      "entropy": 5.4999340057373045,
      "epoch": 3.52392354547364,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003790802182551674,
      "loss": 4.9876,
      "mean_token_accuracy": 0.20182182937860488,
      "num_tokens": 77395896.0,
      "step": 41945
    },
    {
      "entropy": 5.5448860168457035,
      "epoch": 3.5243436252888047,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00037905366737575033,
      "loss": 5.0652,
      "mean_token_accuracy": 0.19917794764041902,
      "num_tokens": 77405560.0,
      "step": 41950
    },
    {
      "entropy": 5.512292337417603,
      "epoch": 3.52476370510397,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003790271146530761,
      "loss": 5.017,
      "mean_token_accuracy": 0.20352070331573485,
      "num_tokens": 77414222.0,
      "step": 41955
    },
    {
      "entropy": 5.493555212020874,
      "epoch": 3.5251837849191348,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00037900056008761506,
      "loss": 5.0607,
      "mean_token_accuracy": 0.20076876729726792,
      "num_tokens": 77423308.0,
      "step": 41960
    },
    {
      "entropy": 5.359287309646606,
      "epoch": 3.5256038647342995,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003789740036798377,
      "loss": 4.9445,
      "mean_token_accuracy": 0.2032580092549324,
      "num_tokens": 77431905.0,
      "step": 41965
    },
    {
      "entropy": 5.495059537887573,
      "epoch": 3.5260239445494643,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003789474454302144,
      "loss": 5.0213,
      "mean_token_accuracy": 0.19888475984334947,
      "num_tokens": 77439857.0,
      "step": 41970
    },
    {
      "entropy": 5.488551092147827,
      "epoch": 3.526444024364629,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00037892088533921555,
      "loss": 5.083,
      "mean_token_accuracy": 0.1996058315038681,
      "num_tokens": 77449209.0,
      "step": 41975
    },
    {
      "entropy": 5.469422245025635,
      "epoch": 3.5268641041797943,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003788943234073118,
      "loss": 5.0621,
      "mean_token_accuracy": 0.19160938411951065,
      "num_tokens": 77457966.0,
      "step": 41980
    },
    {
      "entropy": 5.4131152629852295,
      "epoch": 3.527284183994959,
      "grad_norm": 1.125,
      "learning_rate": 0.00037886775963497354,
      "loss": 5.0333,
      "mean_token_accuracy": 0.2060776397585869,
      "num_tokens": 77468235.0,
      "step": 41985
    },
    {
      "entropy": 5.455139017105102,
      "epoch": 3.527704263810124,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00037884119402267145,
      "loss": 4.9317,
      "mean_token_accuracy": 0.2069658413529396,
      "num_tokens": 77476717.0,
      "step": 41990
    },
    {
      "entropy": 5.4206911563873295,
      "epoch": 3.5281243436252887,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00037881462657087607,
      "loss": 4.9806,
      "mean_token_accuracy": 0.20759997218847276,
      "num_tokens": 77485400.0,
      "step": 41995
    },
    {
      "entropy": 5.518798923492431,
      "epoch": 3.5285444234404535,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003787880572800581,
      "loss": 5.0855,
      "mean_token_accuracy": 0.19667490273714067,
      "num_tokens": 77494266.0,
      "step": 42000
    },
    {
      "epoch": 3.5285444234404535,
      "eval_entropy": 5.203510019003873,
      "eval_loss": 5.119078636169434,
      "eval_mean_token_accuracy": 0.20535461226722665,
      "eval_num_tokens": 77494266.0,
      "eval_runtime": 27.2651,
      "eval_samples_per_second": 1370.471,
      "eval_steps_per_second": 171.318,
      "step": 42000
    },
    {
      "entropy": 5.417297506332398,
      "epoch": 3.5289645032556187,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00037876148615068804,
      "loss": 4.9952,
      "mean_token_accuracy": 0.20075733810663224,
      "num_tokens": 77503768.0,
      "step": 42005
    },
    {
      "entropy": 5.413582801818848,
      "epoch": 3.5293845830707835,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00037873491318323675,
      "loss": 4.9297,
      "mean_token_accuracy": 0.21228832602500916,
      "num_tokens": 77511995.0,
      "step": 42010
    },
    {
      "entropy": 5.5094428062438965,
      "epoch": 3.5298046628859483,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003787083383781749,
      "loss": 5.0283,
      "mean_token_accuracy": 0.19947181940078734,
      "num_tokens": 77521906.0,
      "step": 42015
    },
    {
      "entropy": 5.557547330856323,
      "epoch": 3.530224742701113,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003786817617359732,
      "loss": 5.1155,
      "mean_token_accuracy": 0.19873061627149582,
      "num_tokens": 77531584.0,
      "step": 42020
    },
    {
      "entropy": 5.5037946701049805,
      "epoch": 3.530644822516278,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00037865518325710246,
      "loss": 5.0068,
      "mean_token_accuracy": 0.19719813168048858,
      "num_tokens": 77541574.0,
      "step": 42025
    },
    {
      "entropy": 5.467743635177612,
      "epoch": 3.531064902331443,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00037862860294203353,
      "loss": 5.0953,
      "mean_token_accuracy": 0.19717778712511064,
      "num_tokens": 77551068.0,
      "step": 42030
    },
    {
      "entropy": 5.443893051147461,
      "epoch": 3.531484982146608,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003786020207912373,
      "loss": 5.0213,
      "mean_token_accuracy": 0.1971591129899025,
      "num_tokens": 77560333.0,
      "step": 42035
    },
    {
      "entropy": 5.480022668838501,
      "epoch": 3.5319050619617727,
      "grad_norm": 1.046875,
      "learning_rate": 0.00037857543680518466,
      "loss": 4.9723,
      "mean_token_accuracy": 0.2141416296362877,
      "num_tokens": 77569109.0,
      "step": 42040
    },
    {
      "entropy": 5.40042724609375,
      "epoch": 3.5323251417769375,
      "grad_norm": 1.0625,
      "learning_rate": 0.00037854885098434634,
      "loss": 5.058,
      "mean_token_accuracy": 0.2025734379887581,
      "num_tokens": 77579108.0,
      "step": 42045
    },
    {
      "entropy": 5.4793211936950685,
      "epoch": 3.5327452215921022,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00037852226332919347,
      "loss": 5.115,
      "mean_token_accuracy": 0.19903348684310912,
      "num_tokens": 77588178.0,
      "step": 42050
    },
    {
      "entropy": 5.552561712265015,
      "epoch": 3.5331653014072675,
      "grad_norm": 1.109375,
      "learning_rate": 0.00037849567384019714,
      "loss": 5.0102,
      "mean_token_accuracy": 0.20136769115924835,
      "num_tokens": 77596074.0,
      "step": 42055
    },
    {
      "entropy": 5.433708047866821,
      "epoch": 3.5335853812224323,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003784690825178281,
      "loss": 5.0179,
      "mean_token_accuracy": 0.20180413126945496,
      "num_tokens": 77605061.0,
      "step": 42060
    },
    {
      "entropy": 5.491781425476074,
      "epoch": 3.534005461037597,
      "grad_norm": 1.1875,
      "learning_rate": 0.00037844248936255763,
      "loss": 5.1038,
      "mean_token_accuracy": 0.1931370422244072,
      "num_tokens": 77613843.0,
      "step": 42065
    },
    {
      "entropy": 5.504636621475219,
      "epoch": 3.5344255408527623,
      "grad_norm": 1.09375,
      "learning_rate": 0.00037841589437485673,
      "loss": 5.0574,
      "mean_token_accuracy": 0.19336437433958054,
      "num_tokens": 77623126.0,
      "step": 42070
    },
    {
      "entropy": 5.497944068908692,
      "epoch": 3.534845620667927,
      "grad_norm": 1.0625,
      "learning_rate": 0.00037838929755519655,
      "loss": 5.0,
      "mean_token_accuracy": 0.2131590187549591,
      "num_tokens": 77632348.0,
      "step": 42075
    },
    {
      "entropy": 5.449341058731079,
      "epoch": 3.535265700483092,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00037836269890404806,
      "loss": 4.9879,
      "mean_token_accuracy": 0.2022492080926895,
      "num_tokens": 77641512.0,
      "step": 42080
    },
    {
      "entropy": 5.466445732116699,
      "epoch": 3.5356857802982566,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003783360984218827,
      "loss": 4.9591,
      "mean_token_accuracy": 0.2021542638540268,
      "num_tokens": 77650650.0,
      "step": 42085
    },
    {
      "entropy": 5.499931287765503,
      "epoch": 3.5361058601134214,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00037830949610917155,
      "loss": 5.0793,
      "mean_token_accuracy": 0.19820324927568436,
      "num_tokens": 77659885.0,
      "step": 42090
    },
    {
      "entropy": 5.48437614440918,
      "epoch": 3.5365259399285867,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0003782828919663858,
      "loss": 5.0171,
      "mean_token_accuracy": 0.20130239576101303,
      "num_tokens": 77669281.0,
      "step": 42095
    },
    {
      "entropy": 5.426877975463867,
      "epoch": 3.5369460197437514,
      "grad_norm": 1.09375,
      "learning_rate": 0.00037825628599399687,
      "loss": 4.9546,
      "mean_token_accuracy": 0.21382112205028533,
      "num_tokens": 77677568.0,
      "step": 42100
    },
    {
      "entropy": 5.406303548812867,
      "epoch": 3.5373660995589162,
      "grad_norm": 1.140625,
      "learning_rate": 0.00037822967819247603,
      "loss": 4.9579,
      "mean_token_accuracy": 0.19887856394052505,
      "num_tokens": 77686187.0,
      "step": 42105
    },
    {
      "entropy": 5.45964412689209,
      "epoch": 3.537786179374081,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00037820306856229454,
      "loss": 4.9769,
      "mean_token_accuracy": 0.20647356361150743,
      "num_tokens": 77694826.0,
      "step": 42110
    },
    {
      "entropy": 5.460481643676758,
      "epoch": 3.538206259189246,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003781764571039238,
      "loss": 5.0532,
      "mean_token_accuracy": 0.20116177201271057,
      "num_tokens": 77703556.0,
      "step": 42115
    },
    {
      "entropy": 5.431980943679809,
      "epoch": 3.538626339004411,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003781498438178353,
      "loss": 4.9808,
      "mean_token_accuracy": 0.2035471558570862,
      "num_tokens": 77713617.0,
      "step": 42120
    },
    {
      "entropy": 5.488537693023682,
      "epoch": 3.539046418819576,
      "grad_norm": 0.953125,
      "learning_rate": 0.0003781232287045004,
      "loss": 5.0238,
      "mean_token_accuracy": 0.2040991649031639,
      "num_tokens": 77722254.0,
      "step": 42125
    },
    {
      "entropy": 5.381273508071899,
      "epoch": 3.5394664986347406,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003780966117643907,
      "loss": 4.9476,
      "mean_token_accuracy": 0.20852285772562026,
      "num_tokens": 77730802.0,
      "step": 42130
    },
    {
      "entropy": 5.418894958496094,
      "epoch": 3.5398865784499054,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003780699929979775,
      "loss": 4.9742,
      "mean_token_accuracy": 0.2083822414278984,
      "num_tokens": 77740426.0,
      "step": 42135
    },
    {
      "entropy": 5.385986328125,
      "epoch": 3.54030665826507,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003780433724057325,
      "loss": 4.9862,
      "mean_token_accuracy": 0.20693448930978775,
      "num_tokens": 77749559.0,
      "step": 42140
    },
    {
      "entropy": 5.458755445480347,
      "epoch": 3.5407267380802354,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003780167499881272,
      "loss": 4.9756,
      "mean_token_accuracy": 0.20361395180225372,
      "num_tokens": 77759127.0,
      "step": 42145
    },
    {
      "entropy": 5.432453775405884,
      "epoch": 3.5411468178954,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00037799012574563323,
      "loss": 5.0272,
      "mean_token_accuracy": 0.19553114622831344,
      "num_tokens": 77768246.0,
      "step": 42150
    },
    {
      "entropy": 5.410804510116577,
      "epoch": 3.541566897710565,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003779634996787222,
      "loss": 4.9298,
      "mean_token_accuracy": 0.20348449647426606,
      "num_tokens": 77777217.0,
      "step": 42155
    },
    {
      "entropy": 5.465742444992065,
      "epoch": 3.5419869775257298,
      "grad_norm": 1.125,
      "learning_rate": 0.0003779368717878658,
      "loss": 4.9876,
      "mean_token_accuracy": 0.20227284282445906,
      "num_tokens": 77785610.0,
      "step": 42160
    },
    {
      "entropy": 5.409363460540772,
      "epoch": 3.5424070573408946,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00037791024207353577,
      "loss": 4.9539,
      "mean_token_accuracy": 0.20288123488426207,
      "num_tokens": 77795449.0,
      "step": 42165
    },
    {
      "entropy": 5.478524208068848,
      "epoch": 3.54282713715606,
      "grad_norm": 0.9609375,
      "learning_rate": 0.00037788361053620376,
      "loss": 5.0653,
      "mean_token_accuracy": 0.19927269965410233,
      "num_tokens": 77805073.0,
      "step": 42170
    },
    {
      "entropy": 5.43028621673584,
      "epoch": 3.5432472169712246,
      "grad_norm": 1.046875,
      "learning_rate": 0.00037785697717634156,
      "loss": 4.9885,
      "mean_token_accuracy": 0.20052961707115174,
      "num_tokens": 77813901.0,
      "step": 42175
    },
    {
      "entropy": 5.407446002960205,
      "epoch": 3.5436672967863894,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003778303419944209,
      "loss": 4.9409,
      "mean_token_accuracy": 0.19917843639850616,
      "num_tokens": 77823712.0,
      "step": 42180
    },
    {
      "entropy": 5.511597728729248,
      "epoch": 3.544087376601554,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003778037049909137,
      "loss": 5.0071,
      "mean_token_accuracy": 0.2026517689228058,
      "num_tokens": 77833425.0,
      "step": 42185
    },
    {
      "entropy": 5.399411201477051,
      "epoch": 3.544507456416719,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00037777706616629194,
      "loss": 4.983,
      "mean_token_accuracy": 0.20238055437803268,
      "num_tokens": 77842324.0,
      "step": 42190
    },
    {
      "entropy": 5.441940355300903,
      "epoch": 3.544927536231884,
      "grad_norm": 1.09375,
      "learning_rate": 0.00037775042552102715,
      "loss": 4.9374,
      "mean_token_accuracy": 0.2055148109793663,
      "num_tokens": 77851973.0,
      "step": 42195
    },
    {
      "entropy": 5.492239618301392,
      "epoch": 3.545347616047049,
      "grad_norm": 1.109375,
      "learning_rate": 0.00037772378305559167,
      "loss": 5.0544,
      "mean_token_accuracy": 0.20025847107172012,
      "num_tokens": 77860964.0,
      "step": 42200
    },
    {
      "entropy": 5.503399133682251,
      "epoch": 3.5457676958622137,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00037769713877045723,
      "loss": 5.001,
      "mean_token_accuracy": 0.19910807609558107,
      "num_tokens": 77869427.0,
      "step": 42205
    },
    {
      "entropy": 5.467415237426758,
      "epoch": 3.546187775677379,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00037767049266609583,
      "loss": 4.9824,
      "mean_token_accuracy": 0.20655978322029114,
      "num_tokens": 77879059.0,
      "step": 42210
    },
    {
      "entropy": 5.39996223449707,
      "epoch": 3.5466078554925433,
      "grad_norm": 1.078125,
      "learning_rate": 0.00037764384474297955,
      "loss": 4.9222,
      "mean_token_accuracy": 0.21173011958599092,
      "num_tokens": 77888185.0,
      "step": 42215
    },
    {
      "entropy": 5.551186752319336,
      "epoch": 3.5470279353077085,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003776171950015804,
      "loss": 5.1026,
      "mean_token_accuracy": 0.19678306430578232,
      "num_tokens": 77897427.0,
      "step": 42220
    },
    {
      "entropy": 5.493017244338989,
      "epoch": 3.5474480151228733,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00037759054344237044,
      "loss": 4.9333,
      "mean_token_accuracy": 0.21233682781457902,
      "num_tokens": 77905935.0,
      "step": 42225
    },
    {
      "entropy": 5.451212978363037,
      "epoch": 3.547868094938038,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003775638900658219,
      "loss": 4.9662,
      "mean_token_accuracy": 0.19866961240768433,
      "num_tokens": 77915527.0,
      "step": 42230
    },
    {
      "entropy": 5.535605335235596,
      "epoch": 3.5482881747532034,
      "grad_norm": 1.0625,
      "learning_rate": 0.00037753723487240684,
      "loss": 4.9992,
      "mean_token_accuracy": 0.2043135643005371,
      "num_tokens": 77925402.0,
      "step": 42235
    },
    {
      "entropy": 5.396691942214966,
      "epoch": 3.548708254568368,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003775105778625974,
      "loss": 4.979,
      "mean_token_accuracy": 0.20168471336364746,
      "num_tokens": 77934859.0,
      "step": 42240
    },
    {
      "entropy": 5.524944067001343,
      "epoch": 3.549128334383533,
      "grad_norm": 1.109375,
      "learning_rate": 0.00037748391903686594,
      "loss": 5.037,
      "mean_token_accuracy": 0.2061199054121971,
      "num_tokens": 77943353.0,
      "step": 42245
    },
    {
      "entropy": 5.383146047592163,
      "epoch": 3.5495484141986977,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003774572583956845,
      "loss": 5.0169,
      "mean_token_accuracy": 0.2032693773508072,
      "num_tokens": 77953708.0,
      "step": 42250
    },
    {
      "entropy": 5.414906740188599,
      "epoch": 3.5499684940138625,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003774305959395256,
      "loss": 4.9803,
      "mean_token_accuracy": 0.20899789035320282,
      "num_tokens": 77961680.0,
      "step": 42255
    },
    {
      "entropy": 5.494018936157227,
      "epoch": 3.5503885738290277,
      "grad_norm": 1.03125,
      "learning_rate": 0.00037740393166886137,
      "loss": 5.0363,
      "mean_token_accuracy": 0.20163238495588304,
      "num_tokens": 77971347.0,
      "step": 42260
    },
    {
      "entropy": 5.512707328796386,
      "epoch": 3.5508086536441925,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0003773772655841643,
      "loss": 5.0621,
      "mean_token_accuracy": 0.1996847376227379,
      "num_tokens": 77981346.0,
      "step": 42265
    },
    {
      "entropy": 5.407702541351318,
      "epoch": 3.5512287334593573,
      "grad_norm": 1.046875,
      "learning_rate": 0.00037735059768590666,
      "loss": 4.9997,
      "mean_token_accuracy": 0.20773976147174836,
      "num_tokens": 77989984.0,
      "step": 42270
    },
    {
      "entropy": 5.425283813476563,
      "epoch": 3.551648813274522,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003773239279745609,
      "loss": 5.0358,
      "mean_token_accuracy": 0.2007603168487549,
      "num_tokens": 77998933.0,
      "step": 42275
    },
    {
      "entropy": 5.550485992431641,
      "epoch": 3.552068893089687,
      "grad_norm": 1.078125,
      "learning_rate": 0.00037729725645059943,
      "loss": 5.0693,
      "mean_token_accuracy": 0.20072054415941237,
      "num_tokens": 78008894.0,
      "step": 42280
    },
    {
      "entropy": 5.521216535568238,
      "epoch": 3.552488972904852,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00037727058311449476,
      "loss": 4.9962,
      "mean_token_accuracy": 0.2106044888496399,
      "num_tokens": 78018789.0,
      "step": 42285
    },
    {
      "entropy": 5.393029260635376,
      "epoch": 3.552909052720017,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00037724390796671926,
      "loss": 5.0294,
      "mean_token_accuracy": 0.195456463098526,
      "num_tokens": 78027141.0,
      "step": 42290
    },
    {
      "entropy": 5.433755731582641,
      "epoch": 3.5533291325351817,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00037721723100774576,
      "loss": 5.0159,
      "mean_token_accuracy": 0.20286909788846968,
      "num_tokens": 78036361.0,
      "step": 42295
    },
    {
      "entropy": 5.531482553482055,
      "epoch": 3.5537492123503465,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003771905522380465,
      "loss": 5.0725,
      "mean_token_accuracy": 0.20423784106969833,
      "num_tokens": 78045564.0,
      "step": 42300
    },
    {
      "entropy": 5.453096771240235,
      "epoch": 3.5541692921655113,
      "grad_norm": 1.21875,
      "learning_rate": 0.00037716387165809425,
      "loss": 5.015,
      "mean_token_accuracy": 0.20202308595180513,
      "num_tokens": 78054548.0,
      "step": 42305
    },
    {
      "entropy": 5.45011625289917,
      "epoch": 3.5545893719806765,
      "grad_norm": 1.09375,
      "learning_rate": 0.00037713718926836166,
      "loss": 5.0429,
      "mean_token_accuracy": 0.19496625661849976,
      "num_tokens": 78064042.0,
      "step": 42310
    },
    {
      "entropy": 5.493487405776977,
      "epoch": 3.5550094517958413,
      "grad_norm": 1.125,
      "learning_rate": 0.00037711050506932127,
      "loss": 4.9445,
      "mean_token_accuracy": 0.20892396122217177,
      "num_tokens": 78072708.0,
      "step": 42315
    },
    {
      "entropy": 5.445788383483887,
      "epoch": 3.555429531611006,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003770838190614459,
      "loss": 4.9543,
      "mean_token_accuracy": 0.20513526648283004,
      "num_tokens": 78081626.0,
      "step": 42320
    },
    {
      "entropy": 5.40247859954834,
      "epoch": 3.555849611426171,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003770571312452083,
      "loss": 4.9971,
      "mean_token_accuracy": 0.2028853714466095,
      "num_tokens": 78091194.0,
      "step": 42325
    },
    {
      "entropy": 5.456278276443482,
      "epoch": 3.5562696912413356,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00037703044162108116,
      "loss": 5.1396,
      "mean_token_accuracy": 0.1953463226556778,
      "num_tokens": 78100570.0,
      "step": 42330
    },
    {
      "entropy": 5.5659904956817625,
      "epoch": 3.556689771056501,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003770037501895373,
      "loss": 5.0691,
      "mean_token_accuracy": 0.20183235853910447,
      "num_tokens": 78110255.0,
      "step": 42335
    },
    {
      "entropy": 5.497379398345947,
      "epoch": 3.5571098508716656,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003769770569510495,
      "loss": 4.9774,
      "mean_token_accuracy": 0.20484770238399505,
      "num_tokens": 78119947.0,
      "step": 42340
    },
    {
      "entropy": 5.3981458187103275,
      "epoch": 3.5575299306868304,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003769503619060906,
      "loss": 5.0376,
      "mean_token_accuracy": 0.1954844191670418,
      "num_tokens": 78129717.0,
      "step": 42345
    },
    {
      "entropy": 5.458614349365234,
      "epoch": 3.557950010501995,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003769236650551336,
      "loss": 5.0493,
      "mean_token_accuracy": 0.19775374680757524,
      "num_tokens": 78137953.0,
      "step": 42350
    },
    {
      "entropy": 5.63409104347229,
      "epoch": 3.55837009031716,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003768969663986513,
      "loss": 5.1735,
      "mean_token_accuracy": 0.18814429193735122,
      "num_tokens": 78147951.0,
      "step": 42355
    },
    {
      "entropy": 5.549270915985107,
      "epoch": 3.5587901701323252,
      "grad_norm": 1.046875,
      "learning_rate": 0.00037687026593711674,
      "loss": 5.065,
      "mean_token_accuracy": 0.19946527034044265,
      "num_tokens": 78157634.0,
      "step": 42360
    },
    {
      "entropy": 5.440147829055786,
      "epoch": 3.55921024994749,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003768435636710029,
      "loss": 4.96,
      "mean_token_accuracy": 0.2093188628554344,
      "num_tokens": 78166462.0,
      "step": 42365
    },
    {
      "entropy": 5.395321035385132,
      "epoch": 3.559630329762655,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00037681685960078273,
      "loss": 5.0054,
      "mean_token_accuracy": 0.20679741203784943,
      "num_tokens": 78175878.0,
      "step": 42370
    },
    {
      "entropy": 5.512978219985962,
      "epoch": 3.56005040957782,
      "grad_norm": 1.078125,
      "learning_rate": 0.00037679015372692925,
      "loss": 5.0244,
      "mean_token_accuracy": 0.2063383564352989,
      "num_tokens": 78185885.0,
      "step": 42375
    },
    {
      "entropy": 5.534010601043701,
      "epoch": 3.560470489392985,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003767634460499157,
      "loss": 5.0745,
      "mean_token_accuracy": 0.19435663968324662,
      "num_tokens": 78194315.0,
      "step": 42380
    },
    {
      "entropy": 5.479687023162842,
      "epoch": 3.5608905692081496,
      "grad_norm": 1.09375,
      "learning_rate": 0.00037673673657021516,
      "loss": 5.044,
      "mean_token_accuracy": 0.20338186919689177,
      "num_tokens": 78203558.0,
      "step": 42385
    },
    {
      "entropy": 5.431812191009522,
      "epoch": 3.5613106490233144,
      "grad_norm": 1.125,
      "learning_rate": 0.00037671002528830063,
      "loss": 4.9512,
      "mean_token_accuracy": 0.2069561302661896,
      "num_tokens": 78212435.0,
      "step": 42390
    },
    {
      "entropy": 5.4410653591156,
      "epoch": 3.561730728838479,
      "grad_norm": 1.078125,
      "learning_rate": 0.00037668331220464544,
      "loss": 5.0152,
      "mean_token_accuracy": 0.19995249658823014,
      "num_tokens": 78221546.0,
      "step": 42395
    },
    {
      "entropy": 5.397464275360107,
      "epoch": 3.5621508086536444,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00037665659731972266,
      "loss": 4.9778,
      "mean_token_accuracy": 0.20669501572847365,
      "num_tokens": 78230802.0,
      "step": 42400
    },
    {
      "entropy": 5.522626304626465,
      "epoch": 3.562570888468809,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003766298806340057,
      "loss": 5.0406,
      "mean_token_accuracy": 0.1977372094988823,
      "num_tokens": 78241238.0,
      "step": 42405
    },
    {
      "entropy": 5.481967878341675,
      "epoch": 3.562990968283974,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003766031621479676,
      "loss": 5.0209,
      "mean_token_accuracy": 0.19544269293546676,
      "num_tokens": 78250544.0,
      "step": 42410
    },
    {
      "entropy": 5.486118268966675,
      "epoch": 3.563411048099139,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003765764418620819,
      "loss": 5.0209,
      "mean_token_accuracy": 0.1998709574341774,
      "num_tokens": 78260790.0,
      "step": 42415
    },
    {
      "entropy": 5.450865125656128,
      "epoch": 3.5638311279143036,
      "grad_norm": 1.171875,
      "learning_rate": 0.00037654971977682186,
      "loss": 5.0023,
      "mean_token_accuracy": 0.20399499982595443,
      "num_tokens": 78270583.0,
      "step": 42420
    },
    {
      "entropy": 5.440941381454468,
      "epoch": 3.564251207729469,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003765229958926608,
      "loss": 5.0454,
      "mean_token_accuracy": 0.20005272924900055,
      "num_tokens": 78280180.0,
      "step": 42425
    },
    {
      "entropy": 5.472863006591797,
      "epoch": 3.5646712875446336,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003764962702100721,
      "loss": 5.0349,
      "mean_token_accuracy": 0.202714641392231,
      "num_tokens": 78289614.0,
      "step": 42430
    },
    {
      "entropy": 5.460015487670899,
      "epoch": 3.5650913673597984,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003764695427295292,
      "loss": 5.0516,
      "mean_token_accuracy": 0.1962200254201889,
      "num_tokens": 78298739.0,
      "step": 42435
    },
    {
      "entropy": 5.481831121444702,
      "epoch": 3.565511447174963,
      "grad_norm": 1.03125,
      "learning_rate": 0.00037644281345150564,
      "loss": 5.0488,
      "mean_token_accuracy": 0.19959846884012222,
      "num_tokens": 78308412.0,
      "step": 42440
    },
    {
      "entropy": 5.509104442596436,
      "epoch": 3.565931526990128,
      "grad_norm": 1.125,
      "learning_rate": 0.0003764160823764749,
      "loss": 4.9292,
      "mean_token_accuracy": 0.21024803221225738,
      "num_tokens": 78316616.0,
      "step": 42445
    },
    {
      "entropy": 5.427335977554321,
      "epoch": 3.566351606805293,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003763893495049105,
      "loss": 4.9767,
      "mean_token_accuracy": 0.20849816501140594,
      "num_tokens": 78326211.0,
      "step": 42450
    },
    {
      "entropy": 5.5018393993377686,
      "epoch": 3.566771686620458,
      "grad_norm": 1.140625,
      "learning_rate": 0.00037636261483728594,
      "loss": 5.0982,
      "mean_token_accuracy": 0.19320571273565293,
      "num_tokens": 78335125.0,
      "step": 42455
    },
    {
      "entropy": 5.405940532684326,
      "epoch": 3.5671917664356227,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003763358783740749,
      "loss": 4.8928,
      "mean_token_accuracy": 0.21109852492809295,
      "num_tokens": 78343709.0,
      "step": 42460
    },
    {
      "entropy": 5.457334995269775,
      "epoch": 3.5676118462507875,
      "grad_norm": 1.046875,
      "learning_rate": 0.00037630914011575094,
      "loss": 5.0145,
      "mean_token_accuracy": 0.206580813229084,
      "num_tokens": 78352841.0,
      "step": 42465
    },
    {
      "entropy": 5.433867597579956,
      "epoch": 3.5680319260659523,
      "grad_norm": 1.09375,
      "learning_rate": 0.00037628240006278767,
      "loss": 4.9806,
      "mean_token_accuracy": 0.21352771520614625,
      "num_tokens": 78362335.0,
      "step": 42470
    },
    {
      "entropy": 5.406289529800415,
      "epoch": 3.5684520058811176,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003762556582156589,
      "loss": 5.0243,
      "mean_token_accuracy": 0.19565474838018418,
      "num_tokens": 78371300.0,
      "step": 42475
    },
    {
      "entropy": 5.398478364944458,
      "epoch": 3.5688720856962823,
      "grad_norm": 1.125,
      "learning_rate": 0.00037622891457483827,
      "loss": 4.9654,
      "mean_token_accuracy": 0.2022598221898079,
      "num_tokens": 78379995.0,
      "step": 42480
    },
    {
      "entropy": 5.402490854263306,
      "epoch": 3.569292165511447,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003762021691407995,
      "loss": 4.974,
      "mean_token_accuracy": 0.20133248418569566,
      "num_tokens": 78389586.0,
      "step": 42485
    },
    {
      "entropy": 5.4289525032043455,
      "epoch": 3.569712245326612,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003761754219140165,
      "loss": 5.027,
      "mean_token_accuracy": 0.20032855868339539,
      "num_tokens": 78399039.0,
      "step": 42490
    },
    {
      "entropy": 5.402729272842407,
      "epoch": 3.5701323251417767,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00037614867289496287,
      "loss": 4.9663,
      "mean_token_accuracy": 0.20282333344221115,
      "num_tokens": 78408023.0,
      "step": 42495
    },
    {
      "entropy": 5.423113203048706,
      "epoch": 3.570552404956942,
      "grad_norm": 1.09375,
      "learning_rate": 0.00037612192208411266,
      "loss": 5.0104,
      "mean_token_accuracy": 0.20011384189128875,
      "num_tokens": 78416542.0,
      "step": 42500
    },
    {
      "entropy": 5.5293059825897215,
      "epoch": 3.5709724847721067,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003760951694819397,
      "loss": 5.004,
      "mean_token_accuracy": 0.2079325258731842,
      "num_tokens": 78426138.0,
      "step": 42505
    },
    {
      "entropy": 5.382853364944458,
      "epoch": 3.5713925645872715,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003760684150889178,
      "loss": 4.9129,
      "mean_token_accuracy": 0.21577669829130172,
      "num_tokens": 78435116.0,
      "step": 42510
    },
    {
      "entropy": 5.546799564361573,
      "epoch": 3.5718126444024367,
      "grad_norm": 1.125,
      "learning_rate": 0.00037604165890552105,
      "loss": 5.1445,
      "mean_token_accuracy": 0.19189198762178422,
      "num_tokens": 78444974.0,
      "step": 42515
    },
    {
      "entropy": 5.43472957611084,
      "epoch": 3.572232724217601,
      "grad_norm": 1.1875,
      "learning_rate": 0.00037601490093222334,
      "loss": 4.9425,
      "mean_token_accuracy": 0.2056950807571411,
      "num_tokens": 78453203.0,
      "step": 42520
    },
    {
      "entropy": 5.387574768066406,
      "epoch": 3.5726528040327663,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003759881411694986,
      "loss": 4.8893,
      "mean_token_accuracy": 0.20726979672908782,
      "num_tokens": 78462708.0,
      "step": 42525
    },
    {
      "entropy": 5.403803300857544,
      "epoch": 3.573072883847931,
      "grad_norm": 1.140625,
      "learning_rate": 0.00037596137961782097,
      "loss": 4.9772,
      "mean_token_accuracy": 0.1995249792933464,
      "num_tokens": 78472036.0,
      "step": 42530
    },
    {
      "entropy": 5.475921487808227,
      "epoch": 3.573492963663096,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003759346162776645,
      "loss": 5.0607,
      "mean_token_accuracy": 0.20273278653621674,
      "num_tokens": 78481031.0,
      "step": 42535
    },
    {
      "entropy": 5.501348876953125,
      "epoch": 3.573913043478261,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003759078511495033,
      "loss": 5.0529,
      "mean_token_accuracy": 0.20463596880435944,
      "num_tokens": 78489721.0,
      "step": 42540
    },
    {
      "entropy": 5.47313346862793,
      "epoch": 3.574333123293426,
      "grad_norm": 1.109375,
      "learning_rate": 0.00037588108423381144,
      "loss": 5.0036,
      "mean_token_accuracy": 0.20917641520500183,
      "num_tokens": 78499479.0,
      "step": 42545
    },
    {
      "entropy": 5.362519311904907,
      "epoch": 3.5747532031085907,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00037585431553106315,
      "loss": 4.9376,
      "mean_token_accuracy": 0.21122487038373947,
      "num_tokens": 78508248.0,
      "step": 42550
    },
    {
      "entropy": 5.401778841018677,
      "epoch": 3.5751732829237555,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003758275450417325,
      "loss": 5.0002,
      "mean_token_accuracy": 0.20329177677631377,
      "num_tokens": 78517415.0,
      "step": 42555
    },
    {
      "entropy": 5.558321857452393,
      "epoch": 3.5755933627389203,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00037580077276629385,
      "loss": 5.1568,
      "mean_token_accuracy": 0.18861543983221055,
      "num_tokens": 78526989.0,
      "step": 42560
    },
    {
      "entropy": 5.440258312225342,
      "epoch": 3.5760134425540855,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003757739987052215,
      "loss": 4.9235,
      "mean_token_accuracy": 0.21540540009737014,
      "num_tokens": 78536159.0,
      "step": 42565
    },
    {
      "entropy": 5.448346567153931,
      "epoch": 3.5764335223692503,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003757472228589896,
      "loss": 4.9765,
      "mean_token_accuracy": 0.2013092890381813,
      "num_tokens": 78545499.0,
      "step": 42570
    },
    {
      "entropy": 5.369926309585571,
      "epoch": 3.576853602184415,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00037572044522807247,
      "loss": 4.9346,
      "mean_token_accuracy": 0.20519870966672898,
      "num_tokens": 78554094.0,
      "step": 42575
    },
    {
      "entropy": 5.499906730651856,
      "epoch": 3.57727368199958,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003756936658129446,
      "loss": 5.0476,
      "mean_token_accuracy": 0.19549985378980636,
      "num_tokens": 78563642.0,
      "step": 42580
    },
    {
      "entropy": 5.5479639053344725,
      "epoch": 3.5776937618147446,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00037566688461408026,
      "loss": 5.1545,
      "mean_token_accuracy": 0.19297820031642915,
      "num_tokens": 78573475.0,
      "step": 42585
    },
    {
      "entropy": 5.4454436779022215,
      "epoch": 3.57811384162991,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003756401016319539,
      "loss": 4.9456,
      "mean_token_accuracy": 0.20979833900928496,
      "num_tokens": 78582658.0,
      "step": 42590
    },
    {
      "entropy": 5.4345245361328125,
      "epoch": 3.5785339214450747,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00037561331686704,
      "loss": 4.9186,
      "mean_token_accuracy": 0.2059795081615448,
      "num_tokens": 78590964.0,
      "step": 42595
    },
    {
      "entropy": 5.403666830062866,
      "epoch": 3.5789540012602394,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003755865303198129,
      "loss": 4.9685,
      "mean_token_accuracy": 0.20846396386623384,
      "num_tokens": 78599795.0,
      "step": 42600
    },
    {
      "entropy": 5.466368341445923,
      "epoch": 3.5793740810754042,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00037555974199074725,
      "loss": 5.0911,
      "mean_token_accuracy": 0.20040545463562012,
      "num_tokens": 78609267.0,
      "step": 42605
    },
    {
      "entropy": 5.478748559951782,
      "epoch": 3.579794160890569,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003755329518803176,
      "loss": 5.0595,
      "mean_token_accuracy": 0.19437620788812637,
      "num_tokens": 78617704.0,
      "step": 42610
    },
    {
      "entropy": 5.471293544769287,
      "epoch": 3.5802142407057342,
      "grad_norm": 1.140625,
      "learning_rate": 0.00037550615998899835,
      "loss": 4.9707,
      "mean_token_accuracy": 0.20198592245578767,
      "num_tokens": 78626461.0,
      "step": 42615
    },
    {
      "entropy": 5.4776355743408205,
      "epoch": 3.580634320520899,
      "grad_norm": 1.109375,
      "learning_rate": 0.00037547936631726435,
      "loss": 4.9446,
      "mean_token_accuracy": 0.20489079058170317,
      "num_tokens": 78635669.0,
      "step": 42620
    },
    {
      "entropy": 5.460262823104858,
      "epoch": 3.581054400336064,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003754525708655901,
      "loss": 4.9674,
      "mean_token_accuracy": 0.1989557698369026,
      "num_tokens": 78645346.0,
      "step": 42625
    },
    {
      "entropy": 5.415519952774048,
      "epoch": 3.5814744801512286,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00037542577363445026,
      "loss": 5.0724,
      "mean_token_accuracy": 0.20094763934612275,
      "num_tokens": 78654223.0,
      "step": 42630
    },
    {
      "entropy": 5.4469767093658445,
      "epoch": 3.5818945599663934,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00037539897462431955,
      "loss": 5.0311,
      "mean_token_accuracy": 0.19649201333522798,
      "num_tokens": 78662887.0,
      "step": 42635
    },
    {
      "entropy": 5.429491949081421,
      "epoch": 3.5823146397815586,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003753721738356727,
      "loss": 4.9378,
      "mean_token_accuracy": 0.21328180134296418,
      "num_tokens": 78671997.0,
      "step": 42640
    },
    {
      "entropy": 5.447097492218018,
      "epoch": 3.5827347195967234,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003753453712689845,
      "loss": 4.971,
      "mean_token_accuracy": 0.21329738050699235,
      "num_tokens": 78681089.0,
      "step": 42645
    },
    {
      "entropy": 5.484496402740478,
      "epoch": 3.583154799411888,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00037531856692472974,
      "loss": 4.9787,
      "mean_token_accuracy": 0.2153292790055275,
      "num_tokens": 78689605.0,
      "step": 42650
    },
    {
      "entropy": 5.360801649093628,
      "epoch": 3.583574879227053,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00037529176080338317,
      "loss": 4.9367,
      "mean_token_accuracy": 0.21093947291374207,
      "num_tokens": 78699166.0,
      "step": 42655
    },
    {
      "entropy": 5.429626226425171,
      "epoch": 3.5839949590422178,
      "grad_norm": 1.125,
      "learning_rate": 0.00037526495290541965,
      "loss": 5.0437,
      "mean_token_accuracy": 0.2033111035823822,
      "num_tokens": 78708540.0,
      "step": 42660
    },
    {
      "entropy": 5.517790079116821,
      "epoch": 3.584415038857383,
      "grad_norm": 1.09375,
      "learning_rate": 0.00037523814323131425,
      "loss": 4.9636,
      "mean_token_accuracy": 0.20216138511896134,
      "num_tokens": 78718138.0,
      "step": 42665
    },
    {
      "entropy": 5.559858942031861,
      "epoch": 3.584835118672548,
      "grad_norm": 1.140625,
      "learning_rate": 0.00037521133178154166,
      "loss": 5.1339,
      "mean_token_accuracy": 0.19066093266010284,
      "num_tokens": 78727005.0,
      "step": 42670
    },
    {
      "entropy": 5.457053804397583,
      "epoch": 3.5852551984877126,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00037518451855657694,
      "loss": 5.0809,
      "mean_token_accuracy": 0.19633543044328688,
      "num_tokens": 78736888.0,
      "step": 42675
    },
    {
      "entropy": 5.530604696273803,
      "epoch": 3.585675278302878,
      "grad_norm": 0.91015625,
      "learning_rate": 0.000375157703556895,
      "loss": 5.1512,
      "mean_token_accuracy": 0.193388994038105,
      "num_tokens": 78747962.0,
      "step": 42680
    },
    {
      "entropy": 5.435438966751098,
      "epoch": 3.5860953581180426,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003751308867829711,
      "loss": 4.9642,
      "mean_token_accuracy": 0.20482715368270873,
      "num_tokens": 78756744.0,
      "step": 42685
    },
    {
      "entropy": 5.393240213394165,
      "epoch": 3.5865154379332074,
      "grad_norm": 1.09375,
      "learning_rate": 0.00037510406823527997,
      "loss": 4.9312,
      "mean_token_accuracy": 0.21243157982826233,
      "num_tokens": 78765258.0,
      "step": 42690
    },
    {
      "entropy": 5.44143009185791,
      "epoch": 3.586935517748372,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00037507724791429687,
      "loss": 4.9838,
      "mean_token_accuracy": 0.20433114618062972,
      "num_tokens": 78775823.0,
      "step": 42695
    },
    {
      "entropy": 5.430748081207275,
      "epoch": 3.587355597563537,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003750504258204968,
      "loss": 4.9977,
      "mean_token_accuracy": 0.20683048367500306,
      "num_tokens": 78785415.0,
      "step": 42700
    },
    {
      "entropy": 5.4133140563964846,
      "epoch": 3.587775677378702,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00037502360195435495,
      "loss": 5.0174,
      "mean_token_accuracy": 0.2054212972521782,
      "num_tokens": 78795213.0,
      "step": 42705
    },
    {
      "entropy": 5.428655195236206,
      "epoch": 3.588195757193867,
      "grad_norm": 1.140625,
      "learning_rate": 0.00037499677631634655,
      "loss": 4.9387,
      "mean_token_accuracy": 0.20518413782119752,
      "num_tokens": 78803858.0,
      "step": 42710
    },
    {
      "entropy": 5.400744199752808,
      "epoch": 3.5886158370090318,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003749699489069467,
      "loss": 4.9904,
      "mean_token_accuracy": 0.19972921311855316,
      "num_tokens": 78812192.0,
      "step": 42715
    },
    {
      "entropy": 5.465036153793335,
      "epoch": 3.5890359168241965,
      "grad_norm": 1.0625,
      "learning_rate": 0.00037494311972663077,
      "loss": 5.0289,
      "mean_token_accuracy": 0.20031433254480363,
      "num_tokens": 78821574.0,
      "step": 42720
    },
    {
      "entropy": 5.484776973724365,
      "epoch": 3.5894559966393613,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003749162887758738,
      "loss": 5.0216,
      "mean_token_accuracy": 0.1991829052567482,
      "num_tokens": 78831247.0,
      "step": 42725
    },
    {
      "entropy": 5.430565023422242,
      "epoch": 3.5898760764545266,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003748894560551513,
      "loss": 4.9526,
      "mean_token_accuracy": 0.21044306010007857,
      "num_tokens": 78840484.0,
      "step": 42730
    },
    {
      "entropy": 5.417836427688599,
      "epoch": 3.5902961562696913,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003748626215649385,
      "loss": 4.9613,
      "mean_token_accuracy": 0.20335502922534943,
      "num_tokens": 78848746.0,
      "step": 42735
    },
    {
      "entropy": 5.45429105758667,
      "epoch": 3.590716236084856,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003748357853057108,
      "loss": 5.0468,
      "mean_token_accuracy": 0.20703617632389068,
      "num_tokens": 78858752.0,
      "step": 42740
    },
    {
      "entropy": 5.449021863937378,
      "epoch": 3.591136315900021,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00037480894727794355,
      "loss": 4.9745,
      "mean_token_accuracy": 0.20514509379863738,
      "num_tokens": 78866996.0,
      "step": 42745
    },
    {
      "entropy": 5.447299909591675,
      "epoch": 3.5915563957151857,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00037478210748211223,
      "loss": 4.9788,
      "mean_token_accuracy": 0.19907562732696532,
      "num_tokens": 78876415.0,
      "step": 42750
    },
    {
      "entropy": 5.500451946258545,
      "epoch": 3.591976475530351,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00037475526591869223,
      "loss": 5.0826,
      "mean_token_accuracy": 0.18917633295059205,
      "num_tokens": 78886302.0,
      "step": 42755
    },
    {
      "entropy": 5.455239963531494,
      "epoch": 3.5923965553455157,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00037472842258815913,
      "loss": 4.992,
      "mean_token_accuracy": 0.2043189972639084,
      "num_tokens": 78894676.0,
      "step": 42760
    },
    {
      "entropy": 5.499071788787842,
      "epoch": 3.5928166351606805,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003747015774909883,
      "loss": 5.0534,
      "mean_token_accuracy": 0.19830920100212096,
      "num_tokens": 78904607.0,
      "step": 42765
    },
    {
      "entropy": 5.424757194519043,
      "epoch": 3.5932367149758453,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003746747306276554,
      "loss": 4.9531,
      "mean_token_accuracy": 0.20003150999546052,
      "num_tokens": 78912942.0,
      "step": 42770
    },
    {
      "entropy": 5.377681112289428,
      "epoch": 3.59365679479101,
      "grad_norm": 1.109375,
      "learning_rate": 0.000374647881998636,
      "loss": 4.9429,
      "mean_token_accuracy": 0.20827603042125703,
      "num_tokens": 78921234.0,
      "step": 42775
    },
    {
      "entropy": 5.475273180007934,
      "epoch": 3.5940768746061753,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00037462103160440557,
      "loss": 5.0732,
      "mean_token_accuracy": 0.19344519823789597,
      "num_tokens": 78931402.0,
      "step": 42780
    },
    {
      "entropy": 5.482860422134399,
      "epoch": 3.59449695442134,
      "grad_norm": 1.171875,
      "learning_rate": 0.00037459417944543996,
      "loss": 4.9708,
      "mean_token_accuracy": 0.20761721283197404,
      "num_tokens": 78939537.0,
      "step": 42785
    },
    {
      "entropy": 5.5806111812591555,
      "epoch": 3.594917034236505,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003745673255222147,
      "loss": 5.0625,
      "mean_token_accuracy": 0.20522601157426834,
      "num_tokens": 78948363.0,
      "step": 42790
    },
    {
      "entropy": 5.499593353271484,
      "epoch": 3.5953371140516697,
      "grad_norm": 1.046875,
      "learning_rate": 0.00037454046983520544,
      "loss": 5.0787,
      "mean_token_accuracy": 0.1991878867149353,
      "num_tokens": 78957355.0,
      "step": 42795
    },
    {
      "entropy": 5.416405820846558,
      "epoch": 3.5957571938668345,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00037451361238488817,
      "loss": 5.0178,
      "mean_token_accuracy": 0.20179644227027893,
      "num_tokens": 78966263.0,
      "step": 42800
    },
    {
      "entropy": 5.463635683059692,
      "epoch": 3.5961772736819997,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00037448675317173846,
      "loss": 5.0185,
      "mean_token_accuracy": 0.20132324248552322,
      "num_tokens": 78975430.0,
      "step": 42805
    },
    {
      "entropy": 5.482616424560547,
      "epoch": 3.5965973534971645,
      "grad_norm": 1.0,
      "learning_rate": 0.00037445989219623215,
      "loss": 4.9343,
      "mean_token_accuracy": 0.20429961234331132,
      "num_tokens": 78985184.0,
      "step": 42810
    },
    {
      "entropy": 5.520317888259887,
      "epoch": 3.5970174333123293,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00037443302945884506,
      "loss": 5.0954,
      "mean_token_accuracy": 0.1923053815960884,
      "num_tokens": 78994544.0,
      "step": 42815
    },
    {
      "entropy": 5.458392715454101,
      "epoch": 3.5974375131274945,
      "grad_norm": 1.015625,
      "learning_rate": 0.00037440616496005303,
      "loss": 4.9623,
      "mean_token_accuracy": 0.19960811138153076,
      "num_tokens": 79003509.0,
      "step": 42820
    },
    {
      "entropy": 5.410871839523315,
      "epoch": 3.597857592942659,
      "grad_norm": 1.15625,
      "learning_rate": 0.000374379298700332,
      "loss": 5.0123,
      "mean_token_accuracy": 0.20659697204828262,
      "num_tokens": 79012279.0,
      "step": 42825
    },
    {
      "entropy": 5.484395360946655,
      "epoch": 3.598277672757824,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003743524306801578,
      "loss": 5.0222,
      "mean_token_accuracy": 0.2041242837905884,
      "num_tokens": 79021550.0,
      "step": 42830
    },
    {
      "entropy": 5.493043279647827,
      "epoch": 3.598697752572989,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00037432556090000657,
      "loss": 5.0392,
      "mean_token_accuracy": 0.2079051375389099,
      "num_tokens": 79030942.0,
      "step": 42835
    },
    {
      "entropy": 5.407202672958374,
      "epoch": 3.5991178323881536,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003742986893603541,
      "loss": 4.8164,
      "mean_token_accuracy": 0.21659935414791107,
      "num_tokens": 79038788.0,
      "step": 42840
    },
    {
      "entropy": 5.450872850418091,
      "epoch": 3.599537912203319,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003742718160616764,
      "loss": 5.1242,
      "mean_token_accuracy": 0.19444976896047592,
      "num_tokens": 79048904.0,
      "step": 42845
    },
    {
      "entropy": 5.381930494308472,
      "epoch": 3.5999579920184837,
      "grad_norm": 1.3125,
      "learning_rate": 0.0003742449410044498,
      "loss": 4.8639,
      "mean_token_accuracy": 0.2112403094768524,
      "num_tokens": 79058157.0,
      "step": 42850
    },
    {
      "entropy": 5.493399429321289,
      "epoch": 3.6003780718336484,
      "grad_norm": 1.0625,
      "learning_rate": 0.00037421806418915,
      "loss": 5.0217,
      "mean_token_accuracy": 0.20551552027463912,
      "num_tokens": 79067645.0,
      "step": 42855
    },
    {
      "entropy": 5.3937304496765135,
      "epoch": 3.6007981516488132,
      "grad_norm": 1.171875,
      "learning_rate": 0.00037419118561625333,
      "loss": 4.9018,
      "mean_token_accuracy": 0.2064728170633316,
      "num_tokens": 79076434.0,
      "step": 42860
    },
    {
      "entropy": 5.527536249160766,
      "epoch": 3.601218231463978,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00037416430528623587,
      "loss": 5.0992,
      "mean_token_accuracy": 0.19738248735666275,
      "num_tokens": 79085231.0,
      "step": 42865
    },
    {
      "entropy": 5.45185866355896,
      "epoch": 3.6016383112791432,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003741374231995738,
      "loss": 4.9266,
      "mean_token_accuracy": 0.2124362289905548,
      "num_tokens": 79093976.0,
      "step": 42870
    },
    {
      "entropy": 5.4290718078613285,
      "epoch": 3.602058391094308,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003741105393567434,
      "loss": 4.9954,
      "mean_token_accuracy": 0.20252870619297028,
      "num_tokens": 79103718.0,
      "step": 42875
    },
    {
      "entropy": 5.459000158309936,
      "epoch": 3.602478470909473,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003740836537582207,
      "loss": 4.9955,
      "mean_token_accuracy": 0.20906437337398528,
      "num_tokens": 79112807.0,
      "step": 42880
    },
    {
      "entropy": 5.467158794403076,
      "epoch": 3.6028985507246376,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003740567664044822,
      "loss": 5.1085,
      "mean_token_accuracy": 0.20139088481664658,
      "num_tokens": 79121519.0,
      "step": 42885
    },
    {
      "entropy": 5.4040323257446286,
      "epoch": 3.6033186305398024,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00037402987729600413,
      "loss": 4.971,
      "mean_token_accuracy": 0.20769633501768112,
      "num_tokens": 79130221.0,
      "step": 42890
    },
    {
      "entropy": 5.405246925354004,
      "epoch": 3.6037387103549676,
      "grad_norm": 1.09375,
      "learning_rate": 0.00037400298643326267,
      "loss": 4.9175,
      "mean_token_accuracy": 0.2012758195400238,
      "num_tokens": 79139138.0,
      "step": 42895
    },
    {
      "entropy": 5.529151344299317,
      "epoch": 3.6041587901701324,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003739760938167343,
      "loss": 5.0124,
      "mean_token_accuracy": 0.20047865509986879,
      "num_tokens": 79147826.0,
      "step": 42900
    },
    {
      "entropy": 5.54143590927124,
      "epoch": 3.604578869985297,
      "grad_norm": 0.984375,
      "learning_rate": 0.00037394919944689546,
      "loss": 5.1209,
      "mean_token_accuracy": 0.19387866407632828,
      "num_tokens": 79157526.0,
      "step": 42905
    },
    {
      "entropy": 5.584126901626587,
      "epoch": 3.604998949800462,
      "grad_norm": 1.03125,
      "learning_rate": 0.00037392230332422246,
      "loss": 5.097,
      "mean_token_accuracy": 0.1990691363811493,
      "num_tokens": 79167591.0,
      "step": 42910
    },
    {
      "entropy": 5.45194821357727,
      "epoch": 3.6054190296156268,
      "grad_norm": 1.125,
      "learning_rate": 0.0003738954054491918,
      "loss": 4.9496,
      "mean_token_accuracy": 0.20659409910440446,
      "num_tokens": 79176883.0,
      "step": 42915
    },
    {
      "entropy": 5.530334091186523,
      "epoch": 3.605839109430792,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003738685058222799,
      "loss": 5.0969,
      "mean_token_accuracy": 0.19527089446783066,
      "num_tokens": 79186387.0,
      "step": 42920
    },
    {
      "entropy": 5.449448966979981,
      "epoch": 3.606259189245957,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003738416044439634,
      "loss": 5.0297,
      "mean_token_accuracy": 0.2078207939863205,
      "num_tokens": 79195342.0,
      "step": 42925
    },
    {
      "entropy": 5.483621454238891,
      "epoch": 3.6066792690611216,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003738147013147188,
      "loss": 4.9853,
      "mean_token_accuracy": 0.20579245686531067,
      "num_tokens": 79204284.0,
      "step": 42930
    },
    {
      "entropy": 5.441776514053345,
      "epoch": 3.6070993488762864,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003737877964350225,
      "loss": 5.0289,
      "mean_token_accuracy": 0.20408566296100616,
      "num_tokens": 79213466.0,
      "step": 42935
    },
    {
      "entropy": 5.437883615493774,
      "epoch": 3.607519428691451,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00037376088980535147,
      "loss": 4.9392,
      "mean_token_accuracy": 0.2118295058608055,
      "num_tokens": 79222288.0,
      "step": 42940
    },
    {
      "entropy": 5.491694068908691,
      "epoch": 3.6079395085066164,
      "grad_norm": 1.15625,
      "learning_rate": 0.000373733981426182,
      "loss": 4.9773,
      "mean_token_accuracy": 0.2024633377790451,
      "num_tokens": 79231485.0,
      "step": 42945
    },
    {
      "entropy": 5.4904392719268795,
      "epoch": 3.608359588321781,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00037370707129799087,
      "loss": 5.0179,
      "mean_token_accuracy": 0.2004779040813446,
      "num_tokens": 79240761.0,
      "step": 42950
    },
    {
      "entropy": 5.45699405670166,
      "epoch": 3.608779668136946,
      "grad_norm": 1.25,
      "learning_rate": 0.00037368015942125483,
      "loss": 5.0461,
      "mean_token_accuracy": 0.20642999559640884,
      "num_tokens": 79250352.0,
      "step": 42955
    },
    {
      "entropy": 5.474238157272339,
      "epoch": 3.6091997479521107,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003736532457964506,
      "loss": 5.0162,
      "mean_token_accuracy": 0.20807789713144303,
      "num_tokens": 79259531.0,
      "step": 42960
    },
    {
      "entropy": 5.512535095214844,
      "epoch": 3.6096198277672755,
      "grad_norm": 0.9609375,
      "learning_rate": 0.00037362633042405493,
      "loss": 5.0233,
      "mean_token_accuracy": 0.19631807804107665,
      "num_tokens": 79269671.0,
      "step": 42965
    },
    {
      "entropy": 5.501422309875489,
      "epoch": 3.6100399075824408,
      "grad_norm": 0.94921875,
      "learning_rate": 0.00037359941330454457,
      "loss": 5.0066,
      "mean_token_accuracy": 0.2012937217950821,
      "num_tokens": 79279898.0,
      "step": 42970
    },
    {
      "entropy": 5.432448625564575,
      "epoch": 3.6104599873976055,
      "grad_norm": 1.203125,
      "learning_rate": 0.00037357249443839633,
      "loss": 4.9688,
      "mean_token_accuracy": 0.20646370202302933,
      "num_tokens": 79288545.0,
      "step": 42975
    },
    {
      "entropy": 5.4464436054229735,
      "epoch": 3.6108800672127703,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00037354557382608715,
      "loss": 5.0288,
      "mean_token_accuracy": 0.20417528003454208,
      "num_tokens": 79297751.0,
      "step": 42980
    },
    {
      "entropy": 5.463212394714356,
      "epoch": 3.6113001470279356,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00037351865146809386,
      "loss": 4.9788,
      "mean_token_accuracy": 0.20602862238883973,
      "num_tokens": 79306439.0,
      "step": 42985
    },
    {
      "entropy": 5.434137392044067,
      "epoch": 3.6117202268431003,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00037349172736489346,
      "loss": 5.0282,
      "mean_token_accuracy": 0.20458443015813826,
      "num_tokens": 79315492.0,
      "step": 42990
    },
    {
      "entropy": 5.382870149612427,
      "epoch": 3.612140306658265,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003734648015169627,
      "loss": 4.8998,
      "mean_token_accuracy": 0.21696395426988602,
      "num_tokens": 79324494.0,
      "step": 42995
    },
    {
      "entropy": 5.469515419006347,
      "epoch": 3.61256038647343,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003734378739247788,
      "loss": 4.9923,
      "mean_token_accuracy": 0.19886364191770553,
      "num_tokens": 79334112.0,
      "step": 43000
    },
    {
      "entropy": 5.4339134216308596,
      "epoch": 3.6129804662885947,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003734109445888186,
      "loss": 4.9887,
      "mean_token_accuracy": 0.20514945834875106,
      "num_tokens": 79343266.0,
      "step": 43005
    },
    {
      "entropy": 5.501438999176026,
      "epoch": 3.61340054610376,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00037338401350955924,
      "loss": 5.0142,
      "mean_token_accuracy": 0.20353100448846817,
      "num_tokens": 79352347.0,
      "step": 43010
    },
    {
      "entropy": 5.47742714881897,
      "epoch": 3.6138206259189247,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003733570806874777,
      "loss": 4.9899,
      "mean_token_accuracy": 0.21078673750162125,
      "num_tokens": 79361543.0,
      "step": 43015
    },
    {
      "entropy": 5.4346527576446535,
      "epoch": 3.6142407057340895,
      "grad_norm": 1.125,
      "learning_rate": 0.0003733301461230511,
      "loss": 4.9882,
      "mean_token_accuracy": 0.20515553653240204,
      "num_tokens": 79370221.0,
      "step": 43020
    },
    {
      "entropy": 5.429975795745849,
      "epoch": 3.6146607855492543,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003733032098167566,
      "loss": 5.0342,
      "mean_token_accuracy": 0.20075542181730271,
      "num_tokens": 79379788.0,
      "step": 43025
    },
    {
      "entropy": 5.50970458984375,
      "epoch": 3.615080865364419,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003732762717690714,
      "loss": 5.0865,
      "mean_token_accuracy": 0.20021846443414687,
      "num_tokens": 79389640.0,
      "step": 43030
    },
    {
      "entropy": 5.550671720504761,
      "epoch": 3.6155009451795843,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003732493319804726,
      "loss": 5.0255,
      "mean_token_accuracy": 0.19978746622800828,
      "num_tokens": 79398252.0,
      "step": 43035
    },
    {
      "entropy": 5.468272686004639,
      "epoch": 3.615921024994749,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003732223904514375,
      "loss": 5.081,
      "mean_token_accuracy": 0.19782177209854127,
      "num_tokens": 79407828.0,
      "step": 43040
    },
    {
      "entropy": 5.375046062469482,
      "epoch": 3.616341104809914,
      "grad_norm": 1.03125,
      "learning_rate": 0.00037319544718244336,
      "loss": 4.9468,
      "mean_token_accuracy": 0.21496329754590987,
      "num_tokens": 79417948.0,
      "step": 43045
    },
    {
      "entropy": 5.492879819869995,
      "epoch": 3.6167611846250787,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003731685021739674,
      "loss": 4.9252,
      "mean_token_accuracy": 0.20851854383945465,
      "num_tokens": 79426644.0,
      "step": 43050
    },
    {
      "entropy": 5.47987551689148,
      "epoch": 3.6171812644402435,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000373141555426487,
      "loss": 4.9614,
      "mean_token_accuracy": 0.20797323286533356,
      "num_tokens": 79435541.0,
      "step": 43055
    },
    {
      "entropy": 5.482820320129394,
      "epoch": 3.6176013442554087,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003731146069404794,
      "loss": 5.088,
      "mean_token_accuracy": 0.19482206255197526,
      "num_tokens": 79445737.0,
      "step": 43060
    },
    {
      "entropy": 5.394428730010986,
      "epoch": 3.6180214240705735,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003730876567164221,
      "loss": 4.9269,
      "mean_token_accuracy": 0.2015495255589485,
      "num_tokens": 79454296.0,
      "step": 43065
    },
    {
      "entropy": 5.527809715270996,
      "epoch": 3.6184415038857383,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003730607047547925,
      "loss": 4.931,
      "mean_token_accuracy": 0.21635865569114685,
      "num_tokens": 79462553.0,
      "step": 43070
    },
    {
      "entropy": 5.433185291290283,
      "epoch": 3.618861583700903,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000373033751056068,
      "loss": 4.9738,
      "mean_token_accuracy": 0.20783862173557283,
      "num_tokens": 79471323.0,
      "step": 43075
    },
    {
      "entropy": 5.463619327545166,
      "epoch": 3.619281663516068,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003730067956207261,
      "loss": 5.0932,
      "mean_token_accuracy": 0.19511219710111619,
      "num_tokens": 79479965.0,
      "step": 43080
    },
    {
      "entropy": 5.498296165466309,
      "epoch": 3.619701743331233,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00037297983844924423,
      "loss": 4.9982,
      "mean_token_accuracy": 0.20266058444976806,
      "num_tokens": 79488893.0,
      "step": 43085
    },
    {
      "entropy": 5.531594944000244,
      "epoch": 3.620121823146398,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003729528795421,
      "loss": 5.0746,
      "mean_token_accuracy": 0.19639825373888015,
      "num_tokens": 79497428.0,
      "step": 43090
    },
    {
      "entropy": 5.488124561309815,
      "epoch": 3.6205419029615626,
      "grad_norm": 1.09375,
      "learning_rate": 0.00037292591889977097,
      "loss": 5.0653,
      "mean_token_accuracy": 0.20515135526657105,
      "num_tokens": 79506751.0,
      "step": 43095
    },
    {
      "entropy": 5.418369960784912,
      "epoch": 3.6209619827767274,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003728989565227347,
      "loss": 5.0142,
      "mean_token_accuracy": 0.20131312161684037,
      "num_tokens": 79516559.0,
      "step": 43100
    },
    {
      "entropy": 5.536390161514282,
      "epoch": 3.621382062591892,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003728719924114688,
      "loss": 5.0867,
      "mean_token_accuracy": 0.20143988877534866,
      "num_tokens": 79525188.0,
      "step": 43105
    },
    {
      "entropy": 5.506215620040893,
      "epoch": 3.6218021424070574,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000372845026566451,
      "loss": 4.978,
      "mean_token_accuracy": 0.20613059103488923,
      "num_tokens": 79534691.0,
      "step": 43110
    },
    {
      "entropy": 5.4761909484863285,
      "epoch": 3.6222222222222222,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003728180589881589,
      "loss": 5.0291,
      "mean_token_accuracy": 0.1982230067253113,
      "num_tokens": 79544372.0,
      "step": 43115
    },
    {
      "entropy": 5.428591251373291,
      "epoch": 3.622642302037387,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00037279108967707027,
      "loss": 4.9741,
      "mean_token_accuracy": 0.2053166002035141,
      "num_tokens": 79554548.0,
      "step": 43120
    },
    {
      "entropy": 5.512569761276245,
      "epoch": 3.6230623818525522,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003727641186336628,
      "loss": 4.9926,
      "mean_token_accuracy": 0.20834238976240158,
      "num_tokens": 79563831.0,
      "step": 43125
    },
    {
      "entropy": 5.464417219161987,
      "epoch": 3.6234824616677166,
      "grad_norm": 1.03125,
      "learning_rate": 0.00037273714585841426,
      "loss": 4.9231,
      "mean_token_accuracy": 0.2114018976688385,
      "num_tokens": 79573559.0,
      "step": 43130
    },
    {
      "entropy": 5.418135166168213,
      "epoch": 3.623902541482882,
      "grad_norm": 1.203125,
      "learning_rate": 0.00037271017135180265,
      "loss": 4.9954,
      "mean_token_accuracy": 0.21300989836454393,
      "num_tokens": 79581903.0,
      "step": 43135
    },
    {
      "entropy": 5.416776704788208,
      "epoch": 3.6243226212980466,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003726831951143056,
      "loss": 4.991,
      "mean_token_accuracy": 0.20329976081848145,
      "num_tokens": 79591023.0,
      "step": 43140
    },
    {
      "entropy": 5.469636392593384,
      "epoch": 3.6247427011132114,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00037265621714640103,
      "loss": 4.9339,
      "mean_token_accuracy": 0.20587280839681626,
      "num_tokens": 79600022.0,
      "step": 43145
    },
    {
      "entropy": 5.471023893356323,
      "epoch": 3.6251627809283766,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003726292374485669,
      "loss": 4.9518,
      "mean_token_accuracy": 0.2147292137145996,
      "num_tokens": 79608720.0,
      "step": 43150
    },
    {
      "entropy": 5.437932348251342,
      "epoch": 3.6255828607435414,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00037260225602128114,
      "loss": 4.9934,
      "mean_token_accuracy": 0.2081232026219368,
      "num_tokens": 79618046.0,
      "step": 43155
    },
    {
      "entropy": 5.343410396575928,
      "epoch": 3.626002940558706,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00037257527286502153,
      "loss": 4.9281,
      "mean_token_accuracy": 0.2086941882967949,
      "num_tokens": 79627347.0,
      "step": 43160
    },
    {
      "entropy": 5.433114767074585,
      "epoch": 3.626423020373871,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003725482879802663,
      "loss": 5.0117,
      "mean_token_accuracy": 0.2023261681199074,
      "num_tokens": 79635742.0,
      "step": 43165
    },
    {
      "entropy": 5.426348924636841,
      "epoch": 3.6268431001890358,
      "grad_norm": 1.0625,
      "learning_rate": 0.00037252130136749336,
      "loss": 4.9605,
      "mean_token_accuracy": 0.20551475286483764,
      "num_tokens": 79644795.0,
      "step": 43170
    },
    {
      "entropy": 5.431974172592163,
      "epoch": 3.627263180004201,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003724943130271808,
      "loss": 4.9775,
      "mean_token_accuracy": 0.20244290679693222,
      "num_tokens": 79653556.0,
      "step": 43175
    },
    {
      "entropy": 5.450421953201294,
      "epoch": 3.627683259819366,
      "grad_norm": 1.109375,
      "learning_rate": 0.00037246732295980665,
      "loss": 4.9211,
      "mean_token_accuracy": 0.20693780481815338,
      "num_tokens": 79661958.0,
      "step": 43180
    },
    {
      "entropy": 5.384613180160523,
      "epoch": 3.6281033396345306,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003724403311658491,
      "loss": 4.9222,
      "mean_token_accuracy": 0.20662286430597304,
      "num_tokens": 79671596.0,
      "step": 43185
    },
    {
      "entropy": 5.515514469146728,
      "epoch": 3.6285234194496954,
      "grad_norm": 1.03125,
      "learning_rate": 0.00037241333764578626,
      "loss": 5.0669,
      "mean_token_accuracy": 0.20380211025476455,
      "num_tokens": 79680744.0,
      "step": 43190
    },
    {
      "entropy": 5.417727518081665,
      "epoch": 3.62894349926486,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003723863424000963,
      "loss": 4.9302,
      "mean_token_accuracy": 0.21209129244089125,
      "num_tokens": 79690024.0,
      "step": 43195
    },
    {
      "entropy": 5.442846584320068,
      "epoch": 3.6293635790800254,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00037235934542925736,
      "loss": 5.0213,
      "mean_token_accuracy": 0.20225024670362474,
      "num_tokens": 79699176.0,
      "step": 43200
    },
    {
      "entropy": 5.431646251678467,
      "epoch": 3.62978365889519,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003723323467337479,
      "loss": 5.0458,
      "mean_token_accuracy": 0.20954731553792955,
      "num_tokens": 79707935.0,
      "step": 43205
    },
    {
      "entropy": 5.482860422134399,
      "epoch": 3.630203738710355,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00037230534631404593,
      "loss": 5.0466,
      "mean_token_accuracy": 0.1959509402513504,
      "num_tokens": 79717423.0,
      "step": 43210
    },
    {
      "entropy": 5.548368740081787,
      "epoch": 3.6306238185255197,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00037227834417062985,
      "loss": 5.0531,
      "mean_token_accuracy": 0.20859284251928328,
      "num_tokens": 79727416.0,
      "step": 43215
    },
    {
      "entropy": 5.472223711013794,
      "epoch": 3.6310438983406845,
      "grad_norm": 1.1875,
      "learning_rate": 0.000372251340303978,
      "loss": 4.9815,
      "mean_token_accuracy": 0.20451384633779526,
      "num_tokens": 79736110.0,
      "step": 43220
    },
    {
      "entropy": 5.528650569915771,
      "epoch": 3.6314639781558498,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003722243347145687,
      "loss": 5.0043,
      "mean_token_accuracy": 0.20142368376255035,
      "num_tokens": 79746101.0,
      "step": 43225
    },
    {
      "entropy": 5.460596418380737,
      "epoch": 3.6318840579710145,
      "grad_norm": 1.078125,
      "learning_rate": 0.00037219732740288047,
      "loss": 4.9869,
      "mean_token_accuracy": 0.20337769091129304,
      "num_tokens": 79754452.0,
      "step": 43230
    },
    {
      "entropy": 5.4217897891998295,
      "epoch": 3.6323041377861793,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00037217031836939157,
      "loss": 4.9887,
      "mean_token_accuracy": 0.20600197166204454,
      "num_tokens": 79762754.0,
      "step": 43235
    },
    {
      "entropy": 5.460884714126587,
      "epoch": 3.632724217601344,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00037214330761458053,
      "loss": 5.0295,
      "mean_token_accuracy": 0.19907647371292114,
      "num_tokens": 79772441.0,
      "step": 43240
    },
    {
      "entropy": 5.482486295700073,
      "epoch": 3.633144297416509,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00037211629513892586,
      "loss": 4.9878,
      "mean_token_accuracy": 0.20198288559913635,
      "num_tokens": 79781948.0,
      "step": 43245
    },
    {
      "entropy": 5.50771803855896,
      "epoch": 3.633564377231674,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00037208928094290596,
      "loss": 5.0424,
      "mean_token_accuracy": 0.20377830862998964,
      "num_tokens": 79790581.0,
      "step": 43250
    },
    {
      "entropy": 5.512924861907959,
      "epoch": 3.633984457046839,
      "grad_norm": 1.0625,
      "learning_rate": 0.00037206226502699947,
      "loss": 5.0004,
      "mean_token_accuracy": 0.2029479429125786,
      "num_tokens": 79799624.0,
      "step": 43255
    },
    {
      "entropy": 5.486103105545044,
      "epoch": 3.6344045368620037,
      "grad_norm": 1.0625,
      "learning_rate": 0.00037203524739168494,
      "loss": 5.0373,
      "mean_token_accuracy": 0.1976436197757721,
      "num_tokens": 79808996.0,
      "step": 43260
    },
    {
      "entropy": 5.401934099197388,
      "epoch": 3.6348246166771685,
      "grad_norm": 1.0,
      "learning_rate": 0.0003720082280374409,
      "loss": 4.9632,
      "mean_token_accuracy": 0.20388333648443221,
      "num_tokens": 79818744.0,
      "step": 43265
    },
    {
      "entropy": 5.541191673278808,
      "epoch": 3.6352446964923333,
      "grad_norm": 1.109375,
      "learning_rate": 0.00037198120696474614,
      "loss": 5.1065,
      "mean_token_accuracy": 0.20185335874557495,
      "num_tokens": 79827946.0,
      "step": 43270
    },
    {
      "entropy": 5.51517391204834,
      "epoch": 3.6356647763074985,
      "grad_norm": 1.25,
      "learning_rate": 0.0003719541841740792,
      "loss": 5.0432,
      "mean_token_accuracy": 0.20464262515306472,
      "num_tokens": 79836585.0,
      "step": 43275
    },
    {
      "entropy": 5.428196573257447,
      "epoch": 3.6360848561226633,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003719271596659188,
      "loss": 4.9685,
      "mean_token_accuracy": 0.20954135805368423,
      "num_tokens": 79845440.0,
      "step": 43280
    },
    {
      "entropy": 5.451622676849365,
      "epoch": 3.636504935937828,
      "grad_norm": 1.0625,
      "learning_rate": 0.00037190013344074374,
      "loss": 4.9737,
      "mean_token_accuracy": 0.2068738967180252,
      "num_tokens": 79854866.0,
      "step": 43285
    },
    {
      "entropy": 5.411254739761352,
      "epoch": 3.6369250157529933,
      "grad_norm": 1.15625,
      "learning_rate": 0.00037187310549903263,
      "loss": 4.8991,
      "mean_token_accuracy": 0.21573684066534043,
      "num_tokens": 79864261.0,
      "step": 43290
    },
    {
      "entropy": 5.387627029418946,
      "epoch": 3.637345095568158,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003718460758412645,
      "loss": 5.0038,
      "mean_token_accuracy": 0.2069631800055504,
      "num_tokens": 79873106.0,
      "step": 43295
    },
    {
      "entropy": 5.483651733398437,
      "epoch": 3.637765175383323,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003718190444679178,
      "loss": 4.9991,
      "mean_token_accuracy": 0.20863982439041137,
      "num_tokens": 79881237.0,
      "step": 43300
    },
    {
      "entropy": 5.475186109542847,
      "epoch": 3.6381852551984877,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00037179201137947166,
      "loss": 5.0363,
      "mean_token_accuracy": 0.20305023193359376,
      "num_tokens": 79891593.0,
      "step": 43305
    },
    {
      "entropy": 5.489691925048828,
      "epoch": 3.6386053350136525,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003717649765764049,
      "loss": 5.08,
      "mean_token_accuracy": 0.19961947798728943,
      "num_tokens": 79901769.0,
      "step": 43310
    },
    {
      "entropy": 5.570220041275024,
      "epoch": 3.6390254148288177,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00037173794005919636,
      "loss": 5.064,
      "mean_token_accuracy": 0.19959276616573335,
      "num_tokens": 79910646.0,
      "step": 43315
    },
    {
      "entropy": 5.476371717453003,
      "epoch": 3.6394454946439825,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003717109018283251,
      "loss": 4.9777,
      "mean_token_accuracy": 0.2071722447872162,
      "num_tokens": 79920457.0,
      "step": 43320
    },
    {
      "entropy": 5.474073982238769,
      "epoch": 3.6398655744591473,
      "grad_norm": 1.09375,
      "learning_rate": 0.00037168386188426994,
      "loss": 5.1212,
      "mean_token_accuracy": 0.1948227897286415,
      "num_tokens": 79929635.0,
      "step": 43325
    },
    {
      "entropy": 5.520107746124268,
      "epoch": 3.640285654274312,
      "grad_norm": 1.046875,
      "learning_rate": 0.00037165682022751,
      "loss": 5.0267,
      "mean_token_accuracy": 0.2064412623643875,
      "num_tokens": 79938883.0,
      "step": 43330
    },
    {
      "entropy": 5.4891870498657225,
      "epoch": 3.640705734089477,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003716297768585242,
      "loss": 4.987,
      "mean_token_accuracy": 0.20233797281980515,
      "num_tokens": 79947897.0,
      "step": 43335
    },
    {
      "entropy": 5.478552722930909,
      "epoch": 3.641125813904642,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003716027317777917,
      "loss": 4.9623,
      "mean_token_accuracy": 0.20314857214689255,
      "num_tokens": 79957164.0,
      "step": 43340
    },
    {
      "entropy": 5.424467992782593,
      "epoch": 3.641545893719807,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003715756849857915,
      "loss": 4.9609,
      "mean_token_accuracy": 0.2059224486351013,
      "num_tokens": 79965179.0,
      "step": 43345
    },
    {
      "entropy": 5.507048845291138,
      "epoch": 3.6419659735349716,
      "grad_norm": 1.03125,
      "learning_rate": 0.00037154863648300283,
      "loss": 5.0368,
      "mean_token_accuracy": 0.20931121855974197,
      "num_tokens": 79975457.0,
      "step": 43350
    },
    {
      "entropy": 5.44829626083374,
      "epoch": 3.6423860533501364,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003715215862699048,
      "loss": 4.9236,
      "mean_token_accuracy": 0.20863408595323563,
      "num_tokens": 79984812.0,
      "step": 43355
    },
    {
      "entropy": 5.449686765670776,
      "epoch": 3.642806133165301,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00037149453434697654,
      "loss": 4.9209,
      "mean_token_accuracy": 0.21456608474254607,
      "num_tokens": 79993814.0,
      "step": 43360
    },
    {
      "entropy": 5.3728070735931395,
      "epoch": 3.6432262129804664,
      "grad_norm": 1.0625,
      "learning_rate": 0.00037146748071469727,
      "loss": 4.9347,
      "mean_token_accuracy": 0.2074582725763321,
      "num_tokens": 80002791.0,
      "step": 43365
    },
    {
      "entropy": 5.444602298736572,
      "epoch": 3.6436462927956312,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003714404253735463,
      "loss": 4.9623,
      "mean_token_accuracy": 0.20877679139375688,
      "num_tokens": 80011514.0,
      "step": 43370
    },
    {
      "entropy": 5.406335735321045,
      "epoch": 3.644066372610796,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003714133683240029,
      "loss": 4.9538,
      "mean_token_accuracy": 0.2108293056488037,
      "num_tokens": 80020644.0,
      "step": 43375
    },
    {
      "entropy": 5.491846656799316,
      "epoch": 3.644486452425961,
      "grad_norm": 1.59375,
      "learning_rate": 0.0003713863095665462,
      "loss": 5.0051,
      "mean_token_accuracy": 0.20238193571567537,
      "num_tokens": 80029194.0,
      "step": 43380
    },
    {
      "entropy": 5.43623685836792,
      "epoch": 3.6449065322411256,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003713592491016557,
      "loss": 5.0061,
      "mean_token_accuracy": 0.20081478208303452,
      "num_tokens": 80038803.0,
      "step": 43385
    },
    {
      "entropy": 5.549703788757324,
      "epoch": 3.645326612056291,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00037133218692981076,
      "loss": 5.0457,
      "mean_token_accuracy": 0.19745997935533524,
      "num_tokens": 80047517.0,
      "step": 43390
    },
    {
      "entropy": 5.597650814056396,
      "epoch": 3.6457466918714556,
      "grad_norm": 1.109375,
      "learning_rate": 0.00037130512305149065,
      "loss": 5.1537,
      "mean_token_accuracy": 0.18597121238708497,
      "num_tokens": 80057530.0,
      "step": 43395
    },
    {
      "entropy": 5.498741340637207,
      "epoch": 3.6461667716866204,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0003712780574671749,
      "loss": 5.0156,
      "mean_token_accuracy": 0.20305105149745942,
      "num_tokens": 80065891.0,
      "step": 43400
    },
    {
      "entropy": 5.492977094650269,
      "epoch": 3.646586851501785,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000371250990177343,
      "loss": 5.0356,
      "mean_token_accuracy": 0.20239493399858474,
      "num_tokens": 80074794.0,
      "step": 43405
    },
    {
      "entropy": 5.498529386520386,
      "epoch": 3.64700693131695,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003712239211824743,
      "loss": 4.9413,
      "mean_token_accuracy": 0.2114025369286537,
      "num_tokens": 80083935.0,
      "step": 43410
    },
    {
      "entropy": 5.409355783462525,
      "epoch": 3.647427011132115,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003711968504830484,
      "loss": 4.9851,
      "mean_token_accuracy": 0.20726968795061113,
      "num_tokens": 80092911.0,
      "step": 43415
    },
    {
      "entropy": 5.435356330871582,
      "epoch": 3.64784709094728,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003711697780795449,
      "loss": 4.9985,
      "mean_token_accuracy": 0.2022018998861313,
      "num_tokens": 80101806.0,
      "step": 43420
    },
    {
      "entropy": 5.509475755691528,
      "epoch": 3.6482671707624448,
      "grad_norm": 1.125,
      "learning_rate": 0.0003711427039724432,
      "loss": 5.0085,
      "mean_token_accuracy": 0.209055358171463,
      "num_tokens": 80109871.0,
      "step": 43425
    },
    {
      "entropy": 5.5008705139160154,
      "epoch": 3.64868725057761,
      "grad_norm": 1.0625,
      "learning_rate": 0.00037111562816222307,
      "loss": 4.9632,
      "mean_token_accuracy": 0.20748017281293868,
      "num_tokens": 80118636.0,
      "step": 43430
    },
    {
      "entropy": 5.458269834518433,
      "epoch": 3.6491073303927744,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003710885506493641,
      "loss": 4.9725,
      "mean_token_accuracy": 0.20126320719718932,
      "num_tokens": 80128732.0,
      "step": 43435
    },
    {
      "entropy": 5.5015956401824955,
      "epoch": 3.6495274102079396,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003710614714343459,
      "loss": 5.0495,
      "mean_token_accuracy": 0.20468830764293672,
      "num_tokens": 80138028.0,
      "step": 43440
    },
    {
      "entropy": 5.568435478210449,
      "epoch": 3.6499474900231044,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003710343905176481,
      "loss": 5.0687,
      "mean_token_accuracy": 0.20516887903213502,
      "num_tokens": 80146975.0,
      "step": 43445
    },
    {
      "entropy": 5.418472003936768,
      "epoch": 3.650367569838269,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003710073078997507,
      "loss": 5.0668,
      "mean_token_accuracy": 0.19923522621393203,
      "num_tokens": 80155355.0,
      "step": 43450
    },
    {
      "entropy": 5.407652997970581,
      "epoch": 3.6507876496534344,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003709802235811332,
      "loss": 4.9297,
      "mean_token_accuracy": 0.21821643263101578,
      "num_tokens": 80164029.0,
      "step": 43455
    },
    {
      "entropy": 5.466377925872803,
      "epoch": 3.651207729468599,
      "grad_norm": 1.109375,
      "learning_rate": 0.00037095313756227546,
      "loss": 5.0118,
      "mean_token_accuracy": 0.2034750297665596,
      "num_tokens": 80173288.0,
      "step": 43460
    },
    {
      "entropy": 5.552271175384521,
      "epoch": 3.651627809283764,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003709260498436573,
      "loss": 5.0506,
      "mean_token_accuracy": 0.1955722063779831,
      "num_tokens": 80182779.0,
      "step": 43465
    },
    {
      "entropy": 5.561280536651611,
      "epoch": 3.6520478890989287,
      "grad_norm": 1.25,
      "learning_rate": 0.0003708989604257585,
      "loss": 5.1293,
      "mean_token_accuracy": 0.196842560172081,
      "num_tokens": 80192688.0,
      "step": 43470
    },
    {
      "entropy": 5.480740642547607,
      "epoch": 3.6524679689140935,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00037087186930905903,
      "loss": 5.0644,
      "mean_token_accuracy": 0.19323597997426986,
      "num_tokens": 80202040.0,
      "step": 43475
    },
    {
      "entropy": 5.525354051589966,
      "epoch": 3.6528880487292588,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003708447764940388,
      "loss": 5.0676,
      "mean_token_accuracy": 0.19532756507396698,
      "num_tokens": 80211762.0,
      "step": 43480
    },
    {
      "entropy": 5.461087322235107,
      "epoch": 3.6533081285444235,
      "grad_norm": 1.09375,
      "learning_rate": 0.00037081768198117765,
      "loss": 4.9703,
      "mean_token_accuracy": 0.20486714988946914,
      "num_tokens": 80221157.0,
      "step": 43485
    },
    {
      "entropy": 5.482695055007935,
      "epoch": 3.6537282083595883,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003707905857709557,
      "loss": 5.021,
      "mean_token_accuracy": 0.20731687545776367,
      "num_tokens": 80229748.0,
      "step": 43490
    },
    {
      "entropy": 5.54064040184021,
      "epoch": 3.654148288174753,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00037076348786385275,
      "loss": 5.024,
      "mean_token_accuracy": 0.20036758929491044,
      "num_tokens": 80238610.0,
      "step": 43495
    },
    {
      "entropy": 5.400328493118286,
      "epoch": 3.654568367989918,
      "grad_norm": 1.09375,
      "learning_rate": 0.00037073638826034893,
      "loss": 4.9664,
      "mean_token_accuracy": 0.20927862524986268,
      "num_tokens": 80247777.0,
      "step": 43500
    },
    {
      "entropy": 5.44744873046875,
      "epoch": 3.654988447805083,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00037070928696092436,
      "loss": 4.9449,
      "mean_token_accuracy": 0.20601210743188858,
      "num_tokens": 80257666.0,
      "step": 43505
    },
    {
      "entropy": 5.485303592681885,
      "epoch": 3.655408527620248,
      "grad_norm": 1.078125,
      "learning_rate": 0.000370682183966059,
      "loss": 4.95,
      "mean_token_accuracy": 0.20781899690628053,
      "num_tokens": 80266270.0,
      "step": 43510
    },
    {
      "entropy": 5.392455101013184,
      "epoch": 3.6558286074354127,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003706550792762331,
      "loss": 4.8584,
      "mean_token_accuracy": 0.21455528289079667,
      "num_tokens": 80275164.0,
      "step": 43515
    },
    {
      "entropy": 5.453310823440551,
      "epoch": 3.6562486872505775,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00037062797289192663,
      "loss": 5.0126,
      "mean_token_accuracy": 0.20516515523195267,
      "num_tokens": 80284371.0,
      "step": 43520
    },
    {
      "entropy": 5.421269655227661,
      "epoch": 3.6566687670657423,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003706008648136199,
      "loss": 4.9627,
      "mean_token_accuracy": 0.20616635978221892,
      "num_tokens": 80293590.0,
      "step": 43525
    },
    {
      "entropy": 5.530569696426392,
      "epoch": 3.6570888468809075,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003705737550417931,
      "loss": 5.072,
      "mean_token_accuracy": 0.20190570801496505,
      "num_tokens": 80302001.0,
      "step": 43530
    },
    {
      "entropy": 5.510030889511109,
      "epoch": 3.6575089266960723,
      "grad_norm": 1.125,
      "learning_rate": 0.00037054664357692637,
      "loss": 5.0347,
      "mean_token_accuracy": 0.20892135798931122,
      "num_tokens": 80311576.0,
      "step": 43535
    },
    {
      "entropy": 5.496504402160644,
      "epoch": 3.657929006511237,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003705195304195001,
      "loss": 4.9522,
      "mean_token_accuracy": 0.2020169347524643,
      "num_tokens": 80320410.0,
      "step": 43540
    },
    {
      "entropy": 5.480977630615234,
      "epoch": 3.658349086326402,
      "grad_norm": 1.0625,
      "learning_rate": 0.00037049241556999453,
      "loss": 5.0663,
      "mean_token_accuracy": 0.20298334509134291,
      "num_tokens": 80330733.0,
      "step": 43545
    },
    {
      "entropy": 5.39212212562561,
      "epoch": 3.6587691661415667,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00037046529902888997,
      "loss": 4.9136,
      "mean_token_accuracy": 0.21056317836046218,
      "num_tokens": 80339774.0,
      "step": 43550
    },
    {
      "entropy": 5.479577827453613,
      "epoch": 3.659189245956732,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003704381807966668,
      "loss": 5.0141,
      "mean_token_accuracy": 0.2050587937235832,
      "num_tokens": 80348345.0,
      "step": 43555
    },
    {
      "entropy": 5.439814233779908,
      "epoch": 3.6596093257718967,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00037041106087380536,
      "loss": 5.0639,
      "mean_token_accuracy": 0.19935888946056365,
      "num_tokens": 80357286.0,
      "step": 43560
    },
    {
      "entropy": 5.468390035629272,
      "epoch": 3.6600294055870615,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00037038393926078623,
      "loss": 4.9763,
      "mean_token_accuracy": 0.20039902925491332,
      "num_tokens": 80367387.0,
      "step": 43565
    },
    {
      "entropy": 5.568281364440918,
      "epoch": 3.6604494854022267,
      "grad_norm": 1.03125,
      "learning_rate": 0.00037035681595808963,
      "loss": 5.0808,
      "mean_token_accuracy": 0.20533098578453063,
      "num_tokens": 80377326.0,
      "step": 43570
    },
    {
      "entropy": 5.478240251541138,
      "epoch": 3.660869565217391,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003703296909661962,
      "loss": 5.021,
      "mean_token_accuracy": 0.20046160668134688,
      "num_tokens": 80386644.0,
      "step": 43575
    },
    {
      "entropy": 5.456393384933472,
      "epoch": 3.6612896450325563,
      "grad_norm": 1.125,
      "learning_rate": 0.0003703025642855863,
      "loss": 5.0677,
      "mean_token_accuracy": 0.19785623252391815,
      "num_tokens": 80396265.0,
      "step": 43580
    },
    {
      "entropy": 5.488672971725464,
      "epoch": 3.661709724847721,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003702754359167406,
      "loss": 5.019,
      "mean_token_accuracy": 0.19921733289957047,
      "num_tokens": 80405031.0,
      "step": 43585
    },
    {
      "entropy": 5.470614099502564,
      "epoch": 3.662129804662886,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003702483058601396,
      "loss": 5.0854,
      "mean_token_accuracy": 0.19993230253458022,
      "num_tokens": 80414728.0,
      "step": 43590
    },
    {
      "entropy": 5.514831447601319,
      "epoch": 3.662549884478051,
      "grad_norm": 1.234375,
      "learning_rate": 0.00037022117411626395,
      "loss": 5.0854,
      "mean_token_accuracy": 0.20275186151266097,
      "num_tokens": 80424569.0,
      "step": 43595
    },
    {
      "entropy": 5.477384757995606,
      "epoch": 3.662969964293216,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003701940406855942,
      "loss": 4.9673,
      "mean_token_accuracy": 0.20693414509296418,
      "num_tokens": 80434240.0,
      "step": 43600
    },
    {
      "entropy": 5.438806200027466,
      "epoch": 3.6633900441083806,
      "grad_norm": 1.078125,
      "learning_rate": 0.00037016690556861094,
      "loss": 5.0591,
      "mean_token_accuracy": 0.19354153275489808,
      "num_tokens": 80443083.0,
      "step": 43605
    },
    {
      "entropy": 5.484454011917114,
      "epoch": 3.6638101239235454,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00037013976876579507,
      "loss": 5.0331,
      "mean_token_accuracy": 0.19905617088079453,
      "num_tokens": 80452544.0,
      "step": 43610
    },
    {
      "entropy": 5.613679075241089,
      "epoch": 3.6642302037387102,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003701126302776272,
      "loss": 5.1252,
      "mean_token_accuracy": 0.19456065446138382,
      "num_tokens": 80463026.0,
      "step": 43615
    },
    {
      "entropy": 5.528917741775513,
      "epoch": 3.6646502835538755,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00037008549010458797,
      "loss": 4.9805,
      "mean_token_accuracy": 0.2019474059343338,
      "num_tokens": 80471964.0,
      "step": 43620
    },
    {
      "entropy": 5.47681770324707,
      "epoch": 3.6650703633690402,
      "grad_norm": 1.0,
      "learning_rate": 0.00037005834824715826,
      "loss": 5.0248,
      "mean_token_accuracy": 0.20183545649051665,
      "num_tokens": 80481810.0,
      "step": 43625
    },
    {
      "entropy": 5.4714843273162845,
      "epoch": 3.665490443184205,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00037003120470581897,
      "loss": 4.9911,
      "mean_token_accuracy": 0.20439713299274445,
      "num_tokens": 80491329.0,
      "step": 43630
    },
    {
      "entropy": 5.459137439727783,
      "epoch": 3.66591052299937,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003700040594810507,
      "loss": 5.0599,
      "mean_token_accuracy": 0.20214804708957673,
      "num_tokens": 80500717.0,
      "step": 43635
    },
    {
      "entropy": 5.434400033950806,
      "epoch": 3.6663306028145346,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003699769125733345,
      "loss": 4.8893,
      "mean_token_accuracy": 0.20833826214075088,
      "num_tokens": 80510130.0,
      "step": 43640
    },
    {
      "entropy": 5.478060483932495,
      "epoch": 3.6667506826297,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00036994976398315116,
      "loss": 5.024,
      "mean_token_accuracy": 0.21271757036447525,
      "num_tokens": 80519852.0,
      "step": 43645
    },
    {
      "entropy": 5.482634973526001,
      "epoch": 3.6671707624448646,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003699226137109817,
      "loss": 5.0076,
      "mean_token_accuracy": 0.20888778269290925,
      "num_tokens": 80528666.0,
      "step": 43650
    },
    {
      "entropy": 5.4344395160675045,
      "epoch": 3.6675908422600294,
      "grad_norm": 1.078125,
      "learning_rate": 0.000369895461757307,
      "loss": 4.9922,
      "mean_token_accuracy": 0.20198615193367003,
      "num_tokens": 80538645.0,
      "step": 43655
    },
    {
      "entropy": 5.514535999298095,
      "epoch": 3.668010922075194,
      "grad_norm": 1.09375,
      "learning_rate": 0.000369868308122608,
      "loss": 5.1585,
      "mean_token_accuracy": 0.19268885552883147,
      "num_tokens": 80548068.0,
      "step": 43660
    },
    {
      "entropy": 5.414162445068359,
      "epoch": 3.668431001890359,
      "grad_norm": 1.15625,
      "learning_rate": 0.00036984115280736587,
      "loss": 5.0103,
      "mean_token_accuracy": 0.19634103178977966,
      "num_tokens": 80556909.0,
      "step": 43665
    },
    {
      "entropy": 5.498958158493042,
      "epoch": 3.668851081705524,
      "grad_norm": 0.95703125,
      "learning_rate": 0.00036981399581206137,
      "loss": 5.0488,
      "mean_token_accuracy": 0.21023885160684586,
      "num_tokens": 80566004.0,
      "step": 43670
    },
    {
      "entropy": 5.446487665176392,
      "epoch": 3.669271161520689,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003697868371371759,
      "loss": 4.9738,
      "mean_token_accuracy": 0.20409339517354966,
      "num_tokens": 80574242.0,
      "step": 43675
    },
    {
      "entropy": 5.4451086044311525,
      "epoch": 3.669691241335854,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00036975967678319047,
      "loss": 5.0224,
      "mean_token_accuracy": 0.19956225603818895,
      "num_tokens": 80583302.0,
      "step": 43680
    },
    {
      "entropy": 5.4110002517700195,
      "epoch": 3.6701113211510186,
      "grad_norm": 1.078125,
      "learning_rate": 0.00036973251475058607,
      "loss": 4.9426,
      "mean_token_accuracy": 0.20178582966327668,
      "num_tokens": 80594488.0,
      "step": 43685
    },
    {
      "entropy": 5.485123634338379,
      "epoch": 3.6705314009661834,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003697053510398439,
      "loss": 4.9883,
      "mean_token_accuracy": 0.20800960659980774,
      "num_tokens": 80604752.0,
      "step": 43690
    },
    {
      "entropy": 5.475202178955078,
      "epoch": 3.6709514807813486,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00036967818565144535,
      "loss": 4.9959,
      "mean_token_accuracy": 0.20257956832647322,
      "num_tokens": 80613424.0,
      "step": 43695
    },
    {
      "entropy": 5.462016534805298,
      "epoch": 3.6713715605965134,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00036965101858587137,
      "loss": 5.0436,
      "mean_token_accuracy": 0.2020921751856804,
      "num_tokens": 80622699.0,
      "step": 43700
    },
    {
      "entropy": 5.47101674079895,
      "epoch": 3.671791640411678,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003696238498436034,
      "loss": 5.0768,
      "mean_token_accuracy": 0.1943580076098442,
      "num_tokens": 80632749.0,
      "step": 43705
    },
    {
      "entropy": 5.493913745880127,
      "epoch": 3.672211720226843,
      "grad_norm": 0.9609375,
      "learning_rate": 0.00036959667942512264,
      "loss": 5.0833,
      "mean_token_accuracy": 0.1969684839248657,
      "num_tokens": 80642886.0,
      "step": 43710
    },
    {
      "entropy": 5.479582262039185,
      "epoch": 3.6726318000420077,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00036956950733091045,
      "loss": 5.001,
      "mean_token_accuracy": 0.20364920347929,
      "num_tokens": 80652102.0,
      "step": 43715
    },
    {
      "entropy": 5.447383165359497,
      "epoch": 3.673051879857173,
      "grad_norm": 1.125,
      "learning_rate": 0.000369542333561448,
      "loss": 5.0136,
      "mean_token_accuracy": 0.20199000388383864,
      "num_tokens": 80661120.0,
      "step": 43720
    },
    {
      "entropy": 5.503415822982788,
      "epoch": 3.6734719596723377,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003695151581172169,
      "loss": 5.065,
      "mean_token_accuracy": 0.20738074630498887,
      "num_tokens": 80670813.0,
      "step": 43725
    },
    {
      "entropy": 5.491735601425171,
      "epoch": 3.6738920394875025,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003694879809986984,
      "loss": 5.0062,
      "mean_token_accuracy": 0.20700512677431107,
      "num_tokens": 80680558.0,
      "step": 43730
    },
    {
      "entropy": 5.4674811363220215,
      "epoch": 3.6743121193026678,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003694608022063741,
      "loss": 4.9888,
      "mean_token_accuracy": 0.20400014519691467,
      "num_tokens": 80690224.0,
      "step": 43735
    },
    {
      "entropy": 5.484238862991333,
      "epoch": 3.6747321991178326,
      "grad_norm": 0.96875,
      "learning_rate": 0.00036943362174072516,
      "loss": 5.0517,
      "mean_token_accuracy": 0.20071827322244645,
      "num_tokens": 80700114.0,
      "step": 43740
    },
    {
      "entropy": 5.443554258346557,
      "epoch": 3.6751522789329973,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003694064396022333,
      "loss": 4.8832,
      "mean_token_accuracy": 0.21002652794122695,
      "num_tokens": 80708769.0,
      "step": 43745
    },
    {
      "entropy": 5.374153709411621,
      "epoch": 3.675572358748162,
      "grad_norm": 1.109375,
      "learning_rate": 0.00036937925579137997,
      "loss": 4.9114,
      "mean_token_accuracy": 0.20648760199546815,
      "num_tokens": 80717850.0,
      "step": 43750
    },
    {
      "entropy": 5.435464906692505,
      "epoch": 3.675992438563327,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003693520703086467,
      "loss": 4.987,
      "mean_token_accuracy": 0.20216286033391953,
      "num_tokens": 80728018.0,
      "step": 43755
    },
    {
      "entropy": 5.435705995559692,
      "epoch": 3.676412518378492,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00036932488315451515,
      "loss": 5.0259,
      "mean_token_accuracy": 0.1989292934536934,
      "num_tokens": 80737253.0,
      "step": 43760
    },
    {
      "entropy": 5.418113136291504,
      "epoch": 3.676832598193657,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0003692976943294668,
      "loss": 4.9529,
      "mean_token_accuracy": 0.2025381878018379,
      "num_tokens": 80745971.0,
      "step": 43765
    },
    {
      "entropy": 5.4115057468414305,
      "epoch": 3.6772526780088217,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003692705038339834,
      "loss": 4.9127,
      "mean_token_accuracy": 0.20808290988206862,
      "num_tokens": 80756013.0,
      "step": 43770
    },
    {
      "entropy": 5.441915988922119,
      "epoch": 3.6776727578239865,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003692433116685466,
      "loss": 5.0169,
      "mean_token_accuracy": 0.19951738119125367,
      "num_tokens": 80765283.0,
      "step": 43775
    },
    {
      "entropy": 5.489326238632202,
      "epoch": 3.6780928376391513,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00036921611783363793,
      "loss": 4.9948,
      "mean_token_accuracy": 0.21001459956169127,
      "num_tokens": 80774829.0,
      "step": 43780
    },
    {
      "entropy": 5.4296540260314945,
      "epoch": 3.6785129174543165,
      "grad_norm": 1.125,
      "learning_rate": 0.00036918892232973933,
      "loss": 4.9634,
      "mean_token_accuracy": 0.2025557890534401,
      "num_tokens": 80783585.0,
      "step": 43785
    },
    {
      "entropy": 5.422686529159546,
      "epoch": 3.6789329972694813,
      "grad_norm": 1.171875,
      "learning_rate": 0.00036916172515733247,
      "loss": 4.9817,
      "mean_token_accuracy": 0.20104963928461075,
      "num_tokens": 80792281.0,
      "step": 43790
    },
    {
      "entropy": 5.528767395019531,
      "epoch": 3.679353077084646,
      "grad_norm": 1.09375,
      "learning_rate": 0.00036913452631689915,
      "loss": 5.0687,
      "mean_token_accuracy": 0.19791695326566697,
      "num_tokens": 80802191.0,
      "step": 43795
    },
    {
      "entropy": 5.474264907836914,
      "epoch": 3.679773156899811,
      "grad_norm": 1.0625,
      "learning_rate": 0.00036910732580892116,
      "loss": 4.9994,
      "mean_token_accuracy": 0.2116830676794052,
      "num_tokens": 80811070.0,
      "step": 43800
    },
    {
      "entropy": 5.463312816619873,
      "epoch": 3.6801932367149757,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00036908012363388035,
      "loss": 5.0146,
      "mean_token_accuracy": 0.20197917371988297,
      "num_tokens": 80820092.0,
      "step": 43805
    },
    {
      "entropy": 5.42264838218689,
      "epoch": 3.680613316530141,
      "grad_norm": 1.4375,
      "learning_rate": 0.00036905291979225856,
      "loss": 4.9192,
      "mean_token_accuracy": 0.21074476689100266,
      "num_tokens": 80830139.0,
      "step": 43810
    },
    {
      "entropy": 5.478735494613647,
      "epoch": 3.6810333963453057,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00036902571428453775,
      "loss": 5.053,
      "mean_token_accuracy": 0.1943994477391243,
      "num_tokens": 80839478.0,
      "step": 43815
    },
    {
      "entropy": 5.403482913970947,
      "epoch": 3.6814534761604705,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003689985071111998,
      "loss": 5.009,
      "mean_token_accuracy": 0.20472607761621475,
      "num_tokens": 80848850.0,
      "step": 43820
    },
    {
      "entropy": 5.4685039043426515,
      "epoch": 3.6818735559756353,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003689712982727267,
      "loss": 4.9954,
      "mean_token_accuracy": 0.20287763923406602,
      "num_tokens": 80858806.0,
      "step": 43825
    },
    {
      "entropy": 5.6077734470367435,
      "epoch": 3.6822936357908,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003689440877696005,
      "loss": 5.0816,
      "mean_token_accuracy": 0.20250993371009826,
      "num_tokens": 80867887.0,
      "step": 43830
    },
    {
      "entropy": 5.520441484451294,
      "epoch": 3.6827137156059653,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003689168756023032,
      "loss": 5.0903,
      "mean_token_accuracy": 0.2022705003619194,
      "num_tokens": 80877782.0,
      "step": 43835
    },
    {
      "entropy": 5.569761943817139,
      "epoch": 3.68313379542113,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003688896617713167,
      "loss": 5.1295,
      "mean_token_accuracy": 0.19358754754066468,
      "num_tokens": 80887615.0,
      "step": 43840
    },
    {
      "entropy": 5.520602989196777,
      "epoch": 3.683553875236295,
      "grad_norm": 1.03125,
      "learning_rate": 0.00036886244627712324,
      "loss": 5.0277,
      "mean_token_accuracy": 0.20291844606399537,
      "num_tokens": 80896537.0,
      "step": 43845
    },
    {
      "entropy": 5.470004653930664,
      "epoch": 3.6839739550514596,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003688352291202048,
      "loss": 5.0366,
      "mean_token_accuracy": 0.1974664881825447,
      "num_tokens": 80905004.0,
      "step": 43850
    },
    {
      "entropy": 5.449019479751587,
      "epoch": 3.6843940348666244,
      "grad_norm": 1.109375,
      "learning_rate": 0.00036880801030104364,
      "loss": 4.962,
      "mean_token_accuracy": 0.20343450754880904,
      "num_tokens": 80914190.0,
      "step": 43855
    },
    {
      "entropy": 5.5036139488220215,
      "epoch": 3.6848141146817897,
      "grad_norm": 1.0,
      "learning_rate": 0.000368780789820122,
      "loss": 5.0114,
      "mean_token_accuracy": 0.20207625925540923,
      "num_tokens": 80923643.0,
      "step": 43860
    },
    {
      "entropy": 5.54553632736206,
      "epoch": 3.6852341944969544,
      "grad_norm": 1.125,
      "learning_rate": 0.0003687535676779218,
      "loss": 5.1188,
      "mean_token_accuracy": 0.20246878415346145,
      "num_tokens": 80933283.0,
      "step": 43865
    },
    {
      "entropy": 5.496408224105835,
      "epoch": 3.6856542743121192,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003687263438749255,
      "loss": 4.982,
      "mean_token_accuracy": 0.20457697212696074,
      "num_tokens": 80941937.0,
      "step": 43870
    },
    {
      "entropy": 5.459413385391235,
      "epoch": 3.6860743541272845,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003686991184116152,
      "loss": 5.0514,
      "mean_token_accuracy": 0.20475257337093353,
      "num_tokens": 80951089.0,
      "step": 43875
    },
    {
      "entropy": 5.4228911876678465,
      "epoch": 3.686494433942449,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00036867189128847336,
      "loss": 4.9731,
      "mean_token_accuracy": 0.20119520127773285,
      "num_tokens": 80960680.0,
      "step": 43880
    },
    {
      "entropy": 5.5078154563903805,
      "epoch": 3.686914513757614,
      "grad_norm": 1.0625,
      "learning_rate": 0.00036864466250598215,
      "loss": 4.9788,
      "mean_token_accuracy": 0.2086693301796913,
      "num_tokens": 80970232.0,
      "step": 43885
    },
    {
      "entropy": 5.526701211929321,
      "epoch": 3.687334593572779,
      "grad_norm": 0.99609375,
      "learning_rate": 0.000368617432064624,
      "loss": 5.0803,
      "mean_token_accuracy": 0.19613799899816514,
      "num_tokens": 80979909.0,
      "step": 43890
    },
    {
      "entropy": 5.486574935913086,
      "epoch": 3.6877546733879436,
      "grad_norm": 1.125,
      "learning_rate": 0.0003685901999648812,
      "loss": 5.041,
      "mean_token_accuracy": 0.20261512696743011,
      "num_tokens": 80989469.0,
      "step": 43895
    },
    {
      "entropy": 5.58676495552063,
      "epoch": 3.688174753203109,
      "grad_norm": 1.0625,
      "learning_rate": 0.00036856296620723625,
      "loss": 5.0769,
      "mean_token_accuracy": 0.20271088033914567,
      "num_tokens": 80998384.0,
      "step": 43900
    },
    {
      "entropy": 5.51013765335083,
      "epoch": 3.6885948330182736,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003685357307921715,
      "loss": 5.0127,
      "mean_token_accuracy": 0.20393098443746566,
      "num_tokens": 81008045.0,
      "step": 43905
    },
    {
      "entropy": 5.432205390930176,
      "epoch": 3.6890149128334384,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00036850849372016943,
      "loss": 4.9856,
      "mean_token_accuracy": 0.20787187814712524,
      "num_tokens": 81017416.0,
      "step": 43910
    },
    {
      "entropy": 5.437678289413452,
      "epoch": 3.689434992648603,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003684812549917125,
      "loss": 4.9834,
      "mean_token_accuracy": 0.2061375468969345,
      "num_tokens": 81026286.0,
      "step": 43915
    },
    {
      "entropy": 5.499484920501709,
      "epoch": 3.689855072463768,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003684540146072834,
      "loss": 5.0354,
      "mean_token_accuracy": 0.20245578438043593,
      "num_tokens": 81035460.0,
      "step": 43920
    },
    {
      "entropy": 5.419951438903809,
      "epoch": 3.690275152278933,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00036842677256736445,
      "loss": 4.859,
      "mean_token_accuracy": 0.2114626869559288,
      "num_tokens": 81044087.0,
      "step": 43925
    },
    {
      "entropy": 5.348517894744873,
      "epoch": 3.690695232094098,
      "grad_norm": 1.125,
      "learning_rate": 0.00036839952887243846,
      "loss": 4.9112,
      "mean_token_accuracy": 0.21159559935331346,
      "num_tokens": 81052430.0,
      "step": 43930
    },
    {
      "entropy": 5.43013334274292,
      "epoch": 3.691115311909263,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003683722835229878,
      "loss": 5.0429,
      "mean_token_accuracy": 0.1949980527162552,
      "num_tokens": 81060900.0,
      "step": 43935
    },
    {
      "entropy": 5.4353217601776125,
      "epoch": 3.6915353917244276,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003683450365194951,
      "loss": 4.876,
      "mean_token_accuracy": 0.21404765248298646,
      "num_tokens": 81069748.0,
      "step": 43940
    },
    {
      "entropy": 5.4488804817199705,
      "epoch": 3.6919554715395924,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003683177878624433,
      "loss": 4.9728,
      "mean_token_accuracy": 0.20523754507303238,
      "num_tokens": 81078844.0,
      "step": 43945
    },
    {
      "entropy": 5.410431814193726,
      "epoch": 3.6923755513547576,
      "grad_norm": 1.234375,
      "learning_rate": 0.00036829053755231496,
      "loss": 4.9407,
      "mean_token_accuracy": 0.20440268367528916,
      "num_tokens": 81087306.0,
      "step": 43950
    },
    {
      "entropy": 5.471713018417359,
      "epoch": 3.6927956311699224,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00036826328558959274,
      "loss": 5.0421,
      "mean_token_accuracy": 0.20103879272937775,
      "num_tokens": 81096214.0,
      "step": 43955
    },
    {
      "entropy": 5.447501611709595,
      "epoch": 3.693215710985087,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00036823603197475946,
      "loss": 4.9983,
      "mean_token_accuracy": 0.2046489492058754,
      "num_tokens": 81104947.0,
      "step": 43960
    },
    {
      "entropy": 5.508941650390625,
      "epoch": 3.693635790800252,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00036820877670829785,
      "loss": 5.0375,
      "mean_token_accuracy": 0.1994709327816963,
      "num_tokens": 81114445.0,
      "step": 43965
    },
    {
      "entropy": 5.519023847579956,
      "epoch": 3.6940558706154167,
      "grad_norm": 1.0625,
      "learning_rate": 0.00036818151979069077,
      "loss": 5.0381,
      "mean_token_accuracy": 0.20326792001724242,
      "num_tokens": 81123144.0,
      "step": 43970
    },
    {
      "entropy": 5.45180344581604,
      "epoch": 3.694475950430582,
      "grad_norm": 1.046875,
      "learning_rate": 0.00036815426122242107,
      "loss": 4.9417,
      "mean_token_accuracy": 0.20369850099086761,
      "num_tokens": 81133779.0,
      "step": 43975
    },
    {
      "entropy": 5.421437358856201,
      "epoch": 3.6948960302457468,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00036812700100397164,
      "loss": 4.9625,
      "mean_token_accuracy": 0.21148687452077866,
      "num_tokens": 81142259.0,
      "step": 43980
    },
    {
      "entropy": 5.495976686477661,
      "epoch": 3.6953161100609115,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003680997391358252,
      "loss": 5.1139,
      "mean_token_accuracy": 0.1904509410262108,
      "num_tokens": 81151748.0,
      "step": 43985
    },
    {
      "entropy": 5.488901138305664,
      "epoch": 3.6957361898760763,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00036807247561846496,
      "loss": 4.9334,
      "mean_token_accuracy": 0.20576645582914352,
      "num_tokens": 81161260.0,
      "step": 43990
    },
    {
      "entropy": 5.371069097518921,
      "epoch": 3.696156269691241,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003680452104523736,
      "loss": 4.9271,
      "mean_token_accuracy": 0.20344756543636322,
      "num_tokens": 81170076.0,
      "step": 43995
    },
    {
      "entropy": 5.467709684371949,
      "epoch": 3.6965763495064063,
      "grad_norm": 1.078125,
      "learning_rate": 0.00036801794363803435,
      "loss": 5.0392,
      "mean_token_accuracy": 0.20138007402420044,
      "num_tokens": 81179366.0,
      "step": 44000
    },
    {
      "entropy": 5.488404083251953,
      "epoch": 3.696996429321571,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003679906751759301,
      "loss": 5.0509,
      "mean_token_accuracy": 0.20169173777103425,
      "num_tokens": 81188572.0,
      "step": 44005
    },
    {
      "entropy": 5.593446350097656,
      "epoch": 3.697416509136736,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003679634050665439,
      "loss": 5.0907,
      "mean_token_accuracy": 0.20745411068201064,
      "num_tokens": 81198387.0,
      "step": 44010
    },
    {
      "entropy": 5.3913603782653805,
      "epoch": 3.6978365889519007,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003679361333103589,
      "loss": 4.8783,
      "mean_token_accuracy": 0.21089246720075608,
      "num_tokens": 81206757.0,
      "step": 44015
    },
    {
      "entropy": 5.467142534255982,
      "epoch": 3.6982566687670655,
      "grad_norm": 1.109375,
      "learning_rate": 0.00036790885990785804,
      "loss": 5.048,
      "mean_token_accuracy": 0.1965767949819565,
      "num_tokens": 81216210.0,
      "step": 44020
    },
    {
      "entropy": 5.549227857589722,
      "epoch": 3.6986767485822307,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003678815848595247,
      "loss": 5.0928,
      "mean_token_accuracy": 0.19272198677062988,
      "num_tokens": 81224891.0,
      "step": 44025
    },
    {
      "entropy": 5.430067682266236,
      "epoch": 3.6990968283973955,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003678543081658419,
      "loss": 4.9712,
      "mean_token_accuracy": 0.20483400374650956,
      "num_tokens": 81234569.0,
      "step": 44030
    },
    {
      "entropy": 5.4569779396057125,
      "epoch": 3.6995169082125603,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003678270298272928,
      "loss": 5.0211,
      "mean_token_accuracy": 0.19587500691413878,
      "num_tokens": 81243998.0,
      "step": 44035
    },
    {
      "entropy": 5.480634307861328,
      "epoch": 3.6999369880277255,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003677997498443607,
      "loss": 4.9831,
      "mean_token_accuracy": 0.20438845008611678,
      "num_tokens": 81252468.0,
      "step": 44040
    },
    {
      "entropy": 5.453836917877197,
      "epoch": 3.7003570678428903,
      "grad_norm": 1.0,
      "learning_rate": 0.00036777246821752876,
      "loss": 5.0158,
      "mean_token_accuracy": 0.19799200147390367,
      "num_tokens": 81263270.0,
      "step": 44045
    },
    {
      "entropy": 5.45411171913147,
      "epoch": 3.700777147658055,
      "grad_norm": 1.09375,
      "learning_rate": 0.00036774518494728036,
      "loss": 4.9833,
      "mean_token_accuracy": 0.20476772934198378,
      "num_tokens": 81273028.0,
      "step": 44050
    },
    {
      "entropy": 5.468113040924072,
      "epoch": 3.70119722747322,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003677179000340988,
      "loss": 5.0199,
      "mean_token_accuracy": 0.20036431550979614,
      "num_tokens": 81281746.0,
      "step": 44055
    },
    {
      "entropy": 5.54582953453064,
      "epoch": 3.7016173072883847,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003676906134784673,
      "loss": 5.0386,
      "mean_token_accuracy": 0.20746283382177352,
      "num_tokens": 81291652.0,
      "step": 44060
    },
    {
      "entropy": 5.456082344055176,
      "epoch": 3.70203738710355,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003676633252808693,
      "loss": 4.9759,
      "mean_token_accuracy": 0.19902839362621308,
      "num_tokens": 81301030.0,
      "step": 44065
    },
    {
      "entropy": 5.368963575363159,
      "epoch": 3.7024574669187147,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00036763603544178825,
      "loss": 4.8891,
      "mean_token_accuracy": 0.20079579055309296,
      "num_tokens": 81309621.0,
      "step": 44070
    },
    {
      "entropy": 5.396290397644043,
      "epoch": 3.7028775467338795,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003676087439617075,
      "loss": 4.9325,
      "mean_token_accuracy": 0.20385853350162506,
      "num_tokens": 81319536.0,
      "step": 44075
    },
    {
      "entropy": 5.469780969619751,
      "epoch": 3.7032976265490443,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003675814508411106,
      "loss": 5.0273,
      "mean_token_accuracy": 0.2082490161061287,
      "num_tokens": 81329272.0,
      "step": 44080
    },
    {
      "entropy": 5.425623035430908,
      "epoch": 3.703717706364209,
      "grad_norm": 1.0625,
      "learning_rate": 0.000367554156080481,
      "loss": 4.8902,
      "mean_token_accuracy": 0.21039556115865707,
      "num_tokens": 81338517.0,
      "step": 44085
    },
    {
      "entropy": 5.529522705078125,
      "epoch": 3.7041377861793743,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00036752685968030206,
      "loss": 5.0756,
      "mean_token_accuracy": 0.1991906449198723,
      "num_tokens": 81348321.0,
      "step": 44090
    },
    {
      "entropy": 5.4429951190948485,
      "epoch": 3.704557865994539,
      "grad_norm": 1.015625,
      "learning_rate": 0.00036749956164105753,
      "loss": 5.0989,
      "mean_token_accuracy": 0.1929973140358925,
      "num_tokens": 81357572.0,
      "step": 44095
    },
    {
      "entropy": 5.460255765914917,
      "epoch": 3.704977945809704,
      "grad_norm": 1.109375,
      "learning_rate": 0.00036747226196323093,
      "loss": 5.0264,
      "mean_token_accuracy": 0.20423891246318818,
      "num_tokens": 81366633.0,
      "step": 44100
    },
    {
      "entropy": 5.4989869594573975,
      "epoch": 3.7053980256248686,
      "grad_norm": 1.109375,
      "learning_rate": 0.00036744496064730576,
      "loss": 5.0543,
      "mean_token_accuracy": 0.19651895016431808,
      "num_tokens": 81375438.0,
      "step": 44105
    },
    {
      "entropy": 5.538022041320801,
      "epoch": 3.7058181054400334,
      "grad_norm": 1.109375,
      "learning_rate": 0.00036741765769376575,
      "loss": 5.0118,
      "mean_token_accuracy": 0.20089920312166215,
      "num_tokens": 81384642.0,
      "step": 44110
    },
    {
      "entropy": 5.420140981674194,
      "epoch": 3.7062381852551987,
      "grad_norm": 1.125,
      "learning_rate": 0.0003673903531030945,
      "loss": 4.9088,
      "mean_token_accuracy": 0.21543536186218262,
      "num_tokens": 81393546.0,
      "step": 44115
    },
    {
      "entropy": 5.545699167251587,
      "epoch": 3.7066582650703634,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003673630468757757,
      "loss": 5.067,
      "mean_token_accuracy": 0.19717139303684234,
      "num_tokens": 81402383.0,
      "step": 44120
    },
    {
      "entropy": 5.5317919731140135,
      "epoch": 3.7070783448855282,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00036733573901229314,
      "loss": 5.0693,
      "mean_token_accuracy": 0.2026308298110962,
      "num_tokens": 81411993.0,
      "step": 44125
    },
    {
      "entropy": 5.446641683578491,
      "epoch": 3.707498424700693,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003673084295131304,
      "loss": 4.9672,
      "mean_token_accuracy": 0.21037379652261734,
      "num_tokens": 81421731.0,
      "step": 44130
    },
    {
      "entropy": 5.407130575180053,
      "epoch": 3.707918504515858,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003672811183787715,
      "loss": 4.9904,
      "mean_token_accuracy": 0.20054768919944763,
      "num_tokens": 81430332.0,
      "step": 44135
    },
    {
      "entropy": 5.488621664047241,
      "epoch": 3.708338584331023,
      "grad_norm": 0.984375,
      "learning_rate": 0.0003672538056097,
      "loss": 4.9686,
      "mean_token_accuracy": 0.20546911060810089,
      "num_tokens": 81440008.0,
      "step": 44140
    },
    {
      "entropy": 5.376578664779663,
      "epoch": 3.708758664146188,
      "grad_norm": 1.0625,
      "learning_rate": 0.00036722649120639984,
      "loss": 4.9275,
      "mean_token_accuracy": 0.2076227843761444,
      "num_tokens": 81449129.0,
      "step": 44145
    },
    {
      "entropy": 5.453190040588379,
      "epoch": 3.7091787439613526,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003671991751693549,
      "loss": 4.8862,
      "mean_token_accuracy": 0.21851601749658583,
      "num_tokens": 81458013.0,
      "step": 44150
    },
    {
      "entropy": 5.489264011383057,
      "epoch": 3.7095988237765174,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003671718574990491,
      "loss": 5.0526,
      "mean_token_accuracy": 0.1987382248044014,
      "num_tokens": 81466982.0,
      "step": 44155
    },
    {
      "entropy": 5.489319562911987,
      "epoch": 3.710018903591682,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003671445381959662,
      "loss": 5.0349,
      "mean_token_accuracy": 0.1944890797138214,
      "num_tokens": 81476737.0,
      "step": 44160
    },
    {
      "entropy": 5.465814304351807,
      "epoch": 3.7104389834068474,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003671172172605904,
      "loss": 4.9715,
      "mean_token_accuracy": 0.2069373369216919,
      "num_tokens": 81485347.0,
      "step": 44165
    },
    {
      "entropy": 5.4279077529907225,
      "epoch": 3.710859063222012,
      "grad_norm": 1.125,
      "learning_rate": 0.00036708989469340543,
      "loss": 5.003,
      "mean_token_accuracy": 0.19706540256738664,
      "num_tokens": 81495482.0,
      "step": 44170
    },
    {
      "entropy": 5.5144868850708,
      "epoch": 3.711279143037177,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00036706257049489544,
      "loss": 4.9924,
      "mean_token_accuracy": 0.20728570073843003,
      "num_tokens": 81504047.0,
      "step": 44175
    },
    {
      "entropy": 5.477428340911866,
      "epoch": 3.711699222852342,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003670352446655444,
      "loss": 4.9619,
      "mean_token_accuracy": 0.20805517286062242,
      "num_tokens": 81513288.0,
      "step": 44180
    },
    {
      "entropy": 5.311662769317627,
      "epoch": 3.7121193026675066,
      "grad_norm": 0.9765625,
      "learning_rate": 0.0003670079172058364,
      "loss": 4.7997,
      "mean_token_accuracy": 0.21853740364313126,
      "num_tokens": 81522204.0,
      "step": 44185
    },
    {
      "entropy": 5.476911211013794,
      "epoch": 3.712539382482672,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00036698058811625544,
      "loss": 5.0383,
      "mean_token_accuracy": 0.2070055902004242,
      "num_tokens": 81531050.0,
      "step": 44190
    },
    {
      "entropy": 5.459872484207153,
      "epoch": 3.7129594622978366,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003669532573972859,
      "loss": 5.0495,
      "mean_token_accuracy": 0.2038295403122902,
      "num_tokens": 81540370.0,
      "step": 44195
    },
    {
      "entropy": 5.521892356872558,
      "epoch": 3.7133795421130014,
      "grad_norm": 1.078125,
      "learning_rate": 0.00036692592504941157,
      "loss": 5.0782,
      "mean_token_accuracy": 0.2021293506026268,
      "num_tokens": 81549889.0,
      "step": 44200
    },
    {
      "entropy": 5.494472599029541,
      "epoch": 3.7137996219281666,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003668985910731169,
      "loss": 4.9981,
      "mean_token_accuracy": 0.20780521631240845,
      "num_tokens": 81558860.0,
      "step": 44205
    },
    {
      "entropy": 5.4982610702514645,
      "epoch": 3.7142197017433314,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000366871255468886,
      "loss": 5.0276,
      "mean_token_accuracy": 0.203656367957592,
      "num_tokens": 81568785.0,
      "step": 44210
    },
    {
      "entropy": 5.518020057678223,
      "epoch": 3.714639781558496,
      "grad_norm": 1.109375,
      "learning_rate": 0.00036684391823720307,
      "loss": 5.0586,
      "mean_token_accuracy": 0.20468856990337372,
      "num_tokens": 81577459.0,
      "step": 44215
    },
    {
      "entropy": 5.600520324707031,
      "epoch": 3.715059861373661,
      "grad_norm": 1.125,
      "learning_rate": 0.0003668165793785525,
      "loss": 5.2402,
      "mean_token_accuracy": 0.19483654499053954,
      "num_tokens": 81586984.0,
      "step": 44220
    },
    {
      "entropy": 5.49704942703247,
      "epoch": 3.7154799411888257,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00036678923889341846,
      "loss": 5.009,
      "mean_token_accuracy": 0.20415281653404235,
      "num_tokens": 81596020.0,
      "step": 44225
    },
    {
      "entropy": 5.537408494949341,
      "epoch": 3.715900021003991,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003667618967822854,
      "loss": 5.0711,
      "mean_token_accuracy": 0.20044433772563935,
      "num_tokens": 81605068.0,
      "step": 44230
    },
    {
      "entropy": 5.416580247879028,
      "epoch": 3.7163201008191558,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00036673455304563746,
      "loss": 4.9729,
      "mean_token_accuracy": 0.20852451473474504,
      "num_tokens": 81614916.0,
      "step": 44235
    },
    {
      "entropy": 5.479307651519775,
      "epoch": 3.7167401806343205,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003667072076839592,
      "loss": 4.9845,
      "mean_token_accuracy": 0.2037154495716095,
      "num_tokens": 81623693.0,
      "step": 44240
    },
    {
      "entropy": 5.429169082641602,
      "epoch": 3.7171602604494853,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000366679860697735,
      "loss": 4.9815,
      "mean_token_accuracy": 0.20613938570022583,
      "num_tokens": 81632949.0,
      "step": 44245
    },
    {
      "entropy": 5.392054033279419,
      "epoch": 3.71758034026465,
      "grad_norm": 1.125,
      "learning_rate": 0.00036665251208744924,
      "loss": 4.9285,
      "mean_token_accuracy": 0.20850498378276824,
      "num_tokens": 81642239.0,
      "step": 44250
    },
    {
      "entropy": 5.439509677886963,
      "epoch": 3.7180004200798153,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00036662516185358645,
      "loss": 4.9322,
      "mean_token_accuracy": 0.21583178490400315,
      "num_tokens": 81651718.0,
      "step": 44255
    },
    {
      "entropy": 5.401315307617187,
      "epoch": 3.71842049989498,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003665978099966311,
      "loss": 4.9804,
      "mean_token_accuracy": 0.20021629482507705,
      "num_tokens": 81661801.0,
      "step": 44260
    },
    {
      "entropy": 5.523211812973022,
      "epoch": 3.718840579710145,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00036657045651706773,
      "loss": 5.0939,
      "mean_token_accuracy": 0.203511780500412,
      "num_tokens": 81671667.0,
      "step": 44265
    },
    {
      "entropy": 5.481590652465821,
      "epoch": 3.7192606595253097,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0003665431014153809,
      "loss": 5.1025,
      "mean_token_accuracy": 0.20119678229093552,
      "num_tokens": 81682534.0,
      "step": 44270
    },
    {
      "entropy": 5.574547576904297,
      "epoch": 3.7196807393404745,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003665157446920551,
      "loss": 5.1266,
      "mean_token_accuracy": 0.19815094769001007,
      "num_tokens": 81692031.0,
      "step": 44275
    },
    {
      "entropy": 5.457368516921997,
      "epoch": 3.7201008191556397,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00036648838634757496,
      "loss": 5.0558,
      "mean_token_accuracy": 0.19896624386310577,
      "num_tokens": 81700536.0,
      "step": 44280
    },
    {
      "entropy": 5.445911836624146,
      "epoch": 3.7205208989708045,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003664610263824252,
      "loss": 4.9867,
      "mean_token_accuracy": 0.20552848130464554,
      "num_tokens": 81709369.0,
      "step": 44285
    },
    {
      "entropy": 5.4739954471588135,
      "epoch": 3.7209409787859693,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003664336647970905,
      "loss": 5.0061,
      "mean_token_accuracy": 0.20395180433988572,
      "num_tokens": 81718995.0,
      "step": 44290
    },
    {
      "entropy": 5.395731019973755,
      "epoch": 3.721361058601134,
      "grad_norm": 1.078125,
      "learning_rate": 0.00036640630159205553,
      "loss": 4.9363,
      "mean_token_accuracy": 0.20466946214437484,
      "num_tokens": 81728454.0,
      "step": 44295
    },
    {
      "entropy": 5.461075019836426,
      "epoch": 3.721781138416299,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003663789367678049,
      "loss": 4.9933,
      "mean_token_accuracy": 0.206050343811512,
      "num_tokens": 81738357.0,
      "step": 44300
    },
    {
      "entropy": 5.573785781860352,
      "epoch": 3.722201218231464,
      "grad_norm": 1.125,
      "learning_rate": 0.00036635157032482356,
      "loss": 5.044,
      "mean_token_accuracy": 0.2025119110941887,
      "num_tokens": 81748050.0,
      "step": 44305
    },
    {
      "entropy": 5.320852041244507,
      "epoch": 3.722621298046629,
      "grad_norm": 1.078125,
      "learning_rate": 0.00036632420226359613,
      "loss": 4.813,
      "mean_token_accuracy": 0.21643441617488862,
      "num_tokens": 81756887.0,
      "step": 44310
    },
    {
      "entropy": 5.476514911651611,
      "epoch": 3.7230413778617937,
      "grad_norm": 1.109375,
      "learning_rate": 0.00036629683258460754,
      "loss": 5.0791,
      "mean_token_accuracy": 0.19431595504283905,
      "num_tokens": 81766198.0,
      "step": 44315
    },
    {
      "entropy": 5.44294548034668,
      "epoch": 3.7234614576769585,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00036626946128834255,
      "loss": 4.9193,
      "mean_token_accuracy": 0.20756086111068725,
      "num_tokens": 81775095.0,
      "step": 44320
    },
    {
      "entropy": 5.5339113712310795,
      "epoch": 3.7238815374921233,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00036624208837528595,
      "loss": 5.0362,
      "mean_token_accuracy": 0.20438577979803085,
      "num_tokens": 81784450.0,
      "step": 44325
    },
    {
      "entropy": 5.420428323745727,
      "epoch": 3.7243016173072885,
      "grad_norm": 1.125,
      "learning_rate": 0.0003662147138459228,
      "loss": 4.9914,
      "mean_token_accuracy": 0.19999639987945556,
      "num_tokens": 81793659.0,
      "step": 44330
    },
    {
      "entropy": 5.477062368392945,
      "epoch": 3.7247216971224533,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00036618733770073806,
      "loss": 5.004,
      "mean_token_accuracy": 0.20024080872535704,
      "num_tokens": 81802815.0,
      "step": 44335
    },
    {
      "entropy": 5.530469083786011,
      "epoch": 3.725141776937618,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003661599599402165,
      "loss": 5.0513,
      "mean_token_accuracy": 0.20046593099832535,
      "num_tokens": 81812111.0,
      "step": 44340
    },
    {
      "entropy": 5.382927083969117,
      "epoch": 3.7255618567527833,
      "grad_norm": 1.140625,
      "learning_rate": 0.00036613258056484313,
      "loss": 4.9961,
      "mean_token_accuracy": 0.2071056619286537,
      "num_tokens": 81821229.0,
      "step": 44345
    },
    {
      "entropy": 5.452555704116821,
      "epoch": 3.725981936567948,
      "grad_norm": 1.15625,
      "learning_rate": 0.00036610519957510306,
      "loss": 5.0295,
      "mean_token_accuracy": 0.1918382540345192,
      "num_tokens": 81831011.0,
      "step": 44350
    },
    {
      "entropy": 5.568776941299438,
      "epoch": 3.726402016383113,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00036607781697148127,
      "loss": 5.0728,
      "mean_token_accuracy": 0.20404940396547316,
      "num_tokens": 81841865.0,
      "step": 44355
    },
    {
      "entropy": 5.479869222640991,
      "epoch": 3.7268220961982776,
      "grad_norm": 1.0703125,
      "learning_rate": 0.000366050432754463,
      "loss": 5.0394,
      "mean_token_accuracy": 0.19966992735862732,
      "num_tokens": 81851348.0,
      "step": 44360
    },
    {
      "entropy": 5.497182559967041,
      "epoch": 3.7272421760134424,
      "grad_norm": 1.09375,
      "learning_rate": 0.00036602304692453304,
      "loss": 4.999,
      "mean_token_accuracy": 0.20666221976280214,
      "num_tokens": 81860314.0,
      "step": 44365
    },
    {
      "entropy": 5.465523052215576,
      "epoch": 3.7276622558286077,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003659956594821768,
      "loss": 4.9928,
      "mean_token_accuracy": 0.203327976167202,
      "num_tokens": 81869526.0,
      "step": 44370
    },
    {
      "entropy": 5.498167181015015,
      "epoch": 3.7280823356437724,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00036596827042787924,
      "loss": 4.9409,
      "mean_token_accuracy": 0.20990698039531708,
      "num_tokens": 81878585.0,
      "step": 44375
    },
    {
      "entropy": 5.525610733032226,
      "epoch": 3.7285024154589372,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003659408797621256,
      "loss": 5.0511,
      "mean_token_accuracy": 0.19539138227701186,
      "num_tokens": 81888310.0,
      "step": 44380
    },
    {
      "entropy": 5.4177796840667725,
      "epoch": 3.728922495274102,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003659134874854011,
      "loss": 4.9683,
      "mean_token_accuracy": 0.20424731969833373,
      "num_tokens": 81897587.0,
      "step": 44385
    },
    {
      "entropy": 5.417326354980469,
      "epoch": 3.729342575089267,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000365886093598191,
      "loss": 5.0007,
      "mean_token_accuracy": 0.2001238152384758,
      "num_tokens": 81906189.0,
      "step": 44390
    },
    {
      "entropy": 5.391909265518189,
      "epoch": 3.729762654904432,
      "grad_norm": 1.046875,
      "learning_rate": 0.00036585869810098055,
      "loss": 4.8831,
      "mean_token_accuracy": 0.21199868470430375,
      "num_tokens": 81915744.0,
      "step": 44395
    },
    {
      "entropy": 5.482345962524414,
      "epoch": 3.730182734719597,
      "grad_norm": 0.98828125,
      "learning_rate": 0.000365831300994255,
      "loss": 5.0145,
      "mean_token_accuracy": 0.20625655204057694,
      "num_tokens": 81925775.0,
      "step": 44400
    },
    {
      "entropy": 5.504482841491699,
      "epoch": 3.7306028145347616,
      "grad_norm": 1.0,
      "learning_rate": 0.0003658039022784998,
      "loss": 4.966,
      "mean_token_accuracy": 0.21131149381399156,
      "num_tokens": 81935717.0,
      "step": 44405
    },
    {
      "entropy": 5.510029888153076,
      "epoch": 3.7310228943499264,
      "grad_norm": 1.125,
      "learning_rate": 0.0003657765019542002,
      "loss": 5.0309,
      "mean_token_accuracy": 0.20809029638767243,
      "num_tokens": 81944207.0,
      "step": 44410
    },
    {
      "entropy": 5.477987146377563,
      "epoch": 3.731442974165091,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003657491000218415,
      "loss": 5.0624,
      "mean_token_accuracy": 0.19368879199028016,
      "num_tokens": 81953060.0,
      "step": 44415
    },
    {
      "entropy": 5.468140125274658,
      "epoch": 3.7318630539802564,
      "grad_norm": 0.97265625,
      "learning_rate": 0.0003657216964819093,
      "loss": 4.9814,
      "mean_token_accuracy": 0.2032914161682129,
      "num_tokens": 81962852.0,
      "step": 44420
    },
    {
      "entropy": 5.42348346710205,
      "epoch": 3.732283133795421,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00036569429133488906,
      "loss": 4.9994,
      "mean_token_accuracy": 0.20736802369356155,
      "num_tokens": 81971693.0,
      "step": 44425
    },
    {
      "entropy": 5.449607563018799,
      "epoch": 3.732703213610586,
      "grad_norm": 1.046875,
      "learning_rate": 0.00036566688458126604,
      "loss": 4.9242,
      "mean_token_accuracy": 0.20997842103242875,
      "num_tokens": 81981259.0,
      "step": 44430
    },
    {
      "entropy": 5.39091682434082,
      "epoch": 3.7331232934257508,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00036563947622152593,
      "loss": 4.9236,
      "mean_token_accuracy": 0.21732629388570784,
      "num_tokens": 81989111.0,
      "step": 44435
    },
    {
      "entropy": 5.472790718078613,
      "epoch": 3.7335433732409156,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003656120662561542,
      "loss": 4.9993,
      "mean_token_accuracy": 0.20289327949285507,
      "num_tokens": 81998351.0,
      "step": 44440
    },
    {
      "entropy": 5.427503347396851,
      "epoch": 3.733963453056081,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003655846546856363,
      "loss": 4.9654,
      "mean_token_accuracy": 0.1962850198149681,
      "num_tokens": 82007952.0,
      "step": 44445
    },
    {
      "entropy": 5.443171453475952,
      "epoch": 3.7343835328712456,
      "grad_norm": 1.15625,
      "learning_rate": 0.00036555724151045787,
      "loss": 4.9204,
      "mean_token_accuracy": 0.20542673766613007,
      "num_tokens": 82016520.0,
      "step": 44450
    },
    {
      "entropy": 5.49769434928894,
      "epoch": 3.7348036126864104,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00036552982673110454,
      "loss": 5.0324,
      "mean_token_accuracy": 0.19892138689756395,
      "num_tokens": 82025015.0,
      "step": 44455
    },
    {
      "entropy": 5.4822663307189945,
      "epoch": 3.735223692501575,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000365502410348062,
      "loss": 5.105,
      "mean_token_accuracy": 0.19678594321012496,
      "num_tokens": 82035437.0,
      "step": 44460
    },
    {
      "entropy": 5.458506107330322,
      "epoch": 3.73564377231674,
      "grad_norm": 0.984375,
      "learning_rate": 0.00036547499236181573,
      "loss": 5.062,
      "mean_token_accuracy": 0.1973522573709488,
      "num_tokens": 82045034.0,
      "step": 44465
    },
    {
      "entropy": 5.564186239242554,
      "epoch": 3.736063852131905,
      "grad_norm": 1.0625,
      "learning_rate": 0.00036544757277285174,
      "loss": 5.1009,
      "mean_token_accuracy": 0.19430354684591294,
      "num_tokens": 82054152.0,
      "step": 44470
    },
    {
      "entropy": 5.483799839019776,
      "epoch": 3.73648393194707,
      "grad_norm": 1.125,
      "learning_rate": 0.00036542015158165547,
      "loss": 4.9554,
      "mean_token_accuracy": 0.21400925815105437,
      "num_tokens": 82062920.0,
      "step": 44475
    },
    {
      "entropy": 5.439036655426025,
      "epoch": 3.7369040117622347,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00036539272878871273,
      "loss": 4.9602,
      "mean_token_accuracy": 0.21158031821250917,
      "num_tokens": 82072100.0,
      "step": 44480
    },
    {
      "entropy": 5.416497278213501,
      "epoch": 3.7373240915774,
      "grad_norm": 1.0625,
      "learning_rate": 0.00036536530439450936,
      "loss": 5.0349,
      "mean_token_accuracy": 0.20508992671966553,
      "num_tokens": 82081471.0,
      "step": 44485
    },
    {
      "entropy": 5.566201686859131,
      "epoch": 3.7377441713925643,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003653378783995312,
      "loss": 5.0017,
      "mean_token_accuracy": 0.20519964545965194,
      "num_tokens": 82091277.0,
      "step": 44490
    },
    {
      "entropy": 5.504194545745849,
      "epoch": 3.7381642512077295,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003653104508042641,
      "loss": 4.9826,
      "mean_token_accuracy": 0.20237713158130646,
      "num_tokens": 82100767.0,
      "step": 44495
    },
    {
      "entropy": 5.441369104385376,
      "epoch": 3.7385843310228943,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003652830216091938,
      "loss": 4.9857,
      "mean_token_accuracy": 0.2056465908885002,
      "num_tokens": 82109698.0,
      "step": 44500
    },
    {
      "entropy": 5.440804481506348,
      "epoch": 3.739004410838059,
      "grad_norm": 1.0625,
      "learning_rate": 0.00036525559081480624,
      "loss": 4.9938,
      "mean_token_accuracy": 0.20312166064977646,
      "num_tokens": 82119469.0,
      "step": 44505
    },
    {
      "entropy": 5.485359525680542,
      "epoch": 3.7394244906532244,
      "grad_norm": 1.171875,
      "learning_rate": 0.00036522815842158737,
      "loss": 4.942,
      "mean_token_accuracy": 0.20454261153936387,
      "num_tokens": 82128194.0,
      "step": 44510
    },
    {
      "entropy": 5.377938842773437,
      "epoch": 3.739844570468389,
      "grad_norm": 1.0625,
      "learning_rate": 0.00036520072443002317,
      "loss": 4.8719,
      "mean_token_accuracy": 0.21577962934970857,
      "num_tokens": 82137107.0,
      "step": 44515
    },
    {
      "entropy": 5.33706259727478,
      "epoch": 3.740264650283554,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003651732888405996,
      "loss": 4.9471,
      "mean_token_accuracy": 0.2128302425146103,
      "num_tokens": 82146911.0,
      "step": 44520
    },
    {
      "entropy": 5.472462844848633,
      "epoch": 3.7406847300987187,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003651458516538026,
      "loss": 4.9296,
      "mean_token_accuracy": 0.21865040957927703,
      "num_tokens": 82155363.0,
      "step": 44525
    },
    {
      "entropy": 5.451873731613159,
      "epoch": 3.7411048099138835,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00036511841287011824,
      "loss": 4.9787,
      "mean_token_accuracy": 0.20707446485757827,
      "num_tokens": 82163826.0,
      "step": 44530
    },
    {
      "entropy": 5.548489618301391,
      "epoch": 3.7415248897290487,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003650909724900327,
      "loss": 5.1701,
      "mean_token_accuracy": 0.19218445867300032,
      "num_tokens": 82173630.0,
      "step": 44535
    },
    {
      "entropy": 5.472384881973267,
      "epoch": 3.7419449695442135,
      "grad_norm": 1.078125,
      "learning_rate": 0.00036506353051403185,
      "loss": 4.9462,
      "mean_token_accuracy": 0.2099663570523262,
      "num_tokens": 82184142.0,
      "step": 44540
    },
    {
      "entropy": 5.4987767219543455,
      "epoch": 3.7423650493593783,
      "grad_norm": 1.140625,
      "learning_rate": 0.000365036086942602,
      "loss": 4.9483,
      "mean_token_accuracy": 0.2044491946697235,
      "num_tokens": 82192674.0,
      "step": 44545
    },
    {
      "entropy": 5.562396621704101,
      "epoch": 3.742785129174543,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003650086417762292,
      "loss": 5.1247,
      "mean_token_accuracy": 0.1954346388578415,
      "num_tokens": 82201714.0,
      "step": 44550
    },
    {
      "entropy": 5.436953020095825,
      "epoch": 3.743205208989708,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003649811950153996,
      "loss": 4.9702,
      "mean_token_accuracy": 0.19933610558509826,
      "num_tokens": 82211448.0,
      "step": 44555
    },
    {
      "entropy": 5.391091060638428,
      "epoch": 3.743625288804873,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003649537466605996,
      "loss": 4.9611,
      "mean_token_accuracy": 0.19915961772203444,
      "num_tokens": 82220754.0,
      "step": 44560
    },
    {
      "entropy": 5.492733716964722,
      "epoch": 3.744045368620038,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003649262967123152,
      "loss": 5.0361,
      "mean_token_accuracy": 0.19539744555950164,
      "num_tokens": 82230015.0,
      "step": 44565
    },
    {
      "entropy": 5.520700550079345,
      "epoch": 3.7444654484352027,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003648988451710328,
      "loss": 5.0253,
      "mean_token_accuracy": 0.2008896604180336,
      "num_tokens": 82239897.0,
      "step": 44570
    },
    {
      "entropy": 5.378862142562866,
      "epoch": 3.7448855282503675,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00036487139203723873,
      "loss": 4.8447,
      "mean_token_accuracy": 0.21846070438623427,
      "num_tokens": 82248986.0,
      "step": 44575
    },
    {
      "entropy": 5.4659219741821286,
      "epoch": 3.7453056080655323,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003648439373114191,
      "loss": 5.0139,
      "mean_token_accuracy": 0.20217794179916382,
      "num_tokens": 82258026.0,
      "step": 44580
    },
    {
      "entropy": 5.418147182464599,
      "epoch": 3.7457256878806975,
      "grad_norm": 1.171875,
      "learning_rate": 0.00036481648099406046,
      "loss": 4.9909,
      "mean_token_accuracy": 0.2120803788304329,
      "num_tokens": 82266975.0,
      "step": 44585
    },
    {
      "entropy": 5.47198224067688,
      "epoch": 3.7461457676958623,
      "grad_norm": 1.015625,
      "learning_rate": 0.000364789023085649,
      "loss": 4.9681,
      "mean_token_accuracy": 0.20664431005716324,
      "num_tokens": 82276628.0,
      "step": 44590
    },
    {
      "entropy": 5.404849529266357,
      "epoch": 3.746565847511027,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003647615635866713,
      "loss": 4.9511,
      "mean_token_accuracy": 0.2127964034676552,
      "num_tokens": 82284862.0,
      "step": 44595
    },
    {
      "entropy": 5.432206773757935,
      "epoch": 3.746985927326192,
      "grad_norm": 1.140625,
      "learning_rate": 0.00036473410249761377,
      "loss": 5.0263,
      "mean_token_accuracy": 0.20285497903823851,
      "num_tokens": 82294010.0,
      "step": 44600
    },
    {
      "entropy": 5.448024940490723,
      "epoch": 3.7474060071413566,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003647066398189628,
      "loss": 5.0056,
      "mean_token_accuracy": 0.20269315093755721,
      "num_tokens": 82303081.0,
      "step": 44605
    },
    {
      "entropy": 5.549327993392945,
      "epoch": 3.747826086956522,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00036467917555120484,
      "loss": 5.0736,
      "mean_token_accuracy": 0.19699688851833344,
      "num_tokens": 82311427.0,
      "step": 44610
    },
    {
      "entropy": 5.484206819534302,
      "epoch": 3.7482461667716866,
      "grad_norm": 1.0,
      "learning_rate": 0.0003646517096948265,
      "loss": 5.0183,
      "mean_token_accuracy": 0.1995594933629036,
      "num_tokens": 82322641.0,
      "step": 44615
    },
    {
      "entropy": 5.466344165802002,
      "epoch": 3.7486662465868514,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003646242422503143,
      "loss": 5.0227,
      "mean_token_accuracy": 0.19583739191293717,
      "num_tokens": 82331462.0,
      "step": 44620
    },
    {
      "entropy": 5.552921199798584,
      "epoch": 3.7490863264020162,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003645967732181548,
      "loss": 5.0715,
      "mean_token_accuracy": 0.19890116155147552,
      "num_tokens": 82341776.0,
      "step": 44625
    },
    {
      "entropy": 5.467948627471924,
      "epoch": 3.749506406217181,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003645693025988345,
      "loss": 4.9502,
      "mean_token_accuracy": 0.20481543093919755,
      "num_tokens": 82351784.0,
      "step": 44630
    },
    {
      "entropy": 5.481797075271606,
      "epoch": 3.7499264860323462,
      "grad_norm": 1.0625,
      "learning_rate": 0.00036454183039284023,
      "loss": 4.9887,
      "mean_token_accuracy": 0.20381825417280197,
      "num_tokens": 82361587.0,
      "step": 44635
    },
    {
      "entropy": 5.558169746398926,
      "epoch": 3.750346565847511,
      "grad_norm": 1.09375,
      "learning_rate": 0.00036451435660065853,
      "loss": 5.0807,
      "mean_token_accuracy": 0.19505648761987687,
      "num_tokens": 82371836.0,
      "step": 44640
    },
    {
      "entropy": 5.477779769897461,
      "epoch": 3.750766645662676,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003644868812227761,
      "loss": 4.9688,
      "mean_token_accuracy": 0.20747514963150024,
      "num_tokens": 82381450.0,
      "step": 44645
    },
    {
      "entropy": 5.441462659835816,
      "epoch": 3.751186725477841,
      "grad_norm": 1.21875,
      "learning_rate": 0.0003644594042596796,
      "loss": 5.047,
      "mean_token_accuracy": 0.19888039380311967,
      "num_tokens": 82390960.0,
      "step": 44650
    },
    {
      "entropy": 5.376544857025147,
      "epoch": 3.751606805293006,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003644319257118558,
      "loss": 4.9217,
      "mean_token_accuracy": 0.2066630721092224,
      "num_tokens": 82400683.0,
      "step": 44655
    },
    {
      "entropy": 5.4605700969696045,
      "epoch": 3.7520268851081706,
      "grad_norm": 1.03125,
      "learning_rate": 0.00036440444557979157,
      "loss": 4.9904,
      "mean_token_accuracy": 0.21077483892440796,
      "num_tokens": 82410729.0,
      "step": 44660
    },
    {
      "entropy": 5.481643342971802,
      "epoch": 3.7524469649233354,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00036437696386397363,
      "loss": 5.0062,
      "mean_token_accuracy": 0.2052208289504051,
      "num_tokens": 82418740.0,
      "step": 44665
    },
    {
      "entropy": 5.397616815567017,
      "epoch": 3.7528670447385,
      "grad_norm": 1.09375,
      "learning_rate": 0.00036434948056488875,
      "loss": 4.9254,
      "mean_token_accuracy": 0.2066562831401825,
      "num_tokens": 82427675.0,
      "step": 44670
    },
    {
      "entropy": 5.456998825073242,
      "epoch": 3.7532871245536654,
      "grad_norm": 0.953125,
      "learning_rate": 0.0003643219956830239,
      "loss": 5.0038,
      "mean_token_accuracy": 0.19964692741632462,
      "num_tokens": 82438433.0,
      "step": 44675
    },
    {
      "entropy": 5.4204668521881105,
      "epoch": 3.75370720436883,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00036429450921886573,
      "loss": 4.9625,
      "mean_token_accuracy": 0.20088316798210143,
      "num_tokens": 82447699.0,
      "step": 44680
    },
    {
      "entropy": 5.467110443115234,
      "epoch": 3.754127284183995,
      "grad_norm": 1.0,
      "learning_rate": 0.0003642670211729014,
      "loss": 5.0317,
      "mean_token_accuracy": 0.20852666348218918,
      "num_tokens": 82457067.0,
      "step": 44685
    },
    {
      "entropy": 5.393135929107666,
      "epoch": 3.75454736399916,
      "grad_norm": 1.125,
      "learning_rate": 0.0003642395315456178,
      "loss": 4.8888,
      "mean_token_accuracy": 0.21361971348524095,
      "num_tokens": 82465160.0,
      "step": 44690
    },
    {
      "entropy": 5.455095291137695,
      "epoch": 3.7549674438143246,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003642120403375018,
      "loss": 4.9603,
      "mean_token_accuracy": 0.20975451320409774,
      "num_tokens": 82474238.0,
      "step": 44695
    },
    {
      "entropy": 5.472842597961426,
      "epoch": 3.75538752362949,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00036418454754904043,
      "loss": 5.0515,
      "mean_token_accuracy": 0.20723014026880265,
      "num_tokens": 82483072.0,
      "step": 44700
    },
    {
      "entropy": 5.498922109603882,
      "epoch": 3.7558076034446546,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003641570531807207,
      "loss": 5.1074,
      "mean_token_accuracy": 0.19865763783454896,
      "num_tokens": 82492657.0,
      "step": 44705
    },
    {
      "entropy": 5.48226261138916,
      "epoch": 3.7562276832598194,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00036412955723302983,
      "loss": 5.0062,
      "mean_token_accuracy": 0.20547567456960678,
      "num_tokens": 82501462.0,
      "step": 44710
    },
    {
      "entropy": 5.4614174365997314,
      "epoch": 3.756647763074984,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003641020597064546,
      "loss": 4.9736,
      "mean_token_accuracy": 0.20483538508415222,
      "num_tokens": 82510722.0,
      "step": 44715
    },
    {
      "entropy": 5.397420072555542,
      "epoch": 3.757067842890149,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003640745606014823,
      "loss": 4.9852,
      "mean_token_accuracy": 0.20557820051908493,
      "num_tokens": 82519092.0,
      "step": 44720
    },
    {
      "entropy": 5.387021017074585,
      "epoch": 3.757487922705314,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003640470599186,
      "loss": 4.9344,
      "mean_token_accuracy": 0.2101430743932724,
      "num_tokens": 82528199.0,
      "step": 44725
    },
    {
      "entropy": 5.450491857528687,
      "epoch": 3.757908002520479,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00036401955765829496,
      "loss": 4.953,
      "mean_token_accuracy": 0.2048670843243599,
      "num_tokens": 82537051.0,
      "step": 44730
    },
    {
      "entropy": 5.467529726028443,
      "epoch": 3.7583280823356437,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00036399205382105427,
      "loss": 5.036,
      "mean_token_accuracy": 0.2025369629263878,
      "num_tokens": 82546707.0,
      "step": 44735
    },
    {
      "entropy": 5.441297578811645,
      "epoch": 3.7587481621508085,
      "grad_norm": 1.125,
      "learning_rate": 0.00036396454840736513,
      "loss": 4.8942,
      "mean_token_accuracy": 0.20399869233369827,
      "num_tokens": 82555253.0,
      "step": 44740
    },
    {
      "entropy": 5.418548440933227,
      "epoch": 3.7591682419659733,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003639370414177149,
      "loss": 4.898,
      "mean_token_accuracy": 0.21277332603931426,
      "num_tokens": 82564332.0,
      "step": 44745
    },
    {
      "entropy": 5.429987907409668,
      "epoch": 3.7595883217811386,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003639095328525907,
      "loss": 4.9828,
      "mean_token_accuracy": 0.20065497159957885,
      "num_tokens": 82573398.0,
      "step": 44750
    },
    {
      "entropy": 5.450606155395508,
      "epoch": 3.7600084015963033,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003638820227124799,
      "loss": 5.0273,
      "mean_token_accuracy": 0.20232680141925813,
      "num_tokens": 82582356.0,
      "step": 44755
    },
    {
      "entropy": 5.575388956069946,
      "epoch": 3.760428481411468,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003638545109978699,
      "loss": 5.1253,
      "mean_token_accuracy": 0.1949554279446602,
      "num_tokens": 82591419.0,
      "step": 44760
    },
    {
      "entropy": 5.552017068862915,
      "epoch": 3.760848561226633,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00036382699770924794,
      "loss": 5.0799,
      "mean_token_accuracy": 0.19995301961898804,
      "num_tokens": 82601816.0,
      "step": 44765
    },
    {
      "entropy": 5.4157778263092045,
      "epoch": 3.7612686410417977,
      "grad_norm": 1.03125,
      "learning_rate": 0.00036379948284710154,
      "loss": 4.9725,
      "mean_token_accuracy": 0.20739779472351075,
      "num_tokens": 82611428.0,
      "step": 44770
    },
    {
      "entropy": 5.524529600143433,
      "epoch": 3.761688720856963,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003637719664119179,
      "loss": 5.0984,
      "mean_token_accuracy": 0.194749715924263,
      "num_tokens": 82621073.0,
      "step": 44775
    },
    {
      "entropy": 5.472128438949585,
      "epoch": 3.7621088006721277,
      "grad_norm": 1.09375,
      "learning_rate": 0.00036374444840418465,
      "loss": 5.0061,
      "mean_token_accuracy": 0.1992032140493393,
      "num_tokens": 82630422.0,
      "step": 44780
    },
    {
      "entropy": 5.485603094100952,
      "epoch": 3.7625288804872925,
      "grad_norm": 1.140625,
      "learning_rate": 0.00036371692882438924,
      "loss": 5.055,
      "mean_token_accuracy": 0.20156976580619812,
      "num_tokens": 82639272.0,
      "step": 44785
    },
    {
      "entropy": 5.44141116142273,
      "epoch": 3.7629489603024577,
      "grad_norm": 1.09375,
      "learning_rate": 0.00036368940767301903,
      "loss": 5.0278,
      "mean_token_accuracy": 0.19987896531820298,
      "num_tokens": 82648228.0,
      "step": 44790
    },
    {
      "entropy": 5.496759986877441,
      "epoch": 3.763369040117622,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003636618849505617,
      "loss": 4.9952,
      "mean_token_accuracy": 0.20616093277931213,
      "num_tokens": 82657335.0,
      "step": 44795
    },
    {
      "entropy": 5.572146606445313,
      "epoch": 3.7637891199327873,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003636343606575047,
      "loss": 5.0892,
      "mean_token_accuracy": 0.19571976363658905,
      "num_tokens": 82666786.0,
      "step": 44800
    },
    {
      "entropy": 5.405577707290649,
      "epoch": 3.764209199747952,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00036360683479433564,
      "loss": 4.8715,
      "mean_token_accuracy": 0.2143314465880394,
      "num_tokens": 82675046.0,
      "step": 44805
    },
    {
      "entropy": 5.491720533370971,
      "epoch": 3.764629279563117,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00036357930736154214,
      "loss": 5.0127,
      "mean_token_accuracy": 0.20361462682485582,
      "num_tokens": 82684206.0,
      "step": 44810
    },
    {
      "entropy": 5.488404321670532,
      "epoch": 3.765049359378282,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003635517783596117,
      "loss": 5.042,
      "mean_token_accuracy": 0.20490485727787017,
      "num_tokens": 82693913.0,
      "step": 44815
    },
    {
      "entropy": 5.44145188331604,
      "epoch": 3.765469439193447,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003635242477890323,
      "loss": 4.9768,
      "mean_token_accuracy": 0.20976721048355101,
      "num_tokens": 82703601.0,
      "step": 44820
    },
    {
      "entropy": 5.434836673736572,
      "epoch": 3.7658895190086117,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00036349671565029135,
      "loss": 4.9698,
      "mean_token_accuracy": 0.2017667591571808,
      "num_tokens": 82712857.0,
      "step": 44825
    },
    {
      "entropy": 5.434186363220215,
      "epoch": 3.7663095988237765,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00036346918194387663,
      "loss": 4.974,
      "mean_token_accuracy": 0.20129746496677398,
      "num_tokens": 82722151.0,
      "step": 44830
    },
    {
      "entropy": 5.438451719284058,
      "epoch": 3.7667296786389413,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00036344164667027597,
      "loss": 5.0064,
      "mean_token_accuracy": 0.20428005158901213,
      "num_tokens": 82731371.0,
      "step": 44835
    },
    {
      "entropy": 5.39433331489563,
      "epoch": 3.7671497584541065,
      "grad_norm": 1.09375,
      "learning_rate": 0.00036341410982997704,
      "loss": 4.9863,
      "mean_token_accuracy": 0.20247185230255127,
      "num_tokens": 82740629.0,
      "step": 44840
    },
    {
      "entropy": 5.43286919593811,
      "epoch": 3.7675698382692713,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0003633865714234677,
      "loss": 5.0168,
      "mean_token_accuracy": 0.20749047696590422,
      "num_tokens": 82751004.0,
      "step": 44845
    },
    {
      "entropy": 5.448016786575318,
      "epoch": 3.767989918084436,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00036335903145123566,
      "loss": 4.9479,
      "mean_token_accuracy": 0.21101379841566087,
      "num_tokens": 82761665.0,
      "step": 44850
    },
    {
      "entropy": 5.49863109588623,
      "epoch": 3.768409997899601,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000363331489913769,
      "loss": 5.0528,
      "mean_token_accuracy": 0.20083043575286866,
      "num_tokens": 82771546.0,
      "step": 44855
    },
    {
      "entropy": 5.495994567871094,
      "epoch": 3.7688300777147656,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003633039468115554,
      "loss": 4.9988,
      "mean_token_accuracy": 0.20567336082458496,
      "num_tokens": 82780557.0,
      "step": 44860
    },
    {
      "entropy": 5.548167276382446,
      "epoch": 3.769250157529931,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003632764021450829,
      "loss": 5.1438,
      "mean_token_accuracy": 0.19491543024778366,
      "num_tokens": 82789909.0,
      "step": 44865
    },
    {
      "entropy": 5.5136620044708256,
      "epoch": 3.7696702373450957,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003632488559148394,
      "loss": 4.9781,
      "mean_token_accuracy": 0.2062658727169037,
      "num_tokens": 82799789.0,
      "step": 44870
    },
    {
      "entropy": 5.396231460571289,
      "epoch": 3.7700903171602604,
      "grad_norm": 1.0625,
      "learning_rate": 0.00036322130812131275,
      "loss": 4.9674,
      "mean_token_accuracy": 0.20441411137580873,
      "num_tokens": 82808530.0,
      "step": 44875
    },
    {
      "entropy": 5.441658306121826,
      "epoch": 3.7705103969754252,
      "grad_norm": 1.0625,
      "learning_rate": 0.00036319375876499115,
      "loss": 4.9834,
      "mean_token_accuracy": 0.20967576056718826,
      "num_tokens": 82817105.0,
      "step": 44880
    },
    {
      "entropy": 5.427982664108276,
      "epoch": 3.77093047679059,
      "grad_norm": 1.046875,
      "learning_rate": 0.00036316620784636257,
      "loss": 4.9759,
      "mean_token_accuracy": 0.19969216883182525,
      "num_tokens": 82826761.0,
      "step": 44885
    },
    {
      "entropy": 5.3770294189453125,
      "epoch": 3.7713505566057552,
      "grad_norm": 0.96484375,
      "learning_rate": 0.00036313865536591496,
      "loss": 4.9321,
      "mean_token_accuracy": 0.21206446439027787,
      "num_tokens": 82836458.0,
      "step": 44890
    },
    {
      "entropy": 5.417841672897339,
      "epoch": 3.77177063642092,
      "grad_norm": 1.15625,
      "learning_rate": 0.00036311110132413647,
      "loss": 4.9551,
      "mean_token_accuracy": 0.2009858101606369,
      "num_tokens": 82845180.0,
      "step": 44895
    },
    {
      "entropy": 5.493088436126709,
      "epoch": 3.772190716236085,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00036308354572151517,
      "loss": 4.9915,
      "mean_token_accuracy": 0.21010235249996184,
      "num_tokens": 82853416.0,
      "step": 44900
    },
    {
      "entropy": 5.41449236869812,
      "epoch": 3.7726107960512496,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003630559885585392,
      "loss": 4.9131,
      "mean_token_accuracy": 0.2129691481590271,
      "num_tokens": 82861994.0,
      "step": 44905
    },
    {
      "entropy": 5.4836455345153805,
      "epoch": 3.7730308758664144,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00036302842983569676,
      "loss": 5.0249,
      "mean_token_accuracy": 0.20327897518873214,
      "num_tokens": 82871568.0,
      "step": 44910
    },
    {
      "entropy": 5.435645866394043,
      "epoch": 3.7734509556815796,
      "grad_norm": 1.140625,
      "learning_rate": 0.00036300086955347603,
      "loss": 5.0147,
      "mean_token_accuracy": 0.20597682893276215,
      "num_tokens": 82880576.0,
      "step": 44915
    },
    {
      "entropy": 5.433149147033691,
      "epoch": 3.7738710354967444,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003629733077123652,
      "loss": 4.9206,
      "mean_token_accuracy": 0.20836578905582429,
      "num_tokens": 82889588.0,
      "step": 44920
    },
    {
      "entropy": 5.610575866699219,
      "epoch": 3.774291115311909,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003629457443128525,
      "loss": 5.1347,
      "mean_token_accuracy": 0.1944890409708023,
      "num_tokens": 82898649.0,
      "step": 44925
    },
    {
      "entropy": 5.456187677383423,
      "epoch": 3.774711195127074,
      "grad_norm": 1.0,
      "learning_rate": 0.00036291817935542623,
      "loss": 4.9317,
      "mean_token_accuracy": 0.20732331722974778,
      "num_tokens": 82908362.0,
      "step": 44930
    },
    {
      "entropy": 5.445915365219117,
      "epoch": 3.7751312749422388,
      "grad_norm": 1.21875,
      "learning_rate": 0.00036289061284057466,
      "loss": 4.9337,
      "mean_token_accuracy": 0.21115876287221907,
      "num_tokens": 82918245.0,
      "step": 44935
    },
    {
      "entropy": 5.4715431213378904,
      "epoch": 3.775551354757404,
      "grad_norm": 1.078125,
      "learning_rate": 0.00036286304476878617,
      "loss": 5.0371,
      "mean_token_accuracy": 0.205522720515728,
      "num_tokens": 82927345.0,
      "step": 44940
    },
    {
      "entropy": 5.501592636108398,
      "epoch": 3.775971434572569,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003628354751405491,
      "loss": 5.0851,
      "mean_token_accuracy": 0.19793688803911208,
      "num_tokens": 82936303.0,
      "step": 44945
    },
    {
      "entropy": 5.566358804702759,
      "epoch": 3.7763915143877336,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003628079039563518,
      "loss": 5.1226,
      "mean_token_accuracy": 0.19920807629823684,
      "num_tokens": 82945817.0,
      "step": 44950
    },
    {
      "entropy": 5.4991522312164305,
      "epoch": 3.776811594202899,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003627803312166827,
      "loss": 5.0138,
      "mean_token_accuracy": 0.20724211931228637,
      "num_tokens": 82954715.0,
      "step": 44955
    },
    {
      "entropy": 5.55659556388855,
      "epoch": 3.7772316740180636,
      "grad_norm": 1.078125,
      "learning_rate": 0.00036275275692203025,
      "loss": 5.1297,
      "mean_token_accuracy": 0.19863003492355347,
      "num_tokens": 82964425.0,
      "step": 44960
    },
    {
      "entropy": 5.448933887481689,
      "epoch": 3.7776517538332284,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00036272518107288286,
      "loss": 4.9636,
      "mean_token_accuracy": 0.20411645025014877,
      "num_tokens": 82973227.0,
      "step": 44965
    },
    {
      "entropy": 5.520238924026489,
      "epoch": 3.778071833648393,
      "grad_norm": 1.0625,
      "learning_rate": 0.00036269760366972915,
      "loss": 5.0682,
      "mean_token_accuracy": 0.20230092704296113,
      "num_tokens": 82982705.0,
      "step": 44970
    },
    {
      "entropy": 5.427637958526612,
      "epoch": 3.778491913463558,
      "grad_norm": 1.046875,
      "learning_rate": 0.00036267002471305744,
      "loss": 4.9522,
      "mean_token_accuracy": 0.2102072849869728,
      "num_tokens": 82991921.0,
      "step": 44975
    },
    {
      "entropy": 5.435914754867554,
      "epoch": 3.778911993278723,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003626424442033564,
      "loss": 4.9835,
      "mean_token_accuracy": 0.20649758726358414,
      "num_tokens": 83001565.0,
      "step": 44980
    },
    {
      "entropy": 5.446743392944336,
      "epoch": 3.779332073093888,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00036261486214111467,
      "loss": 5.0173,
      "mean_token_accuracy": 0.2026273027062416,
      "num_tokens": 83012534.0,
      "step": 44985
    },
    {
      "entropy": 5.438094425201416,
      "epoch": 3.7797521529090528,
      "grad_norm": 1.171875,
      "learning_rate": 0.00036258727852682074,
      "loss": 4.998,
      "mean_token_accuracy": 0.20709854513406753,
      "num_tokens": 83021469.0,
      "step": 44990
    },
    {
      "entropy": 5.447080945968628,
      "epoch": 3.7801722327242175,
      "grad_norm": 1.125,
      "learning_rate": 0.0003625596933609632,
      "loss": 4.986,
      "mean_token_accuracy": 0.2012536808848381,
      "num_tokens": 83030727.0,
      "step": 44995
    },
    {
      "entropy": 5.472522735595703,
      "epoch": 3.7805923125393823,
      "grad_norm": 1.125,
      "learning_rate": 0.0003625321066440308,
      "loss": 5.0002,
      "mean_token_accuracy": 0.20398671329021453,
      "num_tokens": 83039452.0,
      "step": 45000
    },
    {
      "epoch": 3.7805923125393823,
      "eval_entropy": 5.261029052979378,
      "eval_loss": 5.08828067779541,
      "eval_mean_token_accuracy": 0.20858646126783423,
      "eval_num_tokens": 83039452.0,
      "eval_runtime": 27.2773,
      "eval_samples_per_second": 1369.859,
      "eval_steps_per_second": 171.242,
      "step": 45000
    },
    {
      "entropy": 5.581677579879761,
      "epoch": 3.7810123923545476,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003625045183765122,
      "loss": 5.0557,
      "mean_token_accuracy": 0.2003969892859459,
      "num_tokens": 83048346.0,
      "step": 45005
    },
    {
      "entropy": 5.511978006362915,
      "epoch": 3.7814324721697123,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00036247692855889615,
      "loss": 5.0375,
      "mean_token_accuracy": 0.20385073125362396,
      "num_tokens": 83056970.0,
      "step": 45010
    },
    {
      "entropy": 5.448994493484497,
      "epoch": 3.781852551984877,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003624493371916714,
      "loss": 4.9529,
      "mean_token_accuracy": 0.2104315459728241,
      "num_tokens": 83065714.0,
      "step": 45015
    },
    {
      "entropy": 5.43033800125122,
      "epoch": 3.782272631800042,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00036242174427532657,
      "loss": 4.9772,
      "mean_token_accuracy": 0.20906258672475814,
      "num_tokens": 83075257.0,
      "step": 45020
    },
    {
      "entropy": 5.534179639816284,
      "epoch": 3.7826927116152067,
      "grad_norm": 1.046875,
      "learning_rate": 0.00036239414981035063,
      "loss": 5.0352,
      "mean_token_accuracy": 0.20355353504419327,
      "num_tokens": 83085112.0,
      "step": 45025
    },
    {
      "entropy": 5.560043525695801,
      "epoch": 3.783112791430372,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003623665537972323,
      "loss": 5.0681,
      "mean_token_accuracy": 0.1999027758836746,
      "num_tokens": 83094029.0,
      "step": 45030
    },
    {
      "entropy": 5.472210311889649,
      "epoch": 3.7835328712455367,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003623389562364605,
      "loss": 4.9828,
      "mean_token_accuracy": 0.20123914033174514,
      "num_tokens": 83102710.0,
      "step": 45035
    },
    {
      "entropy": 5.437150478363037,
      "epoch": 3.7839529510607015,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00036231135712852405,
      "loss": 4.8742,
      "mean_token_accuracy": 0.21745401620864868,
      "num_tokens": 83111579.0,
      "step": 45040
    },
    {
      "entropy": 5.422783231735229,
      "epoch": 3.7843730308758663,
      "grad_norm": 1.0,
      "learning_rate": 0.00036228375647391175,
      "loss": 4.9734,
      "mean_token_accuracy": 0.2000207394361496,
      "num_tokens": 83120321.0,
      "step": 45045
    },
    {
      "entropy": 5.4791535377502445,
      "epoch": 3.784793110691031,
      "grad_norm": 1.140625,
      "learning_rate": 0.00036225615427311277,
      "loss": 5.0197,
      "mean_token_accuracy": 0.2043266624212265,
      "num_tokens": 83129445.0,
      "step": 45050
    },
    {
      "entropy": 5.440381574630737,
      "epoch": 3.7852131905061963,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003622285505266159,
      "loss": 4.9424,
      "mean_token_accuracy": 0.2060265764594078,
      "num_tokens": 83137876.0,
      "step": 45055
    },
    {
      "entropy": 5.564191770553589,
      "epoch": 3.785633270321361,
      "grad_norm": 1.125,
      "learning_rate": 0.00036220094523491017,
      "loss": 5.0532,
      "mean_token_accuracy": 0.19717254042625426,
      "num_tokens": 83147651.0,
      "step": 45060
    },
    {
      "entropy": 5.524529838562012,
      "epoch": 3.786053350136526,
      "grad_norm": 1.015625,
      "learning_rate": 0.00036217333839848467,
      "loss": 5.0029,
      "mean_token_accuracy": 0.20159578174352646,
      "num_tokens": 83157339.0,
      "step": 45065
    },
    {
      "entropy": 5.519656038284301,
      "epoch": 3.7864734299516907,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003621457300178282,
      "loss": 5.0729,
      "mean_token_accuracy": 0.19858945459127425,
      "num_tokens": 83167012.0,
      "step": 45070
    },
    {
      "entropy": 5.42507586479187,
      "epoch": 3.7868935097668555,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003621181200934302,
      "loss": 4.9209,
      "mean_token_accuracy": 0.2152032271027565,
      "num_tokens": 83175881.0,
      "step": 45075
    },
    {
      "entropy": 5.469160461425782,
      "epoch": 3.7873135895820207,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003620905086257795,
      "loss": 4.99,
      "mean_token_accuracy": 0.20736512541770935,
      "num_tokens": 83184338.0,
      "step": 45080
    },
    {
      "entropy": 5.4275493144989015,
      "epoch": 3.7877336693971855,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003620628956153652,
      "loss": 4.9191,
      "mean_token_accuracy": 0.21439743489027024,
      "num_tokens": 83192839.0,
      "step": 45085
    },
    {
      "entropy": 5.407225704193115,
      "epoch": 3.7881537492123503,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00036203528106267663,
      "loss": 5.0103,
      "mean_token_accuracy": 0.2050269991159439,
      "num_tokens": 83203481.0,
      "step": 45090
    },
    {
      "entropy": 5.402711534500122,
      "epoch": 3.7885738290275155,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003620076649682028,
      "loss": 4.8746,
      "mean_token_accuracy": 0.21233020722866058,
      "num_tokens": 83211524.0,
      "step": 45095
    },
    {
      "entropy": 5.456088352203369,
      "epoch": 3.78899390884268,
      "grad_norm": 1.125,
      "learning_rate": 0.0003619800473324331,
      "loss": 5.0318,
      "mean_token_accuracy": 0.20059286653995514,
      "num_tokens": 83220473.0,
      "step": 45100
    },
    {
      "entropy": 5.4442041397094725,
      "epoch": 3.789413988657845,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0003619524281558565,
      "loss": 5.0012,
      "mean_token_accuracy": 0.2024179846048355,
      "num_tokens": 83229164.0,
      "step": 45105
    },
    {
      "entropy": 5.511185836791992,
      "epoch": 3.78983406847301,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003619248074389625,
      "loss": 5.0615,
      "mean_token_accuracy": 0.20799667090177537,
      "num_tokens": 83238416.0,
      "step": 45110
    },
    {
      "entropy": 5.465393304824829,
      "epoch": 3.7902541482881746,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003618971851822402,
      "loss": 4.9783,
      "mean_token_accuracy": 0.21132198572158814,
      "num_tokens": 83247416.0,
      "step": 45115
    },
    {
      "entropy": 5.515811347961426,
      "epoch": 3.79067422810334,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003618695613861791,
      "loss": 5.0755,
      "mean_token_accuracy": 0.19769522845745086,
      "num_tokens": 83257361.0,
      "step": 45120
    },
    {
      "entropy": 5.4879388332366945,
      "epoch": 3.7910943079185047,
      "grad_norm": 1.125,
      "learning_rate": 0.00036184193605126846,
      "loss": 4.9586,
      "mean_token_accuracy": 0.20708999186754226,
      "num_tokens": 83266745.0,
      "step": 45125
    },
    {
      "entropy": 5.470021724700928,
      "epoch": 3.7915143877336694,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003618143091779976,
      "loss": 5.0267,
      "mean_token_accuracy": 0.20764095783233644,
      "num_tokens": 83276179.0,
      "step": 45130
    },
    {
      "entropy": 5.457016038894653,
      "epoch": 3.7919344675488342,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000361786680766856,
      "loss": 4.9535,
      "mean_token_accuracy": 0.203203222155571,
      "num_tokens": 83286029.0,
      "step": 45135
    },
    {
      "entropy": 5.5422694206237795,
      "epoch": 3.792354547363999,
      "grad_norm": 0.984375,
      "learning_rate": 0.000361759050818333,
      "loss": 5.0314,
      "mean_token_accuracy": 0.21003561466932297,
      "num_tokens": 83295325.0,
      "step": 45140
    },
    {
      "entropy": 5.5363030433654785,
      "epoch": 3.7927746271791642,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00036173141933291806,
      "loss": 5.1074,
      "mean_token_accuracy": 0.1919708013534546,
      "num_tokens": 83304545.0,
      "step": 45145
    },
    {
      "entropy": 5.440314626693725,
      "epoch": 3.793194706994329,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003617037863111008,
      "loss": 4.9423,
      "mean_token_accuracy": 0.21103408485651015,
      "num_tokens": 83314079.0,
      "step": 45150
    },
    {
      "entropy": 5.476541900634766,
      "epoch": 3.793614786809494,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00036167615175337046,
      "loss": 4.9737,
      "mean_token_accuracy": 0.2005663901567459,
      "num_tokens": 83322734.0,
      "step": 45155
    },
    {
      "entropy": 5.594385147094727,
      "epoch": 3.7940348666246586,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00036164851566021684,
      "loss": 5.1969,
      "mean_token_accuracy": 0.19406306445598603,
      "num_tokens": 83332999.0,
      "step": 45160
    },
    {
      "entropy": 5.428708600997925,
      "epoch": 3.7944549464398234,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003616208780321294,
      "loss": 4.9007,
      "mean_token_accuracy": 0.2076417475938797,
      "num_tokens": 83340734.0,
      "step": 45165
    },
    {
      "entropy": 5.426431560516358,
      "epoch": 3.7948750262549886,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00036159323886959766,
      "loss": 4.9722,
      "mean_token_accuracy": 0.21325696110725403,
      "num_tokens": 83350057.0,
      "step": 45170
    },
    {
      "entropy": 5.527898454666138,
      "epoch": 3.7952951060701534,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003615655981731112,
      "loss": 5.0342,
      "mean_token_accuracy": 0.2081935703754425,
      "num_tokens": 83359047.0,
      "step": 45175
    },
    {
      "entropy": 5.492024898529053,
      "epoch": 3.795715185885318,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003615379559431598,
      "loss": 4.9469,
      "mean_token_accuracy": 0.21670920997858048,
      "num_tokens": 83367985.0,
      "step": 45180
    },
    {
      "entropy": 5.488990783691406,
      "epoch": 3.796135265700483,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003615103121802331,
      "loss": 5.0263,
      "mean_token_accuracy": 0.20164847671985625,
      "num_tokens": 83377222.0,
      "step": 45185
    },
    {
      "entropy": 5.51670618057251,
      "epoch": 3.7965553455156478,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003614826668848208,
      "loss": 5.1317,
      "mean_token_accuracy": 0.19031304717063904,
      "num_tokens": 83387913.0,
      "step": 45190
    },
    {
      "entropy": 5.506474733352661,
      "epoch": 3.796975425330813,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003614550200574125,
      "loss": 5.0289,
      "mean_token_accuracy": 0.2048200935125351,
      "num_tokens": 83396992.0,
      "step": 45195
    },
    {
      "entropy": 5.526225757598877,
      "epoch": 3.797395505145978,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003614273716984981,
      "loss": 5.0315,
      "mean_token_accuracy": 0.2011743441224098,
      "num_tokens": 83407212.0,
      "step": 45200
    },
    {
      "entropy": 5.625093078613281,
      "epoch": 3.7978155849611426,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003613997218085673,
      "loss": 5.1803,
      "mean_token_accuracy": 0.192815962433815,
      "num_tokens": 83416498.0,
      "step": 45205
    },
    {
      "entropy": 5.508109664916992,
      "epoch": 3.7982356647763074,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003613720703881099,
      "loss": 5.0078,
      "mean_token_accuracy": 0.2072528898715973,
      "num_tokens": 83426278.0,
      "step": 45210
    },
    {
      "entropy": 5.469494438171386,
      "epoch": 3.798655744591472,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00036134441743761577,
      "loss": 5.0039,
      "mean_token_accuracy": 0.20651010572910308,
      "num_tokens": 83435660.0,
      "step": 45215
    },
    {
      "entropy": 5.490581035614014,
      "epoch": 3.7990758244066374,
      "grad_norm": 1.171875,
      "learning_rate": 0.00036131676295757476,
      "loss": 5.0882,
      "mean_token_accuracy": 0.199987755715847,
      "num_tokens": 83444896.0,
      "step": 45220
    },
    {
      "entropy": 5.5502129077911375,
      "epoch": 3.799495904221802,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00036128910694847665,
      "loss": 5.0596,
      "mean_token_accuracy": 0.19375188201665877,
      "num_tokens": 83454421.0,
      "step": 45225
    },
    {
      "entropy": 5.48860650062561,
      "epoch": 3.799915984036967,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003612614494108115,
      "loss": 4.9202,
      "mean_token_accuracy": 0.21437346935272217,
      "num_tokens": 83463140.0,
      "step": 45230
    },
    {
      "entropy": 5.370545053482056,
      "epoch": 3.8003360638521317,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003612337903450692,
      "loss": 4.9856,
      "mean_token_accuracy": 0.2057211682200432,
      "num_tokens": 83472434.0,
      "step": 45235
    },
    {
      "entropy": 5.416837215423584,
      "epoch": 3.8007561436672965,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003612061297517397,
      "loss": 4.9774,
      "mean_token_accuracy": 0.2032918095588684,
      "num_tokens": 83481049.0,
      "step": 45240
    },
    {
      "entropy": 5.421405553817749,
      "epoch": 3.8011762234824618,
      "grad_norm": 1.1171875,
      "learning_rate": 0.000361178467631313,
      "loss": 4.9357,
      "mean_token_accuracy": 0.20750768929719926,
      "num_tokens": 83490272.0,
      "step": 45245
    },
    {
      "entropy": 5.464545440673828,
      "epoch": 3.8015963032976265,
      "grad_norm": 1.109375,
      "learning_rate": 0.00036115080398427913,
      "loss": 4.9993,
      "mean_token_accuracy": 0.20183148235082626,
      "num_tokens": 83499809.0,
      "step": 45250
    },
    {
      "entropy": 5.44266710281372,
      "epoch": 3.8020163831127913,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003611231388111282,
      "loss": 4.8899,
      "mean_token_accuracy": 0.21401123702526093,
      "num_tokens": 83508306.0,
      "step": 45255
    },
    {
      "entropy": 5.418136024475098,
      "epoch": 3.8024364629279566,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003610954721123501,
      "loss": 4.9901,
      "mean_token_accuracy": 0.20614586323499678,
      "num_tokens": 83517384.0,
      "step": 45260
    },
    {
      "entropy": 5.415124845504761,
      "epoch": 3.8028565427431213,
      "grad_norm": 1.0625,
      "learning_rate": 0.00036106780388843506,
      "loss": 5.0346,
      "mean_token_accuracy": 0.2007593959569931,
      "num_tokens": 83526493.0,
      "step": 45265
    },
    {
      "entropy": 5.604882526397705,
      "epoch": 3.803276622558286,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003610401341398732,
      "loss": 5.0647,
      "mean_token_accuracy": 0.19729338139295577,
      "num_tokens": 83534972.0,
      "step": 45270
    },
    {
      "entropy": 5.511041498184204,
      "epoch": 3.803696702373451,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003610124628671547,
      "loss": 4.9675,
      "mean_token_accuracy": 0.21212298572063445,
      "num_tokens": 83543468.0,
      "step": 45275
    },
    {
      "entropy": 5.412394380569458,
      "epoch": 3.8041167821886157,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003609847900707698,
      "loss": 4.879,
      "mean_token_accuracy": 0.21989571154117585,
      "num_tokens": 83552000.0,
      "step": 45280
    },
    {
      "entropy": 5.44352617263794,
      "epoch": 3.804536862003781,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00036095711575120844,
      "loss": 5.0198,
      "mean_token_accuracy": 0.20486573427915572,
      "num_tokens": 83560711.0,
      "step": 45285
    },
    {
      "entropy": 5.432257890701294,
      "epoch": 3.8049569418189457,
      "grad_norm": 1.109375,
      "learning_rate": 0.00036092943990896116,
      "loss": 5.0442,
      "mean_token_accuracy": 0.19866616278886795,
      "num_tokens": 83570223.0,
      "step": 45290
    },
    {
      "entropy": 5.490937519073486,
      "epoch": 3.8053770216341105,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00036090176254451793,
      "loss": 5.0115,
      "mean_token_accuracy": 0.20156742632389069,
      "num_tokens": 83579006.0,
      "step": 45295
    },
    {
      "entropy": 5.5028876781463625,
      "epoch": 3.8057971014492753,
      "grad_norm": 1.109375,
      "learning_rate": 0.00036087408365836936,
      "loss": 5.0317,
      "mean_token_accuracy": 0.19955650120973586,
      "num_tokens": 83586711.0,
      "step": 45300
    },
    {
      "entropy": 5.549448680877686,
      "epoch": 3.80621718126444,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003608464032510056,
      "loss": 5.0796,
      "mean_token_accuracy": 0.19422690868377684,
      "num_tokens": 83596448.0,
      "step": 45305
    },
    {
      "entropy": 5.4802321434021,
      "epoch": 3.8066372610796053,
      "grad_norm": 1.09375,
      "learning_rate": 0.000360818721322917,
      "loss": 5.0206,
      "mean_token_accuracy": 0.2010250434279442,
      "num_tokens": 83605410.0,
      "step": 45310
    },
    {
      "entropy": 5.502241325378418,
      "epoch": 3.80705734089477,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00036079103787459393,
      "loss": 5.0382,
      "mean_token_accuracy": 0.19897714704275132,
      "num_tokens": 83614582.0,
      "step": 45315
    },
    {
      "entropy": 5.410114765167236,
      "epoch": 3.807477420709935,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003607633529065268,
      "loss": 4.938,
      "mean_token_accuracy": 0.2054607853293419,
      "num_tokens": 83622695.0,
      "step": 45320
    },
    {
      "entropy": 5.501247596740723,
      "epoch": 3.8078975005250997,
      "grad_norm": 1.125,
      "learning_rate": 0.000360735666419206,
      "loss": 5.0214,
      "mean_token_accuracy": 0.20154539346694947,
      "num_tokens": 83631226.0,
      "step": 45325
    },
    {
      "entropy": 5.592715835571289,
      "epoch": 3.8083175803402645,
      "grad_norm": 1.046875,
      "learning_rate": 0.00036070797841312216,
      "loss": 5.1563,
      "mean_token_accuracy": 0.19447270333766936,
      "num_tokens": 83641319.0,
      "step": 45330
    },
    {
      "entropy": 5.502251291275025,
      "epoch": 3.8087376601554297,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003606802888887655,
      "loss": 5.0952,
      "mean_token_accuracy": 0.19921968132257462,
      "num_tokens": 83650729.0,
      "step": 45335
    },
    {
      "entropy": 5.439982175827026,
      "epoch": 3.8091577399705945,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00036065259784662663,
      "loss": 4.8847,
      "mean_token_accuracy": 0.21635309010744094,
      "num_tokens": 83659789.0,
      "step": 45340
    },
    {
      "entropy": 5.467077589035034,
      "epoch": 3.8095778197857593,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00036062490528719615,
      "loss": 4.964,
      "mean_token_accuracy": 0.20369842797517776,
      "num_tokens": 83668571.0,
      "step": 45345
    },
    {
      "entropy": 5.43956937789917,
      "epoch": 3.809997899600924,
      "grad_norm": 1.078125,
      "learning_rate": 0.00036059721121096456,
      "loss": 4.9058,
      "mean_token_accuracy": 0.21894239634275436,
      "num_tokens": 83677360.0,
      "step": 45350
    },
    {
      "entropy": 5.425247430801392,
      "epoch": 3.810417979416089,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003605695156184224,
      "loss": 4.9092,
      "mean_token_accuracy": 0.2163975492119789,
      "num_tokens": 83686574.0,
      "step": 45355
    },
    {
      "entropy": 5.385032653808594,
      "epoch": 3.810838059231254,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003605418185100603,
      "loss": 4.9868,
      "mean_token_accuracy": 0.2089381441473961,
      "num_tokens": 83695914.0,
      "step": 45360
    },
    {
      "entropy": 5.448870372772217,
      "epoch": 3.811258139046419,
      "grad_norm": 1.203125,
      "learning_rate": 0.000360514119886369,
      "loss": 4.9614,
      "mean_token_accuracy": 0.20765126794576644,
      "num_tokens": 83704466.0,
      "step": 45365
    },
    {
      "entropy": 5.388067770004272,
      "epoch": 3.8116782188615836,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00036048641974783906,
      "loss": 4.8108,
      "mean_token_accuracy": 0.2132248744368553,
      "num_tokens": 83713304.0,
      "step": 45370
    },
    {
      "entropy": 5.428084039688111,
      "epoch": 3.8120982986767484,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00036045871809496123,
      "loss": 5.037,
      "mean_token_accuracy": 0.20798879414796828,
      "num_tokens": 83723162.0,
      "step": 45375
    },
    {
      "entropy": 5.534447908401489,
      "epoch": 3.812518378491913,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003604310149282263,
      "loss": 5.0587,
      "mean_token_accuracy": 0.20226482152938843,
      "num_tokens": 83733407.0,
      "step": 45380
    },
    {
      "entropy": 5.581667041778564,
      "epoch": 3.8129384583070784,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00036040331024812485,
      "loss": 5.0691,
      "mean_token_accuracy": 0.2001934066414833,
      "num_tokens": 83742897.0,
      "step": 45385
    },
    {
      "entropy": 5.388964414596558,
      "epoch": 3.8133585381222432,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00036037560405514766,
      "loss": 4.9409,
      "mean_token_accuracy": 0.20737184882164,
      "num_tokens": 83752472.0,
      "step": 45390
    },
    {
      "entropy": 5.413186883926391,
      "epoch": 3.813778617937408,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003603478963497857,
      "loss": 5.0094,
      "mean_token_accuracy": 0.19713880866765976,
      "num_tokens": 83761881.0,
      "step": 45395
    },
    {
      "entropy": 5.5244533061981205,
      "epoch": 3.8141986977525733,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003603201871325297,
      "loss": 5.0158,
      "mean_token_accuracy": 0.2046426847577095,
      "num_tokens": 83770986.0,
      "step": 45400
    },
    {
      "entropy": 5.479098749160767,
      "epoch": 3.8146187775677376,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003602924764038706,
      "loss": 5.0233,
      "mean_token_accuracy": 0.19873084127902985,
      "num_tokens": 83779452.0,
      "step": 45405
    },
    {
      "entropy": 5.470671367645264,
      "epoch": 3.815038857382903,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003602647641642991,
      "loss": 5.0316,
      "mean_token_accuracy": 0.20569406300783158,
      "num_tokens": 83789214.0,
      "step": 45410
    },
    {
      "entropy": 5.536259651184082,
      "epoch": 3.8154589371980676,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003602370504143062,
      "loss": 5.0631,
      "mean_token_accuracy": 0.2056504011154175,
      "num_tokens": 83798255.0,
      "step": 45415
    },
    {
      "entropy": 5.5334024906158445,
      "epoch": 3.8158790170132324,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003602093351543828,
      "loss": 5.0956,
      "mean_token_accuracy": 0.1945410594344139,
      "num_tokens": 83808020.0,
      "step": 45420
    },
    {
      "entropy": 5.449585628509522,
      "epoch": 3.8162990968283976,
      "grad_norm": 1.078125,
      "learning_rate": 0.00036018161838502,
      "loss": 5.0021,
      "mean_token_accuracy": 0.20965944230556488,
      "num_tokens": 83817640.0,
      "step": 45425
    },
    {
      "entropy": 5.5052930355072025,
      "epoch": 3.8167191766435624,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00036015390010670856,
      "loss": 5.1259,
      "mean_token_accuracy": 0.1997270330786705,
      "num_tokens": 83827032.0,
      "step": 45430
    },
    {
      "entropy": 5.547036027908325,
      "epoch": 3.817139256458727,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00036012618031993975,
      "loss": 5.0159,
      "mean_token_accuracy": 0.2073461502790451,
      "num_tokens": 83836061.0,
      "step": 45435
    },
    {
      "entropy": 5.5513279914855955,
      "epoch": 3.817559336273892,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003600984590252045,
      "loss": 5.0272,
      "mean_token_accuracy": 0.2065521001815796,
      "num_tokens": 83844947.0,
      "step": 45440
    },
    {
      "entropy": 5.484382963180542,
      "epoch": 3.8179794160890568,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00036007073622299385,
      "loss": 5.119,
      "mean_token_accuracy": 0.20458468794822693,
      "num_tokens": 83854008.0,
      "step": 45445
    },
    {
      "entropy": 5.479255104064942,
      "epoch": 3.818399495904222,
      "grad_norm": 1.265625,
      "learning_rate": 0.0003600430119137988,
      "loss": 4.9717,
      "mean_token_accuracy": 0.2093239650130272,
      "num_tokens": 83862552.0,
      "step": 45450
    },
    {
      "entropy": 5.564109992980957,
      "epoch": 3.818819575719387,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003600152860981107,
      "loss": 5.1269,
      "mean_token_accuracy": 0.19003589898347856,
      "num_tokens": 83872314.0,
      "step": 45455
    },
    {
      "entropy": 5.39708514213562,
      "epoch": 3.8192396555345516,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00035998755877642057,
      "loss": 4.9173,
      "mean_token_accuracy": 0.2117936760187149,
      "num_tokens": 83882366.0,
      "step": 45460
    },
    {
      "entropy": 5.437188768386841,
      "epoch": 3.8196597353497164,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003599598299492196,
      "loss": 4.9581,
      "mean_token_accuracy": 0.21013427674770355,
      "num_tokens": 83891446.0,
      "step": 45465
    },
    {
      "entropy": 5.435873031616211,
      "epoch": 3.820079815164881,
      "grad_norm": 1.0625,
      "learning_rate": 0.00035993209961699904,
      "loss": 4.9588,
      "mean_token_accuracy": 0.20515706539154052,
      "num_tokens": 83900219.0,
      "step": 45470
    },
    {
      "entropy": 5.404809522628784,
      "epoch": 3.8204998949800464,
      "grad_norm": 1.140625,
      "learning_rate": 0.00035990436778024997,
      "loss": 4.8865,
      "mean_token_accuracy": 0.21138721704483032,
      "num_tokens": 83908747.0,
      "step": 45475
    },
    {
      "entropy": 5.5491045951843265,
      "epoch": 3.820919974795211,
      "grad_norm": 1.078125,
      "learning_rate": 0.00035987663443946377,
      "loss": 5.0763,
      "mean_token_accuracy": 0.19741439670324326,
      "num_tokens": 83917813.0,
      "step": 45480
    },
    {
      "entropy": 5.510094881057739,
      "epoch": 3.821340054610376,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003598488995951317,
      "loss": 5.007,
      "mean_token_accuracy": 0.20121762305498123,
      "num_tokens": 83927388.0,
      "step": 45485
    },
    {
      "entropy": 5.461193561553955,
      "epoch": 3.8217601344255407,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003598211632477451,
      "loss": 5.0043,
      "mean_token_accuracy": 0.20385896116495134,
      "num_tokens": 83936340.0,
      "step": 45490
    },
    {
      "entropy": 5.475716590881348,
      "epoch": 3.8221802142407055,
      "grad_norm": 1.109375,
      "learning_rate": 0.00035979342539779524,
      "loss": 5.0427,
      "mean_token_accuracy": 0.20863028913736342,
      "num_tokens": 83945935.0,
      "step": 45495
    },
    {
      "entropy": 5.446768522262573,
      "epoch": 3.8226002940558708,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003597656860457735,
      "loss": 4.901,
      "mean_token_accuracy": 0.21645871698856353,
      "num_tokens": 83954973.0,
      "step": 45500
    },
    {
      "entropy": 5.498012256622315,
      "epoch": 3.8230203738710355,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003597379451921712,
      "loss": 5.0235,
      "mean_token_accuracy": 0.20388016551733018,
      "num_tokens": 83964223.0,
      "step": 45505
    },
    {
      "entropy": 5.446482086181641,
      "epoch": 3.8234404536862003,
      "grad_norm": 1.125,
      "learning_rate": 0.00035971020283747995,
      "loss": 4.9931,
      "mean_token_accuracy": 0.20330684632062912,
      "num_tokens": 83973403.0,
      "step": 45510
    },
    {
      "entropy": 5.4833909034729,
      "epoch": 3.823860533501365,
      "grad_norm": 1.21875,
      "learning_rate": 0.00035968245898219107,
      "loss": 5.0177,
      "mean_token_accuracy": 0.20398795306682588,
      "num_tokens": 83982045.0,
      "step": 45515
    },
    {
      "entropy": 5.499274206161499,
      "epoch": 3.82428061331653,
      "grad_norm": 1.09375,
      "learning_rate": 0.00035965471362679605,
      "loss": 5.0725,
      "mean_token_accuracy": 0.20014621019363404,
      "num_tokens": 83991243.0,
      "step": 45520
    },
    {
      "entropy": 5.461662340164184,
      "epoch": 3.824700693131695,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003596269667717863,
      "loss": 4.8816,
      "mean_token_accuracy": 0.21992315500974655,
      "num_tokens": 84000333.0,
      "step": 45525
    },
    {
      "entropy": 5.479755067825318,
      "epoch": 3.82512077294686,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003595992184176534,
      "loss": 5.0333,
      "mean_token_accuracy": 0.20389170795679093,
      "num_tokens": 84009294.0,
      "step": 45530
    },
    {
      "entropy": 5.45860185623169,
      "epoch": 3.8255408527620247,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00035957146856488903,
      "loss": 4.9625,
      "mean_token_accuracy": 0.20386328250169755,
      "num_tokens": 84019934.0,
      "step": 45535
    },
    {
      "entropy": 5.480791997909546,
      "epoch": 3.82596093257719,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00035954371721398453,
      "loss": 4.9926,
      "mean_token_accuracy": 0.20915686786174775,
      "num_tokens": 84028468.0,
      "step": 45540
    },
    {
      "entropy": 5.472679567337036,
      "epoch": 3.8263810123923543,
      "grad_norm": 1.140625,
      "learning_rate": 0.00035951596436543167,
      "loss": 4.9681,
      "mean_token_accuracy": 0.21191762387752533,
      "num_tokens": 84037335.0,
      "step": 45545
    },
    {
      "entropy": 5.4221728324890135,
      "epoch": 3.8268010922075195,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000359488210019722,
      "loss": 4.9853,
      "mean_token_accuracy": 0.20846226066350937,
      "num_tokens": 84047484.0,
      "step": 45550
    },
    {
      "entropy": 5.395271921157837,
      "epoch": 3.8272211720226843,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003594604541773472,
      "loss": 4.9343,
      "mean_token_accuracy": 0.21127425730228425,
      "num_tokens": 84058115.0,
      "step": 45555
    },
    {
      "entropy": 5.492840099334717,
      "epoch": 3.827641251837849,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00035943269683879893,
      "loss": 4.9839,
      "mean_token_accuracy": 0.20188241451978683,
      "num_tokens": 84066524.0,
      "step": 45560
    },
    {
      "entropy": 5.524865818023682,
      "epoch": 3.8280613316530143,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00035940493800456884,
      "loss": 5.062,
      "mean_token_accuracy": 0.20305371135473252,
      "num_tokens": 84076482.0,
      "step": 45565
    },
    {
      "entropy": 5.465142822265625,
      "epoch": 3.828481411468179,
      "grad_norm": 1.171875,
      "learning_rate": 0.00035937717767514887,
      "loss": 4.9985,
      "mean_token_accuracy": 0.1957308053970337,
      "num_tokens": 84085851.0,
      "step": 45570
    },
    {
      "entropy": 5.40173716545105,
      "epoch": 3.828901491283344,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00035934941585103055,
      "loss": 4.8904,
      "mean_token_accuracy": 0.21462114304304122,
      "num_tokens": 84094981.0,
      "step": 45575
    },
    {
      "entropy": 5.419550228118896,
      "epoch": 3.8293215710985087,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00035932165253270583,
      "loss": 4.8654,
      "mean_token_accuracy": 0.2134809598326683,
      "num_tokens": 84103745.0,
      "step": 45580
    },
    {
      "entropy": 5.381790018081665,
      "epoch": 3.8297416509136735,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00035929388772066646,
      "loss": 4.9285,
      "mean_token_accuracy": 0.20533519983291626,
      "num_tokens": 84112428.0,
      "step": 45585
    },
    {
      "entropy": 5.376119709014892,
      "epoch": 3.8301617307288387,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003592661214154042,
      "loss": 4.89,
      "mean_token_accuracy": 0.21441888362169265,
      "num_tokens": 84121529.0,
      "step": 45590
    },
    {
      "entropy": 5.418016576766968,
      "epoch": 3.8305818105440035,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003592383536174111,
      "loss": 4.9182,
      "mean_token_accuracy": 0.21601650714874268,
      "num_tokens": 84130195.0,
      "step": 45595
    },
    {
      "entropy": 5.456103944778443,
      "epoch": 3.8310018903591683,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003592105843271788,
      "loss": 5.0406,
      "mean_token_accuracy": 0.19965112805366517,
      "num_tokens": 84139191.0,
      "step": 45600
    },
    {
      "entropy": 5.519244909286499,
      "epoch": 3.831421970174333,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00035918281354519946,
      "loss": 4.9693,
      "mean_token_accuracy": 0.20820117592811585,
      "num_tokens": 84148572.0,
      "step": 45605
    },
    {
      "entropy": 5.431714963912964,
      "epoch": 3.831842049989498,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003591550412719649,
      "loss": 4.9789,
      "mean_token_accuracy": 0.199374957382679,
      "num_tokens": 84157489.0,
      "step": 45610
    },
    {
      "entropy": 5.483155250549316,
      "epoch": 3.832262129804663,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003591272675079671,
      "loss": 5.0587,
      "mean_token_accuracy": 0.19687108397483827,
      "num_tokens": 84166330.0,
      "step": 45615
    },
    {
      "entropy": 5.433534574508667,
      "epoch": 3.832682209619828,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003590994922536981,
      "loss": 4.9449,
      "mean_token_accuracy": 0.2095904380083084,
      "num_tokens": 84176255.0,
      "step": 45620
    },
    {
      "entropy": 5.469780302047729,
      "epoch": 3.8331022894349926,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003590717155096499,
      "loss": 4.9123,
      "mean_token_accuracy": 0.2053724244236946,
      "num_tokens": 84185860.0,
      "step": 45625
    },
    {
      "entropy": 5.310453987121582,
      "epoch": 3.8335223692501574,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00035904393727631453,
      "loss": 4.8196,
      "mean_token_accuracy": 0.21681472510099412,
      "num_tokens": 84195016.0,
      "step": 45630
    },
    {
      "entropy": 5.533658981323242,
      "epoch": 3.8339424490653222,
      "grad_norm": 1.0,
      "learning_rate": 0.00035901615755418403,
      "loss": 5.1647,
      "mean_token_accuracy": 0.19493192285299302,
      "num_tokens": 84205003.0,
      "step": 45635
    },
    {
      "entropy": 5.522104120254516,
      "epoch": 3.8343625288804875,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003589883763437506,
      "loss": 5.0375,
      "mean_token_accuracy": 0.2046215906739235,
      "num_tokens": 84215256.0,
      "step": 45640
    },
    {
      "entropy": 5.384494781494141,
      "epoch": 3.8347826086956522,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003589605936455064,
      "loss": 4.9609,
      "mean_token_accuracy": 0.2080325961112976,
      "num_tokens": 84224498.0,
      "step": 45645
    },
    {
      "entropy": 5.442746639251709,
      "epoch": 3.835202688510817,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003589328094599435,
      "loss": 4.9421,
      "mean_token_accuracy": 0.21091382950544357,
      "num_tokens": 84233288.0,
      "step": 45650
    },
    {
      "entropy": 5.503701210021973,
      "epoch": 3.835622768325982,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003589050237875541,
      "loss": 4.9572,
      "mean_token_accuracy": 0.20203450173139573,
      "num_tokens": 84242546.0,
      "step": 45655
    },
    {
      "entropy": 5.3560882091522215,
      "epoch": 3.8360428481411466,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00035887723662883037,
      "loss": 4.8158,
      "mean_token_accuracy": 0.2169932708144188,
      "num_tokens": 84251134.0,
      "step": 45660
    },
    {
      "entropy": 5.455645275115967,
      "epoch": 3.836462927956312,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003588494479842646,
      "loss": 4.9916,
      "mean_token_accuracy": 0.20136577934026717,
      "num_tokens": 84260637.0,
      "step": 45665
    },
    {
      "entropy": 5.498851585388183,
      "epoch": 3.8368830077714766,
      "grad_norm": 1.015625,
      "learning_rate": 0.000358821657854349,
      "loss": 4.993,
      "mean_token_accuracy": 0.21221712231636047,
      "num_tokens": 84269572.0,
      "step": 45670
    },
    {
      "entropy": 5.449080467224121,
      "epoch": 3.8373030875866414,
      "grad_norm": 1.09375,
      "learning_rate": 0.00035879386623957594,
      "loss": 4.9568,
      "mean_token_accuracy": 0.20390263050794602,
      "num_tokens": 84278701.0,
      "step": 45675
    },
    {
      "entropy": 5.497235584259033,
      "epoch": 3.837723167401806,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00035876607314043766,
      "loss": 5.0336,
      "mean_token_accuracy": 0.20855113565921785,
      "num_tokens": 84287955.0,
      "step": 45680
    },
    {
      "entropy": 5.515278100967407,
      "epoch": 3.838143247216971,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003587382785574266,
      "loss": 5.0555,
      "mean_token_accuracy": 0.19870577305555343,
      "num_tokens": 84297933.0,
      "step": 45685
    },
    {
      "entropy": 5.438692951202393,
      "epoch": 3.838563327032136,
      "grad_norm": 1.0625,
      "learning_rate": 0.000358710482491035,
      "loss": 5.0132,
      "mean_token_accuracy": 0.20412469506263733,
      "num_tokens": 84306945.0,
      "step": 45690
    },
    {
      "entropy": 5.484923648834228,
      "epoch": 3.838983406847301,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00035868268494175526,
      "loss": 5.0289,
      "mean_token_accuracy": 0.1978271171450615,
      "num_tokens": 84316168.0,
      "step": 45695
    },
    {
      "entropy": 5.522377014160156,
      "epoch": 3.839403486662466,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003586548859100798,
      "loss": 4.9911,
      "mean_token_accuracy": 0.20035358071327208,
      "num_tokens": 84325330.0,
      "step": 45700
    },
    {
      "entropy": 5.4952113151550295,
      "epoch": 3.839823566477631,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00035862708539650127,
      "loss": 5.0438,
      "mean_token_accuracy": 0.20162263363599778,
      "num_tokens": 84333957.0,
      "step": 45705
    },
    {
      "entropy": 5.354946517944336,
      "epoch": 3.8402436462927954,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00035859928340151187,
      "loss": 4.8824,
      "mean_token_accuracy": 0.21094900220632554,
      "num_tokens": 84343755.0,
      "step": 45710
    },
    {
      "entropy": 5.399429273605347,
      "epoch": 3.8406637261079606,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00035857147992560427,
      "loss": 4.9716,
      "mean_token_accuracy": 0.19999669045209884,
      "num_tokens": 84353596.0,
      "step": 45715
    },
    {
      "entropy": 5.44545087814331,
      "epoch": 3.8410838059231254,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003585436749692709,
      "loss": 4.9995,
      "mean_token_accuracy": 0.20730019360780716,
      "num_tokens": 84362763.0,
      "step": 45720
    },
    {
      "entropy": 5.499719953536987,
      "epoch": 3.84150388573829,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00035851586853300437,
      "loss": 5.0125,
      "mean_token_accuracy": 0.2015828624367714,
      "num_tokens": 84371649.0,
      "step": 45725
    },
    {
      "entropy": 5.396876859664917,
      "epoch": 3.8419239655534554,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003584880606172973,
      "loss": 4.8955,
      "mean_token_accuracy": 0.22071498036384582,
      "num_tokens": 84379875.0,
      "step": 45730
    },
    {
      "entropy": 5.455562543869019,
      "epoch": 3.84234404536862,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003584602512226421,
      "loss": 5.03,
      "mean_token_accuracy": 0.2033802703022957,
      "num_tokens": 84388804.0,
      "step": 45735
    },
    {
      "entropy": 5.503438472747803,
      "epoch": 3.842764125183785,
      "grad_norm": 1.0,
      "learning_rate": 0.0003584324403495316,
      "loss": 5.0674,
      "mean_token_accuracy": 0.20455749183893204,
      "num_tokens": 84398236.0,
      "step": 45740
    },
    {
      "entropy": 5.526315927505493,
      "epoch": 3.8431842049989497,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00035840462799845835,
      "loss": 5.0557,
      "mean_token_accuracy": 0.20065754801034927,
      "num_tokens": 84408315.0,
      "step": 45745
    },
    {
      "entropy": 5.491262006759643,
      "epoch": 3.8436042848141145,
      "grad_norm": 1.125,
      "learning_rate": 0.00035837681416991507,
      "loss": 4.9588,
      "mean_token_accuracy": 0.20426475256681442,
      "num_tokens": 84417437.0,
      "step": 45750
    },
    {
      "entropy": 5.440026807785034,
      "epoch": 3.8440243646292798,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003583489988643945,
      "loss": 4.9933,
      "mean_token_accuracy": 0.2054562121629715,
      "num_tokens": 84426003.0,
      "step": 45755
    },
    {
      "entropy": 5.392161798477173,
      "epoch": 3.8444444444444446,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0003583211820823893,
      "loss": 5.0001,
      "mean_token_accuracy": 0.2090649574995041,
      "num_tokens": 84436038.0,
      "step": 45760
    },
    {
      "entropy": 5.466259527206421,
      "epoch": 3.8448645242596093,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003582933638243922,
      "loss": 4.9736,
      "mean_token_accuracy": 0.20971988886594772,
      "num_tokens": 84445708.0,
      "step": 45765
    },
    {
      "entropy": 5.482098245620728,
      "epoch": 3.845284604074774,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003582655440908961,
      "loss": 5.0001,
      "mean_token_accuracy": 0.20206140279769896,
      "num_tokens": 84454626.0,
      "step": 45770
    },
    {
      "entropy": 5.415920877456665,
      "epoch": 3.845704683889939,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00035823772288239383,
      "loss": 4.9345,
      "mean_token_accuracy": 0.21306780576705933,
      "num_tokens": 84463596.0,
      "step": 45775
    },
    {
      "entropy": 5.537094068527222,
      "epoch": 3.846124763705104,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00035820990019937805,
      "loss": 5.0111,
      "mean_token_accuracy": 0.19911274760961534,
      "num_tokens": 84473645.0,
      "step": 45780
    },
    {
      "entropy": 5.441165399551392,
      "epoch": 3.846544843520269,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003581820760423418,
      "loss": 4.9869,
      "mean_token_accuracy": 0.20277417749166488,
      "num_tokens": 84482976.0,
      "step": 45785
    },
    {
      "entropy": 5.4691001892089846,
      "epoch": 3.8469649233354337,
      "grad_norm": 0.953125,
      "learning_rate": 0.0003581542504117779,
      "loss": 5.099,
      "mean_token_accuracy": 0.19903750568628312,
      "num_tokens": 84492821.0,
      "step": 45790
    },
    {
      "entropy": 5.464080762863159,
      "epoch": 3.8473850031505985,
      "grad_norm": 1.03125,
      "learning_rate": 0.00035812642330817926,
      "loss": 4.9873,
      "mean_token_accuracy": 0.2038572534918785,
      "num_tokens": 84502868.0,
      "step": 45795
    },
    {
      "entropy": 5.5117950439453125,
      "epoch": 3.8478050829657633,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003580985947320389,
      "loss": 5.1071,
      "mean_token_accuracy": 0.19622252881526947,
      "num_tokens": 84513682.0,
      "step": 45800
    },
    {
      "entropy": 5.556277465820313,
      "epoch": 3.8482251627809285,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003580707646838496,
      "loss": 5.1473,
      "mean_token_accuracy": 0.20189410895109178,
      "num_tokens": 84523473.0,
      "step": 45805
    },
    {
      "entropy": 5.551940250396728,
      "epoch": 3.8486452425960933,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00035804293316410457,
      "loss": 5.0255,
      "mean_token_accuracy": 0.21039618253707887,
      "num_tokens": 84533761.0,
      "step": 45810
    },
    {
      "entropy": 5.481188678741455,
      "epoch": 3.849065322411258,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003580151001732967,
      "loss": 4.9559,
      "mean_token_accuracy": 0.20929278284311295,
      "num_tokens": 84543288.0,
      "step": 45815
    },
    {
      "entropy": 5.419822454452515,
      "epoch": 3.849485402226423,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003579872657119191,
      "loss": 4.9838,
      "mean_token_accuracy": 0.19465199261903762,
      "num_tokens": 84552611.0,
      "step": 45820
    },
    {
      "entropy": 5.4972881317138675,
      "epoch": 3.8499054820415877,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00035795942978046483,
      "loss": 5.0222,
      "mean_token_accuracy": 0.19527140855789185,
      "num_tokens": 84562202.0,
      "step": 45825
    },
    {
      "entropy": 5.472694683074951,
      "epoch": 3.850325561856753,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003579315923794269,
      "loss": 5.0063,
      "mean_token_accuracy": 0.2017498329281807,
      "num_tokens": 84571601.0,
      "step": 45830
    },
    {
      "entropy": 5.373599481582642,
      "epoch": 3.8507456416719177,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003579037535092985,
      "loss": 4.9044,
      "mean_token_accuracy": 0.20741736739873887,
      "num_tokens": 84580163.0,
      "step": 45835
    },
    {
      "entropy": 5.461546230316162,
      "epoch": 3.8511657214870825,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003578759131705729,
      "loss": 5.0876,
      "mean_token_accuracy": 0.19489057809114457,
      "num_tokens": 84589445.0,
      "step": 45840
    },
    {
      "entropy": 5.456681728363037,
      "epoch": 3.8515858013022477,
      "grad_norm": 0.9609375,
      "learning_rate": 0.00035784807136374317,
      "loss": 4.9643,
      "mean_token_accuracy": 0.20665780901908876,
      "num_tokens": 84599021.0,
      "step": 45845
    },
    {
      "entropy": 5.449880504608155,
      "epoch": 3.852005881117412,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003578202280893025,
      "loss": 4.9205,
      "mean_token_accuracy": 0.20968162566423415,
      "num_tokens": 84609538.0,
      "step": 45850
    },
    {
      "entropy": 5.465793609619141,
      "epoch": 3.8524259609325773,
      "grad_norm": 1.171875,
      "learning_rate": 0.00035779238334774407,
      "loss": 4.9812,
      "mean_token_accuracy": 0.2052260160446167,
      "num_tokens": 84618930.0,
      "step": 45855
    },
    {
      "entropy": 5.535255098342896,
      "epoch": 3.852846040747742,
      "grad_norm": 1.140625,
      "learning_rate": 0.00035776453713956124,
      "loss": 5.06,
      "mean_token_accuracy": 0.1974657729268074,
      "num_tokens": 84627386.0,
      "step": 45860
    },
    {
      "entropy": 5.425363254547119,
      "epoch": 3.853266120562907,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003577366894652473,
      "loss": 4.9214,
      "mean_token_accuracy": 0.20970835983753205,
      "num_tokens": 84636891.0,
      "step": 45865
    },
    {
      "entropy": 5.4198285102844235,
      "epoch": 3.853686200378072,
      "grad_norm": 1.0,
      "learning_rate": 0.0003577088403252955,
      "loss": 4.9175,
      "mean_token_accuracy": 0.21091542541980743,
      "num_tokens": 84646033.0,
      "step": 45870
    },
    {
      "entropy": 5.504374217987061,
      "epoch": 3.854106280193237,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003576809897201991,
      "loss": 5.0474,
      "mean_token_accuracy": 0.20365984737873077,
      "num_tokens": 84655446.0,
      "step": 45875
    },
    {
      "entropy": 5.422762632369995,
      "epoch": 3.8545263600084017,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003576531376504517,
      "loss": 4.8982,
      "mean_token_accuracy": 0.21290655583143234,
      "num_tokens": 84664174.0,
      "step": 45880
    },
    {
      "entropy": 5.355431079864502,
      "epoch": 3.8549464398235664,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003576252841165464,
      "loss": 4.9387,
      "mean_token_accuracy": 0.20551800578832627,
      "num_tokens": 84672634.0,
      "step": 45885
    },
    {
      "entropy": 5.446026134490967,
      "epoch": 3.8553665196387312,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003575974291189767,
      "loss": 5.0171,
      "mean_token_accuracy": 0.20440721809864043,
      "num_tokens": 84682131.0,
      "step": 45890
    },
    {
      "entropy": 5.583022975921631,
      "epoch": 3.8557865994538965,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003575695726582361,
      "loss": 5.0664,
      "mean_token_accuracy": 0.2018268272280693,
      "num_tokens": 84690600.0,
      "step": 45895
    },
    {
      "entropy": 5.623711252212525,
      "epoch": 3.8562066792690612,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003575417147348181,
      "loss": 5.083,
      "mean_token_accuracy": 0.2036238804459572,
      "num_tokens": 84699403.0,
      "step": 45900
    },
    {
      "entropy": 5.503115129470825,
      "epoch": 3.856626759084226,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003575138553492161,
      "loss": 5.0332,
      "mean_token_accuracy": 0.20357160717248918,
      "num_tokens": 84708429.0,
      "step": 45905
    },
    {
      "entropy": 5.508444309234619,
      "epoch": 3.857046838899391,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003574859945019236,
      "loss": 5.024,
      "mean_token_accuracy": 0.20145449936389923,
      "num_tokens": 84716947.0,
      "step": 45910
    },
    {
      "entropy": 5.448791933059693,
      "epoch": 3.8574669187145556,
      "grad_norm": 1.0625,
      "learning_rate": 0.00035745813219343426,
      "loss": 4.9722,
      "mean_token_accuracy": 0.2038976639509201,
      "num_tokens": 84725439.0,
      "step": 45915
    },
    {
      "entropy": 5.520229291915894,
      "epoch": 3.857886998529721,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00035743026842424155,
      "loss": 5.0632,
      "mean_token_accuracy": 0.19755659699440004,
      "num_tokens": 84734836.0,
      "step": 45920
    },
    {
      "entropy": 5.444347143173218,
      "epoch": 3.8583070783448856,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000357402403194839,
      "loss": 4.9375,
      "mean_token_accuracy": 0.20949689745903016,
      "num_tokens": 84743638.0,
      "step": 45925
    },
    {
      "entropy": 5.533329963684082,
      "epoch": 3.8587271581600504,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003573745365057204,
      "loss": 5.1192,
      "mean_token_accuracy": 0.19444639086723328,
      "num_tokens": 84753117.0,
      "step": 45930
    },
    {
      "entropy": 5.499712562561035,
      "epoch": 3.859147237975215,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003573466683573793,
      "loss": 5.0307,
      "mean_token_accuracy": 0.20188321471214293,
      "num_tokens": 84762818.0,
      "step": 45935
    },
    {
      "entropy": 5.45068998336792,
      "epoch": 3.85956731779038,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003573187987503093,
      "loss": 4.9781,
      "mean_token_accuracy": 0.20706829130649568,
      "num_tokens": 84772464.0,
      "step": 45940
    },
    {
      "entropy": 5.422661399841308,
      "epoch": 3.859987397605545,
      "grad_norm": 1.125,
      "learning_rate": 0.00035729092768500424,
      "loss": 4.9882,
      "mean_token_accuracy": 0.20776910185813904,
      "num_tokens": 84781235.0,
      "step": 45945
    },
    {
      "entropy": 5.416731929779052,
      "epoch": 3.86040747742071,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00035726305516195776,
      "loss": 4.9548,
      "mean_token_accuracy": 0.20463453680276872,
      "num_tokens": 84790171.0,
      "step": 45950
    },
    {
      "entropy": 5.44294490814209,
      "epoch": 3.860827557235875,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003572351811816636,
      "loss": 5.0547,
      "mean_token_accuracy": 0.19575882256031035,
      "num_tokens": 84799862.0,
      "step": 45955
    },
    {
      "entropy": 5.548970699310303,
      "epoch": 3.8612476370510396,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003572073057446155,
      "loss": 5.0221,
      "mean_token_accuracy": 0.20469579398632048,
      "num_tokens": 84808473.0,
      "step": 45960
    },
    {
      "entropy": 5.48628454208374,
      "epoch": 3.8616677168662044,
      "grad_norm": 1.125,
      "learning_rate": 0.0003571794288513074,
      "loss": 5.0295,
      "mean_token_accuracy": 0.2037128299474716,
      "num_tokens": 84818500.0,
      "step": 45965
    },
    {
      "entropy": 5.450238800048828,
      "epoch": 3.8620877966813696,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00035715155050223293,
      "loss": 5.0216,
      "mean_token_accuracy": 0.20666113644838333,
      "num_tokens": 84827885.0,
      "step": 45970
    },
    {
      "entropy": 5.501099538803101,
      "epoch": 3.8625078764965344,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003571236706978861,
      "loss": 4.9825,
      "mean_token_accuracy": 0.2052817553281784,
      "num_tokens": 84836582.0,
      "step": 45975
    },
    {
      "entropy": 5.526466274261475,
      "epoch": 3.862927956311699,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003570957894387607,
      "loss": 5.0722,
      "mean_token_accuracy": 0.20001084804534913,
      "num_tokens": 84846020.0,
      "step": 45980
    },
    {
      "entropy": 5.567992448806763,
      "epoch": 3.863348036126864,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00035706790672535076,
      "loss": 5.0582,
      "mean_token_accuracy": 0.19686775505542756,
      "num_tokens": 84855115.0,
      "step": 45985
    },
    {
      "entropy": 5.467002534866333,
      "epoch": 3.8637681159420287,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00035704002255815005,
      "loss": 4.8911,
      "mean_token_accuracy": 0.21094171851873397,
      "num_tokens": 84864804.0,
      "step": 45990
    },
    {
      "entropy": 5.415295886993408,
      "epoch": 3.864188195757194,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00035701213693765255,
      "loss": 4.8819,
      "mean_token_accuracy": 0.2137040063738823,
      "num_tokens": 84873581.0,
      "step": 45995
    },
    {
      "entropy": 5.4835724353790285,
      "epoch": 3.8646082755723588,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003569842498643524,
      "loss": 5.0545,
      "mean_token_accuracy": 0.20320168137550354,
      "num_tokens": 84882749.0,
      "step": 46000
    },
    {
      "entropy": 5.489961004257202,
      "epoch": 3.8650283553875235,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00035695636133874334,
      "loss": 5.0305,
      "mean_token_accuracy": 0.20360762029886245,
      "num_tokens": 84892193.0,
      "step": 46005
    },
    {
      "entropy": 5.476830387115479,
      "epoch": 3.8654484352026888,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00035692847136131956,
      "loss": 4.9921,
      "mean_token_accuracy": 0.20365949720144272,
      "num_tokens": 84901683.0,
      "step": 46010
    },
    {
      "entropy": 5.568037319183349,
      "epoch": 3.8658685150178536,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003569005799325751,
      "loss": 5.0321,
      "mean_token_accuracy": 0.20287925004959106,
      "num_tokens": 84910133.0,
      "step": 46015
    },
    {
      "entropy": 5.478790616989135,
      "epoch": 3.8662885948330183,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00035687268705300406,
      "loss": 4.9669,
      "mean_token_accuracy": 0.20991268754005432,
      "num_tokens": 84918606.0,
      "step": 46020
    },
    {
      "entropy": 5.39843897819519,
      "epoch": 3.866708674648183,
      "grad_norm": 1.15625,
      "learning_rate": 0.00035684479272310053,
      "loss": 4.8852,
      "mean_token_accuracy": 0.21292203068733215,
      "num_tokens": 84926949.0,
      "step": 46025
    },
    {
      "entropy": 5.43381028175354,
      "epoch": 3.867128754463348,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003568168969433587,
      "loss": 5.0071,
      "mean_token_accuracy": 0.20733510255813598,
      "num_tokens": 84936494.0,
      "step": 46030
    },
    {
      "entropy": 5.533830881118774,
      "epoch": 3.867548834278513,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003567889997142726,
      "loss": 5.0316,
      "mean_token_accuracy": 0.20630951523780822,
      "num_tokens": 84944673.0,
      "step": 46035
    },
    {
      "entropy": 5.461153936386109,
      "epoch": 3.867968914093678,
      "grad_norm": 1.078125,
      "learning_rate": 0.00035676110103633645,
      "loss": 4.9718,
      "mean_token_accuracy": 0.2076393723487854,
      "num_tokens": 84953895.0,
      "step": 46040
    },
    {
      "entropy": 5.439995670318604,
      "epoch": 3.8683889939088427,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003567332009100446,
      "loss": 4.9838,
      "mean_token_accuracy": 0.20275254249572755,
      "num_tokens": 84963334.0,
      "step": 46045
    },
    {
      "entropy": 5.494965744018555,
      "epoch": 3.8688090737240075,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00035670529933589106,
      "loss": 5.0202,
      "mean_token_accuracy": 0.21112666577100753,
      "num_tokens": 84972582.0,
      "step": 46050
    },
    {
      "entropy": 5.594852924346924,
      "epoch": 3.8692291535391723,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00035667739631437033,
      "loss": 5.1683,
      "mean_token_accuracy": 0.200224769115448,
      "num_tokens": 84981907.0,
      "step": 46055
    },
    {
      "entropy": 5.428863859176635,
      "epoch": 3.8696492333543375,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003566494918459765,
      "loss": 4.9456,
      "mean_token_accuracy": 0.20974273681640626,
      "num_tokens": 84991252.0,
      "step": 46060
    },
    {
      "entropy": 5.4086779117584225,
      "epoch": 3.8700693131695023,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00035662158593120405,
      "loss": 4.9084,
      "mean_token_accuracy": 0.2101956784725189,
      "num_tokens": 84999808.0,
      "step": 46065
    },
    {
      "entropy": 5.472699546813965,
      "epoch": 3.870489392984667,
      "grad_norm": 1.09375,
      "learning_rate": 0.00035659367857054713,
      "loss": 5.0688,
      "mean_token_accuracy": 0.19793460220098497,
      "num_tokens": 85009827.0,
      "step": 46070
    },
    {
      "entropy": 5.499289655685425,
      "epoch": 3.870909472799832,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003565657697645003,
      "loss": 5.0196,
      "mean_token_accuracy": 0.2002816990017891,
      "num_tokens": 85019493.0,
      "step": 46075
    },
    {
      "entropy": 5.374491024017334,
      "epoch": 3.8713295526149967,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003565378595135578,
      "loss": 4.8335,
      "mean_token_accuracy": 0.21873402297496797,
      "num_tokens": 85028405.0,
      "step": 46080
    },
    {
      "entropy": 5.436299896240234,
      "epoch": 3.871749632430162,
      "grad_norm": 1.140625,
      "learning_rate": 0.00035650994781821413,
      "loss": 5.0335,
      "mean_token_accuracy": 0.20661548674106597,
      "num_tokens": 85036810.0,
      "step": 46085
    },
    {
      "entropy": 5.462348747253418,
      "epoch": 3.8721697122453267,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003564820346789637,
      "loss": 4.9791,
      "mean_token_accuracy": 0.2029748186469078,
      "num_tokens": 85046473.0,
      "step": 46090
    },
    {
      "entropy": 5.376578903198242,
      "epoch": 3.8725897920604915,
      "grad_norm": 1.203125,
      "learning_rate": 0.000356454120096301,
      "loss": 4.9367,
      "mean_token_accuracy": 0.20878107100725174,
      "num_tokens": 85055204.0,
      "step": 46095
    },
    {
      "entropy": 5.417064428329468,
      "epoch": 3.8730098718756563,
      "grad_norm": 1.078125,
      "learning_rate": 0.00035642620407072047,
      "loss": 4.9012,
      "mean_token_accuracy": 0.21518322974443435,
      "num_tokens": 85063787.0,
      "step": 46100
    },
    {
      "entropy": 5.4340709209442135,
      "epoch": 3.873429951690821,
      "grad_norm": 1.046875,
      "learning_rate": 0.00035639828660271667,
      "loss": 4.9165,
      "mean_token_accuracy": 0.21171215772628785,
      "num_tokens": 85073426.0,
      "step": 46105
    },
    {
      "entropy": 5.4064877986907955,
      "epoch": 3.8738500315059863,
      "grad_norm": 1.15625,
      "learning_rate": 0.00035637036769278416,
      "loss": 4.9002,
      "mean_token_accuracy": 0.21343578547239303,
      "num_tokens": 85082148.0,
      "step": 46110
    },
    {
      "entropy": 5.522835350036621,
      "epoch": 3.874270111321151,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00035634244734141743,
      "loss": 5.0915,
      "mean_token_accuracy": 0.19700682163238525,
      "num_tokens": 85091594.0,
      "step": 46115
    },
    {
      "entropy": 5.519705820083618,
      "epoch": 3.874690191136316,
      "grad_norm": 1.140625,
      "learning_rate": 0.00035631452554911116,
      "loss": 5.0346,
      "mean_token_accuracy": 0.20197122395038605,
      "num_tokens": 85100809.0,
      "step": 46120
    },
    {
      "entropy": 5.480237340927124,
      "epoch": 3.8751102709514806,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00035628660231635997,
      "loss": 4.9981,
      "mean_token_accuracy": 0.20625343322753906,
      "num_tokens": 85109726.0,
      "step": 46125
    },
    {
      "entropy": 5.454817056655884,
      "epoch": 3.8755303507666454,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00035625867764365845,
      "loss": 4.9766,
      "mean_token_accuracy": 0.2064165249466896,
      "num_tokens": 85118600.0,
      "step": 46130
    },
    {
      "entropy": 5.45544056892395,
      "epoch": 3.8759504305818107,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00035623075153150133,
      "loss": 5.0372,
      "mean_token_accuracy": 0.2018723413348198,
      "num_tokens": 85128292.0,
      "step": 46135
    },
    {
      "entropy": 5.565209531784058,
      "epoch": 3.8763705103969754,
      "grad_norm": 1.125,
      "learning_rate": 0.00035620282398038324,
      "loss": 5.0875,
      "mean_token_accuracy": 0.20068219751119615,
      "num_tokens": 85138272.0,
      "step": 46140
    },
    {
      "entropy": 5.48346734046936,
      "epoch": 3.8767905902121402,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00035617489499079893,
      "loss": 5.0058,
      "mean_token_accuracy": 0.204679936170578,
      "num_tokens": 85147833.0,
      "step": 46145
    },
    {
      "entropy": 5.518724060058593,
      "epoch": 3.8772106700273055,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00035614696456324314,
      "loss": 5.1213,
      "mean_token_accuracy": 0.1908418208360672,
      "num_tokens": 85157619.0,
      "step": 46150
    },
    {
      "entropy": 5.4371401309967045,
      "epoch": 3.87763074984247,
      "grad_norm": 1.125,
      "learning_rate": 0.00035611903269821074,
      "loss": 4.9257,
      "mean_token_accuracy": 0.2125907599925995,
      "num_tokens": 85166801.0,
      "step": 46155
    },
    {
      "entropy": 5.497022390365601,
      "epoch": 3.878050829657635,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003560910993961964,
      "loss": 5.0587,
      "mean_token_accuracy": 0.20512231588363647,
      "num_tokens": 85175576.0,
      "step": 46160
    },
    {
      "entropy": 5.492136859893799,
      "epoch": 3.8784709094728,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00035606316465769497,
      "loss": 4.937,
      "mean_token_accuracy": 0.20439311861991882,
      "num_tokens": 85184347.0,
      "step": 46165
    },
    {
      "entropy": 5.477434062957764,
      "epoch": 3.8788909892879646,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003560352284832013,
      "loss": 4.9039,
      "mean_token_accuracy": 0.21602334976196289,
      "num_tokens": 85193531.0,
      "step": 46170
    },
    {
      "entropy": 5.4674724578857425,
      "epoch": 3.87931106910313,
      "grad_norm": 1.109375,
      "learning_rate": 0.00035600729087321027,
      "loss": 5.0391,
      "mean_token_accuracy": 0.2095857933163643,
      "num_tokens": 85202921.0,
      "step": 46175
    },
    {
      "entropy": 5.543192291259766,
      "epoch": 3.8797311489182946,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00035597935182821687,
      "loss": 5.1449,
      "mean_token_accuracy": 0.19208433628082275,
      "num_tokens": 85212242.0,
      "step": 46180
    },
    {
      "entropy": 5.460792160034179,
      "epoch": 3.8801512287334594,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00035595141134871596,
      "loss": 4.9719,
      "mean_token_accuracy": 0.2036986991763115,
      "num_tokens": 85222150.0,
      "step": 46185
    },
    {
      "entropy": 5.483600091934204,
      "epoch": 3.880571308548624,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003559234694352024,
      "loss": 5.0811,
      "mean_token_accuracy": 0.19888702630996705,
      "num_tokens": 85231184.0,
      "step": 46190
    },
    {
      "entropy": 5.4846734523773195,
      "epoch": 3.880991388363789,
      "grad_norm": 1.078125,
      "learning_rate": 0.00035589552608817135,
      "loss": 5.0538,
      "mean_token_accuracy": 0.20227259248495102,
      "num_tokens": 85241015.0,
      "step": 46195
    },
    {
      "entropy": 5.487256145477295,
      "epoch": 3.881411468178954,
      "grad_norm": 1.09375,
      "learning_rate": 0.00035586758130811764,
      "loss": 4.9798,
      "mean_token_accuracy": 0.20530038177967072,
      "num_tokens": 85251256.0,
      "step": 46200
    },
    {
      "entropy": 5.449822044372558,
      "epoch": 3.881831547994119,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00035583963509553643,
      "loss": 4.9912,
      "mean_token_accuracy": 0.20527373254299164,
      "num_tokens": 85260214.0,
      "step": 46205
    },
    {
      "entropy": 5.477871656417847,
      "epoch": 3.882251627809284,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003558116874509226,
      "loss": 4.9676,
      "mean_token_accuracy": 0.20558312833309172,
      "num_tokens": 85268643.0,
      "step": 46210
    },
    {
      "entropy": 5.416188335418701,
      "epoch": 3.8826717076244486,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003557837383747714,
      "loss": 4.8705,
      "mean_token_accuracy": 0.21205847412347795,
      "num_tokens": 85277045.0,
      "step": 46215
    },
    {
      "entropy": 5.449681425094605,
      "epoch": 3.8830917874396134,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00035575578786757784,
      "loss": 4.9268,
      "mean_token_accuracy": 0.21288739442825316,
      "num_tokens": 85285398.0,
      "step": 46220
    },
    {
      "entropy": 5.309771633148193,
      "epoch": 3.8835118672547786,
      "grad_norm": 1.015625,
      "learning_rate": 0.00035572783592983714,
      "loss": 4.8982,
      "mean_token_accuracy": 0.21188670247793198,
      "num_tokens": 85294367.0,
      "step": 46225
    },
    {
      "entropy": 5.492989158630371,
      "epoch": 3.8839319470699434,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003556998825620444,
      "loss": 5.078,
      "mean_token_accuracy": 0.20478722155094148,
      "num_tokens": 85302530.0,
      "step": 46230
    },
    {
      "entropy": 5.517076015472412,
      "epoch": 3.884352026885108,
      "grad_norm": 1.078125,
      "learning_rate": 0.00035567192776469477,
      "loss": 4.9697,
      "mean_token_accuracy": 0.20298854261636734,
      "num_tokens": 85311634.0,
      "step": 46235
    },
    {
      "entropy": 5.4995684146881105,
      "epoch": 3.884772106700273,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003556439715382834,
      "loss": 5.0756,
      "mean_token_accuracy": 0.1960657224059105,
      "num_tokens": 85321069.0,
      "step": 46240
    },
    {
      "entropy": 5.388549852371216,
      "epoch": 3.8851921865154377,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00035561601388330564,
      "loss": 4.9602,
      "mean_token_accuracy": 0.2076334312558174,
      "num_tokens": 85330129.0,
      "step": 46245
    },
    {
      "entropy": 5.478747129440308,
      "epoch": 3.885612266330603,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003555880548002568,
      "loss": 5.0437,
      "mean_token_accuracy": 0.20560358017683028,
      "num_tokens": 85339341.0,
      "step": 46250
    },
    {
      "entropy": 5.366567516326905,
      "epoch": 3.8860323461457678,
      "grad_norm": 1.0625,
      "learning_rate": 0.000355560094289632,
      "loss": 4.8898,
      "mean_token_accuracy": 0.21280940622091293,
      "num_tokens": 85349094.0,
      "step": 46255
    },
    {
      "entropy": 5.467098236083984,
      "epoch": 3.8864524259609325,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003555321323519266,
      "loss": 4.9899,
      "mean_token_accuracy": 0.20932357609272004,
      "num_tokens": 85358344.0,
      "step": 46260
    },
    {
      "entropy": 5.456536912918091,
      "epoch": 3.8868725057760973,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003555041689876359,
      "loss": 4.9812,
      "mean_token_accuracy": 0.20720920711755753,
      "num_tokens": 85367803.0,
      "step": 46265
    },
    {
      "entropy": 5.460397338867187,
      "epoch": 3.887292585591262,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003554762041972555,
      "loss": 4.9536,
      "mean_token_accuracy": 0.2073015734553337,
      "num_tokens": 85376476.0,
      "step": 46270
    },
    {
      "entropy": 5.435880947113037,
      "epoch": 3.8877126654064273,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00035544823798128037,
      "loss": 4.9529,
      "mean_token_accuracy": 0.20869822651147843,
      "num_tokens": 85384968.0,
      "step": 46275
    },
    {
      "entropy": 5.432882690429688,
      "epoch": 3.888132745221592,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003554202703402062,
      "loss": 4.9555,
      "mean_token_accuracy": 0.21306623071432113,
      "num_tokens": 85393970.0,
      "step": 46280
    },
    {
      "entropy": 5.463118934631348,
      "epoch": 3.888552825036757,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003553923012745284,
      "loss": 5.0825,
      "mean_token_accuracy": 0.20173688232898712,
      "num_tokens": 85404276.0,
      "step": 46285
    },
    {
      "entropy": 5.513169622421264,
      "epoch": 3.8889729048519217,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003553643307847423,
      "loss": 5.0347,
      "mean_token_accuracy": 0.2045210614800453,
      "num_tokens": 85414029.0,
      "step": 46290
    },
    {
      "entropy": 5.481599998474121,
      "epoch": 3.8893929846670865,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003553363588713435,
      "loss": 4.9603,
      "mean_token_accuracy": 0.20420690774917602,
      "num_tokens": 85423783.0,
      "step": 46295
    },
    {
      "entropy": 5.458084154129028,
      "epoch": 3.8898130644822517,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00035530838553482746,
      "loss": 4.954,
      "mean_token_accuracy": 0.2084527552127838,
      "num_tokens": 85432665.0,
      "step": 46300
    },
    {
      "entropy": 5.439377403259277,
      "epoch": 3.8902331442974165,
      "grad_norm": 1.015625,
      "learning_rate": 0.00035528041077568975,
      "loss": 4.956,
      "mean_token_accuracy": 0.20548933744430542,
      "num_tokens": 85442093.0,
      "step": 46305
    },
    {
      "entropy": 5.435764980316162,
      "epoch": 3.8906532241125813,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00035525243459442573,
      "loss": 4.9478,
      "mean_token_accuracy": 0.20446909964084625,
      "num_tokens": 85450773.0,
      "step": 46310
    },
    {
      "entropy": 5.483230781555176,
      "epoch": 3.8910733039277465,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003552244569915313,
      "loss": 4.9959,
      "mean_token_accuracy": 0.20662250816822053,
      "num_tokens": 85460405.0,
      "step": 46315
    },
    {
      "entropy": 5.535028314590454,
      "epoch": 3.8914933837429113,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000355196477967502,
      "loss": 5.0278,
      "mean_token_accuracy": 0.20337672978639604,
      "num_tokens": 85470495.0,
      "step": 46320
    },
    {
      "entropy": 5.468746948242187,
      "epoch": 3.891913463558076,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003551684975228333,
      "loss": 4.9987,
      "mean_token_accuracy": 0.20225489288568496,
      "num_tokens": 85480161.0,
      "step": 46325
    },
    {
      "entropy": 5.446463108062744,
      "epoch": 3.892333543373241,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003551405156580209,
      "loss": 4.9471,
      "mean_token_accuracy": 0.203108911216259,
      "num_tokens": 85489144.0,
      "step": 46330
    },
    {
      "entropy": 5.572015237808228,
      "epoch": 3.8927536231884057,
      "grad_norm": 1.0625,
      "learning_rate": 0.00035511253237356064,
      "loss": 5.1655,
      "mean_token_accuracy": 0.1956316202878952,
      "num_tokens": 85498853.0,
      "step": 46335
    },
    {
      "entropy": 5.5600464820861815,
      "epoch": 3.893173703003571,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00035508454766994805,
      "loss": 5.0705,
      "mean_token_accuracy": 0.20824693590402604,
      "num_tokens": 85507909.0,
      "step": 46340
    },
    {
      "entropy": 5.477237224578857,
      "epoch": 3.8935937828187357,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00035505656154767904,
      "loss": 5.0297,
      "mean_token_accuracy": 0.20692442804574968,
      "num_tokens": 85516520.0,
      "step": 46345
    },
    {
      "entropy": 5.530441236495972,
      "epoch": 3.8940138626339005,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00035502857400724914,
      "loss": 5.0685,
      "mean_token_accuracy": 0.1967403158545494,
      "num_tokens": 85526160.0,
      "step": 46350
    },
    {
      "entropy": 5.544997835159302,
      "epoch": 3.8944339424490653,
      "grad_norm": 1.109375,
      "learning_rate": 0.00035500058504915426,
      "loss": 5.0027,
      "mean_token_accuracy": 0.21034188717603683,
      "num_tokens": 85535792.0,
      "step": 46355
    },
    {
      "entropy": 5.5272211074829105,
      "epoch": 3.89485402226423,
      "grad_norm": 1.171875,
      "learning_rate": 0.00035497259467389027,
      "loss": 5.0246,
      "mean_token_accuracy": 0.20070228725671768,
      "num_tokens": 85544113.0,
      "step": 46360
    },
    {
      "entropy": 5.5245672225952145,
      "epoch": 3.8952741020793953,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003549446028819529,
      "loss": 5.0022,
      "mean_token_accuracy": 0.20341270714998244,
      "num_tokens": 85552943.0,
      "step": 46365
    },
    {
      "entropy": 5.492443513870239,
      "epoch": 3.89569418189456,
      "grad_norm": 1.046875,
      "learning_rate": 0.00035491660967383815,
      "loss": 5.0052,
      "mean_token_accuracy": 0.2027435228228569,
      "num_tokens": 85562114.0,
      "step": 46370
    },
    {
      "entropy": 5.455694723129272,
      "epoch": 3.896114261709725,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003548886150500417,
      "loss": 4.9547,
      "mean_token_accuracy": 0.2052905410528183,
      "num_tokens": 85570473.0,
      "step": 46375
    },
    {
      "entropy": 5.478536987304688,
      "epoch": 3.8965343415248896,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003548606190110596,
      "loss": 4.9603,
      "mean_token_accuracy": 0.2075320601463318,
      "num_tokens": 85578977.0,
      "step": 46380
    },
    {
      "entropy": 5.339998006820679,
      "epoch": 3.8969544213400544,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003548326215573878,
      "loss": 4.8969,
      "mean_token_accuracy": 0.20733183324337007,
      "num_tokens": 85587877.0,
      "step": 46385
    },
    {
      "entropy": 5.453544092178345,
      "epoch": 3.8973745011552197,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00035480462268952214,
      "loss": 4.9467,
      "mean_token_accuracy": 0.21202473044395448,
      "num_tokens": 85596540.0,
      "step": 46390
    },
    {
      "entropy": 5.426459550857544,
      "epoch": 3.8977945809703844,
      "grad_norm": 1.140625,
      "learning_rate": 0.00035477662240795873,
      "loss": 4.9842,
      "mean_token_accuracy": 0.21072432547807693,
      "num_tokens": 85605803.0,
      "step": 46395
    },
    {
      "entropy": 5.4300336837768555,
      "epoch": 3.8982146607855492,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003547486207131935,
      "loss": 5.0041,
      "mean_token_accuracy": 0.20472242385149003,
      "num_tokens": 85614675.0,
      "step": 46400
    },
    {
      "entropy": 5.4745220184326175,
      "epoch": 3.898634740600714,
      "grad_norm": 1.15625,
      "learning_rate": 0.00035472061760572263,
      "loss": 4.9693,
      "mean_token_accuracy": 0.2088871955871582,
      "num_tokens": 85623605.0,
      "step": 46405
    },
    {
      "entropy": 5.583631324768066,
      "epoch": 3.899054820415879,
      "grad_norm": 1.125,
      "learning_rate": 0.00035469261308604193,
      "loss": 5.1083,
      "mean_token_accuracy": 0.1963833600282669,
      "num_tokens": 85632760.0,
      "step": 46410
    },
    {
      "entropy": 5.503131961822509,
      "epoch": 3.899474900231044,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003546646071546477,
      "loss": 4.9925,
      "mean_token_accuracy": 0.20252452939748763,
      "num_tokens": 85641885.0,
      "step": 46415
    },
    {
      "entropy": 5.54194073677063,
      "epoch": 3.899894980046209,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000354636599812036,
      "loss": 5.0682,
      "mean_token_accuracy": 0.20129717588424684,
      "num_tokens": 85650447.0,
      "step": 46420
    },
    {
      "entropy": 5.562687540054322,
      "epoch": 3.9003150598613736,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00035460859105870287,
      "loss": 5.0621,
      "mean_token_accuracy": 0.2046781837940216,
      "num_tokens": 85660769.0,
      "step": 46425
    },
    {
      "entropy": 5.450464820861816,
      "epoch": 3.9007351396765384,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00035458058089514455,
      "loss": 4.9663,
      "mean_token_accuracy": 0.20483469367027282,
      "num_tokens": 85669684.0,
      "step": 46430
    },
    {
      "entropy": 5.4691001892089846,
      "epoch": 3.901155219491703,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00035455256932185724,
      "loss": 5.0036,
      "mean_token_accuracy": 0.20046962052583694,
      "num_tokens": 85678889.0,
      "step": 46435
    },
    {
      "entropy": 5.4584876537323,
      "epoch": 3.9015752993068684,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00035452455633933717,
      "loss": 4.9085,
      "mean_token_accuracy": 0.21023891121149063,
      "num_tokens": 85688190.0,
      "step": 46440
    },
    {
      "entropy": 5.528388786315918,
      "epoch": 3.901995379122033,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003544965419480805,
      "loss": 5.0615,
      "mean_token_accuracy": 0.2065271705389023,
      "num_tokens": 85697166.0,
      "step": 46445
    },
    {
      "entropy": 5.460563087463379,
      "epoch": 3.902415458937198,
      "grad_norm": 1.09375,
      "learning_rate": 0.00035446852614858345,
      "loss": 4.9935,
      "mean_token_accuracy": 0.20533424168825148,
      "num_tokens": 85706226.0,
      "step": 46450
    },
    {
      "entropy": 5.526233434677124,
      "epoch": 3.902835538752363,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00035444050894134244,
      "loss": 5.0836,
      "mean_token_accuracy": 0.19629890471696854,
      "num_tokens": 85715372.0,
      "step": 46455
    },
    {
      "entropy": 5.498129844665527,
      "epoch": 3.9032556185675276,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00035441249032685374,
      "loss": 4.9403,
      "mean_token_accuracy": 0.21176840662956237,
      "num_tokens": 85724183.0,
      "step": 46460
    },
    {
      "entropy": 5.438796138763427,
      "epoch": 3.903675698382693,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00035438447030561364,
      "loss": 4.9333,
      "mean_token_accuracy": 0.21162932813167573,
      "num_tokens": 85733602.0,
      "step": 46465
    },
    {
      "entropy": 5.4031414031982425,
      "epoch": 3.9040957781978576,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00035435644887811855,
      "loss": 4.8172,
      "mean_token_accuracy": 0.2169254720211029,
      "num_tokens": 85742485.0,
      "step": 46470
    },
    {
      "entropy": 5.456887531280517,
      "epoch": 3.9045158580130224,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003543284260448648,
      "loss": 4.9839,
      "mean_token_accuracy": 0.21303362548351287,
      "num_tokens": 85752216.0,
      "step": 46475
    },
    {
      "entropy": 5.466912651062012,
      "epoch": 3.9049359378281876,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003543004018063488,
      "loss": 5.0031,
      "mean_token_accuracy": 0.20772720277309417,
      "num_tokens": 85761578.0,
      "step": 46480
    },
    {
      "entropy": 5.398655033111572,
      "epoch": 3.9053560176433524,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003542723761630671,
      "loss": 4.9341,
      "mean_token_accuracy": 0.20896568894386292,
      "num_tokens": 85771060.0,
      "step": 46485
    },
    {
      "entropy": 5.460752964019775,
      "epoch": 3.905776097458517,
      "grad_norm": 1.03125,
      "learning_rate": 0.00035424434911551604,
      "loss": 5.0072,
      "mean_token_accuracy": 0.19998348653316497,
      "num_tokens": 85780505.0,
      "step": 46490
    },
    {
      "entropy": 5.410766220092773,
      "epoch": 3.906196177273682,
      "grad_norm": 1.03125,
      "learning_rate": 0.00035421632066419216,
      "loss": 4.9036,
      "mean_token_accuracy": 0.2099050834774971,
      "num_tokens": 85790053.0,
      "step": 46495
    },
    {
      "entropy": 5.446726989746094,
      "epoch": 3.9066162570888467,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003541882908095919,
      "loss": 4.9519,
      "mean_token_accuracy": 0.2089542806148529,
      "num_tokens": 85799492.0,
      "step": 46500
    },
    {
      "entropy": 5.463922357559204,
      "epoch": 3.907036336904012,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003541602595522119,
      "loss": 4.9774,
      "mean_token_accuracy": 0.21178653836250305,
      "num_tokens": 85809156.0,
      "step": 46505
    },
    {
      "entropy": 5.546922206878662,
      "epoch": 3.9074564167191768,
      "grad_norm": 1.109375,
      "learning_rate": 0.00035413222689254864,
      "loss": 5.0782,
      "mean_token_accuracy": 0.19971785247325896,
      "num_tokens": 85818683.0,
      "step": 46510
    },
    {
      "entropy": 5.478784799575806,
      "epoch": 3.9078764965343415,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003541041928310987,
      "loss": 4.9606,
      "mean_token_accuracy": 0.20749024897813798,
      "num_tokens": 85827809.0,
      "step": 46515
    },
    {
      "entropy": 5.49697642326355,
      "epoch": 3.9082965763495063,
      "grad_norm": 1.125,
      "learning_rate": 0.0003540761573683587,
      "loss": 5.0337,
      "mean_token_accuracy": 0.2028599798679352,
      "num_tokens": 85836713.0,
      "step": 46520
    },
    {
      "entropy": 5.510151958465576,
      "epoch": 3.908716656164671,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00035404812050482534,
      "loss": 5.0382,
      "mean_token_accuracy": 0.2101674497127533,
      "num_tokens": 85845422.0,
      "step": 46525
    },
    {
      "entropy": 5.493817949295044,
      "epoch": 3.9091367359798364,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003540200822409952,
      "loss": 4.9638,
      "mean_token_accuracy": 0.21129631847143174,
      "num_tokens": 85854493.0,
      "step": 46530
    },
    {
      "entropy": 5.384081649780273,
      "epoch": 3.909556815795001,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00035399204257736505,
      "loss": 4.9381,
      "mean_token_accuracy": 0.2136568009853363,
      "num_tokens": 85863599.0,
      "step": 46535
    },
    {
      "entropy": 5.492679262161255,
      "epoch": 3.909976895610166,
      "grad_norm": 1.125,
      "learning_rate": 0.00035396400151443155,
      "loss": 5.03,
      "mean_token_accuracy": 0.2041585400700569,
      "num_tokens": 85872988.0,
      "step": 46540
    },
    {
      "entropy": 5.561295890808106,
      "epoch": 3.9103969754253307,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003539359590526913,
      "loss": 5.0744,
      "mean_token_accuracy": 0.19976384490728377,
      "num_tokens": 85881503.0,
      "step": 46545
    },
    {
      "entropy": 5.436769485473633,
      "epoch": 3.9108170552404955,
      "grad_norm": 1.125,
      "learning_rate": 0.0003539079151926413,
      "loss": 4.8913,
      "mean_token_accuracy": 0.21769381761550904,
      "num_tokens": 85889801.0,
      "step": 46550
    },
    {
      "entropy": 5.369683790206909,
      "epoch": 3.9112371350556607,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003538798699347781,
      "loss": 5.0035,
      "mean_token_accuracy": 0.20555948168039323,
      "num_tokens": 85899514.0,
      "step": 46555
    },
    {
      "entropy": 5.44520583152771,
      "epoch": 3.9116572148708255,
      "grad_norm": 1.09375,
      "learning_rate": 0.00035385182327959876,
      "loss": 4.9455,
      "mean_token_accuracy": 0.21071816980838776,
      "num_tokens": 85908698.0,
      "step": 46560
    },
    {
      "entropy": 5.624891662597657,
      "epoch": 3.9120772946859903,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00035382377522759985,
      "loss": 5.0743,
      "mean_token_accuracy": 0.20596828013658525,
      "num_tokens": 85918261.0,
      "step": 46565
    },
    {
      "entropy": 5.5544883728027346,
      "epoch": 3.912497374501155,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00035379572577927843,
      "loss": 4.9892,
      "mean_token_accuracy": 0.2028154671192169,
      "num_tokens": 85926910.0,
      "step": 46570
    },
    {
      "entropy": 5.475271987915039,
      "epoch": 3.91291745431632,
      "grad_norm": 1.140625,
      "learning_rate": 0.00035376767493513133,
      "loss": 5.0268,
      "mean_token_accuracy": 0.20312348008155823,
      "num_tokens": 85936991.0,
      "step": 46575
    },
    {
      "entropy": 5.4932708740234375,
      "epoch": 3.913337534131485,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003537396226956553,
      "loss": 5.0427,
      "mean_token_accuracy": 0.20824799537658692,
      "num_tokens": 85947731.0,
      "step": 46580
    },
    {
      "entropy": 5.426279830932617,
      "epoch": 3.91375761394665,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00035371156906134746,
      "loss": 4.9254,
      "mean_token_accuracy": 0.2158052369952202,
      "num_tokens": 85956539.0,
      "step": 46585
    },
    {
      "entropy": 5.563267803192138,
      "epoch": 3.9141776937618147,
      "grad_norm": 1.203125,
      "learning_rate": 0.00035368351403270473,
      "loss": 5.0454,
      "mean_token_accuracy": 0.20133206695318223,
      "num_tokens": 85965033.0,
      "step": 46590
    },
    {
      "entropy": 5.508762311935425,
      "epoch": 3.9145977735769795,
      "grad_norm": 1.046875,
      "learning_rate": 0.00035365545761022405,
      "loss": 5.005,
      "mean_token_accuracy": 0.2097351670265198,
      "num_tokens": 85973680.0,
      "step": 46595
    },
    {
      "entropy": 5.5136699199676515,
      "epoch": 3.9150178533921443,
      "grad_norm": 1.0,
      "learning_rate": 0.00035362739979440247,
      "loss": 5.0762,
      "mean_token_accuracy": 0.1985895037651062,
      "num_tokens": 85983137.0,
      "step": 46600
    },
    {
      "entropy": 5.458179569244384,
      "epoch": 3.9154379332073095,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00035359934058573693,
      "loss": 4.9703,
      "mean_token_accuracy": 0.20507428795099258,
      "num_tokens": 85991898.0,
      "step": 46605
    },
    {
      "entropy": 5.470634174346924,
      "epoch": 3.9158580130224743,
      "grad_norm": 1.03125,
      "learning_rate": 0.00035357127998472454,
      "loss": 4.9838,
      "mean_token_accuracy": 0.21145588159561157,
      "num_tokens": 86002313.0,
      "step": 46610
    },
    {
      "entropy": 5.453397369384765,
      "epoch": 3.916278092837639,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00035354321799186246,
      "loss": 4.9667,
      "mean_token_accuracy": 0.20886898040771484,
      "num_tokens": 86011004.0,
      "step": 46615
    },
    {
      "entropy": 5.494634771347046,
      "epoch": 3.9166981726528043,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00035351515460764764,
      "loss": 4.9408,
      "mean_token_accuracy": 0.2028866395354271,
      "num_tokens": 86020258.0,
      "step": 46620
    },
    {
      "entropy": 5.460608577728271,
      "epoch": 3.917118252467969,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003534870898325774,
      "loss": 4.9825,
      "mean_token_accuracy": 0.20398860573768615,
      "num_tokens": 86029235.0,
      "step": 46625
    },
    {
      "entropy": 5.4691650390625,
      "epoch": 3.917538332283134,
      "grad_norm": 1.125,
      "learning_rate": 0.0003534590236671487,
      "loss": 5.011,
      "mean_token_accuracy": 0.20738631039857863,
      "num_tokens": 86038548.0,
      "step": 46630
    },
    {
      "entropy": 5.46982421875,
      "epoch": 3.9179584120982986,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00035343095611185875,
      "loss": 4.898,
      "mean_token_accuracy": 0.2160249888896942,
      "num_tokens": 86046842.0,
      "step": 46635
    },
    {
      "entropy": 5.4190260887146,
      "epoch": 3.9183784919134634,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003534028871672049,
      "loss": 4.9169,
      "mean_token_accuracy": 0.20259059220552444,
      "num_tokens": 86056009.0,
      "step": 46640
    },
    {
      "entropy": 5.427224206924438,
      "epoch": 3.9187985717286287,
      "grad_norm": 1.0625,
      "learning_rate": 0.00035337481683368424,
      "loss": 4.9742,
      "mean_token_accuracy": 0.2057713523507118,
      "num_tokens": 86065870.0,
      "step": 46645
    },
    {
      "entropy": 5.558074617385865,
      "epoch": 3.9192186515437935,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003533467451117939,
      "loss": 5.1653,
      "mean_token_accuracy": 0.187652026116848,
      "num_tokens": 86075534.0,
      "step": 46650
    },
    {
      "entropy": 5.527207088470459,
      "epoch": 3.9196387313589582,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003533186720020315,
      "loss": 5.008,
      "mean_token_accuracy": 0.2032320901751518,
      "num_tokens": 86084663.0,
      "step": 46655
    },
    {
      "entropy": 5.465262794494629,
      "epoch": 3.920058811174123,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00035329059750489406,
      "loss": 5.0294,
      "mean_token_accuracy": 0.2061642199754715,
      "num_tokens": 86094588.0,
      "step": 46660
    },
    {
      "entropy": 5.515686845779419,
      "epoch": 3.920478890989288,
      "grad_norm": 1.140625,
      "learning_rate": 0.00035326252162087905,
      "loss": 5.0609,
      "mean_token_accuracy": 0.20162342935800553,
      "num_tokens": 86105354.0,
      "step": 46665
    },
    {
      "entropy": 5.5135682106018065,
      "epoch": 3.920898970804453,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003532344443504838,
      "loss": 4.9872,
      "mean_token_accuracy": 0.2031255841255188,
      "num_tokens": 86114413.0,
      "step": 46670
    },
    {
      "entropy": 5.4917412281036375,
      "epoch": 3.921319050619618,
      "grad_norm": 0.95703125,
      "learning_rate": 0.00035320636569420556,
      "loss": 4.9779,
      "mean_token_accuracy": 0.20630116313695906,
      "num_tokens": 86124315.0,
      "step": 46675
    },
    {
      "entropy": 5.496059417724609,
      "epoch": 3.9217391304347826,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003531782856525419,
      "loss": 5.0061,
      "mean_token_accuracy": 0.20154524147510527,
      "num_tokens": 86135025.0,
      "step": 46680
    },
    {
      "entropy": 5.545458841323852,
      "epoch": 3.9221592102499474,
      "grad_norm": 1.125,
      "learning_rate": 0.00035315020422599017,
      "loss": 5.1255,
      "mean_token_accuracy": 0.1946912959218025,
      "num_tokens": 86144412.0,
      "step": 46685
    },
    {
      "entropy": 5.507829046249389,
      "epoch": 3.922579290065112,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003531221214150478,
      "loss": 4.958,
      "mean_token_accuracy": 0.21460126489400863,
      "num_tokens": 86153363.0,
      "step": 46690
    },
    {
      "entropy": 5.453235816955567,
      "epoch": 3.9229993698802774,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00035309403722021224,
      "loss": 4.9482,
      "mean_token_accuracy": 0.2070743888616562,
      "num_tokens": 86161801.0,
      "step": 46695
    },
    {
      "entropy": 5.4308675765991214,
      "epoch": 3.923419449695442,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003530659516419811,
      "loss": 5.007,
      "mean_token_accuracy": 0.20830180644989013,
      "num_tokens": 86170350.0,
      "step": 46700
    },
    {
      "entropy": 5.524921894073486,
      "epoch": 3.923839529510607,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003530378646808517,
      "loss": 5.0407,
      "mean_token_accuracy": 0.20978740602731705,
      "num_tokens": 86179417.0,
      "step": 46705
    },
    {
      "entropy": 5.456673526763916,
      "epoch": 3.924259609325772,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003530097763373218,
      "loss": 4.9846,
      "mean_token_accuracy": 0.21016527116298675,
      "num_tokens": 86188328.0,
      "step": 46710
    },
    {
      "entropy": 5.4329735279083256,
      "epoch": 3.9246796891409366,
      "grad_norm": 1.046875,
      "learning_rate": 0.00035298168661188886,
      "loss": 4.9041,
      "mean_token_accuracy": 0.21387235224246978,
      "num_tokens": 86198284.0,
      "step": 46715
    },
    {
      "entropy": 5.4031243324279785,
      "epoch": 3.925099768956102,
      "grad_norm": 1.109375,
      "learning_rate": 0.00035295359550505047,
      "loss": 4.9305,
      "mean_token_accuracy": 0.21292219758033754,
      "num_tokens": 86206789.0,
      "step": 46720
    },
    {
      "entropy": 5.605879449844361,
      "epoch": 3.9255198487712666,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003529255030173043,
      "loss": 5.1104,
      "mean_token_accuracy": 0.19298123717308044,
      "num_tokens": 86216912.0,
      "step": 46725
    },
    {
      "entropy": 5.514327335357666,
      "epoch": 3.9259399285864314,
      "grad_norm": 1.078125,
      "learning_rate": 0.00035289740914914796,
      "loss": 4.9702,
      "mean_token_accuracy": 0.2052614837884903,
      "num_tokens": 86226284.0,
      "step": 46730
    },
    {
      "entropy": 5.518849563598633,
      "epoch": 3.926360008401596,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003528693139010792,
      "loss": 5.0172,
      "mean_token_accuracy": 0.20621571242809295,
      "num_tokens": 86235865.0,
      "step": 46735
    },
    {
      "entropy": 5.451736879348755,
      "epoch": 3.926780088216761,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00035284121727359555,
      "loss": 4.9697,
      "mean_token_accuracy": 0.20876071304082872,
      "num_tokens": 86244912.0,
      "step": 46740
    },
    {
      "entropy": 5.495843505859375,
      "epoch": 3.927200168031926,
      "grad_norm": 1.09375,
      "learning_rate": 0.00035281311926719486,
      "loss": 5.0346,
      "mean_token_accuracy": 0.20023176372051238,
      "num_tokens": 86254671.0,
      "step": 46745
    },
    {
      "entropy": 5.5882257461547855,
      "epoch": 3.927620247847091,
      "grad_norm": 1.125,
      "learning_rate": 0.00035278501988237476,
      "loss": 5.0472,
      "mean_token_accuracy": 0.20229340940713883,
      "num_tokens": 86263417.0,
      "step": 46750
    },
    {
      "entropy": 5.463995409011841,
      "epoch": 3.9280403276622557,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003527569191196332,
      "loss": 4.9545,
      "mean_token_accuracy": 0.21239228695631027,
      "num_tokens": 86271494.0,
      "step": 46755
    },
    {
      "entropy": 5.405840873718262,
      "epoch": 3.928460407477421,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003527288169794678,
      "loss": 4.9351,
      "mean_token_accuracy": 0.20751916915178298,
      "num_tokens": 86280420.0,
      "step": 46760
    },
    {
      "entropy": 5.423934507369995,
      "epoch": 3.9288804872925853,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003527007134623764,
      "loss": 4.9209,
      "mean_token_accuracy": 0.2151641219854355,
      "num_tokens": 86289456.0,
      "step": 46765
    },
    {
      "entropy": 5.440544319152832,
      "epoch": 3.9293005671077506,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00035267260856885693,
      "loss": 4.8979,
      "mean_token_accuracy": 0.21455525755882263,
      "num_tokens": 86299214.0,
      "step": 46770
    },
    {
      "entropy": 5.395615005493164,
      "epoch": 3.9297206469229153,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003526445022994072,
      "loss": 4.9714,
      "mean_token_accuracy": 0.20916581898927689,
      "num_tokens": 86308198.0,
      "step": 46775
    },
    {
      "entropy": 5.445270586013794,
      "epoch": 3.93014072673808,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00035261639465452503,
      "loss": 5.0382,
      "mean_token_accuracy": 0.20028015673160554,
      "num_tokens": 86317245.0,
      "step": 46780
    },
    {
      "entropy": 5.412746620178223,
      "epoch": 3.9305608065532454,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003525882856347084,
      "loss": 4.9018,
      "mean_token_accuracy": 0.21391633599996568,
      "num_tokens": 86325895.0,
      "step": 46785
    },
    {
      "entropy": 5.367232942581177,
      "epoch": 3.93098088636841,
      "grad_norm": 1.109375,
      "learning_rate": 0.00035256017524045526,
      "loss": 4.8807,
      "mean_token_accuracy": 0.21742091476917266,
      "num_tokens": 86335660.0,
      "step": 46790
    },
    {
      "entropy": 5.626202344894409,
      "epoch": 3.931400966183575,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003525320634722636,
      "loss": 5.1355,
      "mean_token_accuracy": 0.19971624612808228,
      "num_tokens": 86344888.0,
      "step": 46795
    },
    {
      "entropy": 5.477147769927979,
      "epoch": 3.9318210459987397,
      "grad_norm": 1.0625,
      "learning_rate": 0.00035250395033063124,
      "loss": 4.9637,
      "mean_token_accuracy": 0.20167852938175201,
      "num_tokens": 86355189.0,
      "step": 46800
    },
    {
      "entropy": 5.5423047065734865,
      "epoch": 3.9322411258139045,
      "grad_norm": 0.9453125,
      "learning_rate": 0.00035247583581605644,
      "loss": 5.0279,
      "mean_token_accuracy": 0.20658134818077087,
      "num_tokens": 86364798.0,
      "step": 46805
    },
    {
      "entropy": 5.440595245361328,
      "epoch": 3.9326612056290697,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00035244771992903705,
      "loss": 4.8728,
      "mean_token_accuracy": 0.21443826109170913,
      "num_tokens": 86373571.0,
      "step": 46810
    },
    {
      "entropy": 5.481437492370605,
      "epoch": 3.9330812854442345,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00035241960267007116,
      "loss": 5.0615,
      "mean_token_accuracy": 0.20035542249679567,
      "num_tokens": 86382954.0,
      "step": 46815
    },
    {
      "entropy": 5.442200660705566,
      "epoch": 3.9335013652593993,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003523914840396569,
      "loss": 4.9837,
      "mean_token_accuracy": 0.20981219559907913,
      "num_tokens": 86392205.0,
      "step": 46820
    },
    {
      "entropy": 5.386856269836426,
      "epoch": 3.933921445074564,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00035236336403829236,
      "loss": 4.9424,
      "mean_token_accuracy": 0.21228131651878357,
      "num_tokens": 86401440.0,
      "step": 46825
    },
    {
      "entropy": 5.5448305130004885,
      "epoch": 3.934341524889729,
      "grad_norm": 0.99609375,
      "learning_rate": 0.0003523352426664757,
      "loss": 5.0408,
      "mean_token_accuracy": 0.2009277746081352,
      "num_tokens": 86411271.0,
      "step": 46830
    },
    {
      "entropy": 5.4761083126068115,
      "epoch": 3.934761604704894,
      "grad_norm": 1.03125,
      "learning_rate": 0.000352307119924705,
      "loss": 4.9179,
      "mean_token_accuracy": 0.20432282388210296,
      "num_tokens": 86420879.0,
      "step": 46835
    },
    {
      "entropy": 5.393447065353394,
      "epoch": 3.935181684520059,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003522789958134784,
      "loss": 4.8867,
      "mean_token_accuracy": 0.21203747242689133,
      "num_tokens": 86429880.0,
      "step": 46840
    },
    {
      "entropy": 5.494747877120972,
      "epoch": 3.9356017643352237,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003522508703332943,
      "loss": 5.0675,
      "mean_token_accuracy": 0.1959062099456787,
      "num_tokens": 86439184.0,
      "step": 46845
    },
    {
      "entropy": 5.465257596969605,
      "epoch": 3.9360218441503885,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003522227434846507,
      "loss": 4.8739,
      "mean_token_accuracy": 0.21839087456464767,
      "num_tokens": 86447405.0,
      "step": 46850
    },
    {
      "entropy": 5.494992208480835,
      "epoch": 3.9364419239655533,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00035219461526804605,
      "loss": 5.0255,
      "mean_token_accuracy": 0.20877288579940795,
      "num_tokens": 86456503.0,
      "step": 46855
    },
    {
      "entropy": 5.479359865188599,
      "epoch": 3.9368620037807185,
      "grad_norm": 1.1875,
      "learning_rate": 0.00035216648568397844,
      "loss": 4.9474,
      "mean_token_accuracy": 0.21236494183540344,
      "num_tokens": 86465219.0,
      "step": 46860
    },
    {
      "entropy": 5.512677383422852,
      "epoch": 3.9372820835958833,
      "grad_norm": 1.078125,
      "learning_rate": 0.00035213835473294635,
      "loss": 5.0092,
      "mean_token_accuracy": 0.20458000302314758,
      "num_tokens": 86473853.0,
      "step": 46865
    },
    {
      "entropy": 5.440309619903564,
      "epoch": 3.937702163411048,
      "grad_norm": 1.0703125,
      "learning_rate": 0.000352110222415448,
      "loss": 4.9548,
      "mean_token_accuracy": 0.20881297290325165,
      "num_tokens": 86482969.0,
      "step": 46870
    },
    {
      "entropy": 5.601905632019043,
      "epoch": 3.938122243226213,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003520820887319818,
      "loss": 5.1209,
      "mean_token_accuracy": 0.2038076251745224,
      "num_tokens": 86492804.0,
      "step": 46875
    },
    {
      "entropy": 5.511417055130005,
      "epoch": 3.9385423230413776,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003520539536830462,
      "loss": 5.0086,
      "mean_token_accuracy": 0.20149582326412202,
      "num_tokens": 86501644.0,
      "step": 46880
    },
    {
      "entropy": 5.480335760116577,
      "epoch": 3.938962402856543,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003520258172691393,
      "loss": 4.995,
      "mean_token_accuracy": 0.20620379596948624,
      "num_tokens": 86511094.0,
      "step": 46885
    },
    {
      "entropy": 5.447363567352295,
      "epoch": 3.9393824826717077,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003519976794907597,
      "loss": 4.8484,
      "mean_token_accuracy": 0.21573061496019363,
      "num_tokens": 86519053.0,
      "step": 46890
    },
    {
      "entropy": 5.3615806102752686,
      "epoch": 3.9398025624868724,
      "grad_norm": 1.15625,
      "learning_rate": 0.00035196954034840593,
      "loss": 4.9682,
      "mean_token_accuracy": 0.2045310616493225,
      "num_tokens": 86528272.0,
      "step": 46895
    },
    {
      "entropy": 5.459008836746216,
      "epoch": 3.9402226423020372,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003519413998425764,
      "loss": 4.993,
      "mean_token_accuracy": 0.20553616881370546,
      "num_tokens": 86537691.0,
      "step": 46900
    },
    {
      "entropy": 5.532688617706299,
      "epoch": 3.940642722117202,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003519132579737696,
      "loss": 5.0352,
      "mean_token_accuracy": 0.20237514674663543,
      "num_tokens": 86547125.0,
      "step": 46905
    },
    {
      "entropy": 5.469320821762085,
      "epoch": 3.9410628019323672,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00035188511474248404,
      "loss": 4.9868,
      "mean_token_accuracy": 0.2023754358291626,
      "num_tokens": 86556849.0,
      "step": 46910
    },
    {
      "entropy": 5.509410572052002,
      "epoch": 3.941482881747532,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003518569701492182,
      "loss": 5.0241,
      "mean_token_accuracy": 0.20689465701580048,
      "num_tokens": 86566290.0,
      "step": 46915
    },
    {
      "entropy": 5.535335874557495,
      "epoch": 3.941902961562697,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003518288241944707,
      "loss": 5.084,
      "mean_token_accuracy": 0.20014047771692275,
      "num_tokens": 86575268.0,
      "step": 46920
    },
    {
      "entropy": 5.4901563167572025,
      "epoch": 3.942323041377862,
      "grad_norm": 1.0625,
      "learning_rate": 0.00035180067687874016,
      "loss": 5.0299,
      "mean_token_accuracy": 0.20651739984750747,
      "num_tokens": 86584651.0,
      "step": 46925
    },
    {
      "entropy": 5.490726947784424,
      "epoch": 3.942743121193027,
      "grad_norm": 1.109375,
      "learning_rate": 0.00035177252820252526,
      "loss": 5.0331,
      "mean_token_accuracy": 0.2073494240641594,
      "num_tokens": 86595344.0,
      "step": 46930
    },
    {
      "entropy": 5.507354736328125,
      "epoch": 3.9431632010081916,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003517443781663245,
      "loss": 4.906,
      "mean_token_accuracy": 0.21610655188560485,
      "num_tokens": 86604341.0,
      "step": 46935
    },
    {
      "entropy": 5.453035974502564,
      "epoch": 3.9435832808233564,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003517162267706366,
      "loss": 4.9219,
      "mean_token_accuracy": 0.21050639003515242,
      "num_tokens": 86613308.0,
      "step": 46940
    },
    {
      "entropy": 5.399526453018188,
      "epoch": 3.944003360638521,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003516880740159602,
      "loss": 4.9736,
      "mean_token_accuracy": 0.21300308555364608,
      "num_tokens": 86621890.0,
      "step": 46945
    },
    {
      "entropy": 5.449335384368896,
      "epoch": 3.9444234404536864,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003516599199027941,
      "loss": 5.0487,
      "mean_token_accuracy": 0.20370086580514907,
      "num_tokens": 86632032.0,
      "step": 46950
    },
    {
      "entropy": 5.405458307266235,
      "epoch": 3.944843520268851,
      "grad_norm": 0.9921875,
      "learning_rate": 0.000351631764431637,
      "loss": 4.8657,
      "mean_token_accuracy": 0.21503083556890487,
      "num_tokens": 86641053.0,
      "step": 46955
    },
    {
      "entropy": 5.507362127304077,
      "epoch": 3.945263600084016,
      "grad_norm": 1.03125,
      "learning_rate": 0.00035160360760298765,
      "loss": 4.9628,
      "mean_token_accuracy": 0.20632823705673217,
      "num_tokens": 86650682.0,
      "step": 46960
    },
    {
      "entropy": 5.489802408218384,
      "epoch": 3.945683679899181,
      "grad_norm": 1.125,
      "learning_rate": 0.00035157544941734483,
      "loss": 4.9996,
      "mean_token_accuracy": 0.21303420513868332,
      "num_tokens": 86660646.0,
      "step": 46965
    },
    {
      "entropy": 5.4797591209411625,
      "epoch": 3.9461037597143456,
      "grad_norm": 1.09375,
      "learning_rate": 0.00035154728987520735,
      "loss": 4.9764,
      "mean_token_accuracy": 0.21486450880765914,
      "num_tokens": 86669692.0,
      "step": 46970
    },
    {
      "entropy": 5.3809003829956055,
      "epoch": 3.946523839529511,
      "grad_norm": 1.140625,
      "learning_rate": 0.00035151912897707404,
      "loss": 4.8825,
      "mean_token_accuracy": 0.21828012764453888,
      "num_tokens": 86678593.0,
      "step": 46975
    },
    {
      "entropy": 5.498608255386353,
      "epoch": 3.9469439193446756,
      "grad_norm": 1.015625,
      "learning_rate": 0.00035149096672344385,
      "loss": 5.0799,
      "mean_token_accuracy": 0.20429533571004868,
      "num_tokens": 86688180.0,
      "step": 46980
    },
    {
      "entropy": 5.519507789611817,
      "epoch": 3.9473639991598404,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00035146280311481535,
      "loss": 5.0556,
      "mean_token_accuracy": 0.204388989508152,
      "num_tokens": 86698061.0,
      "step": 46985
    },
    {
      "entropy": 5.443045043945313,
      "epoch": 3.947784078975005,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003514346381516879,
      "loss": 4.9028,
      "mean_token_accuracy": 0.20855909436941147,
      "num_tokens": 86707537.0,
      "step": 46990
    },
    {
      "entropy": 5.491149616241455,
      "epoch": 3.94820415879017,
      "grad_norm": 1.109375,
      "learning_rate": 0.00035140647183456005,
      "loss": 4.9503,
      "mean_token_accuracy": 0.2039700448513031,
      "num_tokens": 86716426.0,
      "step": 46995
    },
    {
      "entropy": 5.467949342727661,
      "epoch": 3.948624238605335,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0003513783041639309,
      "loss": 4.8987,
      "mean_token_accuracy": 0.2088914230465889,
      "num_tokens": 86725830.0,
      "step": 47000
    },
    {
      "entropy": 5.456788969039917,
      "epoch": 3.9490443184205,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003513501351402995,
      "loss": 4.9569,
      "mean_token_accuracy": 0.20386556833982467,
      "num_tokens": 86734891.0,
      "step": 47005
    },
    {
      "entropy": 5.438753747940064,
      "epoch": 3.9494643982356648,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003513219647641648,
      "loss": 4.9492,
      "mean_token_accuracy": 0.20973320603370665,
      "num_tokens": 86744215.0,
      "step": 47010
    },
    {
      "entropy": 5.467715311050415,
      "epoch": 3.9498844780508295,
      "grad_norm": 1.09375,
      "learning_rate": 0.00035129379303602565,
      "loss": 4.9217,
      "mean_token_accuracy": 0.21433188915252685,
      "num_tokens": 86752337.0,
      "step": 47015
    },
    {
      "entropy": 5.36438398361206,
      "epoch": 3.9503045578659943,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00035126561995638134,
      "loss": 4.8924,
      "mean_token_accuracy": 0.217952199280262,
      "num_tokens": 86760507.0,
      "step": 47020
    },
    {
      "entropy": 5.47174916267395,
      "epoch": 3.9507246376811596,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00035123744552573085,
      "loss": 4.9931,
      "mean_token_accuracy": 0.20402066111564637,
      "num_tokens": 86770281.0,
      "step": 47025
    },
    {
      "entropy": 5.46321849822998,
      "epoch": 3.9511447174963243,
      "grad_norm": 1.109375,
      "learning_rate": 0.00035120926974457325,
      "loss": 4.9616,
      "mean_token_accuracy": 0.20932657718658448,
      "num_tokens": 86779974.0,
      "step": 47030
    },
    {
      "entropy": 5.519098424911499,
      "epoch": 3.951564797311489,
      "grad_norm": 1.0625,
      "learning_rate": 0.00035118109261340766,
      "loss": 5.1149,
      "mean_token_accuracy": 0.19712797850370406,
      "num_tokens": 86790187.0,
      "step": 47035
    },
    {
      "entropy": 5.5133203029632565,
      "epoch": 3.951984877126654,
      "grad_norm": 1.25,
      "learning_rate": 0.00035115291413273324,
      "loss": 4.987,
      "mean_token_accuracy": 0.207695896923542,
      "num_tokens": 86799524.0,
      "step": 47040
    },
    {
      "entropy": 5.459780979156494,
      "epoch": 3.9524049569418187,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003511247343030492,
      "loss": 4.9224,
      "mean_token_accuracy": 0.21958324313163757,
      "num_tokens": 86808387.0,
      "step": 47045
    },
    {
      "entropy": 5.504914951324463,
      "epoch": 3.952825036756984,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003510965531248547,
      "loss": 4.9894,
      "mean_token_accuracy": 0.20929422080516816,
      "num_tokens": 86817994.0,
      "step": 47050
    },
    {
      "entropy": 5.5122161388397215,
      "epoch": 3.9532451165721487,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00035106837059864884,
      "loss": 5.0799,
      "mean_token_accuracy": 0.20571971386671067,
      "num_tokens": 86827297.0,
      "step": 47055
    },
    {
      "entropy": 5.6100483417510985,
      "epoch": 3.9536651963873135,
      "grad_norm": 1.078125,
      "learning_rate": 0.00035104018672493104,
      "loss": 5.0953,
      "mean_token_accuracy": 0.19907876402139663,
      "num_tokens": 86836434.0,
      "step": 47060
    },
    {
      "entropy": 5.446219348907471,
      "epoch": 3.9540852762024787,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003510120015042004,
      "loss": 4.9756,
      "mean_token_accuracy": 0.20575660914182664,
      "num_tokens": 86845844.0,
      "step": 47065
    },
    {
      "entropy": 5.4868933200836185,
      "epoch": 3.954505356017643,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00035098381493695643,
      "loss": 5.0189,
      "mean_token_accuracy": 0.19707495123147964,
      "num_tokens": 86855051.0,
      "step": 47070
    },
    {
      "entropy": 5.466378259658813,
      "epoch": 3.9549254358328083,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003509556270236983,
      "loss": 5.0356,
      "mean_token_accuracy": 0.20732431709766388,
      "num_tokens": 86864395.0,
      "step": 47075
    },
    {
      "entropy": 5.442803382873535,
      "epoch": 3.955345515647973,
      "grad_norm": 1.125,
      "learning_rate": 0.00035092743776492523,
      "loss": 4.9905,
      "mean_token_accuracy": 0.20010074675083162,
      "num_tokens": 86874098.0,
      "step": 47080
    },
    {
      "entropy": 5.513132953643799,
      "epoch": 3.955765595463138,
      "grad_norm": 1.140625,
      "learning_rate": 0.00035089924716113683,
      "loss": 4.9644,
      "mean_token_accuracy": 0.2074468433856964,
      "num_tokens": 86883087.0,
      "step": 47085
    },
    {
      "entropy": 5.4857118129730225,
      "epoch": 3.956185675278303,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00035087105521283224,
      "loss": 4.976,
      "mean_token_accuracy": 0.21213535517454146,
      "num_tokens": 86891635.0,
      "step": 47090
    },
    {
      "entropy": 5.368136358261109,
      "epoch": 3.956605755093468,
      "grad_norm": 1.0703125,
      "learning_rate": 0.000350842861920511,
      "loss": 4.9355,
      "mean_token_accuracy": 0.2085934728384018,
      "num_tokens": 86900296.0,
      "step": 47095
    },
    {
      "entropy": 5.387834739685059,
      "epoch": 3.9570258349086327,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003508146672846725,
      "loss": 4.9444,
      "mean_token_accuracy": 0.20864909887313843,
      "num_tokens": 86909339.0,
      "step": 47100
    },
    {
      "entropy": 5.533117961883545,
      "epoch": 3.9574459147237975,
      "grad_norm": 1.15625,
      "learning_rate": 0.00035078647130581627,
      "loss": 4.9954,
      "mean_token_accuracy": 0.20736894011497498,
      "num_tokens": 86918668.0,
      "step": 47105
    },
    {
      "entropy": 5.4664879322052,
      "epoch": 3.9578659945389623,
      "grad_norm": 0.96484375,
      "learning_rate": 0.0003507582739844417,
      "loss": 4.9227,
      "mean_token_accuracy": 0.20663415342569352,
      "num_tokens": 86927999.0,
      "step": 47110
    },
    {
      "entropy": 5.507303619384766,
      "epoch": 3.9582860743541275,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00035073007532104833,
      "loss": 4.9946,
      "mean_token_accuracy": 0.19500763714313507,
      "num_tokens": 86936980.0,
      "step": 47115
    },
    {
      "entropy": 5.500925970077515,
      "epoch": 3.9587061541692923,
      "grad_norm": 1.09375,
      "learning_rate": 0.00035070187531613563,
      "loss": 5.0052,
      "mean_token_accuracy": 0.21219290643930436,
      "num_tokens": 86946170.0,
      "step": 47120
    },
    {
      "entropy": 5.493483066558838,
      "epoch": 3.959126233984457,
      "grad_norm": 1.171875,
      "learning_rate": 0.00035067367397020324,
      "loss": 4.9576,
      "mean_token_accuracy": 0.2104183167219162,
      "num_tokens": 86955020.0,
      "step": 47125
    },
    {
      "entropy": 5.455437326431275,
      "epoch": 3.959546313799622,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003506454712837506,
      "loss": 4.987,
      "mean_token_accuracy": 0.19880614876747132,
      "num_tokens": 86963825.0,
      "step": 47130
    },
    {
      "entropy": 5.5347692489624025,
      "epoch": 3.9599663936147866,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00035061726725727746,
      "loss": 5.0572,
      "mean_token_accuracy": 0.19488206803798674,
      "num_tokens": 86972915.0,
      "step": 47135
    },
    {
      "entropy": 5.543221712112427,
      "epoch": 3.960386473429952,
      "grad_norm": 1.0625,
      "learning_rate": 0.00035058906189128333,
      "loss": 5.0782,
      "mean_token_accuracy": 0.19964211136102678,
      "num_tokens": 86982267.0,
      "step": 47140
    },
    {
      "entropy": 5.5461469173431395,
      "epoch": 3.9608065532451167,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003505608551862679,
      "loss": 5.1089,
      "mean_token_accuracy": 0.20078313797712327,
      "num_tokens": 86992041.0,
      "step": 47145
    },
    {
      "entropy": 5.471618366241455,
      "epoch": 3.9612266330602814,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003505326471427308,
      "loss": 4.9781,
      "mean_token_accuracy": 0.20981526970863343,
      "num_tokens": 87001166.0,
      "step": 47150
    },
    {
      "entropy": 5.38641128540039,
      "epoch": 3.9616467128754462,
      "grad_norm": 1.125,
      "learning_rate": 0.00035050443776117184,
      "loss": 4.8987,
      "mean_token_accuracy": 0.20933972001075746,
      "num_tokens": 87010192.0,
      "step": 47155
    },
    {
      "entropy": 5.469318580627442,
      "epoch": 3.962066792690611,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003504762270420906,
      "loss": 4.9865,
      "mean_token_accuracy": 0.2130303055047989,
      "num_tokens": 87018960.0,
      "step": 47160
    },
    {
      "entropy": 5.446867752075195,
      "epoch": 3.9624868725057762,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00035044801498598685,
      "loss": 4.9652,
      "mean_token_accuracy": 0.20939621180295945,
      "num_tokens": 87028000.0,
      "step": 47165
    },
    {
      "entropy": 5.463343811035156,
      "epoch": 3.962906952320941,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003504198015933604,
      "loss": 4.9872,
      "mean_token_accuracy": 0.20097897648811341,
      "num_tokens": 87036522.0,
      "step": 47170
    },
    {
      "entropy": 5.511106348037719,
      "epoch": 3.963327032136106,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00035039158686471093,
      "loss": 5.0741,
      "mean_token_accuracy": 0.1941220209002495,
      "num_tokens": 87046689.0,
      "step": 47175
    },
    {
      "entropy": 5.486880254745484,
      "epoch": 3.9637471119512706,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003503633708005383,
      "loss": 5.0109,
      "mean_token_accuracy": 0.21205732077360154,
      "num_tokens": 87056702.0,
      "step": 47180
    },
    {
      "entropy": 5.384728574752808,
      "epoch": 3.9641671917664354,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003503351534013425,
      "loss": 4.8609,
      "mean_token_accuracy": 0.21910033971071244,
      "num_tokens": 87065915.0,
      "step": 47185
    },
    {
      "entropy": 5.425961589813232,
      "epoch": 3.9645872715816006,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003503069346676231,
      "loss": 4.9441,
      "mean_token_accuracy": 0.21073192358016968,
      "num_tokens": 87075137.0,
      "step": 47190
    },
    {
      "entropy": 5.375311088562012,
      "epoch": 3.9650073513967654,
      "grad_norm": 1.078125,
      "learning_rate": 0.00035027871459988023,
      "loss": 4.9034,
      "mean_token_accuracy": 0.21841698437929152,
      "num_tokens": 87084382.0,
      "step": 47195
    },
    {
      "entropy": 5.422287511825561,
      "epoch": 3.96542743121193,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00035025049319861365,
      "loss": 4.9675,
      "mean_token_accuracy": 0.20797307640314103,
      "num_tokens": 87093957.0,
      "step": 47200
    },
    {
      "entropy": 5.4188587188720705,
      "epoch": 3.965847511027095,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003502222704643233,
      "loss": 4.9047,
      "mean_token_accuracy": 0.2178930789232254,
      "num_tokens": 87102830.0,
      "step": 47205
    },
    {
      "entropy": 5.4689350605010985,
      "epoch": 3.9662675908422598,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003501940463975092,
      "loss": 5.0479,
      "mean_token_accuracy": 0.2042209729552269,
      "num_tokens": 87112674.0,
      "step": 47210
    },
    {
      "entropy": 5.5447112083435055,
      "epoch": 3.966687670657425,
      "grad_norm": 1.09375,
      "learning_rate": 0.00035016582099867133,
      "loss": 5.103,
      "mean_token_accuracy": 0.19227971732616425,
      "num_tokens": 87122137.0,
      "step": 47215
    },
    {
      "entropy": 5.563748741149903,
      "epoch": 3.96710775047259,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003501375942683096,
      "loss": 5.0649,
      "mean_token_accuracy": 0.19959257543087006,
      "num_tokens": 87130993.0,
      "step": 47220
    },
    {
      "entropy": 5.434947490692139,
      "epoch": 3.9675278302877546,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0003501093662069241,
      "loss": 4.9426,
      "mean_token_accuracy": 0.20750474482774733,
      "num_tokens": 87139891.0,
      "step": 47225
    },
    {
      "entropy": 5.384976100921631,
      "epoch": 3.96794791010292,
      "grad_norm": 1.0625,
      "learning_rate": 0.00035008113681501485,
      "loss": 4.9309,
      "mean_token_accuracy": 0.2164456471800804,
      "num_tokens": 87149496.0,
      "step": 47230
    },
    {
      "entropy": 5.5240575790405275,
      "epoch": 3.9683679899180846,
      "grad_norm": 1.09375,
      "learning_rate": 0.00035005290609308186,
      "loss": 5.1252,
      "mean_token_accuracy": 0.19881852418184282,
      "num_tokens": 87159209.0,
      "step": 47235
    },
    {
      "entropy": 5.452143335342408,
      "epoch": 3.9687880697332494,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003500246740416254,
      "loss": 4.9892,
      "mean_token_accuracy": 0.2110983818769455,
      "num_tokens": 87168734.0,
      "step": 47240
    },
    {
      "entropy": 5.5100022315979,
      "epoch": 3.969208149548414,
      "grad_norm": 1.125,
      "learning_rate": 0.00034999644066114536,
      "loss": 5.0166,
      "mean_token_accuracy": 0.20308202505111694,
      "num_tokens": 87178172.0,
      "step": 47245
    },
    {
      "entropy": 5.535793495178223,
      "epoch": 3.969628229363579,
      "grad_norm": 1.078125,
      "learning_rate": 0.00034996820595214204,
      "loss": 5.0215,
      "mean_token_accuracy": 0.20735969841480256,
      "num_tokens": 87187739.0,
      "step": 47250
    },
    {
      "entropy": 5.431518650054931,
      "epoch": 3.970048309178744,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003499399699151156,
      "loss": 4.9999,
      "mean_token_accuracy": 0.2069038301706314,
      "num_tokens": 87196734.0,
      "step": 47255
    },
    {
      "entropy": 5.53015546798706,
      "epoch": 3.970468388993909,
      "grad_norm": 1.21875,
      "learning_rate": 0.00034991173255056606,
      "loss": 5.0383,
      "mean_token_accuracy": 0.19922652542591096,
      "num_tokens": 87206872.0,
      "step": 47260
    },
    {
      "entropy": 5.413555479049682,
      "epoch": 3.9708884688090738,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003498834938589939,
      "loss": 4.8841,
      "mean_token_accuracy": 0.21432461142539977,
      "num_tokens": 87214995.0,
      "step": 47265
    },
    {
      "entropy": 5.414705419540406,
      "epoch": 3.9713085486242385,
      "grad_norm": 1.109375,
      "learning_rate": 0.00034985525384089914,
      "loss": 4.9509,
      "mean_token_accuracy": 0.21344634890556335,
      "num_tokens": 87224178.0,
      "step": 47270
    },
    {
      "entropy": 5.5036945819854735,
      "epoch": 3.9717286284394033,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003498270124967821,
      "loss": 5.1086,
      "mean_token_accuracy": 0.19339945167303085,
      "num_tokens": 87233839.0,
      "step": 47275
    },
    {
      "entropy": 5.471482467651367,
      "epoch": 3.9721487082545686,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00034979876982714296,
      "loss": 4.9584,
      "mean_token_accuracy": 0.20545551180839539,
      "num_tokens": 87242191.0,
      "step": 47280
    },
    {
      "entropy": 5.64297924041748,
      "epoch": 3.9725687880697333,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0003497705258324823,
      "loss": 5.206,
      "mean_token_accuracy": 0.20037777572870255,
      "num_tokens": 87251762.0,
      "step": 47285
    },
    {
      "entropy": 5.593107080459594,
      "epoch": 3.972988867884898,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003497422805133002,
      "loss": 5.0321,
      "mean_token_accuracy": 0.19929382354021072,
      "num_tokens": 87260489.0,
      "step": 47290
    },
    {
      "entropy": 5.529120349884034,
      "epoch": 3.973408947700063,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003497140338700971,
      "loss": 5.0121,
      "mean_token_accuracy": 0.2059985429048538,
      "num_tokens": 87270685.0,
      "step": 47295
    },
    {
      "entropy": 5.423033380508423,
      "epoch": 3.9738290275152277,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00034968578590337333,
      "loss": 4.9803,
      "mean_token_accuracy": 0.20917988568544388,
      "num_tokens": 87279850.0,
      "step": 47300
    },
    {
      "entropy": 5.439841461181641,
      "epoch": 3.974249107330393,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003496575366136293,
      "loss": 4.9747,
      "mean_token_accuracy": 0.20649204701185225,
      "num_tokens": 87288644.0,
      "step": 47305
    },
    {
      "entropy": 5.573958396911621,
      "epoch": 3.9746691871455577,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003496292860013655,
      "loss": 5.2031,
      "mean_token_accuracy": 0.19375960528850555,
      "num_tokens": 87298919.0,
      "step": 47310
    },
    {
      "entropy": 5.557921695709228,
      "epoch": 3.9750892669607225,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00034960103406708233,
      "loss": 5.0145,
      "mean_token_accuracy": 0.2036304533481598,
      "num_tokens": 87308130.0,
      "step": 47315
    },
    {
      "entropy": 5.43985390663147,
      "epoch": 3.9755093467758873,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00034957278081128025,
      "loss": 4.9639,
      "mean_token_accuracy": 0.20971570014953614,
      "num_tokens": 87317801.0,
      "step": 47320
    },
    {
      "entropy": 5.494713163375854,
      "epoch": 3.975929426591052,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00034954452623445973,
      "loss": 5.0454,
      "mean_token_accuracy": 0.20439962297677994,
      "num_tokens": 87327419.0,
      "step": 47325
    },
    {
      "entropy": 5.602203750610352,
      "epoch": 3.9763495064062173,
      "grad_norm": 1.078125,
      "learning_rate": 0.00034951627033712136,
      "loss": 5.1512,
      "mean_token_accuracy": 0.19165048599243165,
      "num_tokens": 87338024.0,
      "step": 47330
    },
    {
      "entropy": 5.674284029006958,
      "epoch": 3.976769586221382,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003494880131197656,
      "loss": 5.0382,
      "mean_token_accuracy": 0.20399096459150315,
      "num_tokens": 87347760.0,
      "step": 47335
    },
    {
      "entropy": 5.466983604431152,
      "epoch": 3.977189666036547,
      "grad_norm": 1.0,
      "learning_rate": 0.00034945975458289307,
      "loss": 4.9656,
      "mean_token_accuracy": 0.21329474896192552,
      "num_tokens": 87357216.0,
      "step": 47340
    },
    {
      "entropy": 5.481900978088379,
      "epoch": 3.9776097458517117,
      "grad_norm": 1.109375,
      "learning_rate": 0.00034943149472700425,
      "loss": 5.0134,
      "mean_token_accuracy": 0.2014714628458023,
      "num_tokens": 87367094.0,
      "step": 47345
    },
    {
      "entropy": 5.506631135940552,
      "epoch": 3.9780298256668765,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003494032335526,
      "loss": 4.9829,
      "mean_token_accuracy": 0.2074673593044281,
      "num_tokens": 87376019.0,
      "step": 47350
    },
    {
      "entropy": 5.443790483474731,
      "epoch": 3.9784499054820417,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003493749710601806,
      "loss": 5.0069,
      "mean_token_accuracy": 0.20560994893312454,
      "num_tokens": 87384804.0,
      "step": 47355
    },
    {
      "entropy": 5.4651796340942385,
      "epoch": 3.9788699852972065,
      "grad_norm": 1.09375,
      "learning_rate": 0.000349346707250247,
      "loss": 4.9325,
      "mean_token_accuracy": 0.2076854556798935,
      "num_tokens": 87393275.0,
      "step": 47360
    },
    {
      "entropy": 5.48958797454834,
      "epoch": 3.9792900651123713,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00034931844212329966,
      "loss": 5.0391,
      "mean_token_accuracy": 0.21012749373912812,
      "num_tokens": 87402590.0,
      "step": 47365
    },
    {
      "entropy": 5.42679533958435,
      "epoch": 3.9797101449275365,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003492901756798394,
      "loss": 4.9735,
      "mean_token_accuracy": 0.2036494269967079,
      "num_tokens": 87411936.0,
      "step": 47370
    },
    {
      "entropy": 5.396873950958252,
      "epoch": 3.980130224742701,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000349261907920367,
      "loss": 4.9037,
      "mean_token_accuracy": 0.21300007551908492,
      "num_tokens": 87421520.0,
      "step": 47375
    },
    {
      "entropy": 5.452624702453614,
      "epoch": 3.980550304557866,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003492336388453831,
      "loss": 5.0238,
      "mean_token_accuracy": 0.20753298401832582,
      "num_tokens": 87430398.0,
      "step": 47380
    },
    {
      "entropy": 5.491552495956421,
      "epoch": 3.980970384373031,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00034920536845538854,
      "loss": 4.9676,
      "mean_token_accuracy": 0.20289730429649352,
      "num_tokens": 87439398.0,
      "step": 47385
    },
    {
      "entropy": 5.479152250289917,
      "epoch": 3.9813904641881956,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00034917709675088405,
      "loss": 4.9702,
      "mean_token_accuracy": 0.21135834306478501,
      "num_tokens": 87448580.0,
      "step": 47390
    },
    {
      "entropy": 5.4403163433074955,
      "epoch": 3.981810544003361,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003491488237323705,
      "loss": 4.9378,
      "mean_token_accuracy": 0.2095232143998146,
      "num_tokens": 87458168.0,
      "step": 47395
    },
    {
      "entropy": 5.433532190322876,
      "epoch": 3.9822306238185257,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003491205494003487,
      "loss": 4.9978,
      "mean_token_accuracy": 0.21315674036741256,
      "num_tokens": 87467913.0,
      "step": 47400
    },
    {
      "entropy": 5.4045027732849125,
      "epoch": 3.9826507036336904,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003490922737553196,
      "loss": 4.9286,
      "mean_token_accuracy": 0.20781787484884262,
      "num_tokens": 87477447.0,
      "step": 47405
    },
    {
      "entropy": 5.405548763275147,
      "epoch": 3.9830707834488552,
      "grad_norm": 1.09375,
      "learning_rate": 0.000349063996797784,
      "loss": 4.8687,
      "mean_token_accuracy": 0.21454044729471206,
      "num_tokens": 87486200.0,
      "step": 47410
    },
    {
      "entropy": 5.481505393981934,
      "epoch": 3.98349086326402,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00034903571852824285,
      "loss": 5.0179,
      "mean_token_accuracy": 0.20536898225545883,
      "num_tokens": 87495033.0,
      "step": 47415
    },
    {
      "entropy": 5.4144059181213375,
      "epoch": 3.9839109430791853,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000349007438947197,
      "loss": 4.9068,
      "mean_token_accuracy": 0.2126631811261177,
      "num_tokens": 87504031.0,
      "step": 47420
    },
    {
      "entropy": 5.405080842971802,
      "epoch": 3.98433102289435,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003489791580551475,
      "loss": 4.9243,
      "mean_token_accuracy": 0.20537304133176804,
      "num_tokens": 87513073.0,
      "step": 47425
    },
    {
      "entropy": 5.509143733978272,
      "epoch": 3.984751102709515,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003489508758525953,
      "loss": 5.094,
      "mean_token_accuracy": 0.19903839379549026,
      "num_tokens": 87522484.0,
      "step": 47430
    },
    {
      "entropy": 5.534690618515015,
      "epoch": 3.9851711825246796,
      "grad_norm": 1.0,
      "learning_rate": 0.00034892259234004143,
      "loss": 5.0138,
      "mean_token_accuracy": 0.21420755982398987,
      "num_tokens": 87532187.0,
      "step": 47435
    },
    {
      "entropy": 5.4552216053009035,
      "epoch": 3.9855912623398444,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003488943075179869,
      "loss": 4.9596,
      "mean_token_accuracy": 0.20425163954496384,
      "num_tokens": 87541264.0,
      "step": 47440
    },
    {
      "entropy": 5.444952392578125,
      "epoch": 3.9860113421550096,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00034886602138693284,
      "loss": 5.0199,
      "mean_token_accuracy": 0.20446609556674958,
      "num_tokens": 87550551.0,
      "step": 47445
    },
    {
      "entropy": 5.46883487701416,
      "epoch": 3.9864314219701744,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003488377339473801,
      "loss": 4.9517,
      "mean_token_accuracy": 0.20611189007759095,
      "num_tokens": 87559844.0,
      "step": 47450
    },
    {
      "entropy": 5.494575166702271,
      "epoch": 3.986851501785339,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00034880944519983,
      "loss": 4.9774,
      "mean_token_accuracy": 0.20961237251758574,
      "num_tokens": 87569096.0,
      "step": 47455
    },
    {
      "entropy": 5.53233642578125,
      "epoch": 3.987271581600504,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00034878115514478357,
      "loss": 5.0422,
      "mean_token_accuracy": 0.2061192736029625,
      "num_tokens": 87578000.0,
      "step": 47460
    },
    {
      "entropy": 5.567304086685181,
      "epoch": 3.9876916614156688,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000348752863782742,
      "loss": 5.1112,
      "mean_token_accuracy": 0.19900163263082504,
      "num_tokens": 87587842.0,
      "step": 47465
    },
    {
      "entropy": 5.516806697845459,
      "epoch": 3.988111741230834,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00034872457111420645,
      "loss": 4.9464,
      "mean_token_accuracy": 0.21114954799413682,
      "num_tokens": 87596636.0,
      "step": 47470
    },
    {
      "entropy": 5.491047096252442,
      "epoch": 3.988531821045999,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003486962771396781,
      "loss": 4.9588,
      "mean_token_accuracy": 0.20396295189857483,
      "num_tokens": 87605574.0,
      "step": 47475
    },
    {
      "entropy": 5.431640577316284,
      "epoch": 3.9889519008611636,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000348667981859658,
      "loss": 4.9667,
      "mean_token_accuracy": 0.2060283064842224,
      "num_tokens": 87614459.0,
      "step": 47480
    },
    {
      "entropy": 5.465568590164184,
      "epoch": 3.9893719806763284,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003486396852746476,
      "loss": 4.9737,
      "mean_token_accuracy": 0.21257408261299132,
      "num_tokens": 87623410.0,
      "step": 47485
    },
    {
      "entropy": 5.459254789352417,
      "epoch": 3.989792060491493,
      "grad_norm": 1.078125,
      "learning_rate": 0.00034861138738514813,
      "loss": 4.92,
      "mean_token_accuracy": 0.22011952251195907,
      "num_tokens": 87632150.0,
      "step": 47490
    },
    {
      "entropy": 5.483579492568969,
      "epoch": 3.9902121403066584,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00034858308819166086,
      "loss": 4.9599,
      "mean_token_accuracy": 0.21136967241764068,
      "num_tokens": 87640169.0,
      "step": 47495
    },
    {
      "entropy": 5.472309303283692,
      "epoch": 3.990632220121823,
      "grad_norm": 1.09375,
      "learning_rate": 0.00034855478769468703,
      "loss": 4.9605,
      "mean_token_accuracy": 0.20540197640657426,
      "num_tokens": 87648934.0,
      "step": 47500
    },
    {
      "entropy": 5.36906852722168,
      "epoch": 3.991052299936988,
      "grad_norm": 1.078125,
      "learning_rate": 0.00034852648589472803,
      "loss": 4.8545,
      "mean_token_accuracy": 0.21359796524047853,
      "num_tokens": 87658186.0,
      "step": 47505
    },
    {
      "entropy": 5.510244417190552,
      "epoch": 3.9914723797521527,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003484981827922852,
      "loss": 5.0593,
      "mean_token_accuracy": 0.19503836035728456,
      "num_tokens": 87667465.0,
      "step": 47510
    },
    {
      "entropy": 5.364990139007569,
      "epoch": 3.9918924595673175,
      "grad_norm": 1.046875,
      "learning_rate": 0.00034846987838785986,
      "loss": 4.8337,
      "mean_token_accuracy": 0.21553766131401061,
      "num_tokens": 87676935.0,
      "step": 47515
    },
    {
      "entropy": 5.406846809387207,
      "epoch": 3.9923125393824828,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00034844157268195346,
      "loss": 4.9385,
      "mean_token_accuracy": 0.21611891388893129,
      "num_tokens": 87686779.0,
      "step": 47520
    },
    {
      "entropy": 5.4172422885894775,
      "epoch": 3.9927326191976475,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003484132656750675,
      "loss": 4.9889,
      "mean_token_accuracy": 0.21077708899974823,
      "num_tokens": 87695761.0,
      "step": 47525
    },
    {
      "entropy": 5.397713994979858,
      "epoch": 3.9931526990128123,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00034838495736770327,
      "loss": 4.9094,
      "mean_token_accuracy": 0.21100509017705918,
      "num_tokens": 87704717.0,
      "step": 47530
    },
    {
      "entropy": 5.427322673797607,
      "epoch": 3.9935727788279776,
      "grad_norm": 1.125,
      "learning_rate": 0.0003483566477603623,
      "loss": 4.9862,
      "mean_token_accuracy": 0.20859027951955794,
      "num_tokens": 87714561.0,
      "step": 47535
    },
    {
      "entropy": 5.536287450790406,
      "epoch": 3.9939928586431424,
      "grad_norm": 1.03125,
      "learning_rate": 0.00034832833685354616,
      "loss": 5.0864,
      "mean_token_accuracy": 0.20050051361322402,
      "num_tokens": 87723816.0,
      "step": 47540
    },
    {
      "entropy": 5.477497386932373,
      "epoch": 3.994412938458307,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00034830002464775623,
      "loss": 4.9045,
      "mean_token_accuracy": 0.21292940080165862,
      "num_tokens": 87732494.0,
      "step": 47545
    },
    {
      "entropy": 5.506219530105591,
      "epoch": 3.994833018273472,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003482717111434941,
      "loss": 5.0792,
      "mean_token_accuracy": 0.20251881331205368,
      "num_tokens": 87742030.0,
      "step": 47550
    },
    {
      "entropy": 5.490911960601807,
      "epoch": 3.9952530980886367,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00034824339634126133,
      "loss": 5.036,
      "mean_token_accuracy": 0.2057919442653656,
      "num_tokens": 87750727.0,
      "step": 47555
    },
    {
      "entropy": 5.509872150421143,
      "epoch": 3.995673177903802,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003482150802415595,
      "loss": 5.0389,
      "mean_token_accuracy": 0.2055968776345253,
      "num_tokens": 87759940.0,
      "step": 47560
    },
    {
      "entropy": 5.442368602752685,
      "epoch": 3.9960932577189667,
      "grad_norm": 1.09375,
      "learning_rate": 0.00034818676284489034,
      "loss": 4.9207,
      "mean_token_accuracy": 0.2104836106300354,
      "num_tokens": 87767968.0,
      "step": 47565
    },
    {
      "entropy": 5.395937490463257,
      "epoch": 3.9965133375341315,
      "grad_norm": 1.0625,
      "learning_rate": 0.00034815844415175525,
      "loss": 4.8876,
      "mean_token_accuracy": 0.21482627093791962,
      "num_tokens": 87776498.0,
      "step": 47570
    },
    {
      "entropy": 5.413008403778076,
      "epoch": 3.9969334173492963,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00034813012416265606,
      "loss": 4.9834,
      "mean_token_accuracy": 0.2053216964006424,
      "num_tokens": 87786244.0,
      "step": 47575
    },
    {
      "entropy": 5.411487340927124,
      "epoch": 3.997353497164461,
      "grad_norm": 1.125,
      "learning_rate": 0.00034810180287809427,
      "loss": 4.8662,
      "mean_token_accuracy": 0.21201377958059311,
      "num_tokens": 87794988.0,
      "step": 47580
    },
    {
      "entropy": 5.385130119323731,
      "epoch": 3.9977735769796263,
      "grad_norm": 1.015625,
      "learning_rate": 0.00034807348029857176,
      "loss": 4.8522,
      "mean_token_accuracy": 0.21214040070772172,
      "num_tokens": 87803662.0,
      "step": 47585
    },
    {
      "entropy": 5.43091983795166,
      "epoch": 3.998193656794791,
      "grad_norm": 1.203125,
      "learning_rate": 0.00034804515642459025,
      "loss": 4.9853,
      "mean_token_accuracy": 0.20561817586421965,
      "num_tokens": 87812651.0,
      "step": 47590
    },
    {
      "entropy": 5.442161273956299,
      "epoch": 3.998613736609956,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003480168312566512,
      "loss": 4.9889,
      "mean_token_accuracy": 0.20509683042764665,
      "num_tokens": 87821882.0,
      "step": 47595
    },
    {
      "entropy": 5.456819725036621,
      "epoch": 3.9990338164251207,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00034798850479525673,
      "loss": 4.9859,
      "mean_token_accuracy": 0.2091025173664093,
      "num_tokens": 87830822.0,
      "step": 47600
    },
    {
      "entropy": 5.494852113723755,
      "epoch": 3.9994538962402855,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003479601770409085,
      "loss": 5.0383,
      "mean_token_accuracy": 0.2067924678325653,
      "num_tokens": 87840649.0,
      "step": 47605
    },
    {
      "entropy": 5.568715143203735,
      "epoch": 3.9998739760554507,
      "grad_norm": 1.125,
      "learning_rate": 0.0003479318479941082,
      "loss": 5.1187,
      "mean_token_accuracy": 0.19474004209041595,
      "num_tokens": 87850174.0,
      "step": 47610
    },
    {
      "entropy": 5.494863245222303,
      "epoch": 4.000252047889099,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00034790351765535786,
      "loss": 4.9534,
      "mean_token_accuracy": 0.200364351272583,
      "num_tokens": 87857458.0,
      "step": 47615
    },
    {
      "entropy": 5.409727334976196,
      "epoch": 4.000672127704264,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003478751860251592,
      "loss": 4.943,
      "mean_token_accuracy": 0.21713193207979203,
      "num_tokens": 87866518.0,
      "step": 47620
    },
    {
      "entropy": 5.444460058212281,
      "epoch": 4.001092207519429,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00034784685310401415,
      "loss": 4.8909,
      "mean_token_accuracy": 0.21697700321674346,
      "num_tokens": 87875482.0,
      "step": 47625
    },
    {
      "entropy": 5.479734992980957,
      "epoch": 4.001512287334593,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003478185188924246,
      "loss": 4.9539,
      "mean_token_accuracy": 0.20864222347736358,
      "num_tokens": 87885425.0,
      "step": 47630
    },
    {
      "entropy": 5.4609767436981205,
      "epoch": 4.001932367149759,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00034779018339089254,
      "loss": 4.9707,
      "mean_token_accuracy": 0.20562122911214828,
      "num_tokens": 87894603.0,
      "step": 47635
    },
    {
      "entropy": 5.459447145462036,
      "epoch": 4.002352446964923,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003477618465999198,
      "loss": 4.865,
      "mean_token_accuracy": 0.20925309509038925,
      "num_tokens": 87903952.0,
      "step": 47640
    },
    {
      "entropy": 5.423480415344239,
      "epoch": 4.002772526780088,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003477335085200084,
      "loss": 4.8658,
      "mean_token_accuracy": 0.21379200369119644,
      "num_tokens": 87912353.0,
      "step": 47645
    },
    {
      "entropy": 5.316797828674316,
      "epoch": 4.0031926065952534,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003477051691516604,
      "loss": 4.812,
      "mean_token_accuracy": 0.21641679108142853,
      "num_tokens": 87921665.0,
      "step": 47650
    },
    {
      "entropy": 5.405255317687988,
      "epoch": 4.003612686410418,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003476768284953777,
      "loss": 4.8495,
      "mean_token_accuracy": 0.22078301906585693,
      "num_tokens": 87930531.0,
      "step": 47655
    },
    {
      "entropy": 5.328990364074707,
      "epoch": 4.004032766225583,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00034764848655166256,
      "loss": 4.8294,
      "mean_token_accuracy": 0.21727948933839797,
      "num_tokens": 87939782.0,
      "step": 47660
    },
    {
      "entropy": 5.521019220352173,
      "epoch": 4.004452846040747,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003476201433210167,
      "loss": 5.0698,
      "mean_token_accuracy": 0.2042899653315544,
      "num_tokens": 87949544.0,
      "step": 47665
    },
    {
      "entropy": 5.504302740097046,
      "epoch": 4.004872925855913,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003475917988039425,
      "loss": 4.9979,
      "mean_token_accuracy": 0.2043025329709053,
      "num_tokens": 87959052.0,
      "step": 47670
    },
    {
      "entropy": 5.502485227584839,
      "epoch": 4.005293005671078,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00034756345300094194,
      "loss": 4.9745,
      "mean_token_accuracy": 0.20466097593307495,
      "num_tokens": 87969496.0,
      "step": 47675
    },
    {
      "entropy": 5.485444259643555,
      "epoch": 4.005713085486242,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003475351059125172,
      "loss": 4.8856,
      "mean_token_accuracy": 0.2158660739660263,
      "num_tokens": 87978514.0,
      "step": 47680
    },
    {
      "entropy": 5.456489038467407,
      "epoch": 4.006133165301407,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00034750675753917037,
      "loss": 4.9219,
      "mean_token_accuracy": 0.2073824256658554,
      "num_tokens": 87987665.0,
      "step": 47685
    },
    {
      "entropy": 5.429657649993897,
      "epoch": 4.006553245116572,
      "grad_norm": 1.09375,
      "learning_rate": 0.00034747840788140364,
      "loss": 4.8484,
      "mean_token_accuracy": 0.21651829034090042,
      "num_tokens": 87995952.0,
      "step": 47690
    },
    {
      "entropy": 5.475266981124878,
      "epoch": 4.006973324931737,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00034745005693971934,
      "loss": 4.9774,
      "mean_token_accuracy": 0.204691082239151,
      "num_tokens": 88004927.0,
      "step": 47695
    },
    {
      "entropy": 5.372650146484375,
      "epoch": 4.007393404746902,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003474217047146195,
      "loss": 4.8516,
      "mean_token_accuracy": 0.21599940061569214,
      "num_tokens": 88013715.0,
      "step": 47700
    },
    {
      "entropy": 5.432879829406739,
      "epoch": 4.0078134845620665,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003473933512066065,
      "loss": 4.9056,
      "mean_token_accuracy": 0.20695242434740066,
      "num_tokens": 88021834.0,
      "step": 47705
    },
    {
      "entropy": 5.403126859664917,
      "epoch": 4.008233564377232,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00034736499641618255,
      "loss": 4.9309,
      "mean_token_accuracy": 0.20704373568296433,
      "num_tokens": 88030508.0,
      "step": 47710
    },
    {
      "entropy": 5.4330363273620605,
      "epoch": 4.008653644192396,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00034733664034384995,
      "loss": 4.8371,
      "mean_token_accuracy": 0.21452393978834153,
      "num_tokens": 88039488.0,
      "step": 47715
    },
    {
      "entropy": 5.500386810302734,
      "epoch": 4.009073724007561,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003473082829901109,
      "loss": 4.9014,
      "mean_token_accuracy": 0.210738867521286,
      "num_tokens": 88048606.0,
      "step": 47720
    },
    {
      "entropy": 5.458430671691895,
      "epoch": 4.009493803822727,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000347279924355468,
      "loss": 4.8923,
      "mean_token_accuracy": 0.21796591430902482,
      "num_tokens": 88057413.0,
      "step": 47725
    },
    {
      "entropy": 5.454626607894897,
      "epoch": 4.009913883637891,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003472515644404234,
      "loss": 4.9847,
      "mean_token_accuracy": 0.20271751135587693,
      "num_tokens": 88066457.0,
      "step": 47730
    },
    {
      "entropy": 5.386203241348267,
      "epoch": 4.010333963453056,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003472232032454795,
      "loss": 4.8823,
      "mean_token_accuracy": 0.21917076110839845,
      "num_tokens": 88075041.0,
      "step": 47735
    },
    {
      "entropy": 5.394292879104614,
      "epoch": 4.010754043268221,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00034719484077113885,
      "loss": 4.8176,
      "mean_token_accuracy": 0.22619395703077316,
      "num_tokens": 88083635.0,
      "step": 47740
    },
    {
      "entropy": 5.4876429557800295,
      "epoch": 4.011174123083386,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003471664770179037,
      "loss": 4.9679,
      "mean_token_accuracy": 0.20586907416582106,
      "num_tokens": 88091984.0,
      "step": 47745
    },
    {
      "entropy": 5.4384284019470215,
      "epoch": 4.011594202898551,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00034713811198627657,
      "loss": 4.8334,
      "mean_token_accuracy": 0.21465156227350235,
      "num_tokens": 88101214.0,
      "step": 47750
    },
    {
      "entropy": 5.476711130142212,
      "epoch": 4.012014282713715,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00034710974567675994,
      "loss": 4.8972,
      "mean_token_accuracy": 0.21039301604032518,
      "num_tokens": 88110258.0,
      "step": 47755
    },
    {
      "entropy": 5.405517482757569,
      "epoch": 4.0124343625288805,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00034708137808985636,
      "loss": 4.9164,
      "mean_token_accuracy": 0.2122261792421341,
      "num_tokens": 88120096.0,
      "step": 47760
    },
    {
      "entropy": 5.381437921524048,
      "epoch": 4.012854442344046,
      "grad_norm": 1.03125,
      "learning_rate": 0.00034705300922606826,
      "loss": 4.8836,
      "mean_token_accuracy": 0.21262159198522568,
      "num_tokens": 88130251.0,
      "step": 47765
    },
    {
      "entropy": 5.442167186737061,
      "epoch": 4.01327452215921,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00034702463908589816,
      "loss": 4.916,
      "mean_token_accuracy": 0.20872428268194199,
      "num_tokens": 88140008.0,
      "step": 47770
    },
    {
      "entropy": 5.543538808822632,
      "epoch": 4.013694601974375,
      "grad_norm": 1.078125,
      "learning_rate": 0.00034699626766984866,
      "loss": 4.959,
      "mean_token_accuracy": 0.20669176131486894,
      "num_tokens": 88149285.0,
      "step": 47775
    },
    {
      "entropy": 5.457511615753174,
      "epoch": 4.01411468178954,
      "grad_norm": 1.09375,
      "learning_rate": 0.00034696789497842237,
      "loss": 4.8736,
      "mean_token_accuracy": 0.21681652814149857,
      "num_tokens": 88157384.0,
      "step": 47780
    },
    {
      "entropy": 5.416299104690552,
      "epoch": 4.014534761604705,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00034693952101212184,
      "loss": 4.8675,
      "mean_token_accuracy": 0.21751179695129394,
      "num_tokens": 88165904.0,
      "step": 47785
    },
    {
      "entropy": 5.515694713592529,
      "epoch": 4.01495484141987,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003469111457714498,
      "loss": 4.9773,
      "mean_token_accuracy": 0.20172058343887328,
      "num_tokens": 88175302.0,
      "step": 47790
    },
    {
      "entropy": 5.4929815292358395,
      "epoch": 4.0153749212350345,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00034688276925690873,
      "loss": 4.9182,
      "mean_token_accuracy": 0.21005881875753402,
      "num_tokens": 88184379.0,
      "step": 47795
    },
    {
      "entropy": 5.453769302368164,
      "epoch": 4.0157950010502,
      "grad_norm": 1.109375,
      "learning_rate": 0.00034685439146900154,
      "loss": 4.892,
      "mean_token_accuracy": 0.21680403798818587,
      "num_tokens": 88193014.0,
      "step": 47800
    },
    {
      "entropy": 5.405017852783203,
      "epoch": 4.016215080865364,
      "grad_norm": 1.0625,
      "learning_rate": 0.00034682601240823075,
      "loss": 4.8218,
      "mean_token_accuracy": 0.21870448291301728,
      "num_tokens": 88202743.0,
      "step": 47805
    },
    {
      "entropy": 5.359735202789307,
      "epoch": 4.016635160680529,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003467976320750991,
      "loss": 4.8146,
      "mean_token_accuracy": 0.21765636652708054,
      "num_tokens": 88211926.0,
      "step": 47810
    },
    {
      "entropy": 5.483556890487671,
      "epoch": 4.0170552404956945,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00034676925047010947,
      "loss": 4.9435,
      "mean_token_accuracy": 0.21577902734279633,
      "num_tokens": 88221114.0,
      "step": 47815
    },
    {
      "entropy": 5.449124145507812,
      "epoch": 4.017475320310859,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003467408675937645,
      "loss": 4.8372,
      "mean_token_accuracy": 0.21019846051931382,
      "num_tokens": 88230546.0,
      "step": 47820
    },
    {
      "entropy": 5.571299839019775,
      "epoch": 4.017895400126024,
      "grad_norm": 1.078125,
      "learning_rate": 0.00034671248344656696,
      "loss": 5.0559,
      "mean_token_accuracy": 0.19885862320661546,
      "num_tokens": 88239945.0,
      "step": 47825
    },
    {
      "entropy": 5.362240934371949,
      "epoch": 4.018315479941188,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003466840980290197,
      "loss": 4.8002,
      "mean_token_accuracy": 0.22717773020267487,
      "num_tokens": 88249008.0,
      "step": 47830
    },
    {
      "entropy": 5.3245885372161865,
      "epoch": 4.018735559756354,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003466557113416256,
      "loss": 4.8698,
      "mean_token_accuracy": 0.21945056021213533,
      "num_tokens": 88257862.0,
      "step": 47835
    },
    {
      "entropy": 5.445208930969239,
      "epoch": 4.019155639571519,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00034662732338488746,
      "loss": 4.913,
      "mean_token_accuracy": 0.20674177408218383,
      "num_tokens": 88266361.0,
      "step": 47840
    },
    {
      "entropy": 5.42806830406189,
      "epoch": 4.019575719386683,
      "grad_norm": 1.15625,
      "learning_rate": 0.00034659893415930817,
      "loss": 4.8112,
      "mean_token_accuracy": 0.2140728712081909,
      "num_tokens": 88275915.0,
      "step": 47845
    },
    {
      "entropy": 5.504966592788696,
      "epoch": 4.0199957992018485,
      "grad_norm": 1.125,
      "learning_rate": 0.0003465705436653905,
      "loss": 4.9254,
      "mean_token_accuracy": 0.2030268833041191,
      "num_tokens": 88284987.0,
      "step": 47850
    },
    {
      "entropy": 5.445309638977051,
      "epoch": 4.020415879017013,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003465421519036377,
      "loss": 4.9575,
      "mean_token_accuracy": 0.20541021823883057,
      "num_tokens": 88294131.0,
      "step": 47855
    },
    {
      "entropy": 5.477004194259644,
      "epoch": 4.020835958832178,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00034651375887455245,
      "loss": 4.9587,
      "mean_token_accuracy": 0.20522390753030778,
      "num_tokens": 88303779.0,
      "step": 47860
    },
    {
      "entropy": 5.485553979873657,
      "epoch": 4.021256038647343,
      "grad_norm": 1.125,
      "learning_rate": 0.0003464853645786377,
      "loss": 4.9013,
      "mean_token_accuracy": 0.21384957432746887,
      "num_tokens": 88312928.0,
      "step": 47865
    },
    {
      "entropy": 5.405009603500366,
      "epoch": 4.021676118462508,
      "grad_norm": 1.046875,
      "learning_rate": 0.00034645696901639656,
      "loss": 4.8813,
      "mean_token_accuracy": 0.2116631805896759,
      "num_tokens": 88321967.0,
      "step": 47870
    },
    {
      "entropy": 5.436081409454346,
      "epoch": 4.022096198277673,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00034642857218833206,
      "loss": 4.9442,
      "mean_token_accuracy": 0.21263340711593628,
      "num_tokens": 88331102.0,
      "step": 47875
    },
    {
      "entropy": 5.448442029953003,
      "epoch": 4.022516278092838,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003464001740949472,
      "loss": 4.911,
      "mean_token_accuracy": 0.2077754944562912,
      "num_tokens": 88340932.0,
      "step": 47880
    },
    {
      "entropy": 5.465321636199951,
      "epoch": 4.022936357908002,
      "grad_norm": 1.0625,
      "learning_rate": 0.000346371774736745,
      "loss": 4.8868,
      "mean_token_accuracy": 0.21979785561561585,
      "num_tokens": 88350467.0,
      "step": 47885
    },
    {
      "entropy": 5.490587186813355,
      "epoch": 4.023356437723168,
      "grad_norm": 1.125,
      "learning_rate": 0.0003463433741142285,
      "loss": 4.9792,
      "mean_token_accuracy": 0.20252003222703935,
      "num_tokens": 88359593.0,
      "step": 47890
    },
    {
      "entropy": 5.458751201629639,
      "epoch": 4.023776517538332,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00034631497222790096,
      "loss": 4.9365,
      "mean_token_accuracy": 0.20943563580513,
      "num_tokens": 88368510.0,
      "step": 47895
    },
    {
      "entropy": 5.51704888343811,
      "epoch": 4.024196597353497,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003462865690782653,
      "loss": 5.0314,
      "mean_token_accuracy": 0.2041914090514183,
      "num_tokens": 88378121.0,
      "step": 47900
    },
    {
      "entropy": 5.474329996109009,
      "epoch": 4.0246166771686624,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00034625816466582487,
      "loss": 4.8779,
      "mean_token_accuracy": 0.2243163138628006,
      "num_tokens": 88386879.0,
      "step": 47905
    },
    {
      "entropy": 5.371695518493652,
      "epoch": 4.025036756983827,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00034622975899108275,
      "loss": 4.7624,
      "mean_token_accuracy": 0.21715898513793946,
      "num_tokens": 88395489.0,
      "step": 47910
    },
    {
      "entropy": 5.374471616744995,
      "epoch": 4.025456836798992,
      "grad_norm": 1.125,
      "learning_rate": 0.00034620135205454207,
      "loss": 4.8928,
      "mean_token_accuracy": 0.21675608158111573,
      "num_tokens": 88404394.0,
      "step": 47915
    },
    {
      "entropy": 5.4678747177124025,
      "epoch": 4.025876916614156,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003461729438567061,
      "loss": 5.0228,
      "mean_token_accuracy": 0.20447599291801452,
      "num_tokens": 88414568.0,
      "step": 47920
    },
    {
      "entropy": 5.448583459854126,
      "epoch": 4.026296996429322,
      "grad_norm": 1.109375,
      "learning_rate": 0.00034614453439807814,
      "loss": 4.8911,
      "mean_token_accuracy": 0.2168434292078018,
      "num_tokens": 88423519.0,
      "step": 47925
    },
    {
      "entropy": 5.465050935745239,
      "epoch": 4.026717076244487,
      "grad_norm": 1.078125,
      "learning_rate": 0.00034611612367916136,
      "loss": 4.9816,
      "mean_token_accuracy": 0.20984152406454087,
      "num_tokens": 88433609.0,
      "step": 47930
    },
    {
      "entropy": 5.491829824447632,
      "epoch": 4.027137156059651,
      "grad_norm": 1.0625,
      "learning_rate": 0.000346087711700459,
      "loss": 4.9092,
      "mean_token_accuracy": 0.20915008336305618,
      "num_tokens": 88442687.0,
      "step": 47935
    },
    {
      "entropy": 5.478678369522095,
      "epoch": 4.027557235874816,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003460592984624745,
      "loss": 4.96,
      "mean_token_accuracy": 0.21159780025482178,
      "num_tokens": 88451577.0,
      "step": 47940
    },
    {
      "entropy": 5.425551700592041,
      "epoch": 4.027977315689981,
      "grad_norm": 1.109375,
      "learning_rate": 0.00034603088396571106,
      "loss": 4.8389,
      "mean_token_accuracy": 0.2212756648659706,
      "num_tokens": 88460341.0,
      "step": 47945
    },
    {
      "entropy": 5.377299404144287,
      "epoch": 4.028397395505146,
      "grad_norm": 1.09375,
      "learning_rate": 0.00034600246821067215,
      "loss": 4.8728,
      "mean_token_accuracy": 0.2076562836766243,
      "num_tokens": 88470145.0,
      "step": 47950
    },
    {
      "entropy": 5.500543451309204,
      "epoch": 4.028817475320311,
      "grad_norm": 1.0625,
      "learning_rate": 0.00034597405119786103,
      "loss": 4.949,
      "mean_token_accuracy": 0.22268474102020264,
      "num_tokens": 88479086.0,
      "step": 47955
    },
    {
      "entropy": 5.489940595626831,
      "epoch": 4.0292375551354755,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003459456329277812,
      "loss": 4.9237,
      "mean_token_accuracy": 0.20726241916418076,
      "num_tokens": 88488377.0,
      "step": 47960
    },
    {
      "entropy": 5.364868402481079,
      "epoch": 4.029657634950641,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00034591721340093603,
      "loss": 4.747,
      "mean_token_accuracy": 0.23390978425741196,
      "num_tokens": 88497610.0,
      "step": 47965
    },
    {
      "entropy": 5.449935579299927,
      "epoch": 4.030077714765805,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0003458887926178288,
      "loss": 4.9569,
      "mean_token_accuracy": 0.20630061328411103,
      "num_tokens": 88507513.0,
      "step": 47970
    },
    {
      "entropy": 5.412704038619995,
      "epoch": 4.03049779458097,
      "grad_norm": 1.109375,
      "learning_rate": 0.00034586037057896327,
      "loss": 4.8942,
      "mean_token_accuracy": 0.21231867820024491,
      "num_tokens": 88516352.0,
      "step": 47975
    },
    {
      "entropy": 5.4869880199432375,
      "epoch": 4.030917874396136,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003458319472848427,
      "loss": 5.0266,
      "mean_token_accuracy": 0.20356423705816268,
      "num_tokens": 88525505.0,
      "step": 47980
    },
    {
      "entropy": 5.530267333984375,
      "epoch": 4.0313379542113,
      "grad_norm": 1.078125,
      "learning_rate": 0.00034580352273597066,
      "loss": 4.8899,
      "mean_token_accuracy": 0.21520987004041672,
      "num_tokens": 88534589.0,
      "step": 47985
    },
    {
      "entropy": 5.532340621948242,
      "epoch": 4.031758034026465,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003457750969328506,
      "loss": 4.9217,
      "mean_token_accuracy": 0.20755854696035386,
      "num_tokens": 88543720.0,
      "step": 47990
    },
    {
      "entropy": 5.375095176696777,
      "epoch": 4.0321781138416295,
      "grad_norm": 1.140625,
      "learning_rate": 0.00034574666987598624,
      "loss": 4.894,
      "mean_token_accuracy": 0.21150006353855133,
      "num_tokens": 88554020.0,
      "step": 47995
    },
    {
      "entropy": 5.399891710281372,
      "epoch": 4.032598193656795,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003457182415658809,
      "loss": 4.8667,
      "mean_token_accuracy": 0.21504666656255722,
      "num_tokens": 88563509.0,
      "step": 48000
    },
    {
      "epoch": 4.032598193656795,
      "eval_entropy": 5.2108469036962255,
      "eval_loss": 5.070637226104736,
      "eval_mean_token_accuracy": 0.2116624374206598,
      "eval_num_tokens": 88563509.0,
      "eval_runtime": 27.2783,
      "eval_samples_per_second": 1369.808,
      "eval_steps_per_second": 171.235,
      "step": 48000
    },
    {
      "entropy": 5.44071593284607,
      "epoch": 4.03301827347196,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00034568981200303853,
      "loss": 4.8703,
      "mean_token_accuracy": 0.21451409459114074,
      "num_tokens": 88572258.0,
      "step": 48005
    },
    {
      "entropy": 5.3931371688842775,
      "epoch": 4.033438353287124,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00034566138118796247,
      "loss": 4.8834,
      "mean_token_accuracy": 0.21088060587644578,
      "num_tokens": 88581590.0,
      "step": 48010
    },
    {
      "entropy": 5.415169811248779,
      "epoch": 4.0338584331022895,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003456329491211564,
      "loss": 4.8349,
      "mean_token_accuracy": 0.2130096897482872,
      "num_tokens": 88591113.0,
      "step": 48015
    },
    {
      "entropy": 5.444157552719116,
      "epoch": 4.034278512917455,
      "grad_norm": 1.25,
      "learning_rate": 0.000345604515803124,
      "loss": 4.8904,
      "mean_token_accuracy": 0.207711561024189,
      "num_tokens": 88600276.0,
      "step": 48020
    },
    {
      "entropy": 5.452561950683593,
      "epoch": 4.034698592732619,
      "grad_norm": 1.046875,
      "learning_rate": 0.000345576081234369,
      "loss": 4.9526,
      "mean_token_accuracy": 0.20591650307178497,
      "num_tokens": 88609609.0,
      "step": 48025
    },
    {
      "entropy": 5.502460527420044,
      "epoch": 4.035118672547784,
      "grad_norm": 1.125,
      "learning_rate": 0.0003455476454153951,
      "loss": 4.9996,
      "mean_token_accuracy": 0.20223858058452607,
      "num_tokens": 88618664.0,
      "step": 48030
    },
    {
      "entropy": 5.478117513656616,
      "epoch": 4.035538752362949,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003455192083467059,
      "loss": 4.888,
      "mean_token_accuracy": 0.21152009069919586,
      "num_tokens": 88627679.0,
      "step": 48035
    },
    {
      "entropy": 5.389818954467773,
      "epoch": 4.035958832178114,
      "grad_norm": 1.140625,
      "learning_rate": 0.00034549077002880526,
      "loss": 4.8713,
      "mean_token_accuracy": 0.2147367388010025,
      "num_tokens": 88637421.0,
      "step": 48040
    },
    {
      "entropy": 5.394922065734863,
      "epoch": 4.036378911993279,
      "grad_norm": 1.09375,
      "learning_rate": 0.00034546233046219693,
      "loss": 4.9509,
      "mean_token_accuracy": 0.20628871470689775,
      "num_tokens": 88646375.0,
      "step": 48045
    },
    {
      "entropy": 5.389629316329956,
      "epoch": 4.0367989918084435,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003454338896473847,
      "loss": 4.8228,
      "mean_token_accuracy": 0.21717191189527513,
      "num_tokens": 88654869.0,
      "step": 48050
    },
    {
      "entropy": 5.483677530288697,
      "epoch": 4.037219071623609,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00034540544758487234,
      "loss": 4.9275,
      "mean_token_accuracy": 0.20183900892734527,
      "num_tokens": 88663172.0,
      "step": 48055
    },
    {
      "entropy": 5.471744728088379,
      "epoch": 4.037639151438773,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003453770042751638,
      "loss": 4.9824,
      "mean_token_accuracy": 0.20907669365406037,
      "num_tokens": 88672581.0,
      "step": 48060
    },
    {
      "entropy": 5.4306172847747805,
      "epoch": 4.038059231253938,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003453485597187629,
      "loss": 4.8358,
      "mean_token_accuracy": 0.22426913678646088,
      "num_tokens": 88681452.0,
      "step": 48065
    },
    {
      "entropy": 5.391076755523682,
      "epoch": 4.0384793110691035,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00034532011391617335,
      "loss": 4.8303,
      "mean_token_accuracy": 0.21720088571310042,
      "num_tokens": 88690520.0,
      "step": 48070
    },
    {
      "entropy": 5.347241497039795,
      "epoch": 4.038899390884268,
      "grad_norm": 1.171875,
      "learning_rate": 0.00034529166686789924,
      "loss": 4.812,
      "mean_token_accuracy": 0.22280981838703157,
      "num_tokens": 88699192.0,
      "step": 48075
    },
    {
      "entropy": 5.472905874252319,
      "epoch": 4.039319470699433,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003452632185744445,
      "loss": 4.9941,
      "mean_token_accuracy": 0.20450391471385956,
      "num_tokens": 88708577.0,
      "step": 48080
    },
    {
      "entropy": 5.394973516464233,
      "epoch": 4.039739550514597,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000345234769036313,
      "loss": 4.8902,
      "mean_token_accuracy": 0.20818195641040801,
      "num_tokens": 88716719.0,
      "step": 48085
    },
    {
      "entropy": 5.441162204742431,
      "epoch": 4.040159630329763,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003452063182540088,
      "loss": 4.9267,
      "mean_token_accuracy": 0.2136740505695343,
      "num_tokens": 88725654.0,
      "step": 48090
    },
    {
      "entropy": 5.477431106567383,
      "epoch": 4.040579710144928,
      "grad_norm": 1.125,
      "learning_rate": 0.0003451778662280357,
      "loss": 4.9105,
      "mean_token_accuracy": 0.21823350936174393,
      "num_tokens": 88735065.0,
      "step": 48095
    },
    {
      "entropy": 5.445667457580567,
      "epoch": 4.040999789960092,
      "grad_norm": 1.125,
      "learning_rate": 0.0003451494129588979,
      "loss": 4.9167,
      "mean_token_accuracy": 0.21211885213851928,
      "num_tokens": 88744789.0,
      "step": 48100
    },
    {
      "entropy": 5.446569871902466,
      "epoch": 4.0414198697752575,
      "grad_norm": 1.03125,
      "learning_rate": 0.00034512095844709933,
      "loss": 4.9286,
      "mean_token_accuracy": 0.20772628039121627,
      "num_tokens": 88754095.0,
      "step": 48105
    },
    {
      "entropy": 5.493838262557984,
      "epoch": 4.041839949590422,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003450925026931442,
      "loss": 4.9729,
      "mean_token_accuracy": 0.21068877577781678,
      "num_tokens": 88762275.0,
      "step": 48110
    },
    {
      "entropy": 5.459732866287231,
      "epoch": 4.042260029405587,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003450640456975364,
      "loss": 4.961,
      "mean_token_accuracy": 0.20944660604000093,
      "num_tokens": 88771781.0,
      "step": 48115
    },
    {
      "entropy": 5.479031944274903,
      "epoch": 4.042680109220752,
      "grad_norm": 1.0625,
      "learning_rate": 0.00034503558746078005,
      "loss": 4.9775,
      "mean_token_accuracy": 0.19950631260871887,
      "num_tokens": 88780529.0,
      "step": 48120
    },
    {
      "entropy": 5.41812162399292,
      "epoch": 4.043100189035917,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003450071279833794,
      "loss": 4.9851,
      "mean_token_accuracy": 0.2043558582663536,
      "num_tokens": 88789949.0,
      "step": 48125
    },
    {
      "entropy": 5.425308132171631,
      "epoch": 4.043520268851082,
      "grad_norm": 1.046875,
      "learning_rate": 0.00034497866726583847,
      "loss": 4.9574,
      "mean_token_accuracy": 0.20856382548809052,
      "num_tokens": 88799673.0,
      "step": 48130
    },
    {
      "entropy": 5.431474018096924,
      "epoch": 4.043940348666246,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003449502053086615,
      "loss": 4.8657,
      "mean_token_accuracy": 0.2153344064950943,
      "num_tokens": 88808970.0,
      "step": 48135
    },
    {
      "entropy": 5.478667497634888,
      "epoch": 4.044360428481411,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00034492174211235273,
      "loss": 4.8802,
      "mean_token_accuracy": 0.2173018202185631,
      "num_tokens": 88818368.0,
      "step": 48140
    },
    {
      "entropy": 5.531168699264526,
      "epoch": 4.044780508296577,
      "grad_norm": 1.125,
      "learning_rate": 0.00034489327767741625,
      "loss": 5.073,
      "mean_token_accuracy": 0.20172612816095353,
      "num_tokens": 88828290.0,
      "step": 48145
    },
    {
      "entropy": 5.386242818832398,
      "epoch": 4.045200588111741,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00034486481200435634,
      "loss": 4.8625,
      "mean_token_accuracy": 0.21434028446674347,
      "num_tokens": 88837561.0,
      "step": 48150
    },
    {
      "entropy": 5.47013783454895,
      "epoch": 4.045620667926906,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00034483634509367727,
      "loss": 5.0087,
      "mean_token_accuracy": 0.2016021192073822,
      "num_tokens": 88846694.0,
      "step": 48155
    },
    {
      "entropy": 5.523136997222901,
      "epoch": 4.046040747742071,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003448078769458833,
      "loss": 4.9843,
      "mean_token_accuracy": 0.20383791029453277,
      "num_tokens": 88856497.0,
      "step": 48160
    },
    {
      "entropy": 5.43567156791687,
      "epoch": 4.046460827557236,
      "grad_norm": 1.296875,
      "learning_rate": 0.0003447794075614788,
      "loss": 4.8494,
      "mean_token_accuracy": 0.21336323767900467,
      "num_tokens": 88865635.0,
      "step": 48165
    },
    {
      "entropy": 5.387342309951782,
      "epoch": 4.046880907372401,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003447509369409679,
      "loss": 4.8117,
      "mean_token_accuracy": 0.22090353816747665,
      "num_tokens": 88874859.0,
      "step": 48170
    },
    {
      "entropy": 5.444752502441406,
      "epoch": 4.047300987187565,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003447224650848552,
      "loss": 4.986,
      "mean_token_accuracy": 0.2042782947421074,
      "num_tokens": 88884266.0,
      "step": 48175
    },
    {
      "entropy": 5.494566965103149,
      "epoch": 4.047721067002731,
      "grad_norm": 1.09375,
      "learning_rate": 0.00034469399199364486,
      "loss": 4.9606,
      "mean_token_accuracy": 0.20827451050281526,
      "num_tokens": 88893733.0,
      "step": 48180
    },
    {
      "entropy": 5.4288441181182865,
      "epoch": 4.048141146817896,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003446655176678414,
      "loss": 4.8579,
      "mean_token_accuracy": 0.20695750415325165,
      "num_tokens": 88902175.0,
      "step": 48185
    },
    {
      "entropy": 5.3875123977661135,
      "epoch": 4.04856122663306,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003446370421079491,
      "loss": 4.8818,
      "mean_token_accuracy": 0.21784013360738755,
      "num_tokens": 88911562.0,
      "step": 48190
    },
    {
      "entropy": 5.3848813533782955,
      "epoch": 4.048981306448225,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00034460856531447247,
      "loss": 4.8936,
      "mean_token_accuracy": 0.21308972388505937,
      "num_tokens": 88920315.0,
      "step": 48195
    },
    {
      "entropy": 5.413825273513794,
      "epoch": 4.04940138626339,
      "grad_norm": 1.015625,
      "learning_rate": 0.000344580087287916,
      "loss": 4.8819,
      "mean_token_accuracy": 0.2154961794614792,
      "num_tokens": 88929960.0,
      "step": 48200
    },
    {
      "entropy": 5.395407819747925,
      "epoch": 4.049821466078555,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00034455160802878397,
      "loss": 4.8463,
      "mean_token_accuracy": 0.2213099107146263,
      "num_tokens": 88938558.0,
      "step": 48205
    },
    {
      "entropy": 5.518382740020752,
      "epoch": 4.05024154589372,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00034452312753758114,
      "loss": 5.036,
      "mean_token_accuracy": 0.20328017920255662,
      "num_tokens": 88947981.0,
      "step": 48210
    },
    {
      "entropy": 5.519847059249878,
      "epoch": 4.0506616257088846,
      "grad_norm": 1.125,
      "learning_rate": 0.0003444946458148119,
      "loss": 5.0629,
      "mean_token_accuracy": 0.20420496463775634,
      "num_tokens": 88957695.0,
      "step": 48215
    },
    {
      "entropy": 5.561517333984375,
      "epoch": 4.05108170552405,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00034446616286098076,
      "loss": 5.0121,
      "mean_token_accuracy": 0.2096683070063591,
      "num_tokens": 88967456.0,
      "step": 48220
    },
    {
      "entropy": 5.4469757080078125,
      "epoch": 4.051501785339214,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003444376786765923,
      "loss": 4.8053,
      "mean_token_accuracy": 0.22682161629199982,
      "num_tokens": 88975236.0,
      "step": 48225
    },
    {
      "entropy": 5.4067521572113035,
      "epoch": 4.051921865154379,
      "grad_norm": 1.03125,
      "learning_rate": 0.00034440919326215113,
      "loss": 4.8422,
      "mean_token_accuracy": 0.218487012386322,
      "num_tokens": 88985045.0,
      "step": 48230
    },
    {
      "entropy": 5.485000419616699,
      "epoch": 4.052341944969545,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003443807066181619,
      "loss": 5.081,
      "mean_token_accuracy": 0.198786860704422,
      "num_tokens": 88994645.0,
      "step": 48235
    },
    {
      "entropy": 5.449552965164185,
      "epoch": 4.052762024784709,
      "grad_norm": 1.09375,
      "learning_rate": 0.00034435221874512913,
      "loss": 4.9374,
      "mean_token_accuracy": 0.2146983966231346,
      "num_tokens": 89003162.0,
      "step": 48240
    },
    {
      "entropy": 5.475822257995605,
      "epoch": 4.053182104599874,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003443237296435575,
      "loss": 4.8704,
      "mean_token_accuracy": 0.21650096625089646,
      "num_tokens": 89011722.0,
      "step": 48245
    },
    {
      "entropy": 5.503058433532715,
      "epoch": 4.0536021844150385,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00034429523931395174,
      "loss": 4.9777,
      "mean_token_accuracy": 0.2071852996945381,
      "num_tokens": 89020640.0,
      "step": 48250
    },
    {
      "entropy": 5.394830799102783,
      "epoch": 4.054022264230204,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003442667477568165,
      "loss": 4.7702,
      "mean_token_accuracy": 0.23184734731912612,
      "num_tokens": 89029083.0,
      "step": 48255
    },
    {
      "entropy": 5.440384721755981,
      "epoch": 4.054442344045369,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00034423825497265645,
      "loss": 4.9631,
      "mean_token_accuracy": 0.21191099733114244,
      "num_tokens": 89038752.0,
      "step": 48260
    },
    {
      "entropy": 5.555044889450073,
      "epoch": 4.054862423860533,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003442097609619764,
      "loss": 5.0132,
      "mean_token_accuracy": 0.20765879303216933,
      "num_tokens": 89048334.0,
      "step": 48265
    },
    {
      "entropy": 5.528889465332031,
      "epoch": 4.0552825036756985,
      "grad_norm": 1.03125,
      "learning_rate": 0.000344181265725281,
      "loss": 4.9332,
      "mean_token_accuracy": 0.21568489223718643,
      "num_tokens": 89057472.0,
      "step": 48270
    },
    {
      "entropy": 5.448323059082031,
      "epoch": 4.055702583490863,
      "grad_norm": 1.171875,
      "learning_rate": 0.00034415276926307514,
      "loss": 4.8512,
      "mean_token_accuracy": 0.20808514952659607,
      "num_tokens": 89065913.0,
      "step": 48275
    },
    {
      "entropy": 5.437930059432984,
      "epoch": 4.056122663306028,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00034412427157586365,
      "loss": 4.9283,
      "mean_token_accuracy": 0.2139880895614624,
      "num_tokens": 89075035.0,
      "step": 48280
    },
    {
      "entropy": 5.399668264389038,
      "epoch": 4.056542743121193,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003440957726641512,
      "loss": 4.8719,
      "mean_token_accuracy": 0.20692329108715057,
      "num_tokens": 89085473.0,
      "step": 48285
    },
    {
      "entropy": 5.445143556594848,
      "epoch": 4.056962822936358,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003440672725284428,
      "loss": 4.8652,
      "mean_token_accuracy": 0.21728847473859786,
      "num_tokens": 89094749.0,
      "step": 48290
    },
    {
      "entropy": 5.462260913848877,
      "epoch": 4.057382902751523,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003440387711692431,
      "loss": 5.0087,
      "mean_token_accuracy": 0.19549639523029327,
      "num_tokens": 89104817.0,
      "step": 48295
    },
    {
      "entropy": 5.499342060089111,
      "epoch": 4.057802982566687,
      "grad_norm": 1.15625,
      "learning_rate": 0.00034401026858705717,
      "loss": 4.9077,
      "mean_token_accuracy": 0.21628371626138687,
      "num_tokens": 89113738.0,
      "step": 48300
    },
    {
      "entropy": 5.492209196090698,
      "epoch": 4.0582230623818525,
      "grad_norm": 1.078125,
      "learning_rate": 0.00034398176478238996,
      "loss": 4.9675,
      "mean_token_accuracy": 0.21569864302873612,
      "num_tokens": 89122863.0,
      "step": 48305
    },
    {
      "entropy": 5.420669984817505,
      "epoch": 4.058643142197018,
      "grad_norm": 1.125,
      "learning_rate": 0.0003439532597557462,
      "loss": 4.9568,
      "mean_token_accuracy": 0.20553428381681443,
      "num_tokens": 89131260.0,
      "step": 48310
    },
    {
      "entropy": 5.499904918670654,
      "epoch": 4.059063222012182,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000343924753507631,
      "loss": 4.9392,
      "mean_token_accuracy": 0.20772221833467483,
      "num_tokens": 89140561.0,
      "step": 48315
    },
    {
      "entropy": 5.485725784301758,
      "epoch": 4.059483301827347,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0003438962460385493,
      "loss": 4.9413,
      "mean_token_accuracy": 0.2096802294254303,
      "num_tokens": 89149176.0,
      "step": 48320
    },
    {
      "entropy": 5.460399484634399,
      "epoch": 4.059903381642512,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000343867737349006,
      "loss": 4.8925,
      "mean_token_accuracy": 0.21763546466827394,
      "num_tokens": 89158846.0,
      "step": 48325
    },
    {
      "entropy": 5.388177394866943,
      "epoch": 4.060323461457677,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003438392274395063,
      "loss": 4.8487,
      "mean_token_accuracy": 0.21773153096437453,
      "num_tokens": 89167508.0,
      "step": 48330
    },
    {
      "entropy": 5.380348968505859,
      "epoch": 4.060743541272842,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00034381071631055504,
      "loss": 4.9129,
      "mean_token_accuracy": 0.2077898785471916,
      "num_tokens": 89176296.0,
      "step": 48335
    },
    {
      "entropy": 5.449029636383057,
      "epoch": 4.061163621088006,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00034378220396265736,
      "loss": 4.8539,
      "mean_token_accuracy": 0.21014092564582826,
      "num_tokens": 89184255.0,
      "step": 48340
    },
    {
      "entropy": 5.443028497695923,
      "epoch": 4.061583700903172,
      "grad_norm": 1.078125,
      "learning_rate": 0.00034375369039631843,
      "loss": 4.8636,
      "mean_token_accuracy": 0.21420386135578157,
      "num_tokens": 89193537.0,
      "step": 48345
    },
    {
      "entropy": 5.3752141952514645,
      "epoch": 4.062003780718337,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00034372517561204327,
      "loss": 4.893,
      "mean_token_accuracy": 0.21772096455097198,
      "num_tokens": 89202603.0,
      "step": 48350
    },
    {
      "entropy": 5.413217926025391,
      "epoch": 4.062423860533501,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000343696659610337,
      "loss": 4.8939,
      "mean_token_accuracy": 0.2121035635471344,
      "num_tokens": 89211325.0,
      "step": 48355
    },
    {
      "entropy": 5.451169157028199,
      "epoch": 4.0628439403486665,
      "grad_norm": 1.171875,
      "learning_rate": 0.00034366814239170475,
      "loss": 4.8387,
      "mean_token_accuracy": 0.22197534441947936,
      "num_tokens": 89220712.0,
      "step": 48360
    },
    {
      "entropy": 5.459293985366822,
      "epoch": 4.063264020163831,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003436396239566517,
      "loss": 4.942,
      "mean_token_accuracy": 0.21086038649082184,
      "num_tokens": 89229737.0,
      "step": 48365
    },
    {
      "entropy": 5.462857389450074,
      "epoch": 4.063684099978996,
      "grad_norm": 1.109375,
      "learning_rate": 0.00034361110430568314,
      "loss": 4.9258,
      "mean_token_accuracy": 0.20958485305309296,
      "num_tokens": 89239066.0,
      "step": 48370
    },
    {
      "entropy": 5.511821031570435,
      "epoch": 4.064104179794161,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00034358258343930413,
      "loss": 4.9704,
      "mean_token_accuracy": 0.20827415436506272,
      "num_tokens": 89248352.0,
      "step": 48375
    },
    {
      "entropy": 5.399215888977051,
      "epoch": 4.064524259609326,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00034355406135802,
      "loss": 4.8075,
      "mean_token_accuracy": 0.21783490628004074,
      "num_tokens": 89257557.0,
      "step": 48380
    },
    {
      "entropy": 5.433898115158081,
      "epoch": 4.064944339424491,
      "grad_norm": 1.046875,
      "learning_rate": 0.000343525538062336,
      "loss": 4.9459,
      "mean_token_accuracy": 0.21345155388116838,
      "num_tokens": 89267552.0,
      "step": 48385
    },
    {
      "entropy": 5.442214298248291,
      "epoch": 4.065364419239655,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003434970135527573,
      "loss": 4.9301,
      "mean_token_accuracy": 0.20797760486602784,
      "num_tokens": 89276440.0,
      "step": 48390
    },
    {
      "entropy": 5.423914575576783,
      "epoch": 4.06578449905482,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00034346848782978935,
      "loss": 4.8468,
      "mean_token_accuracy": 0.22023435533046723,
      "num_tokens": 89285399.0,
      "step": 48395
    },
    {
      "entropy": 5.346977949142456,
      "epoch": 4.066204578869986,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00034343996089393735,
      "loss": 4.814,
      "mean_token_accuracy": 0.22397907078266144,
      "num_tokens": 89294102.0,
      "step": 48400
    },
    {
      "entropy": 5.428108596801758,
      "epoch": 4.06662465868515,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003434114327457067,
      "loss": 4.9629,
      "mean_token_accuracy": 0.21063488572835923,
      "num_tokens": 89303097.0,
      "step": 48405
    },
    {
      "entropy": 5.431947803497314,
      "epoch": 4.067044738500315,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003433829033856027,
      "loss": 4.9195,
      "mean_token_accuracy": 0.21808764487504959,
      "num_tokens": 89311888.0,
      "step": 48410
    },
    {
      "entropy": 5.450504541397095,
      "epoch": 4.06746481831548,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00034335437281413084,
      "loss": 4.857,
      "mean_token_accuracy": 0.21747986525297164,
      "num_tokens": 89320683.0,
      "step": 48415
    },
    {
      "entropy": 5.5428242683410645,
      "epoch": 4.067884898130645,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00034332584103179635,
      "loss": 4.9992,
      "mean_token_accuracy": 0.2109847128391266,
      "num_tokens": 89329829.0,
      "step": 48420
    },
    {
      "entropy": 5.519950532913208,
      "epoch": 4.06830497794581,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003432973080391049,
      "loss": 4.9897,
      "mean_token_accuracy": 0.2029114007949829,
      "num_tokens": 89339465.0,
      "step": 48425
    },
    {
      "entropy": 5.4506947040557865,
      "epoch": 4.068725057760974,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003432687738365618,
      "loss": 4.8923,
      "mean_token_accuracy": 0.22074285596609117,
      "num_tokens": 89348333.0,
      "step": 48430
    },
    {
      "entropy": 5.427898120880127,
      "epoch": 4.06914513757614,
      "grad_norm": 1.140625,
      "learning_rate": 0.00034324023842467245,
      "loss": 4.8807,
      "mean_token_accuracy": 0.21048911213874816,
      "num_tokens": 89357562.0,
      "step": 48435
    },
    {
      "entropy": 5.409712409973144,
      "epoch": 4.069565217391304,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003432117018039425,
      "loss": 4.8932,
      "mean_token_accuracy": 0.21574293971061706,
      "num_tokens": 89366903.0,
      "step": 48440
    },
    {
      "entropy": 5.477424049377442,
      "epoch": 4.069985297206469,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003431831639748773,
      "loss": 4.8641,
      "mean_token_accuracy": 0.21485217809677123,
      "num_tokens": 89375297.0,
      "step": 48445
    },
    {
      "entropy": 5.431465721130371,
      "epoch": 4.070405377021634,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003431546249379825,
      "loss": 4.9073,
      "mean_token_accuracy": 0.2137776255607605,
      "num_tokens": 89384024.0,
      "step": 48450
    },
    {
      "entropy": 5.466672754287719,
      "epoch": 4.070825456836799,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00034312608469376363,
      "loss": 4.936,
      "mean_token_accuracy": 0.2179068148136139,
      "num_tokens": 89393249.0,
      "step": 48455
    },
    {
      "entropy": 5.412892246246338,
      "epoch": 4.071245536651964,
      "grad_norm": 1.078125,
      "learning_rate": 0.00034309754324272625,
      "loss": 4.8678,
      "mean_token_accuracy": 0.21082037985324859,
      "num_tokens": 89402297.0,
      "step": 48460
    },
    {
      "entropy": 5.377248287200928,
      "epoch": 4.071665616467128,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00034306900058537587,
      "loss": 4.8389,
      "mean_token_accuracy": 0.21871938556432724,
      "num_tokens": 89411549.0,
      "step": 48465
    },
    {
      "entropy": 5.4048499584198,
      "epoch": 4.0720856962822936,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003430404567222183,
      "loss": 4.9408,
      "mean_token_accuracy": 0.21146053969860076,
      "num_tokens": 89420810.0,
      "step": 48470
    },
    {
      "entropy": 5.414121866226196,
      "epoch": 4.072505776097459,
      "grad_norm": 0.98046875,
      "learning_rate": 0.000343011911653759,
      "loss": 4.9517,
      "mean_token_accuracy": 0.20206034183502197,
      "num_tokens": 89430491.0,
      "step": 48475
    },
    {
      "entropy": 5.555501461029053,
      "epoch": 4.072925855912623,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003429833653805037,
      "loss": 5.0286,
      "mean_token_accuracy": 0.2045746311545372,
      "num_tokens": 89440460.0,
      "step": 48480
    },
    {
      "entropy": 5.39832763671875,
      "epoch": 4.073345935727788,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003429548179029581,
      "loss": 4.8367,
      "mean_token_accuracy": 0.21958716362714767,
      "num_tokens": 89450429.0,
      "step": 48485
    },
    {
      "entropy": 5.498550176620483,
      "epoch": 4.073766015542954,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00034292626922162797,
      "loss": 5.0106,
      "mean_token_accuracy": 0.20119923502206802,
      "num_tokens": 89459297.0,
      "step": 48490
    },
    {
      "entropy": 5.473476839065552,
      "epoch": 4.074186095358118,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003428977193370189,
      "loss": 4.921,
      "mean_token_accuracy": 0.21121264845132828,
      "num_tokens": 89468201.0,
      "step": 48495
    },
    {
      "entropy": 5.418055772781372,
      "epoch": 4.074606175173283,
      "grad_norm": 1.125,
      "learning_rate": 0.0003428691682496367,
      "loss": 4.8213,
      "mean_token_accuracy": 0.21912321746349334,
      "num_tokens": 89476917.0,
      "step": 48500
    },
    {
      "entropy": 5.411062526702881,
      "epoch": 4.0750262549884475,
      "grad_norm": 1.125,
      "learning_rate": 0.00034284061595998713,
      "loss": 4.8823,
      "mean_token_accuracy": 0.21218910813331604,
      "num_tokens": 89485662.0,
      "step": 48505
    },
    {
      "entropy": 5.312935304641724,
      "epoch": 4.075446334803613,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000342812062468576,
      "loss": 4.8199,
      "mean_token_accuracy": 0.22317154407501222,
      "num_tokens": 89494685.0,
      "step": 48510
    },
    {
      "entropy": 5.438952827453614,
      "epoch": 4.075866414618778,
      "grad_norm": 1.140625,
      "learning_rate": 0.00034278350777590904,
      "loss": 4.9635,
      "mean_token_accuracy": 0.21160071045160295,
      "num_tokens": 89504219.0,
      "step": 48515
    },
    {
      "entropy": 5.4235312938690186,
      "epoch": 4.076286494433942,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003427549518824922,
      "loss": 4.8149,
      "mean_token_accuracy": 0.21985708624124528,
      "num_tokens": 89513372.0,
      "step": 48520
    },
    {
      "entropy": 5.434317493438721,
      "epoch": 4.0767065742491075,
      "grad_norm": 1.15625,
      "learning_rate": 0.00034272639478883125,
      "loss": 4.8912,
      "mean_token_accuracy": 0.21578990370035173,
      "num_tokens": 89522812.0,
      "step": 48525
    },
    {
      "entropy": 5.407570457458496,
      "epoch": 4.077126654064272,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003426978364954321,
      "loss": 4.9334,
      "mean_token_accuracy": 0.21410444378852844,
      "num_tokens": 89531865.0,
      "step": 48530
    },
    {
      "entropy": 5.478819894790649,
      "epoch": 4.077546733879437,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00034266927700280067,
      "loss": 4.9574,
      "mean_token_accuracy": 0.21056290566921235,
      "num_tokens": 89541796.0,
      "step": 48535
    },
    {
      "entropy": 5.4724725723266605,
      "epoch": 4.077966813694602,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00034264071631144285,
      "loss": 4.9111,
      "mean_token_accuracy": 0.20708372592926025,
      "num_tokens": 89550638.0,
      "step": 48540
    },
    {
      "entropy": 5.558779668807984,
      "epoch": 4.078386893509767,
      "grad_norm": 1.203125,
      "learning_rate": 0.00034261215442186446,
      "loss": 5.0379,
      "mean_token_accuracy": 0.20433349013328553,
      "num_tokens": 89559617.0,
      "step": 48545
    },
    {
      "entropy": 5.414361953735352,
      "epoch": 4.078806973324932,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003425835913345716,
      "loss": 4.964,
      "mean_token_accuracy": 0.2109169140458107,
      "num_tokens": 89569260.0,
      "step": 48550
    },
    {
      "entropy": 5.405701923370361,
      "epoch": 4.079227053140096,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003425550270500703,
      "loss": 4.9111,
      "mean_token_accuracy": 0.20634765177965164,
      "num_tokens": 89578496.0,
      "step": 48555
    },
    {
      "entropy": 5.419921827316284,
      "epoch": 4.0796471329552615,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00034252646156886647,
      "loss": 4.8828,
      "mean_token_accuracy": 0.2209781751036644,
      "num_tokens": 89587815.0,
      "step": 48560
    },
    {
      "entropy": 5.350984764099121,
      "epoch": 4.080067212770427,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003424978948914661,
      "loss": 4.8026,
      "mean_token_accuracy": 0.2116354748606682,
      "num_tokens": 89597525.0,
      "step": 48565
    },
    {
      "entropy": 5.38142237663269,
      "epoch": 4.080487292585591,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003424693270183753,
      "loss": 4.8631,
      "mean_token_accuracy": 0.21962861716747284,
      "num_tokens": 89606517.0,
      "step": 48570
    },
    {
      "entropy": 5.486429691314697,
      "epoch": 4.080907372400756,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003424407579501001,
      "loss": 5.0146,
      "mean_token_accuracy": 0.20025743842124938,
      "num_tokens": 89615936.0,
      "step": 48575
    },
    {
      "entropy": 5.497460174560547,
      "epoch": 4.081327452215921,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003424121876871466,
      "loss": 4.9806,
      "mean_token_accuracy": 0.20534440279006957,
      "num_tokens": 89625624.0,
      "step": 48580
    },
    {
      "entropy": 5.466355037689209,
      "epoch": 4.081747532031086,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003423836162300209,
      "loss": 4.9117,
      "mean_token_accuracy": 0.21429287493228913,
      "num_tokens": 89635203.0,
      "step": 48585
    },
    {
      "entropy": 5.464797449111939,
      "epoch": 4.082167611846251,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00034235504357922917,
      "loss": 4.9089,
      "mean_token_accuracy": 0.21625315994024277,
      "num_tokens": 89643768.0,
      "step": 48590
    },
    {
      "entropy": 5.587242174148559,
      "epoch": 4.082587691661415,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003423264697352775,
      "loss": 5.1135,
      "mean_token_accuracy": 0.20284520834684372,
      "num_tokens": 89653040.0,
      "step": 48595
    },
    {
      "entropy": 5.439514970779419,
      "epoch": 4.083007771476581,
      "grad_norm": 1.078125,
      "learning_rate": 0.00034229789469867206,
      "loss": 4.9188,
      "mean_token_accuracy": 0.21759636849164962,
      "num_tokens": 89663586.0,
      "step": 48600
    },
    {
      "entropy": 5.398720121383667,
      "epoch": 4.083427851291745,
      "grad_norm": 1.125,
      "learning_rate": 0.00034226931846991914,
      "loss": 4.8428,
      "mean_token_accuracy": 0.21885957270860673,
      "num_tokens": 89672288.0,
      "step": 48605
    },
    {
      "entropy": 5.508207321166992,
      "epoch": 4.08384793110691,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003422407410495248,
      "loss": 4.9531,
      "mean_token_accuracy": 0.21151577532291413,
      "num_tokens": 89681901.0,
      "step": 48610
    },
    {
      "entropy": 5.440609121322632,
      "epoch": 4.0842680109220755,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003422121624379954,
      "loss": 4.9113,
      "mean_token_accuracy": 0.21467913538217545,
      "num_tokens": 89690727.0,
      "step": 48615
    },
    {
      "entropy": 5.410379838943482,
      "epoch": 4.08468809073724,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00034218358263583717,
      "loss": 4.9346,
      "mean_token_accuracy": 0.21415960043668747,
      "num_tokens": 89699856.0,
      "step": 48620
    },
    {
      "entropy": 5.454716491699219,
      "epoch": 4.085108170552405,
      "grad_norm": 1.140625,
      "learning_rate": 0.00034215500164355635,
      "loss": 4.9455,
      "mean_token_accuracy": 0.207372285425663,
      "num_tokens": 89708473.0,
      "step": 48625
    },
    {
      "entropy": 5.458763647079468,
      "epoch": 4.08552825036757,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00034212641946165925,
      "loss": 4.9246,
      "mean_token_accuracy": 0.20813381522893906,
      "num_tokens": 89719284.0,
      "step": 48630
    },
    {
      "entropy": 5.537823057174682,
      "epoch": 4.085948330182735,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003420978360906522,
      "loss": 5.0633,
      "mean_token_accuracy": 0.19796723127365112,
      "num_tokens": 89729590.0,
      "step": 48635
    },
    {
      "entropy": 5.416056966781616,
      "epoch": 4.0863684099979,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003420692515310415,
      "loss": 4.862,
      "mean_token_accuracy": 0.21460657119750975,
      "num_tokens": 89739230.0,
      "step": 48640
    },
    {
      "entropy": 5.395733880996704,
      "epoch": 4.086788489813064,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003420406657833336,
      "loss": 4.8554,
      "mean_token_accuracy": 0.22471903264522552,
      "num_tokens": 89748552.0,
      "step": 48645
    },
    {
      "entropy": 5.474551486968994,
      "epoch": 4.087208569628229,
      "grad_norm": 1.125,
      "learning_rate": 0.0003420120788480348,
      "loss": 4.9806,
      "mean_token_accuracy": 0.20874660462141037,
      "num_tokens": 89758460.0,
      "step": 48650
    },
    {
      "entropy": 5.505597543716431,
      "epoch": 4.087628649443395,
      "grad_norm": 1.15625,
      "learning_rate": 0.00034198349072565154,
      "loss": 4.9742,
      "mean_token_accuracy": 0.2068060517311096,
      "num_tokens": 89767983.0,
      "step": 48655
    },
    {
      "entropy": 5.5245811462402346,
      "epoch": 4.088048729258559,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003419549014166902,
      "loss": 4.9322,
      "mean_token_accuracy": 0.21021221280097963,
      "num_tokens": 89777795.0,
      "step": 48660
    },
    {
      "entropy": 5.4941199779510494,
      "epoch": 4.088468809073724,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00034192631092165734,
      "loss": 4.9608,
      "mean_token_accuracy": 0.20917921364307404,
      "num_tokens": 89787231.0,
      "step": 48665
    },
    {
      "entropy": 5.441835927963257,
      "epoch": 4.088888888888889,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00034189771924105926,
      "loss": 4.8743,
      "mean_token_accuracy": 0.22018366754055024,
      "num_tokens": 89796149.0,
      "step": 48670
    },
    {
      "entropy": 5.430995607376099,
      "epoch": 4.089308968704054,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00034186912637540256,
      "loss": 4.8957,
      "mean_token_accuracy": 0.21517059057950974,
      "num_tokens": 89805014.0,
      "step": 48675
    },
    {
      "entropy": 5.446617794036865,
      "epoch": 4.089729048519219,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003418405323251937,
      "loss": 4.9356,
      "mean_token_accuracy": 0.21374616622924805,
      "num_tokens": 89813271.0,
      "step": 48680
    },
    {
      "entropy": 5.51464614868164,
      "epoch": 4.090149128334383,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003418119370909392,
      "loss": 4.9841,
      "mean_token_accuracy": 0.20680560767650605,
      "num_tokens": 89822808.0,
      "step": 48685
    },
    {
      "entropy": 5.451822328567505,
      "epoch": 4.090569208149549,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003417833406731457,
      "loss": 4.8547,
      "mean_token_accuracy": 0.21329806447029115,
      "num_tokens": 89831205.0,
      "step": 48690
    },
    {
      "entropy": 5.42001953125,
      "epoch": 4.090989287964713,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003417547430723197,
      "loss": 4.9643,
      "mean_token_accuracy": 0.20625037848949432,
      "num_tokens": 89840127.0,
      "step": 48695
    },
    {
      "entropy": 5.478950834274292,
      "epoch": 4.091409367779878,
      "grad_norm": 1.296875,
      "learning_rate": 0.0003417261442889678,
      "loss": 4.9547,
      "mean_token_accuracy": 0.20191291868686675,
      "num_tokens": 89849488.0,
      "step": 48700
    },
    {
      "entropy": 5.561720943450927,
      "epoch": 4.091829447595043,
      "grad_norm": 1.109375,
      "learning_rate": 0.00034169754432359663,
      "loss": 5.0517,
      "mean_token_accuracy": 0.20561115741729735,
      "num_tokens": 89859307.0,
      "step": 48705
    },
    {
      "entropy": 5.476605606079102,
      "epoch": 4.092249527410208,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003416689431767128,
      "loss": 4.9624,
      "mean_token_accuracy": 0.2019032970070839,
      "num_tokens": 89868234.0,
      "step": 48710
    },
    {
      "entropy": 5.463234901428223,
      "epoch": 4.092669607225373,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003416403408488229,
      "loss": 4.8383,
      "mean_token_accuracy": 0.2262134552001953,
      "num_tokens": 89876887.0,
      "step": 48715
    },
    {
      "entropy": 5.430589389801026,
      "epoch": 4.093089687040537,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003416117373404338,
      "loss": 4.9141,
      "mean_token_accuracy": 0.2158414527773857,
      "num_tokens": 89885882.0,
      "step": 48720
    },
    {
      "entropy": 5.58150463104248,
      "epoch": 4.093509766855703,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00034158313265205195,
      "loss": 5.0877,
      "mean_token_accuracy": 0.19940945953130723,
      "num_tokens": 89895706.0,
      "step": 48725
    },
    {
      "entropy": 5.456117439270019,
      "epoch": 4.093929846670868,
      "grad_norm": 1.1875,
      "learning_rate": 0.00034155452678418424,
      "loss": 4.9202,
      "mean_token_accuracy": 0.2084543824195862,
      "num_tokens": 89905190.0,
      "step": 48730
    },
    {
      "entropy": 5.434736442565918,
      "epoch": 4.094349926486032,
      "grad_norm": 1.171875,
      "learning_rate": 0.00034152591973733736,
      "loss": 4.8004,
      "mean_token_accuracy": 0.2146540477871895,
      "num_tokens": 89913644.0,
      "step": 48735
    },
    {
      "entropy": 5.480964660644531,
      "epoch": 4.094770006301197,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00034149731151201807,
      "loss": 4.9561,
      "mean_token_accuracy": 0.2165234923362732,
      "num_tokens": 89923836.0,
      "step": 48740
    },
    {
      "entropy": 5.455094623565674,
      "epoch": 4.095190086116362,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003414687021087331,
      "loss": 4.9173,
      "mean_token_accuracy": 0.217061185836792,
      "num_tokens": 89932830.0,
      "step": 48745
    },
    {
      "entropy": 5.426794576644897,
      "epoch": 4.095610165931527,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003414400915279893,
      "loss": 4.82,
      "mean_token_accuracy": 0.21447366923093797,
      "num_tokens": 89941956.0,
      "step": 48750
    },
    {
      "entropy": 5.502090740203857,
      "epoch": 4.096030245746692,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00034141147977029355,
      "loss": 4.9896,
      "mean_token_accuracy": 0.20867303311824797,
      "num_tokens": 89950833.0,
      "step": 48755
    },
    {
      "entropy": 5.40703387260437,
      "epoch": 4.0964503255618565,
      "grad_norm": 1.046875,
      "learning_rate": 0.00034138286683615265,
      "loss": 4.815,
      "mean_token_accuracy": 0.21915665566921233,
      "num_tokens": 89961090.0,
      "step": 48760
    },
    {
      "entropy": 5.3838966369628904,
      "epoch": 4.096870405377022,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003413542527260734,
      "loss": 4.9376,
      "mean_token_accuracy": 0.20583840310573578,
      "num_tokens": 89970516.0,
      "step": 48765
    },
    {
      "entropy": 5.376415491104126,
      "epoch": 4.097290485192186,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003413256374405627,
      "loss": 4.8591,
      "mean_token_accuracy": 0.21710776537656784,
      "num_tokens": 89980690.0,
      "step": 48770
    },
    {
      "entropy": 5.430466222763061,
      "epoch": 4.097710565007351,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003412970209801276,
      "loss": 4.8667,
      "mean_token_accuracy": 0.21065419763326645,
      "num_tokens": 89989760.0,
      "step": 48775
    },
    {
      "entropy": 5.460295820236206,
      "epoch": 4.0981306448225165,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003412684033452748,
      "loss": 4.9031,
      "mean_token_accuracy": 0.21132626831531526,
      "num_tokens": 89999036.0,
      "step": 48780
    },
    {
      "entropy": 5.43809175491333,
      "epoch": 4.098550724637681,
      "grad_norm": 1.140625,
      "learning_rate": 0.00034123978453651146,
      "loss": 4.9034,
      "mean_token_accuracy": 0.21666256785392762,
      "num_tokens": 90009001.0,
      "step": 48785
    },
    {
      "entropy": 5.529824876785279,
      "epoch": 4.098970804452846,
      "grad_norm": 1.125,
      "learning_rate": 0.0003412111645543444,
      "loss": 4.9928,
      "mean_token_accuracy": 0.20809094458818436,
      "num_tokens": 90018014.0,
      "step": 48790
    },
    {
      "entropy": 5.462489128112793,
      "epoch": 4.099390884268011,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00034118254339928064,
      "loss": 4.9395,
      "mean_token_accuracy": 0.21063605844974517,
      "num_tokens": 90027754.0,
      "step": 48795
    },
    {
      "entropy": 5.453738451004028,
      "epoch": 4.099810964083176,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003411539210718271,
      "loss": 4.9068,
      "mean_token_accuracy": 0.2102605104446411,
      "num_tokens": 90036694.0,
      "step": 48800
    },
    {
      "entropy": 5.445325660705566,
      "epoch": 4.100231043898341,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003411252975724911,
      "loss": 4.8994,
      "mean_token_accuracy": 0.20792682617902755,
      "num_tokens": 90045823.0,
      "step": 48805
    },
    {
      "entropy": 5.536469030380249,
      "epoch": 4.100651123713505,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00034109667290177937,
      "loss": 4.9884,
      "mean_token_accuracy": 0.20490721762180328,
      "num_tokens": 90055868.0,
      "step": 48810
    },
    {
      "entropy": 5.398957395553589,
      "epoch": 4.1010712035286705,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003410680470601991,
      "loss": 4.8502,
      "mean_token_accuracy": 0.20974700450897216,
      "num_tokens": 90065481.0,
      "step": 48815
    },
    {
      "entropy": 5.58279275894165,
      "epoch": 4.101491283343836,
      "grad_norm": 1.125,
      "learning_rate": 0.0003410394200482574,
      "loss": 5.1008,
      "mean_token_accuracy": 0.19228434115648269,
      "num_tokens": 90075472.0,
      "step": 48820
    },
    {
      "entropy": 5.43720178604126,
      "epoch": 4.101911363159,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003410107918664615,
      "loss": 4.8828,
      "mean_token_accuracy": 0.21343009173870087,
      "num_tokens": 90085134.0,
      "step": 48825
    },
    {
      "entropy": 5.455816459655762,
      "epoch": 4.102331442974165,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003409821625153184,
      "loss": 4.9364,
      "mean_token_accuracy": 0.21588711738586425,
      "num_tokens": 90094807.0,
      "step": 48830
    },
    {
      "entropy": 5.457022714614868,
      "epoch": 4.10275152278933,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003409535319953351,
      "loss": 4.9487,
      "mean_token_accuracy": 0.2128362312912941,
      "num_tokens": 90103710.0,
      "step": 48835
    },
    {
      "entropy": 5.424089622497559,
      "epoch": 4.103171602604495,
      "grad_norm": 1.140625,
      "learning_rate": 0.00034092490030701914,
      "loss": 4.8658,
      "mean_token_accuracy": 0.21659258753061295,
      "num_tokens": 90112548.0,
      "step": 48840
    },
    {
      "entropy": 5.397408437728882,
      "epoch": 4.10359168241966,
      "grad_norm": 1.03125,
      "learning_rate": 0.00034089626745087735,
      "loss": 4.854,
      "mean_token_accuracy": 0.2211202397942543,
      "num_tokens": 90122082.0,
      "step": 48845
    },
    {
      "entropy": 5.4556058883667,
      "epoch": 4.1040117622348244,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003408676334274173,
      "loss": 4.9491,
      "mean_token_accuracy": 0.21003309041261672,
      "num_tokens": 90131389.0,
      "step": 48850
    },
    {
      "entropy": 5.436508464813232,
      "epoch": 4.10443184204999,
      "grad_norm": 1.1875,
      "learning_rate": 0.00034083899823714593,
      "loss": 4.8764,
      "mean_token_accuracy": 0.21566162556409835,
      "num_tokens": 90140748.0,
      "step": 48855
    },
    {
      "entropy": 5.48973536491394,
      "epoch": 4.104851921865154,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003408103618805706,
      "loss": 4.9134,
      "mean_token_accuracy": 0.20750240981578827,
      "num_tokens": 90150641.0,
      "step": 48860
    },
    {
      "entropy": 5.40896635055542,
      "epoch": 4.105272001680319,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003407817243581986,
      "loss": 4.8652,
      "mean_token_accuracy": 0.20879656672477723,
      "num_tokens": 90159042.0,
      "step": 48865
    },
    {
      "entropy": 5.477372646331787,
      "epoch": 4.1056920814954845,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003407530856705372,
      "loss": 4.9062,
      "mean_token_accuracy": 0.21311432719230652,
      "num_tokens": 90167057.0,
      "step": 48870
    },
    {
      "entropy": 5.443137693405151,
      "epoch": 4.106112161310649,
      "grad_norm": 1.125,
      "learning_rate": 0.0003407244458180938,
      "loss": 4.9046,
      "mean_token_accuracy": 0.21370283514261246,
      "num_tokens": 90175093.0,
      "step": 48875
    },
    {
      "entropy": 5.43237190246582,
      "epoch": 4.106532241125814,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003406958048013757,
      "loss": 4.9074,
      "mean_token_accuracy": 0.2119441360235214,
      "num_tokens": 90183646.0,
      "step": 48880
    },
    {
      "entropy": 5.4351283550262455,
      "epoch": 4.106952320940978,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003406671626208901,
      "loss": 4.9386,
      "mean_token_accuracy": 0.22251230031251906,
      "num_tokens": 90192616.0,
      "step": 48885
    },
    {
      "entropy": 5.503410005569458,
      "epoch": 4.107372400756144,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00034063851927714465,
      "loss": 5.0047,
      "mean_token_accuracy": 0.2031276509165764,
      "num_tokens": 90202815.0,
      "step": 48890
    },
    {
      "entropy": 5.489397811889648,
      "epoch": 4.107792480571309,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003406098747706467,
      "loss": 4.9088,
      "mean_token_accuracy": 0.20968355238437653,
      "num_tokens": 90212407.0,
      "step": 48895
    },
    {
      "entropy": 5.471249055862427,
      "epoch": 4.108212560386473,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00034058122910190353,
      "loss": 5.0044,
      "mean_token_accuracy": 0.2052341252565384,
      "num_tokens": 90221703.0,
      "step": 48900
    },
    {
      "entropy": 5.529203605651856,
      "epoch": 4.108632640201638,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003405525822714226,
      "loss": 4.9775,
      "mean_token_accuracy": 0.21139465719461442,
      "num_tokens": 90230871.0,
      "step": 48905
    },
    {
      "entropy": 5.418721103668213,
      "epoch": 4.109052720016803,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003405239342797115,
      "loss": 4.8259,
      "mean_token_accuracy": 0.21235362738370894,
      "num_tokens": 90240062.0,
      "step": 48910
    },
    {
      "entropy": 5.488735818862915,
      "epoch": 4.109472799831968,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003404952851272776,
      "loss": 5.0019,
      "mean_token_accuracy": 0.21713248640298843,
      "num_tokens": 90248789.0,
      "step": 48915
    },
    {
      "entropy": 5.516769933700561,
      "epoch": 4.109892879647133,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003404666348146285,
      "loss": 5.0327,
      "mean_token_accuracy": 0.20334990471601486,
      "num_tokens": 90258062.0,
      "step": 48920
    },
    {
      "entropy": 5.452250957489014,
      "epoch": 4.110312959462298,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00034043798334227167,
      "loss": 4.8695,
      "mean_token_accuracy": 0.21301446855068207,
      "num_tokens": 90267444.0,
      "step": 48925
    },
    {
      "entropy": 5.383737659454345,
      "epoch": 4.110733039277463,
      "grad_norm": 1.109375,
      "learning_rate": 0.00034040933071071463,
      "loss": 4.8562,
      "mean_token_accuracy": 0.21301869451999664,
      "num_tokens": 90275880.0,
      "step": 48930
    },
    {
      "entropy": 5.4312886714935305,
      "epoch": 4.111153119092627,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00034038067692046493,
      "loss": 4.9121,
      "mean_token_accuracy": 0.21112434566020966,
      "num_tokens": 90285698.0,
      "step": 48935
    },
    {
      "entropy": 5.477766227722168,
      "epoch": 4.111573198907792,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003403520219720303,
      "loss": 4.9341,
      "mean_token_accuracy": 0.2050180271267891,
      "num_tokens": 90295635.0,
      "step": 48940
    },
    {
      "entropy": 5.413832139968872,
      "epoch": 4.111993278722958,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003403233658659182,
      "loss": 4.9758,
      "mean_token_accuracy": 0.20756690502166747,
      "num_tokens": 90304734.0,
      "step": 48945
    },
    {
      "entropy": 5.404968643188477,
      "epoch": 4.112413358538122,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0003402947086026363,
      "loss": 4.9375,
      "mean_token_accuracy": 0.20508030205965042,
      "num_tokens": 90313511.0,
      "step": 48950
    },
    {
      "entropy": 5.447653913497925,
      "epoch": 4.112833438353287,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00034026605018269224,
      "loss": 4.9047,
      "mean_token_accuracy": 0.2081811547279358,
      "num_tokens": 90323144.0,
      "step": 48955
    },
    {
      "entropy": 5.4907386779785154,
      "epoch": 4.113253518168452,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003402373906065938,
      "loss": 4.9551,
      "mean_token_accuracy": 0.21315972805023192,
      "num_tokens": 90332045.0,
      "step": 48960
    },
    {
      "entropy": 5.386324405670166,
      "epoch": 4.113673597983617,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00034020872987484854,
      "loss": 4.938,
      "mean_token_accuracy": 0.21229016035795212,
      "num_tokens": 90340780.0,
      "step": 48965
    },
    {
      "entropy": 5.448818683624268,
      "epoch": 4.114093677798782,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00034018006798796415,
      "loss": 4.8687,
      "mean_token_accuracy": 0.2209867611527443,
      "num_tokens": 90350659.0,
      "step": 48970
    },
    {
      "entropy": 5.437463045120239,
      "epoch": 4.114513757613946,
      "grad_norm": 1.09375,
      "learning_rate": 0.00034015140494644846,
      "loss": 4.8568,
      "mean_token_accuracy": 0.21361711025238037,
      "num_tokens": 90359777.0,
      "step": 48975
    },
    {
      "entropy": 5.509595108032227,
      "epoch": 4.114933837429112,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003401227407508092,
      "loss": 5.0077,
      "mean_token_accuracy": 0.20841111540794371,
      "num_tokens": 90369454.0,
      "step": 48980
    },
    {
      "entropy": 5.510655689239502,
      "epoch": 4.115353917244277,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003400940754015541,
      "loss": 4.9289,
      "mean_token_accuracy": 0.21165508776903152,
      "num_tokens": 90379349.0,
      "step": 48985
    },
    {
      "entropy": 5.485557413101196,
      "epoch": 4.115773997059441,
      "grad_norm": 1.171875,
      "learning_rate": 0.000340065408899191,
      "loss": 4.9551,
      "mean_token_accuracy": 0.20491478890180587,
      "num_tokens": 90387510.0,
      "step": 48990
    },
    {
      "entropy": 5.477670097351075,
      "epoch": 4.116194076874606,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00034003674124422767,
      "loss": 4.9059,
      "mean_token_accuracy": 0.21156883388757705,
      "num_tokens": 90398550.0,
      "step": 48995
    },
    {
      "entropy": 5.451454544067383,
      "epoch": 4.116614156689771,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003400080724371719,
      "loss": 4.8739,
      "mean_token_accuracy": 0.21681677252054216,
      "num_tokens": 90407404.0,
      "step": 49000
    },
    {
      "entropy": 5.466310596466064,
      "epoch": 4.117034236504936,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0003399794024785317,
      "loss": 4.9349,
      "mean_token_accuracy": 0.20735828578472137,
      "num_tokens": 90416918.0,
      "step": 49005
    },
    {
      "entropy": 5.476047801971435,
      "epoch": 4.117454316320101,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003399507313688148,
      "loss": 4.9665,
      "mean_token_accuracy": 0.21197900921106339,
      "num_tokens": 90426902.0,
      "step": 49010
    },
    {
      "entropy": 5.398481273651123,
      "epoch": 4.1178743961352655,
      "grad_norm": 1.078125,
      "learning_rate": 0.00033992205910852904,
      "loss": 4.9013,
      "mean_token_accuracy": 0.21597157716751098,
      "num_tokens": 90436461.0,
      "step": 49015
    },
    {
      "entropy": 5.426105260848999,
      "epoch": 4.118294475950431,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00033989338569818256,
      "loss": 4.92,
      "mean_token_accuracy": 0.21298895329236983,
      "num_tokens": 90446398.0,
      "step": 49020
    },
    {
      "entropy": 5.543371057510376,
      "epoch": 4.118714555765595,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003398647111382831,
      "loss": 5.0124,
      "mean_token_accuracy": 0.20783892124891282,
      "num_tokens": 90456390.0,
      "step": 49025
    },
    {
      "entropy": 5.4201384544372555,
      "epoch": 4.11913463558076,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003398360354293387,
      "loss": 4.9069,
      "mean_token_accuracy": 0.21118336766958237,
      "num_tokens": 90465932.0,
      "step": 49030
    },
    {
      "entropy": 5.454421901702881,
      "epoch": 4.1195547153959255,
      "grad_norm": 1.25,
      "learning_rate": 0.00033980735857185734,
      "loss": 4.9688,
      "mean_token_accuracy": 0.20442896485328674,
      "num_tokens": 90474899.0,
      "step": 49035
    },
    {
      "entropy": 5.505580711364746,
      "epoch": 4.11997479521109,
      "grad_norm": 1.109375,
      "learning_rate": 0.000339778680566347,
      "loss": 4.9685,
      "mean_token_accuracy": 0.21115765273571013,
      "num_tokens": 90483163.0,
      "step": 49040
    },
    {
      "entropy": 5.514923906326294,
      "epoch": 4.120394875026255,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003397500014133157,
      "loss": 4.9098,
      "mean_token_accuracy": 0.2146373301744461,
      "num_tokens": 90492599.0,
      "step": 49045
    },
    {
      "entropy": 5.5224024772644045,
      "epoch": 4.1208149548414195,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003397213211132714,
      "loss": 4.9552,
      "mean_token_accuracy": 0.20578155517578126,
      "num_tokens": 90501229.0,
      "step": 49050
    },
    {
      "entropy": 5.515622758865357,
      "epoch": 4.121235034656585,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003396926396667223,
      "loss": 5.0067,
      "mean_token_accuracy": 0.20831650495529175,
      "num_tokens": 90510964.0,
      "step": 49055
    },
    {
      "entropy": 5.453335523605347,
      "epoch": 4.12165511447175,
      "grad_norm": 1.0625,
      "learning_rate": 0.00033966395707417634,
      "loss": 4.9429,
      "mean_token_accuracy": 0.21086271703243256,
      "num_tokens": 90520456.0,
      "step": 49060
    },
    {
      "entropy": 5.453827857971191,
      "epoch": 4.122075194286914,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00033963527333614167,
      "loss": 4.9752,
      "mean_token_accuracy": 0.2033160150051117,
      "num_tokens": 90530180.0,
      "step": 49065
    },
    {
      "entropy": 5.419748258590698,
      "epoch": 4.1224952741020795,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003396065884531265,
      "loss": 4.8757,
      "mean_token_accuracy": 0.21842361539602279,
      "num_tokens": 90539718.0,
      "step": 49070
    },
    {
      "entropy": 5.3924314975738525,
      "epoch": 4.122915353917244,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003395779024256388,
      "loss": 4.8967,
      "mean_token_accuracy": 0.21155685186386108,
      "num_tokens": 90548919.0,
      "step": 49075
    },
    {
      "entropy": 5.422728538513184,
      "epoch": 4.123335433732409,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003395492152541869,
      "loss": 4.9723,
      "mean_token_accuracy": 0.20434186309576036,
      "num_tokens": 90558082.0,
      "step": 49080
    },
    {
      "entropy": 5.499601411819458,
      "epoch": 4.123755513547574,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003395205269392788,
      "loss": 4.9844,
      "mean_token_accuracy": 0.21655459553003312,
      "num_tokens": 90567437.0,
      "step": 49085
    },
    {
      "entropy": 5.408491706848144,
      "epoch": 4.124175593362739,
      "grad_norm": 1.0625,
      "learning_rate": 0.00033949183748142284,
      "loss": 4.9406,
      "mean_token_accuracy": 0.20870138555765153,
      "num_tokens": 90576932.0,
      "step": 49090
    },
    {
      "entropy": 5.472966718673706,
      "epoch": 4.124595673177904,
      "grad_norm": 1.046875,
      "learning_rate": 0.00033946314688112713,
      "loss": 4.9978,
      "mean_token_accuracy": 0.20765064358711244,
      "num_tokens": 90586011.0,
      "step": 49095
    },
    {
      "entropy": 5.507522678375244,
      "epoch": 4.125015752993069,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003394344551389,
      "loss": 4.9512,
      "mean_token_accuracy": 0.21053475886583328,
      "num_tokens": 90594499.0,
      "step": 49100
    },
    {
      "entropy": 5.440640783309936,
      "epoch": 4.1254358328082334,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00033940576225524973,
      "loss": 4.9162,
      "mean_token_accuracy": 0.21073858737945556,
      "num_tokens": 90603877.0,
      "step": 49105
    },
    {
      "entropy": 5.434815263748169,
      "epoch": 4.125855912623399,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003393770682306844,
      "loss": 4.9647,
      "mean_token_accuracy": 0.2069024533033371,
      "num_tokens": 90612912.0,
      "step": 49110
    },
    {
      "entropy": 5.456650876998902,
      "epoch": 4.126275992438563,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003393483730657126,
      "loss": 4.9194,
      "mean_token_accuracy": 0.20835375189781188,
      "num_tokens": 90622261.0,
      "step": 49115
    },
    {
      "entropy": 5.368447303771973,
      "epoch": 4.126696072253728,
      "grad_norm": 1.046875,
      "learning_rate": 0.00033931967676084244,
      "loss": 4.882,
      "mean_token_accuracy": 0.22108512222766877,
      "num_tokens": 90632122.0,
      "step": 49120
    },
    {
      "entropy": 5.440816450119018,
      "epoch": 4.1271161520688935,
      "grad_norm": 1.125,
      "learning_rate": 0.0003392909793165824,
      "loss": 4.9366,
      "mean_token_accuracy": 0.21379915475845337,
      "num_tokens": 90640797.0,
      "step": 49125
    },
    {
      "entropy": 5.330684041976928,
      "epoch": 4.127536231884058,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003392622807334407,
      "loss": 4.7998,
      "mean_token_accuracy": 0.22072960436344147,
      "num_tokens": 90649671.0,
      "step": 49130
    },
    {
      "entropy": 5.3765216827392575,
      "epoch": 4.127956311699223,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00033923358101192573,
      "loss": 4.8624,
      "mean_token_accuracy": 0.22353020012378694,
      "num_tokens": 90658882.0,
      "step": 49135
    },
    {
      "entropy": 5.514486837387085,
      "epoch": 4.128376391514387,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000339204880152546,
      "loss": 4.9399,
      "mean_token_accuracy": 0.21529749631881714,
      "num_tokens": 90667435.0,
      "step": 49140
    },
    {
      "entropy": 5.418480396270752,
      "epoch": 4.128796471329553,
      "grad_norm": 1.125,
      "learning_rate": 0.00033917617815580994,
      "loss": 4.8924,
      "mean_token_accuracy": 0.2074502021074295,
      "num_tokens": 90677385.0,
      "step": 49145
    },
    {
      "entropy": 5.500253009796142,
      "epoch": 4.129216551144718,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003391474750222258,
      "loss": 5.0289,
      "mean_token_accuracy": 0.20080309808254243,
      "num_tokens": 90686567.0,
      "step": 49150
    },
    {
      "entropy": 5.4842266082763675,
      "epoch": 4.129636630959882,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003391187707523023,
      "loss": 4.8765,
      "mean_token_accuracy": 0.2155782625079155,
      "num_tokens": 90695588.0,
      "step": 49155
    },
    {
      "entropy": 5.404027986526489,
      "epoch": 4.130056710775047,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00033909006534654773,
      "loss": 4.9074,
      "mean_token_accuracy": 0.21202517300844193,
      "num_tokens": 90705305.0,
      "step": 49160
    },
    {
      "entropy": 5.402507543563843,
      "epoch": 4.130476790590212,
      "grad_norm": 1.125,
      "learning_rate": 0.00033906135880547067,
      "loss": 4.9,
      "mean_token_accuracy": 0.21695358157157899,
      "num_tokens": 90714942.0,
      "step": 49165
    },
    {
      "entropy": 5.4676471710205075,
      "epoch": 4.130896870405377,
      "grad_norm": 1.078125,
      "learning_rate": 0.00033903265112957963,
      "loss": 5.0163,
      "mean_token_accuracy": 0.2030769929289818,
      "num_tokens": 90724792.0,
      "step": 49170
    },
    {
      "entropy": 5.426116847991944,
      "epoch": 4.131316950220542,
      "grad_norm": 1.046875,
      "learning_rate": 0.00033900394231938316,
      "loss": 4.875,
      "mean_token_accuracy": 0.2146100953221321,
      "num_tokens": 90734399.0,
      "step": 49175
    },
    {
      "entropy": 5.447344398498535,
      "epoch": 4.131737030035707,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003389752323753898,
      "loss": 4.8654,
      "mean_token_accuracy": 0.21363446861505508,
      "num_tokens": 90743455.0,
      "step": 49180
    },
    {
      "entropy": 5.536440134048462,
      "epoch": 4.132157109850872,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003389465212981081,
      "loss": 5.0917,
      "mean_token_accuracy": 0.2005315288901329,
      "num_tokens": 90753402.0,
      "step": 49185
    },
    {
      "entropy": 5.460910892486572,
      "epoch": 4.132577189666036,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00033891780908804677,
      "loss": 4.9358,
      "mean_token_accuracy": 0.2093403697013855,
      "num_tokens": 90762066.0,
      "step": 49190
    },
    {
      "entropy": 5.4921355724334715,
      "epoch": 4.132997269481201,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003388890957457143,
      "loss": 4.9278,
      "mean_token_accuracy": 0.21082463711500168,
      "num_tokens": 90770255.0,
      "step": 49195
    },
    {
      "entropy": 5.42415452003479,
      "epoch": 4.133417349296367,
      "grad_norm": 1.21875,
      "learning_rate": 0.00033886038127161944,
      "loss": 4.843,
      "mean_token_accuracy": 0.21396620869636535,
      "num_tokens": 90779166.0,
      "step": 49200
    },
    {
      "entropy": 5.4549973487854,
      "epoch": 4.133837429111531,
      "grad_norm": 1.34375,
      "learning_rate": 0.00033883166566627085,
      "loss": 4.9084,
      "mean_token_accuracy": 0.2128043070435524,
      "num_tokens": 90788616.0,
      "step": 49205
    },
    {
      "entropy": 5.4515307426452635,
      "epoch": 4.134257508926696,
      "grad_norm": 1.125,
      "learning_rate": 0.00033880294893017703,
      "loss": 4.9793,
      "mean_token_accuracy": 0.20948386192321777,
      "num_tokens": 90798738.0,
      "step": 49210
    },
    {
      "entropy": 5.431111240386963,
      "epoch": 4.1346775887418605,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003387742310638469,
      "loss": 4.9174,
      "mean_token_accuracy": 0.2074271634221077,
      "num_tokens": 90808579.0,
      "step": 49215
    },
    {
      "entropy": 5.5359796524047855,
      "epoch": 4.135097668557026,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00033874551206778916,
      "loss": 4.9216,
      "mean_token_accuracy": 0.20808222889900208,
      "num_tokens": 90818197.0,
      "step": 49220
    },
    {
      "entropy": 5.383953523635864,
      "epoch": 4.135517748372191,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003387167919425124,
      "loss": 4.8518,
      "mean_token_accuracy": 0.2095483958721161,
      "num_tokens": 90828141.0,
      "step": 49225
    },
    {
      "entropy": 5.4281487464904785,
      "epoch": 4.135937828187355,
      "grad_norm": 1.09375,
      "learning_rate": 0.00033868807068852553,
      "loss": 4.9428,
      "mean_token_accuracy": 0.21040243953466414,
      "num_tokens": 90837519.0,
      "step": 49230
    },
    {
      "entropy": 5.445016622543335,
      "epoch": 4.136357908002521,
      "grad_norm": 1.203125,
      "learning_rate": 0.00033865934830633733,
      "loss": 4.9138,
      "mean_token_accuracy": 0.21628517657518387,
      "num_tokens": 90846361.0,
      "step": 49235
    },
    {
      "entropy": 5.451889276504517,
      "epoch": 4.136777987817686,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00033863062479645646,
      "loss": 4.9177,
      "mean_token_accuracy": 0.21833198964595796,
      "num_tokens": 90855719.0,
      "step": 49240
    },
    {
      "entropy": 5.47612886428833,
      "epoch": 4.13719806763285,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003386019001593919,
      "loss": 4.8722,
      "mean_token_accuracy": 0.2257427379488945,
      "num_tokens": 90865834.0,
      "step": 49245
    },
    {
      "entropy": 5.566750764846802,
      "epoch": 4.137618147448015,
      "grad_norm": 1.078125,
      "learning_rate": 0.00033857317439565243,
      "loss": 5.0899,
      "mean_token_accuracy": 0.19231948256492615,
      "num_tokens": 90875938.0,
      "step": 49250
    },
    {
      "entropy": 5.521284532546997,
      "epoch": 4.13803822726318,
      "grad_norm": 1.125,
      "learning_rate": 0.00033854444750574684,
      "loss": 4.9329,
      "mean_token_accuracy": 0.2090230852365494,
      "num_tokens": 90885157.0,
      "step": 49255
    },
    {
      "entropy": 5.4904398918151855,
      "epoch": 4.138458307078345,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003385157194901842,
      "loss": 4.9517,
      "mean_token_accuracy": 0.2117109179496765,
      "num_tokens": 90893955.0,
      "step": 49260
    },
    {
      "entropy": 5.40604248046875,
      "epoch": 4.13887838689351,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003384869903494732,
      "loss": 4.9891,
      "mean_token_accuracy": 0.21490432173013688,
      "num_tokens": 90903194.0,
      "step": 49265
    },
    {
      "entropy": 5.479049491882324,
      "epoch": 4.1392984667086745,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003384582600841229,
      "loss": 4.9471,
      "mean_token_accuracy": 0.21442991197109224,
      "num_tokens": 90912293.0,
      "step": 49270
    },
    {
      "entropy": 5.43577766418457,
      "epoch": 4.13971854652384,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00033842952869464216,
      "loss": 4.7928,
      "mean_token_accuracy": 0.2236056923866272,
      "num_tokens": 90921500.0,
      "step": 49275
    },
    {
      "entropy": 5.480990266799926,
      "epoch": 4.140138626339004,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00033840079618154006,
      "loss": 5.0105,
      "mean_token_accuracy": 0.2107079416513443,
      "num_tokens": 90930557.0,
      "step": 49280
    },
    {
      "entropy": 5.453844118118286,
      "epoch": 4.140558706154169,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00033837206254532545,
      "loss": 4.9113,
      "mean_token_accuracy": 0.21515507847070695,
      "num_tokens": 90939711.0,
      "step": 49285
    },
    {
      "entropy": 5.4361120700836185,
      "epoch": 4.1409787859693346,
      "grad_norm": 1.25,
      "learning_rate": 0.0003383433277865073,
      "loss": 4.8814,
      "mean_token_accuracy": 0.20906561017036437,
      "num_tokens": 90949029.0,
      "step": 49290
    },
    {
      "entropy": 5.312632656097412,
      "epoch": 4.141398865784499,
      "grad_norm": 1.125,
      "learning_rate": 0.0003383145919055949,
      "loss": 4.7892,
      "mean_token_accuracy": 0.2103934556245804,
      "num_tokens": 90957219.0,
      "step": 49295
    },
    {
      "entropy": 5.473641443252563,
      "epoch": 4.141818945599664,
      "grad_norm": 1.25,
      "learning_rate": 0.00033828585490309695,
      "loss": 4.9488,
      "mean_token_accuracy": 0.2116457313299179,
      "num_tokens": 90965921.0,
      "step": 49300
    },
    {
      "entropy": 5.501051044464111,
      "epoch": 4.1422390254148285,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003382571167795227,
      "loss": 4.947,
      "mean_token_accuracy": 0.21830831170082093,
      "num_tokens": 90974253.0,
      "step": 49305
    },
    {
      "entropy": 5.472312927246094,
      "epoch": 4.142659105229994,
      "grad_norm": 1.125,
      "learning_rate": 0.00033822837753538125,
      "loss": 4.979,
      "mean_token_accuracy": 0.21240684092044831,
      "num_tokens": 90983609.0,
      "step": 49310
    },
    {
      "entropy": 5.4781688213348385,
      "epoch": 4.143079185045159,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003381996371711816,
      "loss": 4.9585,
      "mean_token_accuracy": 0.21326011568307876,
      "num_tokens": 90992691.0,
      "step": 49315
    },
    {
      "entropy": 5.450941753387451,
      "epoch": 4.143499264860323,
      "grad_norm": 1.203125,
      "learning_rate": 0.00033817089568743296,
      "loss": 4.8859,
      "mean_token_accuracy": 0.21405375599861146,
      "num_tokens": 91001986.0,
      "step": 49320
    },
    {
      "entropy": 5.416146612167358,
      "epoch": 4.1439193446754885,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00033814215308464445,
      "loss": 4.8319,
      "mean_token_accuracy": 0.2209058478474617,
      "num_tokens": 91011557.0,
      "step": 49325
    },
    {
      "entropy": 5.480218076705933,
      "epoch": 4.144339424490653,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003381134093633251,
      "loss": 4.8872,
      "mean_token_accuracy": 0.21670807898044586,
      "num_tokens": 91020010.0,
      "step": 49330
    },
    {
      "entropy": 5.4317080020904545,
      "epoch": 4.144759504305818,
      "grad_norm": 1.046875,
      "learning_rate": 0.00033808466452398434,
      "loss": 4.9421,
      "mean_token_accuracy": 0.21074404418468476,
      "num_tokens": 91030021.0,
      "step": 49335
    },
    {
      "entropy": 5.4127849578857425,
      "epoch": 4.145179584120983,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003380559185671312,
      "loss": 4.8832,
      "mean_token_accuracy": 0.21541974693536758,
      "num_tokens": 91038185.0,
      "step": 49340
    },
    {
      "entropy": 5.367116832733155,
      "epoch": 4.145599663936148,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003380271714932749,
      "loss": 4.8977,
      "mean_token_accuracy": 0.21834525763988494,
      "num_tokens": 91047828.0,
      "step": 49345
    },
    {
      "entropy": 5.455507469177246,
      "epoch": 4.146019743751313,
      "grad_norm": 1.046875,
      "learning_rate": 0.00033799842330292467,
      "loss": 4.8728,
      "mean_token_accuracy": 0.21475585103034972,
      "num_tokens": 91056961.0,
      "step": 49350
    },
    {
      "entropy": 5.452430200576782,
      "epoch": 4.146439823566477,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003379696739965898,
      "loss": 4.9294,
      "mean_token_accuracy": 0.20915233343839645,
      "num_tokens": 91066463.0,
      "step": 49355
    },
    {
      "entropy": 5.357855558395386,
      "epoch": 4.1468599033816425,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003379409235747797,
      "loss": 4.777,
      "mean_token_accuracy": 0.22651177048683166,
      "num_tokens": 91074691.0,
      "step": 49360
    },
    {
      "entropy": 5.367474222183228,
      "epoch": 4.147279983196808,
      "grad_norm": 1.125,
      "learning_rate": 0.00033791217203800347,
      "loss": 4.8338,
      "mean_token_accuracy": 0.21991516798734664,
      "num_tokens": 91084667.0,
      "step": 49365
    },
    {
      "entropy": 5.395095729827881,
      "epoch": 4.147700063011972,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003378834193867705,
      "loss": 4.8365,
      "mean_token_accuracy": 0.2157626897096634,
      "num_tokens": 91093429.0,
      "step": 49370
    },
    {
      "entropy": 5.4651800155639645,
      "epoch": 4.148120142827137,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003378546656215902,
      "loss": 4.988,
      "mean_token_accuracy": 0.21309733986854554,
      "num_tokens": 91102406.0,
      "step": 49375
    },
    {
      "entropy": 5.3949206352233885,
      "epoch": 4.148540222642302,
      "grad_norm": 1.140625,
      "learning_rate": 0.00033782591074297175,
      "loss": 4.875,
      "mean_token_accuracy": 0.2127351865172386,
      "num_tokens": 91112154.0,
      "step": 49380
    },
    {
      "entropy": 5.463872289657592,
      "epoch": 4.148960302457467,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003377971547514247,
      "loss": 4.9357,
      "mean_token_accuracy": 0.20856213867664336,
      "num_tokens": 91122309.0,
      "step": 49385
    },
    {
      "entropy": 5.451102781295776,
      "epoch": 4.149380382272632,
      "grad_norm": 1.21875,
      "learning_rate": 0.00033776839764745843,
      "loss": 4.9129,
      "mean_token_accuracy": 0.20789603143930435,
      "num_tokens": 91130573.0,
      "step": 49390
    },
    {
      "entropy": 5.534701156616211,
      "epoch": 4.149800462087796,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00033773963943158227,
      "loss": 5.0105,
      "mean_token_accuracy": 0.21389250159263612,
      "num_tokens": 91140621.0,
      "step": 49395
    },
    {
      "entropy": 5.378387784957885,
      "epoch": 4.150220541902962,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00033771088010430575,
      "loss": 4.8791,
      "mean_token_accuracy": 0.22254614979028703,
      "num_tokens": 91148952.0,
      "step": 49400
    },
    {
      "entropy": 5.381130838394165,
      "epoch": 4.150640621718127,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00033768211966613823,
      "loss": 4.9377,
      "mean_token_accuracy": 0.21171222925186156,
      "num_tokens": 91157479.0,
      "step": 49405
    },
    {
      "entropy": 5.430066776275635,
      "epoch": 4.151060701533291,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003376533581175893,
      "loss": 4.9144,
      "mean_token_accuracy": 0.2100439339876175,
      "num_tokens": 91166035.0,
      "step": 49410
    },
    {
      "entropy": 5.503852701187133,
      "epoch": 4.151480781348456,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003376245954591683,
      "loss": 5.018,
      "mean_token_accuracy": 0.203325954079628,
      "num_tokens": 91175948.0,
      "step": 49415
    },
    {
      "entropy": 5.4672465324401855,
      "epoch": 4.151900861163621,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003375958316913849,
      "loss": 4.9036,
      "mean_token_accuracy": 0.2191966250538826,
      "num_tokens": 91185651.0,
      "step": 49420
    },
    {
      "entropy": 5.429312896728516,
      "epoch": 4.152320940978786,
      "grad_norm": 1.140625,
      "learning_rate": 0.00033756706681474855,
      "loss": 4.9333,
      "mean_token_accuracy": 0.2100294589996338,
      "num_tokens": 91195035.0,
      "step": 49425
    },
    {
      "entropy": 5.424165487289429,
      "epoch": 4.152741020793951,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00033753830082976883,
      "loss": 4.9742,
      "mean_token_accuracy": 0.20683844536542892,
      "num_tokens": 91205009.0,
      "step": 49430
    },
    {
      "entropy": 5.4680016040802,
      "epoch": 4.153161100609116,
      "grad_norm": 1.078125,
      "learning_rate": 0.00033750953373695524,
      "loss": 5.0094,
      "mean_token_accuracy": 0.20519132167100906,
      "num_tokens": 91214303.0,
      "step": 49435
    },
    {
      "entropy": 5.423794794082641,
      "epoch": 4.153581180424281,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003374807655368176,
      "loss": 4.8347,
      "mean_token_accuracy": 0.2141977995634079,
      "num_tokens": 91223461.0,
      "step": 49440
    },
    {
      "entropy": 5.343590593338012,
      "epoch": 4.154001260239445,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003374519962298653,
      "loss": 4.785,
      "mean_token_accuracy": 0.22247352153062822,
      "num_tokens": 91231082.0,
      "step": 49445
    },
    {
      "entropy": 5.462895154953003,
      "epoch": 4.15442134005461,
      "grad_norm": 1.015625,
      "learning_rate": 0.00033742322581660803,
      "loss": 5.0063,
      "mean_token_accuracy": 0.20802658796310425,
      "num_tokens": 91240781.0,
      "step": 49450
    },
    {
      "entropy": 5.4249180316925045,
      "epoch": 4.154841419869776,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003373944542975555,
      "loss": 4.8699,
      "mean_token_accuracy": 0.2104681223630905,
      "num_tokens": 91250027.0,
      "step": 49455
    },
    {
      "entropy": 5.463009834289551,
      "epoch": 4.15526149968494,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003373656816732173,
      "loss": 4.9376,
      "mean_token_accuracy": 0.2081688165664673,
      "num_tokens": 91260255.0,
      "step": 49460
    },
    {
      "entropy": 5.492448997497559,
      "epoch": 4.155681579500105,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003373369079441032,
      "loss": 4.9569,
      "mean_token_accuracy": 0.2132507711648941,
      "num_tokens": 91269714.0,
      "step": 49465
    },
    {
      "entropy": 5.494609260559082,
      "epoch": 4.1561016593152695,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003373081331107229,
      "loss": 4.9546,
      "mean_token_accuracy": 0.2135500878095627,
      "num_tokens": 91279137.0,
      "step": 49470
    },
    {
      "entropy": 5.41526689529419,
      "epoch": 4.156521739130435,
      "grad_norm": 1.171875,
      "learning_rate": 0.00033727935717358596,
      "loss": 4.8663,
      "mean_token_accuracy": 0.21530783027410508,
      "num_tokens": 91286901.0,
      "step": 49475
    },
    {
      "entropy": 5.471609687805175,
      "epoch": 4.1569418189456,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003372505801332024,
      "loss": 4.9596,
      "mean_token_accuracy": 0.21147506088018417,
      "num_tokens": 91296541.0,
      "step": 49480
    },
    {
      "entropy": 5.416634368896484,
      "epoch": 4.157361898760764,
      "grad_norm": 1.09375,
      "learning_rate": 0.00033722180199008184,
      "loss": 4.8826,
      "mean_token_accuracy": 0.2155446767807007,
      "num_tokens": 91305598.0,
      "step": 49485
    },
    {
      "entropy": 5.373428583145142,
      "epoch": 4.15778197857593,
      "grad_norm": 1.140625,
      "learning_rate": 0.00033719302274473406,
      "loss": 4.8815,
      "mean_token_accuracy": 0.21553895622491837,
      "num_tokens": 91314442.0,
      "step": 49490
    },
    {
      "entropy": 5.462066221237182,
      "epoch": 4.158202058391094,
      "grad_norm": 1.046875,
      "learning_rate": 0.000337164242397669,
      "loss": 4.9509,
      "mean_token_accuracy": 0.20915645360946655,
      "num_tokens": 91323943.0,
      "step": 49495
    },
    {
      "entropy": 5.446060657501221,
      "epoch": 4.158622138206259,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003371354609493963,
      "loss": 4.9045,
      "mean_token_accuracy": 0.21011310815811157,
      "num_tokens": 91333051.0,
      "step": 49500
    },
    {
      "entropy": 5.489739179611206,
      "epoch": 4.159042218021424,
      "grad_norm": 1.28125,
      "learning_rate": 0.0003371066784004259,
      "loss": 4.901,
      "mean_token_accuracy": 0.2128475397825241,
      "num_tokens": 91342066.0,
      "step": 49505
    },
    {
      "entropy": 5.450156736373901,
      "epoch": 4.159462297836589,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003370778947512678,
      "loss": 4.893,
      "mean_token_accuracy": 0.2143872618675232,
      "num_tokens": 91350910.0,
      "step": 49510
    },
    {
      "entropy": 5.478343105316162,
      "epoch": 4.159882377651754,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00033704911000243166,
      "loss": 5.0561,
      "mean_token_accuracy": 0.20443043857812881,
      "num_tokens": 91360622.0,
      "step": 49515
    },
    {
      "entropy": 5.466407728195191,
      "epoch": 4.160302457466918,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00033702032415442747,
      "loss": 4.9931,
      "mean_token_accuracy": 0.2044302701950073,
      "num_tokens": 91370063.0,
      "step": 49520
    },
    {
      "entropy": 5.5454610824584964,
      "epoch": 4.1607225372820835,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003369915372077652,
      "loss": 4.9923,
      "mean_token_accuracy": 0.21206137537956238,
      "num_tokens": 91380345.0,
      "step": 49525
    },
    {
      "entropy": 5.486280632019043,
      "epoch": 4.161142617097249,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003369627491629548,
      "loss": 4.9685,
      "mean_token_accuracy": 0.20834915041923524,
      "num_tokens": 91390561.0,
      "step": 49530
    },
    {
      "entropy": 5.5339456558227536,
      "epoch": 4.161562696912413,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003369339600205062,
      "loss": 4.9764,
      "mean_token_accuracy": 0.207456836104393,
      "num_tokens": 91398616.0,
      "step": 49535
    },
    {
      "entropy": 5.498374176025391,
      "epoch": 4.161982776727578,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003369051697809294,
      "loss": 4.9806,
      "mean_token_accuracy": 0.20279940068721772,
      "num_tokens": 91408182.0,
      "step": 49540
    },
    {
      "entropy": 5.415614414215088,
      "epoch": 4.162402856542743,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003368763784447343,
      "loss": 4.8454,
      "mean_token_accuracy": 0.2219040647149086,
      "num_tokens": 91416639.0,
      "step": 49545
    },
    {
      "entropy": 5.500572681427002,
      "epoch": 4.162822936357908,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00033684758601243116,
      "loss": 4.9585,
      "mean_token_accuracy": 0.2056666597723961,
      "num_tokens": 91425433.0,
      "step": 49550
    },
    {
      "entropy": 5.455449724197388,
      "epoch": 4.163243016173073,
      "grad_norm": 1.21875,
      "learning_rate": 0.0003368187924845297,
      "loss": 4.9139,
      "mean_token_accuracy": 0.21898697167634965,
      "num_tokens": 91435134.0,
      "step": 49555
    },
    {
      "entropy": 5.405351352691651,
      "epoch": 4.1636630959882375,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003367899978615403,
      "loss": 4.8657,
      "mean_token_accuracy": 0.21531599909067153,
      "num_tokens": 91444652.0,
      "step": 49560
    },
    {
      "entropy": 5.469362783432007,
      "epoch": 4.164083175803403,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003367612021439728,
      "loss": 4.933,
      "mean_token_accuracy": 0.2141385331749916,
      "num_tokens": 91453243.0,
      "step": 49565
    },
    {
      "entropy": 5.486433315277099,
      "epoch": 4.164503255618568,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003367324053323376,
      "loss": 4.9884,
      "mean_token_accuracy": 0.19186076670885086,
      "num_tokens": 91462448.0,
      "step": 49570
    },
    {
      "entropy": 5.461904382705688,
      "epoch": 4.164923335433732,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00033670360742714444,
      "loss": 4.9832,
      "mean_token_accuracy": 0.20339315980672837,
      "num_tokens": 91471314.0,
      "step": 49575
    },
    {
      "entropy": 5.560306406021118,
      "epoch": 4.1653434152488975,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00033667480842890376,
      "loss": 5.0018,
      "mean_token_accuracy": 0.21516479551792145,
      "num_tokens": 91481032.0,
      "step": 49580
    },
    {
      "entropy": 5.432485961914063,
      "epoch": 4.165763495064062,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003366460083381255,
      "loss": 4.7797,
      "mean_token_accuracy": 0.2189783990383148,
      "num_tokens": 91489383.0,
      "step": 49585
    },
    {
      "entropy": 5.418449640274048,
      "epoch": 4.166183574879227,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00033661720715532,
      "loss": 4.9024,
      "mean_token_accuracy": 0.21170080304145814,
      "num_tokens": 91498715.0,
      "step": 49590
    },
    {
      "entropy": 5.355239725112915,
      "epoch": 4.166603654694392,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00033658840488099746,
      "loss": 4.9186,
      "mean_token_accuracy": 0.21497542709112166,
      "num_tokens": 91508012.0,
      "step": 49595
    },
    {
      "entropy": 5.504411220550537,
      "epoch": 4.167023734509557,
      "grad_norm": 1.0234375,
      "learning_rate": 0.000336559601515668,
      "loss": 5.0078,
      "mean_token_accuracy": 0.20291035622358322,
      "num_tokens": 91518333.0,
      "step": 49600
    },
    {
      "entropy": 5.45088415145874,
      "epoch": 4.167443814324722,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003365307970598419,
      "loss": 4.8352,
      "mean_token_accuracy": 0.22008300572633743,
      "num_tokens": 91527043.0,
      "step": 49605
    },
    {
      "entropy": 5.501671600341797,
      "epoch": 4.167863894139886,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00033650199151402936,
      "loss": 5.0351,
      "mean_token_accuracy": 0.1984230875968933,
      "num_tokens": 91536218.0,
      "step": 49610
    },
    {
      "entropy": 5.43981556892395,
      "epoch": 4.1682839739550515,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0003364731848787408,
      "loss": 4.8891,
      "mean_token_accuracy": 0.22301258891820908,
      "num_tokens": 91545197.0,
      "step": 49615
    },
    {
      "entropy": 5.481703376770019,
      "epoch": 4.168704053770217,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003364443771544863,
      "loss": 4.9194,
      "mean_token_accuracy": 0.21858785599470137,
      "num_tokens": 91554518.0,
      "step": 49620
    },
    {
      "entropy": 5.370322751998901,
      "epoch": 4.169124133585381,
      "grad_norm": 1.0,
      "learning_rate": 0.0003364155683417763,
      "loss": 4.8148,
      "mean_token_accuracy": 0.22217031419277192,
      "num_tokens": 91564061.0,
      "step": 49625
    },
    {
      "entropy": 5.482680988311768,
      "epoch": 4.169544213400546,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003363867584411212,
      "loss": 4.9259,
      "mean_token_accuracy": 0.21346074491739273,
      "num_tokens": 91572353.0,
      "step": 49630
    },
    {
      "entropy": 5.42305326461792,
      "epoch": 4.169964293215711,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003363579474530313,
      "loss": 4.8871,
      "mean_token_accuracy": 0.2177966922521591,
      "num_tokens": 91580315.0,
      "step": 49635
    },
    {
      "entropy": 5.424395322799683,
      "epoch": 4.170384373030876,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00033632913537801697,
      "loss": 4.9222,
      "mean_token_accuracy": 0.21496428102254866,
      "num_tokens": 91588553.0,
      "step": 49640
    },
    {
      "entropy": 5.5138462543487545,
      "epoch": 4.170804452846041,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003363003222165885,
      "loss": 5.0589,
      "mean_token_accuracy": 0.20593466162681578,
      "num_tokens": 91597293.0,
      "step": 49645
    },
    {
      "entropy": 5.492569208145142,
      "epoch": 4.171224532661205,
      "grad_norm": 1.125,
      "learning_rate": 0.00033627150796925647,
      "loss": 5.0577,
      "mean_token_accuracy": 0.20501009821891786,
      "num_tokens": 91607332.0,
      "step": 49650
    },
    {
      "entropy": 5.469855165481567,
      "epoch": 4.171644612476371,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00033624269263653124,
      "loss": 4.9102,
      "mean_token_accuracy": 0.20997583568096162,
      "num_tokens": 91616635.0,
      "step": 49655
    },
    {
      "entropy": 5.467446994781494,
      "epoch": 4.172064692291535,
      "grad_norm": 1.125,
      "learning_rate": 0.0003362138762189232,
      "loss": 4.8799,
      "mean_token_accuracy": 0.21673728674650192,
      "num_tokens": 91626429.0,
      "step": 49660
    },
    {
      "entropy": 5.46489577293396,
      "epoch": 4.1724847721067,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0003361850587169429,
      "loss": 4.9642,
      "mean_token_accuracy": 0.21002661287784577,
      "num_tokens": 91635509.0,
      "step": 49665
    },
    {
      "entropy": 5.482752180099487,
      "epoch": 4.172904851921865,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00033615624013110077,
      "loss": 4.9838,
      "mean_token_accuracy": 0.2096299484372139,
      "num_tokens": 91645094.0,
      "step": 49670
    },
    {
      "entropy": 5.422275543212891,
      "epoch": 4.17332493173703,
      "grad_norm": 1.234375,
      "learning_rate": 0.00033612742046190724,
      "loss": 4.9526,
      "mean_token_accuracy": 0.21170303970575333,
      "num_tokens": 91653491.0,
      "step": 49675
    },
    {
      "entropy": 5.4865309715271,
      "epoch": 4.173745011552195,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003360985997098731,
      "loss": 4.9668,
      "mean_token_accuracy": 0.21189992427825927,
      "num_tokens": 91662582.0,
      "step": 49680
    },
    {
      "entropy": 5.536550712585449,
      "epoch": 4.17416509136736,
      "grad_norm": 1.296875,
      "learning_rate": 0.0003360697778755086,
      "loss": 4.9766,
      "mean_token_accuracy": 0.20535460561513902,
      "num_tokens": 91672057.0,
      "step": 49685
    },
    {
      "entropy": 5.531411647796631,
      "epoch": 4.174585171182525,
      "grad_norm": 1.21875,
      "learning_rate": 0.0003360409549593244,
      "loss": 5.0588,
      "mean_token_accuracy": 0.20136371850967408,
      "num_tokens": 91682177.0,
      "step": 49690
    },
    {
      "entropy": 5.470152950286865,
      "epoch": 4.17500525099769,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003360121309618312,
      "loss": 5.0196,
      "mean_token_accuracy": 0.20658358931541443,
      "num_tokens": 91691560.0,
      "step": 49695
    },
    {
      "entropy": 5.477578020095825,
      "epoch": 4.175425330812854,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003359833058835395,
      "loss": 5.0233,
      "mean_token_accuracy": 0.20419685840606688,
      "num_tokens": 91701586.0,
      "step": 49700
    },
    {
      "entropy": 5.493870782852173,
      "epoch": 4.175845410628019,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00033595447972496,
      "loss": 4.8973,
      "mean_token_accuracy": 0.2120070591568947,
      "num_tokens": 91711643.0,
      "step": 49705
    },
    {
      "entropy": 5.510625314712525,
      "epoch": 4.176265490443185,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003359256524866032,
      "loss": 4.9717,
      "mean_token_accuracy": 0.20562788993120193,
      "num_tokens": 91721741.0,
      "step": 49710
    },
    {
      "entropy": 5.451867198944091,
      "epoch": 4.176685570258349,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003358968241689799,
      "loss": 4.957,
      "mean_token_accuracy": 0.21106645911931993,
      "num_tokens": 91731278.0,
      "step": 49715
    },
    {
      "entropy": 5.445427560806275,
      "epoch": 4.177105650073514,
      "grad_norm": 1.03125,
      "learning_rate": 0.00033586799477260067,
      "loss": 4.884,
      "mean_token_accuracy": 0.21591682285070418,
      "num_tokens": 91740803.0,
      "step": 49720
    },
    {
      "entropy": 5.444317197799682,
      "epoch": 4.1775257298886785,
      "grad_norm": 1.109375,
      "learning_rate": 0.00033583916429797626,
      "loss": 4.9124,
      "mean_token_accuracy": 0.21103615313768387,
      "num_tokens": 91749832.0,
      "step": 49725
    },
    {
      "entropy": 5.3938648223876955,
      "epoch": 4.177945809703844,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003358103327456173,
      "loss": 5.0052,
      "mean_token_accuracy": 0.20348367542028428,
      "num_tokens": 91760560.0,
      "step": 49730
    },
    {
      "entropy": 5.459561061859131,
      "epoch": 4.178365889519009,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003357815001160348,
      "loss": 4.8949,
      "mean_token_accuracy": 0.2137615829706192,
      "num_tokens": 91770598.0,
      "step": 49735
    },
    {
      "entropy": 5.4863769054412845,
      "epoch": 4.178785969334173,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003357526664097392,
      "loss": 4.8878,
      "mean_token_accuracy": 0.21984212845563889,
      "num_tokens": 91779236.0,
      "step": 49740
    },
    {
      "entropy": 5.481765604019165,
      "epoch": 4.179206049149339,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003357238316272414,
      "loss": 4.9196,
      "mean_token_accuracy": 0.21147935092449188,
      "num_tokens": 91788990.0,
      "step": 49745
    },
    {
      "entropy": 5.3695958137512205,
      "epoch": 4.179626128964503,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00033569499576905216,
      "loss": 4.9001,
      "mean_token_accuracy": 0.21815923303365709,
      "num_tokens": 91798568.0,
      "step": 49750
    },
    {
      "entropy": 5.48197832107544,
      "epoch": 4.180046208779668,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003356661588356824,
      "loss": 5.0543,
      "mean_token_accuracy": 0.2038886621594429,
      "num_tokens": 91807789.0,
      "step": 49755
    },
    {
      "entropy": 5.459209442138672,
      "epoch": 4.180466288594833,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003356373208276428,
      "loss": 4.9617,
      "mean_token_accuracy": 0.21004550755023957,
      "num_tokens": 91817349.0,
      "step": 49760
    },
    {
      "entropy": 5.531351137161255,
      "epoch": 4.180886368409998,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00033560848174544436,
      "loss": 5.01,
      "mean_token_accuracy": 0.20666167438030242,
      "num_tokens": 91826710.0,
      "step": 49765
    },
    {
      "entropy": 5.500026893615723,
      "epoch": 4.181306448225163,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003355796415895979,
      "loss": 4.9252,
      "mean_token_accuracy": 0.20503163784742356,
      "num_tokens": 91837304.0,
      "step": 49770
    },
    {
      "entropy": 5.463517332077027,
      "epoch": 4.181726528040327,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003355508003606142,
      "loss": 4.8999,
      "mean_token_accuracy": 0.22008839547634124,
      "num_tokens": 91845597.0,
      "step": 49775
    },
    {
      "entropy": 5.554060602188111,
      "epoch": 4.1821466078554925,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003355219580590043,
      "loss": 5.1692,
      "mean_token_accuracy": 0.19500360637903214,
      "num_tokens": 91855853.0,
      "step": 49780
    },
    {
      "entropy": 5.407664775848389,
      "epoch": 4.182566687670658,
      "grad_norm": 1.09375,
      "learning_rate": 0.000335493114685279,
      "loss": 4.8691,
      "mean_token_accuracy": 0.2146861135959625,
      "num_tokens": 91865008.0,
      "step": 49785
    },
    {
      "entropy": 5.469291067123413,
      "epoch": 4.182986767485822,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003354642702399494,
      "loss": 4.9452,
      "mean_token_accuracy": 0.21368304044008254,
      "num_tokens": 91873975.0,
      "step": 49790
    },
    {
      "entropy": 5.361141061782837,
      "epoch": 4.183406847300987,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00033543542472352634,
      "loss": 4.8204,
      "mean_token_accuracy": 0.21850209385156633,
      "num_tokens": 91883291.0,
      "step": 49795
    },
    {
      "entropy": 5.474703931808472,
      "epoch": 4.183826927116152,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003354065781365209,
      "loss": 5.0222,
      "mean_token_accuracy": 0.20795483738183976,
      "num_tokens": 91892961.0,
      "step": 49800
    },
    {
      "entropy": 5.35742449760437,
      "epoch": 4.184247006931317,
      "grad_norm": 1.0625,
      "learning_rate": 0.00033537773047944395,
      "loss": 4.8077,
      "mean_token_accuracy": 0.2308572620153427,
      "num_tokens": 91902117.0,
      "step": 49805
    },
    {
      "entropy": 5.466011190414429,
      "epoch": 4.184667086746482,
      "grad_norm": 1.171875,
      "learning_rate": 0.00033534888175280664,
      "loss": 5.0031,
      "mean_token_accuracy": 0.20859363079071044,
      "num_tokens": 91912211.0,
      "step": 49810
    },
    {
      "entropy": 5.430715036392212,
      "epoch": 4.1850871665616465,
      "grad_norm": 1.109375,
      "learning_rate": 0.00033532003195711996,
      "loss": 4.8395,
      "mean_token_accuracy": 0.21932298094034194,
      "num_tokens": 91919912.0,
      "step": 49815
    },
    {
      "entropy": 5.474667596817016,
      "epoch": 4.185507246376812,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000335291181092895,
      "loss": 5.0007,
      "mean_token_accuracy": 0.20430133640766143,
      "num_tokens": 91929587.0,
      "step": 49820
    },
    {
      "entropy": 5.36249885559082,
      "epoch": 4.185927326191976,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003352623291606429,
      "loss": 4.9381,
      "mean_token_accuracy": 0.21115678548812866,
      "num_tokens": 91938557.0,
      "step": 49825
    },
    {
      "entropy": 5.3947652816772464,
      "epoch": 4.186347406007141,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003352334761608745,
      "loss": 4.8619,
      "mean_token_accuracy": 0.2213906615972519,
      "num_tokens": 91948016.0,
      "step": 49830
    },
    {
      "entropy": 5.352237319946289,
      "epoch": 4.1867674858223065,
      "grad_norm": 1.125,
      "learning_rate": 0.0003352046220941012,
      "loss": 4.7943,
      "mean_token_accuracy": 0.21491890549659728,
      "num_tokens": 91956592.0,
      "step": 49835
    },
    {
      "entropy": 5.401173162460327,
      "epoch": 4.187187565637471,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000335175766960834,
      "loss": 4.9419,
      "mean_token_accuracy": 0.20855788439512252,
      "num_tokens": 91966376.0,
      "step": 49840
    },
    {
      "entropy": 5.513245677947998,
      "epoch": 4.187607645452636,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00033514691076158397,
      "loss": 4.985,
      "mean_token_accuracy": 0.20209585577249528,
      "num_tokens": 91974933.0,
      "step": 49845
    },
    {
      "entropy": 5.5020777702331545,
      "epoch": 4.188027725267801,
      "grad_norm": 1.296875,
      "learning_rate": 0.0003351180534968625,
      "loss": 4.995,
      "mean_token_accuracy": 0.21398088186979294,
      "num_tokens": 91984217.0,
      "step": 49850
    },
    {
      "entropy": 5.392449998855591,
      "epoch": 4.188447805082966,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003350891951671806,
      "loss": 4.8957,
      "mean_token_accuracy": 0.21461284309625625,
      "num_tokens": 91993590.0,
      "step": 49855
    },
    {
      "entropy": 5.4003565311431885,
      "epoch": 4.188867884898131,
      "grad_norm": 1.125,
      "learning_rate": 0.0003350603357730497,
      "loss": 4.8778,
      "mean_token_accuracy": 0.21696751266717912,
      "num_tokens": 92003251.0,
      "step": 49860
    },
    {
      "entropy": 5.5088602066040036,
      "epoch": 4.189287964713295,
      "grad_norm": 1.109375,
      "learning_rate": 0.00033503147531498075,
      "loss": 4.9986,
      "mean_token_accuracy": 0.20571144223213195,
      "num_tokens": 92012047.0,
      "step": 49865
    },
    {
      "entropy": 5.4864672183990475,
      "epoch": 4.1897080445284605,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00033500261379348505,
      "loss": 4.9818,
      "mean_token_accuracy": 0.2059965878725052,
      "num_tokens": 92021186.0,
      "step": 49870
    },
    {
      "entropy": 5.4744843482971195,
      "epoch": 4.190128124343626,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003349737512090741,
      "loss": 5.0001,
      "mean_token_accuracy": 0.2103851169347763,
      "num_tokens": 92030419.0,
      "step": 49875
    },
    {
      "entropy": 5.3958336353302006,
      "epoch": 4.19054820415879,
      "grad_norm": 1.09375,
      "learning_rate": 0.00033494488756225893,
      "loss": 4.8644,
      "mean_token_accuracy": 0.20920032560825347,
      "num_tokens": 92039532.0,
      "step": 49880
    },
    {
      "entropy": 5.441530323028564,
      "epoch": 4.190968283973955,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00033491602285355096,
      "loss": 4.9836,
      "mean_token_accuracy": 0.204615081846714,
      "num_tokens": 92049699.0,
      "step": 49885
    },
    {
      "entropy": 5.4917741298675535,
      "epoch": 4.19138836378912,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003348871570834615,
      "loss": 4.9627,
      "mean_token_accuracy": 0.21754554212093352,
      "num_tokens": 92059140.0,
      "step": 49890
    },
    {
      "entropy": 5.448070859909057,
      "epoch": 4.191808443604285,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00033485829025250194,
      "loss": 4.9699,
      "mean_token_accuracy": 0.2082546278834343,
      "num_tokens": 92068655.0,
      "step": 49895
    },
    {
      "entropy": 5.473532342910767,
      "epoch": 4.19222852341945,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00033482942236118355,
      "loss": 4.9042,
      "mean_token_accuracy": 0.21269006580114364,
      "num_tokens": 92077545.0,
      "step": 49900
    },
    {
      "entropy": 5.459096145629883,
      "epoch": 4.192648603234614,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00033480055341001774,
      "loss": 4.8971,
      "mean_token_accuracy": 0.21308901458978652,
      "num_tokens": 92085600.0,
      "step": 49905
    },
    {
      "entropy": 5.490829658508301,
      "epoch": 4.19306868304978,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00033477168339951594,
      "loss": 4.9789,
      "mean_token_accuracy": 0.20756822526454927,
      "num_tokens": 92094822.0,
      "step": 49910
    },
    {
      "entropy": 5.430421543121338,
      "epoch": 4.193488762864944,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003347428123301895,
      "loss": 4.9813,
      "mean_token_accuracy": 0.21347321718931198,
      "num_tokens": 92104677.0,
      "step": 49915
    },
    {
      "entropy": 5.464057111740113,
      "epoch": 4.193908842680109,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00033471394020255,
      "loss": 4.9744,
      "mean_token_accuracy": 0.204732246696949,
      "num_tokens": 92113221.0,
      "step": 49920
    },
    {
      "entropy": 5.423787212371826,
      "epoch": 4.1943289224952744,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003346850670171087,
      "loss": 4.8088,
      "mean_token_accuracy": 0.21498711556196212,
      "num_tokens": 92122538.0,
      "step": 49925
    },
    {
      "entropy": 5.4868494987487795,
      "epoch": 4.194749002310439,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003346561927743772,
      "loss": 4.9998,
      "mean_token_accuracy": 0.2142219215631485,
      "num_tokens": 92130538.0,
      "step": 49930
    },
    {
      "entropy": 5.4401177883148195,
      "epoch": 4.195169082125604,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00033462731747486697,
      "loss": 4.9238,
      "mean_token_accuracy": 0.2187955990433693,
      "num_tokens": 92138970.0,
      "step": 49935
    },
    {
      "entropy": 5.4876970767974855,
      "epoch": 4.195589161940768,
      "grad_norm": 1.09375,
      "learning_rate": 0.00033459844111908947,
      "loss": 5.1065,
      "mean_token_accuracy": 0.19252686947584152,
      "num_tokens": 92148224.0,
      "step": 49940
    },
    {
      "entropy": 5.371433210372925,
      "epoch": 4.196009241755934,
      "grad_norm": 1.109375,
      "learning_rate": 0.00033456956370755644,
      "loss": 4.832,
      "mean_token_accuracy": 0.22884627878665925,
      "num_tokens": 92156861.0,
      "step": 49945
    },
    {
      "entropy": 5.531490993499756,
      "epoch": 4.196429321571099,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003345406852407791,
      "loss": 5.0062,
      "mean_token_accuracy": 0.2131181076169014,
      "num_tokens": 92166911.0,
      "step": 49950
    },
    {
      "entropy": 5.477125358581543,
      "epoch": 4.196849401386263,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00033451180571926925,
      "loss": 4.9552,
      "mean_token_accuracy": 0.21484771817922593,
      "num_tokens": 92176454.0,
      "step": 49955
    },
    {
      "entropy": 5.316906547546386,
      "epoch": 4.197269481201428,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00033448292514353837,
      "loss": 4.7414,
      "mean_token_accuracy": 0.2279924973845482,
      "num_tokens": 92185477.0,
      "step": 49960
    },
    {
      "entropy": 5.48038067817688,
      "epoch": 4.197689561016593,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00033445404351409807,
      "loss": 4.9709,
      "mean_token_accuracy": 0.2012337327003479,
      "num_tokens": 92194624.0,
      "step": 49965
    },
    {
      "entropy": 5.49594898223877,
      "epoch": 4.198109640831758,
      "grad_norm": 0.96875,
      "learning_rate": 0.0003344251608314601,
      "loss": 4.9879,
      "mean_token_accuracy": 0.21282940953969956,
      "num_tokens": 92204176.0,
      "step": 49970
    },
    {
      "entropy": 5.414857578277588,
      "epoch": 4.198529720646923,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003343962770961359,
      "loss": 4.8989,
      "mean_token_accuracy": 0.21395588517189026,
      "num_tokens": 92213356.0,
      "step": 49975
    },
    {
      "entropy": 5.453337669372559,
      "epoch": 4.1989498004620875,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003343673923086373,
      "loss": 4.9851,
      "mean_token_accuracy": 0.20165763795375824,
      "num_tokens": 92222249.0,
      "step": 49980
    },
    {
      "entropy": 5.434424304962159,
      "epoch": 4.199369880277253,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003343385064694759,
      "loss": 4.9602,
      "mean_token_accuracy": 0.2099708616733551,
      "num_tokens": 92231531.0,
      "step": 49985
    },
    {
      "entropy": 5.440057420730591,
      "epoch": 4.199789960092417,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003343096195791634,
      "loss": 4.8728,
      "mean_token_accuracy": 0.2183735713362694,
      "num_tokens": 92240480.0,
      "step": 49990
    },
    {
      "entropy": 5.428211450576782,
      "epoch": 4.200210039907582,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00033428073163821155,
      "loss": 4.841,
      "mean_token_accuracy": 0.2207587480545044,
      "num_tokens": 92249788.0,
      "step": 49995
    },
    {
      "entropy": 5.375096082687378,
      "epoch": 4.200630119722748,
      "grad_norm": 1.15625,
      "learning_rate": 0.00033425184264713207,
      "loss": 4.7968,
      "mean_token_accuracy": 0.22538309693336486,
      "num_tokens": 92258545.0,
      "step": 50000
    },
    {
      "entropy": 5.333556222915649,
      "epoch": 4.201050199537912,
      "grad_norm": 1.09375,
      "learning_rate": 0.00033422295260643667,
      "loss": 4.8094,
      "mean_token_accuracy": 0.22545840591192245,
      "num_tokens": 92267952.0,
      "step": 50005
    },
    {
      "entropy": 5.410909271240234,
      "epoch": 4.201470279353077,
      "grad_norm": 1.109375,
      "learning_rate": 0.00033419406151663717,
      "loss": 4.9185,
      "mean_token_accuracy": 0.20222769379615785,
      "num_tokens": 92276569.0,
      "step": 50010
    },
    {
      "entropy": 5.47112889289856,
      "epoch": 4.201890359168242,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00033416516937824535,
      "loss": 4.9706,
      "mean_token_accuracy": 0.21028721779584886,
      "num_tokens": 92285678.0,
      "step": 50015
    },
    {
      "entropy": 5.383987665176392,
      "epoch": 4.202310438983407,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003341362761917731,
      "loss": 4.8514,
      "mean_token_accuracy": 0.21267309188842773,
      "num_tokens": 92295288.0,
      "step": 50020
    },
    {
      "entropy": 5.432226371765137,
      "epoch": 4.202730518798572,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003341073819577321,
      "loss": 4.9286,
      "mean_token_accuracy": 0.21529717594385148,
      "num_tokens": 92304604.0,
      "step": 50025
    },
    {
      "entropy": 5.373674917221069,
      "epoch": 4.203150598613736,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00033407848667663424,
      "loss": 4.7884,
      "mean_token_accuracy": 0.22325894683599473,
      "num_tokens": 92313688.0,
      "step": 50030
    },
    {
      "entropy": 5.462163305282592,
      "epoch": 4.2035706784289015,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003340495903489915,
      "loss": 4.9362,
      "mean_token_accuracy": 0.21856688261032103,
      "num_tokens": 92322580.0,
      "step": 50035
    },
    {
      "entropy": 5.386350393295288,
      "epoch": 4.203990758244067,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003340206929753156,
      "loss": 4.8992,
      "mean_token_accuracy": 0.2128191813826561,
      "num_tokens": 92332669.0,
      "step": 50040
    },
    {
      "entropy": 5.390723657608032,
      "epoch": 4.204410838059231,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003339917945561185,
      "loss": 4.9567,
      "mean_token_accuracy": 0.2133798435330391,
      "num_tokens": 92341763.0,
      "step": 50045
    },
    {
      "entropy": 5.43817663192749,
      "epoch": 4.204830917874396,
      "grad_norm": 1.15625,
      "learning_rate": 0.00033396289509191214,
      "loss": 4.8948,
      "mean_token_accuracy": 0.21321592181921006,
      "num_tokens": 92351229.0,
      "step": 50050
    },
    {
      "entropy": 5.457724094390869,
      "epoch": 4.205250997689561,
      "grad_norm": 1.15625,
      "learning_rate": 0.00033393399458320845,
      "loss": 4.9505,
      "mean_token_accuracy": 0.20695276707410812,
      "num_tokens": 92360642.0,
      "step": 50055
    },
    {
      "entropy": 5.431431150436401,
      "epoch": 4.205671077504726,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003339050930305194,
      "loss": 4.9773,
      "mean_token_accuracy": 0.21053684800863265,
      "num_tokens": 92369207.0,
      "step": 50060
    },
    {
      "entropy": 5.507476711273194,
      "epoch": 4.206091157319891,
      "grad_norm": 1.109375,
      "learning_rate": 0.000333876190434357,
      "loss": 5.0558,
      "mean_token_accuracy": 0.20556704998016356,
      "num_tokens": 92378753.0,
      "step": 50065
    },
    {
      "entropy": 5.593726587295532,
      "epoch": 4.2065112371350555,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003338472867952332,
      "loss": 5.0105,
      "mean_token_accuracy": 0.21366815865039826,
      "num_tokens": 92387485.0,
      "step": 50070
    },
    {
      "entropy": 5.410893535614013,
      "epoch": 4.206931316950221,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00033381838211365994,
      "loss": 4.8922,
      "mean_token_accuracy": 0.2092911034822464,
      "num_tokens": 92396349.0,
      "step": 50075
    },
    {
      "entropy": 5.4038866519927975,
      "epoch": 4.207351396765385,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00033378947639014947,
      "loss": 4.9244,
      "mean_token_accuracy": 0.21485482901334763,
      "num_tokens": 92405302.0,
      "step": 50080
    },
    {
      "entropy": 5.382017326354981,
      "epoch": 4.20777147658055,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00033376056962521354,
      "loss": 4.869,
      "mean_token_accuracy": 0.21646952033042907,
      "num_tokens": 92413324.0,
      "step": 50085
    },
    {
      "entropy": 5.405563497543335,
      "epoch": 4.2081915563957155,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003337316618193645,
      "loss": 4.8224,
      "mean_token_accuracy": 0.2209254041314125,
      "num_tokens": 92422746.0,
      "step": 50090
    },
    {
      "entropy": 5.479448747634888,
      "epoch": 4.20861163621088,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00033370275297311426,
      "loss": 5.0036,
      "mean_token_accuracy": 0.20278943926095963,
      "num_tokens": 92432981.0,
      "step": 50095
    },
    {
      "entropy": 5.423950481414795,
      "epoch": 4.209031716026045,
      "grad_norm": 1.203125,
      "learning_rate": 0.00033367384308697495,
      "loss": 4.9195,
      "mean_token_accuracy": 0.21121998578310014,
      "num_tokens": 92441478.0,
      "step": 50100
    },
    {
      "entropy": 5.3987866878509525,
      "epoch": 4.209451795841209,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003336449321614588,
      "loss": 4.8931,
      "mean_token_accuracy": 0.21275993883609773,
      "num_tokens": 92450312.0,
      "step": 50105
    },
    {
      "entropy": 5.500922632217407,
      "epoch": 4.209871875656375,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003336160201970777,
      "loss": 5.0242,
      "mean_token_accuracy": 0.20615878105163574,
      "num_tokens": 92459632.0,
      "step": 50110
    },
    {
      "entropy": 5.504772424697876,
      "epoch": 4.21029195547154,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00033358710719434416,
      "loss": 4.972,
      "mean_token_accuracy": 0.2160348951816559,
      "num_tokens": 92468462.0,
      "step": 50115
    },
    {
      "entropy": 5.5012730121612545,
      "epoch": 4.210712035286704,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003335581931537702,
      "loss": 4.9782,
      "mean_token_accuracy": 0.2094382718205452,
      "num_tokens": 92477934.0,
      "step": 50120
    },
    {
      "entropy": 5.440591716766358,
      "epoch": 4.2111321151018695,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003335292780758679,
      "loss": 4.9423,
      "mean_token_accuracy": 0.20722688734531403,
      "num_tokens": 92487226.0,
      "step": 50125
    },
    {
      "entropy": 5.428317928314209,
      "epoch": 4.211552194917034,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003335003619611496,
      "loss": 4.9173,
      "mean_token_accuracy": 0.21658699959516525,
      "num_tokens": 92496837.0,
      "step": 50130
    },
    {
      "entropy": 5.41085524559021,
      "epoch": 4.211972274732199,
      "grad_norm": 1.140625,
      "learning_rate": 0.00033347144481012754,
      "loss": 4.8044,
      "mean_token_accuracy": 0.22491398453712463,
      "num_tokens": 92505232.0,
      "step": 50135
    },
    {
      "entropy": 5.482259035110474,
      "epoch": 4.212392354547364,
      "grad_norm": 1.1875,
      "learning_rate": 0.00033344252662331395,
      "loss": 5.0429,
      "mean_token_accuracy": 0.1994940847158432,
      "num_tokens": 92515286.0,
      "step": 50140
    },
    {
      "entropy": 5.4049859046936035,
      "epoch": 4.212812434362529,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003334136074012211,
      "loss": 4.8745,
      "mean_token_accuracy": 0.21914128065109253,
      "num_tokens": 92523883.0,
      "step": 50145
    },
    {
      "entropy": 5.498669719696045,
      "epoch": 4.213232514177694,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003333846871443612,
      "loss": 4.971,
      "mean_token_accuracy": 0.21015425026416779,
      "num_tokens": 92533622.0,
      "step": 50150
    },
    {
      "entropy": 5.540738725662232,
      "epoch": 4.213652593992858,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0003333557658532467,
      "loss": 4.9698,
      "mean_token_accuracy": 0.2067895397543907,
      "num_tokens": 92542955.0,
      "step": 50155
    },
    {
      "entropy": 5.430055236816406,
      "epoch": 4.214072673808023,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003333268435283898,
      "loss": 4.8594,
      "mean_token_accuracy": 0.21139043420553208,
      "num_tokens": 92551098.0,
      "step": 50160
    },
    {
      "entropy": 5.39480152130127,
      "epoch": 4.214492753623189,
      "grad_norm": 1.25,
      "learning_rate": 0.00033329792017030294,
      "loss": 4.958,
      "mean_token_accuracy": 0.21663570106029512,
      "num_tokens": 92560179.0,
      "step": 50165
    },
    {
      "entropy": 5.440165376663208,
      "epoch": 4.214912833438353,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00033326899577949836,
      "loss": 4.9572,
      "mean_token_accuracy": 0.2072020187973976,
      "num_tokens": 92570136.0,
      "step": 50170
    },
    {
      "entropy": 5.545604085922241,
      "epoch": 4.215332913253518,
      "grad_norm": 1.203125,
      "learning_rate": 0.00033324007035648865,
      "loss": 4.9895,
      "mean_token_accuracy": 0.21218014508485794,
      "num_tokens": 92579874.0,
      "step": 50175
    },
    {
      "entropy": 5.543437767028808,
      "epoch": 4.2157529930686835,
      "grad_norm": 1.15625,
      "learning_rate": 0.00033321114390178603,
      "loss": 4.9893,
      "mean_token_accuracy": 0.21299456804990768,
      "num_tokens": 92588677.0,
      "step": 50180
    },
    {
      "entropy": 5.428208446502685,
      "epoch": 4.216173072883848,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00033318221641590295,
      "loss": 4.8183,
      "mean_token_accuracy": 0.21971436440944672,
      "num_tokens": 92598142.0,
      "step": 50185
    },
    {
      "entropy": 5.384291362762451,
      "epoch": 4.216593152699013,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00033315328789935197,
      "loss": 4.846,
      "mean_token_accuracy": 0.21635572910308837,
      "num_tokens": 92607216.0,
      "step": 50190
    },
    {
      "entropy": 5.416692924499512,
      "epoch": 4.217013232514177,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003331243583526453,
      "loss": 4.9282,
      "mean_token_accuracy": 0.2060452565550804,
      "num_tokens": 92616636.0,
      "step": 50195
    },
    {
      "entropy": 5.452539491653442,
      "epoch": 4.217433312329343,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00033309542777629566,
      "loss": 4.95,
      "mean_token_accuracy": 0.2087550237774849,
      "num_tokens": 92626272.0,
      "step": 50200
    },
    {
      "entropy": 5.4660121440887455,
      "epoch": 4.217853392144508,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00033306649617081534,
      "loss": 4.9562,
      "mean_token_accuracy": 0.20809152871370315,
      "num_tokens": 92635932.0,
      "step": 50205
    },
    {
      "entropy": 5.439954566955566,
      "epoch": 4.218273471959672,
      "grad_norm": 1.09375,
      "learning_rate": 0.00033303756353671697,
      "loss": 4.9052,
      "mean_token_accuracy": 0.2133387729525566,
      "num_tokens": 92644618.0,
      "step": 50210
    },
    {
      "entropy": 5.428256368637085,
      "epoch": 4.218693551774837,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003330086298745131,
      "loss": 4.9448,
      "mean_token_accuracy": 0.2177723914384842,
      "num_tokens": 92653958.0,
      "step": 50215
    },
    {
      "entropy": 5.426210355758667,
      "epoch": 4.219113631590002,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003329796951847162,
      "loss": 4.9258,
      "mean_token_accuracy": 0.20817227959632872,
      "num_tokens": 92662972.0,
      "step": 50220
    },
    {
      "entropy": 5.439934873580933,
      "epoch": 4.219533711405167,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003329507594678388,
      "loss": 4.9344,
      "mean_token_accuracy": 0.2132592186331749,
      "num_tokens": 92671238.0,
      "step": 50225
    },
    {
      "entropy": 5.483593511581421,
      "epoch": 4.219953791220332,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00033292182272439357,
      "loss": 4.966,
      "mean_token_accuracy": 0.21590184271335602,
      "num_tokens": 92679664.0,
      "step": 50230
    },
    {
      "entropy": 5.3962644100189205,
      "epoch": 4.2203738710354965,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00033289288495489305,
      "loss": 4.8472,
      "mean_token_accuracy": 0.21966141760349273,
      "num_tokens": 92689289.0,
      "step": 50235
    },
    {
      "entropy": 5.459829425811767,
      "epoch": 4.220793950850662,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003328639461598499,
      "loss": 4.9135,
      "mean_token_accuracy": 0.21271556615829468,
      "num_tokens": 92698021.0,
      "step": 50240
    },
    {
      "entropy": 5.4263042449951175,
      "epoch": 4.221214030665826,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00033283500633977676,
      "loss": 4.7871,
      "mean_token_accuracy": 0.22183724045753478,
      "num_tokens": 92706590.0,
      "step": 50245
    },
    {
      "entropy": 5.392065048217773,
      "epoch": 4.221634110480991,
      "grad_norm": 1.15625,
      "learning_rate": 0.00033280606549518626,
      "loss": 4.8722,
      "mean_token_accuracy": 0.21597318053245546,
      "num_tokens": 92714565.0,
      "step": 50250
    },
    {
      "entropy": 5.421160507202148,
      "epoch": 4.222054190296157,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003327771236265911,
      "loss": 5.0085,
      "mean_token_accuracy": 0.21015824228525162,
      "num_tokens": 92725133.0,
      "step": 50255
    },
    {
      "entropy": 5.528344678878784,
      "epoch": 4.222474270111321,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003327481807345039,
      "loss": 5.0038,
      "mean_token_accuracy": 0.20180534422397614,
      "num_tokens": 92735114.0,
      "step": 50260
    },
    {
      "entropy": 5.492531824111938,
      "epoch": 4.222894349926486,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00033271923681943736,
      "loss": 4.922,
      "mean_token_accuracy": 0.21321354061365128,
      "num_tokens": 92744020.0,
      "step": 50265
    },
    {
      "entropy": 5.430587911605835,
      "epoch": 4.2233144297416505,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003326902918819044,
      "loss": 4.9289,
      "mean_token_accuracy": 0.21297980695962906,
      "num_tokens": 92753549.0,
      "step": 50270
    },
    {
      "entropy": 5.482179737091064,
      "epoch": 4.223734509556816,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003326613459224176,
      "loss": 4.9805,
      "mean_token_accuracy": 0.20593295693397523,
      "num_tokens": 92763102.0,
      "step": 50275
    },
    {
      "entropy": 5.541151428222657,
      "epoch": 4.224154589371981,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003326323989414897,
      "loss": 5.0602,
      "mean_token_accuracy": 0.20951654464006425,
      "num_tokens": 92773026.0,
      "step": 50280
    },
    {
      "entropy": 5.522004747390747,
      "epoch": 4.224574669187145,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003326034509396335,
      "loss": 4.9275,
      "mean_token_accuracy": 0.21300625801086426,
      "num_tokens": 92782630.0,
      "step": 50285
    },
    {
      "entropy": 5.646248865127563,
      "epoch": 4.2249947490023105,
      "grad_norm": 1.171875,
      "learning_rate": 0.00033257450191736187,
      "loss": 5.1112,
      "mean_token_accuracy": 0.19944063276052476,
      "num_tokens": 92792092.0,
      "step": 50290
    },
    {
      "entropy": 5.508207702636719,
      "epoch": 4.225414828817476,
      "grad_norm": 1.109375,
      "learning_rate": 0.00033254555187518754,
      "loss": 5.0049,
      "mean_token_accuracy": 0.20234453082084655,
      "num_tokens": 92801438.0,
      "step": 50295
    },
    {
      "entropy": 5.4253754138946535,
      "epoch": 4.22583490863264,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00033251660081362345,
      "loss": 4.817,
      "mean_token_accuracy": 0.22269881069660186,
      "num_tokens": 92809663.0,
      "step": 50300
    },
    {
      "entropy": 5.39495816230774,
      "epoch": 4.226254988447805,
      "grad_norm": 1.15625,
      "learning_rate": 0.00033248764873318226,
      "loss": 4.9162,
      "mean_token_accuracy": 0.2111849680542946,
      "num_tokens": 92818484.0,
      "step": 50305
    },
    {
      "entropy": 5.440644216537476,
      "epoch": 4.22667506826297,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00033245869563437714,
      "loss": 4.9339,
      "mean_token_accuracy": 0.21689897328615187,
      "num_tokens": 92828185.0,
      "step": 50310
    },
    {
      "entropy": 5.503386068344116,
      "epoch": 4.227095148078135,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003324297415177208,
      "loss": 4.9761,
      "mean_token_accuracy": 0.2036099076271057,
      "num_tokens": 92836695.0,
      "step": 50315
    },
    {
      "entropy": 5.517301893234253,
      "epoch": 4.2275152278933,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00033240078638372604,
      "loss": 4.921,
      "mean_token_accuracy": 0.2098107859492302,
      "num_tokens": 92846173.0,
      "step": 50320
    },
    {
      "entropy": 5.475211954116821,
      "epoch": 4.2279353077084645,
      "grad_norm": 1.15625,
      "learning_rate": 0.000332371830232906,
      "loss": 4.9596,
      "mean_token_accuracy": 0.21141692101955414,
      "num_tokens": 92856177.0,
      "step": 50325
    },
    {
      "entropy": 5.382842063903809,
      "epoch": 4.22835538752363,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00033234287306577355,
      "loss": 4.8625,
      "mean_token_accuracy": 0.2191121757030487,
      "num_tokens": 92864492.0,
      "step": 50330
    },
    {
      "entropy": 5.4940580368042,
      "epoch": 4.228775467338794,
      "grad_norm": 1.171875,
      "learning_rate": 0.00033231391488284156,
      "loss": 4.9677,
      "mean_token_accuracy": 0.20516263246536254,
      "num_tokens": 92873770.0,
      "step": 50335
    },
    {
      "entropy": 5.514014005661011,
      "epoch": 4.229195547153959,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00033228495568462315,
      "loss": 4.9595,
      "mean_token_accuracy": 0.2069362848997116,
      "num_tokens": 92882962.0,
      "step": 50340
    },
    {
      "entropy": 5.446074771881103,
      "epoch": 4.2296156269691245,
      "grad_norm": 1.15625,
      "learning_rate": 0.00033225599547163123,
      "loss": 4.9338,
      "mean_token_accuracy": 0.20821070224046706,
      "num_tokens": 92891523.0,
      "step": 50345
    },
    {
      "entropy": 5.443163299560547,
      "epoch": 4.230035706784289,
      "grad_norm": 1.078125,
      "learning_rate": 0.00033222703424437875,
      "loss": 4.9085,
      "mean_token_accuracy": 0.20769213736057282,
      "num_tokens": 92901679.0,
      "step": 50350
    },
    {
      "entropy": 5.473120641708374,
      "epoch": 4.230455786599454,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003321980720033789,
      "loss": 4.8856,
      "mean_token_accuracy": 0.22142715752124786,
      "num_tokens": 92910266.0,
      "step": 50355
    },
    {
      "entropy": 5.455352830886841,
      "epoch": 4.230875866414618,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00033216910874914467,
      "loss": 4.8183,
      "mean_token_accuracy": 0.21685791015625,
      "num_tokens": 92919152.0,
      "step": 50360
    },
    {
      "entropy": 5.424439096450806,
      "epoch": 4.231295946229784,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003321401444821891,
      "loss": 4.9118,
      "mean_token_accuracy": 0.21012010276317597,
      "num_tokens": 92928580.0,
      "step": 50365
    },
    {
      "entropy": 5.3752546310424805,
      "epoch": 4.231716026044949,
      "grad_norm": 1.140625,
      "learning_rate": 0.00033211117920302525,
      "loss": 4.8732,
      "mean_token_accuracy": 0.22003803849220277,
      "num_tokens": 92938831.0,
      "step": 50370
    },
    {
      "entropy": 5.502047491073609,
      "epoch": 4.232136105860113,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003320822129121663,
      "loss": 4.9905,
      "mean_token_accuracy": 0.20817562192678452,
      "num_tokens": 92948091.0,
      "step": 50375
    },
    {
      "entropy": 5.504460763931275,
      "epoch": 4.2325561856752785,
      "grad_norm": 1.1875,
      "learning_rate": 0.00033205324561012535,
      "loss": 5.0105,
      "mean_token_accuracy": 0.21231605410575866,
      "num_tokens": 92957577.0,
      "step": 50380
    },
    {
      "entropy": 5.552742624282837,
      "epoch": 4.232976265490443,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003320242772974156,
      "loss": 5.0522,
      "mean_token_accuracy": 0.20884088128805162,
      "num_tokens": 92967421.0,
      "step": 50385
    },
    {
      "entropy": 5.4975762367248535,
      "epoch": 4.233396345305608,
      "grad_norm": 1.09375,
      "learning_rate": 0.00033199530797455,
      "loss": 4.9667,
      "mean_token_accuracy": 0.20613242983818053,
      "num_tokens": 92976471.0,
      "step": 50390
    },
    {
      "entropy": 5.501732349395752,
      "epoch": 4.233816425120773,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00033196633764204193,
      "loss": 4.9848,
      "mean_token_accuracy": 0.21620586961507798,
      "num_tokens": 92985496.0,
      "step": 50395
    },
    {
      "entropy": 5.573701667785644,
      "epoch": 4.234236504935938,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00033193736630040454,
      "loss": 5.0647,
      "mean_token_accuracy": 0.2036870911717415,
      "num_tokens": 92995110.0,
      "step": 50400
    },
    {
      "entropy": 5.4407655715942385,
      "epoch": 4.234656584751103,
      "grad_norm": 1.078125,
      "learning_rate": 0.00033190839395015105,
      "loss": 4.8952,
      "mean_token_accuracy": 0.21485384553670883,
      "num_tokens": 93004138.0,
      "step": 50405
    },
    {
      "entropy": 5.431977844238281,
      "epoch": 4.235076664566267,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0003318794205917946,
      "loss": 4.9241,
      "mean_token_accuracy": 0.21160759627819062,
      "num_tokens": 93013099.0,
      "step": 50410
    },
    {
      "entropy": 5.4062295913696286,
      "epoch": 4.235496744381432,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00033185044622584855,
      "loss": 4.8402,
      "mean_token_accuracy": 0.2213149681687355,
      "num_tokens": 93021521.0,
      "step": 50415
    },
    {
      "entropy": 5.328355836868286,
      "epoch": 4.235916824196598,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003318214708528261,
      "loss": 4.8455,
      "mean_token_accuracy": 0.2152469739317894,
      "num_tokens": 93030809.0,
      "step": 50420
    },
    {
      "entropy": 5.472565126419068,
      "epoch": 4.236336904011762,
      "grad_norm": 1.0625,
      "learning_rate": 0.00033179249447324054,
      "loss": 4.9567,
      "mean_token_accuracy": 0.21310487985610962,
      "num_tokens": 93040022.0,
      "step": 50425
    },
    {
      "entropy": 5.439933156967163,
      "epoch": 4.236756983826927,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003317635170876052,
      "loss": 4.8994,
      "mean_token_accuracy": 0.21032848060131074,
      "num_tokens": 93048864.0,
      "step": 50430
    },
    {
      "entropy": 5.372291135787964,
      "epoch": 4.237177063642092,
      "grad_norm": 1.140625,
      "learning_rate": 0.00033173453869643336,
      "loss": 4.8742,
      "mean_token_accuracy": 0.21070476472377778,
      "num_tokens": 93057355.0,
      "step": 50435
    },
    {
      "entropy": 5.55053563117981,
      "epoch": 4.237597143457257,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00033170555930023846,
      "loss": 5.0545,
      "mean_token_accuracy": 0.20053090006113053,
      "num_tokens": 93067553.0,
      "step": 50440
    },
    {
      "entropy": 5.462063121795654,
      "epoch": 4.238017223272422,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00033167657889953366,
      "loss": 4.8832,
      "mean_token_accuracy": 0.21352984607219697,
      "num_tokens": 93076496.0,
      "step": 50445
    },
    {
      "entropy": 5.437632513046265,
      "epoch": 4.238437303087586,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00033164759749483255,
      "loss": 4.8578,
      "mean_token_accuracy": 0.21125300526618956,
      "num_tokens": 93086348.0,
      "step": 50450
    },
    {
      "entropy": 5.4423528671264645,
      "epoch": 4.238857382902752,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00033161861508664833,
      "loss": 4.9008,
      "mean_token_accuracy": 0.2114055797457695,
      "num_tokens": 93095578.0,
      "step": 50455
    },
    {
      "entropy": 5.393193531036377,
      "epoch": 4.239277462717917,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00033158963167549454,
      "loss": 4.866,
      "mean_token_accuracy": 0.21045634895563126,
      "num_tokens": 93104419.0,
      "step": 50460
    },
    {
      "entropy": 5.355207300186157,
      "epoch": 4.239697542533081,
      "grad_norm": 1.125,
      "learning_rate": 0.00033156064726188456,
      "loss": 4.8226,
      "mean_token_accuracy": 0.21763786673545837,
      "num_tokens": 93113644.0,
      "step": 50465
    },
    {
      "entropy": 5.4380025386810305,
      "epoch": 4.240117622348246,
      "grad_norm": 1.15625,
      "learning_rate": 0.00033153166184633184,
      "loss": 5.0282,
      "mean_token_accuracy": 0.20507609099149704,
      "num_tokens": 93122114.0,
      "step": 50470
    },
    {
      "entropy": 5.376407098770142,
      "epoch": 4.240537702163411,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003315026754293499,
      "loss": 4.9205,
      "mean_token_accuracy": 0.20849020183086395,
      "num_tokens": 93131842.0,
      "step": 50475
    },
    {
      "entropy": 5.536237478256226,
      "epoch": 4.240957781978576,
      "grad_norm": 1.15625,
      "learning_rate": 0.00033147368801145205,
      "loss": 4.9231,
      "mean_token_accuracy": 0.21683028042316438,
      "num_tokens": 93140370.0,
      "step": 50480
    },
    {
      "entropy": 5.512213230133057,
      "epoch": 4.241377861793741,
      "grad_norm": 1.125,
      "learning_rate": 0.000331444699593152,
      "loss": 4.9486,
      "mean_token_accuracy": 0.20671008229255677,
      "num_tokens": 93148824.0,
      "step": 50485
    },
    {
      "entropy": 5.359061765670776,
      "epoch": 4.2417979416089056,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003314157101749631,
      "loss": 4.8112,
      "mean_token_accuracy": 0.22209388613700867,
      "num_tokens": 93157373.0,
      "step": 50490
    },
    {
      "entropy": 5.430004978179932,
      "epoch": 4.242218021424071,
      "grad_norm": 1.265625,
      "learning_rate": 0.00033138671975739895,
      "loss": 4.8918,
      "mean_token_accuracy": 0.2161500483751297,
      "num_tokens": 93165380.0,
      "step": 50495
    },
    {
      "entropy": 5.435246181488037,
      "epoch": 4.242638101239235,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003313577283409731,
      "loss": 4.9423,
      "mean_token_accuracy": 0.21724831759929658,
      "num_tokens": 93174255.0,
      "step": 50500
    },
    {
      "entropy": 5.405094957351684,
      "epoch": 4.2430581810544,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00033132873592619903,
      "loss": 4.8635,
      "mean_token_accuracy": 0.21791525781154633,
      "num_tokens": 93183551.0,
      "step": 50505
    },
    {
      "entropy": 5.4588456630706785,
      "epoch": 4.243478260869566,
      "grad_norm": 1.125,
      "learning_rate": 0.0003312997425135905,
      "loss": 4.9382,
      "mean_token_accuracy": 0.21558248847723008,
      "num_tokens": 93192680.0,
      "step": 50510
    },
    {
      "entropy": 5.4565673828125,
      "epoch": 4.24389834068473,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00033127074810366104,
      "loss": 5.0291,
      "mean_token_accuracy": 0.21033442318439483,
      "num_tokens": 93203775.0,
      "step": 50515
    },
    {
      "entropy": 5.440372514724731,
      "epoch": 4.244318420499895,
      "grad_norm": 1.09375,
      "learning_rate": 0.00033124175269692423,
      "loss": 4.9195,
      "mean_token_accuracy": 0.21501528918743135,
      "num_tokens": 93212211.0,
      "step": 50520
    },
    {
      "entropy": 5.4788671970367435,
      "epoch": 4.2447385003150595,
      "grad_norm": 1.171875,
      "learning_rate": 0.00033121275629389367,
      "loss": 4.9956,
      "mean_token_accuracy": 0.20057514756917955,
      "num_tokens": 93221695.0,
      "step": 50525
    },
    {
      "entropy": 5.412122774124145,
      "epoch": 4.245158580130225,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003311837588950832,
      "loss": 4.8672,
      "mean_token_accuracy": 0.20733786821365358,
      "num_tokens": 93230373.0,
      "step": 50530
    },
    {
      "entropy": 5.474018812179565,
      "epoch": 4.24557865994539,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003311547605010063,
      "loss": 4.9332,
      "mean_token_accuracy": 0.2115211620926857,
      "num_tokens": 93239454.0,
      "step": 50535
    },
    {
      "entropy": 5.41036901473999,
      "epoch": 4.245998739760554,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00033112576111217674,
      "loss": 4.8983,
      "mean_token_accuracy": 0.21907092928886412,
      "num_tokens": 93249058.0,
      "step": 50540
    },
    {
      "entropy": 5.4160384178161625,
      "epoch": 4.2464188195757195,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003310967607291082,
      "loss": 4.9209,
      "mean_token_accuracy": 0.20911674201488495,
      "num_tokens": 93258341.0,
      "step": 50545
    },
    {
      "entropy": 5.524637651443482,
      "epoch": 4.246838899390884,
      "grad_norm": 1.125,
      "learning_rate": 0.0003310677593523145,
      "loss": 4.9362,
      "mean_token_accuracy": 0.21184036284685134,
      "num_tokens": 93266783.0,
      "step": 50550
    },
    {
      "entropy": 5.379167890548706,
      "epoch": 4.247258979206049,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003310387569823092,
      "loss": 4.8122,
      "mean_token_accuracy": 0.21458131074905396,
      "num_tokens": 93275880.0,
      "step": 50555
    },
    {
      "entropy": 5.369482469558716,
      "epoch": 4.247679059021214,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003310097536196063,
      "loss": 4.9421,
      "mean_token_accuracy": 0.20668431669473647,
      "num_tokens": 93285433.0,
      "step": 50560
    },
    {
      "entropy": 5.538218069076538,
      "epoch": 4.248099138836379,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00033098074926471937,
      "loss": 4.9971,
      "mean_token_accuracy": 0.22524908781051636,
      "num_tokens": 93295701.0,
      "step": 50565
    },
    {
      "entropy": 5.501523351669311,
      "epoch": 4.248519218651544,
      "grad_norm": 1.09375,
      "learning_rate": 0.00033095174391816227,
      "loss": 4.9373,
      "mean_token_accuracy": 0.21287957578897476,
      "num_tokens": 93304297.0,
      "step": 50570
    },
    {
      "entropy": 5.46796407699585,
      "epoch": 4.248939298466708,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003309227375804489,
      "loss": 5.0051,
      "mean_token_accuracy": 0.20435802042484283,
      "num_tokens": 93313960.0,
      "step": 50575
    },
    {
      "entropy": 5.438423442840576,
      "epoch": 4.2493593782818735,
      "grad_norm": 1.0625,
      "learning_rate": 0.000330893730252093,
      "loss": 4.8857,
      "mean_token_accuracy": 0.2159750297665596,
      "num_tokens": 93324159.0,
      "step": 50580
    },
    {
      "entropy": 5.454103565216064,
      "epoch": 4.249779458097039,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00033086472193360843,
      "loss": 4.9883,
      "mean_token_accuracy": 0.19980580657720565,
      "num_tokens": 93333986.0,
      "step": 50585
    },
    {
      "entropy": 5.403192090988159,
      "epoch": 4.250199537912203,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003308357126255092,
      "loss": 4.9294,
      "mean_token_accuracy": 0.2065337285399437,
      "num_tokens": 93342728.0,
      "step": 50590
    },
    {
      "entropy": 5.421700048446655,
      "epoch": 4.250619617727368,
      "grad_norm": 1.078125,
      "learning_rate": 0.00033080670232830896,
      "loss": 4.8698,
      "mean_token_accuracy": 0.21776364445686341,
      "num_tokens": 93351913.0,
      "step": 50595
    },
    {
      "entropy": 5.485579156875611,
      "epoch": 4.251039697542533,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003307776910425217,
      "loss": 4.9579,
      "mean_token_accuracy": 0.21532397270202636,
      "num_tokens": 93361476.0,
      "step": 50600
    },
    {
      "entropy": 5.4864825248718265,
      "epoch": 4.251459777357698,
      "grad_norm": 1.234375,
      "learning_rate": 0.00033074867876866146,
      "loss": 4.9786,
      "mean_token_accuracy": 0.21357074975967408,
      "num_tokens": 93370784.0,
      "step": 50605
    },
    {
      "entropy": 5.440553522109985,
      "epoch": 4.251879857172863,
      "grad_norm": 1.125,
      "learning_rate": 0.000330719665507242,
      "loss": 4.9128,
      "mean_token_accuracy": 0.21137648820877075,
      "num_tokens": 93379455.0,
      "step": 50610
    },
    {
      "entropy": 5.4674985885620115,
      "epoch": 4.252299936988027,
      "grad_norm": 1.203125,
      "learning_rate": 0.00033069065125877745,
      "loss": 4.964,
      "mean_token_accuracy": 0.19968049079179764,
      "num_tokens": 93388440.0,
      "step": 50615
    },
    {
      "entropy": 5.491042423248291,
      "epoch": 4.252720016803193,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003306616360237816,
      "loss": 4.9798,
      "mean_token_accuracy": 0.21177862882614135,
      "num_tokens": 93398238.0,
      "step": 50620
    },
    {
      "entropy": 5.504788112640381,
      "epoch": 4.253140096618358,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00033063261980276855,
      "loss": 4.9443,
      "mean_token_accuracy": 0.21690715104341507,
      "num_tokens": 93406909.0,
      "step": 50625
    },
    {
      "entropy": 5.459234809875488,
      "epoch": 4.253560176433522,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003306036025962523,
      "loss": 4.8877,
      "mean_token_accuracy": 0.21229393631219864,
      "num_tokens": 93415945.0,
      "step": 50630
    },
    {
      "entropy": 5.473634099960327,
      "epoch": 4.2539802562486875,
      "grad_norm": 1.046875,
      "learning_rate": 0.00033057458440474685,
      "loss": 5.0007,
      "mean_token_accuracy": 0.20031375288963318,
      "num_tokens": 93424802.0,
      "step": 50635
    },
    {
      "entropy": 5.479387855529785,
      "epoch": 4.254400336063852,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003305455652287662,
      "loss": 4.9344,
      "mean_token_accuracy": 0.207510282099247,
      "num_tokens": 93433301.0,
      "step": 50640
    },
    {
      "entropy": 5.40629768371582,
      "epoch": 4.254820415879017,
      "grad_norm": 1.109375,
      "learning_rate": 0.00033051654506882454,
      "loss": 4.9515,
      "mean_token_accuracy": 0.2131783753633499,
      "num_tokens": 93442878.0,
      "step": 50645
    },
    {
      "entropy": 5.436378049850464,
      "epoch": 4.255240495694182,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003304875239254359,
      "loss": 4.9582,
      "mean_token_accuracy": 0.21270230412483215,
      "num_tokens": 93453060.0,
      "step": 50650
    },
    {
      "entropy": 5.4290008544921875,
      "epoch": 4.255660575509347,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003304585017991143,
      "loss": 4.9096,
      "mean_token_accuracy": 0.22765145897865297,
      "num_tokens": 93463719.0,
      "step": 50655
    },
    {
      "entropy": 5.557497215270996,
      "epoch": 4.256080655324512,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003304294786903739,
      "loss": 5.0104,
      "mean_token_accuracy": 0.20859205573797227,
      "num_tokens": 93473784.0,
      "step": 50660
    },
    {
      "entropy": 5.426674318313599,
      "epoch": 4.256500735139676,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003304004545997288,
      "loss": 4.8754,
      "mean_token_accuracy": 0.21377686113119126,
      "num_tokens": 93482433.0,
      "step": 50665
    },
    {
      "entropy": 5.48815951347351,
      "epoch": 4.256920814954841,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00033037142952769324,
      "loss": 4.9761,
      "mean_token_accuracy": 0.21860629171133042,
      "num_tokens": 93491031.0,
      "step": 50670
    },
    {
      "entropy": 5.388922309875488,
      "epoch": 4.257340894770007,
      "grad_norm": 1.21875,
      "learning_rate": 0.0003303424034747812,
      "loss": 4.9211,
      "mean_token_accuracy": 0.2100643888115883,
      "num_tokens": 93499710.0,
      "step": 50675
    },
    {
      "entropy": 5.386666488647461,
      "epoch": 4.257760974585171,
      "grad_norm": 1.0,
      "learning_rate": 0.0003303133764415071,
      "loss": 4.8467,
      "mean_token_accuracy": 0.22118521779775618,
      "num_tokens": 93509572.0,
      "step": 50680
    },
    {
      "entropy": 5.451632165908814,
      "epoch": 4.258181054400336,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000330284348428385,
      "loss": 4.9166,
      "mean_token_accuracy": 0.21152927130460739,
      "num_tokens": 93518615.0,
      "step": 50685
    },
    {
      "entropy": 5.486092615127563,
      "epoch": 4.258601134215501,
      "grad_norm": 1.0625,
      "learning_rate": 0.00033025531943592904,
      "loss": 4.9258,
      "mean_token_accuracy": 0.2167348325252533,
      "num_tokens": 93529076.0,
      "step": 50690
    },
    {
      "entropy": 5.445938539505005,
      "epoch": 4.259021214030666,
      "grad_norm": 1.203125,
      "learning_rate": 0.00033022628946465367,
      "loss": 4.9422,
      "mean_token_accuracy": 0.20339448302984237,
      "num_tokens": 93538606.0,
      "step": 50695
    },
    {
      "entropy": 5.447425365447998,
      "epoch": 4.259441293845831,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00033019725851507297,
      "loss": 4.9612,
      "mean_token_accuracy": 0.2056683048605919,
      "num_tokens": 93547984.0,
      "step": 50700
    },
    {
      "entropy": 5.471555233001709,
      "epoch": 4.259861373660995,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003301682265877012,
      "loss": 5.0089,
      "mean_token_accuracy": 0.20291511565446854,
      "num_tokens": 93557720.0,
      "step": 50705
    },
    {
      "entropy": 5.484986591339111,
      "epoch": 4.260281453476161,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003301391936830528,
      "loss": 4.9593,
      "mean_token_accuracy": 0.2137426033616066,
      "num_tokens": 93567596.0,
      "step": 50710
    },
    {
      "entropy": 5.491454219818115,
      "epoch": 4.260701533291325,
      "grad_norm": 1.125,
      "learning_rate": 0.00033011015980164197,
      "loss": 4.8853,
      "mean_token_accuracy": 0.21093860566616057,
      "num_tokens": 93576762.0,
      "step": 50715
    },
    {
      "entropy": 5.490409708023071,
      "epoch": 4.26112161310649,
      "grad_norm": 1.171875,
      "learning_rate": 0.000330081124943983,
      "loss": 4.9294,
      "mean_token_accuracy": 0.2131232038140297,
      "num_tokens": 93585311.0,
      "step": 50720
    },
    {
      "entropy": 5.51552186012268,
      "epoch": 4.261541692921655,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003300520891105902,
      "loss": 4.9948,
      "mean_token_accuracy": 0.20528501868247986,
      "num_tokens": 93594252.0,
      "step": 50725
    },
    {
      "entropy": 5.389237880706787,
      "epoch": 4.26196177273682,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003300230523019781,
      "loss": 4.8813,
      "mean_token_accuracy": 0.21626883298158645,
      "num_tokens": 93604206.0,
      "step": 50730
    },
    {
      "entropy": 5.4264429092407225,
      "epoch": 4.262381852551985,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003299940145186609,
      "loss": 4.908,
      "mean_token_accuracy": 0.2133406937122345,
      "num_tokens": 93613436.0,
      "step": 50735
    },
    {
      "entropy": 5.378944635391235,
      "epoch": 4.26280193236715,
      "grad_norm": 1.0625,
      "learning_rate": 0.00032996497576115306,
      "loss": 4.86,
      "mean_token_accuracy": 0.21909945458173752,
      "num_tokens": 93622942.0,
      "step": 50740
    },
    {
      "entropy": 5.51423282623291,
      "epoch": 4.263222012182315,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00032993593602996903,
      "loss": 4.9648,
      "mean_token_accuracy": 0.20799484848976135,
      "num_tokens": 93633363.0,
      "step": 50745
    },
    {
      "entropy": 5.44556360244751,
      "epoch": 4.26364209199748,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00032990689532562314,
      "loss": 4.8951,
      "mean_token_accuracy": 0.2181219130754471,
      "num_tokens": 93641395.0,
      "step": 50750
    },
    {
      "entropy": 5.451943874359131,
      "epoch": 4.264062171812644,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003298778536486298,
      "loss": 4.9744,
      "mean_token_accuracy": 0.21536013931035997,
      "num_tokens": 93650727.0,
      "step": 50755
    },
    {
      "entropy": 5.461196756362915,
      "epoch": 4.264482251627809,
      "grad_norm": 1.125,
      "learning_rate": 0.00032984881099950365,
      "loss": 4.863,
      "mean_token_accuracy": 0.2189968317747116,
      "num_tokens": 93659362.0,
      "step": 50760
    },
    {
      "entropy": 5.560129022598266,
      "epoch": 4.264902331442974,
      "grad_norm": 1.09375,
      "learning_rate": 0.00032981976737875903,
      "loss": 4.9376,
      "mean_token_accuracy": 0.20700968503952027,
      "num_tokens": 93669315.0,
      "step": 50765
    },
    {
      "entropy": 5.453695821762085,
      "epoch": 4.265322411258139,
      "grad_norm": 1.109375,
      "learning_rate": 0.00032979072278691045,
      "loss": 5.0051,
      "mean_token_accuracy": 0.20401615500450135,
      "num_tokens": 93678101.0,
      "step": 50770
    },
    {
      "entropy": 5.405379056930542,
      "epoch": 4.265742491073304,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003297616772244724,
      "loss": 4.912,
      "mean_token_accuracy": 0.2070314258337021,
      "num_tokens": 93687597.0,
      "step": 50775
    },
    {
      "entropy": 5.387632894515991,
      "epoch": 4.2661625708884685,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003297326306919594,
      "loss": 4.8534,
      "mean_token_accuracy": 0.22168055176734924,
      "num_tokens": 93697055.0,
      "step": 50780
    },
    {
      "entropy": 5.450958251953125,
      "epoch": 4.266582650703634,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00032970358318988607,
      "loss": 4.8628,
      "mean_token_accuracy": 0.21811648160219194,
      "num_tokens": 93706754.0,
      "step": 50785
    },
    {
      "entropy": 5.395110559463501,
      "epoch": 4.267002730518799,
      "grad_norm": 1.140625,
      "learning_rate": 0.00032967453471876695,
      "loss": 4.8324,
      "mean_token_accuracy": 0.22591463327407837,
      "num_tokens": 93715243.0,
      "step": 50790
    },
    {
      "entropy": 5.459061622619629,
      "epoch": 4.267422810333963,
      "grad_norm": 1.078125,
      "learning_rate": 0.00032964548527911663,
      "loss": 4.9596,
      "mean_token_accuracy": 0.20845356732606887,
      "num_tokens": 93725395.0,
      "step": 50795
    },
    {
      "entropy": 5.422531795501709,
      "epoch": 4.2678428901491285,
      "grad_norm": 1.109375,
      "learning_rate": 0.00032961643487144964,
      "loss": 4.8805,
      "mean_token_accuracy": 0.21450058072805406,
      "num_tokens": 93734711.0,
      "step": 50800
    },
    {
      "entropy": 5.474596881866455,
      "epoch": 4.268262969964293,
      "grad_norm": 1.125,
      "learning_rate": 0.00032958738349628063,
      "loss": 4.9718,
      "mean_token_accuracy": 0.21044691503047944,
      "num_tokens": 93744496.0,
      "step": 50805
    },
    {
      "entropy": 5.465129566192627,
      "epoch": 4.268683049779458,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003295583311541243,
      "loss": 4.8695,
      "mean_token_accuracy": 0.21459753513336183,
      "num_tokens": 93753610.0,
      "step": 50810
    },
    {
      "entropy": 5.4829388618469235,
      "epoch": 4.269103129594623,
      "grad_norm": 1.21875,
      "learning_rate": 0.00032952927784549516,
      "loss": 5.0207,
      "mean_token_accuracy": 0.21223546266555787,
      "num_tokens": 93763046.0,
      "step": 50815
    },
    {
      "entropy": 5.413333463668823,
      "epoch": 4.269523209409788,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003295002235709079,
      "loss": 4.8733,
      "mean_token_accuracy": 0.217759008705616,
      "num_tokens": 93772030.0,
      "step": 50820
    },
    {
      "entropy": 5.426471805572509,
      "epoch": 4.269943289224953,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003294711683308773,
      "loss": 4.9254,
      "mean_token_accuracy": 0.21301059573888778,
      "num_tokens": 93781536.0,
      "step": 50825
    },
    {
      "entropy": 5.527312564849853,
      "epoch": 4.270363369040117,
      "grad_norm": 1.15625,
      "learning_rate": 0.00032944211212591803,
      "loss": 4.9894,
      "mean_token_accuracy": 0.2141251027584076,
      "num_tokens": 93791543.0,
      "step": 50830
    },
    {
      "entropy": 5.51234016418457,
      "epoch": 4.2707834488552825,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003294130549565447,
      "loss": 4.9572,
      "mean_token_accuracy": 0.2072865292429924,
      "num_tokens": 93800932.0,
      "step": 50835
    },
    {
      "entropy": 5.440537071228027,
      "epoch": 4.271203528670448,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003293839968232722,
      "loss": 4.8767,
      "mean_token_accuracy": 0.21641355603933335,
      "num_tokens": 93808878.0,
      "step": 50840
    },
    {
      "entropy": 5.434940958023072,
      "epoch": 4.271623608485612,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00032935493772661507,
      "loss": 4.9149,
      "mean_token_accuracy": 0.21489870846271514,
      "num_tokens": 93819021.0,
      "step": 50845
    },
    {
      "entropy": 5.471297788619995,
      "epoch": 4.272043688300777,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00032932587766708825,
      "loss": 4.8511,
      "mean_token_accuracy": 0.2238449990749359,
      "num_tokens": 93827729.0,
      "step": 50850
    },
    {
      "entropy": 5.337993955612182,
      "epoch": 4.272463768115942,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003292968166452066,
      "loss": 4.8479,
      "mean_token_accuracy": 0.21535844951868058,
      "num_tokens": 93837816.0,
      "step": 50855
    },
    {
      "entropy": 5.396956586837769,
      "epoch": 4.272883847931107,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00032926775466148473,
      "loss": 4.9909,
      "mean_token_accuracy": 0.20349255055189133,
      "num_tokens": 93847883.0,
      "step": 50860
    },
    {
      "entropy": 5.452203226089478,
      "epoch": 4.273303927746272,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003292386917164375,
      "loss": 4.8676,
      "mean_token_accuracy": 0.21765985935926438,
      "num_tokens": 93856420.0,
      "step": 50865
    },
    {
      "entropy": 5.486899328231812,
      "epoch": 4.2737240075614364,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003292096278105798,
      "loss": 4.9168,
      "mean_token_accuracy": 0.21093858182430267,
      "num_tokens": 93865204.0,
      "step": 50870
    },
    {
      "entropy": 5.472286987304687,
      "epoch": 4.274144087376602,
      "grad_norm": 1.484375,
      "learning_rate": 0.00032918056294442647,
      "loss": 4.956,
      "mean_token_accuracy": 0.2144700139760971,
      "num_tokens": 93873998.0,
      "step": 50875
    },
    {
      "entropy": 5.462152528762817,
      "epoch": 4.274564167191766,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00032915149711849233,
      "loss": 4.9132,
      "mean_token_accuracy": 0.2101057782769203,
      "num_tokens": 93882939.0,
      "step": 50880
    },
    {
      "entropy": 5.456116437911987,
      "epoch": 4.274984247006931,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003291224303332924,
      "loss": 4.9324,
      "mean_token_accuracy": 0.21765277683734893,
      "num_tokens": 93891607.0,
      "step": 50885
    },
    {
      "entropy": 5.422936534881591,
      "epoch": 4.2754043268220965,
      "grad_norm": 1.125,
      "learning_rate": 0.00032909336258934134,
      "loss": 4.9504,
      "mean_token_accuracy": 0.20807008743286132,
      "num_tokens": 93900384.0,
      "step": 50890
    },
    {
      "entropy": 5.400572013854981,
      "epoch": 4.275824406637261,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003290642938871543,
      "loss": 4.9104,
      "mean_token_accuracy": 0.21487144827842714,
      "num_tokens": 93909188.0,
      "step": 50895
    },
    {
      "entropy": 5.467039489746094,
      "epoch": 4.276244486452426,
      "grad_norm": 1.109375,
      "learning_rate": 0.00032903522422724613,
      "loss": 4.9324,
      "mean_token_accuracy": 0.2139229029417038,
      "num_tokens": 93917911.0,
      "step": 50900
    },
    {
      "entropy": 5.4969440460205075,
      "epoch": 4.276664566267591,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003290061536101318,
      "loss": 4.9702,
      "mean_token_accuracy": 0.20649541467428206,
      "num_tokens": 93926699.0,
      "step": 50905
    },
    {
      "entropy": 5.459406042098999,
      "epoch": 4.277084646082756,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003289770820363262,
      "loss": 4.9011,
      "mean_token_accuracy": 0.2212957873940468,
      "num_tokens": 93935540.0,
      "step": 50910
    },
    {
      "entropy": 5.399418449401855,
      "epoch": 4.277504725897921,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0003289480095063444,
      "loss": 4.9215,
      "mean_token_accuracy": 0.2102847784757614,
      "num_tokens": 93944168.0,
      "step": 50915
    },
    {
      "entropy": 5.425640821456909,
      "epoch": 4.277924805713085,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00032891893602070147,
      "loss": 4.8852,
      "mean_token_accuracy": 0.21776293069124222,
      "num_tokens": 93952697.0,
      "step": 50920
    },
    {
      "entropy": 5.463684940338135,
      "epoch": 4.27834488552825,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003288898615799123,
      "loss": 4.8526,
      "mean_token_accuracy": 0.20859405100345613,
      "num_tokens": 93961864.0,
      "step": 50925
    },
    {
      "entropy": 5.4216937065124515,
      "epoch": 4.278764965343416,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000328860786184492,
      "loss": 4.9054,
      "mean_token_accuracy": 0.21386201828718185,
      "num_tokens": 93971971.0,
      "step": 50930
    },
    {
      "entropy": 5.426889705657959,
      "epoch": 4.27918504515858,
      "grad_norm": 1.25,
      "learning_rate": 0.0003288317098349556,
      "loss": 4.8924,
      "mean_token_accuracy": 0.21580965518951417,
      "num_tokens": 93980589.0,
      "step": 50935
    },
    {
      "entropy": 5.428158092498779,
      "epoch": 4.279605124973745,
      "grad_norm": 1.234375,
      "learning_rate": 0.00032880263253181816,
      "loss": 4.9148,
      "mean_token_accuracy": 0.2103852540254593,
      "num_tokens": 93990067.0,
      "step": 50940
    },
    {
      "entropy": 5.407998371124267,
      "epoch": 4.28002520478891,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003287735542755948,
      "loss": 4.8488,
      "mean_token_accuracy": 0.21528000384569168,
      "num_tokens": 93999452.0,
      "step": 50945
    },
    {
      "entropy": 5.390579652786255,
      "epoch": 4.280445284604075,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00032874447506680063,
      "loss": 4.9163,
      "mean_token_accuracy": 0.21128934919834136,
      "num_tokens": 94008181.0,
      "step": 50950
    },
    {
      "entropy": 5.396995496749878,
      "epoch": 4.28086536441924,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003287153949059507,
      "loss": 4.9573,
      "mean_token_accuracy": 0.21382481306791307,
      "num_tokens": 94017018.0,
      "step": 50955
    },
    {
      "entropy": 5.505257844924927,
      "epoch": 4.281285444234404,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00032868631379356027,
      "loss": 4.989,
      "mean_token_accuracy": 0.2092325672507286,
      "num_tokens": 94026181.0,
      "step": 50960
    },
    {
      "entropy": 5.482958126068115,
      "epoch": 4.28170552404957,
      "grad_norm": 1.125,
      "learning_rate": 0.00032865723173014445,
      "loss": 4.956,
      "mean_token_accuracy": 0.2095050185918808,
      "num_tokens": 94035902.0,
      "step": 50965
    },
    {
      "entropy": 5.464451885223388,
      "epoch": 4.282125603864734,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003286281487162184,
      "loss": 4.9377,
      "mean_token_accuracy": 0.21903083026409148,
      "num_tokens": 94045030.0,
      "step": 50970
    },
    {
      "entropy": 5.473660850524903,
      "epoch": 4.282545683679899,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003285990647522972,
      "loss": 4.9598,
      "mean_token_accuracy": 0.21269796341657637,
      "num_tokens": 94054365.0,
      "step": 50975
    },
    {
      "entropy": 5.42068657875061,
      "epoch": 4.282965763495064,
      "grad_norm": 1.0625,
      "learning_rate": 0.00032856997983889624,
      "loss": 4.8601,
      "mean_token_accuracy": 0.22340608090162278,
      "num_tokens": 94063997.0,
      "step": 50980
    },
    {
      "entropy": 5.435287809371948,
      "epoch": 4.283385843310229,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00032854089397653066,
      "loss": 4.9776,
      "mean_token_accuracy": 0.21380989402532577,
      "num_tokens": 94074276.0,
      "step": 50985
    },
    {
      "entropy": 5.442711734771729,
      "epoch": 4.283805923125394,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003285118071657157,
      "loss": 4.9462,
      "mean_token_accuracy": 0.20950432866811752,
      "num_tokens": 94083909.0,
      "step": 50990
    },
    {
      "entropy": 5.530877590179443,
      "epoch": 4.284226002940558,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00032848271940696673,
      "loss": 5.0053,
      "mean_token_accuracy": 0.20644437968730928,
      "num_tokens": 94094082.0,
      "step": 50995
    },
    {
      "entropy": 5.452864265441894,
      "epoch": 4.284646082755724,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003284536307007988,
      "loss": 4.9104,
      "mean_token_accuracy": 0.21419977396726608,
      "num_tokens": 94102775.0,
      "step": 51000
    },
    {
      "epoch": 4.284646082755724,
      "eval_entropy": 5.182602249460745,
      "eval_loss": 5.053265571594238,
      "eval_mean_token_accuracy": 0.21341549802202275,
      "eval_num_tokens": 94102775.0,
      "eval_runtime": 27.2579,
      "eval_samples_per_second": 1370.832,
      "eval_steps_per_second": 171.363,
      "step": 51000
    },
    {
      "entropy": 5.463443470001221,
      "epoch": 4.285066162570889,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003284245410477274,
      "loss": 4.9327,
      "mean_token_accuracy": 0.21598329097032548,
      "num_tokens": 94111419.0,
      "step": 51005
    },
    {
      "entropy": 5.483196640014649,
      "epoch": 4.285486242386053,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003283954504482678,
      "loss": 4.945,
      "mean_token_accuracy": 0.21000871807336807,
      "num_tokens": 94119618.0,
      "step": 51010
    },
    {
      "entropy": 5.474600458145142,
      "epoch": 4.285906322201218,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00032836635890293517,
      "loss": 4.9504,
      "mean_token_accuracy": 0.21077852696180344,
      "num_tokens": 94128710.0,
      "step": 51015
    },
    {
      "entropy": 5.512936305999756,
      "epoch": 4.286326402016383,
      "grad_norm": 1.21875,
      "learning_rate": 0.00032833726641224507,
      "loss": 4.9833,
      "mean_token_accuracy": 0.211780147254467,
      "num_tokens": 94138257.0,
      "step": 51020
    },
    {
      "entropy": 5.441000938415527,
      "epoch": 4.286746481831548,
      "grad_norm": 1.125,
      "learning_rate": 0.00032830817297671273,
      "loss": 4.8613,
      "mean_token_accuracy": 0.2143008142709732,
      "num_tokens": 94147489.0,
      "step": 51025
    },
    {
      "entropy": 5.48426513671875,
      "epoch": 4.287166561646713,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003282790785968536,
      "loss": 4.9725,
      "mean_token_accuracy": 0.2128070265054703,
      "num_tokens": 94157055.0,
      "step": 51030
    },
    {
      "entropy": 5.427416706085205,
      "epoch": 4.2875866414618775,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00032824998327318295,
      "loss": 4.9294,
      "mean_token_accuracy": 0.21922677904367446,
      "num_tokens": 94166564.0,
      "step": 51035
    },
    {
      "entropy": 5.450562858581543,
      "epoch": 4.288006721277043,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00032822088700621625,
      "loss": 4.9591,
      "mean_token_accuracy": 0.20889144092798234,
      "num_tokens": 94176266.0,
      "step": 51040
    },
    {
      "entropy": 5.472984504699707,
      "epoch": 4.288426801092207,
      "grad_norm": 1.109375,
      "learning_rate": 0.000328191789796469,
      "loss": 4.9637,
      "mean_token_accuracy": 0.20683528929948808,
      "num_tokens": 94185817.0,
      "step": 51045
    },
    {
      "entropy": 5.456531381607055,
      "epoch": 4.288846880907372,
      "grad_norm": 1.125,
      "learning_rate": 0.00032816269164445656,
      "loss": 4.9374,
      "mean_token_accuracy": 0.2123402923345566,
      "num_tokens": 94194874.0,
      "step": 51050
    },
    {
      "entropy": 5.42036771774292,
      "epoch": 4.2892669607225375,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003281335925506944,
      "loss": 4.8951,
      "mean_token_accuracy": 0.21765313744544984,
      "num_tokens": 94203981.0,
      "step": 51055
    },
    {
      "entropy": 5.519033288955688,
      "epoch": 4.289687040537702,
      "grad_norm": 1.046875,
      "learning_rate": 0.00032810449251569805,
      "loss": 4.9635,
      "mean_token_accuracy": 0.2042669251561165,
      "num_tokens": 94213431.0,
      "step": 51060
    },
    {
      "entropy": 5.422638940811157,
      "epoch": 4.290107120352867,
      "grad_norm": 1.15625,
      "learning_rate": 0.00032807539153998294,
      "loss": 4.8777,
      "mean_token_accuracy": 0.21587563455104827,
      "num_tokens": 94223038.0,
      "step": 51065
    },
    {
      "entropy": 5.5148927688598635,
      "epoch": 4.290527200168032,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003280462896240646,
      "loss": 4.9948,
      "mean_token_accuracy": 0.2044085219502449,
      "num_tokens": 94232064.0,
      "step": 51070
    },
    {
      "entropy": 5.40068998336792,
      "epoch": 4.290947279983197,
      "grad_norm": 1.125,
      "learning_rate": 0.00032801718676845856,
      "loss": 4.8503,
      "mean_token_accuracy": 0.2168652206659317,
      "num_tokens": 94241396.0,
      "step": 51075
    },
    {
      "entropy": 5.300952816009522,
      "epoch": 4.291367359798362,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003279880829736803,
      "loss": 4.832,
      "mean_token_accuracy": 0.223260797560215,
      "num_tokens": 94250195.0,
      "step": 51080
    },
    {
      "entropy": 5.415223789215088,
      "epoch": 4.291787439613526,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00032795897824024553,
      "loss": 4.8932,
      "mean_token_accuracy": 0.20475545823574065,
      "num_tokens": 94259434.0,
      "step": 51085
    },
    {
      "entropy": 5.419829988479615,
      "epoch": 4.2922075194286915,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003279298725686697,
      "loss": 4.8622,
      "mean_token_accuracy": 0.2243212953209877,
      "num_tokens": 94268602.0,
      "step": 51090
    },
    {
      "entropy": 5.472452831268311,
      "epoch": 4.292627599243857,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003279007659594684,
      "loss": 4.9611,
      "mean_token_accuracy": 0.2152723491191864,
      "num_tokens": 94278037.0,
      "step": 51095
    },
    {
      "entropy": 5.3638238430023195,
      "epoch": 4.293047679059021,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003278716584131573,
      "loss": 4.859,
      "mean_token_accuracy": 0.2209053859114647,
      "num_tokens": 94286822.0,
      "step": 51100
    },
    {
      "entropy": 5.44080605506897,
      "epoch": 4.293467758874186,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00032784254993025195,
      "loss": 4.9266,
      "mean_token_accuracy": 0.21336598694324493,
      "num_tokens": 94296837.0,
      "step": 51105
    },
    {
      "entropy": 5.370311546325683,
      "epoch": 4.293887838689351,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003278134405112682,
      "loss": 4.8422,
      "mean_token_accuracy": 0.2290031522512436,
      "num_tokens": 94306096.0,
      "step": 51110
    },
    {
      "entropy": 5.408637142181396,
      "epoch": 4.294307918504516,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00032778433015672126,
      "loss": 4.905,
      "mean_token_accuracy": 0.21114855110645295,
      "num_tokens": 94314703.0,
      "step": 51115
    },
    {
      "entropy": 5.3981798648834225,
      "epoch": 4.294727998319681,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00032775521886712727,
      "loss": 4.8791,
      "mean_token_accuracy": 0.20848942846059798,
      "num_tokens": 94324061.0,
      "step": 51120
    },
    {
      "entropy": 5.509497594833374,
      "epoch": 4.2951480781348454,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00032772610664300175,
      "loss": 4.9756,
      "mean_token_accuracy": 0.21144099682569503,
      "num_tokens": 94333482.0,
      "step": 51125
    },
    {
      "entropy": 5.528308439254761,
      "epoch": 4.295568157950011,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003276969934848604,
      "loss": 4.9804,
      "mean_token_accuracy": 0.209176641702652,
      "num_tokens": 94343161.0,
      "step": 51130
    },
    {
      "entropy": 5.498678827285767,
      "epoch": 4.295988237765175,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00032766787939321885,
      "loss": 4.9697,
      "mean_token_accuracy": 0.21489928513765336,
      "num_tokens": 94353276.0,
      "step": 51135
    },
    {
      "entropy": 5.45449047088623,
      "epoch": 4.29640831758034,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00032763876436859305,
      "loss": 5.0221,
      "mean_token_accuracy": 0.20713981837034226,
      "num_tokens": 94361860.0,
      "step": 51140
    },
    {
      "entropy": 5.480226516723633,
      "epoch": 4.2968283973955055,
      "grad_norm": 1.21875,
      "learning_rate": 0.0003276096484114986,
      "loss": 4.9184,
      "mean_token_accuracy": 0.21664716750383378,
      "num_tokens": 94371669.0,
      "step": 51145
    },
    {
      "entropy": 5.50815224647522,
      "epoch": 4.29724847721067,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00032758053152245133,
      "loss": 4.9204,
      "mean_token_accuracy": 0.21347845792770387,
      "num_tokens": 94380524.0,
      "step": 51150
    },
    {
      "entropy": 5.431761884689331,
      "epoch": 4.297668557025835,
      "grad_norm": 1.15625,
      "learning_rate": 0.000327551413701967,
      "loss": 4.9918,
      "mean_token_accuracy": 0.20807363986968994,
      "num_tokens": 94389238.0,
      "step": 51155
    },
    {
      "entropy": 5.355343008041382,
      "epoch": 4.298088636840999,
      "grad_norm": 1.1875,
      "learning_rate": 0.00032752229495056144,
      "loss": 4.8028,
      "mean_token_accuracy": 0.22113612294197083,
      "num_tokens": 94398282.0,
      "step": 51160
    },
    {
      "entropy": 5.393722248077393,
      "epoch": 4.298508716656165,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003274931752687505,
      "loss": 4.9214,
      "mean_token_accuracy": 0.21182379871606827,
      "num_tokens": 94407332.0,
      "step": 51165
    },
    {
      "entropy": 5.458606624603272,
      "epoch": 4.29892879647133,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003274640546570499,
      "loss": 4.9258,
      "mean_token_accuracy": 0.20877929776906967,
      "num_tokens": 94417530.0,
      "step": 51170
    },
    {
      "entropy": 5.521151447296143,
      "epoch": 4.299348876286494,
      "grad_norm": 1.140625,
      "learning_rate": 0.00032743493311597564,
      "loss": 4.9967,
      "mean_token_accuracy": 0.20718882977962494,
      "num_tokens": 94426948.0,
      "step": 51175
    },
    {
      "entropy": 5.47213830947876,
      "epoch": 4.299768956101659,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003274058106460435,
      "loss": 4.9071,
      "mean_token_accuracy": 0.2205657035112381,
      "num_tokens": 94436860.0,
      "step": 51180
    },
    {
      "entropy": 5.461964464187622,
      "epoch": 4.300189035916825,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003273766872477695,
      "loss": 4.8388,
      "mean_token_accuracy": 0.21112160682678222,
      "num_tokens": 94445187.0,
      "step": 51185
    },
    {
      "entropy": 5.520713949203492,
      "epoch": 4.300609115731989,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003273475629216694,
      "loss": 4.9789,
      "mean_token_accuracy": 0.20964942127466202,
      "num_tokens": 94455420.0,
      "step": 51190
    },
    {
      "entropy": 5.450926828384399,
      "epoch": 4.301029195547154,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003273184376682592,
      "loss": 4.9693,
      "mean_token_accuracy": 0.2033182054758072,
      "num_tokens": 94465392.0,
      "step": 51195
    },
    {
      "entropy": 5.462059402465821,
      "epoch": 4.301449275362319,
      "grad_norm": 1.140625,
      "learning_rate": 0.00032728931148805484,
      "loss": 4.9324,
      "mean_token_accuracy": 0.21551483124494553,
      "num_tokens": 94474906.0,
      "step": 51200
    },
    {
      "entropy": 5.450546455383301,
      "epoch": 4.301869355177484,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003272601843815722,
      "loss": 4.8672,
      "mean_token_accuracy": 0.21299414932727814,
      "num_tokens": 94484330.0,
      "step": 51205
    },
    {
      "entropy": 5.465109157562256,
      "epoch": 4.302289434992648,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00032723105634932737,
      "loss": 4.9425,
      "mean_token_accuracy": 0.21027421653270723,
      "num_tokens": 94493280.0,
      "step": 51210
    },
    {
      "entropy": 5.419040203094482,
      "epoch": 4.302709514807813,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003272019273918362,
      "loss": 4.9388,
      "mean_token_accuracy": 0.21888045221567154,
      "num_tokens": 94502821.0,
      "step": 51215
    },
    {
      "entropy": 5.403445386886597,
      "epoch": 4.303129594622979,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003271727975096148,
      "loss": 4.9127,
      "mean_token_accuracy": 0.2160774663090706,
      "num_tokens": 94511892.0,
      "step": 51220
    },
    {
      "entropy": 5.597402477264405,
      "epoch": 4.303549674438143,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003271436667031791,
      "loss": 5.0545,
      "mean_token_accuracy": 0.2042825162410736,
      "num_tokens": 94520976.0,
      "step": 51225
    },
    {
      "entropy": 5.469107246398925,
      "epoch": 4.303969754253308,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003271145349730453,
      "loss": 4.8551,
      "mean_token_accuracy": 0.21986669152975083,
      "num_tokens": 94529801.0,
      "step": 51230
    },
    {
      "entropy": 5.468665981292725,
      "epoch": 4.304389834068473,
      "grad_norm": 1.25,
      "learning_rate": 0.00032708540231972925,
      "loss": 4.9197,
      "mean_token_accuracy": 0.21507479697465898,
      "num_tokens": 94540369.0,
      "step": 51235
    },
    {
      "entropy": 5.40250973701477,
      "epoch": 4.304809913883638,
      "grad_norm": 1.15625,
      "learning_rate": 0.00032705626874374725,
      "loss": 4.8526,
      "mean_token_accuracy": 0.22114198803901672,
      "num_tokens": 94548929.0,
      "step": 51240
    },
    {
      "entropy": 5.3792225360870365,
      "epoch": 4.305229993698803,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003270271342456151,
      "loss": 4.8766,
      "mean_token_accuracy": 0.21969673335552214,
      "num_tokens": 94557701.0,
      "step": 51245
    },
    {
      "entropy": 5.469628572463989,
      "epoch": 4.305650073513967,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00032699799882584906,
      "loss": 4.8909,
      "mean_token_accuracy": 0.21525054723024367,
      "num_tokens": 94566733.0,
      "step": 51250
    },
    {
      "entropy": 5.452034759521484,
      "epoch": 4.306070153329133,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003269688624849653,
      "loss": 4.9373,
      "mean_token_accuracy": 0.21095653027296066,
      "num_tokens": 94574876.0,
      "step": 51255
    },
    {
      "entropy": 5.481972360610962,
      "epoch": 4.306490233144298,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00032693972522347995,
      "loss": 4.9643,
      "mean_token_accuracy": 0.21317998319864273,
      "num_tokens": 94583759.0,
      "step": 51260
    },
    {
      "entropy": 5.3749613761901855,
      "epoch": 4.306910312959462,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003269105870419091,
      "loss": 4.8412,
      "mean_token_accuracy": 0.2129530280828476,
      "num_tokens": 94593141.0,
      "step": 51265
    },
    {
      "entropy": 5.456563186645508,
      "epoch": 4.307330392774627,
      "grad_norm": 1.21875,
      "learning_rate": 0.00032688144794076884,
      "loss": 4.897,
      "mean_token_accuracy": 0.22019837498664857,
      "num_tokens": 94601832.0,
      "step": 51270
    },
    {
      "entropy": 5.405482912063599,
      "epoch": 4.307750472589792,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003268523079205755,
      "loss": 4.9555,
      "mean_token_accuracy": 0.20618582814931868,
      "num_tokens": 94610872.0,
      "step": 51275
    },
    {
      "entropy": 5.537908935546875,
      "epoch": 4.308170552404957,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003268231669818453,
      "loss": 4.9633,
      "mean_token_accuracy": 0.2098470985889435,
      "num_tokens": 94620722.0,
      "step": 51280
    },
    {
      "entropy": 5.436932134628296,
      "epoch": 4.308590632220122,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003267940251250943,
      "loss": 4.8594,
      "mean_token_accuracy": 0.22676319926977156,
      "num_tokens": 94629999.0,
      "step": 51285
    },
    {
      "entropy": 5.381024742126465,
      "epoch": 4.3090107120352865,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003267648823508388,
      "loss": 4.8879,
      "mean_token_accuracy": 0.20915692895650864,
      "num_tokens": 94638797.0,
      "step": 51290
    },
    {
      "entropy": 5.37867317199707,
      "epoch": 4.309430791850452,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003267357386595951,
      "loss": 4.903,
      "mean_token_accuracy": 0.2186465948820114,
      "num_tokens": 94647591.0,
      "step": 51295
    },
    {
      "entropy": 5.521374130249024,
      "epoch": 4.309850871665616,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003267065940518794,
      "loss": 5.0279,
      "mean_token_accuracy": 0.2075511172413826,
      "num_tokens": 94656811.0,
      "step": 51300
    },
    {
      "entropy": 5.469604253768921,
      "epoch": 4.310270951480781,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000326677448528208,
      "loss": 4.9332,
      "mean_token_accuracy": 0.2140460044145584,
      "num_tokens": 94666073.0,
      "step": 51305
    },
    {
      "entropy": 5.415212678909302,
      "epoch": 4.3106910312959466,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003266483020890973,
      "loss": 4.9012,
      "mean_token_accuracy": 0.2160724475979805,
      "num_tokens": 94675602.0,
      "step": 51310
    },
    {
      "entropy": 5.481525945663452,
      "epoch": 4.311111111111111,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003266191547350634,
      "loss": 5.0242,
      "mean_token_accuracy": 0.2066066861152649,
      "num_tokens": 94685134.0,
      "step": 51315
    },
    {
      "entropy": 5.488542699813843,
      "epoch": 4.311531190926276,
      "grad_norm": 1.15625,
      "learning_rate": 0.00032659000646662284,
      "loss": 4.9239,
      "mean_token_accuracy": 0.20688550025224686,
      "num_tokens": 94693625.0,
      "step": 51320
    },
    {
      "entropy": 5.349846029281617,
      "epoch": 4.3119512707414405,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00032656085728429183,
      "loss": 4.8158,
      "mean_token_accuracy": 0.22352979183197022,
      "num_tokens": 94703285.0,
      "step": 51325
    },
    {
      "entropy": 5.381371784210205,
      "epoch": 4.312371350556606,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003265317071885869,
      "loss": 4.8988,
      "mean_token_accuracy": 0.21751797199249268,
      "num_tokens": 94713053.0,
      "step": 51330
    },
    {
      "entropy": 5.415895700454712,
      "epoch": 4.312791430371771,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003265025561800242,
      "loss": 4.9231,
      "mean_token_accuracy": 0.20697661936283113,
      "num_tokens": 94722447.0,
      "step": 51335
    },
    {
      "entropy": 5.485776901245117,
      "epoch": 4.313211510186935,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003264734042591202,
      "loss": 4.9452,
      "mean_token_accuracy": 0.20624797493219377,
      "num_tokens": 94732511.0,
      "step": 51340
    },
    {
      "entropy": 5.497057485580444,
      "epoch": 4.3136315900021005,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00032644425142639143,
      "loss": 4.9105,
      "mean_token_accuracy": 0.21668679863214493,
      "num_tokens": 94741352.0,
      "step": 51345
    },
    {
      "entropy": 5.460774946212768,
      "epoch": 4.314051669817266,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003264150976823542,
      "loss": 4.9797,
      "mean_token_accuracy": 0.2060571938753128,
      "num_tokens": 94750350.0,
      "step": 51350
    },
    {
      "entropy": 5.422684383392334,
      "epoch": 4.31447174963243,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000326385943027525,
      "loss": 4.8757,
      "mean_token_accuracy": 0.21558594703674316,
      "num_tokens": 94759635.0,
      "step": 51355
    },
    {
      "entropy": 5.365393209457397,
      "epoch": 4.314891829447595,
      "grad_norm": 1.1875,
      "learning_rate": 0.00032635678746242033,
      "loss": 4.8539,
      "mean_token_accuracy": 0.21555060148239136,
      "num_tokens": 94768674.0,
      "step": 51360
    },
    {
      "entropy": 5.399158525466919,
      "epoch": 4.31531190926276,
      "grad_norm": 1.125,
      "learning_rate": 0.0003263276309875566,
      "loss": 4.8638,
      "mean_token_accuracy": 0.21726563274860383,
      "num_tokens": 94778827.0,
      "step": 51365
    },
    {
      "entropy": 5.404948949813843,
      "epoch": 4.315731989077925,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003262984736034502,
      "loss": 4.8364,
      "mean_token_accuracy": 0.21591050922870636,
      "num_tokens": 94787001.0,
      "step": 51370
    },
    {
      "entropy": 5.4527280807495115,
      "epoch": 4.316152068893089,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003262693153106179,
      "loss": 4.9541,
      "mean_token_accuracy": 0.20987068265676498,
      "num_tokens": 94796142.0,
      "step": 51375
    },
    {
      "entropy": 5.599858903884888,
      "epoch": 4.3165721487082545,
      "grad_norm": 1.171875,
      "learning_rate": 0.00032624015610957605,
      "loss": 5.1065,
      "mean_token_accuracy": 0.19928276389837266,
      "num_tokens": 94805080.0,
      "step": 51380
    },
    {
      "entropy": 5.516569471359253,
      "epoch": 4.31699222852342,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003262109960008411,
      "loss": 4.8865,
      "mean_token_accuracy": 0.21380290687084197,
      "num_tokens": 94813836.0,
      "step": 51385
    },
    {
      "entropy": 5.481969213485717,
      "epoch": 4.317412308338584,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003261818349849298,
      "loss": 5.0105,
      "mean_token_accuracy": 0.2059910699725151,
      "num_tokens": 94823073.0,
      "step": 51390
    },
    {
      "entropy": 5.459651184082031,
      "epoch": 4.317832388153749,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003261526730623587,
      "loss": 4.9328,
      "mean_token_accuracy": 0.20711781531572343,
      "num_tokens": 94832560.0,
      "step": 51395
    },
    {
      "entropy": 5.436468410491943,
      "epoch": 4.3182524679689145,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003261235102336443,
      "loss": 4.8915,
      "mean_token_accuracy": 0.21795616000890733,
      "num_tokens": 94841922.0,
      "step": 51400
    },
    {
      "entropy": 5.456734657287598,
      "epoch": 4.318672547784079,
      "grad_norm": 1.15625,
      "learning_rate": 0.00032609434649930323,
      "loss": 4.9349,
      "mean_token_accuracy": 0.20948640406131744,
      "num_tokens": 94850987.0,
      "step": 51405
    },
    {
      "entropy": 5.501279020309449,
      "epoch": 4.319092627599244,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003260651818598521,
      "loss": 4.9561,
      "mean_token_accuracy": 0.21189858317375182,
      "num_tokens": 94860992.0,
      "step": 51410
    },
    {
      "entropy": 5.45447187423706,
      "epoch": 4.319512707414408,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003260360163158076,
      "loss": 4.8149,
      "mean_token_accuracy": 0.21649609953165055,
      "num_tokens": 94870447.0,
      "step": 51415
    },
    {
      "entropy": 5.460778999328613,
      "epoch": 4.319932787229574,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003260068498676864,
      "loss": 4.9186,
      "mean_token_accuracy": 0.21258579641580583,
      "num_tokens": 94879776.0,
      "step": 51420
    },
    {
      "entropy": 5.431078910827637,
      "epoch": 4.320352867044739,
      "grad_norm": 1.109375,
      "learning_rate": 0.00032597768251600506,
      "loss": 4.978,
      "mean_token_accuracy": 0.21620145589113235,
      "num_tokens": 94889127.0,
      "step": 51425
    },
    {
      "entropy": 5.517352771759033,
      "epoch": 4.320772946859903,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003259485142612804,
      "loss": 5.0071,
      "mean_token_accuracy": 0.20850847959518432,
      "num_tokens": 94899103.0,
      "step": 51430
    },
    {
      "entropy": 5.361162328720093,
      "epoch": 4.321193026675068,
      "grad_norm": 1.234375,
      "learning_rate": 0.00032591934510402894,
      "loss": 4.7653,
      "mean_token_accuracy": 0.22561201006174086,
      "num_tokens": 94908000.0,
      "step": 51435
    },
    {
      "entropy": 5.4005945205688475,
      "epoch": 4.321613106490233,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00032589017504476754,
      "loss": 4.9229,
      "mean_token_accuracy": 0.21705611646175385,
      "num_tokens": 94916863.0,
      "step": 51440
    },
    {
      "entropy": 5.451678514480591,
      "epoch": 4.322033186305398,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00032586100408401285,
      "loss": 5.0257,
      "mean_token_accuracy": 0.20960555523633956,
      "num_tokens": 94927172.0,
      "step": 51445
    },
    {
      "entropy": 5.504295921325683,
      "epoch": 4.322453266120563,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003258318322222817,
      "loss": 4.979,
      "mean_token_accuracy": 0.21000882089138032,
      "num_tokens": 94936531.0,
      "step": 51450
    },
    {
      "entropy": 5.451349353790283,
      "epoch": 4.322873345935728,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003258026594600908,
      "loss": 4.884,
      "mean_token_accuracy": 0.21955838948488235,
      "num_tokens": 94945867.0,
      "step": 51455
    },
    {
      "entropy": 5.429476642608643,
      "epoch": 4.323293425750893,
      "grad_norm": 1.125,
      "learning_rate": 0.00032577348579795694,
      "loss": 4.8926,
      "mean_token_accuracy": 0.21583458930253982,
      "num_tokens": 94954389.0,
      "step": 51460
    },
    {
      "entropy": 5.436647510528564,
      "epoch": 4.323713505566057,
      "grad_norm": 1.0703125,
      "learning_rate": 0.000325744311236397,
      "loss": 4.9206,
      "mean_token_accuracy": 0.2220236539840698,
      "num_tokens": 94964133.0,
      "step": 51465
    },
    {
      "entropy": 5.4812171936035154,
      "epoch": 4.324133585381222,
      "grad_norm": 1.125,
      "learning_rate": 0.00032571513577592763,
      "loss": 4.9581,
      "mean_token_accuracy": 0.2139883369207382,
      "num_tokens": 94973579.0,
      "step": 51470
    },
    {
      "entropy": 5.557217407226562,
      "epoch": 4.324553665196388,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003256859594170658,
      "loss": 5.0268,
      "mean_token_accuracy": 0.204192553460598,
      "num_tokens": 94983389.0,
      "step": 51475
    },
    {
      "entropy": 5.490395545959473,
      "epoch": 4.324973745011552,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003256567821603283,
      "loss": 4.9228,
      "mean_token_accuracy": 0.20948569029569625,
      "num_tokens": 94992607.0,
      "step": 51480
    },
    {
      "entropy": 5.439646625518799,
      "epoch": 4.325393824826717,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00032562760400623196,
      "loss": 4.9402,
      "mean_token_accuracy": 0.21587999910116196,
      "num_tokens": 95002034.0,
      "step": 51485
    },
    {
      "entropy": 5.460385084152222,
      "epoch": 4.3258139046418815,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003255984249552937,
      "loss": 4.9832,
      "mean_token_accuracy": 0.21091653406620026,
      "num_tokens": 95010837.0,
      "step": 51490
    },
    {
      "entropy": 5.422148370742798,
      "epoch": 4.326233984457047,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00032556924500803036,
      "loss": 4.8457,
      "mean_token_accuracy": 0.2177370622754097,
      "num_tokens": 95018856.0,
      "step": 51495
    },
    {
      "entropy": 5.514255714416504,
      "epoch": 4.326654064272212,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003255400641649589,
      "loss": 5.0109,
      "mean_token_accuracy": 0.2049003764986992,
      "num_tokens": 95028737.0,
      "step": 51500
    },
    {
      "entropy": 5.387040805816651,
      "epoch": 4.327074144087376,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00032551088242659625,
      "loss": 4.8661,
      "mean_token_accuracy": 0.2170679450035095,
      "num_tokens": 95037112.0,
      "step": 51505
    },
    {
      "entropy": 5.517096853256225,
      "epoch": 4.327494223902542,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00032548169979345937,
      "loss": 5.1102,
      "mean_token_accuracy": 0.20189482122659683,
      "num_tokens": 95047801.0,
      "step": 51510
    },
    {
      "entropy": 5.460107946395874,
      "epoch": 4.327914303717707,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003254525162660651,
      "loss": 4.904,
      "mean_token_accuracy": 0.21892488449811937,
      "num_tokens": 95057102.0,
      "step": 51515
    },
    {
      "entropy": 5.472105932235718,
      "epoch": 4.328334383532871,
      "grad_norm": 1.140625,
      "learning_rate": 0.00032542333184493047,
      "loss": 4.8909,
      "mean_token_accuracy": 0.21698329448699952,
      "num_tokens": 95065657.0,
      "step": 51520
    },
    {
      "entropy": 5.4516252994537355,
      "epoch": 4.328754463348036,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00032539414653057246,
      "loss": 4.9317,
      "mean_token_accuracy": 0.21462443917989732,
      "num_tokens": 95074862.0,
      "step": 51525
    },
    {
      "entropy": 5.388657426834106,
      "epoch": 4.329174543163201,
      "grad_norm": 1.25,
      "learning_rate": 0.00032536496032350813,
      "loss": 4.9446,
      "mean_token_accuracy": 0.2071003094315529,
      "num_tokens": 95084112.0,
      "step": 51530
    },
    {
      "entropy": 5.526623058319092,
      "epoch": 4.329594622978366,
      "grad_norm": 1.15625,
      "learning_rate": 0.00032533577322425454,
      "loss": 5.0096,
      "mean_token_accuracy": 0.21165277808904648,
      "num_tokens": 95092868.0,
      "step": 51535
    },
    {
      "entropy": 5.434469366073609,
      "epoch": 4.330014702793531,
      "grad_norm": 1.21875,
      "learning_rate": 0.0003253065852333286,
      "loss": 4.8714,
      "mean_token_accuracy": 0.2161434441804886,
      "num_tokens": 95101702.0,
      "step": 51540
    },
    {
      "entropy": 5.405633783340454,
      "epoch": 4.3304347826086955,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00032527739635124735,
      "loss": 4.8807,
      "mean_token_accuracy": 0.2092881754040718,
      "num_tokens": 95110258.0,
      "step": 51545
    },
    {
      "entropy": 5.4077245712280275,
      "epoch": 4.330854862423861,
      "grad_norm": 1.109375,
      "learning_rate": 0.000325248206578528,
      "loss": 4.9549,
      "mean_token_accuracy": 0.2103265643119812,
      "num_tokens": 95119538.0,
      "step": 51550
    },
    {
      "entropy": 5.486198568344117,
      "epoch": 4.331274942239025,
      "grad_norm": 1.15625,
      "learning_rate": 0.00032521901591568746,
      "loss": 4.9625,
      "mean_token_accuracy": 0.21268608570098876,
      "num_tokens": 95128597.0,
      "step": 51555
    },
    {
      "entropy": 5.55151219367981,
      "epoch": 4.33169502205419,
      "grad_norm": 1.15625,
      "learning_rate": 0.00032518982436324296,
      "loss": 4.9598,
      "mean_token_accuracy": 0.22141793817281724,
      "num_tokens": 95137729.0,
      "step": 51560
    },
    {
      "entropy": 5.521251535415649,
      "epoch": 4.3321151018693556,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003251606319217116,
      "loss": 4.9535,
      "mean_token_accuracy": 0.21232623606920242,
      "num_tokens": 95147753.0,
      "step": 51565
    },
    {
      "entropy": 5.487063789367676,
      "epoch": 4.33253518168452,
      "grad_norm": 1.09375,
      "learning_rate": 0.00032513143859161045,
      "loss": 4.9551,
      "mean_token_accuracy": 0.21181682199239732,
      "num_tokens": 95156806.0,
      "step": 51570
    },
    {
      "entropy": 5.382839345932007,
      "epoch": 4.332955261499685,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003251022443734566,
      "loss": 4.8791,
      "mean_token_accuracy": 0.22383648604154588,
      "num_tokens": 95165590.0,
      "step": 51575
    },
    {
      "entropy": 5.383660221099854,
      "epoch": 4.3333753413148495,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003250730492677674,
      "loss": 4.8688,
      "mean_token_accuracy": 0.2173809975385666,
      "num_tokens": 95174377.0,
      "step": 51580
    },
    {
      "entropy": 5.449590826034546,
      "epoch": 4.333795421130015,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003250438532750599,
      "loss": 4.9719,
      "mean_token_accuracy": 0.20699096769094466,
      "num_tokens": 95183351.0,
      "step": 51585
    },
    {
      "entropy": 5.435454940795898,
      "epoch": 4.33421550094518,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003250146563958512,
      "loss": 4.875,
      "mean_token_accuracy": 0.21160633713006974,
      "num_tokens": 95193450.0,
      "step": 51590
    },
    {
      "entropy": 5.450068140029908,
      "epoch": 4.334635580760344,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003249854586306587,
      "loss": 4.9592,
      "mean_token_accuracy": 0.20914564281702042,
      "num_tokens": 95203150.0,
      "step": 51595
    },
    {
      "entropy": 5.491645622253418,
      "epoch": 4.3350556605755095,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0003249562599799995,
      "loss": 4.9027,
      "mean_token_accuracy": 0.21455587893724443,
      "num_tokens": 95212644.0,
      "step": 51600
    },
    {
      "entropy": 5.538439846038818,
      "epoch": 4.335475740390674,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0003249270604443909,
      "loss": 5.0336,
      "mean_token_accuracy": 0.19865093678236007,
      "num_tokens": 95222544.0,
      "step": 51605
    },
    {
      "entropy": 5.477188205718994,
      "epoch": 4.335895820205839,
      "grad_norm": 1.125,
      "learning_rate": 0.0003248978600243501,
      "loss": 4.9504,
      "mean_token_accuracy": 0.21432235091924667,
      "num_tokens": 95231707.0,
      "step": 51610
    },
    {
      "entropy": 5.4646257877349855,
      "epoch": 4.336315900021004,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003248686587203945,
      "loss": 4.8759,
      "mean_token_accuracy": 0.2243736818432808,
      "num_tokens": 95240623.0,
      "step": 51615
    },
    {
      "entropy": 5.4031298637390135,
      "epoch": 4.336735979836169,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00032483945653304124,
      "loss": 4.8801,
      "mean_token_accuracy": 0.21823485046625138,
      "num_tokens": 95250374.0,
      "step": 51620
    },
    {
      "entropy": 5.458423662185669,
      "epoch": 4.337156059651334,
      "grad_norm": 1.171875,
      "learning_rate": 0.00032481025346280763,
      "loss": 4.9042,
      "mean_token_accuracy": 0.21374135166406633,
      "num_tokens": 95258657.0,
      "step": 51625
    },
    {
      "entropy": 5.357086563110352,
      "epoch": 4.337576139466498,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003247810495102111,
      "loss": 4.8425,
      "mean_token_accuracy": 0.21921468675136566,
      "num_tokens": 95267347.0,
      "step": 51630
    },
    {
      "entropy": 5.453631210327148,
      "epoch": 4.3379962192816635,
      "grad_norm": 1.09375,
      "learning_rate": 0.00032475184467576886,
      "loss": 4.9592,
      "mean_token_accuracy": 0.20692600458860397,
      "num_tokens": 95276539.0,
      "step": 51635
    },
    {
      "entropy": 5.513901233673096,
      "epoch": 4.338416299096829,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003247226389599983,
      "loss": 4.9366,
      "mean_token_accuracy": 0.21263286769390105,
      "num_tokens": 95285821.0,
      "step": 51640
    },
    {
      "entropy": 5.5158243656158445,
      "epoch": 4.338836378911993,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003246934323634168,
      "loss": 5.0333,
      "mean_token_accuracy": 0.2019733890891075,
      "num_tokens": 95294821.0,
      "step": 51645
    },
    {
      "entropy": 5.526290321350098,
      "epoch": 4.339256458727158,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003246642248865418,
      "loss": 4.9797,
      "mean_token_accuracy": 0.20125914812088014,
      "num_tokens": 95304823.0,
      "step": 51650
    },
    {
      "entropy": 5.4237559795379635,
      "epoch": 4.339676538542323,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003246350165298905,
      "loss": 4.9003,
      "mean_token_accuracy": 0.21437221318483352,
      "num_tokens": 95313900.0,
      "step": 51655
    },
    {
      "entropy": 5.4202769756317135,
      "epoch": 4.340096618357488,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003246058072939805,
      "loss": 4.9339,
      "mean_token_accuracy": 0.21152379512786865,
      "num_tokens": 95322711.0,
      "step": 51660
    },
    {
      "entropy": 5.520995235443115,
      "epoch": 4.340516698172653,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00032457659717932924,
      "loss": 4.9026,
      "mean_token_accuracy": 0.21065370440483094,
      "num_tokens": 95332474.0,
      "step": 51665
    },
    {
      "entropy": 5.428593397140503,
      "epoch": 4.340936777987817,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000324547386186454,
      "loss": 4.8933,
      "mean_token_accuracy": 0.2092558354139328,
      "num_tokens": 95341541.0,
      "step": 51670
    },
    {
      "entropy": 5.397898578643799,
      "epoch": 4.341356857802983,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003245181743158724,
      "loss": 4.867,
      "mean_token_accuracy": 0.21636280417442322,
      "num_tokens": 95350115.0,
      "step": 51675
    },
    {
      "entropy": 5.4221978187561035,
      "epoch": 4.341776937618148,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00032448896156810184,
      "loss": 4.9277,
      "mean_token_accuracy": 0.21240327507257462,
      "num_tokens": 95358894.0,
      "step": 51680
    },
    {
      "entropy": 5.387645292282104,
      "epoch": 4.342197017433312,
      "grad_norm": 1.0625,
      "learning_rate": 0.00032445974794365973,
      "loss": 4.8554,
      "mean_token_accuracy": 0.2199750706553459,
      "num_tokens": 95367372.0,
      "step": 51685
    },
    {
      "entropy": 5.420036506652832,
      "epoch": 4.342617097248477,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003244305334430637,
      "loss": 4.8802,
      "mean_token_accuracy": 0.2211879536509514,
      "num_tokens": 95376875.0,
      "step": 51690
    },
    {
      "entropy": 5.412784147262573,
      "epoch": 4.343037177063642,
      "grad_norm": 1.125,
      "learning_rate": 0.0003244013180668312,
      "loss": 4.9126,
      "mean_token_accuracy": 0.2144921153783798,
      "num_tokens": 95386572.0,
      "step": 51695
    },
    {
      "entropy": 5.363659763336182,
      "epoch": 4.343457256878807,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003243721018154799,
      "loss": 4.9084,
      "mean_token_accuracy": 0.21409646719694136,
      "num_tokens": 95395618.0,
      "step": 51700
    },
    {
      "entropy": 5.548161840438842,
      "epoch": 4.343877336693972,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00032434288468952713,
      "loss": 5.0153,
      "mean_token_accuracy": 0.20544038116931915,
      "num_tokens": 95405278.0,
      "step": 51705
    },
    {
      "entropy": 5.482343959808349,
      "epoch": 4.344297416509137,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003243136666894905,
      "loss": 4.9596,
      "mean_token_accuracy": 0.21392576694488524,
      "num_tokens": 95415069.0,
      "step": 51710
    },
    {
      "entropy": 5.4805444240570065,
      "epoch": 4.344717496324302,
      "grad_norm": 1.171875,
      "learning_rate": 0.00032428444781588777,
      "loss": 4.975,
      "mean_token_accuracy": 0.21143104881048203,
      "num_tokens": 95424048.0,
      "step": 51715
    },
    {
      "entropy": 5.4499400615692135,
      "epoch": 4.345137576139466,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003242552280692364,
      "loss": 4.9145,
      "mean_token_accuracy": 0.22110889256000518,
      "num_tokens": 95433353.0,
      "step": 51720
    },
    {
      "entropy": 5.398606634140014,
      "epoch": 4.345557655954631,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00032422600745005397,
      "loss": 4.8293,
      "mean_token_accuracy": 0.2164903923869133,
      "num_tokens": 95442214.0,
      "step": 51725
    },
    {
      "entropy": 5.462547159194946,
      "epoch": 4.345977735769797,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003241967859588583,
      "loss": 4.9575,
      "mean_token_accuracy": 0.20987537503242493,
      "num_tokens": 95451120.0,
      "step": 51730
    },
    {
      "entropy": 5.396565103530884,
      "epoch": 4.346397815584961,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00032416756359616674,
      "loss": 4.911,
      "mean_token_accuracy": 0.20865860730409622,
      "num_tokens": 95460986.0,
      "step": 51735
    },
    {
      "entropy": 5.495642471313476,
      "epoch": 4.346817895400126,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003241383403624972,
      "loss": 4.9261,
      "mean_token_accuracy": 0.2061013773083687,
      "num_tokens": 95469163.0,
      "step": 51740
    },
    {
      "entropy": 5.434845924377441,
      "epoch": 4.3472379752152905,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003241091162583672,
      "loss": 4.894,
      "mean_token_accuracy": 0.21740625649690629,
      "num_tokens": 95478070.0,
      "step": 51745
    },
    {
      "entropy": 5.368598890304566,
      "epoch": 4.347658055030456,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003240798912842946,
      "loss": 4.8607,
      "mean_token_accuracy": 0.2235424667596817,
      "num_tokens": 95486893.0,
      "step": 51750
    },
    {
      "entropy": 5.345226192474366,
      "epoch": 4.348078134845621,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003240506654407969,
      "loss": 4.805,
      "mean_token_accuracy": 0.21630547046661378,
      "num_tokens": 95495862.0,
      "step": 51755
    },
    {
      "entropy": 5.457000017166138,
      "epoch": 4.348498214660785,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00032402143872839196,
      "loss": 4.9296,
      "mean_token_accuracy": 0.21854907870292664,
      "num_tokens": 95504953.0,
      "step": 51760
    },
    {
      "entropy": 5.487572908401489,
      "epoch": 4.348918294475951,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0003239922111475975,
      "loss": 4.9711,
      "mean_token_accuracy": 0.2112254247069359,
      "num_tokens": 95513996.0,
      "step": 51765
    },
    {
      "entropy": 5.494969081878662,
      "epoch": 4.349338374291115,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00032396298269893125,
      "loss": 4.9013,
      "mean_token_accuracy": 0.20866682529449462,
      "num_tokens": 95523343.0,
      "step": 51770
    },
    {
      "entropy": 5.418247270584106,
      "epoch": 4.34975845410628,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003239337533829109,
      "loss": 4.9125,
      "mean_token_accuracy": 0.21253950595855714,
      "num_tokens": 95533173.0,
      "step": 51775
    },
    {
      "entropy": 5.425445032119751,
      "epoch": 4.350178533921445,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003239045232000544,
      "loss": 4.9262,
      "mean_token_accuracy": 0.21007730662822724,
      "num_tokens": 95542515.0,
      "step": 51780
    },
    {
      "entropy": 5.426343488693237,
      "epoch": 4.35059861373661,
      "grad_norm": 1.125,
      "learning_rate": 0.0003238752921508794,
      "loss": 4.9329,
      "mean_token_accuracy": 0.21393064707517623,
      "num_tokens": 95551880.0,
      "step": 51785
    },
    {
      "entropy": 5.557109117507935,
      "epoch": 4.351018693551775,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003238460602359037,
      "loss": 4.9813,
      "mean_token_accuracy": 0.20682190358638763,
      "num_tokens": 95561734.0,
      "step": 51790
    },
    {
      "entropy": 5.4956419467926025,
      "epoch": 4.35143877336694,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003238168274556453,
      "loss": 4.9527,
      "mean_token_accuracy": 0.21547482311725616,
      "num_tokens": 95571521.0,
      "step": 51795
    },
    {
      "entropy": 5.387820720672607,
      "epoch": 4.3518588531821045,
      "grad_norm": 1.203125,
      "learning_rate": 0.00032378759381062184,
      "loss": 4.9584,
      "mean_token_accuracy": 0.21052358895540238,
      "num_tokens": 95580663.0,
      "step": 51800
    },
    {
      "entropy": 5.426188182830811,
      "epoch": 4.35227893299727,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003237583593013513,
      "loss": 4.929,
      "mean_token_accuracy": 0.2038584530353546,
      "num_tokens": 95589251.0,
      "step": 51805
    },
    {
      "entropy": 5.513848781585693,
      "epoch": 4.352699012812434,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003237291239283516,
      "loss": 4.9748,
      "mean_token_accuracy": 0.21328347623348237,
      "num_tokens": 95598537.0,
      "step": 51810
    },
    {
      "entropy": 5.378622245788574,
      "epoch": 4.353119092627599,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003236998876921406,
      "loss": 4.817,
      "mean_token_accuracy": 0.21642664074897766,
      "num_tokens": 95606883.0,
      "step": 51815
    },
    {
      "entropy": 5.557787799835205,
      "epoch": 4.353539172442764,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003236706505932361,
      "loss": 5.0914,
      "mean_token_accuracy": 0.20272918343544005,
      "num_tokens": 95616814.0,
      "step": 51820
    },
    {
      "entropy": 5.426453876495361,
      "epoch": 4.353959252257929,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003236414126321561,
      "loss": 4.8598,
      "mean_token_accuracy": 0.21499890685081482,
      "num_tokens": 95625410.0,
      "step": 51825
    },
    {
      "entropy": 5.534666967391968,
      "epoch": 4.354379332073094,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003236121738094185,
      "loss": 5.0399,
      "mean_token_accuracy": 0.20999726057052612,
      "num_tokens": 95634624.0,
      "step": 51830
    },
    {
      "entropy": 5.481337833404541,
      "epoch": 4.3547994118882585,
      "grad_norm": 1.125,
      "learning_rate": 0.00032358293412554123,
      "loss": 4.9485,
      "mean_token_accuracy": 0.20595378279685975,
      "num_tokens": 95643859.0,
      "step": 51835
    },
    {
      "entropy": 5.475715160369873,
      "epoch": 4.355219491703424,
      "grad_norm": 1.1875,
      "learning_rate": 0.00032355369358104234,
      "loss": 4.9668,
      "mean_token_accuracy": 0.2069087103009224,
      "num_tokens": 95653350.0,
      "step": 51840
    },
    {
      "entropy": 5.3892505168914795,
      "epoch": 4.355639571518589,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00032352445217643985,
      "loss": 4.8773,
      "mean_token_accuracy": 0.2146908611059189,
      "num_tokens": 95662331.0,
      "step": 51845
    },
    {
      "entropy": 5.4988971710205075,
      "epoch": 4.356059651333753,
      "grad_norm": 1.171875,
      "learning_rate": 0.00032349520991225157,
      "loss": 5.081,
      "mean_token_accuracy": 0.20973769575357437,
      "num_tokens": 95672359.0,
      "step": 51850
    },
    {
      "entropy": 5.497402572631836,
      "epoch": 4.3564797311489185,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00032346596678899564,
      "loss": 4.871,
      "mean_token_accuracy": 0.21720786094665528,
      "num_tokens": 95680887.0,
      "step": 51855
    },
    {
      "entropy": 5.548488330841065,
      "epoch": 4.356899810964083,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00032343672280719005,
      "loss": 4.967,
      "mean_token_accuracy": 0.20562900751829147,
      "num_tokens": 95690574.0,
      "step": 51860
    },
    {
      "entropy": 5.4613707065582275,
      "epoch": 4.357319890779248,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003234074779673529,
      "loss": 4.9095,
      "mean_token_accuracy": 0.21298813819885254,
      "num_tokens": 95699879.0,
      "step": 51865
    },
    {
      "entropy": 5.45084228515625,
      "epoch": 4.357739970594413,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003233782322700022,
      "loss": 4.9574,
      "mean_token_accuracy": 0.21147727370262145,
      "num_tokens": 95708757.0,
      "step": 51870
    },
    {
      "entropy": 5.401146745681762,
      "epoch": 4.358160050409578,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000323348985715656,
      "loss": 4.9742,
      "mean_token_accuracy": 0.21076562851667405,
      "num_tokens": 95717919.0,
      "step": 51875
    },
    {
      "entropy": 5.469117641448975,
      "epoch": 4.358580130224743,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003233197383048324,
      "loss": 4.8148,
      "mean_token_accuracy": 0.225027596950531,
      "num_tokens": 95726230.0,
      "step": 51880
    },
    {
      "entropy": 5.357604122161865,
      "epoch": 4.359000210039907,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00032329049003804953,
      "loss": 4.8571,
      "mean_token_accuracy": 0.2160084664821625,
      "num_tokens": 95735197.0,
      "step": 51885
    },
    {
      "entropy": 5.366268682479858,
      "epoch": 4.3594202898550725,
      "grad_norm": 1.21875,
      "learning_rate": 0.0003232612409158255,
      "loss": 4.9085,
      "mean_token_accuracy": 0.21417620480060579,
      "num_tokens": 95744233.0,
      "step": 51890
    },
    {
      "entropy": 5.446733713150024,
      "epoch": 4.359840369670238,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003232319909386785,
      "loss": 4.9076,
      "mean_token_accuracy": 0.22074819952249528,
      "num_tokens": 95752802.0,
      "step": 51895
    },
    {
      "entropy": 5.4849035263061525,
      "epoch": 4.360260449485402,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003232027401071266,
      "loss": 4.8882,
      "mean_token_accuracy": 0.21324665993452072,
      "num_tokens": 95762521.0,
      "step": 51900
    },
    {
      "entropy": 5.48829197883606,
      "epoch": 4.360680529300567,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003231734884216879,
      "loss": 5.0079,
      "mean_token_accuracy": 0.2040927603840828,
      "num_tokens": 95770746.0,
      "step": 51905
    },
    {
      "entropy": 5.499448823928833,
      "epoch": 4.361100609115732,
      "grad_norm": 1.125,
      "learning_rate": 0.0003231442358828807,
      "loss": 4.9826,
      "mean_token_accuracy": 0.2083444818854332,
      "num_tokens": 95780059.0,
      "step": 51910
    },
    {
      "entropy": 5.495123767852784,
      "epoch": 4.361520688930897,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003231149824912232,
      "loss": 4.899,
      "mean_token_accuracy": 0.2110360473394394,
      "num_tokens": 95790004.0,
      "step": 51915
    },
    {
      "entropy": 5.433916091918945,
      "epoch": 4.361940768746062,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003230857282472335,
      "loss": 4.8755,
      "mean_token_accuracy": 0.21719074100255967,
      "num_tokens": 95799067.0,
      "step": 51920
    },
    {
      "entropy": 5.440986585617066,
      "epoch": 4.362360848561226,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003230564731514298,
      "loss": 4.8873,
      "mean_token_accuracy": 0.21346771717071533,
      "num_tokens": 95808332.0,
      "step": 51925
    },
    {
      "entropy": 5.435271596908569,
      "epoch": 4.362780928376392,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003230272172043305,
      "loss": 4.919,
      "mean_token_accuracy": 0.20760098099708557,
      "num_tokens": 95817750.0,
      "step": 51930
    },
    {
      "entropy": 5.468527984619141,
      "epoch": 4.363201008191556,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00032299796040645385,
      "loss": 4.9045,
      "mean_token_accuracy": 0.21452163755893708,
      "num_tokens": 95826636.0,
      "step": 51935
    },
    {
      "entropy": 5.462429428100586,
      "epoch": 4.363621088006721,
      "grad_norm": 1.078125,
      "learning_rate": 0.00032296870275831804,
      "loss": 4.9126,
      "mean_token_accuracy": 0.2094322994351387,
      "num_tokens": 95836063.0,
      "step": 51940
    },
    {
      "entropy": 5.475625038146973,
      "epoch": 4.3640411678218864,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003229394442604413,
      "loss": 4.9884,
      "mean_token_accuracy": 0.20685279816389085,
      "num_tokens": 95845029.0,
      "step": 51945
    },
    {
      "entropy": 5.494318056106567,
      "epoch": 4.364461247637051,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000322910184913342,
      "loss": 5.0266,
      "mean_token_accuracy": 0.20710226595401765,
      "num_tokens": 95854588.0,
      "step": 51950
    },
    {
      "entropy": 5.4813636302947994,
      "epoch": 4.364881327452216,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003228809247175385,
      "loss": 4.9382,
      "mean_token_accuracy": 0.2153791606426239,
      "num_tokens": 95863327.0,
      "step": 51955
    },
    {
      "entropy": 5.496992540359497,
      "epoch": 4.365301407267381,
      "grad_norm": 1.03125,
      "learning_rate": 0.00032285166367354904,
      "loss": 4.9681,
      "mean_token_accuracy": 0.21429075449705123,
      "num_tokens": 95872808.0,
      "step": 51960
    },
    {
      "entropy": 5.4088709354400635,
      "epoch": 4.365721487082546,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00032282240178189194,
      "loss": 4.8829,
      "mean_token_accuracy": 0.21684956550598145,
      "num_tokens": 95881097.0,
      "step": 51965
    },
    {
      "entropy": 5.422630357742309,
      "epoch": 4.366141566897711,
      "grad_norm": 1.25,
      "learning_rate": 0.0003227931390430857,
      "loss": 4.8627,
      "mean_token_accuracy": 0.2164691835641861,
      "num_tokens": 95889874.0,
      "step": 51970
    },
    {
      "entropy": 5.464816761016846,
      "epoch": 4.366561646712875,
      "grad_norm": 1.078125,
      "learning_rate": 0.00032276387545764854,
      "loss": 4.9315,
      "mean_token_accuracy": 0.2213321328163147,
      "num_tokens": 95899348.0,
      "step": 51975
    },
    {
      "entropy": 5.412309694290161,
      "epoch": 4.36698172652804,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003227346110260989,
      "loss": 4.8464,
      "mean_token_accuracy": 0.22128051221370698,
      "num_tokens": 95907914.0,
      "step": 51980
    },
    {
      "entropy": 5.476940870285034,
      "epoch": 4.367401806343205,
      "grad_norm": 1.203125,
      "learning_rate": 0.00032270534574895524,
      "loss": 5.0599,
      "mean_token_accuracy": 0.2041296347975731,
      "num_tokens": 95917096.0,
      "step": 51985
    },
    {
      "entropy": 5.455800008773804,
      "epoch": 4.36782188615837,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00032267607962673607,
      "loss": 4.8623,
      "mean_token_accuracy": 0.21820197701454164,
      "num_tokens": 95926429.0,
      "step": 51990
    },
    {
      "entropy": 5.455397987365723,
      "epoch": 4.368241965973535,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00032264681265995956,
      "loss": 4.8914,
      "mean_token_accuracy": 0.21792016178369522,
      "num_tokens": 95936451.0,
      "step": 51995
    },
    {
      "entropy": 5.50632872581482,
      "epoch": 4.3686620457886995,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003226175448491443,
      "loss": 4.9582,
      "mean_token_accuracy": 0.2135686084628105,
      "num_tokens": 95945828.0,
      "step": 52000
    },
    {
      "entropy": 5.518674039840699,
      "epoch": 4.369082125603865,
      "grad_norm": 1.125,
      "learning_rate": 0.0003225882761948088,
      "loss": 4.9443,
      "mean_token_accuracy": 0.20465137660503388,
      "num_tokens": 95955350.0,
      "step": 52005
    },
    {
      "entropy": 5.499176549911499,
      "epoch": 4.36950220541903,
      "grad_norm": 1.15625,
      "learning_rate": 0.00032255900669747145,
      "loss": 4.8912,
      "mean_token_accuracy": 0.22107795029878616,
      "num_tokens": 95963954.0,
      "step": 52010
    },
    {
      "entropy": 5.4076978206634525,
      "epoch": 4.369922285234194,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003225297363576508,
      "loss": 4.8194,
      "mean_token_accuracy": 0.21490046977996827,
      "num_tokens": 95973398.0,
      "step": 52015
    },
    {
      "entropy": 5.456436347961426,
      "epoch": 4.37034236504936,
      "grad_norm": 1.125,
      "learning_rate": 0.00032250046517586536,
      "loss": 4.9481,
      "mean_token_accuracy": 0.20836972147226335,
      "num_tokens": 95982647.0,
      "step": 52020
    },
    {
      "entropy": 5.45356822013855,
      "epoch": 4.370762444864524,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003224711931526336,
      "loss": 4.9376,
      "mean_token_accuracy": 0.21320442259311675,
      "num_tokens": 95991601.0,
      "step": 52025
    },
    {
      "entropy": 5.560714864730835,
      "epoch": 4.371182524679689,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003224419202884742,
      "loss": 5.0717,
      "mean_token_accuracy": 0.2095273792743683,
      "num_tokens": 96002369.0,
      "step": 52030
    },
    {
      "entropy": 5.463638496398926,
      "epoch": 4.371602604494854,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003224126465839055,
      "loss": 4.908,
      "mean_token_accuracy": 0.21543886065483092,
      "num_tokens": 96012653.0,
      "step": 52035
    },
    {
      "entropy": 5.42518892288208,
      "epoch": 4.372022684310019,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003223833720394462,
      "loss": 4.8836,
      "mean_token_accuracy": 0.2129821702837944,
      "num_tokens": 96021859.0,
      "step": 52040
    },
    {
      "entropy": 5.410749769210815,
      "epoch": 4.372442764125184,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00032235409665561495,
      "loss": 4.8905,
      "mean_token_accuracy": 0.21664713472127914,
      "num_tokens": 96031061.0,
      "step": 52045
    },
    {
      "entropy": 5.496887445449829,
      "epoch": 4.372862843940348,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00032232482043293017,
      "loss": 5.0326,
      "mean_token_accuracy": 0.20437872856855394,
      "num_tokens": 96039970.0,
      "step": 52050
    },
    {
      "entropy": 5.486115169525147,
      "epoch": 4.3732829237555135,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00032229554337191057,
      "loss": 4.9699,
      "mean_token_accuracy": 0.2079749271273613,
      "num_tokens": 96049323.0,
      "step": 52055
    },
    {
      "entropy": 5.4100898742675785,
      "epoch": 4.373703003570679,
      "grad_norm": 1.171875,
      "learning_rate": 0.00032226626547307476,
      "loss": 4.8782,
      "mean_token_accuracy": 0.2130070984363556,
      "num_tokens": 96058355.0,
      "step": 52060
    },
    {
      "entropy": 5.449305438995362,
      "epoch": 4.374123083385843,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00032223698673694145,
      "loss": 4.9725,
      "mean_token_accuracy": 0.20693495720624924,
      "num_tokens": 96066888.0,
      "step": 52065
    },
    {
      "entropy": 5.43251600265503,
      "epoch": 4.374543163201008,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00032220770716402924,
      "loss": 4.9037,
      "mean_token_accuracy": 0.2208027645945549,
      "num_tokens": 96075983.0,
      "step": 52070
    },
    {
      "entropy": 5.401110601425171,
      "epoch": 4.374963243016173,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00032217842675485677,
      "loss": 4.8481,
      "mean_token_accuracy": 0.22244622111320494,
      "num_tokens": 96084906.0,
      "step": 52075
    },
    {
      "entropy": 5.400625801086425,
      "epoch": 4.375383322831338,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003221491455099428,
      "loss": 4.9349,
      "mean_token_accuracy": 0.21409083902835846,
      "num_tokens": 96094956.0,
      "step": 52080
    },
    {
      "entropy": 5.4386594772338865,
      "epoch": 4.375803402646503,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000322119863429806,
      "loss": 4.8949,
      "mean_token_accuracy": 0.2160339653491974,
      "num_tokens": 96105168.0,
      "step": 52085
    },
    {
      "entropy": 5.373348712921143,
      "epoch": 4.3762234824616675,
      "grad_norm": 1.09375,
      "learning_rate": 0.000322090580514965,
      "loss": 4.7895,
      "mean_token_accuracy": 0.2163946136832237,
      "num_tokens": 96114737.0,
      "step": 52090
    },
    {
      "entropy": 5.427898931503296,
      "epoch": 4.376643562276833,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003220612967659387,
      "loss": 4.9299,
      "mean_token_accuracy": 0.21169141680002213,
      "num_tokens": 96124690.0,
      "step": 52095
    },
    {
      "entropy": 5.437841367721558,
      "epoch": 4.377063642091997,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0003220320121832457,
      "loss": 4.8626,
      "mean_token_accuracy": 0.22077057808637618,
      "num_tokens": 96133713.0,
      "step": 52100
    },
    {
      "entropy": 5.375775718688965,
      "epoch": 4.377483721907162,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003220027267674049,
      "loss": 4.8939,
      "mean_token_accuracy": 0.2120022788643837,
      "num_tokens": 96143560.0,
      "step": 52105
    },
    {
      "entropy": 5.339404773712158,
      "epoch": 4.3779038017223275,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00032197344051893494,
      "loss": 4.7927,
      "mean_token_accuracy": 0.2293245390057564,
      "num_tokens": 96152344.0,
      "step": 52110
    },
    {
      "entropy": 5.319980525970459,
      "epoch": 4.378323881537492,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003219441534383547,
      "loss": 4.8773,
      "mean_token_accuracy": 0.21703252494335173,
      "num_tokens": 96161413.0,
      "step": 52115
    },
    {
      "entropy": 5.413983583450317,
      "epoch": 4.378743961352657,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003219148655261829,
      "loss": 4.9367,
      "mean_token_accuracy": 0.21016820818185805,
      "num_tokens": 96171067.0,
      "step": 52120
    },
    {
      "entropy": 5.462207651138305,
      "epoch": 4.379164041167822,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003218855767829385,
      "loss": 4.9116,
      "mean_token_accuracy": 0.21614383459091185,
      "num_tokens": 96180974.0,
      "step": 52125
    },
    {
      "entropy": 5.5510234355926515,
      "epoch": 4.379584120982987,
      "grad_norm": 1.140625,
      "learning_rate": 0.00032185628720914013,
      "loss": 4.9735,
      "mean_token_accuracy": 0.21005121171474456,
      "num_tokens": 96190353.0,
      "step": 52130
    },
    {
      "entropy": 5.536308526992798,
      "epoch": 4.380004200798152,
      "grad_norm": 1.078125,
      "learning_rate": 0.00032182699680530685,
      "loss": 5.0304,
      "mean_token_accuracy": 0.20772239118814467,
      "num_tokens": 96200070.0,
      "step": 52135
    },
    {
      "entropy": 5.490778589248658,
      "epoch": 4.380424280613316,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00032179770557195744,
      "loss": 4.9974,
      "mean_token_accuracy": 0.20452939569950104,
      "num_tokens": 96209028.0,
      "step": 52140
    },
    {
      "entropy": 5.443462705612182,
      "epoch": 4.3808443604284815,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003217684135096107,
      "loss": 4.9194,
      "mean_token_accuracy": 0.21127888709306716,
      "num_tokens": 96218890.0,
      "step": 52145
    },
    {
      "entropy": 5.314273118972778,
      "epoch": 4.381264440243647,
      "grad_norm": 1.140625,
      "learning_rate": 0.00032173912061878566,
      "loss": 4.8213,
      "mean_token_accuracy": 0.21466156393289565,
      "num_tokens": 96229152.0,
      "step": 52150
    },
    {
      "entropy": 5.3604958057403564,
      "epoch": 4.381684520058811,
      "grad_norm": 1.109375,
      "learning_rate": 0.00032170982690000116,
      "loss": 4.9,
      "mean_token_accuracy": 0.21414306461811067,
      "num_tokens": 96238816.0,
      "step": 52155
    },
    {
      "entropy": 5.401558589935303,
      "epoch": 4.382104599873976,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00032168053235377616,
      "loss": 4.8405,
      "mean_token_accuracy": 0.21674517095088958,
      "num_tokens": 96247798.0,
      "step": 52160
    },
    {
      "entropy": 5.4591193199157715,
      "epoch": 4.382524679689141,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00032165123698062946,
      "loss": 4.9211,
      "mean_token_accuracy": 0.21634669452905655,
      "num_tokens": 96255658.0,
      "step": 52165
    },
    {
      "entropy": 5.436564636230469,
      "epoch": 4.382944759504306,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003216219407810802,
      "loss": 4.8715,
      "mean_token_accuracy": 0.22059793621301652,
      "num_tokens": 96263924.0,
      "step": 52170
    },
    {
      "entropy": 5.4122504711151125,
      "epoch": 4.383364839319471,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003215926437556473,
      "loss": 4.8321,
      "mean_token_accuracy": 0.2182036593556404,
      "num_tokens": 96273688.0,
      "step": 52175
    },
    {
      "entropy": 5.469266796112061,
      "epoch": 4.383784919134635,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00032156334590484966,
      "loss": 4.9097,
      "mean_token_accuracy": 0.21885711699724197,
      "num_tokens": 96282680.0,
      "step": 52180
    },
    {
      "entropy": 5.463035249710083,
      "epoch": 4.384204998949801,
      "grad_norm": 1.21875,
      "learning_rate": 0.00032153404722920633,
      "loss": 4.9276,
      "mean_token_accuracy": 0.20928408205509186,
      "num_tokens": 96291740.0,
      "step": 52185
    },
    {
      "entropy": 5.462721633911133,
      "epoch": 4.384625078764965,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00032150474772923624,
      "loss": 4.954,
      "mean_token_accuracy": 0.21068884283304215,
      "num_tokens": 96300462.0,
      "step": 52190
    },
    {
      "entropy": 5.4812849998474125,
      "epoch": 4.38504515858013,
      "grad_norm": 1.25,
      "learning_rate": 0.00032147544740545854,
      "loss": 5.012,
      "mean_token_accuracy": 0.2111401915550232,
      "num_tokens": 96309833.0,
      "step": 52195
    },
    {
      "entropy": 5.460638999938965,
      "epoch": 4.3854652383952955,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00032144614625839225,
      "loss": 4.9255,
      "mean_token_accuracy": 0.21031392067670823,
      "num_tokens": 96318836.0,
      "step": 52200
    },
    {
      "entropy": 5.385218381881714,
      "epoch": 4.38588531821046,
      "grad_norm": 1.046875,
      "learning_rate": 0.00032141684428855637,
      "loss": 4.8629,
      "mean_token_accuracy": 0.21412440538406372,
      "num_tokens": 96328723.0,
      "step": 52205
    },
    {
      "entropy": 5.416920900344849,
      "epoch": 4.386305398025625,
      "grad_norm": 1.09375,
      "learning_rate": 0.00032138754149647,
      "loss": 4.9499,
      "mean_token_accuracy": 0.2117906019091606,
      "num_tokens": 96337933.0,
      "step": 52210
    },
    {
      "entropy": 5.4190388202667235,
      "epoch": 4.386725477840789,
      "grad_norm": 1.09375,
      "learning_rate": 0.00032135823788265227,
      "loss": 4.8644,
      "mean_token_accuracy": 0.22083762139081956,
      "num_tokens": 96347533.0,
      "step": 52215
    },
    {
      "entropy": 5.509637260437012,
      "epoch": 4.387145557655955,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00032132893344762216,
      "loss": 4.9793,
      "mean_token_accuracy": 0.20833105742931365,
      "num_tokens": 96358070.0,
      "step": 52220
    },
    {
      "entropy": 5.447480869293213,
      "epoch": 4.38756563747112,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003212996281918989,
      "loss": 4.9177,
      "mean_token_accuracy": 0.22016969472169876,
      "num_tokens": 96367325.0,
      "step": 52225
    },
    {
      "entropy": 5.497210454940796,
      "epoch": 4.387985717286284,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00032127032211600153,
      "loss": 5.0387,
      "mean_token_accuracy": 0.202738256752491,
      "num_tokens": 96376256.0,
      "step": 52230
    },
    {
      "entropy": 5.488270235061646,
      "epoch": 4.388405797101449,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00032124101522044925,
      "loss": 4.9645,
      "mean_token_accuracy": 0.21185766011476517,
      "num_tokens": 96385485.0,
      "step": 52235
    },
    {
      "entropy": 5.5082807540893555,
      "epoch": 4.388825876916614,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003212117075057612,
      "loss": 4.9038,
      "mean_token_accuracy": 0.2089535489678383,
      "num_tokens": 96395093.0,
      "step": 52240
    },
    {
      "entropy": 5.442522430419922,
      "epoch": 4.389245956731779,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003211823989724565,
      "loss": 4.9531,
      "mean_token_accuracy": 0.22011821269989013,
      "num_tokens": 96405113.0,
      "step": 52245
    },
    {
      "entropy": 5.44273886680603,
      "epoch": 4.389666036546944,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00032115308962105436,
      "loss": 4.9194,
      "mean_token_accuracy": 0.20921038538217546,
      "num_tokens": 96414356.0,
      "step": 52250
    },
    {
      "entropy": 5.471530723571777,
      "epoch": 4.3900861163621085,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003211237794520741,
      "loss": 4.8815,
      "mean_token_accuracy": 0.21491025984287263,
      "num_tokens": 96424552.0,
      "step": 52255
    },
    {
      "entropy": 5.468113040924072,
      "epoch": 4.390506196177274,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003210944684660348,
      "loss": 4.9229,
      "mean_token_accuracy": 0.21498722583055496,
      "num_tokens": 96434625.0,
      "step": 52260
    },
    {
      "entropy": 5.426042890548706,
      "epoch": 4.390926275992438,
      "grad_norm": 0.96875,
      "learning_rate": 0.0003210651566634557,
      "loss": 4.973,
      "mean_token_accuracy": 0.20476234704256058,
      "num_tokens": 96443630.0,
      "step": 52265
    },
    {
      "entropy": 5.442358016967773,
      "epoch": 4.391346355807603,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003210358440448561,
      "loss": 4.99,
      "mean_token_accuracy": 0.2131785437464714,
      "num_tokens": 96452812.0,
      "step": 52270
    },
    {
      "entropy": 5.486351585388183,
      "epoch": 4.391766435622769,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00032100653061075524,
      "loss": 4.8563,
      "mean_token_accuracy": 0.2155340075492859,
      "num_tokens": 96462617.0,
      "step": 52275
    },
    {
      "entropy": 5.451576375961304,
      "epoch": 4.392186515437933,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003209772163616723,
      "loss": 4.9053,
      "mean_token_accuracy": 0.21153864860534669,
      "num_tokens": 96471362.0,
      "step": 52280
    },
    {
      "entropy": 5.422645568847656,
      "epoch": 4.392606595253098,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003209479012981267,
      "loss": 4.9264,
      "mean_token_accuracy": 0.21844828128814697,
      "num_tokens": 96480192.0,
      "step": 52285
    },
    {
      "entropy": 5.464143228530884,
      "epoch": 4.393026675068263,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00032091858542063775,
      "loss": 4.9153,
      "mean_token_accuracy": 0.20964489579200746,
      "num_tokens": 96488826.0,
      "step": 52290
    },
    {
      "entropy": 5.491682767868042,
      "epoch": 4.393446754883428,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003208892687297246,
      "loss": 4.9835,
      "mean_token_accuracy": 0.21347135454416274,
      "num_tokens": 96498306.0,
      "step": 52295
    },
    {
      "entropy": 5.492586135864258,
      "epoch": 4.393866834698593,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003208599512259068,
      "loss": 4.9744,
      "mean_token_accuracy": 0.20657944679260254,
      "num_tokens": 96507641.0,
      "step": 52300
    },
    {
      "entropy": 5.462080717086792,
      "epoch": 4.394286914513757,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00032083063290970346,
      "loss": 4.9401,
      "mean_token_accuracy": 0.21439203321933747,
      "num_tokens": 96516141.0,
      "step": 52305
    },
    {
      "entropy": 5.423814201354981,
      "epoch": 4.3947069943289225,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003208013137816341,
      "loss": 4.8645,
      "mean_token_accuracy": 0.2162257745862007,
      "num_tokens": 96525291.0,
      "step": 52310
    },
    {
      "entropy": 5.385963582992554,
      "epoch": 4.395127074144088,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000320771993842218,
      "loss": 4.7964,
      "mean_token_accuracy": 0.22078332901000977,
      "num_tokens": 96535014.0,
      "step": 52315
    },
    {
      "entropy": 5.4878755569458,
      "epoch": 4.395547153959252,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003207426730919747,
      "loss": 4.9704,
      "mean_token_accuracy": 0.2110144838690758,
      "num_tokens": 96544926.0,
      "step": 52320
    },
    {
      "entropy": 5.440993309020996,
      "epoch": 4.395967233774417,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00032071335153142347,
      "loss": 4.9035,
      "mean_token_accuracy": 0.21179073452949523,
      "num_tokens": 96553875.0,
      "step": 52325
    },
    {
      "entropy": 5.430417060852051,
      "epoch": 4.396387313589582,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00032068402916108377,
      "loss": 4.9518,
      "mean_token_accuracy": 0.20769720226526261,
      "num_tokens": 96563357.0,
      "step": 52330
    },
    {
      "entropy": 5.401902770996093,
      "epoch": 4.396807393404747,
      "grad_norm": 1.140625,
      "learning_rate": 0.00032065470598147496,
      "loss": 4.8353,
      "mean_token_accuracy": 0.21667935997247695,
      "num_tokens": 96572819.0,
      "step": 52335
    },
    {
      "entropy": 5.548137426376343,
      "epoch": 4.397227473219912,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003206253819931166,
      "loss": 4.9808,
      "mean_token_accuracy": 0.20905181914567947,
      "num_tokens": 96582069.0,
      "step": 52340
    },
    {
      "entropy": 5.414157438278198,
      "epoch": 4.3976475530350765,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00032059605719652804,
      "loss": 4.8542,
      "mean_token_accuracy": 0.22583168894052505,
      "num_tokens": 96590762.0,
      "step": 52345
    },
    {
      "entropy": 5.5082754611969,
      "epoch": 4.398067632850242,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00032056673159222885,
      "loss": 5.079,
      "mean_token_accuracy": 0.2011094182729721,
      "num_tokens": 96599282.0,
      "step": 52350
    },
    {
      "entropy": 5.49390435218811,
      "epoch": 4.398487712665406,
      "grad_norm": 1.109375,
      "learning_rate": 0.00032053740518073843,
      "loss": 4.8999,
      "mean_token_accuracy": 0.20925966054201126,
      "num_tokens": 96608299.0,
      "step": 52355
    },
    {
      "entropy": 5.502883577346802,
      "epoch": 4.398907792480571,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003205080779625763,
      "loss": 4.9619,
      "mean_token_accuracy": 0.21180101186037065,
      "num_tokens": 96618814.0,
      "step": 52360
    },
    {
      "entropy": 5.462220811843872,
      "epoch": 4.3993278722957365,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003204787499382621,
      "loss": 4.9824,
      "mean_token_accuracy": 0.21008420139551162,
      "num_tokens": 96628256.0,
      "step": 52365
    },
    {
      "entropy": 5.384300565719604,
      "epoch": 4.399747952110901,
      "grad_norm": 1.140625,
      "learning_rate": 0.00032044942110831515,
      "loss": 4.8253,
      "mean_token_accuracy": 0.21938895732164382,
      "num_tokens": 96637558.0,
      "step": 52370
    },
    {
      "entropy": 5.535932493209839,
      "epoch": 4.400168031926066,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00032042009147325516,
      "loss": 5.0058,
      "mean_token_accuracy": 0.20822282433509826,
      "num_tokens": 96646650.0,
      "step": 52375
    },
    {
      "entropy": 5.484173107147217,
      "epoch": 4.40058811174123,
      "grad_norm": 1.0625,
      "learning_rate": 0.00032039076103360163,
      "loss": 4.9436,
      "mean_token_accuracy": 0.2099190443754196,
      "num_tokens": 96656116.0,
      "step": 52380
    },
    {
      "entropy": 5.440016078948974,
      "epoch": 4.401008191556396,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003203614297898742,
      "loss": 4.9265,
      "mean_token_accuracy": 0.21990233212709426,
      "num_tokens": 96664853.0,
      "step": 52385
    },
    {
      "entropy": 5.503907775878906,
      "epoch": 4.401428271371561,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003203320977425924,
      "loss": 4.9544,
      "mean_token_accuracy": 0.203101809322834,
      "num_tokens": 96673945.0,
      "step": 52390
    },
    {
      "entropy": 5.551486921310425,
      "epoch": 4.401848351186725,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003203027648922757,
      "loss": 5.0328,
      "mean_token_accuracy": 0.2071230173110962,
      "num_tokens": 96683786.0,
      "step": 52395
    },
    {
      "entropy": 5.435043096542358,
      "epoch": 4.4022684310018905,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000320273431239444,
      "loss": 4.9015,
      "mean_token_accuracy": 0.2105640545487404,
      "num_tokens": 96692249.0,
      "step": 52400
    },
    {
      "entropy": 5.497044897079467,
      "epoch": 4.402688510817056,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003202440967846167,
      "loss": 4.9946,
      "mean_token_accuracy": 0.20835161954164505,
      "num_tokens": 96701642.0,
      "step": 52405
    },
    {
      "entropy": 5.415818119049073,
      "epoch": 4.40310859063222,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003202147615283136,
      "loss": 4.9225,
      "mean_token_accuracy": 0.2193915292620659,
      "num_tokens": 96709512.0,
      "step": 52410
    },
    {
      "entropy": 5.454100131988525,
      "epoch": 4.403528670447385,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003201854254710542,
      "loss": 4.9666,
      "mean_token_accuracy": 0.2107938602566719,
      "num_tokens": 96719028.0,
      "step": 52415
    },
    {
      "entropy": 5.491063404083252,
      "epoch": 4.40394875026255,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00032015608861335823,
      "loss": 4.9246,
      "mean_token_accuracy": 0.21101450324058532,
      "num_tokens": 96728366.0,
      "step": 52420
    },
    {
      "entropy": 5.383773374557495,
      "epoch": 4.404368830077715,
      "grad_norm": 1.203125,
      "learning_rate": 0.00032012675095574545,
      "loss": 4.87,
      "mean_token_accuracy": 0.2210894137620926,
      "num_tokens": 96737810.0,
      "step": 52425
    },
    {
      "entropy": 5.2871741771698,
      "epoch": 4.404788909892879,
      "grad_norm": 1.28125,
      "learning_rate": 0.00032009741249873545,
      "loss": 4.7325,
      "mean_token_accuracy": 0.22873742878437042,
      "num_tokens": 96746574.0,
      "step": 52430
    },
    {
      "entropy": 5.506228256225586,
      "epoch": 4.405208989708044,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003200680732428481,
      "loss": 5.0355,
      "mean_token_accuracy": 0.20455873161554336,
      "num_tokens": 96755683.0,
      "step": 52435
    },
    {
      "entropy": 5.415726375579834,
      "epoch": 4.40562906952321,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000320038733188603,
      "loss": 4.9169,
      "mean_token_accuracy": 0.20923328250646592,
      "num_tokens": 96765543.0,
      "step": 52440
    },
    {
      "entropy": 5.441874980926514,
      "epoch": 4.406049149338374,
      "grad_norm": 1.0625,
      "learning_rate": 0.00032000939233651994,
      "loss": 4.8836,
      "mean_token_accuracy": 0.2152543231844902,
      "num_tokens": 96774079.0,
      "step": 52445
    },
    {
      "entropy": 5.438550186157227,
      "epoch": 4.406469229153539,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00031998005068711866,
      "loss": 4.9675,
      "mean_token_accuracy": 0.2053688019514084,
      "num_tokens": 96782432.0,
      "step": 52450
    },
    {
      "entropy": 5.445428371429443,
      "epoch": 4.4068893089687045,
      "grad_norm": 1.140625,
      "learning_rate": 0.000319950708240919,
      "loss": 4.8996,
      "mean_token_accuracy": 0.21469352692365645,
      "num_tokens": 96792060.0,
      "step": 52455
    },
    {
      "entropy": 5.394449901580811,
      "epoch": 4.407309388783869,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003199213649984406,
      "loss": 4.8985,
      "mean_token_accuracy": 0.21908825784921646,
      "num_tokens": 96801110.0,
      "step": 52460
    },
    {
      "entropy": 5.427068042755127,
      "epoch": 4.407729468599034,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003198920209602034,
      "loss": 4.9309,
      "mean_token_accuracy": 0.21591803282499314,
      "num_tokens": 96810110.0,
      "step": 52465
    },
    {
      "entropy": 5.4150632381439205,
      "epoch": 4.408149548414198,
      "grad_norm": 1.125,
      "learning_rate": 0.00031986267612672716,
      "loss": 4.9259,
      "mean_token_accuracy": 0.2192657008767128,
      "num_tokens": 96820216.0,
      "step": 52470
    },
    {
      "entropy": 5.398460865020752,
      "epoch": 4.408569628229364,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00031983333049853175,
      "loss": 4.8358,
      "mean_token_accuracy": 0.21648007035255432,
      "num_tokens": 96829308.0,
      "step": 52475
    },
    {
      "entropy": 5.35028190612793,
      "epoch": 4.408989708044529,
      "grad_norm": 1.0625,
      "learning_rate": 0.00031980398407613694,
      "loss": 4.7986,
      "mean_token_accuracy": 0.2191583812236786,
      "num_tokens": 96839128.0,
      "step": 52480
    },
    {
      "entropy": 5.392116069793701,
      "epoch": 4.409409787859693,
      "grad_norm": 1.109375,
      "learning_rate": 0.00031977463686006256,
      "loss": 4.9492,
      "mean_token_accuracy": 0.21000554412603378,
      "num_tokens": 96847666.0,
      "step": 52485
    },
    {
      "entropy": 5.5034185409545895,
      "epoch": 4.409829867674858,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003197452888508286,
      "loss": 4.9268,
      "mean_token_accuracy": 0.22601380646228791,
      "num_tokens": 96857043.0,
      "step": 52490
    },
    {
      "entropy": 5.4789965629577635,
      "epoch": 4.410249947490023,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003197159400489549,
      "loss": 4.9765,
      "mean_token_accuracy": 0.21488040387630464,
      "num_tokens": 96866281.0,
      "step": 52495
    },
    {
      "entropy": 5.427665901184082,
      "epoch": 4.410670027305188,
      "grad_norm": 1.125,
      "learning_rate": 0.0003196865904549613,
      "loss": 4.8777,
      "mean_token_accuracy": 0.21631421595811845,
      "num_tokens": 96875457.0,
      "step": 52500
    },
    {
      "entropy": 5.421231412887574,
      "epoch": 4.411090107120353,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003196572400693678,
      "loss": 4.987,
      "mean_token_accuracy": 0.2030191719532013,
      "num_tokens": 96884315.0,
      "step": 52505
    },
    {
      "entropy": 5.501694536209106,
      "epoch": 4.4115101869355176,
      "grad_norm": 1.09375,
      "learning_rate": 0.00031962788889269427,
      "loss": 5.0118,
      "mean_token_accuracy": 0.21111456155776978,
      "num_tokens": 96893599.0,
      "step": 52510
    },
    {
      "entropy": 5.50997633934021,
      "epoch": 4.411930266750683,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003195985369254608,
      "loss": 4.8665,
      "mean_token_accuracy": 0.21697086542844773,
      "num_tokens": 96902698.0,
      "step": 52515
    },
    {
      "entropy": 5.424489212036133,
      "epoch": 4.412350346565847,
      "grad_norm": 1.21875,
      "learning_rate": 0.000319569184168187,
      "loss": 4.8641,
      "mean_token_accuracy": 0.22211643755435945,
      "num_tokens": 96911300.0,
      "step": 52520
    },
    {
      "entropy": 5.424088430404663,
      "epoch": 4.412770426381012,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003195398306213932,
      "loss": 4.9804,
      "mean_token_accuracy": 0.2059958755970001,
      "num_tokens": 96920486.0,
      "step": 52525
    },
    {
      "entropy": 5.413454389572143,
      "epoch": 4.413190506196178,
      "grad_norm": 1.125,
      "learning_rate": 0.0003195104762855992,
      "loss": 4.9266,
      "mean_token_accuracy": 0.21775314956903458,
      "num_tokens": 96930771.0,
      "step": 52530
    },
    {
      "entropy": 5.43182053565979,
      "epoch": 4.413610586011342,
      "grad_norm": 1.1875,
      "learning_rate": 0.000319481121161325,
      "loss": 4.8802,
      "mean_token_accuracy": 0.22173792123794556,
      "num_tokens": 96939837.0,
      "step": 52535
    },
    {
      "entropy": 5.464962482452393,
      "epoch": 4.414030665826507,
      "grad_norm": 1.25,
      "learning_rate": 0.00031945176524909066,
      "loss": 4.9018,
      "mean_token_accuracy": 0.2145314633846283,
      "num_tokens": 96948328.0,
      "step": 52540
    },
    {
      "entropy": 5.492055082321167,
      "epoch": 4.4144507456416715,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00031942240854941617,
      "loss": 4.9647,
      "mean_token_accuracy": 0.21512293070554733,
      "num_tokens": 96957665.0,
      "step": 52545
    },
    {
      "entropy": 5.460989046096802,
      "epoch": 4.414870825456837,
      "grad_norm": 1.15625,
      "learning_rate": 0.00031939305106282157,
      "loss": 4.9014,
      "mean_token_accuracy": 0.21447014212608337,
      "num_tokens": 96966810.0,
      "step": 52550
    },
    {
      "entropy": 5.490067863464356,
      "epoch": 4.415290905272002,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00031936369278982694,
      "loss": 4.9627,
      "mean_token_accuracy": 0.20951493531465532,
      "num_tokens": 96976416.0,
      "step": 52555
    },
    {
      "entropy": 5.415791177749634,
      "epoch": 4.415710985087166,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003193343337309524,
      "loss": 4.859,
      "mean_token_accuracy": 0.21998870223760605,
      "num_tokens": 96985350.0,
      "step": 52560
    },
    {
      "entropy": 5.391805601119995,
      "epoch": 4.4161310649023315,
      "grad_norm": 1.125,
      "learning_rate": 0.000319304973886718,
      "loss": 4.8942,
      "mean_token_accuracy": 0.21281000822782517,
      "num_tokens": 96994307.0,
      "step": 52565
    },
    {
      "entropy": 5.400950908660889,
      "epoch": 4.416551144717497,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00031927561325764366,
      "loss": 4.8723,
      "mean_token_accuracy": 0.2170841246843338,
      "num_tokens": 97003165.0,
      "step": 52570
    },
    {
      "entropy": 5.4343939304351805,
      "epoch": 4.416971224532661,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003192462518442497,
      "loss": 4.8079,
      "mean_token_accuracy": 0.22735859155654908,
      "num_tokens": 97011960.0,
      "step": 52575
    },
    {
      "entropy": 5.422386407852173,
      "epoch": 4.417391304347826,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003192168896470562,
      "loss": 4.9293,
      "mean_token_accuracy": 0.21952195465564728,
      "num_tokens": 97021353.0,
      "step": 52580
    },
    {
      "entropy": 5.477250242233277,
      "epoch": 4.417811384162991,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003191875266665832,
      "loss": 4.8934,
      "mean_token_accuracy": 0.21191640198230743,
      "num_tokens": 97030356.0,
      "step": 52585
    },
    {
      "entropy": 5.4250188827514645,
      "epoch": 4.418231463978156,
      "grad_norm": 1.078125,
      "learning_rate": 0.00031915816290335096,
      "loss": 4.9446,
      "mean_token_accuracy": 0.211276276409626,
      "num_tokens": 97039352.0,
      "step": 52590
    },
    {
      "entropy": 5.417779350280762,
      "epoch": 4.418651543793321,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003191287983578796,
      "loss": 4.9188,
      "mean_token_accuracy": 0.2122633069753647,
      "num_tokens": 97048122.0,
      "step": 52595
    },
    {
      "entropy": 5.436444807052612,
      "epoch": 4.4190716236084855,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003190994330306893,
      "loss": 4.9388,
      "mean_token_accuracy": 0.21985270082950592,
      "num_tokens": 97056853.0,
      "step": 52600
    },
    {
      "entropy": 5.488749170303345,
      "epoch": 4.419491703423651,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003190700669223003,
      "loss": 4.9303,
      "mean_token_accuracy": 0.21184613406658173,
      "num_tokens": 97065713.0,
      "step": 52605
    },
    {
      "entropy": 5.468630313873291,
      "epoch": 4.419911783238815,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00031904070003323264,
      "loss": 4.918,
      "mean_token_accuracy": 0.2201435461640358,
      "num_tokens": 97074647.0,
      "step": 52610
    },
    {
      "entropy": 5.454778623580933,
      "epoch": 4.42033186305398,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003190113323640067,
      "loss": 4.9772,
      "mean_token_accuracy": 0.21340351402759553,
      "num_tokens": 97084204.0,
      "step": 52615
    },
    {
      "entropy": 5.29863715171814,
      "epoch": 4.4207519428691455,
      "grad_norm": 1.125,
      "learning_rate": 0.0003189819639151427,
      "loss": 4.7351,
      "mean_token_accuracy": 0.225758159160614,
      "num_tokens": 97093868.0,
      "step": 52620
    },
    {
      "entropy": 5.479652833938599,
      "epoch": 4.42117202268431,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00031895259468716085,
      "loss": 4.9951,
      "mean_token_accuracy": 0.20397779494524002,
      "num_tokens": 97105124.0,
      "step": 52625
    },
    {
      "entropy": 5.4701286315917965,
      "epoch": 4.421592102499475,
      "grad_norm": 1.171875,
      "learning_rate": 0.00031892322468058147,
      "loss": 4.9304,
      "mean_token_accuracy": 0.2152175009250641,
      "num_tokens": 97114378.0,
      "step": 52630
    },
    {
      "entropy": 5.438767623901367,
      "epoch": 4.422012182314639,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00031889385389592467,
      "loss": 4.9287,
      "mean_token_accuracy": 0.21414579451084137,
      "num_tokens": 97122999.0,
      "step": 52635
    },
    {
      "entropy": 5.476937961578369,
      "epoch": 4.422432262129805,
      "grad_norm": 1.078125,
      "learning_rate": 0.000318864482333711,
      "loss": 4.9773,
      "mean_token_accuracy": 0.20841259509325027,
      "num_tokens": 97132493.0,
      "step": 52640
    },
    {
      "entropy": 5.446382141113281,
      "epoch": 4.42285234194497,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003188351099944605,
      "loss": 4.8943,
      "mean_token_accuracy": 0.21620844602584838,
      "num_tokens": 97141051.0,
      "step": 52645
    },
    {
      "entropy": 5.426447153091431,
      "epoch": 4.423272421760134,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003188057368786936,
      "loss": 4.9041,
      "mean_token_accuracy": 0.21537853479385377,
      "num_tokens": 97150282.0,
      "step": 52650
    },
    {
      "entropy": 5.419702100753784,
      "epoch": 4.4236925015752995,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00031877636298693066,
      "loss": 4.9257,
      "mean_token_accuracy": 0.21169009953737258,
      "num_tokens": 97159967.0,
      "step": 52655
    },
    {
      "entropy": 5.476787757873535,
      "epoch": 4.424112581390464,
      "grad_norm": 1.15625,
      "learning_rate": 0.000318746988319692,
      "loss": 4.9016,
      "mean_token_accuracy": 0.21225298941135406,
      "num_tokens": 97169316.0,
      "step": 52660
    },
    {
      "entropy": 5.492746257781983,
      "epoch": 4.424532661205629,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00031871761287749793,
      "loss": 4.9141,
      "mean_token_accuracy": 0.21723757833242416,
      "num_tokens": 97178513.0,
      "step": 52665
    },
    {
      "entropy": 5.3416823387146,
      "epoch": 4.424952741020794,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003186882366608688,
      "loss": 4.8032,
      "mean_token_accuracy": 0.22224995493888855,
      "num_tokens": 97187264.0,
      "step": 52670
    },
    {
      "entropy": 5.332417058944702,
      "epoch": 4.425372820835959,
      "grad_norm": 1.078125,
      "learning_rate": 0.00031865885967032514,
      "loss": 4.7672,
      "mean_token_accuracy": 0.23043970614671708,
      "num_tokens": 97196601.0,
      "step": 52675
    },
    {
      "entropy": 5.424618577957153,
      "epoch": 4.425792900651124,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003186294819063873,
      "loss": 4.8715,
      "mean_token_accuracy": 0.22624195367097855,
      "num_tokens": 97205416.0,
      "step": 52680
    },
    {
      "entropy": 5.416016483306885,
      "epoch": 4.426212980466288,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003186001033695756,
      "loss": 4.853,
      "mean_token_accuracy": 0.22695757150650026,
      "num_tokens": 97214351.0,
      "step": 52685
    },
    {
      "entropy": 5.459332799911499,
      "epoch": 4.426633060281453,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003185707240604105,
      "loss": 4.9768,
      "mean_token_accuracy": 0.21142717897892,
      "num_tokens": 97222623.0,
      "step": 52690
    },
    {
      "entropy": 5.445788431167602,
      "epoch": 4.427053140096619,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00031854134397941254,
      "loss": 4.931,
      "mean_token_accuracy": 0.20867428481578826,
      "num_tokens": 97231884.0,
      "step": 52695
    },
    {
      "entropy": 5.510127210617066,
      "epoch": 4.427473219911783,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000318511963127102,
      "loss": 4.9846,
      "mean_token_accuracy": 0.20922848731279373,
      "num_tokens": 97241604.0,
      "step": 52700
    },
    {
      "entropy": 5.471776485443115,
      "epoch": 4.427893299726948,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003184825815039995,
      "loss": 4.9617,
      "mean_token_accuracy": 0.20923961251974105,
      "num_tokens": 97250385.0,
      "step": 52705
    },
    {
      "entropy": 5.4160503387451175,
      "epoch": 4.428313379542113,
      "grad_norm": 1.125,
      "learning_rate": 0.0003184531991106254,
      "loss": 4.8623,
      "mean_token_accuracy": 0.218264901638031,
      "num_tokens": 97260014.0,
      "step": 52710
    },
    {
      "entropy": 5.45697340965271,
      "epoch": 4.428733459357278,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003184238159475003,
      "loss": 4.9252,
      "mean_token_accuracy": 0.21899825930595399,
      "num_tokens": 97269617.0,
      "step": 52715
    },
    {
      "entropy": 5.492791604995728,
      "epoch": 4.429153539172443,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003183944320151447,
      "loss": 4.9362,
      "mean_token_accuracy": 0.20955140739679337,
      "num_tokens": 97278867.0,
      "step": 52720
    },
    {
      "entropy": 5.43459267616272,
      "epoch": 4.429573618987607,
      "grad_norm": 1.171875,
      "learning_rate": 0.000318365047314079,
      "loss": 4.9564,
      "mean_token_accuracy": 0.20884378701448442,
      "num_tokens": 97288281.0,
      "step": 52725
    },
    {
      "entropy": 5.37009825706482,
      "epoch": 4.429993698802773,
      "grad_norm": 1.125,
      "learning_rate": 0.00031833566184482384,
      "loss": 4.8336,
      "mean_token_accuracy": 0.22298708111047744,
      "num_tokens": 97297859.0,
      "step": 52730
    },
    {
      "entropy": 5.49883131980896,
      "epoch": 4.430413778617938,
      "grad_norm": 1.125,
      "learning_rate": 0.00031830627560789975,
      "loss": 4.8915,
      "mean_token_accuracy": 0.21790574491024017,
      "num_tokens": 97306821.0,
      "step": 52735
    },
    {
      "entropy": 5.378078031539917,
      "epoch": 4.430833858433102,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003182768886038272,
      "loss": 4.8423,
      "mean_token_accuracy": 0.2201935663819313,
      "num_tokens": 97315354.0,
      "step": 52740
    },
    {
      "entropy": 5.4098203659057615,
      "epoch": 4.431253938248267,
      "grad_norm": 1.140625,
      "learning_rate": 0.000318247500833127,
      "loss": 4.902,
      "mean_token_accuracy": 0.21776470839977263,
      "num_tokens": 97324489.0,
      "step": 52745
    },
    {
      "entropy": 5.4011458396911625,
      "epoch": 4.431674018063432,
      "grad_norm": 1.09375,
      "learning_rate": 0.00031821811229631954,
      "loss": 4.8852,
      "mean_token_accuracy": 0.21430884301662445,
      "num_tokens": 97333590.0,
      "step": 52750
    },
    {
      "entropy": 5.422842502593994,
      "epoch": 4.432094097878597,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003181887229939254,
      "loss": 4.879,
      "mean_token_accuracy": 0.2175125151872635,
      "num_tokens": 97343817.0,
      "step": 52755
    },
    {
      "entropy": 5.408645343780518,
      "epoch": 4.432514177693762,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00031815933292646535,
      "loss": 4.9008,
      "mean_token_accuracy": 0.21338259875774385,
      "num_tokens": 97353871.0,
      "step": 52760
    },
    {
      "entropy": 5.44534215927124,
      "epoch": 4.432934257508927,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00031812994209445996,
      "loss": 4.9749,
      "mean_token_accuracy": 0.21231405138969422,
      "num_tokens": 97363336.0,
      "step": 52765
    },
    {
      "entropy": 5.449541234970093,
      "epoch": 4.433354337324092,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00031810055049842986,
      "loss": 4.8973,
      "mean_token_accuracy": 0.21715818643569945,
      "num_tokens": 97371931.0,
      "step": 52770
    },
    {
      "entropy": 5.327622747421264,
      "epoch": 4.433774417139256,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003180711581388957,
      "loss": 4.745,
      "mean_token_accuracy": 0.23207985758781433,
      "num_tokens": 97380552.0,
      "step": 52775
    },
    {
      "entropy": 5.3822362422943115,
      "epoch": 4.434194496954421,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00031804176501637807,
      "loss": 4.8761,
      "mean_token_accuracy": 0.21734771728515626,
      "num_tokens": 97390217.0,
      "step": 52780
    },
    {
      "entropy": 5.382317638397216,
      "epoch": 4.434614576769587,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00031801237113139775,
      "loss": 4.8154,
      "mean_token_accuracy": 0.2098885953426361,
      "num_tokens": 97398973.0,
      "step": 52785
    },
    {
      "entropy": 5.425979232788086,
      "epoch": 4.435034656584751,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003179829764844755,
      "loss": 4.8195,
      "mean_token_accuracy": 0.2260749027132988,
      "num_tokens": 97407922.0,
      "step": 52790
    },
    {
      "entropy": 5.526970100402832,
      "epoch": 4.435454736399916,
      "grad_norm": 1.15625,
      "learning_rate": 0.00031795358107613187,
      "loss": 4.9612,
      "mean_token_accuracy": 0.21165945529937744,
      "num_tokens": 97417036.0,
      "step": 52795
    },
    {
      "entropy": 5.4658441066741945,
      "epoch": 4.4358748162150805,
      "grad_norm": 1.078125,
      "learning_rate": 0.00031792418490688773,
      "loss": 4.9581,
      "mean_token_accuracy": 0.2094198152422905,
      "num_tokens": 97426590.0,
      "step": 52800
    },
    {
      "entropy": 5.412837219238281,
      "epoch": 4.436294896030246,
      "grad_norm": 1.125,
      "learning_rate": 0.0003178947879772637,
      "loss": 4.9218,
      "mean_token_accuracy": 0.21476871073246,
      "num_tokens": 97435878.0,
      "step": 52805
    },
    {
      "entropy": 5.387907409667969,
      "epoch": 4.436714975845411,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003178653902877807,
      "loss": 4.8508,
      "mean_token_accuracy": 0.21318554282188415,
      "num_tokens": 97444726.0,
      "step": 52810
    },
    {
      "entropy": 5.4338616847991945,
      "epoch": 4.437135055660575,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003178359918389593,
      "loss": 4.9143,
      "mean_token_accuracy": 0.21932708024978637,
      "num_tokens": 97453713.0,
      "step": 52815
    },
    {
      "entropy": 5.454319286346435,
      "epoch": 4.4375551354757405,
      "grad_norm": 1.09375,
      "learning_rate": 0.00031780659263132033,
      "loss": 4.9763,
      "mean_token_accuracy": 0.20954348295927047,
      "num_tokens": 97463980.0,
      "step": 52820
    },
    {
      "entropy": 5.465124130249023,
      "epoch": 4.437975215290905,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00031777719266538467,
      "loss": 4.9179,
      "mean_token_accuracy": 0.21234579235315323,
      "num_tokens": 97472857.0,
      "step": 52825
    },
    {
      "entropy": 5.434117317199707,
      "epoch": 4.43839529510607,
      "grad_norm": 1.171875,
      "learning_rate": 0.00031774779194167305,
      "loss": 4.9308,
      "mean_token_accuracy": 0.21296284049749375,
      "num_tokens": 97481463.0,
      "step": 52830
    },
    {
      "entropy": 5.371912288665771,
      "epoch": 4.438815374921235,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003177183904607063,
      "loss": 4.8089,
      "mean_token_accuracy": 0.21806141436100007,
      "num_tokens": 97490192.0,
      "step": 52835
    },
    {
      "entropy": 5.463520097732544,
      "epoch": 4.4392354547364,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003176889882230052,
      "loss": 4.9491,
      "mean_token_accuracy": 0.21410703659057617,
      "num_tokens": 97499211.0,
      "step": 52840
    },
    {
      "entropy": 5.459986639022827,
      "epoch": 4.439655534551565,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00031765958522909075,
      "loss": 4.9892,
      "mean_token_accuracy": 0.21081544905900956,
      "num_tokens": 97508600.0,
      "step": 52845
    },
    {
      "entropy": 5.561139106750488,
      "epoch": 4.44007561436673,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00031763018147948374,
      "loss": 5.0496,
      "mean_token_accuracy": 0.20221081227064133,
      "num_tokens": 97518059.0,
      "step": 52850
    },
    {
      "entropy": 5.461472225189209,
      "epoch": 4.4404956941818945,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000317600776974705,
      "loss": 4.9058,
      "mean_token_accuracy": 0.22476206421852113,
      "num_tokens": 97526630.0,
      "step": 52855
    },
    {
      "entropy": 5.4076934337615965,
      "epoch": 4.44091577399706,
      "grad_norm": 1.125,
      "learning_rate": 0.00031757137171527537,
      "loss": 4.8337,
      "mean_token_accuracy": 0.21810652166604996,
      "num_tokens": 97536118.0,
      "step": 52860
    },
    {
      "entropy": 5.428314447402954,
      "epoch": 4.441335853812224,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003175419657017158,
      "loss": 4.9538,
      "mean_token_accuracy": 0.20773299038410187,
      "num_tokens": 97545285.0,
      "step": 52865
    },
    {
      "entropy": 5.398163175582885,
      "epoch": 4.441755933627389,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003175125589345473,
      "loss": 4.9228,
      "mean_token_accuracy": 0.22122021168470382,
      "num_tokens": 97553984.0,
      "step": 52870
    },
    {
      "entropy": 5.4649107456207275,
      "epoch": 4.442176013442554,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003174831514142906,
      "loss": 4.9608,
      "mean_token_accuracy": 0.21302870512008668,
      "num_tokens": 97563106.0,
      "step": 52875
    },
    {
      "entropy": 5.448782253265381,
      "epoch": 4.442596093257719,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003174537431414668,
      "loss": 4.9157,
      "mean_token_accuracy": 0.2108287513256073,
      "num_tokens": 97572710.0,
      "step": 52880
    },
    {
      "entropy": 5.482016086578369,
      "epoch": 4.443016173072884,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003174243341165968,
      "loss": 4.9538,
      "mean_token_accuracy": 0.20878520458936692,
      "num_tokens": 97582644.0,
      "step": 52885
    },
    {
      "entropy": 5.505418682098389,
      "epoch": 4.443436252888048,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00031739492434020163,
      "loss": 4.9997,
      "mean_token_accuracy": 0.21051481515169143,
      "num_tokens": 97592409.0,
      "step": 52890
    },
    {
      "entropy": 5.510042715072632,
      "epoch": 4.443856332703214,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003173655138128021,
      "loss": 4.9319,
      "mean_token_accuracy": 0.2083173707127571,
      "num_tokens": 97601254.0,
      "step": 52895
    },
    {
      "entropy": 5.3473145961761475,
      "epoch": 4.444276412518379,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003173361025349194,
      "loss": 4.8056,
      "mean_token_accuracy": 0.21380254924297332,
      "num_tokens": 97610065.0,
      "step": 52900
    },
    {
      "entropy": 5.374597120285034,
      "epoch": 4.444696492333543,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00031730669050707437,
      "loss": 4.8862,
      "mean_token_accuracy": 0.22183877527713775,
      "num_tokens": 97619488.0,
      "step": 52905
    },
    {
      "entropy": 5.358522748947143,
      "epoch": 4.4451165721487085,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00031727727772978815,
      "loss": 4.8722,
      "mean_token_accuracy": 0.21556154638528824,
      "num_tokens": 97629087.0,
      "step": 52910
    },
    {
      "entropy": 5.476406621932983,
      "epoch": 4.445536651963873,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00031724786420358174,
      "loss": 4.904,
      "mean_token_accuracy": 0.20751809030771257,
      "num_tokens": 97638264.0,
      "step": 52915
    },
    {
      "entropy": 5.4737108707427975,
      "epoch": 4.445956731779038,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00031721844992897615,
      "loss": 4.9359,
      "mean_token_accuracy": 0.20716556757688523,
      "num_tokens": 97646847.0,
      "step": 52920
    },
    {
      "entropy": 5.503993034362793,
      "epoch": 4.446376811594203,
      "grad_norm": 1.234375,
      "learning_rate": 0.00031718903490649247,
      "loss": 4.9346,
      "mean_token_accuracy": 0.20774285942316056,
      "num_tokens": 97655548.0,
      "step": 52925
    },
    {
      "entropy": 5.3764979362487795,
      "epoch": 4.446796891409368,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003171596191366517,
      "loss": 4.8957,
      "mean_token_accuracy": 0.21267621964216232,
      "num_tokens": 97665478.0,
      "step": 52930
    },
    {
      "entropy": 5.37382435798645,
      "epoch": 4.447216971224533,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00031713020261997505,
      "loss": 4.8415,
      "mean_token_accuracy": 0.22740598320960997,
      "num_tokens": 97673934.0,
      "step": 52935
    },
    {
      "entropy": 5.412835931777954,
      "epoch": 4.447637051039697,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003171007853569835,
      "loss": 4.9098,
      "mean_token_accuracy": 0.21139529049396516,
      "num_tokens": 97683502.0,
      "step": 52940
    },
    {
      "entropy": 5.526853466033936,
      "epoch": 4.448057130854862,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003170713673481982,
      "loss": 4.9728,
      "mean_token_accuracy": 0.21394332200288774,
      "num_tokens": 97692490.0,
      "step": 52945
    },
    {
      "entropy": 5.416499042510987,
      "epoch": 4.448477210670028,
      "grad_norm": 1.15625,
      "learning_rate": 0.00031704194859414036,
      "loss": 4.9285,
      "mean_token_accuracy": 0.2149950683116913,
      "num_tokens": 97701589.0,
      "step": 52950
    },
    {
      "entropy": 5.389067125320435,
      "epoch": 4.448897290485192,
      "grad_norm": 1.140625,
      "learning_rate": 0.00031701252909533106,
      "loss": 4.8777,
      "mean_token_accuracy": 0.2214541867375374,
      "num_tokens": 97710343.0,
      "step": 52955
    },
    {
      "entropy": 5.470324754714966,
      "epoch": 4.449317370300357,
      "grad_norm": 1.21875,
      "learning_rate": 0.0003169831088522914,
      "loss": 4.9426,
      "mean_token_accuracy": 0.2172093152999878,
      "num_tokens": 97719921.0,
      "step": 52960
    },
    {
      "entropy": 5.395704364776611,
      "epoch": 4.449737450115522,
      "grad_norm": 1.109375,
      "learning_rate": 0.00031695368786554255,
      "loss": 4.9485,
      "mean_token_accuracy": 0.2098632976412773,
      "num_tokens": 97728766.0,
      "step": 52965
    },
    {
      "entropy": 5.403690481185913,
      "epoch": 4.450157529930687,
      "grad_norm": 1.1875,
      "learning_rate": 0.00031692426613560574,
      "loss": 4.928,
      "mean_token_accuracy": 0.21212547421455383,
      "num_tokens": 97737904.0,
      "step": 52970
    },
    {
      "entropy": 5.536625480651855,
      "epoch": 4.450577609745852,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00031689484366300227,
      "loss": 4.9888,
      "mean_token_accuracy": 0.20289267897605895,
      "num_tokens": 97747713.0,
      "step": 52975
    },
    {
      "entropy": 5.543863296508789,
      "epoch": 4.450997689561016,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003168654204482531,
      "loss": 5.0018,
      "mean_token_accuracy": 0.2088036894798279,
      "num_tokens": 97758167.0,
      "step": 52980
    },
    {
      "entropy": 5.4818168640136715,
      "epoch": 4.451417769376182,
      "grad_norm": 1.109375,
      "learning_rate": 0.00031683599649187953,
      "loss": 4.9821,
      "mean_token_accuracy": 0.20797841250896454,
      "num_tokens": 97767045.0,
      "step": 52985
    },
    {
      "entropy": 5.488787460327148,
      "epoch": 4.451837849191346,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003168065717944029,
      "loss": 5.0114,
      "mean_token_accuracy": 0.20833785235881805,
      "num_tokens": 97775893.0,
      "step": 52990
    },
    {
      "entropy": 5.480595636367798,
      "epoch": 4.452257929006511,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003167771463563444,
      "loss": 4.8947,
      "mean_token_accuracy": 0.2150534138083458,
      "num_tokens": 97785318.0,
      "step": 52995
    },
    {
      "entropy": 5.444679403305054,
      "epoch": 4.452678008821676,
      "grad_norm": 1.125,
      "learning_rate": 0.0003167477201782252,
      "loss": 4.8739,
      "mean_token_accuracy": 0.21920132637023926,
      "num_tokens": 97794290.0,
      "step": 53000
    },
    {
      "entropy": 5.480380392074585,
      "epoch": 4.453098088636841,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003167182932605666,
      "loss": 4.9444,
      "mean_token_accuracy": 0.21378725320100783,
      "num_tokens": 97802735.0,
      "step": 53005
    },
    {
      "entropy": 5.5088231563568115,
      "epoch": 4.453518168452006,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003166888656038899,
      "loss": 5.0053,
      "mean_token_accuracy": 0.21050684303045272,
      "num_tokens": 97813088.0,
      "step": 53010
    },
    {
      "entropy": 5.463519096374512,
      "epoch": 4.453938248267171,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00031665943720871656,
      "loss": 4.9491,
      "mean_token_accuracy": 0.20858097672462464,
      "num_tokens": 97822765.0,
      "step": 53015
    },
    {
      "entropy": 5.490016222000122,
      "epoch": 4.454358328082336,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00031663000807556765,
      "loss": 4.9059,
      "mean_token_accuracy": 0.20988076776266099,
      "num_tokens": 97832228.0,
      "step": 53020
    },
    {
      "entropy": 5.5523449897766115,
      "epoch": 4.454778407897501,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003166005782049646,
      "loss": 4.9644,
      "mean_token_accuracy": 0.21229563951492308,
      "num_tokens": 97840858.0,
      "step": 53025
    },
    {
      "entropy": 5.478478956222534,
      "epoch": 4.455198487712665,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00031657114759742867,
      "loss": 4.9909,
      "mean_token_accuracy": 0.20781367123126984,
      "num_tokens": 97849451.0,
      "step": 53030
    },
    {
      "entropy": 5.459204959869385,
      "epoch": 4.45561856752783,
      "grad_norm": 1.125,
      "learning_rate": 0.0003165417162534813,
      "loss": 4.9371,
      "mean_token_accuracy": 0.2072647511959076,
      "num_tokens": 97858269.0,
      "step": 53035
    },
    {
      "entropy": 5.369742584228516,
      "epoch": 4.456038647342995,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003165122841736439,
      "loss": 4.84,
      "mean_token_accuracy": 0.2274858370423317,
      "num_tokens": 97867419.0,
      "step": 53040
    },
    {
      "entropy": 5.454294586181641,
      "epoch": 4.45645872715816,
      "grad_norm": 1.109375,
      "learning_rate": 0.00031648285135843767,
      "loss": 4.9649,
      "mean_token_accuracy": 0.21256669908761977,
      "num_tokens": 97876991.0,
      "step": 53045
    },
    {
      "entropy": 5.559048891067505,
      "epoch": 4.456878806973325,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003164534178083841,
      "loss": 5.0371,
      "mean_token_accuracy": 0.2054874137043953,
      "num_tokens": 97885131.0,
      "step": 53050
    },
    {
      "entropy": 5.4604448795318605,
      "epoch": 4.4572988867884895,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003164239835240046,
      "loss": 4.8813,
      "mean_token_accuracy": 0.21285150498151778,
      "num_tokens": 97894003.0,
      "step": 53055
    },
    {
      "entropy": 5.519298458099366,
      "epoch": 4.457718966603655,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003163945485058206,
      "loss": 5.0699,
      "mean_token_accuracy": 0.2064655289053917,
      "num_tokens": 97904143.0,
      "step": 53060
    },
    {
      "entropy": 5.54549560546875,
      "epoch": 4.45813904641882,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0003163651127543534,
      "loss": 4.9909,
      "mean_token_accuracy": 0.2078999623656273,
      "num_tokens": 97913794.0,
      "step": 53065
    },
    {
      "entropy": 5.505698108673096,
      "epoch": 4.458559126233984,
      "grad_norm": 1.125,
      "learning_rate": 0.0003163356762701246,
      "loss": 4.9059,
      "mean_token_accuracy": 0.21883804351091385,
      "num_tokens": 97922881.0,
      "step": 53070
    },
    {
      "entropy": 5.442284870147705,
      "epoch": 4.4589792060491495,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00031630623905365554,
      "loss": 4.9109,
      "mean_token_accuracy": 0.2143628105521202,
      "num_tokens": 97931647.0,
      "step": 53075
    },
    {
      "entropy": 5.319388389587402,
      "epoch": 4.459399285864314,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003162768011054677,
      "loss": 4.8111,
      "mean_token_accuracy": 0.22709360122680664,
      "num_tokens": 97941061.0,
      "step": 53080
    },
    {
      "entropy": 5.397040128707886,
      "epoch": 4.459819365679479,
      "grad_norm": 1.171875,
      "learning_rate": 0.00031624736242608266,
      "loss": 4.8272,
      "mean_token_accuracy": 0.21614854782819748,
      "num_tokens": 97949913.0,
      "step": 53085
    },
    {
      "entropy": 5.532927846908569,
      "epoch": 4.460239445494644,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003162179230160218,
      "loss": 5.0618,
      "mean_token_accuracy": 0.2075527310371399,
      "num_tokens": 97959632.0,
      "step": 53090
    },
    {
      "entropy": 5.487174701690674,
      "epoch": 4.460659525309809,
      "grad_norm": 1.046875,
      "learning_rate": 0.0003161884828758066,
      "loss": 4.9072,
      "mean_token_accuracy": 0.21518435180187226,
      "num_tokens": 97968688.0,
      "step": 53095
    },
    {
      "entropy": 5.413421583175659,
      "epoch": 4.461079605124974,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003161590420059587,
      "loss": 4.874,
      "mean_token_accuracy": 0.21915166079998016,
      "num_tokens": 97978645.0,
      "step": 53100
    },
    {
      "entropy": 5.441316843032837,
      "epoch": 4.461499684940138,
      "grad_norm": 1.125,
      "learning_rate": 0.0003161296004069995,
      "loss": 4.8794,
      "mean_token_accuracy": 0.221855528652668,
      "num_tokens": 97987562.0,
      "step": 53105
    },
    {
      "entropy": 5.454181241989136,
      "epoch": 4.4619197647553035,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003161001580794507,
      "loss": 4.8948,
      "mean_token_accuracy": 0.21646321415901185,
      "num_tokens": 97995815.0,
      "step": 53110
    },
    {
      "entropy": 5.394029140472412,
      "epoch": 4.462339844570469,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0003160707150238337,
      "loss": 4.9145,
      "mean_token_accuracy": 0.21358669847249984,
      "num_tokens": 98005207.0,
      "step": 53115
    },
    {
      "entropy": 5.466858577728272,
      "epoch": 4.462759924385633,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003160412712406702,
      "loss": 4.9768,
      "mean_token_accuracy": 0.21513744443655014,
      "num_tokens": 98014113.0,
      "step": 53120
    },
    {
      "entropy": 5.417421531677246,
      "epoch": 4.463180004200798,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003160118267304817,
      "loss": 4.9221,
      "mean_token_accuracy": 0.21995286643505096,
      "num_tokens": 98023062.0,
      "step": 53125
    },
    {
      "entropy": 5.557413864135742,
      "epoch": 4.463600084015963,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003159823814937897,
      "loss": 5.0198,
      "mean_token_accuracy": 0.20942980349063872,
      "num_tokens": 98033297.0,
      "step": 53130
    },
    {
      "entropy": 5.497766494750977,
      "epoch": 4.464020163831128,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00031595293553111605,
      "loss": 4.9355,
      "mean_token_accuracy": 0.20648979693651198,
      "num_tokens": 98042822.0,
      "step": 53135
    },
    {
      "entropy": 5.473655891418457,
      "epoch": 4.464440243646293,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00031592348884298217,
      "loss": 4.9822,
      "mean_token_accuracy": 0.21276290565729142,
      "num_tokens": 98052714.0,
      "step": 53140
    },
    {
      "entropy": 5.519678211212158,
      "epoch": 4.4648603234614574,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003158940414299097,
      "loss": 4.9424,
      "mean_token_accuracy": 0.20528950840234755,
      "num_tokens": 98061506.0,
      "step": 53145
    },
    {
      "entropy": 5.349728155136108,
      "epoch": 4.465280403276623,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00031586459329242036,
      "loss": 4.8124,
      "mean_token_accuracy": 0.22294247299432754,
      "num_tokens": 98071295.0,
      "step": 53150
    },
    {
      "entropy": 5.393357229232788,
      "epoch": 4.465700483091787,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003158351444310359,
      "loss": 4.8913,
      "mean_token_accuracy": 0.20534432232379912,
      "num_tokens": 98080087.0,
      "step": 53155
    },
    {
      "entropy": 5.422293758392334,
      "epoch": 4.466120562906952,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00031580569484627774,
      "loss": 4.9367,
      "mean_token_accuracy": 0.20999367088079451,
      "num_tokens": 98089164.0,
      "step": 53160
    },
    {
      "entropy": 5.401704740524292,
      "epoch": 4.4665406427221175,
      "grad_norm": 1.109375,
      "learning_rate": 0.00031577624453866783,
      "loss": 4.8454,
      "mean_token_accuracy": 0.21827225238084794,
      "num_tokens": 98098423.0,
      "step": 53165
    },
    {
      "entropy": 5.483877372741699,
      "epoch": 4.466960722537282,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003157467935087277,
      "loss": 4.8918,
      "mean_token_accuracy": 0.21519638746976852,
      "num_tokens": 98107391.0,
      "step": 53170
    },
    {
      "entropy": 5.389511060714722,
      "epoch": 4.467380802352447,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00031571734175697913,
      "loss": 4.8333,
      "mean_token_accuracy": 0.2260797306895256,
      "num_tokens": 98116062.0,
      "step": 53175
    },
    {
      "entropy": 5.383603143692016,
      "epoch": 4.467800882167612,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003156878892839438,
      "loss": 4.8602,
      "mean_token_accuracy": 0.22175629585981368,
      "num_tokens": 98124686.0,
      "step": 53180
    },
    {
      "entropy": 5.468716096878052,
      "epoch": 4.468220961982777,
      "grad_norm": 1.203125,
      "learning_rate": 0.00031565843609014345,
      "loss": 4.9486,
      "mean_token_accuracy": 0.21024133116006852,
      "num_tokens": 98133767.0,
      "step": 53185
    },
    {
      "entropy": 5.451680278778076,
      "epoch": 4.468641041797942,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003156289821760998,
      "loss": 4.9138,
      "mean_token_accuracy": 0.21729535162448882,
      "num_tokens": 98143018.0,
      "step": 53190
    },
    {
      "entropy": 5.465221834182739,
      "epoch": 4.469061121613106,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00031559952754233475,
      "loss": 4.8974,
      "mean_token_accuracy": 0.21501840204000472,
      "num_tokens": 98152452.0,
      "step": 53195
    },
    {
      "entropy": 5.3615403175354,
      "epoch": 4.469481201428271,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00031557007218936987,
      "loss": 4.8987,
      "mean_token_accuracy": 0.21218363493680953,
      "num_tokens": 98161274.0,
      "step": 53200
    },
    {
      "entropy": 5.389532613754272,
      "epoch": 4.469901281243437,
      "grad_norm": 1.140625,
      "learning_rate": 0.00031554061611772715,
      "loss": 4.8556,
      "mean_token_accuracy": 0.21473961919546128,
      "num_tokens": 98170510.0,
      "step": 53205
    },
    {
      "entropy": 5.4419934272766115,
      "epoch": 4.470321361058601,
      "grad_norm": 1.15625,
      "learning_rate": 0.00031551115932792817,
      "loss": 4.9098,
      "mean_token_accuracy": 0.21401365250349044,
      "num_tokens": 98180124.0,
      "step": 53210
    },
    {
      "entropy": 5.497889709472656,
      "epoch": 4.470741440873766,
      "grad_norm": 1.0625,
      "learning_rate": 0.00031548170182049495,
      "loss": 4.9233,
      "mean_token_accuracy": 0.21579939723014832,
      "num_tokens": 98189857.0,
      "step": 53215
    },
    {
      "entropy": 5.430147647857666,
      "epoch": 4.471161520688931,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00031545224359594927,
      "loss": 4.8947,
      "mean_token_accuracy": 0.22192199230194093,
      "num_tokens": 98198488.0,
      "step": 53220
    },
    {
      "entropy": 5.44007830619812,
      "epoch": 4.471581600504096,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003154227846548128,
      "loss": 4.9284,
      "mean_token_accuracy": 0.21675778478384017,
      "num_tokens": 98208105.0,
      "step": 53225
    },
    {
      "entropy": 5.559805250167846,
      "epoch": 4.472001680319261,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00031539332499760757,
      "loss": 5.0365,
      "mean_token_accuracy": 0.1989907816052437,
      "num_tokens": 98217289.0,
      "step": 53230
    },
    {
      "entropy": 5.393978214263916,
      "epoch": 4.472421760134425,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003153638646248554,
      "loss": 4.8891,
      "mean_token_accuracy": 0.21020471006631852,
      "num_tokens": 98226442.0,
      "step": 53235
    },
    {
      "entropy": 5.3979260444641115,
      "epoch": 4.472841839949591,
      "grad_norm": 0.9921875,
      "learning_rate": 0.0003153344035370782,
      "loss": 4.835,
      "mean_token_accuracy": 0.22200874388217925,
      "num_tokens": 98235600.0,
      "step": 53240
    },
    {
      "entropy": 5.474177503585816,
      "epoch": 4.473261919764755,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00031530494173479776,
      "loss": 4.8831,
      "mean_token_accuracy": 0.20940854549407958,
      "num_tokens": 98244201.0,
      "step": 53245
    },
    {
      "entropy": 5.427039766311646,
      "epoch": 4.47368199957992,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000315275479218536,
      "loss": 4.8744,
      "mean_token_accuracy": 0.21820700466632842,
      "num_tokens": 98252738.0,
      "step": 53250
    },
    {
      "entropy": 5.503671550750733,
      "epoch": 4.474102079395085,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00031524601598881496,
      "loss": 4.9922,
      "mean_token_accuracy": 0.21172423511743546,
      "num_tokens": 98261739.0,
      "step": 53255
    },
    {
      "entropy": 5.410371017456055,
      "epoch": 4.47452215921025,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00031521655204615635,
      "loss": 4.8804,
      "mean_token_accuracy": 0.212598717212677,
      "num_tokens": 98271151.0,
      "step": 53260
    },
    {
      "entropy": 5.5140317440032955,
      "epoch": 4.474942239025415,
      "grad_norm": 1.125,
      "learning_rate": 0.0003151870873910823,
      "loss": 4.9606,
      "mean_token_accuracy": 0.2160644441843033,
      "num_tokens": 98279975.0,
      "step": 53265
    },
    {
      "entropy": 5.496977996826172,
      "epoch": 4.475362318840579,
      "grad_norm": 1.078125,
      "learning_rate": 0.00031515762202411466,
      "loss": 4.9631,
      "mean_token_accuracy": 0.21066375225782394,
      "num_tokens": 98289232.0,
      "step": 53270
    },
    {
      "entropy": 5.4725147724151615,
      "epoch": 4.475782398655745,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00031512815594577547,
      "loss": 4.8891,
      "mean_token_accuracy": 0.2212381049990654,
      "num_tokens": 98298035.0,
      "step": 53275
    },
    {
      "entropy": 5.562836599349976,
      "epoch": 4.47620247847091,
      "grad_norm": 1.1875,
      "learning_rate": 0.00031509868915658665,
      "loss": 4.9884,
      "mean_token_accuracy": 0.20667213201522827,
      "num_tokens": 98306206.0,
      "step": 53280
    },
    {
      "entropy": 5.339495515823364,
      "epoch": 4.476622558286074,
      "grad_norm": 1.140625,
      "learning_rate": 0.00031506922165707016,
      "loss": 4.8124,
      "mean_token_accuracy": 0.2217319369316101,
      "num_tokens": 98315480.0,
      "step": 53285
    },
    {
      "entropy": 5.394262981414795,
      "epoch": 4.477042638101239,
      "grad_norm": 1.15625,
      "learning_rate": 0.00031503975344774807,
      "loss": 4.8834,
      "mean_token_accuracy": 0.2223909988999367,
      "num_tokens": 98324051.0,
      "step": 53290
    },
    {
      "entropy": 5.4576802253723145,
      "epoch": 4.477462717916404,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00031501028452914233,
      "loss": 4.98,
      "mean_token_accuracy": 0.2097104772925377,
      "num_tokens": 98333652.0,
      "step": 53295
    },
    {
      "entropy": 5.453027057647705,
      "epoch": 4.477882797731569,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00031498081490177504,
      "loss": 4.8659,
      "mean_token_accuracy": 0.21697383522987365,
      "num_tokens": 98343087.0,
      "step": 53300
    },
    {
      "entropy": 5.497554445266724,
      "epoch": 4.478302877546734,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003149513445661682,
      "loss": 4.9776,
      "mean_token_accuracy": 0.20990896821022034,
      "num_tokens": 98353301.0,
      "step": 53305
    },
    {
      "entropy": 5.470163869857788,
      "epoch": 4.4787229573618985,
      "grad_norm": 1.15625,
      "learning_rate": 0.00031492187352284386,
      "loss": 4.9774,
      "mean_token_accuracy": 0.20923151224851608,
      "num_tokens": 98362561.0,
      "step": 53310
    },
    {
      "entropy": 5.403642272949218,
      "epoch": 4.479143037177064,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00031489240177232406,
      "loss": 4.8175,
      "mean_token_accuracy": 0.22326262891292573,
      "num_tokens": 98371115.0,
      "step": 53315
    },
    {
      "entropy": 5.402835845947266,
      "epoch": 4.479563116992228,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003148629293151309,
      "loss": 4.9134,
      "mean_token_accuracy": 0.21412596255540847,
      "num_tokens": 98380504.0,
      "step": 53320
    },
    {
      "entropy": 5.42532525062561,
      "epoch": 4.479983196807393,
      "grad_norm": 1.09375,
      "learning_rate": 0.00031483345615178647,
      "loss": 4.9457,
      "mean_token_accuracy": 0.21257818341255189,
      "num_tokens": 98390366.0,
      "step": 53325
    },
    {
      "entropy": 5.4280375957489015,
      "epoch": 4.4804032766225586,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000314803982282813,
      "loss": 4.923,
      "mean_token_accuracy": 0.2155774101614952,
      "num_tokens": 98398716.0,
      "step": 53330
    },
    {
      "entropy": 5.416202878952026,
      "epoch": 4.480823356437723,
      "grad_norm": 1.203125,
      "learning_rate": 0.00031477450770873235,
      "loss": 4.8745,
      "mean_token_accuracy": 0.21803581714630127,
      "num_tokens": 98407490.0,
      "step": 53335
    },
    {
      "entropy": 5.408196496963501,
      "epoch": 4.481243436252888,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003147450324300668,
      "loss": 4.9143,
      "mean_token_accuracy": 0.2154155492782593,
      "num_tokens": 98416910.0,
      "step": 53340
    },
    {
      "entropy": 5.4010600566864015,
      "epoch": 4.481663516068053,
      "grad_norm": 1.109375,
      "learning_rate": 0.00031471555644733854,
      "loss": 4.9077,
      "mean_token_accuracy": 0.21273085474967957,
      "num_tokens": 98426607.0,
      "step": 53345
    },
    {
      "entropy": 5.475167894363404,
      "epoch": 4.482083595883218,
      "grad_norm": 1.125,
      "learning_rate": 0.0003146860797610695,
      "loss": 4.969,
      "mean_token_accuracy": 0.2182989627122879,
      "num_tokens": 98435536.0,
      "step": 53350
    },
    {
      "entropy": 5.46830997467041,
      "epoch": 4.482503675698383,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003146566023717821,
      "loss": 4.9525,
      "mean_token_accuracy": 0.2104247033596039,
      "num_tokens": 98444055.0,
      "step": 53355
    },
    {
      "entropy": 5.37586784362793,
      "epoch": 4.482923755513547,
      "grad_norm": 1.1875,
      "learning_rate": 0.00031462712427999834,
      "loss": 4.8515,
      "mean_token_accuracy": 0.2161315456032753,
      "num_tokens": 98452448.0,
      "step": 53360
    },
    {
      "entropy": 5.4291542053222654,
      "epoch": 4.4833438353287125,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00031459764548624053,
      "loss": 4.9426,
      "mean_token_accuracy": 0.2056212916970253,
      "num_tokens": 98462413.0,
      "step": 53365
    },
    {
      "entropy": 5.420754623413086,
      "epoch": 4.483763915143878,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003145681659910308,
      "loss": 4.9458,
      "mean_token_accuracy": 0.21290144920349122,
      "num_tokens": 98471410.0,
      "step": 53370
    },
    {
      "entropy": 5.522603940963745,
      "epoch": 4.484183994959042,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003145386857948914,
      "loss": 5.0249,
      "mean_token_accuracy": 0.21025781482458114,
      "num_tokens": 98480877.0,
      "step": 53375
    },
    {
      "entropy": 5.441651630401611,
      "epoch": 4.484604074774207,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003145092048983446,
      "loss": 4.8094,
      "mean_token_accuracy": 0.2158157765865326,
      "num_tokens": 98489570.0,
      "step": 53380
    },
    {
      "entropy": 5.407207393646241,
      "epoch": 4.485024154589372,
      "grad_norm": 1.28125,
      "learning_rate": 0.0003144797233019125,
      "loss": 4.9026,
      "mean_token_accuracy": 0.2155514433979988,
      "num_tokens": 98498708.0,
      "step": 53385
    },
    {
      "entropy": 5.471250581741333,
      "epoch": 4.485444234404537,
      "grad_norm": 1.15625,
      "learning_rate": 0.00031445024100611743,
      "loss": 4.9529,
      "mean_token_accuracy": 0.20848981142044068,
      "num_tokens": 98508034.0,
      "step": 53390
    },
    {
      "entropy": 5.4812925338745115,
      "epoch": 4.485864314219702,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003144207580114817,
      "loss": 4.9918,
      "mean_token_accuracy": 0.21228408217430114,
      "num_tokens": 98516827.0,
      "step": 53395
    },
    {
      "entropy": 5.484490585327149,
      "epoch": 4.4862843940348665,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003143912743185275,
      "loss": 5.0048,
      "mean_token_accuracy": 0.2065375879406929,
      "num_tokens": 98525947.0,
      "step": 53400
    },
    {
      "entropy": 5.403685140609741,
      "epoch": 4.486704473850032,
      "grad_norm": 1.21875,
      "learning_rate": 0.00031436178992777714,
      "loss": 4.8493,
      "mean_token_accuracy": 0.21870405375957488,
      "num_tokens": 98534706.0,
      "step": 53405
    },
    {
      "entropy": 5.428188323974609,
      "epoch": 4.487124553665196,
      "grad_norm": 1.109375,
      "learning_rate": 0.000314332304839753,
      "loss": 4.9279,
      "mean_token_accuracy": 0.21287669092416764,
      "num_tokens": 98544108.0,
      "step": 53410
    },
    {
      "entropy": 5.497350549697876,
      "epoch": 4.487544633480361,
      "grad_norm": 1.09375,
      "learning_rate": 0.00031430281905497724,
      "loss": 4.9401,
      "mean_token_accuracy": 0.21494706720113754,
      "num_tokens": 98553630.0,
      "step": 53415
    },
    {
      "entropy": 5.439944934844971,
      "epoch": 4.4879647132955265,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003142733325739723,
      "loss": 4.8626,
      "mean_token_accuracy": 0.2158699005842209,
      "num_tokens": 98563081.0,
      "step": 53420
    },
    {
      "entropy": 5.398997449874878,
      "epoch": 4.488384793110691,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00031424384539726057,
      "loss": 4.828,
      "mean_token_accuracy": 0.2174250066280365,
      "num_tokens": 98572450.0,
      "step": 53425
    },
    {
      "entropy": 5.42321286201477,
      "epoch": 4.488804872925856,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003142143575253643,
      "loss": 4.8556,
      "mean_token_accuracy": 0.2133835256099701,
      "num_tokens": 98581536.0,
      "step": 53430
    },
    {
      "entropy": 5.367891454696656,
      "epoch": 4.48922495274102,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003141848689588059,
      "loss": 4.8527,
      "mean_token_accuracy": 0.22183129340410232,
      "num_tokens": 98590513.0,
      "step": 53435
    },
    {
      "entropy": 5.338062810897827,
      "epoch": 4.489645032556186,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003141553796981077,
      "loss": 4.8967,
      "mean_token_accuracy": 0.21376781314611434,
      "num_tokens": 98600692.0,
      "step": 53440
    },
    {
      "entropy": 5.40446720123291,
      "epoch": 4.490065112371351,
      "grad_norm": 1.109375,
      "learning_rate": 0.00031412588974379216,
      "loss": 4.8813,
      "mean_token_accuracy": 0.20889361053705216,
      "num_tokens": 98609195.0,
      "step": 53445
    },
    {
      "entropy": 5.462063837051391,
      "epoch": 4.490485192186515,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003140963990963816,
      "loss": 4.9117,
      "mean_token_accuracy": 0.21102272868156433,
      "num_tokens": 98618183.0,
      "step": 53450
    },
    {
      "entropy": 5.433402013778687,
      "epoch": 4.49090527200168,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003140669077563984,
      "loss": 4.822,
      "mean_token_accuracy": 0.22283748984336854,
      "num_tokens": 98626969.0,
      "step": 53455
    },
    {
      "entropy": 5.52714729309082,
      "epoch": 4.491325351816846,
      "grad_norm": 1.140625,
      "learning_rate": 0.00031403741572436506,
      "loss": 5.0664,
      "mean_token_accuracy": 0.19714461714029313,
      "num_tokens": 98636111.0,
      "step": 53460
    },
    {
      "entropy": 5.467993211746216,
      "epoch": 4.49174543163201,
      "grad_norm": 1.203125,
      "learning_rate": 0.00031400792300080403,
      "loss": 4.9522,
      "mean_token_accuracy": 0.20982076823711396,
      "num_tokens": 98645683.0,
      "step": 53465
    },
    {
      "entropy": 5.529479837417602,
      "epoch": 4.492165511447175,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00031397842958623775,
      "loss": 5.0236,
      "mean_token_accuracy": 0.20261098593473434,
      "num_tokens": 98654839.0,
      "step": 53470
    },
    {
      "entropy": 5.482191753387451,
      "epoch": 4.49258559126234,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003139489354811887,
      "loss": 4.9505,
      "mean_token_accuracy": 0.21054741591215134,
      "num_tokens": 98663149.0,
      "step": 53475
    },
    {
      "entropy": 5.4568634033203125,
      "epoch": 4.493005671077505,
      "grad_norm": 1.1875,
      "learning_rate": 0.00031391944068617924,
      "loss": 4.897,
      "mean_token_accuracy": 0.2163063183426857,
      "num_tokens": 98673302.0,
      "step": 53480
    },
    {
      "entropy": 5.432830905914306,
      "epoch": 4.493425750892669,
      "grad_norm": 1.140625,
      "learning_rate": 0.00031388994520173185,
      "loss": 4.8859,
      "mean_token_accuracy": 0.21444760113954545,
      "num_tokens": 98682154.0,
      "step": 53485
    },
    {
      "entropy": 5.452794933319092,
      "epoch": 4.493845830707834,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00031386044902836924,
      "loss": 4.9434,
      "mean_token_accuracy": 0.20863474905490875,
      "num_tokens": 98690736.0,
      "step": 53490
    },
    {
      "entropy": 5.477679300308227,
      "epoch": 4.494265910523,
      "grad_norm": 1.15625,
      "learning_rate": 0.00031383095216661375,
      "loss": 4.9452,
      "mean_token_accuracy": 0.20928067415952684,
      "num_tokens": 98699216.0,
      "step": 53495
    },
    {
      "entropy": 5.473496818542481,
      "epoch": 4.494685990338164,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003138014546169879,
      "loss": 4.9739,
      "mean_token_accuracy": 0.20668028444051742,
      "num_tokens": 98708935.0,
      "step": 53500
    },
    {
      "entropy": 5.591733455657959,
      "epoch": 4.495106070153329,
      "grad_norm": 1.0,
      "learning_rate": 0.00031377195638001426,
      "loss": 5.1027,
      "mean_token_accuracy": 0.19887051731348038,
      "num_tokens": 98718870.0,
      "step": 53505
    },
    {
      "entropy": 5.409892416000366,
      "epoch": 4.495526149968494,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003137424574562154,
      "loss": 4.8422,
      "mean_token_accuracy": 0.2168542727828026,
      "num_tokens": 98728825.0,
      "step": 53510
    },
    {
      "entropy": 5.3946269989013675,
      "epoch": 4.495946229783659,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003137129578461139,
      "loss": 4.8588,
      "mean_token_accuracy": 0.2205027535557747,
      "num_tokens": 98738031.0,
      "step": 53515
    },
    {
      "entropy": 5.445547294616699,
      "epoch": 4.496366309598824,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003136834575502323,
      "loss": 4.9131,
      "mean_token_accuracy": 0.21710922569036484,
      "num_tokens": 98747443.0,
      "step": 53520
    },
    {
      "entropy": 5.509841394424439,
      "epoch": 4.496786389413988,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003136539565690931,
      "loss": 5.0038,
      "mean_token_accuracy": 0.20866017937660217,
      "num_tokens": 98755949.0,
      "step": 53525
    },
    {
      "entropy": 5.534997034072876,
      "epoch": 4.497206469229154,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000313624454903219,
      "loss": 4.9407,
      "mean_token_accuracy": 0.21285687386989594,
      "num_tokens": 98764330.0,
      "step": 53530
    },
    {
      "entropy": 5.334321355819702,
      "epoch": 4.497626549044319,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003135949525531325,
      "loss": 4.7361,
      "mean_token_accuracy": 0.22387880831956863,
      "num_tokens": 98772976.0,
      "step": 53535
    },
    {
      "entropy": 5.452270793914795,
      "epoch": 4.498046628859483,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003135654495193564,
      "loss": 4.8631,
      "mean_token_accuracy": 0.21208545118570327,
      "num_tokens": 98782135.0,
      "step": 53540
    },
    {
      "entropy": 5.422828197479248,
      "epoch": 4.498466708674648,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003135359458024131,
      "loss": 4.9235,
      "mean_token_accuracy": 0.21102080941200257,
      "num_tokens": 98791832.0,
      "step": 53545
    },
    {
      "entropy": 5.554549264907837,
      "epoch": 4.498886788489813,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00031350644140282544,
      "loss": 5.0332,
      "mean_token_accuracy": 0.20323068499565125,
      "num_tokens": 98801307.0,
      "step": 53550
    },
    {
      "entropy": 5.5146849155426025,
      "epoch": 4.499306868304978,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00031347693632111594,
      "loss": 4.9284,
      "mean_token_accuracy": 0.21070763915777208,
      "num_tokens": 98809706.0,
      "step": 53555
    },
    {
      "entropy": 5.465356540679932,
      "epoch": 4.499726948120143,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003134474305578074,
      "loss": 4.9555,
      "mean_token_accuracy": 0.21026672720909118,
      "num_tokens": 98818656.0,
      "step": 53560
    },
    {
      "entropy": 5.477824544906616,
      "epoch": 4.5001470279353075,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00031341792411342237,
      "loss": 4.9295,
      "mean_token_accuracy": 0.20627173632383347,
      "num_tokens": 98827600.0,
      "step": 53565
    },
    {
      "entropy": 5.46294641494751,
      "epoch": 4.500567107750473,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003133884169884836,
      "loss": 4.9279,
      "mean_token_accuracy": 0.21179321259260178,
      "num_tokens": 98836111.0,
      "step": 53570
    },
    {
      "entropy": 5.531038475036621,
      "epoch": 4.500987187565637,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003133589091835139,
      "loss": 5.0237,
      "mean_token_accuracy": 0.20577440559864044,
      "num_tokens": 98845245.0,
      "step": 53575
    },
    {
      "entropy": 5.435155200958252,
      "epoch": 4.501407267380802,
      "grad_norm": 1.125,
      "learning_rate": 0.00031332940069903574,
      "loss": 4.7987,
      "mean_token_accuracy": 0.2239267960190773,
      "num_tokens": 98854043.0,
      "step": 53580
    },
    {
      "entropy": 5.414455127716065,
      "epoch": 4.5018273471959676,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00031329989153557205,
      "loss": 4.9147,
      "mean_token_accuracy": 0.21283865869045257,
      "num_tokens": 98864042.0,
      "step": 53585
    },
    {
      "entropy": 5.469706392288208,
      "epoch": 4.502247427011132,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003132703816936455,
      "loss": 4.9954,
      "mean_token_accuracy": 0.21428023874759675,
      "num_tokens": 98874072.0,
      "step": 53590
    },
    {
      "entropy": 5.469644403457641,
      "epoch": 4.502667506826297,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003132408711737788,
      "loss": 4.9531,
      "mean_token_accuracy": 0.20903902649879455,
      "num_tokens": 98883934.0,
      "step": 53595
    },
    {
      "entropy": 5.417861747741699,
      "epoch": 4.5030875866414615,
      "grad_norm": 1.046875,
      "learning_rate": 0.00031321135997649483,
      "loss": 4.9003,
      "mean_token_accuracy": 0.2103162884712219,
      "num_tokens": 98893101.0,
      "step": 53600
    },
    {
      "entropy": 5.496845960617065,
      "epoch": 4.503507666456627,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003131818481023162,
      "loss": 4.9765,
      "mean_token_accuracy": 0.21180060207843782,
      "num_tokens": 98902423.0,
      "step": 53605
    },
    {
      "entropy": 5.46815767288208,
      "epoch": 4.503927746271792,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00031315233555176587,
      "loss": 4.8985,
      "mean_token_accuracy": 0.21604544073343276,
      "num_tokens": 98910741.0,
      "step": 53610
    },
    {
      "entropy": 5.416648006439209,
      "epoch": 4.504347826086956,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003131228223253665,
      "loss": 4.8905,
      "mean_token_accuracy": 0.21149851530790328,
      "num_tokens": 98919216.0,
      "step": 53615
    },
    {
      "entropy": 5.443799209594727,
      "epoch": 4.5047679059021215,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000313093308423641,
      "loss": 4.9082,
      "mean_token_accuracy": 0.22707050591707229,
      "num_tokens": 98928444.0,
      "step": 53620
    },
    {
      "entropy": 5.393968915939331,
      "epoch": 4.505187985717287,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003130637938471121,
      "loss": 4.8606,
      "mean_token_accuracy": 0.22556697577238083,
      "num_tokens": 98937534.0,
      "step": 53625
    },
    {
      "entropy": 5.509660482406616,
      "epoch": 4.505608065532451,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003130342785963027,
      "loss": 5.0201,
      "mean_token_accuracy": 0.20242610424757004,
      "num_tokens": 98946434.0,
      "step": 53630
    },
    {
      "entropy": 5.428750467300415,
      "epoch": 4.506028145347616,
      "grad_norm": 1.109375,
      "learning_rate": 0.00031300476267173574,
      "loss": 4.8166,
      "mean_token_accuracy": 0.22635281085968018,
      "num_tokens": 98955474.0,
      "step": 53635
    },
    {
      "entropy": 5.362724733352661,
      "epoch": 4.506448225162781,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003129752460739339,
      "loss": 4.8494,
      "mean_token_accuracy": 0.21928930431604385,
      "num_tokens": 98963963.0,
      "step": 53640
    },
    {
      "entropy": 5.431652784347534,
      "epoch": 4.506868304977946,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003129457288034202,
      "loss": 4.9158,
      "mean_token_accuracy": 0.21964592337608338,
      "num_tokens": 98972871.0,
      "step": 53645
    },
    {
      "entropy": 5.484741640090943,
      "epoch": 4.50728838479311,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00031291621086071734,
      "loss": 4.9403,
      "mean_token_accuracy": 0.20990941673517227,
      "num_tokens": 98982513.0,
      "step": 53650
    },
    {
      "entropy": 5.475510978698731,
      "epoch": 4.5077084646082755,
      "grad_norm": 1.140625,
      "learning_rate": 0.00031288669224634847,
      "loss": 4.9375,
      "mean_token_accuracy": 0.2204276442527771,
      "num_tokens": 98992639.0,
      "step": 53655
    },
    {
      "entropy": 5.453011894226075,
      "epoch": 4.508128544423441,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003128571729608363,
      "loss": 4.8969,
      "mean_token_accuracy": 0.21552626937627792,
      "num_tokens": 99001206.0,
      "step": 53660
    },
    {
      "entropy": 5.458857774734497,
      "epoch": 4.508548624238605,
      "grad_norm": 1.21875,
      "learning_rate": 0.0003128276530047037,
      "loss": 4.9676,
      "mean_token_accuracy": 0.2167971521615982,
      "num_tokens": 99009928.0,
      "step": 53665
    },
    {
      "entropy": 5.434930801391602,
      "epoch": 4.50896870405377,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003127981323784739,
      "loss": 4.8733,
      "mean_token_accuracy": 0.21716218143701554,
      "num_tokens": 99018389.0,
      "step": 53670
    },
    {
      "entropy": 5.5069304466247555,
      "epoch": 4.5093887838689355,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00031276861108266954,
      "loss": 4.9637,
      "mean_token_accuracy": 0.2104981377720833,
      "num_tokens": 99027863.0,
      "step": 53675
    },
    {
      "entropy": 5.500590848922729,
      "epoch": 4.5098088636841,
      "grad_norm": 1.1875,
      "learning_rate": 0.00031273908911781364,
      "loss": 5.0064,
      "mean_token_accuracy": 0.2047293394804001,
      "num_tokens": 99037753.0,
      "step": 53680
    },
    {
      "entropy": 5.378510761260986,
      "epoch": 4.510228943499265,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00031270956648442923,
      "loss": 4.7642,
      "mean_token_accuracy": 0.22250112444162368,
      "num_tokens": 99046571.0,
      "step": 53685
    },
    {
      "entropy": 5.409199333190918,
      "epoch": 4.510649023314429,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003126800431830392,
      "loss": 4.8812,
      "mean_token_accuracy": 0.21597783118486405,
      "num_tokens": 99054454.0,
      "step": 53690
    },
    {
      "entropy": 5.418667984008789,
      "epoch": 4.511069103129595,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003126505192141667,
      "loss": 4.9199,
      "mean_token_accuracy": 0.2144044116139412,
      "num_tokens": 99064657.0,
      "step": 53695
    },
    {
      "entropy": 5.444651746749878,
      "epoch": 4.51148918294476,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003126209945783347,
      "loss": 4.8726,
      "mean_token_accuracy": 0.21259821206331253,
      "num_tokens": 99074591.0,
      "step": 53700
    },
    {
      "entropy": 5.43472318649292,
      "epoch": 4.511909262759924,
      "grad_norm": 1.140625,
      "learning_rate": 0.00031259146927606606,
      "loss": 4.9816,
      "mean_token_accuracy": 0.2109766736626625,
      "num_tokens": 99083777.0,
      "step": 53705
    },
    {
      "entropy": 5.428672027587891,
      "epoch": 4.512329342575089,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003125619433078839,
      "loss": 4.9502,
      "mean_token_accuracy": 0.2094784989953041,
      "num_tokens": 99092314.0,
      "step": 53710
    },
    {
      "entropy": 5.579623413085938,
      "epoch": 4.512749422390254,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00031253241667431134,
      "loss": 5.0099,
      "mean_token_accuracy": 0.21404244154691696,
      "num_tokens": 99101787.0,
      "step": 53715
    },
    {
      "entropy": 5.516316318511963,
      "epoch": 4.513169502205419,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003125028893758712,
      "loss": 4.9075,
      "mean_token_accuracy": 0.21222206205129623,
      "num_tokens": 99112032.0,
      "step": 53720
    },
    {
      "entropy": 5.5066732406616214,
      "epoch": 4.513589582020584,
      "grad_norm": 1.125,
      "learning_rate": 0.00031247336141308686,
      "loss": 4.9716,
      "mean_token_accuracy": 0.21331580728292465,
      "num_tokens": 99121671.0,
      "step": 53725
    },
    {
      "entropy": 5.486003828048706,
      "epoch": 4.514009661835749,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003124438327864811,
      "loss": 4.9864,
      "mean_token_accuracy": 0.20239508152008057,
      "num_tokens": 99132045.0,
      "step": 53730
    },
    {
      "entropy": 5.498200225830078,
      "epoch": 4.514429741650914,
      "grad_norm": 1.125,
      "learning_rate": 0.00031241430349657716,
      "loss": 5.0096,
      "mean_token_accuracy": 0.2014610067009926,
      "num_tokens": 99141821.0,
      "step": 53735
    },
    {
      "entropy": 5.4680338382720945,
      "epoch": 4.514849821466079,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003123847735438981,
      "loss": 4.8559,
      "mean_token_accuracy": 0.21507839858531952,
      "num_tokens": 99151302.0,
      "step": 53740
    },
    {
      "entropy": 5.5531011581420895,
      "epoch": 4.515269901281243,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000312355242928967,
      "loss": 5.043,
      "mean_token_accuracy": 0.2023274526000023,
      "num_tokens": 99161209.0,
      "step": 53745
    },
    {
      "entropy": 5.48829927444458,
      "epoch": 4.515689981096409,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00031232571165230703,
      "loss": 4.9046,
      "mean_token_accuracy": 0.21208264529705048,
      "num_tokens": 99170828.0,
      "step": 53750
    },
    {
      "entropy": 5.428645610809326,
      "epoch": 4.516110060911573,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00031229617971444124,
      "loss": 4.8898,
      "mean_token_accuracy": 0.2162990912795067,
      "num_tokens": 99178993.0,
      "step": 53755
    },
    {
      "entropy": 5.378073501586914,
      "epoch": 4.516530140726738,
      "grad_norm": 1.21875,
      "learning_rate": 0.00031226664711589294,
      "loss": 4.8905,
      "mean_token_accuracy": 0.20960985422134398,
      "num_tokens": 99187855.0,
      "step": 53760
    },
    {
      "entropy": 5.440486574172974,
      "epoch": 4.5169502205419025,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00031223711385718506,
      "loss": 4.9258,
      "mean_token_accuracy": 0.2148957595229149,
      "num_tokens": 99197178.0,
      "step": 53765
    },
    {
      "entropy": 5.498844575881958,
      "epoch": 4.517370300357068,
      "grad_norm": 1.125,
      "learning_rate": 0.000312207579938841,
      "loss": 4.9256,
      "mean_token_accuracy": 0.21127678453922272,
      "num_tokens": 99205992.0,
      "step": 53770
    },
    {
      "entropy": 5.466392993927002,
      "epoch": 4.517790380172233,
      "grad_norm": 1.28125,
      "learning_rate": 0.00031217804536138374,
      "loss": 4.9664,
      "mean_token_accuracy": 0.2173848867416382,
      "num_tokens": 99214479.0,
      "step": 53775
    },
    {
      "entropy": 5.445193529129028,
      "epoch": 4.518210459987397,
      "grad_norm": 1.125,
      "learning_rate": 0.0003121485101253365,
      "loss": 4.9352,
      "mean_token_accuracy": 0.21872124671936036,
      "num_tokens": 99224015.0,
      "step": 53780
    },
    {
      "entropy": 5.46676664352417,
      "epoch": 4.518630539802563,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00031211897423122267,
      "loss": 4.902,
      "mean_token_accuracy": 0.2203502759337425,
      "num_tokens": 99233240.0,
      "step": 53785
    },
    {
      "entropy": 5.478397464752197,
      "epoch": 4.519050619617728,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00031208943767956527,
      "loss": 4.9382,
      "mean_token_accuracy": 0.2113489717245102,
      "num_tokens": 99242984.0,
      "step": 53790
    },
    {
      "entropy": 5.484522151947021,
      "epoch": 4.519470699432892,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003120599004708876,
      "loss": 4.8926,
      "mean_token_accuracy": 0.21554696708917617,
      "num_tokens": 99251789.0,
      "step": 53795
    },
    {
      "entropy": 5.407691383361817,
      "epoch": 4.519890779248057,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003120303626057128,
      "loss": 4.8373,
      "mean_token_accuracy": 0.22114138901233674,
      "num_tokens": 99260365.0,
      "step": 53800
    },
    {
      "entropy": 5.426366233825684,
      "epoch": 4.520310859063222,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003120008240845642,
      "loss": 4.9241,
      "mean_token_accuracy": 0.21396276950836182,
      "num_tokens": 99269401.0,
      "step": 53805
    },
    {
      "entropy": 5.39769983291626,
      "epoch": 4.520730938878387,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00031197128490796514,
      "loss": 4.929,
      "mean_token_accuracy": 0.21322060972452164,
      "num_tokens": 99278181.0,
      "step": 53810
    },
    {
      "entropy": 5.488427019119262,
      "epoch": 4.521151018693551,
      "grad_norm": 1.0,
      "learning_rate": 0.00031194174507643874,
      "loss": 4.8684,
      "mean_token_accuracy": 0.2188655689358711,
      "num_tokens": 99287463.0,
      "step": 53815
    },
    {
      "entropy": 5.5003303527832035,
      "epoch": 4.5215710985087165,
      "grad_norm": 1.21875,
      "learning_rate": 0.00031191220459050834,
      "loss": 4.9217,
      "mean_token_accuracy": 0.2141362100839615,
      "num_tokens": 99296102.0,
      "step": 53820
    },
    {
      "entropy": 5.499777173995971,
      "epoch": 4.521991178323882,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003118826634506973,
      "loss": 4.9693,
      "mean_token_accuracy": 0.20584131330251693,
      "num_tokens": 99306103.0,
      "step": 53825
    },
    {
      "entropy": 5.452699422836304,
      "epoch": 4.522411258139046,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00031185312165752884,
      "loss": 4.9121,
      "mean_token_accuracy": 0.21750100404024125,
      "num_tokens": 99314920.0,
      "step": 53830
    },
    {
      "entropy": 5.4338624477386475,
      "epoch": 4.522831337954211,
      "grad_norm": 1.25,
      "learning_rate": 0.00031182357921152626,
      "loss": 4.9687,
      "mean_token_accuracy": 0.20247768014669418,
      "num_tokens": 99324351.0,
      "step": 53835
    },
    {
      "entropy": 5.404324579238891,
      "epoch": 4.523251417769377,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000311794036113213,
      "loss": 4.9261,
      "mean_token_accuracy": 0.22004203498363495,
      "num_tokens": 99333396.0,
      "step": 53840
    },
    {
      "entropy": 5.436692714691162,
      "epoch": 4.523671497584541,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003117644923631123,
      "loss": 4.8789,
      "mean_token_accuracy": 0.21906451135873795,
      "num_tokens": 99342830.0,
      "step": 53845
    },
    {
      "entropy": 5.400216722488404,
      "epoch": 4.524091577399706,
      "grad_norm": 1.21875,
      "learning_rate": 0.0003117349479617476,
      "loss": 4.8729,
      "mean_token_accuracy": 0.21947123259305953,
      "num_tokens": 99351786.0,
      "step": 53850
    },
    {
      "entropy": 5.490376281738281,
      "epoch": 4.5245116572148705,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003117054029096422,
      "loss": 4.9697,
      "mean_token_accuracy": 0.2076120510697365,
      "num_tokens": 99361737.0,
      "step": 53855
    },
    {
      "entropy": 5.415378379821777,
      "epoch": 4.524931737030036,
      "grad_norm": 1.125,
      "learning_rate": 0.0003116758572073194,
      "loss": 4.8766,
      "mean_token_accuracy": 0.2195627883076668,
      "num_tokens": 99371435.0,
      "step": 53860
    },
    {
      "entropy": 5.485369300842285,
      "epoch": 4.525351816845201,
      "grad_norm": 1.171875,
      "learning_rate": 0.00031164631085530277,
      "loss": 4.9027,
      "mean_token_accuracy": 0.21720370501279831,
      "num_tokens": 99380312.0,
      "step": 53865
    },
    {
      "entropy": 5.50239748954773,
      "epoch": 4.525771896660365,
      "grad_norm": 1.171875,
      "learning_rate": 0.00031161676385411556,
      "loss": 4.968,
      "mean_token_accuracy": 0.213628289103508,
      "num_tokens": 99389573.0,
      "step": 53870
    },
    {
      "entropy": 5.494093322753907,
      "epoch": 4.5261919764755305,
      "grad_norm": 1.265625,
      "learning_rate": 0.0003115872162042813,
      "loss": 4.9806,
      "mean_token_accuracy": 0.21144776046276093,
      "num_tokens": 99399202.0,
      "step": 53875
    },
    {
      "entropy": 5.431516313552857,
      "epoch": 4.526612056290695,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0003115576679063233,
      "loss": 4.8926,
      "mean_token_accuracy": 0.21432507336139678,
      "num_tokens": 99407615.0,
      "step": 53880
    },
    {
      "entropy": 5.440101575851441,
      "epoch": 4.52703213610586,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00031152811896076506,
      "loss": 4.9199,
      "mean_token_accuracy": 0.214843225479126,
      "num_tokens": 99416293.0,
      "step": 53885
    },
    {
      "entropy": 5.475984334945679,
      "epoch": 4.527452215921025,
      "grad_norm": 1.125,
      "learning_rate": 0.0003114985693681299,
      "loss": 4.9273,
      "mean_token_accuracy": 0.21483974158763885,
      "num_tokens": 99425753.0,
      "step": 53890
    },
    {
      "entropy": 5.496886777877807,
      "epoch": 4.52787229573619,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00031146901912894147,
      "loss": 4.937,
      "mean_token_accuracy": 0.21516882181167601,
      "num_tokens": 99434383.0,
      "step": 53895
    },
    {
      "entropy": 5.454232883453369,
      "epoch": 4.528292375551355,
      "grad_norm": 1.109375,
      "learning_rate": 0.00031143946824372314,
      "loss": 4.946,
      "mean_token_accuracy": 0.21057834327220917,
      "num_tokens": 99443663.0,
      "step": 53900
    },
    {
      "entropy": 5.444886922836304,
      "epoch": 4.52871245536652,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003114099167129984,
      "loss": 4.9232,
      "mean_token_accuracy": 0.20994559526443482,
      "num_tokens": 99454200.0,
      "step": 53905
    },
    {
      "entropy": 5.534941387176514,
      "epoch": 4.5291325351816845,
      "grad_norm": 1.109375,
      "learning_rate": 0.00031138036453729075,
      "loss": 4.9633,
      "mean_token_accuracy": 0.20598844736814498,
      "num_tokens": 99462867.0,
      "step": 53910
    },
    {
      "entropy": 5.5753387928009035,
      "epoch": 4.52955261499685,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003113508117171236,
      "loss": 5.0327,
      "mean_token_accuracy": 0.21377486735582352,
      "num_tokens": 99472882.0,
      "step": 53915
    },
    {
      "entropy": 5.5093599319458,
      "epoch": 4.529972694812014,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003113212582530206,
      "loss": 4.982,
      "mean_token_accuracy": 0.19984665513038635,
      "num_tokens": 99482043.0,
      "step": 53920
    },
    {
      "entropy": 5.437760257720948,
      "epoch": 4.530392774627179,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003112917041455052,
      "loss": 4.8982,
      "mean_token_accuracy": 0.21976014226675034,
      "num_tokens": 99491659.0,
      "step": 53925
    },
    {
      "entropy": 5.484498167037964,
      "epoch": 4.530812854442344,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003112621493951009,
      "loss": 4.8855,
      "mean_token_accuracy": 0.2158841997385025,
      "num_tokens": 99501947.0,
      "step": 53930
    },
    {
      "entropy": 5.453142881393433,
      "epoch": 4.531232934257509,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003112325940023314,
      "loss": 4.9047,
      "mean_token_accuracy": 0.20878746807575227,
      "num_tokens": 99510740.0,
      "step": 53935
    },
    {
      "entropy": 5.431607913970947,
      "epoch": 4.531653014072674,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003112030379677201,
      "loss": 4.9435,
      "mean_token_accuracy": 0.2107518881559372,
      "num_tokens": 99520519.0,
      "step": 53940
    },
    {
      "entropy": 5.463819074630737,
      "epoch": 4.532073093887838,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003111734812917906,
      "loss": 4.8769,
      "mean_token_accuracy": 0.2220251351594925,
      "num_tokens": 99529161.0,
      "step": 53945
    },
    {
      "entropy": 5.411680889129639,
      "epoch": 4.532493173703004,
      "grad_norm": 1.15625,
      "learning_rate": 0.00031114392397506654,
      "loss": 4.8942,
      "mean_token_accuracy": 0.20721983462572097,
      "num_tokens": 99538400.0,
      "step": 53950
    },
    {
      "entropy": 5.48692831993103,
      "epoch": 4.532913253518169,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0003111143660180714,
      "loss": 4.9745,
      "mean_token_accuracy": 0.21074798107147216,
      "num_tokens": 99548063.0,
      "step": 53955
    },
    {
      "entropy": 5.43003249168396,
      "epoch": 4.533333333333333,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00031108480742132895,
      "loss": 4.9027,
      "mean_token_accuracy": 0.22340588569641112,
      "num_tokens": 99557043.0,
      "step": 53960
    },
    {
      "entropy": 5.50093445777893,
      "epoch": 4.5337534131484984,
      "grad_norm": 1.21875,
      "learning_rate": 0.0003110552481853627,
      "loss": 4.9065,
      "mean_token_accuracy": 0.21094938665628432,
      "num_tokens": 99564931.0,
      "step": 53965
    },
    {
      "entropy": 5.511016035079956,
      "epoch": 4.534173492963663,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003110256883106963,
      "loss": 4.9237,
      "mean_token_accuracy": 0.21387951225042343,
      "num_tokens": 99574405.0,
      "step": 53970
    },
    {
      "entropy": 5.5078209400177,
      "epoch": 4.534593572778828,
      "grad_norm": 1.125,
      "learning_rate": 0.00031099612779785337,
      "loss": 4.9957,
      "mean_token_accuracy": 0.21169189214706421,
      "num_tokens": 99583976.0,
      "step": 53975
    },
    {
      "entropy": 5.54881100654602,
      "epoch": 4.535013652593992,
      "grad_norm": 0.984375,
      "learning_rate": 0.00031096656664735754,
      "loss": 4.9749,
      "mean_token_accuracy": 0.21175561398267745,
      "num_tokens": 99593626.0,
      "step": 53980
    },
    {
      "entropy": 5.352036476135254,
      "epoch": 4.535433732409158,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003109370048597325,
      "loss": 4.7995,
      "mean_token_accuracy": 0.22353310883045197,
      "num_tokens": 99602058.0,
      "step": 53985
    },
    {
      "entropy": 5.419005584716797,
      "epoch": 4.535853812224323,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000310907442435502,
      "loss": 4.9572,
      "mean_token_accuracy": 0.21176030486822128,
      "num_tokens": 99611071.0,
      "step": 53990
    },
    {
      "entropy": 5.487187910079956,
      "epoch": 4.536273892039487,
      "grad_norm": 1.15625,
      "learning_rate": 0.00031087787937518957,
      "loss": 4.9437,
      "mean_token_accuracy": 0.21331410408020018,
      "num_tokens": 99620550.0,
      "step": 53995
    },
    {
      "entropy": 5.496274089813232,
      "epoch": 4.536693971854652,
      "grad_norm": 1.15625,
      "learning_rate": 0.000310848315679319,
      "loss": 4.8662,
      "mean_token_accuracy": 0.22087524682283402,
      "num_tokens": 99628943.0,
      "step": 54000
    },
    {
      "epoch": 4.536693971854652,
      "eval_entropy": 5.21701984210536,
      "eval_loss": 5.033822536468506,
      "eval_mean_token_accuracy": 0.21626604010186112,
      "eval_num_tokens": 99628943.0,
      "eval_runtime": 27.2911,
      "eval_samples_per_second": 1369.163,
      "eval_steps_per_second": 171.155,
      "step": 54000
    },
    {
      "entropy": 5.486043977737427,
      "epoch": 4.537114051669818,
      "grad_norm": 1.140625,
      "learning_rate": 0.000310818751348414,
      "loss": 4.9389,
      "mean_token_accuracy": 0.2121636301279068,
      "num_tokens": 99638046.0,
      "step": 54005
    },
    {
      "entropy": 5.474333620071411,
      "epoch": 4.537534131484982,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003107891863829983,
      "loss": 5.0452,
      "mean_token_accuracy": 0.20054218918085098,
      "num_tokens": 99648455.0,
      "step": 54010
    },
    {
      "entropy": 5.506487941741943,
      "epoch": 4.537954211300147,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00031075962078359556,
      "loss": 4.8693,
      "mean_token_accuracy": 0.22039997577667236,
      "num_tokens": 99657373.0,
      "step": 54015
    },
    {
      "entropy": 5.524330139160156,
      "epoch": 4.5383742911153115,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003107300545507295,
      "loss": 4.9795,
      "mean_token_accuracy": 0.21318896412849425,
      "num_tokens": 99667180.0,
      "step": 54020
    },
    {
      "entropy": 5.3513421535491945,
      "epoch": 4.538794370930477,
      "grad_norm": 1.203125,
      "learning_rate": 0.00031070048768492393,
      "loss": 4.8162,
      "mean_token_accuracy": 0.22162963896989823,
      "num_tokens": 99676329.0,
      "step": 54025
    },
    {
      "entropy": 5.408334636688233,
      "epoch": 4.539214450745642,
      "grad_norm": 1.28125,
      "learning_rate": 0.0003106709201867027,
      "loss": 4.767,
      "mean_token_accuracy": 0.2319321498274803,
      "num_tokens": 99685134.0,
      "step": 54030
    },
    {
      "entropy": 5.406506299972534,
      "epoch": 4.539634530560806,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003106413520565894,
      "loss": 4.9208,
      "mean_token_accuracy": 0.20756465345621108,
      "num_tokens": 99695406.0,
      "step": 54035
    },
    {
      "entropy": 5.327221488952636,
      "epoch": 4.540054610375972,
      "grad_norm": 1.140625,
      "learning_rate": 0.00031061178329510784,
      "loss": 4.7903,
      "mean_token_accuracy": 0.22886549979448317,
      "num_tokens": 99704571.0,
      "step": 54040
    },
    {
      "entropy": 5.4248716831207275,
      "epoch": 4.540474690191136,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00031058221390278194,
      "loss": 4.9513,
      "mean_token_accuracy": 0.2087927758693695,
      "num_tokens": 99713720.0,
      "step": 54045
    },
    {
      "entropy": 5.609685277938842,
      "epoch": 4.540894770006301,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003105526438801355,
      "loss": 5.0795,
      "mean_token_accuracy": 0.2058078721165657,
      "num_tokens": 99722956.0,
      "step": 54050
    },
    {
      "entropy": 5.544635915756226,
      "epoch": 4.541314849821466,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00031052307322769224,
      "loss": 4.9813,
      "mean_token_accuracy": 0.2079532727599144,
      "num_tokens": 99731891.0,
      "step": 54055
    },
    {
      "entropy": 5.450689840316772,
      "epoch": 4.541734929636631,
      "grad_norm": 1.125,
      "learning_rate": 0.000310493501945976,
      "loss": 4.889,
      "mean_token_accuracy": 0.21521138548851013,
      "num_tokens": 99740632.0,
      "step": 54060
    },
    {
      "entropy": 5.52240777015686,
      "epoch": 4.542155009451796,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003104639300355107,
      "loss": 5.0725,
      "mean_token_accuracy": 0.20075233578681945,
      "num_tokens": 99749843.0,
      "step": 54065
    },
    {
      "entropy": 5.39452166557312,
      "epoch": 4.542575089266961,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003104343574968202,
      "loss": 4.8739,
      "mean_token_accuracy": 0.22138855904340743,
      "num_tokens": 99758801.0,
      "step": 54070
    },
    {
      "entropy": 5.471616315841675,
      "epoch": 4.5429951690821255,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003104047843304282,
      "loss": 4.9582,
      "mean_token_accuracy": 0.21485663056373597,
      "num_tokens": 99768177.0,
      "step": 54075
    },
    {
      "entropy": 5.440762567520141,
      "epoch": 4.543415248897291,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00031037521053685867,
      "loss": 4.9313,
      "mean_token_accuracy": 0.21417713761329651,
      "num_tokens": 99777885.0,
      "step": 54080
    },
    {
      "entropy": 5.343169260025024,
      "epoch": 4.543835328712455,
      "grad_norm": 1.109375,
      "learning_rate": 0.00031034563611663556,
      "loss": 4.8572,
      "mean_token_accuracy": 0.21777020394802094,
      "num_tokens": 99788536.0,
      "step": 54085
    },
    {
      "entropy": 5.366463994979858,
      "epoch": 4.54425540852762,
      "grad_norm": 1.140625,
      "learning_rate": 0.00031031606107028266,
      "loss": 4.8662,
      "mean_token_accuracy": 0.221379055082798,
      "num_tokens": 99797861.0,
      "step": 54090
    },
    {
      "entropy": 5.352064895629883,
      "epoch": 4.544675488342785,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00031028648539832386,
      "loss": 4.7698,
      "mean_token_accuracy": 0.22636102586984636,
      "num_tokens": 99806974.0,
      "step": 54095
    },
    {
      "entropy": 5.506242513656616,
      "epoch": 4.54509556815795,
      "grad_norm": 1.1875,
      "learning_rate": 0.00031025690910128326,
      "loss": 4.9913,
      "mean_token_accuracy": 0.20928475707769395,
      "num_tokens": 99816625.0,
      "step": 54100
    },
    {
      "entropy": 5.503178358078003,
      "epoch": 4.545515647973115,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00031022733217968463,
      "loss": 4.9118,
      "mean_token_accuracy": 0.21730428487062453,
      "num_tokens": 99825563.0,
      "step": 54105
    },
    {
      "entropy": 5.490386343002319,
      "epoch": 4.5459357277882795,
      "grad_norm": 1.0859375,
      "learning_rate": 0.000310197754634052,
      "loss": 4.9433,
      "mean_token_accuracy": 0.21214618682861328,
      "num_tokens": 99834532.0,
      "step": 54110
    },
    {
      "entropy": 5.413625764846802,
      "epoch": 4.546355807603445,
      "grad_norm": 1.125,
      "learning_rate": 0.0003101681764649092,
      "loss": 4.9404,
      "mean_token_accuracy": 0.2149575337767601,
      "num_tokens": 99844821.0,
      "step": 54115
    },
    {
      "entropy": 5.39457688331604,
      "epoch": 4.54677588741861,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00031013859767278025,
      "loss": 4.8372,
      "mean_token_accuracy": 0.2199839949607849,
      "num_tokens": 99853324.0,
      "step": 54120
    },
    {
      "entropy": 5.487745857238769,
      "epoch": 4.547195967233774,
      "grad_norm": 1.03125,
      "learning_rate": 0.0003101090182581892,
      "loss": 4.9532,
      "mean_token_accuracy": 0.21395777761936188,
      "num_tokens": 99863237.0,
      "step": 54125
    },
    {
      "entropy": 5.366728353500366,
      "epoch": 4.5476160470489395,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00031007943822165997,
      "loss": 4.796,
      "mean_token_accuracy": 0.22150907218456267,
      "num_tokens": 99872623.0,
      "step": 54130
    },
    {
      "entropy": 5.488771677017212,
      "epoch": 4.548036126864104,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003100498575637165,
      "loss": 4.9761,
      "mean_token_accuracy": 0.2120895117521286,
      "num_tokens": 99881504.0,
      "step": 54135
    },
    {
      "entropy": 5.507563686370849,
      "epoch": 4.548456206679269,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0003100202762848829,
      "loss": 5.0219,
      "mean_token_accuracy": 0.2074910134077072,
      "num_tokens": 99890764.0,
      "step": 54140
    },
    {
      "entropy": 5.4626977920532225,
      "epoch": 4.548876286494434,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003099906943856831,
      "loss": 4.9145,
      "mean_token_accuracy": 0.2093523845076561,
      "num_tokens": 99900019.0,
      "step": 54145
    },
    {
      "entropy": 5.4715265274047855,
      "epoch": 4.549296366309599,
      "grad_norm": 1.140625,
      "learning_rate": 0.00030996111186664115,
      "loss": 4.9708,
      "mean_token_accuracy": 0.21253976672887803,
      "num_tokens": 99910027.0,
      "step": 54150
    },
    {
      "entropy": 5.424635505676269,
      "epoch": 4.549716446124764,
      "grad_norm": 1.09375,
      "learning_rate": 0.00030993152872828115,
      "loss": 4.8396,
      "mean_token_accuracy": 0.21158543676137925,
      "num_tokens": 99919422.0,
      "step": 54155
    },
    {
      "entropy": 5.4285187244415285,
      "epoch": 4.550136525939928,
      "grad_norm": 1.21875,
      "learning_rate": 0.0003099019449711271,
      "loss": 4.8676,
      "mean_token_accuracy": 0.21554674506187438,
      "num_tokens": 99929084.0,
      "step": 54160
    },
    {
      "entropy": 5.510780000686646,
      "epoch": 4.5505566057550935,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003098723605957031,
      "loss": 4.9436,
      "mean_token_accuracy": 0.21471810936927796,
      "num_tokens": 99938272.0,
      "step": 54165
    },
    {
      "entropy": 5.477869653701783,
      "epoch": 4.550976685570259,
      "grad_norm": 1.0625,
      "learning_rate": 0.00030984277560253305,
      "loss": 5.0186,
      "mean_token_accuracy": 0.2155540704727173,
      "num_tokens": 99947604.0,
      "step": 54170
    },
    {
      "entropy": 5.493155527114868,
      "epoch": 4.551396765385423,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00030981318999214125,
      "loss": 4.988,
      "mean_token_accuracy": 0.21664691120386123,
      "num_tokens": 99955776.0,
      "step": 54175
    },
    {
      "entropy": 5.486258316040039,
      "epoch": 4.551816845200588,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003097836037650518,
      "loss": 4.9508,
      "mean_token_accuracy": 0.21664075255393983,
      "num_tokens": 99965087.0,
      "step": 54180
    },
    {
      "entropy": 5.374761581420898,
      "epoch": 4.552236925015753,
      "grad_norm": 1.125,
      "learning_rate": 0.0003097540169217886,
      "loss": 4.8665,
      "mean_token_accuracy": 0.22447071522474288,
      "num_tokens": 99974380.0,
      "step": 54185
    },
    {
      "entropy": 5.432905530929565,
      "epoch": 4.552657004830918,
      "grad_norm": 1.1328125,
      "learning_rate": 0.000309724429462876,
      "loss": 4.9445,
      "mean_token_accuracy": 0.2132735311985016,
      "num_tokens": 99983324.0,
      "step": 54190
    },
    {
      "entropy": 5.471207141876221,
      "epoch": 4.553077084646083,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003096948413888379,
      "loss": 4.9049,
      "mean_token_accuracy": 0.21130022257566453,
      "num_tokens": 99991830.0,
      "step": 54195
    },
    {
      "entropy": 5.452666139602661,
      "epoch": 4.553497164461247,
      "grad_norm": 1.203125,
      "learning_rate": 0.00030966525270019864,
      "loss": 4.8411,
      "mean_token_accuracy": 0.2243170768022537,
      "num_tokens": 100000728.0,
      "step": 54200
    },
    {
      "entropy": 5.475037145614624,
      "epoch": 4.553917244276413,
      "grad_norm": 1.09375,
      "learning_rate": 0.00030963566339748224,
      "loss": 4.9804,
      "mean_token_accuracy": 0.21031580567359925,
      "num_tokens": 100010262.0,
      "step": 54205
    },
    {
      "entropy": 5.487726354598999,
      "epoch": 4.554337324091577,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003096060734812129,
      "loss": 5.0237,
      "mean_token_accuracy": 0.20373062193393707,
      "num_tokens": 100019861.0,
      "step": 54210
    },
    {
      "entropy": 5.440455532073974,
      "epoch": 4.554757403906742,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003095764829519148,
      "loss": 4.8724,
      "mean_token_accuracy": 0.22061560302972794,
      "num_tokens": 100029417.0,
      "step": 54215
    },
    {
      "entropy": 5.439692783355713,
      "epoch": 4.5551774837219074,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003095468918101121,
      "loss": 4.955,
      "mean_token_accuracy": 0.20810146629810333,
      "num_tokens": 100039666.0,
      "step": 54220
    },
    {
      "entropy": 5.494515752792358,
      "epoch": 4.555597563537072,
      "grad_norm": 1.046875,
      "learning_rate": 0.000309517300056329,
      "loss": 4.8812,
      "mean_token_accuracy": 0.21640938371419907,
      "num_tokens": 100049147.0,
      "step": 54225
    },
    {
      "entropy": 5.449221754074097,
      "epoch": 4.556017643352237,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00030948770769108965,
      "loss": 4.924,
      "mean_token_accuracy": 0.20468834042549133,
      "num_tokens": 100059049.0,
      "step": 54230
    },
    {
      "entropy": 5.494537448883056,
      "epoch": 4.556437723167402,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00030945811471491837,
      "loss": 4.9851,
      "mean_token_accuracy": 0.2183694064617157,
      "num_tokens": 100068570.0,
      "step": 54235
    },
    {
      "entropy": 5.298976564407349,
      "epoch": 4.556857802982567,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003094285211283393,
      "loss": 4.7227,
      "mean_token_accuracy": 0.22727162688970565,
      "num_tokens": 100077083.0,
      "step": 54240
    },
    {
      "entropy": 5.419074153900146,
      "epoch": 4.557277882797732,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003093989269318767,
      "loss": 4.8638,
      "mean_token_accuracy": 0.2212181031703949,
      "num_tokens": 100085972.0,
      "step": 54245
    },
    {
      "entropy": 5.435606575012207,
      "epoch": 4.557697962612896,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003093693321260549,
      "loss": 4.9382,
      "mean_token_accuracy": 0.21451308131217955,
      "num_tokens": 100095352.0,
      "step": 54250
    },
    {
      "entropy": 5.417971134185791,
      "epoch": 4.558118042428061,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00030933973671139805,
      "loss": 4.992,
      "mean_token_accuracy": 0.2140774503350258,
      "num_tokens": 100104518.0,
      "step": 54255
    },
    {
      "entropy": 5.44174222946167,
      "epoch": 4.558538122243226,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003093101406884304,
      "loss": 4.7914,
      "mean_token_accuracy": 0.21616962254047395,
      "num_tokens": 100113805.0,
      "step": 54260
    },
    {
      "entropy": 5.4111161708831785,
      "epoch": 4.558958202058391,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003092805440576763,
      "loss": 4.8957,
      "mean_token_accuracy": 0.21407993286848068,
      "num_tokens": 100123291.0,
      "step": 54265
    },
    {
      "entropy": 5.426858520507812,
      "epoch": 4.559378281873556,
      "grad_norm": 1.15625,
      "learning_rate": 0.00030925094681966006,
      "loss": 4.9535,
      "mean_token_accuracy": 0.2099815234541893,
      "num_tokens": 100132790.0,
      "step": 54270
    },
    {
      "entropy": 5.555325746536255,
      "epoch": 4.5597983616887205,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00030922134897490587,
      "loss": 5.0307,
      "mean_token_accuracy": 0.21152405738830565,
      "num_tokens": 100142680.0,
      "step": 54275
    },
    {
      "entropy": 5.433421945571899,
      "epoch": 4.560218441503886,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00030919175052393814,
      "loss": 4.8868,
      "mean_token_accuracy": 0.21659030616283417,
      "num_tokens": 100152010.0,
      "step": 54280
    },
    {
      "entropy": 5.426781225204468,
      "epoch": 4.560638521319051,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003091621514672812,
      "loss": 4.8993,
      "mean_token_accuracy": 0.2201709747314453,
      "num_tokens": 100161045.0,
      "step": 54285
    },
    {
      "entropy": 5.467649698257446,
      "epoch": 4.561058601134215,
      "grad_norm": 1.140625,
      "learning_rate": 0.00030913255180545923,
      "loss": 4.9159,
      "mean_token_accuracy": 0.20772535353899002,
      "num_tokens": 100170304.0,
      "step": 54290
    },
    {
      "entropy": 5.549846744537353,
      "epoch": 4.561478680949381,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003091029515389967,
      "loss": 4.9849,
      "mean_token_accuracy": 0.21370356529951096,
      "num_tokens": 100179768.0,
      "step": 54295
    },
    {
      "entropy": 5.530756521224975,
      "epoch": 4.561898760764545,
      "grad_norm": 1.15625,
      "learning_rate": 0.00030907335066841796,
      "loss": 4.9598,
      "mean_token_accuracy": 0.20938037037849427,
      "num_tokens": 100189822.0,
      "step": 54300
    },
    {
      "entropy": 5.428479480743408,
      "epoch": 4.56231884057971,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003090437491942474,
      "loss": 4.8803,
      "mean_token_accuracy": 0.212220461666584,
      "num_tokens": 100199392.0,
      "step": 54305
    },
    {
      "entropy": 5.477686548233033,
      "epoch": 4.562738920394875,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003090141471170093,
      "loss": 5.0327,
      "mean_token_accuracy": 0.21219145208597184,
      "num_tokens": 100209012.0,
      "step": 54310
    },
    {
      "entropy": 5.400875568389893,
      "epoch": 4.56315900021004,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003089845444372281,
      "loss": 4.9074,
      "mean_token_accuracy": 0.20990583300590515,
      "num_tokens": 100218570.0,
      "step": 54315
    },
    {
      "entropy": 5.454097127914428,
      "epoch": 4.563579080025205,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003089549411554283,
      "loss": 4.9053,
      "mean_token_accuracy": 0.21984127163887024,
      "num_tokens": 100228140.0,
      "step": 54320
    },
    {
      "entropy": 5.47309980392456,
      "epoch": 4.563999159840369,
      "grad_norm": 1.09375,
      "learning_rate": 0.00030892533727213415,
      "loss": 4.958,
      "mean_token_accuracy": 0.21416975408792496,
      "num_tokens": 100237697.0,
      "step": 54325
    },
    {
      "entropy": 5.421775913238525,
      "epoch": 4.5644192396555345,
      "grad_norm": 1.15625,
      "learning_rate": 0.00030889573278787005,
      "loss": 4.9368,
      "mean_token_accuracy": 0.20997246652841567,
      "num_tokens": 100247550.0,
      "step": 54330
    },
    {
      "entropy": 5.426919746398926,
      "epoch": 4.5648393194707,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003088661277031605,
      "loss": 4.9357,
      "mean_token_accuracy": 0.21296142190694808,
      "num_tokens": 100256611.0,
      "step": 54335
    },
    {
      "entropy": 5.455559778213501,
      "epoch": 4.565259399285864,
      "grad_norm": 1.09375,
      "learning_rate": 0.00030883652201853,
      "loss": 4.9336,
      "mean_token_accuracy": 0.20810722410678864,
      "num_tokens": 100266032.0,
      "step": 54340
    },
    {
      "entropy": 5.510262823104858,
      "epoch": 4.565679479101029,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00030880691573450294,
      "loss": 4.9485,
      "mean_token_accuracy": 0.21009578704833984,
      "num_tokens": 100274733.0,
      "step": 54345
    },
    {
      "entropy": 5.465372848510742,
      "epoch": 4.566099558916195,
      "grad_norm": 1.0,
      "learning_rate": 0.00030877730885160373,
      "loss": 4.8891,
      "mean_token_accuracy": 0.21412553489208222,
      "num_tokens": 100284551.0,
      "step": 54350
    },
    {
      "entropy": 5.424306058883667,
      "epoch": 4.566519638731359,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003087477013703569,
      "loss": 4.9089,
      "mean_token_accuracy": 0.21300933957099916,
      "num_tokens": 100292978.0,
      "step": 54355
    },
    {
      "entropy": 5.423318004608154,
      "epoch": 4.566939718546524,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003087180932912869,
      "loss": 4.9255,
      "mean_token_accuracy": 0.21320122182369233,
      "num_tokens": 100302125.0,
      "step": 54360
    },
    {
      "entropy": 5.469685506820679,
      "epoch": 4.5673597983616885,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00030868848461491823,
      "loss": 4.9126,
      "mean_token_accuracy": 0.22677679657936095,
      "num_tokens": 100310551.0,
      "step": 54365
    },
    {
      "entropy": 5.463088512420654,
      "epoch": 4.567779878176854,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003086588753417754,
      "loss": 4.8325,
      "mean_token_accuracy": 0.213112036883831,
      "num_tokens": 100319861.0,
      "step": 54370
    },
    {
      "entropy": 5.411834192276001,
      "epoch": 4.568199957992018,
      "grad_norm": 1.296875,
      "learning_rate": 0.00030862926547238294,
      "loss": 4.8928,
      "mean_token_accuracy": 0.21833293437957763,
      "num_tokens": 100328881.0,
      "step": 54375
    },
    {
      "entropy": 5.3718362808227536,
      "epoch": 4.568620037807183,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00030859965500726544,
      "loss": 4.7876,
      "mean_token_accuracy": 0.22485527247190476,
      "num_tokens": 100337757.0,
      "step": 54380
    },
    {
      "entropy": 5.388593578338623,
      "epoch": 4.5690401176223485,
      "grad_norm": 1.0234375,
      "learning_rate": 0.00030857004394694725,
      "loss": 4.9619,
      "mean_token_accuracy": 0.2101549655199051,
      "num_tokens": 100347426.0,
      "step": 54385
    },
    {
      "entropy": 5.53076810836792,
      "epoch": 4.569460197437513,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003085404322919531,
      "loss": 5.0001,
      "mean_token_accuracy": 0.2081683173775673,
      "num_tokens": 100357518.0,
      "step": 54390
    },
    {
      "entropy": 5.507689571380615,
      "epoch": 4.569880277252678,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003085108200428074,
      "loss": 4.89,
      "mean_token_accuracy": 0.217415514588356,
      "num_tokens": 100366077.0,
      "step": 54395
    },
    {
      "entropy": 5.421002340316773,
      "epoch": 4.570300357067843,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003084812072000348,
      "loss": 4.9024,
      "mean_token_accuracy": 0.21743532121181489,
      "num_tokens": 100375252.0,
      "step": 54400
    },
    {
      "entropy": 5.526607084274292,
      "epoch": 4.570720436883008,
      "grad_norm": 1.171875,
      "learning_rate": 0.00030845159376415986,
      "loss": 5.0059,
      "mean_token_accuracy": 0.2039216235280037,
      "num_tokens": 100385199.0,
      "step": 54405
    },
    {
      "entropy": 5.428379201889038,
      "epoch": 4.571140516698173,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00030842197973570713,
      "loss": 4.8732,
      "mean_token_accuracy": 0.22161984592676162,
      "num_tokens": 100394991.0,
      "step": 54410
    },
    {
      "entropy": 5.415470695495605,
      "epoch": 4.571560596513337,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003083923651152013,
      "loss": 4.8973,
      "mean_token_accuracy": 0.21787805408239364,
      "num_tokens": 100403933.0,
      "step": 54415
    },
    {
      "entropy": 5.516001796722412,
      "epoch": 4.5719806763285025,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00030836274990316687,
      "loss": 4.9413,
      "mean_token_accuracy": 0.21328985095024108,
      "num_tokens": 100413079.0,
      "step": 54420
    },
    {
      "entropy": 5.575452470779419,
      "epoch": 4.572400756143667,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00030833313410012845,
      "loss": 5.1458,
      "mean_token_accuracy": 0.20347312986850738,
      "num_tokens": 100421689.0,
      "step": 54425
    },
    {
      "entropy": 5.440488529205322,
      "epoch": 4.572820835958832,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003083035177066108,
      "loss": 4.8747,
      "mean_token_accuracy": 0.22547173947095872,
      "num_tokens": 100430127.0,
      "step": 54430
    },
    {
      "entropy": 5.524964618682861,
      "epoch": 4.573240915773997,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003082739007231385,
      "loss": 4.9926,
      "mean_token_accuracy": 0.21204669326543807,
      "num_tokens": 100438785.0,
      "step": 54435
    },
    {
      "entropy": 5.484330749511718,
      "epoch": 4.573660995589162,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003082442831502361,
      "loss": 4.928,
      "mean_token_accuracy": 0.2155672550201416,
      "num_tokens": 100447759.0,
      "step": 54440
    },
    {
      "entropy": 5.4646953582763675,
      "epoch": 4.574081075404327,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003082146649884284,
      "loss": 4.916,
      "mean_token_accuracy": 0.21308366060256959,
      "num_tokens": 100457290.0,
      "step": 54445
    },
    {
      "entropy": 5.40832028388977,
      "epoch": 4.574501155219492,
      "grad_norm": 1.09375,
      "learning_rate": 0.00030818504623824,
      "loss": 4.9134,
      "mean_token_accuracy": 0.21882369816303254,
      "num_tokens": 100467192.0,
      "step": 54450
    },
    {
      "entropy": 5.46007661819458,
      "epoch": 4.574921235034656,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003081554269001956,
      "loss": 4.9155,
      "mean_token_accuracy": 0.2173225089907646,
      "num_tokens": 100476672.0,
      "step": 54455
    },
    {
      "entropy": 5.615627002716065,
      "epoch": 4.575341314849822,
      "grad_norm": 1.359375,
      "learning_rate": 0.0003081258069748199,
      "loss": 5.0727,
      "mean_token_accuracy": 0.20707709342241287,
      "num_tokens": 100487239.0,
      "step": 54460
    },
    {
      "entropy": 5.476116561889649,
      "epoch": 4.575761394664986,
      "grad_norm": 1.125,
      "learning_rate": 0.0003080961864626376,
      "loss": 4.9037,
      "mean_token_accuracy": 0.21896304339170455,
      "num_tokens": 100495892.0,
      "step": 54465
    },
    {
      "entropy": 5.377584600448609,
      "epoch": 4.576181474480151,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00030806656536417335,
      "loss": 4.8368,
      "mean_token_accuracy": 0.22465488016605378,
      "num_tokens": 100504076.0,
      "step": 54470
    },
    {
      "entropy": 5.5076977729797365,
      "epoch": 4.5766015542953165,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003080369436799519,
      "loss": 4.9888,
      "mean_token_accuracy": 0.21344470381736755,
      "num_tokens": 100513992.0,
      "step": 54475
    },
    {
      "entropy": 5.505604314804077,
      "epoch": 4.577021634110481,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003080073214104981,
      "loss": 4.9451,
      "mean_token_accuracy": 0.21154246479272842,
      "num_tokens": 100523088.0,
      "step": 54480
    },
    {
      "entropy": 5.565716791152954,
      "epoch": 4.577441713925646,
      "grad_norm": 1.21875,
      "learning_rate": 0.00030797769855633655,
      "loss": 5.0142,
      "mean_token_accuracy": 0.20558853894472123,
      "num_tokens": 100532025.0,
      "step": 54485
    },
    {
      "entropy": 5.413186025619507,
      "epoch": 4.57786179374081,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00030794807511799207,
      "loss": 4.8496,
      "mean_token_accuracy": 0.21486413180828096,
      "num_tokens": 100540115.0,
      "step": 54490
    },
    {
      "entropy": 5.544740104675293,
      "epoch": 4.578281873555976,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003079184510959893,
      "loss": 5.0608,
      "mean_token_accuracy": 0.2055409237742424,
      "num_tokens": 100549776.0,
      "step": 54495
    },
    {
      "entropy": 5.419891786575318,
      "epoch": 4.578701953371141,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003078888264908532,
      "loss": 4.8973,
      "mean_token_accuracy": 0.2148888126015663,
      "num_tokens": 100558858.0,
      "step": 54500
    },
    {
      "entropy": 5.46002516746521,
      "epoch": 4.579122033186305,
      "grad_norm": 1.09375,
      "learning_rate": 0.00030785920130310847,
      "loss": 4.9209,
      "mean_token_accuracy": 0.2208346888422966,
      "num_tokens": 100568106.0,
      "step": 54505
    },
    {
      "entropy": 5.579012680053711,
      "epoch": 4.57954211300147,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00030782957553327997,
      "loss": 5.0729,
      "mean_token_accuracy": 0.20818447768688203,
      "num_tokens": 100578760.0,
      "step": 54510
    },
    {
      "entropy": 5.455419111251831,
      "epoch": 4.579962192816636,
      "grad_norm": 1.09375,
      "learning_rate": 0.00030779994918189236,
      "loss": 4.91,
      "mean_token_accuracy": 0.21742791384458543,
      "num_tokens": 100587475.0,
      "step": 54515
    },
    {
      "entropy": 5.4434326171875,
      "epoch": 4.5803822726318,
      "grad_norm": 1.25,
      "learning_rate": 0.00030777032224947056,
      "loss": 4.899,
      "mean_token_accuracy": 0.21673522293567657,
      "num_tokens": 100595974.0,
      "step": 54520
    },
    {
      "entropy": 5.481531381607056,
      "epoch": 4.580802352446965,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003077406947365394,
      "loss": 4.9871,
      "mean_token_accuracy": 0.20714344680309296,
      "num_tokens": 100606747.0,
      "step": 54525
    },
    {
      "entropy": 5.445463991165161,
      "epoch": 4.5812224322621296,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003077110666436236,
      "loss": 4.9199,
      "mean_token_accuracy": 0.21235671192407607,
      "num_tokens": 100616531.0,
      "step": 54530
    },
    {
      "entropy": 5.441468143463135,
      "epoch": 4.581642512077295,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003076814379712482,
      "loss": 4.9437,
      "mean_token_accuracy": 0.20699316263198853,
      "num_tokens": 100625528.0,
      "step": 54535
    },
    {
      "entropy": 5.359081411361695,
      "epoch": 4.582062591892459,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003076518087199379,
      "loss": 4.7332,
      "mean_token_accuracy": 0.2331030011177063,
      "num_tokens": 100634731.0,
      "step": 54540
    },
    {
      "entropy": 5.423894309997559,
      "epoch": 4.582482671707624,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00030762217889021765,
      "loss": 4.9106,
      "mean_token_accuracy": 0.22298887372016907,
      "num_tokens": 100644956.0,
      "step": 54545
    },
    {
      "entropy": 5.448161602020264,
      "epoch": 4.58290275152279,
      "grad_norm": 1.140625,
      "learning_rate": 0.00030759254848261233,
      "loss": 4.8722,
      "mean_token_accuracy": 0.21645161211490632,
      "num_tokens": 100654860.0,
      "step": 54550
    },
    {
      "entropy": 5.457417345046997,
      "epoch": 4.583322831337954,
      "grad_norm": 1.140625,
      "learning_rate": 0.00030756291749764675,
      "loss": 4.9375,
      "mean_token_accuracy": 0.2087107703089714,
      "num_tokens": 100664157.0,
      "step": 54555
    },
    {
      "entropy": 5.503027820587159,
      "epoch": 4.583742911153119,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003075332859358459,
      "loss": 4.988,
      "mean_token_accuracy": 0.20786598473787307,
      "num_tokens": 100674133.0,
      "step": 54560
    },
    {
      "entropy": 5.372830200195312,
      "epoch": 4.584162990968284,
      "grad_norm": 1.265625,
      "learning_rate": 0.0003075036537977345,
      "loss": 4.8463,
      "mean_token_accuracy": 0.22023780047893524,
      "num_tokens": 100682448.0,
      "step": 54565
    },
    {
      "entropy": 5.41754412651062,
      "epoch": 4.584583070783449,
      "grad_norm": 1.125,
      "learning_rate": 0.00030747402108383776,
      "loss": 4.8999,
      "mean_token_accuracy": 0.22295086681842805,
      "num_tokens": 100691005.0,
      "step": 54570
    },
    {
      "entropy": 5.492202711105347,
      "epoch": 4.585003150598614,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003074443877946804,
      "loss": 5.0516,
      "mean_token_accuracy": 0.2124011605978012,
      "num_tokens": 100700628.0,
      "step": 54575
    },
    {
      "entropy": 5.469630718231201,
      "epoch": 4.585423230413778,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003074147539307875,
      "loss": 4.858,
      "mean_token_accuracy": 0.21959780156612396,
      "num_tokens": 100709362.0,
      "step": 54580
    },
    {
      "entropy": 5.492461252212524,
      "epoch": 4.5858433102289435,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00030738511949268384,
      "loss": 4.9679,
      "mean_token_accuracy": 0.21566733568906785,
      "num_tokens": 100718645.0,
      "step": 54585
    },
    {
      "entropy": 5.457981729507447,
      "epoch": 4.586263390044109,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00030735548448089446,
      "loss": 4.9308,
      "mean_token_accuracy": 0.2104363203048706,
      "num_tokens": 100727064.0,
      "step": 54590
    },
    {
      "entropy": 5.4365533828735355,
      "epoch": 4.586683469859273,
      "grad_norm": 1.140625,
      "learning_rate": 0.00030732584889594437,
      "loss": 4.8688,
      "mean_token_accuracy": 0.22231317162513733,
      "num_tokens": 100735964.0,
      "step": 54595
    },
    {
      "entropy": 5.444353628158569,
      "epoch": 4.587103549674438,
      "grad_norm": 1.125,
      "learning_rate": 0.0003072962127383585,
      "loss": 4.9446,
      "mean_token_accuracy": 0.21139173358678817,
      "num_tokens": 100745658.0,
      "step": 54600
    },
    {
      "entropy": 5.440975475311279,
      "epoch": 4.587523629489603,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003072665760086618,
      "loss": 5.0134,
      "mean_token_accuracy": 0.20583442151546477,
      "num_tokens": 100755199.0,
      "step": 54605
    },
    {
      "entropy": 5.466453266143799,
      "epoch": 4.587943709304768,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003072369387073794,
      "loss": 4.8606,
      "mean_token_accuracy": 0.21796163022518159,
      "num_tokens": 100763917.0,
      "step": 54610
    },
    {
      "entropy": 5.474696969985962,
      "epoch": 4.588363789119933,
      "grad_norm": 1.203125,
      "learning_rate": 0.0003072073008350362,
      "loss": 4.8592,
      "mean_token_accuracy": 0.21640580147504807,
      "num_tokens": 100772949.0,
      "step": 54615
    },
    {
      "entropy": 5.4635851860046385,
      "epoch": 4.5887838689350975,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00030717766239215724,
      "loss": 4.9277,
      "mean_token_accuracy": 0.21740138083696364,
      "num_tokens": 100782671.0,
      "step": 54620
    },
    {
      "entropy": 5.4235094547271725,
      "epoch": 4.589203948750263,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00030714802337926763,
      "loss": 4.9028,
      "mean_token_accuracy": 0.21433446258306504,
      "num_tokens": 100791758.0,
      "step": 54625
    },
    {
      "entropy": 5.368914222717285,
      "epoch": 4.589624028565427,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003071183837968922,
      "loss": 4.8733,
      "mean_token_accuracy": 0.2155345633625984,
      "num_tokens": 100801121.0,
      "step": 54630
    },
    {
      "entropy": 5.444334888458252,
      "epoch": 4.590044108380592,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003070887436455562,
      "loss": 4.9468,
      "mean_token_accuracy": 0.2114604651927948,
      "num_tokens": 100810220.0,
      "step": 54635
    },
    {
      "entropy": 5.498571300506592,
      "epoch": 4.5904641881957575,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00030705910292578464,
      "loss": 4.9524,
      "mean_token_accuracy": 0.21038921028375626,
      "num_tokens": 100819835.0,
      "step": 54640
    },
    {
      "entropy": 5.463705921173096,
      "epoch": 4.590884268010922,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003070294616381026,
      "loss": 4.8882,
      "mean_token_accuracy": 0.21081485897302626,
      "num_tokens": 100829316.0,
      "step": 54645
    },
    {
      "entropy": 5.440388917922974,
      "epoch": 4.591304347826087,
      "grad_norm": 1.21875,
      "learning_rate": 0.00030699981978303515,
      "loss": 4.9699,
      "mean_token_accuracy": 0.2132757231593132,
      "num_tokens": 100838255.0,
      "step": 54650
    },
    {
      "entropy": 5.481994724273681,
      "epoch": 4.591724427641251,
      "grad_norm": 1.078125,
      "learning_rate": 0.00030697017736110735,
      "loss": 4.9394,
      "mean_token_accuracy": 0.20406005531549454,
      "num_tokens": 100847724.0,
      "step": 54655
    },
    {
      "entropy": 5.484110021591187,
      "epoch": 4.592144507456417,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003069405343728443,
      "loss": 4.8944,
      "mean_token_accuracy": 0.21494713872671128,
      "num_tokens": 100856169.0,
      "step": 54660
    },
    {
      "entropy": 5.426189422607422,
      "epoch": 4.592564587271582,
      "grad_norm": 1.203125,
      "learning_rate": 0.00030691089081877115,
      "loss": 4.8174,
      "mean_token_accuracy": 0.22768778055906297,
      "num_tokens": 100864837.0,
      "step": 54665
    },
    {
      "entropy": 5.35705189704895,
      "epoch": 4.592984667086746,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000306881246699413,
      "loss": 4.8103,
      "mean_token_accuracy": 0.21899872571229934,
      "num_tokens": 100873231.0,
      "step": 54670
    },
    {
      "entropy": 5.43773045539856,
      "epoch": 4.5934047469019115,
      "grad_norm": 1.1484375,
      "learning_rate": 0.000306851602015295,
      "loss": 4.887,
      "mean_token_accuracy": 0.21949757337570192,
      "num_tokens": 100881711.0,
      "step": 54675
    },
    {
      "entropy": 5.445190048217773,
      "epoch": 4.593824826717077,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00030682195676694224,
      "loss": 4.8787,
      "mean_token_accuracy": 0.21373372822999953,
      "num_tokens": 100890457.0,
      "step": 54680
    },
    {
      "entropy": 5.390614366531372,
      "epoch": 4.594244906532241,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003067923109548799,
      "loss": 4.8905,
      "mean_token_accuracy": 0.21646110117435455,
      "num_tokens": 100900112.0,
      "step": 54685
    },
    {
      "entropy": 5.399790954589844,
      "epoch": 4.594664986347406,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00030676266457963316,
      "loss": 4.8707,
      "mean_token_accuracy": 0.21714351028203965,
      "num_tokens": 100908806.0,
      "step": 54690
    },
    {
      "entropy": 5.419867038726807,
      "epoch": 4.595085066162571,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003067330176417271,
      "loss": 4.8342,
      "mean_token_accuracy": 0.22035698294639589,
      "num_tokens": 100917957.0,
      "step": 54695
    },
    {
      "entropy": 5.508856773376465,
      "epoch": 4.595505145977736,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00030670337014168707,
      "loss": 4.9943,
      "mean_token_accuracy": 0.20654647201299667,
      "num_tokens": 100927349.0,
      "step": 54700
    },
    {
      "entropy": 5.4552075386047365,
      "epoch": 4.5959252257929,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003066737220800381,
      "loss": 4.9222,
      "mean_token_accuracy": 0.21701411306858062,
      "num_tokens": 100936829.0,
      "step": 54705
    },
    {
      "entropy": 5.463241910934448,
      "epoch": 4.596345305608065,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003066440734573055,
      "loss": 4.8634,
      "mean_token_accuracy": 0.215689080953598,
      "num_tokens": 100945936.0,
      "step": 54710
    },
    {
      "entropy": 5.409489965438842,
      "epoch": 4.596765385423231,
      "grad_norm": 1.125,
      "learning_rate": 0.00030661442427401444,
      "loss": 4.9425,
      "mean_token_accuracy": 0.21349463164806365,
      "num_tokens": 100954967.0,
      "step": 54715
    },
    {
      "entropy": 5.459693336486817,
      "epoch": 4.597185465238395,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003065847745306901,
      "loss": 4.8775,
      "mean_token_accuracy": 0.22021071910858153,
      "num_tokens": 100964178.0,
      "step": 54720
    },
    {
      "entropy": 5.469640731811523,
      "epoch": 4.59760554505356,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003065551242278578,
      "loss": 4.9422,
      "mean_token_accuracy": 0.216242054104805,
      "num_tokens": 100974164.0,
      "step": 54725
    },
    {
      "entropy": 5.459858560562134,
      "epoch": 4.5980256248687255,
      "grad_norm": 1.21875,
      "learning_rate": 0.00030652547336604264,
      "loss": 4.947,
      "mean_token_accuracy": 0.21133356392383576,
      "num_tokens": 100983264.0,
      "step": 54730
    },
    {
      "entropy": 5.407513046264649,
      "epoch": 4.59844570468389,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00030649582194576996,
      "loss": 4.837,
      "mean_token_accuracy": 0.2160710245370865,
      "num_tokens": 100991481.0,
      "step": 54735
    },
    {
      "entropy": 5.417421483993531,
      "epoch": 4.598865784499055,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0003064661699675651,
      "loss": 4.9276,
      "mean_token_accuracy": 0.20977279394865037,
      "num_tokens": 101001143.0,
      "step": 54740
    },
    {
      "entropy": 5.43851900100708,
      "epoch": 4.599285864314219,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00030643651743195323,
      "loss": 4.8935,
      "mean_token_accuracy": 0.2145816907286644,
      "num_tokens": 101009792.0,
      "step": 54745
    },
    {
      "entropy": 5.47496018409729,
      "epoch": 4.599705944129385,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00030640686433945955,
      "loss": 4.9391,
      "mean_token_accuracy": 0.2146753489971161,
      "num_tokens": 101019046.0,
      "step": 54750
    },
    {
      "entropy": 5.516749668121338,
      "epoch": 4.60012602394455,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003063772106906094,
      "loss": 4.9958,
      "mean_token_accuracy": 0.2114071488380432,
      "num_tokens": 101028203.0,
      "step": 54755
    },
    {
      "entropy": 5.534451961517334,
      "epoch": 4.600546103759714,
      "grad_norm": 1.125,
      "learning_rate": 0.0003063475564859282,
      "loss": 4.9701,
      "mean_token_accuracy": 0.2100116029381752,
      "num_tokens": 101037379.0,
      "step": 54760
    },
    {
      "entropy": 5.540085887908935,
      "epoch": 4.600966183574879,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00030631790172594127,
      "loss": 4.9547,
      "mean_token_accuracy": 0.21441884487867355,
      "num_tokens": 101046751.0,
      "step": 54765
    },
    {
      "entropy": 5.398850154876709,
      "epoch": 4.601386263390044,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003062882464111737,
      "loss": 4.7976,
      "mean_token_accuracy": 0.2210029974579811,
      "num_tokens": 101055287.0,
      "step": 54770
    },
    {
      "entropy": 5.440222978591919,
      "epoch": 4.601806343205209,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00030625859054215105,
      "loss": 4.9919,
      "mean_token_accuracy": 0.20499295741319656,
      "num_tokens": 101064053.0,
      "step": 54775
    },
    {
      "entropy": 5.405693006515503,
      "epoch": 4.602226423020374,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003062289341193985,
      "loss": 4.7873,
      "mean_token_accuracy": 0.2310536488890648,
      "num_tokens": 101072583.0,
      "step": 54780
    },
    {
      "entropy": 5.47117133140564,
      "epoch": 4.6026465028355386,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003061992771434415,
      "loss": 4.909,
      "mean_token_accuracy": 0.22171344310045243,
      "num_tokens": 101081644.0,
      "step": 54785
    },
    {
      "entropy": 5.49940505027771,
      "epoch": 4.603066582650704,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00030616961961480533,
      "loss": 4.9981,
      "mean_token_accuracy": 0.20959376096725463,
      "num_tokens": 101090905.0,
      "step": 54790
    },
    {
      "entropy": 5.43953309059143,
      "epoch": 4.603486662465868,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003061399615340154,
      "loss": 4.894,
      "mean_token_accuracy": 0.21878206133842468,
      "num_tokens": 101100914.0,
      "step": 54795
    },
    {
      "entropy": 5.46366696357727,
      "epoch": 4.603906742281033,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00030611030290159715,
      "loss": 4.9253,
      "mean_token_accuracy": 0.2174808755517006,
      "num_tokens": 101109988.0,
      "step": 54800
    },
    {
      "entropy": 5.467882680892944,
      "epoch": 4.604326822096199,
      "grad_norm": 1.15625,
      "learning_rate": 0.00030608064371807583,
      "loss": 4.8904,
      "mean_token_accuracy": 0.21516883075237275,
      "num_tokens": 101118906.0,
      "step": 54805
    },
    {
      "entropy": 5.486363697052002,
      "epoch": 4.604746901911363,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003060509839839769,
      "loss": 4.8399,
      "mean_token_accuracy": 0.2228387251496315,
      "num_tokens": 101127461.0,
      "step": 54810
    },
    {
      "entropy": 5.49229211807251,
      "epoch": 4.605166981726528,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003060213236998258,
      "loss": 4.976,
      "mean_token_accuracy": 0.211053267121315,
      "num_tokens": 101137264.0,
      "step": 54815
    },
    {
      "entropy": 5.478248214721679,
      "epoch": 4.6055870615416925,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000305991662866148,
      "loss": 4.9368,
      "mean_token_accuracy": 0.21221672743558884,
      "num_tokens": 101145695.0,
      "step": 54820
    },
    {
      "entropy": 5.450606012344361,
      "epoch": 4.606007141356858,
      "grad_norm": 1.1875,
      "learning_rate": 0.00030596200148346874,
      "loss": 4.9094,
      "mean_token_accuracy": 0.21211452335119246,
      "num_tokens": 101154851.0,
      "step": 54825
    },
    {
      "entropy": 5.40187258720398,
      "epoch": 4.606427221172023,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003059323395523137,
      "loss": 4.8695,
      "mean_token_accuracy": 0.21603665500879288,
      "num_tokens": 101163881.0,
      "step": 54830
    },
    {
      "entropy": 5.445072364807129,
      "epoch": 4.606847300987187,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003059026770732081,
      "loss": 4.9142,
      "mean_token_accuracy": 0.21916469931602478,
      "num_tokens": 101173930.0,
      "step": 54835
    },
    {
      "entropy": 5.39904522895813,
      "epoch": 4.6072673808023525,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003058730140466775,
      "loss": 4.7936,
      "mean_token_accuracy": 0.22775784581899644,
      "num_tokens": 101182620.0,
      "step": 54840
    },
    {
      "entropy": 5.389231491088867,
      "epoch": 4.607687460617518,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00030584335047324735,
      "loss": 4.8159,
      "mean_token_accuracy": 0.2212664380669594,
      "num_tokens": 101192788.0,
      "step": 54845
    },
    {
      "entropy": 5.444964361190796,
      "epoch": 4.608107540432682,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003058136863534431,
      "loss": 4.9223,
      "mean_token_accuracy": 0.21951862871646882,
      "num_tokens": 101202765.0,
      "step": 54850
    },
    {
      "entropy": 5.502891921997071,
      "epoch": 4.608527620247847,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003057840216877903,
      "loss": 4.968,
      "mean_token_accuracy": 0.20979775339365006,
      "num_tokens": 101211881.0,
      "step": 54855
    },
    {
      "entropy": 5.503379821777344,
      "epoch": 4.608947700063012,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003057543564768144,
      "loss": 4.9176,
      "mean_token_accuracy": 0.21820484697818757,
      "num_tokens": 101220598.0,
      "step": 54860
    },
    {
      "entropy": 5.39609661102295,
      "epoch": 4.609367779878177,
      "grad_norm": 1.140625,
      "learning_rate": 0.00030572469072104097,
      "loss": 4.8982,
      "mean_token_accuracy": 0.22093453407287597,
      "num_tokens": 101229287.0,
      "step": 54865
    },
    {
      "entropy": 5.395024967193604,
      "epoch": 4.609787859693341,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0003056950244209953,
      "loss": 4.9126,
      "mean_token_accuracy": 0.21302397549152374,
      "num_tokens": 101239374.0,
      "step": 54870
    },
    {
      "entropy": 5.49021348953247,
      "epoch": 4.6102079395085065,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003056653575772032,
      "loss": 4.9054,
      "mean_token_accuracy": 0.21625373512506485,
      "num_tokens": 101248662.0,
      "step": 54875
    },
    {
      "entropy": 5.4386273384094235,
      "epoch": 4.610628019323672,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003056356901901901,
      "loss": 4.8968,
      "mean_token_accuracy": 0.21572211086750032,
      "num_tokens": 101257671.0,
      "step": 54880
    },
    {
      "entropy": 5.392048501968384,
      "epoch": 4.611048099138836,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003056060222604815,
      "loss": 4.8987,
      "mean_token_accuracy": 0.2175053432583809,
      "num_tokens": 101266890.0,
      "step": 54885
    },
    {
      "entropy": 5.446984148025512,
      "epoch": 4.611468178954001,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00030557635378860296,
      "loss": 4.949,
      "mean_token_accuracy": 0.21180447340011596,
      "num_tokens": 101276806.0,
      "step": 54890
    },
    {
      "entropy": 5.434470748901367,
      "epoch": 4.6118882587691665,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003055466847750801,
      "loss": 4.9307,
      "mean_token_accuracy": 0.20577058792114258,
      "num_tokens": 101285507.0,
      "step": 54895
    },
    {
      "entropy": 5.5045576095581055,
      "epoch": 4.612308338584331,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003055170152204384,
      "loss": 4.8856,
      "mean_token_accuracy": 0.21504533737897874,
      "num_tokens": 101294485.0,
      "step": 54900
    },
    {
      "entropy": 5.519281816482544,
      "epoch": 4.612728418399496,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003054873451252035,
      "loss": 5.0332,
      "mean_token_accuracy": 0.20866232514381408,
      "num_tokens": 101304626.0,
      "step": 54905
    },
    {
      "entropy": 5.520383310317993,
      "epoch": 4.61314849821466,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00030545767448990097,
      "loss": 4.9693,
      "mean_token_accuracy": 0.20922804474830628,
      "num_tokens": 101313731.0,
      "step": 54910
    },
    {
      "entropy": 5.36318793296814,
      "epoch": 4.613568578029826,
      "grad_norm": 1.140625,
      "learning_rate": 0.00030542800331505646,
      "loss": 4.8238,
      "mean_token_accuracy": 0.21652791649103165,
      "num_tokens": 101323448.0,
      "step": 54915
    },
    {
      "entropy": 5.399426698684692,
      "epoch": 4.613988657844991,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0003053983316011955,
      "loss": 4.8232,
      "mean_token_accuracy": 0.22165817618370057,
      "num_tokens": 101332840.0,
      "step": 54920
    },
    {
      "entropy": 5.3966552734375,
      "epoch": 4.614408737660155,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00030536865934884373,
      "loss": 4.7878,
      "mean_token_accuracy": 0.22291626185178756,
      "num_tokens": 101342335.0,
      "step": 54925
    },
    {
      "entropy": 5.487550401687622,
      "epoch": 4.6148288174753205,
      "grad_norm": 1.125,
      "learning_rate": 0.00030533898655852676,
      "loss": 5.0191,
      "mean_token_accuracy": 0.20844713151454924,
      "num_tokens": 101351237.0,
      "step": 54930
    },
    {
      "entropy": 5.435905790328979,
      "epoch": 4.615248897290485,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003053093132307704,
      "loss": 4.8934,
      "mean_token_accuracy": 0.2191838800907135,
      "num_tokens": 101360424.0,
      "step": 54935
    },
    {
      "entropy": 5.446466875076294,
      "epoch": 4.61566897710565,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003052796393661001,
      "loss": 4.9353,
      "mean_token_accuracy": 0.21010018438100814,
      "num_tokens": 101369622.0,
      "step": 54940
    },
    {
      "entropy": 5.445377683639526,
      "epoch": 4.616089056920815,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003052499649650415,
      "loss": 4.8749,
      "mean_token_accuracy": 0.21575754433870314,
      "num_tokens": 101378584.0,
      "step": 54945
    },
    {
      "entropy": 5.443012619018555,
      "epoch": 4.61650913673598,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003052202900281205,
      "loss": 4.8295,
      "mean_token_accuracy": 0.2243195131421089,
      "num_tokens": 101387621.0,
      "step": 54950
    },
    {
      "entropy": 5.481349658966065,
      "epoch": 4.616929216551145,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0003051906145558626,
      "loss": 4.9213,
      "mean_token_accuracy": 0.218642021715641,
      "num_tokens": 101396733.0,
      "step": 54955
    },
    {
      "entropy": 5.426020097732544,
      "epoch": 4.61734929636631,
      "grad_norm": 1.125,
      "learning_rate": 0.0003051609385487934,
      "loss": 4.9345,
      "mean_token_accuracy": 0.20850626677274703,
      "num_tokens": 101405778.0,
      "step": 54960
    },
    {
      "entropy": 5.448633527755737,
      "epoch": 4.617769376181474,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00030513126200743874,
      "loss": 4.9865,
      "mean_token_accuracy": 0.2072650447487831,
      "num_tokens": 101415384.0,
      "step": 54965
    },
    {
      "entropy": 5.526825189590454,
      "epoch": 4.61818945599664,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003051015849323243,
      "loss": 5.0242,
      "mean_token_accuracy": 0.21295242607593537,
      "num_tokens": 101424860.0,
      "step": 54970
    },
    {
      "entropy": 5.546664094924926,
      "epoch": 4.618609535811804,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00030507190732397585,
      "loss": 4.9671,
      "mean_token_accuracy": 0.20660281032323838,
      "num_tokens": 101434139.0,
      "step": 54975
    },
    {
      "entropy": 5.419099760055542,
      "epoch": 4.619029615626969,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00030504222918291895,
      "loss": 4.895,
      "mean_token_accuracy": 0.21480904072523116,
      "num_tokens": 101443760.0,
      "step": 54980
    },
    {
      "entropy": 5.343401193618774,
      "epoch": 4.619449695442134,
      "grad_norm": 1.109375,
      "learning_rate": 0.00030501255050967947,
      "loss": 4.8337,
      "mean_token_accuracy": 0.21704856008291246,
      "num_tokens": 101452823.0,
      "step": 54985
    },
    {
      "entropy": 5.40023136138916,
      "epoch": 4.619869775257299,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000304982871304783,
      "loss": 4.8257,
      "mean_token_accuracy": 0.2211688205599785,
      "num_tokens": 101461031.0,
      "step": 54990
    },
    {
      "entropy": 5.5002435684204105,
      "epoch": 4.620289855072464,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00030495319156875555,
      "loss": 5.0103,
      "mean_token_accuracy": 0.21172637790441512,
      "num_tokens": 101471602.0,
      "step": 54995
    },
    {
      "entropy": 5.462486600875854,
      "epoch": 4.620709934887628,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00030492351130212273,
      "loss": 4.9201,
      "mean_token_accuracy": 0.2101489081978798,
      "num_tokens": 101480324.0,
      "step": 55000
    },
    {
      "entropy": 5.482031011581421,
      "epoch": 4.621130014702794,
      "grad_norm": 1.078125,
      "learning_rate": 0.0003048938305054103,
      "loss": 4.9827,
      "mean_token_accuracy": 0.20701056569814683,
      "num_tokens": 101490121.0,
      "step": 55005
    },
    {
      "entropy": 5.467494964599609,
      "epoch": 4.621550094517959,
      "grad_norm": 1.21875,
      "learning_rate": 0.0003048641491791441,
      "loss": 4.8811,
      "mean_token_accuracy": 0.21688657104969025,
      "num_tokens": 101498596.0,
      "step": 55010
    },
    {
      "entropy": 5.46967134475708,
      "epoch": 4.621970174333123,
      "grad_norm": 1.140625,
      "learning_rate": 0.00030483446732384973,
      "loss": 4.9434,
      "mean_token_accuracy": 0.2114175707101822,
      "num_tokens": 101507980.0,
      "step": 55015
    },
    {
      "entropy": 5.493291616439819,
      "epoch": 4.622390254148288,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003048047849400532,
      "loss": 5.039,
      "mean_token_accuracy": 0.20572975575923919,
      "num_tokens": 101517072.0,
      "step": 55020
    },
    {
      "entropy": 5.454887771606446,
      "epoch": 4.622810333963453,
      "grad_norm": 1.078125,
      "learning_rate": 0.00030477510202828027,
      "loss": 4.93,
      "mean_token_accuracy": 0.2134850099682808,
      "num_tokens": 101526204.0,
      "step": 55025
    },
    {
      "entropy": 5.444185447692871,
      "epoch": 4.623230413778618,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00030474541858905674,
      "loss": 4.9211,
      "mean_token_accuracy": 0.2083047717809677,
      "num_tokens": 101535304.0,
      "step": 55030
    },
    {
      "entropy": 5.448865842819214,
      "epoch": 4.623650493593782,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00030471573462290846,
      "loss": 4.8944,
      "mean_token_accuracy": 0.22499518394470214,
      "num_tokens": 101545588.0,
      "step": 55035
    },
    {
      "entropy": 5.486044263839721,
      "epoch": 4.624070573408948,
      "grad_norm": 1.125,
      "learning_rate": 0.0003046860501303612,
      "loss": 4.9216,
      "mean_token_accuracy": 0.21265459954738616,
      "num_tokens": 101554643.0,
      "step": 55040
    },
    {
      "entropy": 5.450057125091552,
      "epoch": 4.624490653224113,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003046563651119409,
      "loss": 4.8957,
      "mean_token_accuracy": 0.21633246839046477,
      "num_tokens": 101564118.0,
      "step": 55045
    },
    {
      "entropy": 5.335060930252075,
      "epoch": 4.624910733039277,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003046266795681733,
      "loss": 4.8276,
      "mean_token_accuracy": 0.2267623096704483,
      "num_tokens": 101573060.0,
      "step": 55050
    },
    {
      "entropy": 5.509921836853027,
      "epoch": 4.625330812854442,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003045969934995844,
      "loss": 4.9903,
      "mean_token_accuracy": 0.21247002780437468,
      "num_tokens": 101582362.0,
      "step": 55055
    },
    {
      "entropy": 5.474519395828247,
      "epoch": 4.625750892669608,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003045673069066999,
      "loss": 4.9541,
      "mean_token_accuracy": 0.21004314571619034,
      "num_tokens": 101590808.0,
      "step": 55060
    },
    {
      "entropy": 5.363692951202393,
      "epoch": 4.626170972484772,
      "grad_norm": 1.0625,
      "learning_rate": 0.00030453761979004585,
      "loss": 4.7707,
      "mean_token_accuracy": 0.22204066812992096,
      "num_tokens": 101600318.0,
      "step": 55065
    },
    {
      "entropy": 5.493995618820191,
      "epoch": 4.626591052299937,
      "grad_norm": 1.1875,
      "learning_rate": 0.00030450793215014806,
      "loss": 5.0432,
      "mean_token_accuracy": 0.20388251543045044,
      "num_tokens": 101610156.0,
      "step": 55070
    },
    {
      "entropy": 5.4228692054748535,
      "epoch": 4.6270111321151015,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00030447824398753244,
      "loss": 4.8214,
      "mean_token_accuracy": 0.21964697539806366,
      "num_tokens": 101619131.0,
      "step": 55075
    },
    {
      "entropy": 5.383305406570434,
      "epoch": 4.627431211930267,
      "grad_norm": 1.09375,
      "learning_rate": 0.00030444855530272494,
      "loss": 4.8656,
      "mean_token_accuracy": 0.21858517974615096,
      "num_tokens": 101629070.0,
      "step": 55080
    },
    {
      "entropy": 5.421800422668457,
      "epoch": 4.627851291745432,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0003044188660962514,
      "loss": 4.8832,
      "mean_token_accuracy": 0.22049001902341842,
      "num_tokens": 101637899.0,
      "step": 55085
    },
    {
      "entropy": 5.378380489349365,
      "epoch": 4.628271371560596,
      "grad_norm": 1.125,
      "learning_rate": 0.0003043891763686378,
      "loss": 4.8211,
      "mean_token_accuracy": 0.21896705776453018,
      "num_tokens": 101646533.0,
      "step": 55090
    },
    {
      "entropy": 5.387759256362915,
      "epoch": 4.6286914513757615,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003043594861204101,
      "loss": 4.8748,
      "mean_token_accuracy": 0.2128829076886177,
      "num_tokens": 101656002.0,
      "step": 55095
    },
    {
      "entropy": 5.462348508834839,
      "epoch": 4.629111531190926,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003043297953520942,
      "loss": 4.9114,
      "mean_token_accuracy": 0.21945573687553405,
      "num_tokens": 101665285.0,
      "step": 55100
    },
    {
      "entropy": 5.483178377151489,
      "epoch": 4.629531611006091,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00030430010406421614,
      "loss": 4.8866,
      "mean_token_accuracy": 0.21247054636478424,
      "num_tokens": 101673624.0,
      "step": 55105
    },
    {
      "entropy": 5.404740238189698,
      "epoch": 4.629951690821256,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00030427041225730174,
      "loss": 4.8942,
      "mean_token_accuracy": 0.21928669810295104,
      "num_tokens": 101682485.0,
      "step": 55110
    },
    {
      "entropy": 5.364777946472168,
      "epoch": 4.630371770636421,
      "grad_norm": 1.21875,
      "learning_rate": 0.0003042407199318771,
      "loss": 4.8792,
      "mean_token_accuracy": 0.21937606632709503,
      "num_tokens": 101691894.0,
      "step": 55115
    },
    {
      "entropy": 5.43402419090271,
      "epoch": 4.630791850451586,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00030421102708846817,
      "loss": 4.9465,
      "mean_token_accuracy": 0.2104664221405983,
      "num_tokens": 101700518.0,
      "step": 55120
    },
    {
      "entropy": 5.4552984714508055,
      "epoch": 4.631211930266751,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003041813337276009,
      "loss": 4.9074,
      "mean_token_accuracy": 0.227254019677639,
      "num_tokens": 101710400.0,
      "step": 55125
    },
    {
      "entropy": 5.408756828308105,
      "epoch": 4.6316320100819155,
      "grad_norm": 1.09375,
      "learning_rate": 0.00030415163984980135,
      "loss": 4.8414,
      "mean_token_accuracy": 0.2205498620867729,
      "num_tokens": 101718784.0,
      "step": 55130
    },
    {
      "entropy": 5.436581087112427,
      "epoch": 4.632052089897081,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003041219454555955,
      "loss": 4.9237,
      "mean_token_accuracy": 0.2193852424621582,
      "num_tokens": 101728005.0,
      "step": 55135
    },
    {
      "entropy": 5.386139154434204,
      "epoch": 4.632472169712245,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003040922505455094,
      "loss": 4.8244,
      "mean_token_accuracy": 0.22367593944072722,
      "num_tokens": 101737634.0,
      "step": 55140
    },
    {
      "entropy": 5.469165372848511,
      "epoch": 4.63289224952741,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00030406255512006907,
      "loss": 5.0332,
      "mean_token_accuracy": 0.20689865201711655,
      "num_tokens": 101747062.0,
      "step": 55145
    },
    {
      "entropy": 5.438948345184326,
      "epoch": 4.633312329342575,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0003040328591798006,
      "loss": 4.9275,
      "mean_token_accuracy": 0.2115231290459633,
      "num_tokens": 101757138.0,
      "step": 55150
    },
    {
      "entropy": 5.411209678649902,
      "epoch": 4.63373240915774,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003040031627252299,
      "loss": 4.8181,
      "mean_token_accuracy": 0.22195042073726653,
      "num_tokens": 101764865.0,
      "step": 55155
    },
    {
      "entropy": 5.429695796966553,
      "epoch": 4.634152488972905,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00030397346575688306,
      "loss": 4.9012,
      "mean_token_accuracy": 0.21420406997203828,
      "num_tokens": 101773967.0,
      "step": 55160
    },
    {
      "entropy": 5.432408428192138,
      "epoch": 4.6345725687880694,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00030394376827528626,
      "loss": 4.9241,
      "mean_token_accuracy": 0.21227000802755355,
      "num_tokens": 101782808.0,
      "step": 55165
    },
    {
      "entropy": 5.4813282012939455,
      "epoch": 4.634992648603235,
      "grad_norm": 1.109375,
      "learning_rate": 0.00030391407028096547,
      "loss": 4.9526,
      "mean_token_accuracy": 0.21057270467281342,
      "num_tokens": 101792158.0,
      "step": 55170
    },
    {
      "entropy": 5.465226411819458,
      "epoch": 4.6354127284184,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003038843717744468,
      "loss": 4.9242,
      "mean_token_accuracy": 0.21087595969438552,
      "num_tokens": 101802094.0,
      "step": 55175
    },
    {
      "entropy": 5.406554698944092,
      "epoch": 4.635832808233564,
      "grad_norm": 1.203125,
      "learning_rate": 0.00030385467275625646,
      "loss": 4.8631,
      "mean_token_accuracy": 0.2160259187221527,
      "num_tokens": 101811522.0,
      "step": 55180
    },
    {
      "entropy": 5.459235048294067,
      "epoch": 4.6362528880487295,
      "grad_norm": 1.078125,
      "learning_rate": 0.00030382497322692034,
      "loss": 4.9338,
      "mean_token_accuracy": 0.21258389949798584,
      "num_tokens": 101821420.0,
      "step": 55185
    },
    {
      "entropy": 5.471792936325073,
      "epoch": 4.636672967863894,
      "grad_norm": 1.15625,
      "learning_rate": 0.00030379527318696474,
      "loss": 5.0118,
      "mean_token_accuracy": 0.2064359486103058,
      "num_tokens": 101830925.0,
      "step": 55190
    },
    {
      "entropy": 5.43747353553772,
      "epoch": 4.637093047679059,
      "grad_norm": 1.109375,
      "learning_rate": 0.00030376557263691564,
      "loss": 4.8547,
      "mean_token_accuracy": 0.22597070187330245,
      "num_tokens": 101840240.0,
      "step": 55195
    },
    {
      "entropy": 5.371201610565185,
      "epoch": 4.637513127494224,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003037358715772993,
      "loss": 4.8686,
      "mean_token_accuracy": 0.21503785252571106,
      "num_tokens": 101850495.0,
      "step": 55200
    },
    {
      "entropy": 5.418604135513306,
      "epoch": 4.637933207309389,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0003037061700086417,
      "loss": 4.9257,
      "mean_token_accuracy": 0.22106729149818422,
      "num_tokens": 101859592.0,
      "step": 55205
    },
    {
      "entropy": 5.381185865402221,
      "epoch": 4.638353287124554,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003036764679314692,
      "loss": 4.8266,
      "mean_token_accuracy": 0.21980105489492416,
      "num_tokens": 101868611.0,
      "step": 55210
    },
    {
      "entropy": 5.664331340789795,
      "epoch": 4.638773366939718,
      "grad_norm": 1.15625,
      "learning_rate": 0.00030364676534630773,
      "loss": 5.1607,
      "mean_token_accuracy": 0.19665294587612153,
      "num_tokens": 101878141.0,
      "step": 55215
    },
    {
      "entropy": 5.484637498855591,
      "epoch": 4.639193446754883,
      "grad_norm": 1.125,
      "learning_rate": 0.0003036170622536836,
      "loss": 4.8878,
      "mean_token_accuracy": 0.21683503389358522,
      "num_tokens": 101887545.0,
      "step": 55220
    },
    {
      "entropy": 5.3327796936035154,
      "epoch": 4.639613526570049,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00030358735865412297,
      "loss": 4.8576,
      "mean_token_accuracy": 0.21209518909454345,
      "num_tokens": 101896073.0,
      "step": 55225
    },
    {
      "entropy": 5.394027757644653,
      "epoch": 4.640033606385213,
      "grad_norm": 1.09375,
      "learning_rate": 0.00030355765454815204,
      "loss": 4.916,
      "mean_token_accuracy": 0.21397375464439392,
      "num_tokens": 101905500.0,
      "step": 55230
    },
    {
      "entropy": 5.488992834091187,
      "epoch": 4.640453686200378,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00030352794993629683,
      "loss": 4.8892,
      "mean_token_accuracy": 0.21164644211530687,
      "num_tokens": 101914874.0,
      "step": 55235
    },
    {
      "entropy": 5.445270681381226,
      "epoch": 4.640873766015543,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00030349824481908376,
      "loss": 4.8991,
      "mean_token_accuracy": 0.21397520154714583,
      "num_tokens": 101924819.0,
      "step": 55240
    },
    {
      "entropy": 5.51484432220459,
      "epoch": 4.641293845830708,
      "grad_norm": 1.0703125,
      "learning_rate": 0.000303468539197039,
      "loss": 4.9322,
      "mean_token_accuracy": 0.2145996645092964,
      "num_tokens": 101934042.0,
      "step": 55245
    },
    {
      "entropy": 5.357254600524902,
      "epoch": 4.641713925645873,
      "grad_norm": 1.03125,
      "learning_rate": 0.00030343883307068866,
      "loss": 4.7943,
      "mean_token_accuracy": 0.2302183151245117,
      "num_tokens": 101943438.0,
      "step": 55250
    },
    {
      "entropy": 5.343831968307495,
      "epoch": 4.642134005461037,
      "grad_norm": 1.1875,
      "learning_rate": 0.000303409126440559,
      "loss": 4.8038,
      "mean_token_accuracy": 0.2261527344584465,
      "num_tokens": 101952686.0,
      "step": 55255
    },
    {
      "entropy": 5.44712815284729,
      "epoch": 4.642554085276203,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003033794193071764,
      "loss": 4.9259,
      "mean_token_accuracy": 0.21946462541818618,
      "num_tokens": 101961119.0,
      "step": 55260
    },
    {
      "entropy": 5.380694723129272,
      "epoch": 4.642974165091367,
      "grad_norm": 1.15625,
      "learning_rate": 0.000303349711671067,
      "loss": 4.8309,
      "mean_token_accuracy": 0.21996941268444062,
      "num_tokens": 101970509.0,
      "step": 55265
    },
    {
      "entropy": 5.408734321594238,
      "epoch": 4.643394244906532,
      "grad_norm": 1.140625,
      "learning_rate": 0.000303320003532757,
      "loss": 4.9061,
      "mean_token_accuracy": 0.21552762538194656,
      "num_tokens": 101979366.0,
      "step": 55270
    },
    {
      "entropy": 5.3714179515838625,
      "epoch": 4.643814324721697,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003032902948927727,
      "loss": 4.8221,
      "mean_token_accuracy": 0.22379958480596543,
      "num_tokens": 101988216.0,
      "step": 55275
    },
    {
      "entropy": 5.470981407165527,
      "epoch": 4.644234404536862,
      "grad_norm": 1.125,
      "learning_rate": 0.00030326058575164046,
      "loss": 4.869,
      "mean_token_accuracy": 0.2125299468636513,
      "num_tokens": 101998284.0,
      "step": 55280
    },
    {
      "entropy": 5.478981399536133,
      "epoch": 4.644654484352027,
      "grad_norm": 1.21875,
      "learning_rate": 0.00030323087610988644,
      "loss": 4.9569,
      "mean_token_accuracy": 0.20954076796770096,
      "num_tokens": 102007724.0,
      "step": 55285
    },
    {
      "entropy": 5.3371411800384525,
      "epoch": 4.645074564167192,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00030320116596803696,
      "loss": 4.855,
      "mean_token_accuracy": 0.21731165498495103,
      "num_tokens": 102016982.0,
      "step": 55290
    },
    {
      "entropy": 5.481658506393432,
      "epoch": 4.645494643982357,
      "grad_norm": 1.125,
      "learning_rate": 0.00030317145532661845,
      "loss": 4.9411,
      "mean_token_accuracy": 0.20959982722997667,
      "num_tokens": 102026103.0,
      "step": 55295
    },
    {
      "entropy": 5.557203865051269,
      "epoch": 4.645914723797522,
      "grad_norm": 1.1875,
      "learning_rate": 0.000303141744186157,
      "loss": 5.026,
      "mean_token_accuracy": 0.20609784573316575,
      "num_tokens": 102034517.0,
      "step": 55300
    },
    {
      "entropy": 5.446809577941894,
      "epoch": 4.646334803612686,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003031120325471791,
      "loss": 4.8898,
      "mean_token_accuracy": 0.213640558719635,
      "num_tokens": 102043135.0,
      "step": 55305
    },
    {
      "entropy": 5.381272792816162,
      "epoch": 4.646754883427851,
      "grad_norm": 1.203125,
      "learning_rate": 0.000303082320410211,
      "loss": 4.9048,
      "mean_token_accuracy": 0.21797249913215638,
      "num_tokens": 102052497.0,
      "step": 55310
    },
    {
      "entropy": 5.40991177558899,
      "epoch": 4.647174963243016,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003030526077757791,
      "loss": 4.8576,
      "mean_token_accuracy": 0.21571494787931442,
      "num_tokens": 102062151.0,
      "step": 55315
    },
    {
      "entropy": 5.472101402282715,
      "epoch": 4.647595043058181,
      "grad_norm": 1.125,
      "learning_rate": 0.0003030228946444096,
      "loss": 4.8546,
      "mean_token_accuracy": 0.21754786670207976,
      "num_tokens": 102071460.0,
      "step": 55320
    },
    {
      "entropy": 5.410694026947022,
      "epoch": 4.648015122873346,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003029931810166291,
      "loss": 4.9132,
      "mean_token_accuracy": 0.21913274228572846,
      "num_tokens": 102081574.0,
      "step": 55325
    },
    {
      "entropy": 5.447616910934448,
      "epoch": 4.6484352026885105,
      "grad_norm": 1.140625,
      "learning_rate": 0.00030296346689296364,
      "loss": 4.9416,
      "mean_token_accuracy": 0.20867794305086135,
      "num_tokens": 102090146.0,
      "step": 55330
    },
    {
      "entropy": 5.477960109710693,
      "epoch": 4.648855282503676,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003029337522739399,
      "loss": 4.9343,
      "mean_token_accuracy": 0.20979664772748946,
      "num_tokens": 102100188.0,
      "step": 55335
    },
    {
      "entropy": 5.399933576583862,
      "epoch": 4.649275362318841,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003029040371600841,
      "loss": 4.8525,
      "mean_token_accuracy": 0.21791073083877563,
      "num_tokens": 102108987.0,
      "step": 55340
    },
    {
      "entropy": 5.449922895431518,
      "epoch": 4.649695442134005,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0003028743215519226,
      "loss": 4.912,
      "mean_token_accuracy": 0.21880265474319457,
      "num_tokens": 102117310.0,
      "step": 55345
    },
    {
      "entropy": 5.375571537017822,
      "epoch": 4.6501155219491705,
      "grad_norm": 1.171875,
      "learning_rate": 0.00030284460544998195,
      "loss": 4.9165,
      "mean_token_accuracy": 0.21598513275384904,
      "num_tokens": 102126132.0,
      "step": 55350
    },
    {
      "entropy": 5.432418537139893,
      "epoch": 4.650535601764335,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003028148888547884,
      "loss": 4.8841,
      "mean_token_accuracy": 0.21881210952997207,
      "num_tokens": 102135337.0,
      "step": 55355
    },
    {
      "entropy": 5.466316795349121,
      "epoch": 4.6509556815795,
      "grad_norm": 1.25,
      "learning_rate": 0.00030278517176686833,
      "loss": 4.9607,
      "mean_token_accuracy": 0.2078508347272873,
      "num_tokens": 102144617.0,
      "step": 55360
    },
    {
      "entropy": 5.4922388076782225,
      "epoch": 4.651375761394665,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00030275545418674825,
      "loss": 4.9796,
      "mean_token_accuracy": 0.20699221938848494,
      "num_tokens": 102154409.0,
      "step": 55365
    },
    {
      "entropy": 5.451769065856934,
      "epoch": 4.65179584120983,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00030272573611495474,
      "loss": 4.9219,
      "mean_token_accuracy": 0.21180576384067534,
      "num_tokens": 102162905.0,
      "step": 55370
    },
    {
      "entropy": 5.425080680847168,
      "epoch": 4.652215921024995,
      "grad_norm": 1.125,
      "learning_rate": 0.00030269601755201396,
      "loss": 4.8282,
      "mean_token_accuracy": 0.2220040887594223,
      "num_tokens": 102172108.0,
      "step": 55375
    },
    {
      "entropy": 5.4811952114105225,
      "epoch": 4.652636000840159,
      "grad_norm": 1.234375,
      "learning_rate": 0.0003026662984984525,
      "loss": 5.0108,
      "mean_token_accuracy": 0.21000094413757325,
      "num_tokens": 102182580.0,
      "step": 55380
    },
    {
      "entropy": 5.379444551467896,
      "epoch": 4.6530560806553245,
      "grad_norm": 1.15625,
      "learning_rate": 0.00030263657895479687,
      "loss": 4.7942,
      "mean_token_accuracy": 0.21904916763305665,
      "num_tokens": 102191291.0,
      "step": 55385
    },
    {
      "entropy": 5.458229112625122,
      "epoch": 4.65347616047049,
      "grad_norm": 1.140625,
      "learning_rate": 0.00030260685892157343,
      "loss": 4.875,
      "mean_token_accuracy": 0.21228882372379304,
      "num_tokens": 102200149.0,
      "step": 55390
    },
    {
      "entropy": 5.403941583633423,
      "epoch": 4.653896240285654,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003025771383993087,
      "loss": 4.8429,
      "mean_token_accuracy": 0.21702927649021148,
      "num_tokens": 102209822.0,
      "step": 55395
    },
    {
      "entropy": 5.46007080078125,
      "epoch": 4.654316320100819,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003025474173885292,
      "loss": 5.0165,
      "mean_token_accuracy": 0.21055980920791625,
      "num_tokens": 102219138.0,
      "step": 55400
    },
    {
      "entropy": 5.395271635055542,
      "epoch": 4.6547363999159845,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003025176958897614,
      "loss": 4.9114,
      "mean_token_accuracy": 0.21800679862499237,
      "num_tokens": 102228845.0,
      "step": 55405
    },
    {
      "entropy": 5.453341293334961,
      "epoch": 4.655156479731149,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003024879739035317,
      "loss": 4.9033,
      "mean_token_accuracy": 0.22298510372638702,
      "num_tokens": 102237407.0,
      "step": 55410
    },
    {
      "entropy": 5.581956672668457,
      "epoch": 4.655576559546314,
      "grad_norm": 1.359375,
      "learning_rate": 0.0003024582514303668,
      "loss": 5.1732,
      "mean_token_accuracy": 0.2032462015748024,
      "num_tokens": 102247518.0,
      "step": 55415
    },
    {
      "entropy": 5.434922361373902,
      "epoch": 4.6559966393614785,
      "grad_norm": 1.125,
      "learning_rate": 0.00030242852847079304,
      "loss": 4.8722,
      "mean_token_accuracy": 0.21709612160921096,
      "num_tokens": 102256599.0,
      "step": 55420
    },
    {
      "entropy": 5.474484300613403,
      "epoch": 4.656416719176644,
      "grad_norm": 1.109375,
      "learning_rate": 0.00030239880502533703,
      "loss": 4.9406,
      "mean_token_accuracy": 0.2095104068517685,
      "num_tokens": 102265792.0,
      "step": 55425
    },
    {
      "entropy": 5.541257619857788,
      "epoch": 4.656836798991808,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00030236908109452533,
      "loss": 4.9509,
      "mean_token_accuracy": 0.21211081147193908,
      "num_tokens": 102274550.0,
      "step": 55430
    },
    {
      "entropy": 5.413565063476563,
      "epoch": 4.657256878806973,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003023393566788844,
      "loss": 4.8896,
      "mean_token_accuracy": 0.20981456488370895,
      "num_tokens": 102283358.0,
      "step": 55435
    },
    {
      "entropy": 5.407096195220947,
      "epoch": 4.6576769586221385,
      "grad_norm": 1.15625,
      "learning_rate": 0.00030230963177894097,
      "loss": 4.8398,
      "mean_token_accuracy": 0.22040610611438752,
      "num_tokens": 102292271.0,
      "step": 55440
    },
    {
      "entropy": 5.484226131439209,
      "epoch": 4.658097038437303,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00030227990639522127,
      "loss": 4.9152,
      "mean_token_accuracy": 0.20807521045207977,
      "num_tokens": 102301731.0,
      "step": 55445
    },
    {
      "entropy": 5.441856956481933,
      "epoch": 4.658517118252468,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003022501805282522,
      "loss": 4.9094,
      "mean_token_accuracy": 0.2152763217687607,
      "num_tokens": 102311055.0,
      "step": 55450
    },
    {
      "entropy": 5.430344438552856,
      "epoch": 4.658937198067633,
      "grad_norm": 1.25,
      "learning_rate": 0.00030222045417856023,
      "loss": 4.8868,
      "mean_token_accuracy": 0.2074439823627472,
      "num_tokens": 102320002.0,
      "step": 55455
    },
    {
      "entropy": 5.527481460571289,
      "epoch": 4.659357277882798,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0003021907273466719,
      "loss": 5.0022,
      "mean_token_accuracy": 0.2095247894525528,
      "num_tokens": 102330155.0,
      "step": 55460
    },
    {
      "entropy": 5.332179975509644,
      "epoch": 4.659777357697963,
      "grad_norm": 1.09375,
      "learning_rate": 0.0003021610000331139,
      "loss": 4.7995,
      "mean_token_accuracy": 0.22337763011455536,
      "num_tokens": 102339166.0,
      "step": 55465
    },
    {
      "entropy": 5.481119441986084,
      "epoch": 4.660197437513127,
      "grad_norm": 1.265625,
      "learning_rate": 0.0003021312722384126,
      "loss": 5.0016,
      "mean_token_accuracy": 0.20890639275312423,
      "num_tokens": 102349015.0,
      "step": 55470
    },
    {
      "entropy": 5.542308187484741,
      "epoch": 4.660617517328292,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000302101543963095,
      "loss": 4.9812,
      "mean_token_accuracy": 0.2068869635462761,
      "num_tokens": 102358426.0,
      "step": 55475
    },
    {
      "entropy": 5.411324834823608,
      "epoch": 4.661037597143457,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003020718152076873,
      "loss": 4.8395,
      "mean_token_accuracy": 0.22278653979301452,
      "num_tokens": 102367759.0,
      "step": 55480
    },
    {
      "entropy": 5.220964336395264,
      "epoch": 4.661457676958622,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0003020420859727165,
      "loss": 4.7145,
      "mean_token_accuracy": 0.2351723700761795,
      "num_tokens": 102376893.0,
      "step": 55485
    },
    {
      "entropy": 5.3226318359375,
      "epoch": 4.661877756773787,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000302012356258709,
      "loss": 4.8445,
      "mean_token_accuracy": 0.22551996856927872,
      "num_tokens": 102386066.0,
      "step": 55490
    },
    {
      "entropy": 5.483223104476929,
      "epoch": 4.662297836588952,
      "grad_norm": 1.15625,
      "learning_rate": 0.00030198262606619147,
      "loss": 4.9317,
      "mean_token_accuracy": 0.21705660223960876,
      "num_tokens": 102395100.0,
      "step": 55495
    },
    {
      "entropy": 5.525293636322021,
      "epoch": 4.662717916404117,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003019528953956907,
      "loss": 4.9264,
      "mean_token_accuracy": 0.21420048773288727,
      "num_tokens": 102404275.0,
      "step": 55500
    },
    {
      "entropy": 5.54411129951477,
      "epoch": 4.663137996219282,
      "grad_norm": 1.3046875,
      "learning_rate": 0.00030192316424773326,
      "loss": 4.9774,
      "mean_token_accuracy": 0.20936328619718553,
      "num_tokens": 102414771.0,
      "step": 55505
    },
    {
      "entropy": 5.497513055801392,
      "epoch": 4.663558076034446,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003018934326228458,
      "loss": 4.9446,
      "mean_token_accuracy": 0.21085995733737944,
      "num_tokens": 102422986.0,
      "step": 55510
    },
    {
      "entropy": 5.377017259597778,
      "epoch": 4.663978155849612,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0003018637005215549,
      "loss": 4.8598,
      "mean_token_accuracy": 0.22189127802848815,
      "num_tokens": 102432033.0,
      "step": 55515
    },
    {
      "entropy": 5.445176458358764,
      "epoch": 4.664398235664776,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00030183396794438756,
      "loss": 4.9029,
      "mean_token_accuracy": 0.22155783474445342,
      "num_tokens": 102441061.0,
      "step": 55520
    },
    {
      "entropy": 5.494374370574951,
      "epoch": 4.664818315479941,
      "grad_norm": 1.3203125,
      "learning_rate": 0.00030180423489187025,
      "loss": 4.9351,
      "mean_token_accuracy": 0.20713938623666764,
      "num_tokens": 102450411.0,
      "step": 55525
    },
    {
      "entropy": 5.400502109527588,
      "epoch": 4.665238395295106,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00030177450136452974,
      "loss": 4.8813,
      "mean_token_accuracy": 0.2192720130085945,
      "num_tokens": 102459232.0,
      "step": 55530
    },
    {
      "entropy": 5.479346704483032,
      "epoch": 4.665658475110271,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003017447673628927,
      "loss": 4.9397,
      "mean_token_accuracy": 0.2119227722287178,
      "num_tokens": 102468460.0,
      "step": 55535
    },
    {
      "entropy": 5.4363062381744385,
      "epoch": 4.666078554925436,
      "grad_norm": 1.1875,
      "learning_rate": 0.00030171503288748585,
      "loss": 4.9317,
      "mean_token_accuracy": 0.21042543053627014,
      "num_tokens": 102477328.0,
      "step": 55540
    },
    {
      "entropy": 5.476047039031982,
      "epoch": 4.6664986347406,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000301685297938836,
      "loss": 4.9026,
      "mean_token_accuracy": 0.21710819900035858,
      "num_tokens": 102487330.0,
      "step": 55545
    },
    {
      "entropy": 5.43309268951416,
      "epoch": 4.666918714555766,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003016555625174698,
      "loss": 4.8853,
      "mean_token_accuracy": 0.2115878462791443,
      "num_tokens": 102496901.0,
      "step": 55550
    },
    {
      "entropy": 5.4108555793762205,
      "epoch": 4.667338794370931,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00030162582662391404,
      "loss": 4.8157,
      "mean_token_accuracy": 0.23024385869503022,
      "num_tokens": 102506327.0,
      "step": 55555
    },
    {
      "entropy": 5.370383262634277,
      "epoch": 4.667758874186095,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003015960902586955,
      "loss": 4.8332,
      "mean_token_accuracy": 0.22018586248159408,
      "num_tokens": 102515467.0,
      "step": 55560
    },
    {
      "entropy": 5.4705301284790036,
      "epoch": 4.66817895400126,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003015663534223409,
      "loss": 4.9521,
      "mean_token_accuracy": 0.21432869583368303,
      "num_tokens": 102524163.0,
      "step": 55565
    },
    {
      "entropy": 5.423611640930176,
      "epoch": 4.668599033816426,
      "grad_norm": 1.15625,
      "learning_rate": 0.000301536616115377,
      "loss": 4.8971,
      "mean_token_accuracy": 0.2146812215447426,
      "num_tokens": 102533001.0,
      "step": 55570
    },
    {
      "entropy": 5.430009031295777,
      "epoch": 4.66901911363159,
      "grad_norm": 1.546875,
      "learning_rate": 0.00030150687833833067,
      "loss": 4.8594,
      "mean_token_accuracy": 0.22219752222299577,
      "num_tokens": 102542479.0,
      "step": 55575
    },
    {
      "entropy": 5.463801479339599,
      "epoch": 4.669439193446755,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003014771400917285,
      "loss": 4.9558,
      "mean_token_accuracy": 0.21364811360836028,
      "num_tokens": 102551670.0,
      "step": 55580
    },
    {
      "entropy": 5.5094531059265135,
      "epoch": 4.6698592732619195,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00030144740137609755,
      "loss": 5.0687,
      "mean_token_accuracy": 0.20775427371263505,
      "num_tokens": 102561641.0,
      "step": 55585
    },
    {
      "entropy": 5.50287389755249,
      "epoch": 4.670279353077085,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003014176621919645,
      "loss": 4.934,
      "mean_token_accuracy": 0.21512143611907958,
      "num_tokens": 102570328.0,
      "step": 55590
    },
    {
      "entropy": 5.419060897827149,
      "epoch": 4.670699432892249,
      "grad_norm": 1.21875,
      "learning_rate": 0.00030138792253985616,
      "loss": 4.8226,
      "mean_token_accuracy": 0.22353142201900483,
      "num_tokens": 102579249.0,
      "step": 55595
    },
    {
      "entropy": 5.392763280868531,
      "epoch": 4.671119512707414,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00030135818242029935,
      "loss": 4.9105,
      "mean_token_accuracy": 0.20915908515453338,
      "num_tokens": 102588637.0,
      "step": 55600
    },
    {
      "entropy": 5.4243158340454105,
      "epoch": 4.6715395925225796,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0003013284418338209,
      "loss": 4.9035,
      "mean_token_accuracy": 0.22052905410528184,
      "num_tokens": 102598476.0,
      "step": 55605
    },
    {
      "entropy": 5.4590576171875,
      "epoch": 4.671959672337744,
      "grad_norm": 1.25,
      "learning_rate": 0.0003012987007809477,
      "loss": 4.9422,
      "mean_token_accuracy": 0.21436890065670014,
      "num_tokens": 102606798.0,
      "step": 55610
    },
    {
      "entropy": 5.508921766281128,
      "epoch": 4.672379752152909,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0003012689592622065,
      "loss": 4.9839,
      "mean_token_accuracy": 0.21251245439052582,
      "num_tokens": 102615809.0,
      "step": 55615
    },
    {
      "entropy": 5.470199966430664,
      "epoch": 4.672799831968074,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0003012392172781243,
      "loss": 4.9583,
      "mean_token_accuracy": 0.20938418805599213,
      "num_tokens": 102626122.0,
      "step": 55620
    },
    {
      "entropy": 5.439378833770752,
      "epoch": 4.673219911783239,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003012094748292278,
      "loss": 4.8599,
      "mean_token_accuracy": 0.21558486074209213,
      "num_tokens": 102635235.0,
      "step": 55625
    },
    {
      "entropy": 5.4250115871429445,
      "epoch": 4.673639991598404,
      "grad_norm": 1.09375,
      "learning_rate": 0.000301179731916044,
      "loss": 4.8589,
      "mean_token_accuracy": 0.2209511011838913,
      "num_tokens": 102644198.0,
      "step": 55630
    },
    {
      "entropy": 5.4183807373046875,
      "epoch": 4.674060071413568,
      "grad_norm": 1.171875,
      "learning_rate": 0.00030114998853909966,
      "loss": 4.8819,
      "mean_token_accuracy": 0.22139713913202286,
      "num_tokens": 102654094.0,
      "step": 55635
    },
    {
      "entropy": 5.55505404472351,
      "epoch": 4.6744801512287335,
      "grad_norm": 1.171875,
      "learning_rate": 0.0003011202446989218,
      "loss": 5.0941,
      "mean_token_accuracy": 0.2010379984974861,
      "num_tokens": 102663994.0,
      "step": 55640
    },
    {
      "entropy": 5.586322069168091,
      "epoch": 4.674900231043898,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00030109050039603717,
      "loss": 5.0069,
      "mean_token_accuracy": 0.20581955313682557,
      "num_tokens": 102674453.0,
      "step": 55645
    },
    {
      "entropy": 5.453066492080689,
      "epoch": 4.675320310859063,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003010607556309728,
      "loss": 4.9242,
      "mean_token_accuracy": 0.2108207419514656,
      "num_tokens": 102683538.0,
      "step": 55650
    },
    {
      "entropy": 5.447440481185913,
      "epoch": 4.675740390674228,
      "grad_norm": 1.265625,
      "learning_rate": 0.0003010310104042556,
      "loss": 4.8594,
      "mean_token_accuracy": 0.21490655690431595,
      "num_tokens": 102692307.0,
      "step": 55655
    },
    {
      "entropy": 5.368438053131103,
      "epoch": 4.676160470489393,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00030100126471641243,
      "loss": 4.933,
      "mean_token_accuracy": 0.21300631314516066,
      "num_tokens": 102701379.0,
      "step": 55660
    },
    {
      "entropy": 5.391306972503662,
      "epoch": 4.676580550304558,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003009715185679702,
      "loss": 4.8631,
      "mean_token_accuracy": 0.2135605826973915,
      "num_tokens": 102711440.0,
      "step": 55665
    },
    {
      "entropy": 5.432822513580322,
      "epoch": 4.677000630119723,
      "grad_norm": 1.21875,
      "learning_rate": 0.000300941771959456,
      "loss": 4.9013,
      "mean_token_accuracy": 0.21713484674692154,
      "num_tokens": 102720390.0,
      "step": 55670
    },
    {
      "entropy": 5.49174690246582,
      "epoch": 4.6774207099348875,
      "grad_norm": 1.125,
      "learning_rate": 0.00030091202489139664,
      "loss": 4.8841,
      "mean_token_accuracy": 0.21306561380624772,
      "num_tokens": 102729065.0,
      "step": 55675
    },
    {
      "entropy": 5.455241298675537,
      "epoch": 4.677840789750053,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00030088227736431905,
      "loss": 4.9,
      "mean_token_accuracy": 0.2163274273276329,
      "num_tokens": 102738948.0,
      "step": 55680
    },
    {
      "entropy": 5.39321117401123,
      "epoch": 4.678260869565217,
      "grad_norm": 1.109375,
      "learning_rate": 0.0003008525293787503,
      "loss": 4.9048,
      "mean_token_accuracy": 0.21335772871971131,
      "num_tokens": 102748859.0,
      "step": 55685
    },
    {
      "entropy": 5.445966720581055,
      "epoch": 4.678680949380382,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003008227809352173,
      "loss": 4.8563,
      "mean_token_accuracy": 0.21400651335716248,
      "num_tokens": 102757689.0,
      "step": 55690
    },
    {
      "entropy": 5.471859407424927,
      "epoch": 4.6791010291955475,
      "grad_norm": 1.25,
      "learning_rate": 0.00030079303203424694,
      "loss": 4.8415,
      "mean_token_accuracy": 0.21734248399734496,
      "num_tokens": 102766074.0,
      "step": 55695
    },
    {
      "entropy": 5.533402729034424,
      "epoch": 4.679521109010712,
      "grad_norm": 1.15625,
      "learning_rate": 0.00030076328267636637,
      "loss": 4.9726,
      "mean_token_accuracy": 0.21098922789096833,
      "num_tokens": 102775647.0,
      "step": 55700
    },
    {
      "entropy": 5.432537603378296,
      "epoch": 4.679941188825877,
      "grad_norm": 1.078125,
      "learning_rate": 0.00030073353286210256,
      "loss": 4.8803,
      "mean_token_accuracy": 0.21940912008285524,
      "num_tokens": 102785406.0,
      "step": 55705
    },
    {
      "entropy": 5.406280469894409,
      "epoch": 4.680361268641041,
      "grad_norm": 1.125,
      "learning_rate": 0.0003007037825919824,
      "loss": 4.8836,
      "mean_token_accuracy": 0.2237689360976219,
      "num_tokens": 102794642.0,
      "step": 55710
    },
    {
      "entropy": 5.458928728103638,
      "epoch": 4.680781348456207,
      "grad_norm": 1.140625,
      "learning_rate": 0.0003006740318665329,
      "loss": 4.9293,
      "mean_token_accuracy": 0.2118604525923729,
      "num_tokens": 102802954.0,
      "step": 55715
    },
    {
      "entropy": 5.465764141082763,
      "epoch": 4.681201428271372,
      "grad_norm": 1.203125,
      "learning_rate": 0.00030064428068628127,
      "loss": 4.9158,
      "mean_token_accuracy": 0.21924397051334382,
      "num_tokens": 102812289.0,
      "step": 55720
    },
    {
      "entropy": 5.470578861236572,
      "epoch": 4.681621508086536,
      "grad_norm": 1.28125,
      "learning_rate": 0.00030061452905175433,
      "loss": 4.9067,
      "mean_token_accuracy": 0.21528313755989076,
      "num_tokens": 102821713.0,
      "step": 55725
    },
    {
      "entropy": 5.475566005706787,
      "epoch": 4.682041587901701,
      "grad_norm": 1.125,
      "learning_rate": 0.00030058477696347924,
      "loss": 4.8794,
      "mean_token_accuracy": 0.22191497534513474,
      "num_tokens": 102830917.0,
      "step": 55730
    },
    {
      "entropy": 5.4338805198669435,
      "epoch": 4.682461667716867,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00030055502442198303,
      "loss": 4.9195,
      "mean_token_accuracy": 0.2099542185664177,
      "num_tokens": 102840259.0,
      "step": 55735
    },
    {
      "entropy": 5.444227266311645,
      "epoch": 4.682881747532031,
      "grad_norm": 1.15625,
      "learning_rate": 0.0003005252714277927,
      "loss": 4.9574,
      "mean_token_accuracy": 0.21384135633707047,
      "num_tokens": 102849331.0,
      "step": 55740
    },
    {
      "entropy": 5.437623977661133,
      "epoch": 4.683301827347196,
      "grad_norm": 1.1875,
      "learning_rate": 0.0003004955179814353,
      "loss": 4.8849,
      "mean_token_accuracy": 0.21912786811590196,
      "num_tokens": 102858085.0,
      "step": 55745
    },
    {
      "entropy": 5.453822135925293,
      "epoch": 4.683721907162361,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00030046576408343794,
      "loss": 4.8895,
      "mean_token_accuracy": 0.21598225980997085,
      "num_tokens": 102868226.0,
      "step": 55750
    },
    {
      "entropy": 5.4519054889678955,
      "epoch": 4.684141986977526,
      "grad_norm": 1.0625,
      "learning_rate": 0.0003004360097343277,
      "loss": 4.9148,
      "mean_token_accuracy": 0.2168192982673645,
      "num_tokens": 102877513.0,
      "step": 55755
    },
    {
      "entropy": 5.450193929672241,
      "epoch": 4.68456206679269,
      "grad_norm": 1.15625,
      "learning_rate": 0.00030040625493463164,
      "loss": 4.9559,
      "mean_token_accuracy": 0.21130091696977615,
      "num_tokens": 102887487.0,
      "step": 55760
    },
    {
      "entropy": 5.44547553062439,
      "epoch": 4.684982146607855,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00030037649968487685,
      "loss": 4.954,
      "mean_token_accuracy": 0.21759523302316666,
      "num_tokens": 102896238.0,
      "step": 55765
    },
    {
      "entropy": 5.523368501663208,
      "epoch": 4.685402226423021,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0003003467439855904,
      "loss": 4.9652,
      "mean_token_accuracy": 0.21192681640386582,
      "num_tokens": 102905635.0,
      "step": 55770
    },
    {
      "entropy": 5.440935134887695,
      "epoch": 4.685822306238185,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0003003169878372995,
      "loss": 4.8943,
      "mean_token_accuracy": 0.21157967746257783,
      "num_tokens": 102914909.0,
      "step": 55775
    },
    {
      "entropy": 5.386656427383423,
      "epoch": 4.68624238605335,
      "grad_norm": 1.09375,
      "learning_rate": 0.00030028723124053117,
      "loss": 4.808,
      "mean_token_accuracy": 0.2149682253599167,
      "num_tokens": 102924404.0,
      "step": 55780
    },
    {
      "entropy": 5.4062317371368405,
      "epoch": 4.686662465868515,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0003002574741958125,
      "loss": 4.9056,
      "mean_token_accuracy": 0.2219544917345047,
      "num_tokens": 102933417.0,
      "step": 55785
    },
    {
      "entropy": 5.414753103256226,
      "epoch": 4.68708254568368,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003002277167036707,
      "loss": 4.8842,
      "mean_token_accuracy": 0.21774357706308364,
      "num_tokens": 102942739.0,
      "step": 55790
    },
    {
      "entropy": 5.595660305023193,
      "epoch": 4.687502625498845,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00030019795876463294,
      "loss": 5.0844,
      "mean_token_accuracy": 0.20148655474185945,
      "num_tokens": 102953675.0,
      "step": 55795
    },
    {
      "entropy": 5.497023105621338,
      "epoch": 4.687922705314009,
      "grad_norm": 1.015625,
      "learning_rate": 0.0003001682003792263,
      "loss": 4.9043,
      "mean_token_accuracy": 0.21685369610786437,
      "num_tokens": 102963168.0,
      "step": 55800
    },
    {
      "entropy": 5.491789293289185,
      "epoch": 4.688342785129175,
      "grad_norm": 1.21875,
      "learning_rate": 0.0003001384415479779,
      "loss": 5.0176,
      "mean_token_accuracy": 0.21215391159057617,
      "num_tokens": 102972472.0,
      "step": 55805
    },
    {
      "entropy": 5.433323574066162,
      "epoch": 4.68876286494434,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0003001086822714151,
      "loss": 4.85,
      "mean_token_accuracy": 0.220053730905056,
      "num_tokens": 102981776.0,
      "step": 55810
    },
    {
      "entropy": 5.416051578521729,
      "epoch": 4.689182944759504,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0003000789225500647,
      "loss": 4.8793,
      "mean_token_accuracy": 0.21399758905172347,
      "num_tokens": 102991249.0,
      "step": 55815
    },
    {
      "entropy": 5.462193250656128,
      "epoch": 4.689603024574669,
      "grad_norm": 1.1875,
      "learning_rate": 0.00030004916238445434,
      "loss": 4.9376,
      "mean_token_accuracy": 0.2178322806954384,
      "num_tokens": 103000448.0,
      "step": 55820
    },
    {
      "entropy": 5.438028621673584,
      "epoch": 4.690023104389834,
      "grad_norm": 1.140625,
      "learning_rate": 0.00030001940177511085,
      "loss": 4.9026,
      "mean_token_accuracy": 0.21860320270061492,
      "num_tokens": 103009776.0,
      "step": 55825
    },
    {
      "entropy": 5.4876915454864506,
      "epoch": 4.690443184204999,
      "grad_norm": 1.140625,
      "learning_rate": 0.0002999896407225615,
      "loss": 4.8951,
      "mean_token_accuracy": 0.22012779116630554,
      "num_tokens": 103019891.0,
      "step": 55830
    },
    {
      "entropy": 5.399299097061157,
      "epoch": 4.690863264020164,
      "grad_norm": 1.125,
      "learning_rate": 0.0002999598792273336,
      "loss": 4.8857,
      "mean_token_accuracy": 0.22071473598480223,
      "num_tokens": 103028815.0,
      "step": 55835
    },
    {
      "entropy": 5.5085258960723875,
      "epoch": 4.6912833438353285,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0002999301172899543,
      "loss": 4.9534,
      "mean_token_accuracy": 0.21664250940084456,
      "num_tokens": 103037424.0,
      "step": 55840
    },
    {
      "entropy": 5.438290929794311,
      "epoch": 4.691703423650494,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00029990035491095075,
      "loss": 4.8892,
      "mean_token_accuracy": 0.21437720507383345,
      "num_tokens": 103045877.0,
      "step": 55845
    },
    {
      "entropy": 5.402638912200928,
      "epoch": 4.692123503465658,
      "grad_norm": 1.15625,
      "learning_rate": 0.00029987059209085024,
      "loss": 4.8099,
      "mean_token_accuracy": 0.22402907609939576,
      "num_tokens": 103055237.0,
      "step": 55850
    },
    {
      "entropy": 5.398397827148438,
      "epoch": 4.692543583280823,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00029984082883018,
      "loss": 4.9095,
      "mean_token_accuracy": 0.21742500215768815,
      "num_tokens": 103064439.0,
      "step": 55855
    },
    {
      "entropy": 5.416968107223511,
      "epoch": 4.692963663095989,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0002998110651294673,
      "loss": 4.8528,
      "mean_token_accuracy": 0.22322093546390534,
      "num_tokens": 103072961.0,
      "step": 55860
    },
    {
      "entropy": 5.4248076438903805,
      "epoch": 4.693383742911153,
      "grad_norm": 1.171875,
      "learning_rate": 0.00029978130098923933,
      "loss": 4.9143,
      "mean_token_accuracy": 0.21631784588098527,
      "num_tokens": 103081749.0,
      "step": 55865
    },
    {
      "entropy": 5.442339611053467,
      "epoch": 4.693803822726318,
      "grad_norm": 1.140625,
      "learning_rate": 0.00029975153641002334,
      "loss": 4.8879,
      "mean_token_accuracy": 0.22463641613721846,
      "num_tokens": 103090858.0,
      "step": 55870
    },
    {
      "entropy": 5.477501916885376,
      "epoch": 4.6942239025414825,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00029972177139234667,
      "loss": 4.9738,
      "mean_token_accuracy": 0.21431692093610763,
      "num_tokens": 103100773.0,
      "step": 55875
    },
    {
      "entropy": 5.493846464157104,
      "epoch": 4.694643982356648,
      "grad_norm": 1.125,
      "learning_rate": 0.0002996920059367366,
      "loss": 4.9343,
      "mean_token_accuracy": 0.20909872204065322,
      "num_tokens": 103110275.0,
      "step": 55880
    },
    {
      "entropy": 5.376676034927368,
      "epoch": 4.695064062171813,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0002996622400437203,
      "loss": 4.7385,
      "mean_token_accuracy": 0.23481452465057373,
      "num_tokens": 103119953.0,
      "step": 55885
    },
    {
      "entropy": 5.449616622924805,
      "epoch": 4.695484141986977,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00029963247371382515,
      "loss": 4.9308,
      "mean_token_accuracy": 0.2120278611779213,
      "num_tokens": 103129279.0,
      "step": 55890
    },
    {
      "entropy": 5.450786590576172,
      "epoch": 4.6959042218021425,
      "grad_norm": 1.109375,
      "learning_rate": 0.0002996027069475784,
      "loss": 4.8823,
      "mean_token_accuracy": 0.21698072105646132,
      "num_tokens": 103138319.0,
      "step": 55895
    },
    {
      "entropy": 5.422230672836304,
      "epoch": 4.696324301617308,
      "grad_norm": 1.078125,
      "learning_rate": 0.00029957293974550733,
      "loss": 4.912,
      "mean_token_accuracy": 0.21141827702522278,
      "num_tokens": 103146694.0,
      "step": 55900
    },
    {
      "entropy": 5.450074100494385,
      "epoch": 4.696744381432472,
      "grad_norm": 1.140625,
      "learning_rate": 0.0002995431721081393,
      "loss": 4.9045,
      "mean_token_accuracy": 0.21541748940944672,
      "num_tokens": 103156748.0,
      "step": 55905
    },
    {
      "entropy": 5.406975555419922,
      "epoch": 4.697164461247637,
      "grad_norm": 1.078125,
      "learning_rate": 0.00029951340403600165,
      "loss": 4.8282,
      "mean_token_accuracy": 0.22310761511325836,
      "num_tokens": 103166040.0,
      "step": 55910
    },
    {
      "entropy": 5.401574420928955,
      "epoch": 4.697584541062802,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0002994836355296216,
      "loss": 4.8963,
      "mean_token_accuracy": 0.21887552589178086,
      "num_tokens": 103175840.0,
      "step": 55915
    },
    {
      "entropy": 5.38933367729187,
      "epoch": 4.698004620877967,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00029945386658952657,
      "loss": 4.8737,
      "mean_token_accuracy": 0.2307218238711357,
      "num_tokens": 103185242.0,
      "step": 55920
    },
    {
      "entropy": 5.553787517547607,
      "epoch": 4.698424700693131,
      "grad_norm": 1.09375,
      "learning_rate": 0.0002994240972162439,
      "loss": 4.9945,
      "mean_token_accuracy": 0.19946998059749604,
      "num_tokens": 103194443.0,
      "step": 55925
    },
    {
      "entropy": 5.44649567604065,
      "epoch": 4.6988447805082965,
      "grad_norm": 1.2578125,
      "learning_rate": 0.000299394327410301,
      "loss": 4.8856,
      "mean_token_accuracy": 0.22321283221244811,
      "num_tokens": 103202750.0,
      "step": 55930
    },
    {
      "entropy": 5.351248550415039,
      "epoch": 4.699264860323462,
      "grad_norm": 1.171875,
      "learning_rate": 0.00029936455717222507,
      "loss": 4.8518,
      "mean_token_accuracy": 0.21281576305627822,
      "num_tokens": 103211110.0,
      "step": 55935
    },
    {
      "entropy": 5.357051229476928,
      "epoch": 4.699684940138626,
      "grad_norm": 1.15625,
      "learning_rate": 0.00029933478650254354,
      "loss": 4.851,
      "mean_token_accuracy": 0.21882211565971374,
      "num_tokens": 103220233.0,
      "step": 55940
    },
    {
      "entropy": 5.470717668533325,
      "epoch": 4.700105019953791,
      "grad_norm": 1.3125,
      "learning_rate": 0.00029930501540178383,
      "loss": 4.9085,
      "mean_token_accuracy": 0.21059743762016297,
      "num_tokens": 103230254.0,
      "step": 55945
    },
    {
      "entropy": 5.476219034194946,
      "epoch": 4.7005250997689565,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00029927524387047335,
      "loss": 4.8877,
      "mean_token_accuracy": 0.21133818179368974,
      "num_tokens": 103239644.0,
      "step": 55950
    },
    {
      "entropy": 5.39606556892395,
      "epoch": 4.700945179584121,
      "grad_norm": 1.125,
      "learning_rate": 0.0002992454719091394,
      "loss": 4.9815,
      "mean_token_accuracy": 0.21423646062612534,
      "num_tokens": 103249033.0,
      "step": 55955
    },
    {
      "entropy": 5.3696846008300785,
      "epoch": 4.701365259399286,
      "grad_norm": 1.171875,
      "learning_rate": 0.0002992156995183093,
      "loss": 4.8339,
      "mean_token_accuracy": 0.2176203817129135,
      "num_tokens": 103257872.0,
      "step": 55960
    },
    {
      "entropy": 5.435561943054199,
      "epoch": 4.70178533921445,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0002991859266985106,
      "loss": 4.9657,
      "mean_token_accuracy": 0.20584882646799088,
      "num_tokens": 103266920.0,
      "step": 55965
    },
    {
      "entropy": 5.52385139465332,
      "epoch": 4.702205419029616,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0002991561534502707,
      "loss": 4.993,
      "mean_token_accuracy": 0.21167935878038407,
      "num_tokens": 103276006.0,
      "step": 55970
    },
    {
      "entropy": 5.427083349227905,
      "epoch": 4.702625498844781,
      "grad_norm": 1.21875,
      "learning_rate": 0.0002991263797741169,
      "loss": 4.8053,
      "mean_token_accuracy": 0.21609512567520142,
      "num_tokens": 103284757.0,
      "step": 55975
    },
    {
      "entropy": 5.477252054214477,
      "epoch": 4.703045578659945,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00029909660567057684,
      "loss": 5.0338,
      "mean_token_accuracy": 0.20146338790655136,
      "num_tokens": 103295163.0,
      "step": 55980
    },
    {
      "entropy": 5.483339166641235,
      "epoch": 4.7034656584751104,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0002990668311401777,
      "loss": 4.9748,
      "mean_token_accuracy": 0.21267119497060777,
      "num_tokens": 103304150.0,
      "step": 55985
    },
    {
      "entropy": 5.413769292831421,
      "epoch": 4.703885738290275,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00029903705618344704,
      "loss": 4.8282,
      "mean_token_accuracy": 0.2257995918393135,
      "num_tokens": 103312731.0,
      "step": 55990
    },
    {
      "entropy": 5.423356771469116,
      "epoch": 4.70430581810544,
      "grad_norm": 1.125,
      "learning_rate": 0.00029900728080091237,
      "loss": 4.9172,
      "mean_token_accuracy": 0.21648724675178527,
      "num_tokens": 103322253.0,
      "step": 55995
    },
    {
      "entropy": 5.509874105453491,
      "epoch": 4.704725897920605,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00029897750499310107,
      "loss": 4.9515,
      "mean_token_accuracy": 0.21089491695165635,
      "num_tokens": 103331151.0,
      "step": 56000
    },
    {
      "entropy": 5.480200242996216,
      "epoch": 4.70514597773577,
      "grad_norm": 1.125,
      "learning_rate": 0.00029894772876054067,
      "loss": 4.9685,
      "mean_token_accuracy": 0.2091012954711914,
      "num_tokens": 103339996.0,
      "step": 56005
    },
    {
      "entropy": 5.450871372222901,
      "epoch": 4.705566057550935,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00029891795210375846,
      "loss": 4.8847,
      "mean_token_accuracy": 0.21977481693029405,
      "num_tokens": 103349160.0,
      "step": 56010
    },
    {
      "entropy": 5.494722652435303,
      "epoch": 4.7059861373661,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0002988881750232821,
      "loss": 4.9435,
      "mean_token_accuracy": 0.2211378663778305,
      "num_tokens": 103358325.0,
      "step": 56015
    },
    {
      "entropy": 5.505476474761963,
      "epoch": 4.706406217181264,
      "grad_norm": 1.328125,
      "learning_rate": 0.00029885839751963905,
      "loss": 4.8828,
      "mean_token_accuracy": 0.22274219542741774,
      "num_tokens": 103366373.0,
      "step": 56020
    },
    {
      "entropy": 5.420336580276489,
      "epoch": 4.70682629699643,
      "grad_norm": 1.171875,
      "learning_rate": 0.00029882861959335677,
      "loss": 4.8994,
      "mean_token_accuracy": 0.2206429198384285,
      "num_tokens": 103375849.0,
      "step": 56025
    },
    {
      "entropy": 5.4441629409790036,
      "epoch": 4.707246376811594,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00029879884124496276,
      "loss": 5.0202,
      "mean_token_accuracy": 0.20739734172821045,
      "num_tokens": 103385424.0,
      "step": 56030
    },
    {
      "entropy": 5.47379150390625,
      "epoch": 4.707666456626759,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0002987690624749845,
      "loss": 4.9298,
      "mean_token_accuracy": 0.21306507140398026,
      "num_tokens": 103395061.0,
      "step": 56035
    },
    {
      "entropy": 5.505087518692017,
      "epoch": 4.7080865364419235,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00029873928328394953,
      "loss": 4.9074,
      "mean_token_accuracy": 0.21554207503795625,
      "num_tokens": 103403791.0,
      "step": 56040
    },
    {
      "entropy": 5.466453409194946,
      "epoch": 4.708506616257089,
      "grad_norm": 1.28125,
      "learning_rate": 0.0002987095036723854,
      "loss": 4.8941,
      "mean_token_accuracy": 0.21829476058483124,
      "num_tokens": 103412882.0,
      "step": 56045
    },
    {
      "entropy": 5.385464000701904,
      "epoch": 4.708926696072254,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0002986797236408196,
      "loss": 4.8609,
      "mean_token_accuracy": 0.21375044137239457,
      "num_tokens": 103422155.0,
      "step": 56050
    },
    {
      "entropy": 5.496025133132934,
      "epoch": 4.709346775887418,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00029864994318977965,
      "loss": 4.9477,
      "mean_token_accuracy": 0.21699308156967162,
      "num_tokens": 103431471.0,
      "step": 56055
    },
    {
      "entropy": 5.463407516479492,
      "epoch": 4.709766855702584,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0002986201623197933,
      "loss": 4.8842,
      "mean_token_accuracy": 0.2224596694111824,
      "num_tokens": 103441220.0,
      "step": 56060
    },
    {
      "entropy": 5.486581802368164,
      "epoch": 4.710186935517749,
      "grad_norm": 1.09375,
      "learning_rate": 0.0002985903810313878,
      "loss": 4.957,
      "mean_token_accuracy": 0.2101472407579422,
      "num_tokens": 103450798.0,
      "step": 56065
    },
    {
      "entropy": 5.377057123184204,
      "epoch": 4.710607015332913,
      "grad_norm": 1.203125,
      "learning_rate": 0.00029856059932509087,
      "loss": 4.8188,
      "mean_token_accuracy": 0.2249256506562233,
      "num_tokens": 103459227.0,
      "step": 56070
    },
    {
      "entropy": 5.473292350769043,
      "epoch": 4.711027095148078,
      "grad_norm": 1.125,
      "learning_rate": 0.00029853081720143004,
      "loss": 4.9487,
      "mean_token_accuracy": 0.20952025353908538,
      "num_tokens": 103468424.0,
      "step": 56075
    },
    {
      "entropy": 5.467843294143677,
      "epoch": 4.711447174963243,
      "grad_norm": 1.15625,
      "learning_rate": 0.000298501034660933,
      "loss": 4.9807,
      "mean_token_accuracy": 0.208998703956604,
      "num_tokens": 103478239.0,
      "step": 56080
    },
    {
      "entropy": 5.480574035644532,
      "epoch": 4.711867254778408,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00029847125170412713,
      "loss": 4.8876,
      "mean_token_accuracy": 0.2162023663520813,
      "num_tokens": 103487420.0,
      "step": 56085
    },
    {
      "entropy": 5.422438907623291,
      "epoch": 4.712287334593572,
      "grad_norm": 1.0078125,
      "learning_rate": 0.0002984414683315402,
      "loss": 4.8475,
      "mean_token_accuracy": 0.2223459154367447,
      "num_tokens": 103496512.0,
      "step": 56090
    },
    {
      "entropy": 5.416093444824218,
      "epoch": 4.7127074144087375,
      "grad_norm": 1.2734375,
      "learning_rate": 0.00029841168454369967,
      "loss": 4.8483,
      "mean_token_accuracy": 0.21738922148942946,
      "num_tokens": 103504395.0,
      "step": 56095
    },
    {
      "entropy": 5.411365127563476,
      "epoch": 4.713127494223903,
      "grad_norm": 1.140625,
      "learning_rate": 0.0002983819003411332,
      "loss": 4.9563,
      "mean_token_accuracy": 0.21540824472904205,
      "num_tokens": 103513830.0,
      "step": 56100
    },
    {
      "entropy": 5.498131132125854,
      "epoch": 4.713547574039067,
      "grad_norm": 1.203125,
      "learning_rate": 0.00029835211572436845,
      "loss": 4.9604,
      "mean_token_accuracy": 0.21473725885152817,
      "num_tokens": 103521685.0,
      "step": 56105
    },
    {
      "entropy": 5.510942125320435,
      "epoch": 4.713967653854232,
      "grad_norm": 1.21875,
      "learning_rate": 0.0002983223306939329,
      "loss": 4.9398,
      "mean_token_accuracy": 0.21232893466949462,
      "num_tokens": 103530447.0,
      "step": 56110
    },
    {
      "entropy": 5.466752529144287,
      "epoch": 4.714387733669398,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00029829254525035433,
      "loss": 4.9379,
      "mean_token_accuracy": 0.212125663459301,
      "num_tokens": 103538961.0,
      "step": 56115
    },
    {
      "entropy": 5.403384685516357,
      "epoch": 4.714807813484562,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00029826275939416033,
      "loss": 4.899,
      "mean_token_accuracy": 0.2108004316687584,
      "num_tokens": 103548241.0,
      "step": 56120
    },
    {
      "entropy": 5.488331270217896,
      "epoch": 4.715227893299727,
      "grad_norm": 1.140625,
      "learning_rate": 0.0002982329731258785,
      "loss": 5.0069,
      "mean_token_accuracy": 0.21343609243631362,
      "num_tokens": 103557229.0,
      "step": 56125
    },
    {
      "entropy": 5.478964757919312,
      "epoch": 4.7156479731148915,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00029820318644603654,
      "loss": 4.8977,
      "mean_token_accuracy": 0.21437313705682753,
      "num_tokens": 103567545.0,
      "step": 56130
    },
    {
      "entropy": 5.477642393112182,
      "epoch": 4.716068052930057,
      "grad_norm": 1.1640625,
      "learning_rate": 0.000298173399355162,
      "loss": 4.9404,
      "mean_token_accuracy": 0.22028733491897584,
      "num_tokens": 103576060.0,
      "step": 56135
    },
    {
      "entropy": 5.38654465675354,
      "epoch": 4.716488132745222,
      "grad_norm": 1.046875,
      "learning_rate": 0.00029814361185378276,
      "loss": 4.9046,
      "mean_token_accuracy": 0.21742488592863082,
      "num_tokens": 103586191.0,
      "step": 56140
    },
    {
      "entropy": 5.454296875,
      "epoch": 4.716908212560386,
      "grad_norm": 1.078125,
      "learning_rate": 0.0002981138239424263,
      "loss": 4.8801,
      "mean_token_accuracy": 0.2158382534980774,
      "num_tokens": 103595447.0,
      "step": 56145
    },
    {
      "entropy": 5.4290149211883545,
      "epoch": 4.7173282923755515,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00029808403562162035,
      "loss": 4.8827,
      "mean_token_accuracy": 0.22053197622299195,
      "num_tokens": 103605222.0,
      "step": 56150
    },
    {
      "entropy": 5.4151369571685795,
      "epoch": 4.717748372190716,
      "grad_norm": 1.140625,
      "learning_rate": 0.0002980542468918925,
      "loss": 4.9218,
      "mean_token_accuracy": 0.2224985182285309,
      "num_tokens": 103613741.0,
      "step": 56155
    },
    {
      "entropy": 5.398869228363037,
      "epoch": 4.718168452005881,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0002980244577537707,
      "loss": 4.8467,
      "mean_token_accuracy": 0.22214484214782715,
      "num_tokens": 103623399.0,
      "step": 56160
    },
    {
      "entropy": 5.489336395263672,
      "epoch": 4.718588531821046,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0002979946682077824,
      "loss": 4.8775,
      "mean_token_accuracy": 0.2168822169303894,
      "num_tokens": 103632736.0,
      "step": 56165
    },
    {
      "entropy": 5.434019947052002,
      "epoch": 4.719008611636211,
      "grad_norm": 1.265625,
      "learning_rate": 0.0002979648782544554,
      "loss": 4.893,
      "mean_token_accuracy": 0.21375357657670974,
      "num_tokens": 103641017.0,
      "step": 56170
    },
    {
      "entropy": 5.470599508285522,
      "epoch": 4.719428691451376,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0002979350878943174,
      "loss": 4.9311,
      "mean_token_accuracy": 0.21483953893184662,
      "num_tokens": 103649514.0,
      "step": 56175
    },
    {
      "entropy": 5.422376251220703,
      "epoch": 4.719848771266541,
      "grad_norm": 1.0625,
      "learning_rate": 0.00029790529712789613,
      "loss": 4.9406,
      "mean_token_accuracy": 0.21617394536733628,
      "num_tokens": 103659444.0,
      "step": 56180
    },
    {
      "entropy": 5.437886571884155,
      "epoch": 4.7202688510817055,
      "grad_norm": 1.1875,
      "learning_rate": 0.00029787550595571934,
      "loss": 4.9066,
      "mean_token_accuracy": 0.21606556922197342,
      "num_tokens": 103667505.0,
      "step": 56185
    },
    {
      "entropy": 5.417126941680908,
      "epoch": 4.720688930896871,
      "grad_norm": 1.046875,
      "learning_rate": 0.0002978457143783147,
      "loss": 4.9463,
      "mean_token_accuracy": 0.21421572417020798,
      "num_tokens": 103676112.0,
      "step": 56190
    },
    {
      "entropy": 5.581077289581299,
      "epoch": 4.721109010712035,
      "grad_norm": 1.078125,
      "learning_rate": 0.00029781592239620997,
      "loss": 5.0185,
      "mean_token_accuracy": 0.20973774045705795,
      "num_tokens": 103686564.0,
      "step": 56195
    },
    {
      "entropy": 5.516160297393799,
      "epoch": 4.7215290905272,
      "grad_norm": 1.140625,
      "learning_rate": 0.00029778613000993297,
      "loss": 4.8772,
      "mean_token_accuracy": 0.21648478358983994,
      "num_tokens": 103695091.0,
      "step": 56200
    },
    {
      "entropy": 5.4440216541290285,
      "epoch": 4.721949170342365,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00029775633722001145,
      "loss": 4.9627,
      "mean_token_accuracy": 0.207088665664196,
      "num_tokens": 103704820.0,
      "step": 56205
    },
    {
      "entropy": 5.376355314254761,
      "epoch": 4.72236925015753,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0002977265440269731,
      "loss": 4.8412,
      "mean_token_accuracy": 0.22140752375125886,
      "num_tokens": 103714631.0,
      "step": 56210
    },
    {
      "entropy": 5.422517442703247,
      "epoch": 4.722789329972695,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0002976967504313457,
      "loss": 4.9057,
      "mean_token_accuracy": 0.21595777571201324,
      "num_tokens": 103724156.0,
      "step": 56215
    },
    {
      "entropy": 5.521974706649781,
      "epoch": 4.723209409787859,
      "grad_norm": 1.0078125,
      "learning_rate": 0.000297666956433657,
      "loss": 5.0314,
      "mean_token_accuracy": 0.21039752215147017,
      "num_tokens": 103734309.0,
      "step": 56220
    },
    {
      "entropy": 5.4666478633880615,
      "epoch": 4.723629489603025,
      "grad_norm": 1.2734375,
      "learning_rate": 0.000297637162034435,
      "loss": 4.8966,
      "mean_token_accuracy": 0.21656419783830644,
      "num_tokens": 103743538.0,
      "step": 56225
    },
    {
      "entropy": 5.373579406738282,
      "epoch": 4.72404956941819,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0002976073672342072,
      "loss": 4.7794,
      "mean_token_accuracy": 0.2253240540623665,
      "num_tokens": 103753095.0,
      "step": 56230
    },
    {
      "entropy": 5.4596747875213625,
      "epoch": 4.724469649233354,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0002975775720335016,
      "loss": 4.9733,
      "mean_token_accuracy": 0.2147534966468811,
      "num_tokens": 103762238.0,
      "step": 56235
    },
    {
      "entropy": 5.506241083145142,
      "epoch": 4.7248897290485194,
      "grad_norm": 1.140625,
      "learning_rate": 0.0002975477764328459,
      "loss": 4.9623,
      "mean_token_accuracy": 0.21459489762783052,
      "num_tokens": 103771640.0,
      "step": 56240
    },
    {
      "entropy": 5.417604303359985,
      "epoch": 4.725309808863684,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000297517980432768,
      "loss": 4.8773,
      "mean_token_accuracy": 0.21646342873573304,
      "num_tokens": 103779877.0,
      "step": 56245
    },
    {
      "entropy": 5.4428822040557865,
      "epoch": 4.725729888678849,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0002974881840337956,
      "loss": 4.899,
      "mean_token_accuracy": 0.22008232921361923,
      "num_tokens": 103789439.0,
      "step": 56250
    },
    {
      "entropy": 5.446937227249146,
      "epoch": 4.726149968494013,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0002974583872364566,
      "loss": 4.936,
      "mean_token_accuracy": 0.2136861652135849,
      "num_tokens": 103798118.0,
      "step": 56255
    },
    {
      "entropy": 5.499740648269653,
      "epoch": 4.726570048309179,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0002974285900412789,
      "loss": 4.9167,
      "mean_token_accuracy": 0.21224330514669418,
      "num_tokens": 103807573.0,
      "step": 56260
    },
    {
      "entropy": 5.546743440628052,
      "epoch": 4.726990128124344,
      "grad_norm": 1.171875,
      "learning_rate": 0.00029739879244879017,
      "loss": 4.9745,
      "mean_token_accuracy": 0.21156617403030395,
      "num_tokens": 103816219.0,
      "step": 56265
    },
    {
      "entropy": 5.4689953327178955,
      "epoch": 4.727410207939508,
      "grad_norm": 1.0625,
      "learning_rate": 0.0002973689944595184,
      "loss": 4.8925,
      "mean_token_accuracy": 0.21881336122751235,
      "num_tokens": 103825482.0,
      "step": 56270
    },
    {
      "entropy": 5.496847915649414,
      "epoch": 4.727830287754673,
      "grad_norm": 1.15625,
      "learning_rate": 0.00029733919607399144,
      "loss": 5.0302,
      "mean_token_accuracy": 0.19974621534347534,
      "num_tokens": 103834778.0,
      "step": 56275
    },
    {
      "entropy": 5.432019186019898,
      "epoch": 4.728250367569839,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0002973093972927372,
      "loss": 4.9206,
      "mean_token_accuracy": 0.20767449587583542,
      "num_tokens": 103844009.0,
      "step": 56280
    },
    {
      "entropy": 5.442345142364502,
      "epoch": 4.728670447385003,
      "grad_norm": 1.203125,
      "learning_rate": 0.0002972795981162834,
      "loss": 4.8718,
      "mean_token_accuracy": 0.21883940398693086,
      "num_tokens": 103852759.0,
      "step": 56285
    },
    {
      "entropy": 5.501704359054566,
      "epoch": 4.729090527200168,
      "grad_norm": 1.0625,
      "learning_rate": 0.000297249798545158,
      "loss": 4.9809,
      "mean_token_accuracy": 0.21815258711576463,
      "num_tokens": 103862826.0,
      "step": 56290
    },
    {
      "entropy": 5.477046060562134,
      "epoch": 4.7295106070153325,
      "grad_norm": 1.203125,
      "learning_rate": 0.00029721999857988885,
      "loss": 4.9267,
      "mean_token_accuracy": 0.21165675818920135,
      "num_tokens": 103872484.0,
      "step": 56295
    },
    {
      "entropy": 5.524808502197265,
      "epoch": 4.729930686830498,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0002971901982210039,
      "loss": 4.977,
      "mean_token_accuracy": 0.21037774831056594,
      "num_tokens": 103881539.0,
      "step": 56300
    },
    {
      "entropy": 5.391449403762818,
      "epoch": 4.730350766645663,
      "grad_norm": 1.09375,
      "learning_rate": 0.0002971603974690311,
      "loss": 4.8705,
      "mean_token_accuracy": 0.22035386860370637,
      "num_tokens": 103890578.0,
      "step": 56305
    },
    {
      "entropy": 5.442650270462036,
      "epoch": 4.730770846460827,
      "grad_norm": 1.0625,
      "learning_rate": 0.0002971305963244981,
      "loss": 4.9182,
      "mean_token_accuracy": 0.21528006941080094,
      "num_tokens": 103899852.0,
      "step": 56310
    },
    {
      "entropy": 5.450436639785766,
      "epoch": 4.731190926275993,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00029710079478793307,
      "loss": 4.8591,
      "mean_token_accuracy": 0.22430188059806824,
      "num_tokens": 103909470.0,
      "step": 56315
    },
    {
      "entropy": 5.428445672988891,
      "epoch": 4.731611006091157,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00029707099285986385,
      "loss": 4.8488,
      "mean_token_accuracy": 0.21855534017086028,
      "num_tokens": 103918850.0,
      "step": 56320
    },
    {
      "entropy": 5.459426546096802,
      "epoch": 4.732031085906322,
      "grad_norm": 1.109375,
      "learning_rate": 0.00029704119054081826,
      "loss": 4.9846,
      "mean_token_accuracy": 0.21639446914196014,
      "num_tokens": 103928948.0,
      "step": 56325
    },
    {
      "entropy": 5.493505859375,
      "epoch": 4.732451165721487,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00029701138783132437,
      "loss": 4.8987,
      "mean_token_accuracy": 0.2148880571126938,
      "num_tokens": 103938247.0,
      "step": 56330
    },
    {
      "entropy": 5.446559810638428,
      "epoch": 4.732871245536652,
      "grad_norm": 1.046875,
      "learning_rate": 0.0002969815847319101,
      "loss": 4.8613,
      "mean_token_accuracy": 0.22338733971118926,
      "num_tokens": 103947668.0,
      "step": 56335
    },
    {
      "entropy": 5.448043632507324,
      "epoch": 4.733291325351817,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00029695178124310346,
      "loss": 4.9098,
      "mean_token_accuracy": 0.21329996436834336,
      "num_tokens": 103956678.0,
      "step": 56340
    },
    {
      "entropy": 5.4464373111724855,
      "epoch": 4.733711405166982,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00029692197736543225,
      "loss": 4.9725,
      "mean_token_accuracy": 0.21077394038438796,
      "num_tokens": 103966538.0,
      "step": 56345
    },
    {
      "entropy": 5.492903137207032,
      "epoch": 4.7341314849821465,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00029689217309942443,
      "loss": 4.896,
      "mean_token_accuracy": 0.21385421007871627,
      "num_tokens": 103975533.0,
      "step": 56350
    },
    {
      "entropy": 5.327913618087768,
      "epoch": 4.734551564797312,
      "grad_norm": 1.15625,
      "learning_rate": 0.0002968623684456081,
      "loss": 4.7138,
      "mean_token_accuracy": 0.2294302299618721,
      "num_tokens": 103984331.0,
      "step": 56355
    },
    {
      "entropy": 5.342018556594849,
      "epoch": 4.734971644612476,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0002968325634045112,
      "loss": 4.8052,
      "mean_token_accuracy": 0.22811587005853654,
      "num_tokens": 103993781.0,
      "step": 56360
    },
    {
      "entropy": 5.426736211776733,
      "epoch": 4.735391724427641,
      "grad_norm": 1.140625,
      "learning_rate": 0.0002968027579766616,
      "loss": 4.8956,
      "mean_token_accuracy": 0.22415463179349898,
      "num_tokens": 104002769.0,
      "step": 56365
    },
    {
      "entropy": 5.481541585922241,
      "epoch": 4.735811804242806,
      "grad_norm": 1.140625,
      "learning_rate": 0.0002967729521625875,
      "loss": 5.0074,
      "mean_token_accuracy": 0.20723316073417664,
      "num_tokens": 104011910.0,
      "step": 56370
    },
    {
      "entropy": 5.475844955444336,
      "epoch": 4.736231884057971,
      "grad_norm": 1.203125,
      "learning_rate": 0.0002967431459628167,
      "loss": 4.8995,
      "mean_token_accuracy": 0.21734698861837387,
      "num_tokens": 104020110.0,
      "step": 56375
    },
    {
      "entropy": 5.5083396434783936,
      "epoch": 4.736651963873136,
      "grad_norm": 1.0859375,
      "learning_rate": 0.0002967133393778772,
      "loss": 4.9219,
      "mean_token_accuracy": 0.2103212833404541,
      "num_tokens": 104029748.0,
      "step": 56380
    },
    {
      "entropy": 5.548749017715454,
      "epoch": 4.7370720436883005,
      "grad_norm": 1.125,
      "learning_rate": 0.00029668353240829714,
      "loss": 4.9151,
      "mean_token_accuracy": 0.2111541211605072,
      "num_tokens": 104038980.0,
      "step": 56385
    },
    {
      "entropy": 5.436019563674927,
      "epoch": 4.737492123503466,
      "grad_norm": 1.203125,
      "learning_rate": 0.0002966537250546045,
      "loss": 4.9023,
      "mean_token_accuracy": 0.2128668576478958,
      "num_tokens": 104048486.0,
      "step": 56390
    },
    {
      "entropy": 5.362181711196899,
      "epoch": 4.737912203318631,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0002966239173173271,
      "loss": 4.8195,
      "mean_token_accuracy": 0.2285759687423706,
      "num_tokens": 104056312.0,
      "step": 56395
    },
    {
      "entropy": 5.469200086593628,
      "epoch": 4.738332283133795,
      "grad_norm": 1.2890625,
      "learning_rate": 0.00029659410919699337,
      "loss": 4.926,
      "mean_token_accuracy": 0.21043673902750015,
      "num_tokens": 104065560.0,
      "step": 56400
    },
    {
      "entropy": 5.474430704116822,
      "epoch": 4.7387523629489605,
      "grad_norm": 1.1875,
      "learning_rate": 0.0002965643006941309,
      "loss": 4.9574,
      "mean_token_accuracy": 0.21696943789720535,
      "num_tokens": 104074499.0,
      "step": 56405
    },
    {
      "entropy": 5.4884580135345455,
      "epoch": 4.739172442764125,
      "grad_norm": 1.203125,
      "learning_rate": 0.0002965344918092681,
      "loss": 4.9269,
      "mean_token_accuracy": 0.2068771243095398,
      "num_tokens": 104083654.0,
      "step": 56410
    },
    {
      "entropy": 5.454835510253906,
      "epoch": 4.73959252257929,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0002965046825429328,
      "loss": 4.9443,
      "mean_token_accuracy": 0.20714811682701112,
      "num_tokens": 104094070.0,
      "step": 56415
    },
    {
      "entropy": 5.4877687931060795,
      "epoch": 4.740012602394455,
      "grad_norm": 1.21875,
      "learning_rate": 0.0002964748728956532,
      "loss": 4.8643,
      "mean_token_accuracy": 0.224394091963768,
      "num_tokens": 104101856.0,
      "step": 56420
    },
    {
      "entropy": 5.522624492645264,
      "epoch": 4.74043268220962,
      "grad_norm": 1.15625,
      "learning_rate": 0.0002964450628679572,
      "loss": 5.0213,
      "mean_token_accuracy": 0.20785007029771804,
      "num_tokens": 104111539.0,
      "step": 56425
    },
    {
      "entropy": 5.401835632324219,
      "epoch": 4.740852762024785,
      "grad_norm": 1.015625,
      "learning_rate": 0.000296415252460373,
      "loss": 4.8089,
      "mean_token_accuracy": 0.22471234947443008,
      "num_tokens": 104121013.0,
      "step": 56430
    },
    {
      "entropy": 5.285817575454712,
      "epoch": 4.741272841839949,
      "grad_norm": 1.140625,
      "learning_rate": 0.0002963854416734286,
      "loss": 4.7699,
      "mean_token_accuracy": 0.22794381231069566,
      "num_tokens": 104129503.0,
      "step": 56435
    },
    {
      "entropy": 5.421377325057984,
      "epoch": 4.7416929216551145,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00029635563050765216,
      "loss": 4.739,
      "mean_token_accuracy": 0.22839110642671584,
      "num_tokens": 104138188.0,
      "step": 56440
    },
    {
      "entropy": 5.50018801689148,
      "epoch": 4.74211300147028,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0002963258189635717,
      "loss": 5.0219,
      "mean_token_accuracy": 0.20400085747241975,
      "num_tokens": 104147471.0,
      "step": 56445
    },
    {
      "entropy": 5.434904718399048,
      "epoch": 4.742533081285444,
      "grad_norm": 1.171875,
      "learning_rate": 0.0002962960070417153,
      "loss": 4.9437,
      "mean_token_accuracy": 0.21595678776502608,
      "num_tokens": 104155392.0,
      "step": 56450
    },
    {
      "entropy": 5.454890441894531,
      "epoch": 4.742953161100609,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00029626619474261114,
      "loss": 4.9223,
      "mean_token_accuracy": 0.21819672286510466,
      "num_tokens": 104164975.0,
      "step": 56455
    },
    {
      "entropy": 5.423946666717529,
      "epoch": 4.743373240915774,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00029623638206678724,
      "loss": 4.8855,
      "mean_token_accuracy": 0.2194148302078247,
      "num_tokens": 104173389.0,
      "step": 56460
    },
    {
      "entropy": 5.5164789199829105,
      "epoch": 4.743793320730939,
      "grad_norm": 1.15625,
      "learning_rate": 0.0002962065690147718,
      "loss": 5.003,
      "mean_token_accuracy": 0.2069151371717453,
      "num_tokens": 104182639.0,
      "step": 56465
    },
    {
      "entropy": 5.382626390457153,
      "epoch": 4.744213400546104,
      "grad_norm": 1.203125,
      "learning_rate": 0.0002961767555870929,
      "loss": 4.8529,
      "mean_token_accuracy": 0.2183316320180893,
      "num_tokens": 104191150.0,
      "step": 56470
    },
    {
      "entropy": 5.460391330718994,
      "epoch": 4.744633480361268,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00029614694178427866,
      "loss": 4.9424,
      "mean_token_accuracy": 0.21103449612855912,
      "num_tokens": 104201446.0,
      "step": 56475
    },
    {
      "entropy": 5.4845410823822025,
      "epoch": 4.745053560176434,
      "grad_norm": 1.078125,
      "learning_rate": 0.00029611712760685725,
      "loss": 4.9591,
      "mean_token_accuracy": 0.2169318601489067,
      "num_tokens": 104212128.0,
      "step": 56480
    },
    {
      "entropy": 5.48335075378418,
      "epoch": 4.745473639991598,
      "grad_norm": 1.21875,
      "learning_rate": 0.00029608731305535686,
      "loss": 4.9713,
      "mean_token_accuracy": 0.21392590254545213,
      "num_tokens": 104221373.0,
      "step": 56485
    },
    {
      "entropy": 5.491477346420288,
      "epoch": 4.745893719806763,
      "grad_norm": 1.203125,
      "learning_rate": 0.0002960574981303055,
      "loss": 4.908,
      "mean_token_accuracy": 0.21382957845926284,
      "num_tokens": 104230138.0,
      "step": 56490
    },
    {
      "entropy": 5.450140428543091,
      "epoch": 4.7463137996219285,
      "grad_norm": 1.15625,
      "learning_rate": 0.0002960276828322315,
      "loss": 4.9261,
      "mean_token_accuracy": 0.21759217083454133,
      "num_tokens": 104239557.0,
      "step": 56495
    },
    {
      "entropy": 5.409424495697022,
      "epoch": 4.746733879437093,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0002959978671616629,
      "loss": 4.8737,
      "mean_token_accuracy": 0.21848959773778914,
      "num_tokens": 104248538.0,
      "step": 56500
    },
    {
      "entropy": 5.435959100723267,
      "epoch": 4.747153959252258,
      "grad_norm": 1.078125,
      "learning_rate": 0.00029596805111912783,
      "loss": 4.8399,
      "mean_token_accuracy": 0.21683519184589387,
      "num_tokens": 104258163.0,
      "step": 56505
    },
    {
      "entropy": 5.457470893859863,
      "epoch": 4.747574039067423,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00029593823470515455,
      "loss": 4.8763,
      "mean_token_accuracy": 0.21660508066415787,
      "num_tokens": 104266673.0,
      "step": 56510
    },
    {
      "entropy": 5.368091678619384,
      "epoch": 4.747994118882588,
      "grad_norm": 1.171875,
      "learning_rate": 0.00029590841792027125,
      "loss": 4.8782,
      "mean_token_accuracy": 0.21794498562812806,
      "num_tokens": 104277100.0,
      "step": 56515
    },
    {
      "entropy": 5.38762059211731,
      "epoch": 4.748414198697753,
      "grad_norm": 1.0625,
      "learning_rate": 0.00029587860076500606,
      "loss": 4.9255,
      "mean_token_accuracy": 0.21613381505012513,
      "num_tokens": 104286268.0,
      "step": 56520
    },
    {
      "entropy": 5.405721664428711,
      "epoch": 4.748834278512917,
      "grad_norm": 1.125,
      "learning_rate": 0.00029584878323988715,
      "loss": 4.8856,
      "mean_token_accuracy": 0.21956398487091064,
      "num_tokens": 104295047.0,
      "step": 56525
    },
    {
      "entropy": 5.423868227005005,
      "epoch": 4.749254358328082,
      "grad_norm": 1.171875,
      "learning_rate": 0.0002958189653454429,
      "loss": 4.8923,
      "mean_token_accuracy": 0.21361993700265886,
      "num_tokens": 104303481.0,
      "step": 56530
    },
    {
      "entropy": 5.50318922996521,
      "epoch": 4.749674438143247,
      "grad_norm": 1.171875,
      "learning_rate": 0.0002957891470822013,
      "loss": 4.8348,
      "mean_token_accuracy": 0.22101179659366607,
      "num_tokens": 104311700.0,
      "step": 56535
    },
    {
      "entropy": 5.493106079101563,
      "epoch": 4.750094517958412,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00029575932845069073,
      "loss": 4.9025,
      "mean_token_accuracy": 0.2210950016975403,
      "num_tokens": 104320218.0,
      "step": 56540
    },
    {
      "entropy": 5.500916624069214,
      "epoch": 4.750514597773577,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0002957295094514393,
      "loss": 5.0104,
      "mean_token_accuracy": 0.20740748345851898,
      "num_tokens": 104329362.0,
      "step": 56545
    },
    {
      "entropy": 5.356331491470337,
      "epoch": 4.7509346775887416,
      "grad_norm": 1.078125,
      "learning_rate": 0.0002956996900849754,
      "loss": 4.8512,
      "mean_token_accuracy": 0.22273148149251937,
      "num_tokens": 104337933.0,
      "step": 56550
    },
    {
      "entropy": 5.407910633087158,
      "epoch": 4.751354757403907,
      "grad_norm": 1.09375,
      "learning_rate": 0.00029566987035182704,
      "loss": 4.8142,
      "mean_token_accuracy": 0.22646064609289168,
      "num_tokens": 104347418.0,
      "step": 56555
    },
    {
      "entropy": 5.45763201713562,
      "epoch": 4.751774837219072,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0002956400502525226,
      "loss": 4.9238,
      "mean_token_accuracy": 0.2147586464881897,
      "num_tokens": 104355852.0,
      "step": 56560
    },
    {
      "entropy": 5.424603271484375,
      "epoch": 4.752194917034236,
      "grad_norm": 1.171875,
      "learning_rate": 0.0002956102297875903,
      "loss": 4.8974,
      "mean_token_accuracy": 0.2144472137093544,
      "num_tokens": 104365894.0,
      "step": 56565
    },
    {
      "entropy": 5.4497541904449465,
      "epoch": 4.752614996849402,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0002955804089575584,
      "loss": 4.9329,
      "mean_token_accuracy": 0.21763837188482285,
      "num_tokens": 104374953.0,
      "step": 56570
    },
    {
      "entropy": 5.436294603347778,
      "epoch": 4.753035076664566,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00029555058776295517,
      "loss": 4.9217,
      "mean_token_accuracy": 0.22119102030992507,
      "num_tokens": 104384119.0,
      "step": 56575
    },
    {
      "entropy": 5.410362100601196,
      "epoch": 4.753455156479731,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0002955207662043088,
      "loss": 4.8631,
      "mean_token_accuracy": 0.21339945942163469,
      "num_tokens": 104393365.0,
      "step": 56580
    },
    {
      "entropy": 5.4014387130737305,
      "epoch": 4.753875236294896,
      "grad_norm": 1.1875,
      "learning_rate": 0.0002954909442821477,
      "loss": 4.7768,
      "mean_token_accuracy": 0.23232296407222747,
      "num_tokens": 104402147.0,
      "step": 56585
    },
    {
      "entropy": 5.407328844070435,
      "epoch": 4.754295316110061,
      "grad_norm": 1.2265625,
      "learning_rate": 0.00029546112199699997,
      "loss": 4.9032,
      "mean_token_accuracy": 0.21679356396198274,
      "num_tokens": 104410478.0,
      "step": 56590
    },
    {
      "entropy": 5.3128643989562985,
      "epoch": 4.754715395925226,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00029543129934939404,
      "loss": 4.7927,
      "mean_token_accuracy": 0.22658881843090056,
      "num_tokens": 104419208.0,
      "step": 56595
    },
    {
      "entropy": 5.50738754272461,
      "epoch": 4.75513547574039,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0002954014763398582,
      "loss": 4.9071,
      "mean_token_accuracy": 0.21512290686368943,
      "num_tokens": 104427500.0,
      "step": 56600
    },
    {
      "entropy": 5.494671154022217,
      "epoch": 4.7555555555555555,
      "grad_norm": 0.99609375,
      "learning_rate": 0.00029537165296892063,
      "loss": 4.9499,
      "mean_token_accuracy": 0.20439584255218507,
      "num_tokens": 104437833.0,
      "step": 56605
    },
    {
      "entropy": 5.464460277557373,
      "epoch": 4.755975635370721,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00029534182923710977,
      "loss": 4.9305,
      "mean_token_accuracy": 0.21479155570268632,
      "num_tokens": 104446832.0,
      "step": 56610
    },
    {
      "entropy": 5.51143889427185,
      "epoch": 4.756395715185885,
      "grad_norm": 1.125,
      "learning_rate": 0.00029531200514495396,
      "loss": 4.9575,
      "mean_token_accuracy": 0.21348913460969926,
      "num_tokens": 104456337.0,
      "step": 56615
    },
    {
      "entropy": 5.496215200424194,
      "epoch": 4.75681579500105,
      "grad_norm": 1.15625,
      "learning_rate": 0.00029528218069298137,
      "loss": 4.9213,
      "mean_token_accuracy": 0.21530965864658355,
      "num_tokens": 104464990.0,
      "step": 56620
    },
    {
      "entropy": 5.430447101593018,
      "epoch": 4.757235874816216,
      "grad_norm": 1.140625,
      "learning_rate": 0.0002952523558817204,
      "loss": 4.8993,
      "mean_token_accuracy": 0.2230215236544609,
      "num_tokens": 104474159.0,
      "step": 56625
    },
    {
      "entropy": 5.483653354644775,
      "epoch": 4.75765595463138,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00029522253071169935,
      "loss": 4.9075,
      "mean_token_accuracy": 0.21846407800912857,
      "num_tokens": 104482728.0,
      "step": 56630
    },
    {
      "entropy": 5.451675748825073,
      "epoch": 4.758076034446545,
      "grad_norm": 1.171875,
      "learning_rate": 0.0002951927051834466,
      "loss": 4.9155,
      "mean_token_accuracy": 0.21908992528915405,
      "num_tokens": 104492163.0,
      "step": 56635
    },
    {
      "entropy": 5.51920485496521,
      "epoch": 4.7584961142617095,
      "grad_norm": 1.140625,
      "learning_rate": 0.0002951628792974904,
      "loss": 4.9787,
      "mean_token_accuracy": 0.21238133162260056,
      "num_tokens": 104501053.0,
      "step": 56640
    },
    {
      "entropy": 5.448302268981934,
      "epoch": 4.758916194076875,
      "grad_norm": 1.328125,
      "learning_rate": 0.00029513305305435935,
      "loss": 4.9206,
      "mean_token_accuracy": 0.21836133152246476,
      "num_tokens": 104509825.0,
      "step": 56645
    },
    {
      "entropy": 5.454027605056763,
      "epoch": 4.759336273892039,
      "grad_norm": 1.171875,
      "learning_rate": 0.00029510322645458144,
      "loss": 4.9433,
      "mean_token_accuracy": 0.20811188966035843,
      "num_tokens": 104519332.0,
      "step": 56650
    },
    {
      "entropy": 5.4701423168182375,
      "epoch": 4.759756353707204,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00029507339949868535,
      "loss": 4.8834,
      "mean_token_accuracy": 0.21996626853942872,
      "num_tokens": 104527981.0,
      "step": 56655
    },
    {
      "entropy": 5.439636754989624,
      "epoch": 4.7601764335223695,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0002950435721871993,
      "loss": 4.8403,
      "mean_token_accuracy": 0.2212160900235176,
      "num_tokens": 104536700.0,
      "step": 56660
    },
    {
      "entropy": 5.407441806793213,
      "epoch": 4.760596513337534,
      "grad_norm": 1.109375,
      "learning_rate": 0.0002950137445206516,
      "loss": 4.8306,
      "mean_token_accuracy": 0.2154387652873993,
      "num_tokens": 104545458.0,
      "step": 56665
    },
    {
      "entropy": 5.4330309391021725,
      "epoch": 4.761016593152699,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0002949839164995708,
      "loss": 4.8679,
      "mean_token_accuracy": 0.2255717009305954,
      "num_tokens": 104554514.0,
      "step": 56670
    },
    {
      "entropy": 5.354789400100708,
      "epoch": 4.761436672967864,
      "grad_norm": 1.1484375,
      "learning_rate": 0.00029495408812448524,
      "loss": 4.8882,
      "mean_token_accuracy": 0.21558048874139785,
      "num_tokens": 104562805.0,
      "step": 56675
    },
    {
      "entropy": 5.451355028152466,
      "epoch": 4.761856752783029,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0002949242593959232,
      "loss": 4.9255,
      "mean_token_accuracy": 0.20692460983991623,
      "num_tokens": 104571507.0,
      "step": 56680
    },
    {
      "entropy": 5.495059490203857,
      "epoch": 4.762276832598194,
      "grad_norm": 1.171875,
      "learning_rate": 0.00029489443031441325,
      "loss": 4.9424,
      "mean_token_accuracy": 0.21877733170986174,
      "num_tokens": 104581684.0,
      "step": 56685
    },
    {
      "entropy": 5.4523663997650145,
      "epoch": 4.762696912413358,
      "grad_norm": 1.140625,
      "learning_rate": 0.00029486460088048365,
      "loss": 4.8712,
      "mean_token_accuracy": 0.21769497394561768,
      "num_tokens": 104590436.0,
      "step": 56690
    },
    {
      "entropy": 5.554570865631104,
      "epoch": 4.7631169922285235,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00029483477109466295,
      "loss": 4.9909,
      "mean_token_accuracy": 0.20990191400051117,
      "num_tokens": 104600703.0,
      "step": 56695
    },
    {
      "entropy": 5.452081203460693,
      "epoch": 4.763537072043688,
      "grad_norm": 1.171875,
      "learning_rate": 0.00029480494095747943,
      "loss": 4.8559,
      "mean_token_accuracy": 0.21414959132671357,
      "num_tokens": 104609583.0,
      "step": 56700
    },
    {
      "entropy": 5.364914846420288,
      "epoch": 4.763957151858853,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0002947751104694616,
      "loss": 4.8094,
      "mean_token_accuracy": 0.22510809302330018,
      "num_tokens": 104618676.0,
      "step": 56705
    },
    {
      "entropy": 5.327810144424438,
      "epoch": 4.764377231674018,
      "grad_norm": 1.0859375,
      "learning_rate": 0.00029474527963113786,
      "loss": 4.8573,
      "mean_token_accuracy": 0.21853567510843278,
      "num_tokens": 104627837.0,
      "step": 56710
    },
    {
      "entropy": 5.469825077056885,
      "epoch": 4.764797311489183,
      "grad_norm": 1.125,
      "learning_rate": 0.00029471544844303664,
      "loss": 4.9121,
      "mean_token_accuracy": 0.20971738547086716,
      "num_tokens": 104637058.0,
      "step": 56715
    },
    {
      "entropy": 5.462327861785889,
      "epoch": 4.765217391304348,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00029468561690568646,
      "loss": 4.8915,
      "mean_token_accuracy": 0.21128030717372895,
      "num_tokens": 104646189.0,
      "step": 56720
    },
    {
      "entropy": 5.447046136856079,
      "epoch": 4.765637471119513,
      "grad_norm": 1.09375,
      "learning_rate": 0.0002946557850196157,
      "loss": 4.9092,
      "mean_token_accuracy": 0.2193140923976898,
      "num_tokens": 104655823.0,
      "step": 56725
    },
    {
      "entropy": 5.46160569190979,
      "epoch": 4.766057550934677,
      "grad_norm": 1.078125,
      "learning_rate": 0.00029462595278535275,
      "loss": 4.9305,
      "mean_token_accuracy": 0.2077110856771469,
      "num_tokens": 104665929.0,
      "step": 56730
    },
    {
      "entropy": 5.437643051147461,
      "epoch": 4.766477630749843,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0002945961202034262,
      "loss": 4.8563,
      "mean_token_accuracy": 0.2156265288591385,
      "num_tokens": 104674574.0,
      "step": 56735
    },
    {
      "entropy": 5.43435492515564,
      "epoch": 4.766897710565007,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0002945662872743645,
      "loss": 4.9704,
      "mean_token_accuracy": 0.20628281831741332,
      "num_tokens": 104684185.0,
      "step": 56740
    },
    {
      "entropy": 5.5680272579193115,
      "epoch": 4.767317790380172,
      "grad_norm": 1.078125,
      "learning_rate": 0.00029453645399869603,
      "loss": 4.9777,
      "mean_token_accuracy": 0.21306461095809937,
      "num_tokens": 104694681.0,
      "step": 56745
    },
    {
      "entropy": 5.469242238998413,
      "epoch": 4.7677378701953375,
      "grad_norm": 1.1875,
      "learning_rate": 0.0002945066203769494,
      "loss": 4.9217,
      "mean_token_accuracy": 0.21288923174142838,
      "num_tokens": 104703979.0,
      "step": 56750
    },
    {
      "entropy": 5.4044548034667965,
      "epoch": 4.768157950010502,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000294476786409653,
      "loss": 4.8044,
      "mean_token_accuracy": 0.23406236469745637,
      "num_tokens": 104713434.0,
      "step": 56755
    },
    {
      "entropy": 5.406377267837525,
      "epoch": 4.768578029825667,
      "grad_norm": 1.2109375,
      "learning_rate": 0.0002944469520973354,
      "loss": 4.8964,
      "mean_token_accuracy": 0.22004162669181823,
      "num_tokens": 104722310.0,
      "step": 56760
    },
    {
      "entropy": 5.450257158279419,
      "epoch": 4.768998109640831,
      "grad_norm": 1.125,
      "learning_rate": 0.000294417117440525,
      "loss": 4.8817,
      "mean_token_accuracy": 0.21780745387077333,
      "num_tokens": 104731169.0,
      "step": 56765
    },
    {
      "entropy": 5.436895275115967,
      "epoch": 4.769418189455997,
      "grad_norm": 1.171875,
      "learning_rate": 0.0002943872824397504,
      "loss": 4.8877,
      "mean_token_accuracy": 0.21854011416435243,
      "num_tokens": 104741172.0,
      "step": 56770
    },
    {
      "entropy": 5.360093832015991,
      "epoch": 4.769838269271162,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00029435744709554014,
      "loss": 4.846,
      "mean_token_accuracy": 0.21409543305635453,
      "num_tokens": 104750945.0,
      "step": 56775
    },
    {
      "entropy": 5.403798770904541,
      "epoch": 4.770258349086326,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0002943276114084226,
      "loss": 4.8395,
      "mean_token_accuracy": 0.2182799220085144,
      "num_tokens": 104759987.0,
      "step": 56780
    },
    {
      "entropy": 5.483518171310425,
      "epoch": 4.770678428901491,
      "grad_norm": 1.140625,
      "learning_rate": 0.0002942977753789263,
      "loss": 4.9453,
      "mean_token_accuracy": 0.21263316422700881,
      "num_tokens": 104768413.0,
      "step": 56785
    },
    {
      "entropy": 5.336813974380493,
      "epoch": 4.771098508716657,
      "grad_norm": 1.140625,
      "learning_rate": 0.00029426793900758,
      "loss": 4.7422,
      "mean_token_accuracy": 0.22721932530403138,
      "num_tokens": 104777146.0,
      "step": 56790
    },
    {
      "entropy": 5.446147346496582,
      "epoch": 4.771518588531821,
      "grad_norm": 1.09375,
      "learning_rate": 0.000294238102294912,
      "loss": 4.9294,
      "mean_token_accuracy": 0.21016291975975038,
      "num_tokens": 104787157.0,
      "step": 56795
    },
    {
      "entropy": 5.34065432548523,
      "epoch": 4.771938668346986,
      "grad_norm": 1.171875,
      "learning_rate": 0.0002942082652414509,
      "loss": 4.846,
      "mean_token_accuracy": 0.2205512821674347,
      "num_tokens": 104795977.0,
      "step": 56800
    },
    {
      "entropy": 5.471403455734253,
      "epoch": 4.7723587481621506,
      "grad_norm": 1.1953125,
      "learning_rate": 0.0002941784278477253,
      "loss": 4.9324,
      "mean_token_accuracy": 0.2160719871520996,
      "num_tokens": 104806662.0,
      "step": 56805
    },
    {
      "entropy": 5.50420503616333,
      "epoch": 4.772778827977316,
      "grad_norm": 1.140625,
      "learning_rate": 0.0002941485901142637,
      "loss": 4.9347,
      "mean_token_accuracy": 0.21587052941322327,
      "num_tokens": 104815505.0,
      "step": 56810
    },
    {
      "entropy": 5.452780914306641,
      "epoch": 4.77319890779248,
      "grad_norm": 1.09375,
      "learning_rate": 0.00029411875204159475,
      "loss": 4.9072,
      "mean_token_accuracy": 0.22108903676271438,
      "num_tokens": 104825414.0,
      "step": 56815
    },
    {
      "entropy": 5.460911464691162,
      "epoch": 4.773618987607645,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00029408891363024694,
      "loss": 4.9362,
      "mean_token_accuracy": 0.21842827051877975,
      "num_tokens": 104834451.0,
      "step": 56820
    },
    {
      "entropy": 5.4528985023498535,
      "epoch": 4.774039067422811,
      "grad_norm": 1.21875,
      "learning_rate": 0.00029405907488074884,
      "loss": 4.9492,
      "mean_token_accuracy": 0.2098531663417816,
      "num_tokens": 104842762.0,
      "step": 56825
    },
    {
      "entropy": 5.529004430770874,
      "epoch": 4.774459147237975,
      "grad_norm": 1.265625,
      "learning_rate": 0.000294029235793629,
      "loss": 4.9745,
      "mean_token_accuracy": 0.21186746209859847,
      "num_tokens": 104851497.0,
      "step": 56830
    },
    {
      "entropy": 5.356766843795777,
      "epoch": 4.77487922705314,
      "grad_norm": 1.15625,
      "learning_rate": 0.0002939993963694161,
      "loss": 4.8195,
      "mean_token_accuracy": 0.22131786793470382,
      "num_tokens": 104859882.0,
      "step": 56835
    },
    {
      "entropy": 5.406695795059204,
      "epoch": 4.775299306868305,
      "grad_norm": 1.125,
      "learning_rate": 0.0002939695566086387,
      "loss": 4.8329,
      "mean_token_accuracy": 0.22274263203144073,
      "num_tokens": 104868761.0,
      "step": 56840
    },
    {
      "entropy": 5.442414951324463,
      "epoch": 4.77571938668347,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00029393971651182525,
      "loss": 4.8971,
      "mean_token_accuracy": 0.21337178498506545,
      "num_tokens": 104878154.0,
      "step": 56845
    },
    {
      "entropy": 5.4858715534210205,
      "epoch": 4.776139466498635,
      "grad_norm": 1.171875,
      "learning_rate": 0.0002939098760795046,
      "loss": 4.9133,
      "mean_token_accuracy": 0.2200222358107567,
      "num_tokens": 104886928.0,
      "step": 56850
    },
    {
      "entropy": 5.5075092792510985,
      "epoch": 4.776559546313799,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00029388003531220514,
      "loss": 4.9945,
      "mean_token_accuracy": 0.20908512324094772,
      "num_tokens": 104895272.0,
      "step": 56855
    },
    {
      "entropy": 5.391527080535889,
      "epoch": 4.7769796261289645,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0002938501942104557,
      "loss": 4.8568,
      "mean_token_accuracy": 0.2171952024102211,
      "num_tokens": 104905611.0,
      "step": 56860
    },
    {
      "entropy": 5.421516609191895,
      "epoch": 4.77739970594413,
      "grad_norm": 1.109375,
      "learning_rate": 0.00029382035277478457,
      "loss": 4.9024,
      "mean_token_accuracy": 0.21943048536777496,
      "num_tokens": 104914650.0,
      "step": 56865
    },
    {
      "entropy": 5.396213817596435,
      "epoch": 4.777819785759294,
      "grad_norm": 1.171875,
      "learning_rate": 0.00029379051100572075,
      "loss": 4.8263,
      "mean_token_accuracy": 0.22154562771320344,
      "num_tokens": 104923090.0,
      "step": 56870
    },
    {
      "entropy": 5.411079692840576,
      "epoch": 4.778239865574459,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00029376066890379266,
      "loss": 4.8708,
      "mean_token_accuracy": 0.21226796954870225,
      "num_tokens": 104932328.0,
      "step": 56875
    },
    {
      "entropy": 5.420617389678955,
      "epoch": 4.778659945389624,
      "grad_norm": 1.0390625,
      "learning_rate": 0.00029373082646952896,
      "loss": 4.9439,
      "mean_token_accuracy": 0.20970006585121154,
      "num_tokens": 104942832.0,
      "step": 56880
    },
    {
      "entropy": 5.482952070236206,
      "epoch": 4.779080025204789,
      "grad_norm": 1.234375,
      "learning_rate": 0.00029370098370345835,
      "loss": 4.8824,
      "mean_token_accuracy": 0.21232208013534545,
      "num_tokens": 104952309.0,
      "step": 56885
    },
    {
      "entropy": 5.463703536987305,
      "epoch": 4.779500105019954,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0002936711406061095,
      "loss": 4.9251,
      "mean_token_accuracy": 0.21791473180055618,
      "num_tokens": 104961599.0,
      "step": 56890
    },
    {
      "entropy": 5.433923578262329,
      "epoch": 4.7799201848351185,
      "grad_norm": 1.1875,
      "learning_rate": 0.00029364129717801085,
      "loss": 4.913,
      "mean_token_accuracy": 0.2134159252047539,
      "num_tokens": 104970605.0,
      "step": 56895
    },
    {
      "entropy": 5.442230892181397,
      "epoch": 4.780340264650284,
      "grad_norm": 1.1796875,
      "learning_rate": 0.0002936114534196914,
      "loss": 4.9522,
      "mean_token_accuracy": 0.2109784811735153,
      "num_tokens": 104980149.0,
      "step": 56900
    },
    {
      "entropy": 5.418191623687744,
      "epoch": 4.780760344465448,
      "grad_norm": 1.21875,
      "learning_rate": 0.00029358160933167947,
      "loss": 4.8908,
      "mean_token_accuracy": 0.21893905401229857,
      "num_tokens": 104989382.0,
      "step": 56905
    },
    {
      "entropy": 5.4966270446777346,
      "epoch": 4.781180424280613,
      "grad_norm": 1.0625,
      "learning_rate": 0.00029355176491450405,
      "loss": 4.9493,
      "mean_token_accuracy": 0.210775126516819,
      "num_tokens": 104998644.0,
      "step": 56910
    },
    {
      "entropy": 5.510428953170776,
      "epoch": 4.7816005040957785,
      "grad_norm": 1.21875,
      "learning_rate": 0.0002935219201686936,
      "loss": 4.9509,
      "mean_token_accuracy": 0.21454925537109376,
      "num_tokens": 105007847.0,
      "step": 56915
    },
    {
      "entropy": 5.410940408706665,
      "epoch": 4.782020583910943,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0002934920750947769,
      "loss": 4.8385,
      "mean_token_accuracy": 0.21731748878955842,
      "num_tokens": 105016981.0,
      "step": 56920
    },
    {
      "entropy": 5.456410932540893,
      "epoch": 4.782440663726108,
      "grad_norm": 1.2265625,
      "learning_rate": 0.0002934622296932825,
      "loss": 4.9113,
      "mean_token_accuracy": 0.20824247300624849,
      "num_tokens": 105025467.0,
      "step": 56925
    },
    {
      "entropy": 5.455539703369141,
      "epoch": 4.782860743541272,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0002934323839647393,
      "loss": 4.8938,
      "mean_token_accuracy": 0.21086500585079193,
      "num_tokens": 105033727.0,
      "step": 56930
    },
    {
      "entropy": 5.474358081817627,
      "epoch": 4.783280823356438,
      "grad_norm": 1.234375,
      "learning_rate": 0.0002934025379096758,
      "loss": 4.8364,
      "mean_token_accuracy": 0.21970706433057785,
      "num_tokens": 105041928.0,
      "step": 56935
    },
    {
      "entropy": 5.435963439941406,
      "epoch": 4.783700903171603,
      "grad_norm": 1.28125,
      "learning_rate": 0.00029337269152862096,
      "loss": 4.9095,
      "mean_token_accuracy": 0.21234736293554307,
      "num_tokens": 105050905.0,
      "step": 56940
    },
    {
      "entropy": 5.441039085388184,
      "epoch": 4.784120982986767,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00029334284482210326,
      "loss": 4.9123,
      "mean_token_accuracy": 0.20851178616285324,
      "num_tokens": 105060331.0,
      "step": 56945
    },
    {
      "entropy": 5.49249792098999,
      "epoch": 4.7845410628019325,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0002933129977906516,
      "loss": 4.9799,
      "mean_token_accuracy": 0.21598799526691437,
      "num_tokens": 105070220.0,
      "step": 56950
    },
    {
      "entropy": 5.467501878738403,
      "epoch": 4.784961142617098,
      "grad_norm": 1.15625,
      "learning_rate": 0.00029328315043479454,
      "loss": 4.9547,
      "mean_token_accuracy": 0.21600175201892852,
      "num_tokens": 105079250.0,
      "step": 56955
    },
    {
      "entropy": 5.456842708587646,
      "epoch": 4.785381222432262,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0002932533027550609,
      "loss": 4.8922,
      "mean_token_accuracy": 0.21416921764612198,
      "num_tokens": 105088906.0,
      "step": 56960
    },
    {
      "entropy": 5.423558235168457,
      "epoch": 4.785801302247427,
      "grad_norm": 1.265625,
      "learning_rate": 0.0002932234547519794,
      "loss": 4.8643,
      "mean_token_accuracy": 0.22071323096752166,
      "num_tokens": 105097085.0,
      "step": 56965
    },
    {
      "entropy": 5.363241243362427,
      "epoch": 4.786221382062592,
      "grad_norm": 1.203125,
      "learning_rate": 0.0002931936064260788,
      "loss": 4.8044,
      "mean_token_accuracy": 0.23014310896396636,
      "num_tokens": 105105525.0,
      "step": 56970
    },
    {
      "entropy": 5.323844146728516,
      "epoch": 4.786641461877757,
      "grad_norm": 1.15625,
      "learning_rate": 0.00029316375777788784,
      "loss": 4.8143,
      "mean_token_accuracy": 0.2237164556980133,
      "num_tokens": 105114045.0,
      "step": 56975
    },
    {
      "entropy": 5.288132572174073,
      "epoch": 4.787061541692921,
      "grad_norm": 1.203125,
      "learning_rate": 0.00029313390880793527,
      "loss": 4.838,
      "mean_token_accuracy": 0.21963285952806472,
      "num_tokens": 105122925.0,
      "step": 56980
    },
    {
      "entropy": 5.435639142990112,
      "epoch": 4.787481621508086,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0002931040595167498,
      "loss": 4.8912,
      "mean_token_accuracy": 0.21255432963371276,
      "num_tokens": 105132419.0,
      "step": 56985
    },
    {
      "entropy": 5.471941804885864,
      "epoch": 4.787901701323252,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0002930742099048603,
      "loss": 4.9565,
      "mean_token_accuracy": 0.21289271265268325,
      "num_tokens": 105141863.0,
      "step": 56990
    },
    {
      "entropy": 5.527330732345581,
      "epoch": 4.788321781138416,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0002930443599727954,
      "loss": 5.002,
      "mean_token_accuracy": 0.20679498612880706,
      "num_tokens": 105151336.0,
      "step": 56995
    },
    {
      "entropy": 5.448051786422729,
      "epoch": 4.788741860953581,
      "grad_norm": 1.1875,
      "learning_rate": 0.0002930145097210839,
      "loss": 4.8658,
      "mean_token_accuracy": 0.22457612305879593,
      "num_tokens": 105161349.0,
      "step": 57000
    },
    {
      "epoch": 4.788741860953581,
      "eval_entropy": 5.204317933766343,
      "eval_loss": 5.016775131225586,
      "eval_mean_token_accuracy": 0.21898524765682104,
      "eval_num_tokens": 105161349.0,
      "eval_runtime": 27.3773,
      "eval_samples_per_second": 1364.852,
      "eval_steps_per_second": 170.616,
      "step": 57000
    }
  ],
  "logging_steps": 5,
  "max_steps": 119020,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 3000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.53925980650496e+17,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}