SmolLM2-1.7B-16k-SFT-Tulu3-…/trainer_state.json

{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.0,
  "eval_steps": 500,
  "global_step": 14634,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 1.13125,
      "epoch": 0.0013666803334700013,
      "grad_norm": 1.9495389469889812,
      "learning_rate": 1.0227272727272728e-07,
      "loss": 1.2402,
      "mean_token_accuracy": 0.7106922328472137,
      "num_tokens": 1016869.0,
      "step": 10
    },
    {
      "entropy": 1.1265625,
      "epoch": 0.0027333606669400026,
      "grad_norm": 4.538766565592789,
      "learning_rate": 2.1590909090909094e-07,
      "loss": 1.205,
      "mean_token_accuracy": 0.7222905039787293,
      "num_tokens": 1980699.0,
      "step": 20
    },
    {
      "entropy": 1.127734375,
      "epoch": 0.004100041000410004,
      "grad_norm": 1.686785756147079,
      "learning_rate": 3.2954545454545455e-07,
      "loss": 1.2285,
      "mean_token_accuracy": 0.7158001303672791,
      "num_tokens": 2988245.0,
      "step": 30
    },
    {
      "entropy": 1.16328125,
      "epoch": 0.005466721333880005,
      "grad_norm": 4.184714870587692,
      "learning_rate": 4.431818181818182e-07,
      "loss": 1.2537,
      "mean_token_accuracy": 0.7112364292144775,
      "num_tokens": 3975995.0,
      "step": 40
    },
    {
      "entropy": 1.0984375,
      "epoch": 0.006833401667350007,
      "grad_norm": 1.4691166235998743,
      "learning_rate": 5.568181818181818e-07,
      "loss": 1.1871,
      "mean_token_accuracy": 0.7236234426498414,
      "num_tokens": 4978502.0,
      "step": 50
    },
    {
      "entropy": 1.13515625,
      "epoch": 0.008200082000820008,
      "grad_norm": 4.000018599778822,
      "learning_rate": 6.704545454545456e-07,
      "loss": 1.2082,
      "mean_token_accuracy": 0.71672243475914,
      "num_tokens": 6027883.0,
      "step": 60
    },
    {
      "entropy": 1.175,
      "epoch": 0.00956676233429001,
      "grad_norm": 3.2131210491889592,
      "learning_rate": 7.840909090909092e-07,
      "loss": 1.2734,
      "mean_token_accuracy": 0.7065732181072235,
      "num_tokens": 7061996.0,
      "step": 70
    },
    {
      "entropy": 1.17890625,
      "epoch": 0.01093344266776001,
      "grad_norm": 1.094118865840483,
      "learning_rate": 8.977272727272728e-07,
      "loss": 1.2725,
      "mean_token_accuracy": 0.705708646774292,
      "num_tokens": 8084402.0,
      "step": 80
    },
    {
      "entropy": 1.1234375,
      "epoch": 0.012300123001230012,
      "grad_norm": 1.6909947336787763,
      "learning_rate": 1.0113636363636365e-06,
      "loss": 1.2114,
      "mean_token_accuracy": 0.7146535515785217,
      "num_tokens": 9025654.0,
      "step": 90
    },
    {
      "entropy": 1.11953125,
      "epoch": 0.013666803334700014,
      "grad_norm": 1.5345055381775234,
      "learning_rate": 1.125e-06,
      "loss": 1.2148,
      "mean_token_accuracy": 0.71900674700737,
      "num_tokens": 10036395.0,
      "step": 100
    },
    {
      "entropy": 1.11640625,
      "epoch": 0.015033483668170014,
      "grad_norm": 1.047886876373737,
      "learning_rate": 1.2386363636363638e-06,
      "loss": 1.2027,
      "mean_token_accuracy": 0.7185972332954407,
      "num_tokens": 11045728.0,
      "step": 110
    },
    {
      "entropy": 1.117578125,
      "epoch": 0.016400164001640016,
      "grad_norm": 0.8169503689524413,
      "learning_rate": 1.3522727272727273e-06,
      "loss": 1.22,
      "mean_token_accuracy": 0.7163558959960937,
      "num_tokens": 12023582.0,
      "step": 120
    },
    {
      "entropy": 1.09765625,
      "epoch": 0.017766844335110017,
      "grad_norm": 0.7349795567179743,
      "learning_rate": 1.465909090909091e-06,
      "loss": 1.1771,
      "mean_token_accuracy": 0.72285897731781,
      "num_tokens": 13030217.0,
      "step": 130
    },
    {
      "entropy": 1.10703125,
      "epoch": 0.01913352466858002,
      "grad_norm": 0.7589220542893205,
      "learning_rate": 1.5795454545454547e-06,
      "loss": 1.1931,
      "mean_token_accuracy": 0.7209912478923798,
      "num_tokens": 14048615.0,
      "step": 140
    },
    {
      "entropy": 1.115234375,
      "epoch": 0.02050020500205002,
      "grad_norm": 0.650407725299114,
      "learning_rate": 1.6931818181818182e-06,
      "loss": 1.1965,
      "mean_token_accuracy": 0.7212016463279725,
      "num_tokens": 15078495.0,
      "step": 150
    },
    {
      "entropy": 1.10078125,
      "epoch": 0.02186688533552002,
      "grad_norm": 0.757775045677532,
      "learning_rate": 1.8068181818181822e-06,
      "loss": 1.1715,
      "mean_token_accuracy": 0.7241017580032348,
      "num_tokens": 16103047.0,
      "step": 160
    },
    {
      "entropy": 1.13828125,
      "epoch": 0.023233565668990024,
      "grad_norm": 0.9258656033933085,
      "learning_rate": 1.9204545454545457e-06,
      "loss": 1.2057,
      "mean_token_accuracy": 0.7194408655166626,
      "num_tokens": 17028892.0,
      "step": 170
    },
    {
      "entropy": 1.059375,
      "epoch": 0.024600246002460024,
      "grad_norm": 0.935587154867786,
      "learning_rate": 2.034090909090909e-06,
      "loss": 1.1067,
      "mean_token_accuracy": 0.7330943405628204,
      "num_tokens": 18024902.0,
      "step": 180
    },
    {
      "entropy": 1.08125,
      "epoch": 0.025966926335930025,
      "grad_norm": 1.2502370526691116,
      "learning_rate": 2.147727272727273e-06,
      "loss": 1.1196,
      "mean_token_accuracy": 0.7276742994785309,
      "num_tokens": 19080401.0,
      "step": 190
    },
    {
      "entropy": 1.12890625,
      "epoch": 0.02733360666940003,
      "grad_norm": 2.467235057369438,
      "learning_rate": 2.2613636363636366e-06,
      "loss": 1.1713,
      "mean_token_accuracy": 0.7213332772254943,
      "num_tokens": 20026588.0,
      "step": 200
    },
    {
      "entropy": 1.11328125,
      "epoch": 0.02870028700287003,
      "grad_norm": 1.6121700236090102,
      "learning_rate": 2.375e-06,
      "loss": 1.1353,
      "mean_token_accuracy": 0.7224021077156066,
      "num_tokens": 21044783.0,
      "step": 210
    },
    {
      "entropy": 1.11796875,
      "epoch": 0.03006696733634003,
      "grad_norm": 0.5608923988953549,
      "learning_rate": 2.488636363636364e-06,
      "loss": 1.1321,
      "mean_token_accuracy": 0.726032841205597,
      "num_tokens": 22052506.0,
      "step": 220
    },
    {
      "entropy": 1.056640625,
      "epoch": 0.03143364766981003,
      "grad_norm": 0.385128348578093,
      "learning_rate": 2.6022727272727276e-06,
      "loss": 1.0659,
      "mean_token_accuracy": 0.736857008934021,
      "num_tokens": 23069235.0,
      "step": 230
    },
    {
      "entropy": 1.10234375,
      "epoch": 0.03280032800328003,
      "grad_norm": 0.37585256196215644,
      "learning_rate": 2.715909090909091e-06,
      "loss": 1.1063,
      "mean_token_accuracy": 0.7294414877891541,
      "num_tokens": 24079191.0,
      "step": 240
    },
    {
      "entropy": 1.0921875,
      "epoch": 0.034167008336750036,
      "grad_norm": 0.3939513344323477,
      "learning_rate": 2.829545454545455e-06,
      "loss": 1.0977,
      "mean_token_accuracy": 0.7323263347148895,
      "num_tokens": 25079457.0,
      "step": 250
    },
    {
      "entropy": 1.05703125,
      "epoch": 0.03553368867022003,
      "grad_norm": 0.35425987018651744,
      "learning_rate": 2.9431818181818185e-06,
      "loss": 1.0706,
      "mean_token_accuracy": 0.7351391553878784,
      "num_tokens": 26091186.0,
      "step": 260
    },
    {
      "entropy": 1.05546875,
      "epoch": 0.03690036900369004,
      "grad_norm": 0.28952847462225717,
      "learning_rate": 3.056818181818182e-06,
      "loss": 1.0694,
      "mean_token_accuracy": 0.7355351030826569,
      "num_tokens": 27112339.0,
      "step": 270
    },
    {
      "entropy": 1.05390625,
      "epoch": 0.03826704933716004,
      "grad_norm": 0.3648812101176513,
      "learning_rate": 3.1704545454545456e-06,
      "loss": 1.0565,
      "mean_token_accuracy": 0.7377430260181427,
      "num_tokens": 28134048.0,
      "step": 280
    },
    {
      "entropy": 1.07421875,
      "epoch": 0.03963372967063004,
      "grad_norm": 0.3646070409581228,
      "learning_rate": 3.2840909090909095e-06,
      "loss": 1.0762,
      "mean_token_accuracy": 0.7346611499786377,
      "num_tokens": 29136473.0,
      "step": 290
    },
    {
      "entropy": 1.052734375,
      "epoch": 0.04100041000410004,
      "grad_norm": 0.3102692297020541,
      "learning_rate": 3.397727272727273e-06,
      "loss": 1.0679,
      "mean_token_accuracy": 0.7353838622570038,
      "num_tokens": 30137323.0,
      "step": 300
    },
    {
      "entropy": 1.083984375,
      "epoch": 0.042367090337570044,
      "grad_norm": 0.3356932600269341,
      "learning_rate": 3.5113636363636365e-06,
      "loss": 1.088,
      "mean_token_accuracy": 0.7342105329036712,
      "num_tokens": 31163454.0,
      "step": 310
    },
    {
      "entropy": 1.0609375,
      "epoch": 0.04373377067104004,
      "grad_norm": 0.3159040332236382,
      "learning_rate": 3.625e-06,
      "loss": 1.0595,
      "mean_token_accuracy": 0.7356651127338409,
      "num_tokens": 32141812.0,
      "step": 320
    },
    {
      "entropy": 1.134375,
      "epoch": 0.045100451004510045,
      "grad_norm": 0.34550865393140967,
      "learning_rate": 3.7386363636363635e-06,
      "loss": 1.1311,
      "mean_token_accuracy": 0.7257867276668548,
      "num_tokens": 33126442.0,
      "step": 330
    },
    {
      "entropy": 1.02265625,
      "epoch": 0.04646713133798005,
      "grad_norm": 0.34234027653771937,
      "learning_rate": 3.852272727272728e-06,
      "loss": 1.0236,
      "mean_token_accuracy": 0.745023512840271,
      "num_tokens": 34104354.0,
      "step": 340
    },
    {
      "entropy": 1.0,
      "epoch": 0.047833811671450045,
      "grad_norm": 0.2807709414821645,
      "learning_rate": 3.965909090909091e-06,
      "loss": 0.9975,
      "mean_token_accuracy": 0.7489314913749695,
      "num_tokens": 35132692.0,
      "step": 350
    },
    {
      "entropy": 1.05703125,
      "epoch": 0.04920049200492005,
      "grad_norm": 0.27713977853040644,
      "learning_rate": 4.079545454545455e-06,
      "loss": 1.058,
      "mean_token_accuracy": 0.7355659425258636,
      "num_tokens": 36158630.0,
      "step": 360
    },
    {
      "entropy": 1.0828125,
      "epoch": 0.05056717233839005,
      "grad_norm": 0.3609676834875762,
      "learning_rate": 4.193181818181819e-06,
      "loss": 1.0784,
      "mean_token_accuracy": 0.7343103647232055,
      "num_tokens": 37163234.0,
      "step": 370
    },
    {
      "entropy": 1.088671875,
      "epoch": 0.05193385267186005,
      "grad_norm": 0.35438973345568264,
      "learning_rate": 4.306818181818182e-06,
      "loss": 1.0931,
      "mean_token_accuracy": 0.7309023380279541,
      "num_tokens": 38146361.0,
      "step": 380
    },
    {
      "entropy": 1.0203125,
      "epoch": 0.05330053300533005,
      "grad_norm": 0.32948047737694824,
      "learning_rate": 4.420454545454546e-06,
      "loss": 1.0308,
      "mean_token_accuracy": 0.7417401671409607,
      "num_tokens": 39174804.0,
      "step": 390
    },
    {
      "entropy": 1.0203125,
      "epoch": 0.05466721333880006,
      "grad_norm": 0.30479305141709734,
      "learning_rate": 4.53409090909091e-06,
      "loss": 1.0108,
      "mean_token_accuracy": 0.7484755516052246,
      "num_tokens": 40139777.0,
      "step": 400
    },
    {
      "entropy": 1.08515625,
      "epoch": 0.05603389367227005,
      "grad_norm": 0.30837396096965086,
      "learning_rate": 4.647727272727273e-06,
      "loss": 1.0948,
      "mean_token_accuracy": 0.7294305622577667,
      "num_tokens": 41114574.0,
      "step": 410
    },
    {
      "entropy": 1.047265625,
      "epoch": 0.05740057400574006,
      "grad_norm": 0.29714123798962394,
      "learning_rate": 4.761363636363637e-06,
      "loss": 1.0614,
      "mean_token_accuracy": 0.7380602419376373,
      "num_tokens": 42124866.0,
      "step": 420
    },
    {
      "entropy": 1.007421875,
      "epoch": 0.05876725433921006,
      "grad_norm": 0.3390229065663482,
      "learning_rate": 4.875e-06,
      "loss": 1.0073,
      "mean_token_accuracy": 0.7474483489990235,
      "num_tokens": 43150980.0,
      "step": 430
    },
    {
      "entropy": 1.03203125,
      "epoch": 0.06013393467268006,
      "grad_norm": 0.2672228665651766,
      "learning_rate": 4.988636363636364e-06,
      "loss": 1.0379,
      "mean_token_accuracy": 0.7414930284023284,
      "num_tokens": 44191349.0,
      "step": 440
    },
    {
      "entropy": 1.07421875,
      "epoch": 0.06150061500615006,
      "grad_norm": 0.29133267007180624,
      "learning_rate": 4.996829646329435e-06,
      "loss": 1.0648,
      "mean_token_accuracy": 0.7356961250305176,
      "num_tokens": 45193679.0,
      "step": 450
    },
    {
      "entropy": 1.10078125,
      "epoch": 0.06286729533962006,
      "grad_norm": 0.2776896328423411,
      "learning_rate": 4.993307031139919e-06,
      "loss": 1.1022,
      "mean_token_accuracy": 0.731049120426178,
      "num_tokens": 46212953.0,
      "step": 460
    },
    {
      "entropy": 1.055078125,
      "epoch": 0.06423397567309007,
      "grad_norm": 0.25655467927721415,
      "learning_rate": 4.989784415950402e-06,
      "loss": 1.0551,
      "mean_token_accuracy": 0.737435495853424,
      "num_tokens": 47223409.0,
      "step": 470
    },
    {
      "entropy": 1.097265625,
      "epoch": 0.06560065600656007,
      "grad_norm": 0.3046286171973282,
      "learning_rate": 4.986261800760885e-06,
      "loss": 1.103,
      "mean_token_accuracy": 0.7300431311130524,
      "num_tokens": 48219206.0,
      "step": 480
    },
    {
      "entropy": 1.033984375,
      "epoch": 0.06696733634003006,
      "grad_norm": 0.26979911530204503,
      "learning_rate": 4.9827391855713685e-06,
      "loss": 1.038,
      "mean_token_accuracy": 0.7434206485748291,
      "num_tokens": 49254735.0,
      "step": 490
    },
    {
      "entropy": 1.05234375,
      "epoch": 0.06833401667350007,
      "grad_norm": 0.28419721940460363,
      "learning_rate": 4.979216570381852e-06,
      "loss": 1.0443,
      "mean_token_accuracy": 0.7396148085594177,
      "num_tokens": 50255750.0,
      "step": 500
    },
    {
      "entropy": 1.051953125,
      "epoch": 0.06970069700697007,
      "grad_norm": 0.24833032082540474,
      "learning_rate": 4.975693955192335e-06,
      "loss": 1.0587,
      "mean_token_accuracy": 0.7354665577411652,
      "num_tokens": 51239612.0,
      "step": 510
    },
    {
      "entropy": 1.065625,
      "epoch": 0.07106737734044007,
      "grad_norm": 0.27362202543095027,
      "learning_rate": 4.972171340002819e-06,
      "loss": 1.0668,
      "mean_token_accuracy": 0.7370956897735595,
      "num_tokens": 52276744.0,
      "step": 520
    },
    {
      "entropy": 1.071484375,
      "epoch": 0.07243405767391008,
      "grad_norm": 0.2813695086899428,
      "learning_rate": 4.968648724813302e-06,
      "loss": 1.0746,
      "mean_token_accuracy": 0.7331749379634858,
      "num_tokens": 53273673.0,
      "step": 530
    },
    {
      "entropy": 1.0453125,
      "epoch": 0.07380073800738007,
      "grad_norm": 0.27186261860281713,
      "learning_rate": 4.965126109623785e-06,
      "loss": 1.0479,
      "mean_token_accuracy": 0.7402228951454163,
      "num_tokens": 54252824.0,
      "step": 540
    },
    {
      "entropy": 1.059765625,
      "epoch": 0.07516741834085007,
      "grad_norm": 0.2633144925827252,
      "learning_rate": 4.961603494434268e-06,
      "loss": 1.0678,
      "mean_token_accuracy": 0.7362380862236023,
      "num_tokens": 55242317.0,
      "step": 550
    },
    {
      "entropy": 1.025,
      "epoch": 0.07653409867432008,
      "grad_norm": 0.2604082615558641,
      "learning_rate": 4.958080879244752e-06,
      "loss": 1.0284,
      "mean_token_accuracy": 0.7427195072174072,
      "num_tokens": 56262198.0,
      "step": 560
    },
    {
      "entropy": 1.008984375,
      "epoch": 0.07790077900779008,
      "grad_norm": 0.29684647981929835,
      "learning_rate": 4.954558264055234e-06,
      "loss": 1.0182,
      "mean_token_accuracy": 0.7434635281562805,
      "num_tokens": 57224893.0,
      "step": 570
    },
    {
      "entropy": 1.02109375,
      "epoch": 0.07926745934126007,
      "grad_norm": 0.29172566468882677,
      "learning_rate": 4.951035648865719e-06,
      "loss": 1.0119,
      "mean_token_accuracy": 0.7470383584499359,
      "num_tokens": 58192939.0,
      "step": 580
    },
    {
      "entropy": 1.024609375,
      "epoch": 0.08063413967473008,
      "grad_norm": 0.2602387030066158,
      "learning_rate": 4.9475130336762015e-06,
      "loss": 1.0326,
      "mean_token_accuracy": 0.7419675290584564,
      "num_tokens": 59173681.0,
      "step": 590
    },
    {
      "entropy": 1.06015625,
      "epoch": 0.08200082000820008,
      "grad_norm": 0.2823132165329672,
      "learning_rate": 4.943990418486685e-06,
      "loss": 1.0561,
      "mean_token_accuracy": 0.7353540003299713,
      "num_tokens": 60217834.0,
      "step": 600
    },
    {
      "entropy": 1.0234375,
      "epoch": 0.08336750034167008,
      "grad_norm": 0.2617824102857062,
      "learning_rate": 4.9404678032971685e-06,
      "loss": 1.0263,
      "mean_token_accuracy": 0.7448737859725952,
      "num_tokens": 61203226.0,
      "step": 610
    },
    {
      "entropy": 1.0109375,
      "epoch": 0.08473418067514009,
      "grad_norm": 0.2568463165764274,
      "learning_rate": 4.936945188107651e-06,
      "loss": 1.0226,
      "mean_token_accuracy": 0.7460378646850586,
      "num_tokens": 62218471.0,
      "step": 620
    },
    {
      "entropy": 0.980859375,
      "epoch": 0.08610086100861009,
      "grad_norm": 0.2613066897631341,
      "learning_rate": 4.933422572918135e-06,
      "loss": 0.9772,
      "mean_token_accuracy": 0.7537305951118469,
      "num_tokens": 63196352.0,
      "step": 630
    },
    {
      "entropy": 1.00234375,
      "epoch": 0.08746754134208008,
      "grad_norm": 0.2539728279441741,
      "learning_rate": 4.929899957728618e-06,
      "loss": 0.9967,
      "mean_token_accuracy": 0.7484899282455444,
      "num_tokens": 64213947.0,
      "step": 640
    },
    {
      "entropy": 1.019140625,
      "epoch": 0.08883422167555009,
      "grad_norm": 0.27724522663671614,
      "learning_rate": 4.926377342539102e-06,
      "loss": 1.0099,
      "mean_token_accuracy": 0.7465978503227234,
      "num_tokens": 65212813.0,
      "step": 650
    },
    {
      "entropy": 0.996875,
      "epoch": 0.09020090200902009,
      "grad_norm": 0.27809954551665594,
      "learning_rate": 4.922854727349585e-06,
      "loss": 0.9927,
      "mean_token_accuracy": 0.7506733000278473,
      "num_tokens": 66207188.0,
      "step": 660
    },
    {
      "entropy": 1.034765625,
      "epoch": 0.09156758234249009,
      "grad_norm": 0.25013073863025104,
      "learning_rate": 4.919332112160068e-06,
      "loss": 1.0352,
      "mean_token_accuracy": 0.7428169250488281,
      "num_tokens": 67233532.0,
      "step": 670
    },
    {
      "entropy": 1.007421875,
      "epoch": 0.0929342626759601,
      "grad_norm": 0.25359630775974035,
      "learning_rate": 4.915809496970551e-06,
      "loss": 1.0079,
      "mean_token_accuracy": 0.7470159530639648,
      "num_tokens": 68263201.0,
      "step": 680
    },
    {
      "entropy": 1.07578125,
      "epoch": 0.0943009430094301,
      "grad_norm": 0.24973078239335395,
      "learning_rate": 4.912286881781035e-06,
      "loss": 1.0913,
      "mean_token_accuracy": 0.7302507102489472,
      "num_tokens": 69260237.0,
      "step": 690
    },
    {
      "entropy": 1.00703125,
      "epoch": 0.09566762334290009,
      "grad_norm": 0.27384786428855373,
      "learning_rate": 4.908764266591518e-06,
      "loss": 1.0056,
      "mean_token_accuracy": 0.7470378041267395,
      "num_tokens": 70257011.0,
      "step": 700
    },
    {
      "entropy": 1.0375,
      "epoch": 0.0970343036763701,
      "grad_norm": 0.2685012717070764,
      "learning_rate": 4.9052416514020015e-06,
      "loss": 1.0343,
      "mean_token_accuracy": 0.7428263485431671,
      "num_tokens": 71242071.0,
      "step": 710
    },
    {
      "entropy": 0.978125,
      "epoch": 0.0984009840098401,
      "grad_norm": 0.2578284870128373,
      "learning_rate": 4.901719036212484e-06,
      "loss": 0.9837,
      "mean_token_accuracy": 0.7504532992839813,
      "num_tokens": 72300678.0,
      "step": 720
    },
    {
      "entropy": 1.005078125,
      "epoch": 0.0997676643433101,
      "grad_norm": 0.2654889130044561,
      "learning_rate": 4.898196421022968e-06,
      "loss": 1.0088,
      "mean_token_accuracy": 0.7486326515674591,
      "num_tokens": 73295969.0,
      "step": 730
    },
    {
      "entropy": 0.99609375,
      "epoch": 0.1011343446767801,
      "grad_norm": 0.2907754303516493,
      "learning_rate": 4.894673805833451e-06,
      "loss": 0.9861,
      "mean_token_accuracy": 0.751577228307724,
      "num_tokens": 74224367.0,
      "step": 740
    },
    {
      "entropy": 1.0125,
      "epoch": 0.1025010250102501,
      "grad_norm": 0.26855850876018655,
      "learning_rate": 4.891151190643935e-06,
      "loss": 1.0138,
      "mean_token_accuracy": 0.7459072291851043,
      "num_tokens": 75220927.0,
      "step": 750
    },
    {
      "entropy": 1.012109375,
      "epoch": 0.1038677053437201,
      "grad_norm": 0.23361207859211536,
      "learning_rate": 4.8876285754544175e-06,
      "loss": 1.0106,
      "mean_token_accuracy": 0.746411120891571,
      "num_tokens": 76264459.0,
      "step": 760
    },
    {
      "entropy": 1.062890625,
      "epoch": 0.10523438567719011,
      "grad_norm": 0.27967105833960476,
      "learning_rate": 4.884105960264901e-06,
      "loss": 1.0665,
      "mean_token_accuracy": 0.7362807095050812,
      "num_tokens": 77237576.0,
      "step": 770
    },
    {
      "entropy": 1.010546875,
      "epoch": 0.1066010660106601,
      "grad_norm": 0.2445312158587404,
      "learning_rate": 4.880583345075385e-06,
      "loss": 1.0015,
      "mean_token_accuracy": 0.7483099639415741,
      "num_tokens": 78233874.0,
      "step": 780
    },
    {
      "entropy": 0.984375,
      "epoch": 0.1079677463441301,
      "grad_norm": 0.24215820905640925,
      "learning_rate": 4.877060729885867e-06,
      "loss": 0.9876,
      "mean_token_accuracy": 0.7495388865470887,
      "num_tokens": 79226628.0,
      "step": 790
    },
    {
      "entropy": 1.001953125,
      "epoch": 0.10933442667760011,
      "grad_norm": 0.26198483936579425,
      "learning_rate": 4.873538114696351e-06,
      "loss": 1.0029,
      "mean_token_accuracy": 0.7482348024845124,
      "num_tokens": 80216871.0,
      "step": 800
    },
    {
      "entropy": 1.009375,
      "epoch": 0.11070110701107011,
      "grad_norm": 0.25992212665183373,
      "learning_rate": 4.870015499506834e-06,
      "loss": 1.0128,
      "mean_token_accuracy": 0.7471559643745422,
      "num_tokens": 81209897.0,
      "step": 810
    },
    {
      "entropy": 1.000390625,
      "epoch": 0.1120677873445401,
      "grad_norm": 0.2262791032332171,
      "learning_rate": 4.866492884317318e-06,
      "loss": 0.9947,
      "mean_token_accuracy": 0.7477839171886445,
      "num_tokens": 82222143.0,
      "step": 820
    },
    {
      "entropy": 0.98984375,
      "epoch": 0.11343446767801012,
      "grad_norm": 0.2521325895108888,
      "learning_rate": 4.862970269127801e-06,
      "loss": 1.0003,
      "mean_token_accuracy": 0.7514794886112213,
      "num_tokens": 83210601.0,
      "step": 830
    },
    {
      "entropy": 1.019140625,
      "epoch": 0.11480114801148011,
      "grad_norm": 0.2510030255722207,
      "learning_rate": 4.859447653938284e-06,
      "loss": 1.0161,
      "mean_token_accuracy": 0.7453716933727265,
      "num_tokens": 84189098.0,
      "step": 840
    },
    {
      "entropy": 1.01171875,
      "epoch": 0.11616782834495011,
      "grad_norm": 0.23416080408578893,
      "learning_rate": 4.855925038748768e-06,
      "loss": 1.0183,
      "mean_token_accuracy": 0.7462783515453338,
      "num_tokens": 85278005.0,
      "step": 850
    },
    {
      "entropy": 1.009375,
      "epoch": 0.11753450867842012,
      "grad_norm": 0.2551105677381543,
      "learning_rate": 4.852402423559251e-06,
      "loss": 1.0117,
      "mean_token_accuracy": 0.7472920536994934,
      "num_tokens": 86314347.0,
      "step": 860
    },
    {
      "entropy": 1.04375,
      "epoch": 0.11890118901189012,
      "grad_norm": 0.24049350132011862,
      "learning_rate": 4.848879808369734e-06,
      "loss": 1.0539,
      "mean_token_accuracy": 0.7388683319091797,
      "num_tokens": 87295027.0,
      "step": 870
    },
    {
      "entropy": 1.000390625,
      "epoch": 0.12026786934536011,
      "grad_norm": 0.22870571818887428,
      "learning_rate": 4.8453571931802175e-06,
      "loss": 0.9868,
      "mean_token_accuracy": 0.7528190374374389,
      "num_tokens": 88315349.0,
      "step": 880
    },
    {
      "entropy": 0.96640625,
      "epoch": 0.12163454967883013,
      "grad_norm": 0.23547076671800268,
      "learning_rate": 4.8418345779907e-06,
      "loss": 0.9688,
      "mean_token_accuracy": 0.7555304348468781,
      "num_tokens": 89285381.0,
      "step": 890
    },
    {
      "entropy": 1.04375,
      "epoch": 0.12300123001230012,
      "grad_norm": 0.29085892093979415,
      "learning_rate": 4.838311962801184e-06,
      "loss": 1.0493,
      "mean_token_accuracy": 0.7409503400325775,
      "num_tokens": 90306461.0,
      "step": 900
    },
    {
      "entropy": 1.008984375,
      "epoch": 0.12436791034577012,
      "grad_norm": 0.2757392401719241,
      "learning_rate": 4.834789347611667e-06,
      "loss": 1.0095,
      "mean_token_accuracy": 0.7469569742679596,
      "num_tokens": 91255724.0,
      "step": 910
    },
    {
      "entropy": 1.01328125,
      "epoch": 0.12573459067924012,
      "grad_norm": 0.25226691465573,
      "learning_rate": 4.831266732422151e-06,
      "loss": 1.0065,
      "mean_token_accuracy": 0.7480573415756225,
      "num_tokens": 92220294.0,
      "step": 920
    },
    {
      "entropy": 0.9484375,
      "epoch": 0.12710127101271013,
      "grad_norm": 0.2663810337890362,
      "learning_rate": 4.827744117232634e-06,
      "loss": 0.9404,
      "mean_token_accuracy": 0.7606441915035248,
      "num_tokens": 93189250.0,
      "step": 930
    },
    {
      "entropy": 0.998046875,
      "epoch": 0.12846795134618014,
      "grad_norm": 0.27749908937020973,
      "learning_rate": 4.824221502043117e-06,
      "loss": 0.9866,
      "mean_token_accuracy": 0.752173125743866,
      "num_tokens": 94155449.0,
      "step": 940
    },
    {
      "entropy": 1.0109375,
      "epoch": 0.12983463167965012,
      "grad_norm": 0.2407899952951397,
      "learning_rate": 4.820698886853601e-06,
      "loss": 1.0109,
      "mean_token_accuracy": 0.7443247020244599,
      "num_tokens": 95222208.0,
      "step": 950
    },
    {
      "entropy": 1.02109375,
      "epoch": 0.13120131201312013,
      "grad_norm": 0.24902410004059575,
      "learning_rate": 4.817176271664084e-06,
      "loss": 1.0169,
      "mean_token_accuracy": 0.7447486221790314,
      "num_tokens": 96240732.0,
      "step": 960
    },
    {
      "entropy": 0.976953125,
      "epoch": 0.13256799234659014,
      "grad_norm": 0.23842060270256377,
      "learning_rate": 4.813653656474567e-06,
      "loss": 0.9677,
      "mean_token_accuracy": 0.75448237657547,
      "num_tokens": 97189622.0,
      "step": 970
    },
    {
      "entropy": 1.002734375,
      "epoch": 0.13393467268006012,
      "grad_norm": 0.2875077834423781,
      "learning_rate": 4.8101310412850505e-06,
      "loss": 1.0092,
      "mean_token_accuracy": 0.7449881792068481,
      "num_tokens": 98193657.0,
      "step": 980
    },
    {
      "entropy": 0.9765625,
      "epoch": 0.13530135301353013,
      "grad_norm": 0.2544167819507689,
      "learning_rate": 4.806608426095534e-06,
      "loss": 0.9865,
      "mean_token_accuracy": 0.7523483514785767,
      "num_tokens": 99244929.0,
      "step": 990
    },
    {
      "entropy": 0.9734375,
      "epoch": 0.13666803334700015,
      "grad_norm": 0.2311093738642631,
      "learning_rate": 4.803085810906017e-06,
      "loss": 0.9646,
      "mean_token_accuracy": 0.7565592467784882,
      "num_tokens": 100253866.0,
      "step": 1000
    },
    {
      "entropy": 1.039453125,
      "epoch": 0.13803471368047013,
      "grad_norm": 0.22511013962369655,
      "learning_rate": 4.7995631957165e-06,
      "loss": 1.0421,
      "mean_token_accuracy": 0.7389210760593414,
      "num_tokens": 101284311.0,
      "step": 1010
    },
    {
      "entropy": 0.96328125,
      "epoch": 0.13940139401394014,
      "grad_norm": 0.2623751749898652,
      "learning_rate": 4.796040580526984e-06,
      "loss": 0.9628,
      "mean_token_accuracy": 0.7564334273338318,
      "num_tokens": 102289462.0,
      "step": 1020
    },
    {
      "entropy": 0.987890625,
      "epoch": 0.14076807434741015,
      "grad_norm": 0.2976731739183992,
      "learning_rate": 4.792517965337467e-06,
      "loss": 0.9879,
      "mean_token_accuracy": 0.7508371770381927,
      "num_tokens": 103255021.0,
      "step": 1030
    },
    {
      "entropy": 0.969921875,
      "epoch": 0.14213475468088013,
      "grad_norm": 0.2578796345815007,
      "learning_rate": 4.78899535014795e-06,
      "loss": 0.9785,
      "mean_token_accuracy": 0.753816443681717,
      "num_tokens": 104261992.0,
      "step": 1040
    },
    {
      "entropy": 0.97890625,
      "epoch": 0.14350143501435014,
      "grad_norm": 0.22741016562659877,
      "learning_rate": 4.785472734958434e-06,
      "loss": 0.9697,
      "mean_token_accuracy": 0.7536067485809326,
      "num_tokens": 105292243.0,
      "step": 1050
    },
    {
      "entropy": 0.99453125,
      "epoch": 0.14486811534782015,
      "grad_norm": 0.23541300854230723,
      "learning_rate": 4.781950119768916e-06,
      "loss": 1.0012,
      "mean_token_accuracy": 0.747140520811081,
      "num_tokens": 106305001.0,
      "step": 1060
    },
    {
      "entropy": 0.96875,
      "epoch": 0.14623479568129014,
      "grad_norm": 0.23013747522704386,
      "learning_rate": 4.778427504579401e-06,
      "loss": 0.9526,
      "mean_token_accuracy": 0.7577884495258331,
      "num_tokens": 107316342.0,
      "step": 1070
    },
    {
      "entropy": 0.94140625,
      "epoch": 0.14760147601476015,
      "grad_norm": 0.21631240964304407,
      "learning_rate": 4.774904889389883e-06,
      "loss": 0.9395,
      "mean_token_accuracy": 0.7604826927185059,
      "num_tokens": 108361044.0,
      "step": 1080
    },
    {
      "entropy": 0.98203125,
      "epoch": 0.14896815634823016,
      "grad_norm": 0.26413421863056313,
      "learning_rate": 4.771382274200367e-06,
      "loss": 0.9854,
      "mean_token_accuracy": 0.7524298429489136,
      "num_tokens": 109356718.0,
      "step": 1090
    },
    {
      "entropy": 1.016796875,
      "epoch": 0.15033483668170014,
      "grad_norm": 0.22312892465161346,
      "learning_rate": 4.76785965901085e-06,
      "loss": 1.0119,
      "mean_token_accuracy": 0.7458921790122985,
      "num_tokens": 110398127.0,
      "step": 1100
    },
    {
      "entropy": 1.041796875,
      "epoch": 0.15170151701517015,
      "grad_norm": 0.25481406547916957,
      "learning_rate": 4.764337043821333e-06,
      "loss": 1.0467,
      "mean_token_accuracy": 0.7392255008220673,
      "num_tokens": 111382725.0,
      "step": 1110
    },
    {
      "entropy": 1.023828125,
      "epoch": 0.15306819734864016,
      "grad_norm": 0.25040928219279485,
      "learning_rate": 4.760814428631817e-06,
      "loss": 1.0191,
      "mean_token_accuracy": 0.7447379767894745,
      "num_tokens": 112369399.0,
      "step": 1120
    },
    {
      "entropy": 1.000390625,
      "epoch": 0.15443487768211014,
      "grad_norm": 0.26719355636766295,
      "learning_rate": 4.7572918134423e-06,
      "loss": 0.9892,
      "mean_token_accuracy": 0.7500386118888855,
      "num_tokens": 113312860.0,
      "step": 1130
    },
    {
      "entropy": 0.940234375,
      "epoch": 0.15580155801558015,
      "grad_norm": 0.2310079355144833,
      "learning_rate": 4.753769198252783e-06,
      "loss": 0.9467,
      "mean_token_accuracy": 0.7585398316383362,
      "num_tokens": 114320706.0,
      "step": 1140
    },
    {
      "entropy": 1.033984375,
      "epoch": 0.15716823834905017,
      "grad_norm": 0.2508904761018791,
      "learning_rate": 4.7502465830632665e-06,
      "loss": 1.0345,
      "mean_token_accuracy": 0.7406670451164246,
      "num_tokens": 115361624.0,
      "step": 1150
    },
    {
      "entropy": 0.958203125,
      "epoch": 0.15853491868252015,
      "grad_norm": 0.2351569166944905,
      "learning_rate": 4.74672396787375e-06,
      "loss": 0.953,
      "mean_token_accuracy": 0.7600148499011994,
      "num_tokens": 116373525.0,
      "step": 1160
    },
    {
      "entropy": 0.97265625,
      "epoch": 0.15990159901599016,
      "grad_norm": 0.22622871321360533,
      "learning_rate": 4.743201352684233e-06,
      "loss": 0.9679,
      "mean_token_accuracy": 0.7554823279380798,
      "num_tokens": 117386597.0,
      "step": 1170
    },
    {
      "entropy": 0.9890625,
      "epoch": 0.16126827934946017,
      "grad_norm": 0.27227201312270605,
      "learning_rate": 4.739678737494716e-06,
      "loss": 0.9891,
      "mean_token_accuracy": 0.7530422449111939,
      "num_tokens": 118360572.0,
      "step": 1180
    },
    {
      "entropy": 0.9984375,
      "epoch": 0.16263495968293015,
      "grad_norm": 0.23876612710447703,
      "learning_rate": 4.7361561223052e-06,
      "loss": 0.9915,
      "mean_token_accuracy": 0.7506052672863006,
      "num_tokens": 119348661.0,
      "step": 1190
    },
    {
      "entropy": 0.965234375,
      "epoch": 0.16400164001640016,
      "grad_norm": 0.27053484607422934,
      "learning_rate": 4.7326335071156834e-06,
      "loss": 0.9632,
      "mean_token_accuracy": 0.7575823962688446,
      "num_tokens": 120333852.0,
      "step": 1200
    },
    {
      "entropy": 0.983984375,
      "epoch": 0.16536832034987017,
      "grad_norm": 0.225952780326471,
      "learning_rate": 4.729110891926166e-06,
      "loss": 0.9867,
      "mean_token_accuracy": 0.7521324932575226,
      "num_tokens": 121367501.0,
      "step": 1210
    },
    {
      "entropy": 0.979296875,
      "epoch": 0.16673500068334016,
      "grad_norm": 0.31833268650375274,
      "learning_rate": 4.72558827673665e-06,
      "loss": 0.9847,
      "mean_token_accuracy": 0.7517883956432343,
      "num_tokens": 122322265.0,
      "step": 1220
    },
    {
      "entropy": 0.987109375,
      "epoch": 0.16810168101681017,
      "grad_norm": 0.24195318147604433,
      "learning_rate": 4.722065661547132e-06,
      "loss": 0.9931,
      "mean_token_accuracy": 0.7533211767673492,
      "num_tokens": 123326121.0,
      "step": 1230
    },
    {
      "entropy": 0.994921875,
      "epoch": 0.16946836135028018,
      "grad_norm": 0.2583630816521289,
      "learning_rate": 4.718543046357617e-06,
      "loss": 0.9918,
      "mean_token_accuracy": 0.7504788219928742,
      "num_tokens": 124379656.0,
      "step": 1240
    },
    {
      "entropy": 0.95,
      "epoch": 0.17083504168375016,
      "grad_norm": 0.2625353014628057,
      "learning_rate": 4.7150204311680995e-06,
      "loss": 0.952,
      "mean_token_accuracy": 0.7574823141098023,
      "num_tokens": 125327601.0,
      "step": 1250
    },
    {
      "entropy": 0.998828125,
      "epoch": 0.17220172201722017,
      "grad_norm": 0.2544316035823344,
      "learning_rate": 4.711497815978583e-06,
      "loss": 0.9942,
      "mean_token_accuracy": 0.7502710819244385,
      "num_tokens": 126310987.0,
      "step": 1260
    },
    {
      "entropy": 1.0046875,
      "epoch": 0.17356840235069018,
      "grad_norm": 0.2207799004451966,
      "learning_rate": 4.707975200789066e-06,
      "loss": 1.0156,
      "mean_token_accuracy": 0.7446986436843872,
      "num_tokens": 127351646.0,
      "step": 1270
    },
    {
      "entropy": 0.99375,
      "epoch": 0.17493508268416016,
      "grad_norm": 0.26180744316907434,
      "learning_rate": 4.704452585599549e-06,
      "loss": 0.9956,
      "mean_token_accuracy": 0.7484950542449951,
      "num_tokens": 128345444.0,
      "step": 1280
    },
    {
      "entropy": 0.98125,
      "epoch": 0.17630176301763018,
      "grad_norm": 0.2357367122855512,
      "learning_rate": 4.700929970410033e-06,
      "loss": 0.9817,
      "mean_token_accuracy": 0.7536900401115417,
      "num_tokens": 129339497.0,
      "step": 1290
    },
    {
      "entropy": 0.960546875,
      "epoch": 0.17766844335110019,
      "grad_norm": 0.24380795763811214,
      "learning_rate": 4.697407355220516e-06,
      "loss": 0.9512,
      "mean_token_accuracy": 0.7588451147079468,
      "num_tokens": 130382964.0,
      "step": 1300
    },
    {
      "entropy": 0.9765625,
      "epoch": 0.17903512368457017,
      "grad_norm": 0.2568439376855867,
      "learning_rate": 4.693884740030999e-06,
      "loss": 0.9697,
      "mean_token_accuracy": 0.7521212995052338,
      "num_tokens": 131333722.0,
      "step": 1310
    },
    {
      "entropy": 1.003125,
      "epoch": 0.18040180401804018,
      "grad_norm": 0.24560385362913278,
      "learning_rate": 4.690362124841483e-06,
      "loss": 1.0005,
      "mean_token_accuracy": 0.7498023509979248,
      "num_tokens": 132332448.0,
      "step": 1320
    },
    {
      "entropy": 0.988671875,
      "epoch": 0.1817684843515102,
      "grad_norm": 0.24011251326314834,
      "learning_rate": 4.686839509651966e-06,
      "loss": 0.9839,
      "mean_token_accuracy": 0.7512052476406097,
      "num_tokens": 133339343.0,
      "step": 1330
    },
    {
      "entropy": 0.98359375,
      "epoch": 0.18313516468498017,
      "grad_norm": 0.23686567355108035,
      "learning_rate": 4.683316894462449e-06,
      "loss": 0.9713,
      "mean_token_accuracy": 0.7532126247882843,
      "num_tokens": 134361824.0,
      "step": 1340
    },
    {
      "entropy": 0.966796875,
      "epoch": 0.18450184501845018,
      "grad_norm": 0.24570765946974937,
      "learning_rate": 4.679794279272933e-06,
      "loss": 0.9803,
      "mean_token_accuracy": 0.7519804894924164,
      "num_tokens": 135366570.0,
      "step": 1350
    },
    {
      "entropy": 0.9859375,
      "epoch": 0.1858685253519202,
      "grad_norm": 0.24933078366950917,
      "learning_rate": 4.676271664083416e-06,
      "loss": 0.9903,
      "mean_token_accuracy": 0.7495875537395478,
      "num_tokens": 136388166.0,
      "step": 1360
    },
    {
      "entropy": 1.030859375,
      "epoch": 0.18723520568539018,
      "grad_norm": 0.3404072749110097,
      "learning_rate": 4.6727490488938995e-06,
      "loss": 1.0281,
      "mean_token_accuracy": 0.7423538029193878,
      "num_tokens": 137334309.0,
      "step": 1370
    },
    {
      "entropy": 0.98046875,
      "epoch": 0.1886018860188602,
      "grad_norm": 0.22696010587707563,
      "learning_rate": 4.669226433704382e-06,
      "loss": 0.9734,
      "mean_token_accuracy": 0.754346889257431,
      "num_tokens": 138333216.0,
      "step": 1380
    },
    {
      "entropy": 0.9578125,
      "epoch": 0.1899685663523302,
      "grad_norm": 0.2472005274959474,
      "learning_rate": 4.665703818514866e-06,
      "loss": 0.9557,
      "mean_token_accuracy": 0.7588081777095794,
      "num_tokens": 139302001.0,
      "step": 1390
    },
    {
      "entropy": 0.965625,
      "epoch": 0.19133524668580018,
      "grad_norm": 0.2272015026751012,
      "learning_rate": 4.6621812033253484e-06,
      "loss": 0.9658,
      "mean_token_accuracy": 0.7555716872215271,
      "num_tokens": 140300151.0,
      "step": 1400
    },
    {
      "entropy": 0.898828125,
      "epoch": 0.1927019270192702,
      "grad_norm": 0.24810393684469223,
      "learning_rate": 4.658658588135833e-06,
      "loss": 0.8952,
      "mean_token_accuracy": 0.7690165221691132,
      "num_tokens": 141291771.0,
      "step": 1410
    },
    {
      "entropy": 0.95234375,
      "epoch": 0.1940686073527402,
      "grad_norm": 0.26349643184757,
      "learning_rate": 4.6551359729463155e-06,
      "loss": 0.9382,
      "mean_token_accuracy": 0.7613843977451324,
      "num_tokens": 142345426.0,
      "step": 1420
    },
    {
      "entropy": 1.00234375,
      "epoch": 0.19543528768621019,
      "grad_norm": 0.2444817277683433,
      "learning_rate": 4.651613357756799e-06,
      "loss": 1.0131,
      "mean_token_accuracy": 0.7439389824867249,
      "num_tokens": 143350038.0,
      "step": 1430
    },
    {
      "entropy": 0.99921875,
      "epoch": 0.1968019680196802,
      "grad_norm": 0.26876119739946164,
      "learning_rate": 4.648090742567283e-06,
      "loss": 1.013,
      "mean_token_accuracy": 0.7462193250656128,
      "num_tokens": 144364790.0,
      "step": 1440
    },
    {
      "entropy": 0.98125,
      "epoch": 0.1981686483531502,
      "grad_norm": 0.26210022649267845,
      "learning_rate": 4.644568127377765e-06,
      "loss": 0.9816,
      "mean_token_accuracy": 0.7514132559299469,
      "num_tokens": 145393023.0,
      "step": 1450
    },
    {
      "entropy": 0.96953125,
      "epoch": 0.1995353286866202,
      "grad_norm": 0.25316866045205505,
      "learning_rate": 4.641045512188249e-06,
      "loss": 0.9731,
      "mean_token_accuracy": 0.7541206777095795,
      "num_tokens": 146402141.0,
      "step": 1460
    },
    {
      "entropy": 0.935546875,
      "epoch": 0.2009020090200902,
      "grad_norm": 0.2479942305269871,
      "learning_rate": 4.6375228969987324e-06,
      "loss": 0.9379,
      "mean_token_accuracy": 0.7583092033863068,
      "num_tokens": 147429117.0,
      "step": 1470
    },
    {
      "entropy": 0.9859375,
      "epoch": 0.2022686893535602,
      "grad_norm": 0.2613141698788119,
      "learning_rate": 4.634000281809216e-06,
      "loss": 0.9813,
      "mean_token_accuracy": 0.7524421572685241,
      "num_tokens": 148449641.0,
      "step": 1480
    },
    {
      "entropy": 0.951171875,
      "epoch": 0.2036353696870302,
      "grad_norm": 0.23767522239095346,
      "learning_rate": 4.630477666619699e-06,
      "loss": 0.9413,
      "mean_token_accuracy": 0.759399139881134,
      "num_tokens": 149435614.0,
      "step": 1490
    },
    {
      "entropy": 0.94453125,
      "epoch": 0.2050020500205002,
      "grad_norm": 0.23231200499010338,
      "learning_rate": 4.626955051430182e-06,
      "loss": 0.9425,
      "mean_token_accuracy": 0.7620323956012726,
      "num_tokens": 150463227.0,
      "step": 1500
    },
    {
      "entropy": 1.005078125,
      "epoch": 0.20636873035397021,
      "grad_norm": 0.2745496601693284,
      "learning_rate": 4.623432436240665e-06,
      "loss": 0.9991,
      "mean_token_accuracy": 0.7490952908992767,
      "num_tokens": 151395436.0,
      "step": 1510
    },
    {
      "entropy": 0.959375,
      "epoch": 0.2077354106874402,
      "grad_norm": 0.24894671415050465,
      "learning_rate": 4.619909821051149e-06,
      "loss": 0.9515,
      "mean_token_accuracy": 0.7570874214172363,
      "num_tokens": 152324730.0,
      "step": 1520
    },
    {
      "entropy": 0.95703125,
      "epoch": 0.2091020910209102,
      "grad_norm": 0.25240749299765297,
      "learning_rate": 4.616387205861632e-06,
      "loss": 0.9576,
      "mean_token_accuracy": 0.7544686615467071,
      "num_tokens": 153320864.0,
      "step": 1530
    },
    {
      "entropy": 0.941796875,
      "epoch": 0.21046877135438022,
      "grad_norm": 0.2499006983881151,
      "learning_rate": 4.6128645906721156e-06,
      "loss": 0.9416,
      "mean_token_accuracy": 0.7597015559673309,
      "num_tokens": 154278191.0,
      "step": 1540
    },
    {
      "entropy": 0.998046875,
      "epoch": 0.2118354516878502,
      "grad_norm": 0.24913666664342587,
      "learning_rate": 4.609341975482598e-06,
      "loss": 0.9981,
      "mean_token_accuracy": 0.7492608189582824,
      "num_tokens": 155275095.0,
      "step": 1550
    },
    {
      "entropy": 0.974609375,
      "epoch": 0.2132021320213202,
      "grad_norm": 0.37825910391735146,
      "learning_rate": 4.605819360293082e-06,
      "loss": 0.969,
      "mean_token_accuracy": 0.7541429281234742,
      "num_tokens": 156313420.0,
      "step": 1560
    },
    {
      "entropy": 0.932421875,
      "epoch": 0.21456881235479022,
      "grad_norm": 0.22735869552549698,
      "learning_rate": 4.602296745103565e-06,
      "loss": 0.9341,
      "mean_token_accuracy": 0.7625604510307312,
      "num_tokens": 157298105.0,
      "step": 1570
    },
    {
      "entropy": 0.979296875,
      "epoch": 0.2159354926882602,
      "grad_norm": 0.26256750643793003,
      "learning_rate": 4.598774129914049e-06,
      "loss": 0.9959,
      "mean_token_accuracy": 0.7500897169113159,
      "num_tokens": 158304186.0,
      "step": 1580
    },
    {
      "entropy": 0.9875,
      "epoch": 0.21730217302173022,
      "grad_norm": 0.2864363528656079,
      "learning_rate": 4.595251514724532e-06,
      "loss": 0.9711,
      "mean_token_accuracy": 0.7517815947532653,
      "num_tokens": 159286903.0,
      "step": 1590
    },
    {
      "entropy": 0.962890625,
      "epoch": 0.21866885335520023,
      "grad_norm": 0.23423861646417987,
      "learning_rate": 4.591728899535015e-06,
      "loss": 0.9468,
      "mean_token_accuracy": 0.75808544754982,
      "num_tokens": 160287992.0,
      "step": 1600
    },
    {
      "entropy": 0.930078125,
      "epoch": 0.2200355336886702,
      "grad_norm": 0.23999136764982154,
      "learning_rate": 4.588206284345499e-06,
      "loss": 0.9277,
      "mean_token_accuracy": 0.7628839313983917,
      "num_tokens": 161293325.0,
      "step": 1610
    },
    {
      "entropy": 1.020703125,
      "epoch": 0.22140221402214022,
      "grad_norm": 0.27020964342737447,
      "learning_rate": 4.584683669155981e-06,
      "loss": 1.0238,
      "mean_token_accuracy": 0.7436535835266114,
      "num_tokens": 162313205.0,
      "step": 1620
    },
    {
      "entropy": 0.990625,
      "epoch": 0.22276889435561023,
      "grad_norm": 0.25059366687206025,
      "learning_rate": 4.581161053966465e-06,
      "loss": 0.9893,
      "mean_token_accuracy": 0.7521294116973877,
      "num_tokens": 163369684.0,
      "step": 1630
    },
    {
      "entropy": 1.023828125,
      "epoch": 0.2241355746890802,
      "grad_norm": 0.27514982123541226,
      "learning_rate": 4.5776384387769485e-06,
      "loss": 1.0375,
      "mean_token_accuracy": 0.7416745126247406,
      "num_tokens": 164375021.0,
      "step": 1640
    },
    {
      "entropy": 0.95390625,
      "epoch": 0.22550225502255022,
      "grad_norm": 0.2541425791793917,
      "learning_rate": 4.574115823587432e-06,
      "loss": 0.9502,
      "mean_token_accuracy": 0.7598126411437989,
      "num_tokens": 165385723.0,
      "step": 1650
    },
    {
      "entropy": 0.954296875,
      "epoch": 0.22686893535602023,
      "grad_norm": 0.244685756659586,
      "learning_rate": 4.570593208397915e-06,
      "loss": 0.9598,
      "mean_token_accuracy": 0.757405698299408,
      "num_tokens": 166386777.0,
      "step": 1660
    },
    {
      "entropy": 0.974609375,
      "epoch": 0.22823561568949022,
      "grad_norm": 0.25022946692267073,
      "learning_rate": 4.567070593208398e-06,
      "loss": 0.9687,
      "mean_token_accuracy": 0.7554291427135468,
      "num_tokens": 167364188.0,
      "step": 1670
    },
    {
      "entropy": 0.96328125,
      "epoch": 0.22960229602296023,
      "grad_norm": 0.25747072083090883,
      "learning_rate": 4.563547978018882e-06,
      "loss": 0.9631,
      "mean_token_accuracy": 0.7543022871017456,
      "num_tokens": 168389909.0,
      "step": 1680
    },
    {
      "entropy": 0.948828125,
      "epoch": 0.23096897635643024,
      "grad_norm": 0.24078312042069486,
      "learning_rate": 4.560025362829365e-06,
      "loss": 0.9462,
      "mean_token_accuracy": 0.758335679769516,
      "num_tokens": 169381885.0,
      "step": 1690
    },
    {
      "entropy": 0.9609375,
      "epoch": 0.23233565668990022,
      "grad_norm": 0.23487330704364676,
      "learning_rate": 4.556502747639848e-06,
      "loss": 0.965,
      "mean_token_accuracy": 0.7557425975799561,
      "num_tokens": 170399072.0,
      "step": 1700
    },
    {
      "entropy": 0.9765625,
      "epoch": 0.23370233702337023,
      "grad_norm": 0.22588484655850194,
      "learning_rate": 4.552980132450332e-06,
      "loss": 0.9712,
      "mean_token_accuracy": 0.7522737979888916,
      "num_tokens": 171449606.0,
      "step": 1710
    },
    {
      "entropy": 0.9578125,
      "epoch": 0.23506901735684024,
      "grad_norm": 0.21873718139583542,
      "learning_rate": 4.549457517260814e-06,
      "loss": 0.9575,
      "mean_token_accuracy": 0.7578271865844727,
      "num_tokens": 172478002.0,
      "step": 1720
    },
    {
      "entropy": 0.94453125,
      "epoch": 0.23643569769031023,
      "grad_norm": 0.25126032956015115,
      "learning_rate": 4.545934902071298e-06,
      "loss": 0.9494,
      "mean_token_accuracy": 0.7582874417304992,
      "num_tokens": 173536624.0,
      "step": 1730
    },
    {
      "entropy": 0.998828125,
      "epoch": 0.23780237802378024,
      "grad_norm": 0.2655098686888086,
      "learning_rate": 4.5424122868817814e-06,
      "loss": 0.994,
      "mean_token_accuracy": 0.7483533918857574,
      "num_tokens": 174499171.0,
      "step": 1740
    },
    {
      "entropy": 0.935546875,
      "epoch": 0.23916905835725025,
      "grad_norm": 0.23678323712785845,
      "learning_rate": 4.538889671692265e-06,
      "loss": 0.9351,
      "mean_token_accuracy": 0.7625760018825531,
      "num_tokens": 175471599.0,
      "step": 1750
    },
    {
      "entropy": 0.9515625,
      "epoch": 0.24053573869072023,
      "grad_norm": 0.26610237386339225,
      "learning_rate": 4.535367056502748e-06,
      "loss": 0.9479,
      "mean_token_accuracy": 0.7585249960422515,
      "num_tokens": 176498065.0,
      "step": 1760
    },
    {
      "entropy": 0.97734375,
      "epoch": 0.24190241902419024,
      "grad_norm": 0.2473839807389519,
      "learning_rate": 4.531844441313231e-06,
      "loss": 0.9728,
      "mean_token_accuracy": 0.7533072531223297,
      "num_tokens": 177499643.0,
      "step": 1770
    },
    {
      "entropy": 0.9328125,
      "epoch": 0.24326909935766025,
      "grad_norm": 0.23492216171289,
      "learning_rate": 4.528321826123715e-06,
      "loss": 0.931,
      "mean_token_accuracy": 0.7627856194972992,
      "num_tokens": 178477704.0,
      "step": 1780
    },
    {
      "entropy": 0.962890625,
      "epoch": 0.24463577969113023,
      "grad_norm": 0.23110669243241017,
      "learning_rate": 4.524799210934198e-06,
      "loss": 0.9603,
      "mean_token_accuracy": 0.7572666466236114,
      "num_tokens": 179484701.0,
      "step": 1790
    },
    {
      "entropy": 0.9640625,
      "epoch": 0.24600246002460024,
      "grad_norm": 0.22708052204374904,
      "learning_rate": 4.521276595744681e-06,
      "loss": 0.9541,
      "mean_token_accuracy": 0.7594332814216613,
      "num_tokens": 180460840.0,
      "step": 1800
    },
    {
      "entropy": 0.973828125,
      "epoch": 0.24736914035807026,
      "grad_norm": 0.25242722780545085,
      "learning_rate": 4.5177539805551646e-06,
      "loss": 0.9816,
      "mean_token_accuracy": 0.7527648687362671,
      "num_tokens": 181453261.0,
      "step": 1810
    },
    {
      "entropy": 0.95078125,
      "epoch": 0.24873582069154024,
      "grad_norm": 0.2662041955392307,
      "learning_rate": 4.514231365365648e-06,
      "loss": 0.9574,
      "mean_token_accuracy": 0.7566645443439484,
      "num_tokens": 182417078.0,
      "step": 1820
    },
    {
      "entropy": 0.963671875,
      "epoch": 0.25010250102501025,
      "grad_norm": 0.24895401173367135,
      "learning_rate": 4.510708750176131e-06,
      "loss": 0.9478,
      "mean_token_accuracy": 0.7582863748073578,
      "num_tokens": 183391495.0,
      "step": 1830
    },
    {
      "entropy": 0.944921875,
      "epoch": 0.25146918135848023,
      "grad_norm": 0.2481264778615443,
      "learning_rate": 4.507186134986614e-06,
      "loss": 0.9401,
      "mean_token_accuracy": 0.7610053062438965,
      "num_tokens": 184444423.0,
      "step": 1840
    },
    {
      "entropy": 0.93359375,
      "epoch": 0.25283586169195027,
      "grad_norm": 0.250376008048839,
      "learning_rate": 4.503663519797098e-06,
      "loss": 0.9358,
      "mean_token_accuracy": 0.7598979473114014,
      "num_tokens": 185464205.0,
      "step": 1850
    },
    {
      "entropy": 0.9546875,
      "epoch": 0.25420254202542025,
      "grad_norm": 0.24544249990502318,
      "learning_rate": 4.5001409046075814e-06,
      "loss": 0.9554,
      "mean_token_accuracy": 0.7579562604427338,
      "num_tokens": 186450985.0,
      "step": 1860
    },
    {
      "entropy": 0.93671875,
      "epoch": 0.25556922235889024,
      "grad_norm": 0.2176334078210838,
      "learning_rate": 4.496618289418064e-06,
      "loss": 0.924,
      "mean_token_accuracy": 0.7645259380340577,
      "num_tokens": 187494172.0,
      "step": 1870
    },
    {
      "entropy": 0.94765625,
      "epoch": 0.2569359026923603,
      "grad_norm": 0.2646094754915815,
      "learning_rate": 4.493095674228548e-06,
      "loss": 0.9426,
      "mean_token_accuracy": 0.7600772619247437,
      "num_tokens": 188466326.0,
      "step": 1880
    },
    {
      "entropy": 0.980859375,
      "epoch": 0.25830258302583026,
      "grad_norm": 0.2359950515664304,
      "learning_rate": 4.48957305903903e-06,
      "loss": 0.9816,
      "mean_token_accuracy": 0.7524216592311859,
      "num_tokens": 189486495.0,
      "step": 1890
    },
    {
      "entropy": 0.97265625,
      "epoch": 0.25966926335930024,
      "grad_norm": 0.2653575466496158,
      "learning_rate": 4.486050443849515e-06,
      "loss": 0.9718,
      "mean_token_accuracy": 0.7553968369960785,
      "num_tokens": 190471394.0,
      "step": 1900
    },
    {
      "entropy": 0.952734375,
      "epoch": 0.2610359436927703,
      "grad_norm": 0.23422417996190528,
      "learning_rate": 4.4825278286599975e-06,
      "loss": 0.9576,
      "mean_token_accuracy": 0.7574569702148437,
      "num_tokens": 191482976.0,
      "step": 1910
    },
    {
      "entropy": 0.921875,
      "epoch": 0.26240262402624026,
      "grad_norm": 0.25145661923581786,
      "learning_rate": 4.479005213470481e-06,
      "loss": 0.9244,
      "mean_token_accuracy": 0.7644221961498261,
      "num_tokens": 192487003.0,
      "step": 1920
    },
    {
      "entropy": 0.970703125,
      "epoch": 0.26376930435971024,
      "grad_norm": 0.2540466632369763,
      "learning_rate": 4.475482598280964e-06,
      "loss": 0.9618,
      "mean_token_accuracy": 0.7523042380809783,
      "num_tokens": 193484373.0,
      "step": 1930
    },
    {
      "entropy": 0.937109375,
      "epoch": 0.2651359846931803,
      "grad_norm": 0.25048425417217673,
      "learning_rate": 4.471959983091447e-06,
      "loss": 0.9378,
      "mean_token_accuracy": 0.7619735181331635,
      "num_tokens": 194489877.0,
      "step": 1940
    },
    {
      "entropy": 0.965234375,
      "epoch": 0.26650266502665027,
      "grad_norm": 0.24448487835088784,
      "learning_rate": 4.468437367901931e-06,
      "loss": 0.9728,
      "mean_token_accuracy": 0.7549939334392548,
      "num_tokens": 195497240.0,
      "step": 1950
    },
    {
      "entropy": 0.984375,
      "epoch": 0.26786934536012025,
      "grad_norm": 0.2618156510006412,
      "learning_rate": 4.464914752712414e-06,
      "loss": 0.984,
      "mean_token_accuracy": 0.7512929141521454,
      "num_tokens": 196488733.0,
      "step": 1960
    },
    {
      "entropy": 0.91484375,
      "epoch": 0.2692360256935903,
      "grad_norm": 0.2373591878554079,
      "learning_rate": 4.461392137522897e-06,
      "loss": 0.9154,
      "mean_token_accuracy": 0.7645773708820343,
      "num_tokens": 197524439.0,
      "step": 1970
    },
    {
      "entropy": 0.912890625,
      "epoch": 0.27060270602706027,
      "grad_norm": 0.23184130454061544,
      "learning_rate": 4.457869522333381e-06,
      "loss": 0.9057,
      "mean_token_accuracy": 0.7676064670085907,
      "num_tokens": 198500937.0,
      "step": 1980
    },
    {
      "entropy": 0.946875,
      "epoch": 0.27196938636053025,
      "grad_norm": 0.2729328208418089,
      "learning_rate": 4.454346907143864e-06,
      "loss": 0.9474,
      "mean_token_accuracy": 0.7610604703426361,
      "num_tokens": 199495588.0,
      "step": 1990
    },
    {
      "entropy": 0.984375,
      "epoch": 0.2733360666940003,
      "grad_norm": 0.24967456131128465,
      "learning_rate": 4.450824291954347e-06,
      "loss": 0.9833,
      "mean_token_accuracy": 0.7531442523002625,
      "num_tokens": 200506609.0,
      "step": 2000
    },
    {
      "entropy": 0.91953125,
      "epoch": 0.2747027470274703,
      "grad_norm": 0.21050766099236512,
      "learning_rate": 4.44730167676483e-06,
      "loss": 0.9242,
      "mean_token_accuracy": 0.7648696422576904,
      "num_tokens": 201514736.0,
      "step": 2010
    },
    {
      "entropy": 0.9578125,
      "epoch": 0.27606942736094026,
      "grad_norm": 0.23472826637469385,
      "learning_rate": 4.443779061575314e-06,
      "loss": 0.9475,
      "mean_token_accuracy": 0.7577755212783813,
      "num_tokens": 202528916.0,
      "step": 2020
    },
    {
      "entropy": 0.91484375,
      "epoch": 0.2774361076944103,
      "grad_norm": 0.27536095634949836,
      "learning_rate": 4.4402564463857975e-06,
      "loss": 0.9141,
      "mean_token_accuracy": 0.7640611052513122,
      "num_tokens": 203493505.0,
      "step": 2030
    },
    {
      "entropy": 0.9546875,
      "epoch": 0.2788027880278803,
      "grad_norm": 0.23959061116378877,
      "learning_rate": 4.43673383119628e-06,
      "loss": 0.9666,
      "mean_token_accuracy": 0.754245400428772,
      "num_tokens": 204472127.0,
      "step": 2040
    },
    {
      "entropy": 0.948046875,
      "epoch": 0.28016946836135026,
      "grad_norm": 0.23900528842137425,
      "learning_rate": 4.433211216006764e-06,
      "loss": 0.9467,
      "mean_token_accuracy": 0.7578488290309906,
      "num_tokens": 205444690.0,
      "step": 2050
    },
    {
      "entropy": 0.932421875,
      "epoch": 0.2815361486948203,
      "grad_norm": 0.22504034003032589,
      "learning_rate": 4.4296886008172465e-06,
      "loss": 0.9454,
      "mean_token_accuracy": 0.7582377552986145,
      "num_tokens": 206433420.0,
      "step": 2060
    },
    {
      "entropy": 0.94921875,
      "epoch": 0.2829028290282903,
      "grad_norm": 0.2588252250474981,
      "learning_rate": 4.426165985627731e-06,
      "loss": 0.9477,
      "mean_token_accuracy": 0.7599259972572326,
      "num_tokens": 207474650.0,
      "step": 2070
    },
    {
      "entropy": 0.916796875,
      "epoch": 0.28426950936176026,
      "grad_norm": 0.2422238895174602,
      "learning_rate": 4.4226433704382136e-06,
      "loss": 0.9134,
      "mean_token_accuracy": 0.7666414201259613,
      "num_tokens": 208449182.0,
      "step": 2080
    },
    {
      "entropy": 0.93203125,
      "epoch": 0.2856361896952303,
      "grad_norm": 0.24131669206839954,
      "learning_rate": 4.419120755248697e-06,
      "loss": 0.9292,
      "mean_token_accuracy": 0.7618481695652009,
      "num_tokens": 209450690.0,
      "step": 2090
    },
    {
      "entropy": 1.00859375,
      "epoch": 0.2870028700287003,
      "grad_norm": 0.21786072159909917,
      "learning_rate": 4.41559814005918e-06,
      "loss": 1.0145,
      "mean_token_accuracy": 0.7460231840610504,
      "num_tokens": 210469459.0,
      "step": 2100
    },
    {
      "entropy": 0.9375,
      "epoch": 0.28836955036217027,
      "grad_norm": 0.22894608464472396,
      "learning_rate": 4.412075524869663e-06,
      "loss": 0.9371,
      "mean_token_accuracy": 0.7625466406345367,
      "num_tokens": 211422588.0,
      "step": 2110
    },
    {
      "entropy": 0.967578125,
      "epoch": 0.2897362306956403,
      "grad_norm": 0.23195480353044765,
      "learning_rate": 4.408552909680147e-06,
      "loss": 0.9657,
      "mean_token_accuracy": 0.7563634753227234,
      "num_tokens": 212401656.0,
      "step": 2120
    },
    {
      "entropy": 0.9484375,
      "epoch": 0.2911029110291103,
      "grad_norm": 0.23613888544004383,
      "learning_rate": 4.4050302944906304e-06,
      "loss": 0.9507,
      "mean_token_accuracy": 0.7578501105308533,
      "num_tokens": 213418240.0,
      "step": 2130
    },
    {
      "entropy": 0.937109375,
      "epoch": 0.2924695913625803,
      "grad_norm": 0.26476264370040603,
      "learning_rate": 4.401507679301113e-06,
      "loss": 0.9324,
      "mean_token_accuracy": 0.7604708552360535,
      "num_tokens": 214387238.0,
      "step": 2140
    },
    {
      "entropy": 1.008984375,
      "epoch": 0.2938362716960503,
      "grad_norm": 0.26617500874344174,
      "learning_rate": 4.397985064111597e-06,
      "loss": 1.0152,
      "mean_token_accuracy": 0.7457677781581878,
      "num_tokens": 215412774.0,
      "step": 2150
    },
    {
      "entropy": 0.958984375,
      "epoch": 0.2952029520295203,
      "grad_norm": 0.26104945473810376,
      "learning_rate": 4.39446244892208e-06,
      "loss": 0.953,
      "mean_token_accuracy": 0.7581692636013031,
      "num_tokens": 216404116.0,
      "step": 2160
    },
    {
      "entropy": 0.945703125,
      "epoch": 0.2965696323629903,
      "grad_norm": 0.2634930393791678,
      "learning_rate": 4.390939833732563e-06,
      "loss": 0.9462,
      "mean_token_accuracy": 0.7582486987113952,
      "num_tokens": 217329569.0,
      "step": 2170
    },
    {
      "entropy": 0.947265625,
      "epoch": 0.2979363126964603,
      "grad_norm": 0.25011396456017504,
      "learning_rate": 4.387417218543047e-06,
      "loss": 0.9475,
      "mean_token_accuracy": 0.7582313418388367,
      "num_tokens": 218348233.0,
      "step": 2180
    },
    {
      "entropy": 0.91875,
      "epoch": 0.2993029930299303,
      "grad_norm": 0.2408704190340658,
      "learning_rate": 4.38389460335353e-06,
      "loss": 0.9043,
      "mean_token_accuracy": 0.7680435538291931,
      "num_tokens": 219347779.0,
      "step": 2190
    },
    {
      "entropy": 0.953125,
      "epoch": 0.3006696733634003,
      "grad_norm": 0.21739867740366045,
      "learning_rate": 4.380371988164014e-06,
      "loss": 0.9496,
      "mean_token_accuracy": 0.7561925292015076,
      "num_tokens": 220403938.0,
      "step": 2200
    },
    {
      "entropy": 0.93828125,
      "epoch": 0.3020363536968703,
      "grad_norm": 0.23404151355940545,
      "learning_rate": 4.376849372974496e-06,
      "loss": 0.9371,
      "mean_token_accuracy": 0.7618485569953919,
      "num_tokens": 221435776.0,
      "step": 2210
    },
    {
      "entropy": 0.921484375,
      "epoch": 0.3034030340303403,
      "grad_norm": 0.23021023603121202,
      "learning_rate": 4.37332675778498e-06,
      "loss": 0.9211,
      "mean_token_accuracy": 0.7631253242492676,
      "num_tokens": 222450369.0,
      "step": 2220
    },
    {
      "entropy": 0.943359375,
      "epoch": 0.3047697143638103,
      "grad_norm": 0.2321845861308277,
      "learning_rate": 4.369804142595463e-06,
      "loss": 0.9502,
      "mean_token_accuracy": 0.7597657918930054,
      "num_tokens": 223430185.0,
      "step": 2230
    },
    {
      "entropy": 0.958984375,
      "epoch": 0.3061363946972803,
      "grad_norm": 0.24624913959999628,
      "learning_rate": 4.366281527405947e-06,
      "loss": 0.9588,
      "mean_token_accuracy": 0.7562536895275116,
      "num_tokens": 224476704.0,
      "step": 2240
    },
    {
      "entropy": 0.910546875,
      "epoch": 0.3075030750307503,
      "grad_norm": 0.2527987636358985,
      "learning_rate": 4.36275891221643e-06,
      "loss": 0.9058,
      "mean_token_accuracy": 0.7654574871063232,
      "num_tokens": 225491846.0,
      "step": 2250
    },
    {
      "entropy": 0.908203125,
      "epoch": 0.3088697553642203,
      "grad_norm": 0.25728418879632425,
      "learning_rate": 4.359236297026913e-06,
      "loss": 0.9105,
      "mean_token_accuracy": 0.7669769048690795,
      "num_tokens": 226484127.0,
      "step": 2260
    },
    {
      "entropy": 0.89375,
      "epoch": 0.3102364356976903,
      "grad_norm": 0.27428210665856406,
      "learning_rate": 4.355713681837396e-06,
      "loss": 0.8984,
      "mean_token_accuracy": 0.7687445998191833,
      "num_tokens": 227474908.0,
      "step": 2270
    },
    {
      "entropy": 0.922265625,
      "epoch": 0.3116031160311603,
      "grad_norm": 0.24584916859441305,
      "learning_rate": 4.352191066647879e-06,
      "loss": 0.9287,
      "mean_token_accuracy": 0.7635048449039459,
      "num_tokens": 228463177.0,
      "step": 2280
    },
    {
      "entropy": 0.940234375,
      "epoch": 0.3129697963646303,
      "grad_norm": 0.2705997616417987,
      "learning_rate": 4.348668451458363e-06,
      "loss": 0.9411,
      "mean_token_accuracy": 0.7612485110759735,
      "num_tokens": 229469712.0,
      "step": 2290
    },
    {
      "entropy": 0.955078125,
      "epoch": 0.31433647669810033,
      "grad_norm": 0.23660586172543432,
      "learning_rate": 4.3451458362688465e-06,
      "loss": 0.9518,
      "mean_token_accuracy": 0.7584202229976654,
      "num_tokens": 230474108.0,
      "step": 2300
    },
    {
      "entropy": 0.958984375,
      "epoch": 0.3157031570315703,
      "grad_norm": 0.24373553695950795,
      "learning_rate": 4.34162322107933e-06,
      "loss": 0.9489,
      "mean_token_accuracy": 0.7609387874603272,
      "num_tokens": 231443208.0,
      "step": 2310
    },
    {
      "entropy": 0.948828125,
      "epoch": 0.3170698373650403,
      "grad_norm": 0.23554133267793492,
      "learning_rate": 4.338100605889813e-06,
      "loss": 0.9408,
      "mean_token_accuracy": 0.7607609033584595,
      "num_tokens": 232407706.0,
      "step": 2320
    },
    {
      "entropy": 0.90625,
      "epoch": 0.31843651769851034,
      "grad_norm": 0.26085223875192964,
      "learning_rate": 4.334577990700296e-06,
      "loss": 0.8946,
      "mean_token_accuracy": 0.7713473737239838,
      "num_tokens": 233367033.0,
      "step": 2330
    },
    {
      "entropy": 0.976953125,
      "epoch": 0.3198031980319803,
      "grad_norm": 0.24368640375015307,
      "learning_rate": 4.33105537551078e-06,
      "loss": 0.9766,
      "mean_token_accuracy": 0.7519093155860901,
      "num_tokens": 234337713.0,
      "step": 2340
    },
    {
      "entropy": 0.91328125,
      "epoch": 0.3211698783654503,
      "grad_norm": 0.2503097258755928,
      "learning_rate": 4.327532760321263e-06,
      "loss": 0.8992,
      "mean_token_accuracy": 0.7697727501392364,
      "num_tokens": 235293773.0,
      "step": 2350
    },
    {
      "entropy": 0.9375,
      "epoch": 0.32253655869892034,
      "grad_norm": 0.26369036052178774,
      "learning_rate": 4.324010145131746e-06,
      "loss": 0.932,
      "mean_token_accuracy": 0.760742700099945,
      "num_tokens": 236278533.0,
      "step": 2360
    },
    {
      "entropy": 0.944140625,
      "epoch": 0.3239032390323903,
      "grad_norm": 0.21915633487295175,
      "learning_rate": 4.32048752994223e-06,
      "loss": 0.9447,
      "mean_token_accuracy": 0.7600228905677795,
      "num_tokens": 237320727.0,
      "step": 2370
    },
    {
      "entropy": 0.959375,
      "epoch": 0.3252699193658603,
      "grad_norm": 0.23453549636527532,
      "learning_rate": 4.316964914752712e-06,
      "loss": 0.9574,
      "mean_token_accuracy": 0.7569523811340332,
      "num_tokens": 238313682.0,
      "step": 2380
    },
    {
      "entropy": 0.960546875,
      "epoch": 0.32663659969933034,
      "grad_norm": 0.2735719349528564,
      "learning_rate": 4.313442299563196e-06,
      "loss": 0.9583,
      "mean_token_accuracy": 0.7578345656394958,
      "num_tokens": 239272562.0,
      "step": 2390
    },
    {
      "entropy": 0.932421875,
      "epoch": 0.3280032800328003,
      "grad_norm": 0.2737756188674648,
      "learning_rate": 4.3099196843736794e-06,
      "loss": 0.9353,
      "mean_token_accuracy": 0.761398047208786,
      "num_tokens": 240247837.0,
      "step": 2400
    },
    {
      "entropy": 0.944921875,
      "epoch": 0.3293699603662703,
      "grad_norm": 0.23572936105907802,
      "learning_rate": 4.306397069184163e-06,
      "loss": 0.9346,
      "mean_token_accuracy": 0.7593286454677581,
      "num_tokens": 241244375.0,
      "step": 2410
    },
    {
      "entropy": 0.94765625,
      "epoch": 0.33073664069974035,
      "grad_norm": 0.29108526746693897,
      "learning_rate": 4.302874453994646e-06,
      "loss": 0.9442,
      "mean_token_accuracy": 0.7592511475086212,
      "num_tokens": 242235921.0,
      "step": 2420
    },
    {
      "entropy": 0.92734375,
      "epoch": 0.33210332103321033,
      "grad_norm": 0.25733788715432737,
      "learning_rate": 4.299351838805129e-06,
      "loss": 0.9279,
      "mean_token_accuracy": 0.7632225513458252,
      "num_tokens": 243226532.0,
      "step": 2430
    },
    {
      "entropy": 0.961328125,
      "epoch": 0.3334700013666803,
      "grad_norm": 0.22606706681799388,
      "learning_rate": 4.295829223615613e-06,
      "loss": 0.9603,
      "mean_token_accuracy": 0.756568843126297,
      "num_tokens": 244230951.0,
      "step": 2440
    },
    {
      "entropy": 0.95546875,
      "epoch": 0.33483668170015035,
      "grad_norm": 0.2518085468216108,
      "learning_rate": 4.292306608426096e-06,
      "loss": 0.9465,
      "mean_token_accuracy": 0.7595137834548951,
      "num_tokens": 245216118.0,
      "step": 2450
    },
    {
      "entropy": 0.908203125,
      "epoch": 0.33620336203362033,
      "grad_norm": 0.2522403469952487,
      "learning_rate": 4.288783993236579e-06,
      "loss": 0.9046,
      "mean_token_accuracy": 0.7680982708930969,
      "num_tokens": 246233429.0,
      "step": 2460
    },
    {
      "entropy": 0.963671875,
      "epoch": 0.3375700423670903,
      "grad_norm": 0.2521292419309971,
      "learning_rate": 4.285261378047063e-06,
      "loss": 0.9588,
      "mean_token_accuracy": 0.7577741801738739,
      "num_tokens": 247241545.0,
      "step": 2470
    },
    {
      "entropy": 0.937109375,
      "epoch": 0.33893672270056036,
      "grad_norm": 0.22816309530348455,
      "learning_rate": 4.281738762857546e-06,
      "loss": 0.9396,
      "mean_token_accuracy": 0.7586054086685181,
      "num_tokens": 248252703.0,
      "step": 2480
    },
    {
      "entropy": 0.98359375,
      "epoch": 0.34030340303403034,
      "grad_norm": 0.2597788183115665,
      "learning_rate": 4.278216147668029e-06,
      "loss": 0.9763,
      "mean_token_accuracy": 0.7517880916595459,
      "num_tokens": 249259960.0,
      "step": 2490
    },
    {
      "entropy": 0.95,
      "epoch": 0.3416700833675003,
      "grad_norm": 0.2505870395730953,
      "learning_rate": 4.274693532478512e-06,
      "loss": 0.9495,
      "mean_token_accuracy": 0.7564610958099365,
      "num_tokens": 250256940.0,
      "step": 2500
    },
    {
      "entropy": 0.90703125,
      "epoch": 0.34303676370097036,
      "grad_norm": 0.2105128284310874,
      "learning_rate": 4.271170917288996e-06,
      "loss": 0.9024,
      "mean_token_accuracy": 0.768015843629837,
      "num_tokens": 251256658.0,
      "step": 2510
    },
    {
      "entropy": 0.93125,
      "epoch": 0.34440344403444034,
      "grad_norm": 0.262477774847533,
      "learning_rate": 4.2676483020994795e-06,
      "loss": 0.9294,
      "mean_token_accuracy": 0.7628232955932617,
      "num_tokens": 252264359.0,
      "step": 2520
    },
    {
      "entropy": 0.944921875,
      "epoch": 0.3457701243679103,
      "grad_norm": 0.24204790800878148,
      "learning_rate": 4.264125686909962e-06,
      "loss": 0.9522,
      "mean_token_accuracy": 0.7593511581420899,
      "num_tokens": 253309857.0,
      "step": 2530
    },
    {
      "entropy": 0.9515625,
      "epoch": 0.34713680470138036,
      "grad_norm": 0.24153481679631747,
      "learning_rate": 4.260603071720446e-06,
      "loss": 0.9546,
      "mean_token_accuracy": 0.7584250569343567,
      "num_tokens": 254290565.0,
      "step": 2540
    },
    {
      "entropy": 0.9765625,
      "epoch": 0.34850348503485035,
      "grad_norm": 0.2588295670852276,
      "learning_rate": 4.257080456530928e-06,
      "loss": 0.9741,
      "mean_token_accuracy": 0.7530953526496887,
      "num_tokens": 255281492.0,
      "step": 2550
    },
    {
      "entropy": 0.901953125,
      "epoch": 0.34987016536832033,
      "grad_norm": 0.2781324395603636,
      "learning_rate": 4.253557841341413e-06,
      "loss": 0.9072,
      "mean_token_accuracy": 0.7669288337230682,
      "num_tokens": 256296392.0,
      "step": 2560
    },
    {
      "entropy": 0.921484375,
      "epoch": 0.35123684570179037,
      "grad_norm": 0.2523193455859455,
      "learning_rate": 4.2500352261518955e-06,
      "loss": 0.9213,
      "mean_token_accuracy": 0.762246572971344,
      "num_tokens": 257302063.0,
      "step": 2570
    },
    {
      "entropy": 0.886328125,
      "epoch": 0.35260352603526035,
      "grad_norm": 0.24168380411234366,
      "learning_rate": 4.246512610962379e-06,
      "loss": 0.8861,
      "mean_token_accuracy": 0.7712131798267364,
      "num_tokens": 258304554.0,
      "step": 2580
    },
    {
      "entropy": 0.95390625,
      "epoch": 0.35397020636873033,
      "grad_norm": 0.26355637693385525,
      "learning_rate": 4.242989995772862e-06,
      "loss": 0.9547,
      "mean_token_accuracy": 0.7583344101905822,
      "num_tokens": 259259663.0,
      "step": 2590
    },
    {
      "entropy": 0.94765625,
      "epoch": 0.35533688670220037,
      "grad_norm": 0.23843165008856904,
      "learning_rate": 4.239467380583345e-06,
      "loss": 0.9493,
      "mean_token_accuracy": 0.7583289623260498,
      "num_tokens": 260318431.0,
      "step": 2600
    },
    {
      "entropy": 0.9125,
      "epoch": 0.35670356703567035,
      "grad_norm": 0.2330317575106218,
      "learning_rate": 4.235944765393829e-06,
      "loss": 0.9056,
      "mean_token_accuracy": 0.7665926337242126,
      "num_tokens": 261314415.0,
      "step": 2610
    },
    {
      "entropy": 0.9390625,
      "epoch": 0.35807024736914034,
      "grad_norm": 0.2617250904412012,
      "learning_rate": 4.232422150204312e-06,
      "loss": 0.9426,
      "mean_token_accuracy": 0.75764240026474,
      "num_tokens": 262280825.0,
      "step": 2620
    },
    {
      "entropy": 0.985546875,
      "epoch": 0.3594369277026104,
      "grad_norm": 0.24434981946892473,
      "learning_rate": 4.228899535014795e-06,
      "loss": 0.9824,
      "mean_token_accuracy": 0.7509913206100464,
      "num_tokens": 263248393.0,
      "step": 2630
    },
    {
      "entropy": 0.945703125,
      "epoch": 0.36080360803608036,
      "grad_norm": 0.24944137951467185,
      "learning_rate": 4.225376919825279e-06,
      "loss": 0.9498,
      "mean_token_accuracy": 0.7580696880817414,
      "num_tokens": 264237945.0,
      "step": 2640
    },
    {
      "entropy": 0.928125,
      "epoch": 0.36217028836955034,
      "grad_norm": 0.2259503708001205,
      "learning_rate": 4.221854304635762e-06,
      "loss": 0.9215,
      "mean_token_accuracy": 0.7623612403869628,
      "num_tokens": 265242177.0,
      "step": 2650
    },
    {
      "entropy": 0.97734375,
      "epoch": 0.3635369687030204,
      "grad_norm": 0.24370464005717513,
      "learning_rate": 4.218331689446245e-06,
      "loss": 0.9795,
      "mean_token_accuracy": 0.7521112561225891,
      "num_tokens": 266261360.0,
      "step": 2660
    },
    {
      "entropy": 0.910546875,
      "epoch": 0.36490364903649036,
      "grad_norm": 0.25820939390402553,
      "learning_rate": 4.2148090742567284e-06,
      "loss": 0.8984,
      "mean_token_accuracy": 0.7701245367527008,
      "num_tokens": 267257220.0,
      "step": 2670
    },
    {
      "entropy": 0.928515625,
      "epoch": 0.36627032936996035,
      "grad_norm": 0.2288119616119952,
      "learning_rate": 4.211286459067212e-06,
      "loss": 0.9431,
      "mean_token_accuracy": 0.7569719672203064,
      "num_tokens": 268317830.0,
      "step": 2680
    },
    {
      "entropy": 0.903125,
      "epoch": 0.3676370097034304,
      "grad_norm": 0.2315851191375661,
      "learning_rate": 4.2077638438776955e-06,
      "loss": 0.8881,
      "mean_token_accuracy": 0.7712043106555939,
      "num_tokens": 269283864.0,
      "step": 2690
    },
    {
      "entropy": 0.906640625,
      "epoch": 0.36900369003690037,
      "grad_norm": 0.22706185992664232,
      "learning_rate": 4.204241228688178e-06,
      "loss": 0.9093,
      "mean_token_accuracy": 0.76724653840065,
      "num_tokens": 270373918.0,
      "step": 2700
    },
    {
      "entropy": 0.91953125,
      "epoch": 0.37037037037037035,
      "grad_norm": 0.24896786687871444,
      "learning_rate": 4.200718613498662e-06,
      "loss": 0.9196,
      "mean_token_accuracy": 0.7647992908954621,
      "num_tokens": 271394623.0,
      "step": 2710
    },
    {
      "entropy": 0.9296875,
      "epoch": 0.3717370507038404,
      "grad_norm": 0.25075713767519203,
      "learning_rate": 4.1971959983091445e-06,
      "loss": 0.9199,
      "mean_token_accuracy": 0.7651748895645142,
      "num_tokens": 272366138.0,
      "step": 2720
    },
    {
      "entropy": 0.90390625,
      "epoch": 0.37310373103731037,
      "grad_norm": 0.22167090080170612,
      "learning_rate": 4.193673383119629e-06,
      "loss": 0.8906,
      "mean_token_accuracy": 0.7703024029731751,
      "num_tokens": 273393329.0,
      "step": 2730
    },
    {
      "entropy": 0.976171875,
      "epoch": 0.37447041137078035,
      "grad_norm": 0.24135542495826956,
      "learning_rate": 4.190150767930112e-06,
      "loss": 0.97,
      "mean_token_accuracy": 0.7546612441539764,
      "num_tokens": 274456082.0,
      "step": 2740
    },
    {
      "entropy": 0.966015625,
      "epoch": 0.3758370917042504,
      "grad_norm": 0.26042430784994025,
      "learning_rate": 4.186628152740595e-06,
      "loss": 0.963,
      "mean_token_accuracy": 0.7558308243751526,
      "num_tokens": 275482962.0,
      "step": 2750
    },
    {
      "entropy": 0.929296875,
      "epoch": 0.3772037720377204,
      "grad_norm": 0.2523026661934967,
      "learning_rate": 4.183105537551078e-06,
      "loss": 0.9174,
      "mean_token_accuracy": 0.7643286347389221,
      "num_tokens": 276499414.0,
      "step": 2760
    },
    {
      "entropy": 0.959765625,
      "epoch": 0.37857045237119036,
      "grad_norm": 0.26316829537314845,
      "learning_rate": 4.179582922361561e-06,
      "loss": 0.965,
      "mean_token_accuracy": 0.7535970389842988,
      "num_tokens": 277471208.0,
      "step": 2770
    },
    {
      "entropy": 0.951953125,
      "epoch": 0.3799371327046604,
      "grad_norm": 0.24981935346562228,
      "learning_rate": 4.176060307172045e-06,
      "loss": 0.9472,
      "mean_token_accuracy": 0.7582530081272125,
      "num_tokens": 278492364.0,
      "step": 2780
    },
    {
      "entropy": 0.929296875,
      "epoch": 0.3813038130381304,
      "grad_norm": 0.24196464768975834,
      "learning_rate": 4.1725376919825285e-06,
      "loss": 0.9225,
      "mean_token_accuracy": 0.7648787081241608,
      "num_tokens": 279461129.0,
      "step": 2790
    },
    {
      "entropy": 0.944140625,
      "epoch": 0.38267049337160036,
      "grad_norm": 0.24773964289586664,
      "learning_rate": 4.169015076793011e-06,
      "loss": 0.9449,
      "mean_token_accuracy": 0.7602075815200806,
      "num_tokens": 280432345.0,
      "step": 2800
    },
    {
      "entropy": 0.912890625,
      "epoch": 0.3840371737050704,
      "grad_norm": 0.25630241799746495,
      "learning_rate": 4.165492461603495e-06,
      "loss": 0.9098,
      "mean_token_accuracy": 0.7658120572566987,
      "num_tokens": 281431868.0,
      "step": 2810
    },
    {
      "entropy": 0.923046875,
      "epoch": 0.3854038540385404,
      "grad_norm": 0.2598537893468017,
      "learning_rate": 4.161969846413978e-06,
      "loss": 0.9219,
      "mean_token_accuracy": 0.7648160994052887,
      "num_tokens": 282396063.0,
      "step": 2820
    },
    {
      "entropy": 0.87578125,
      "epoch": 0.38677053437201037,
      "grad_norm": 0.23319193929625698,
      "learning_rate": 4.158447231224461e-06,
      "loss": 0.878,
      "mean_token_accuracy": 0.7730668008327484,
      "num_tokens": 283462179.0,
      "step": 2830
    },
    {
      "entropy": 0.933984375,
      "epoch": 0.3881372147054804,
      "grad_norm": 0.23576905007946106,
      "learning_rate": 4.1549246160349445e-06,
      "loss": 0.9271,
      "mean_token_accuracy": 0.7620845079421997,
      "num_tokens": 284512317.0,
      "step": 2840
    },
    {
      "entropy": 0.919140625,
      "epoch": 0.3895038950389504,
      "grad_norm": 0.2397881747286267,
      "learning_rate": 4.151402000845428e-06,
      "loss": 0.9145,
      "mean_token_accuracy": 0.7630072355270385,
      "num_tokens": 285546366.0,
      "step": 2850
    },
    {
      "entropy": 0.90703125,
      "epoch": 0.39087057537242037,
      "grad_norm": 0.2265983529777805,
      "learning_rate": 4.147879385655912e-06,
      "loss": 0.899,
      "mean_token_accuracy": 0.76973956823349,
      "num_tokens": 286536086.0,
      "step": 2860
    },
    {
      "entropy": 0.91328125,
      "epoch": 0.3922372557058904,
      "grad_norm": 0.2639989799534745,
      "learning_rate": 4.144356770466394e-06,
      "loss": 0.9072,
      "mean_token_accuracy": 0.7648707866668701,
      "num_tokens": 287506225.0,
      "step": 2870
    },
    {
      "entropy": 0.9984375,
      "epoch": 0.3936039360393604,
      "grad_norm": 0.25108821351380084,
      "learning_rate": 4.140834155276878e-06,
      "loss": 0.9928,
      "mean_token_accuracy": 0.7503069400787353,
      "num_tokens": 288517766.0,
      "step": 2880
    },
    {
      "entropy": 0.95625,
      "epoch": 0.3949706163728304,
      "grad_norm": 0.24642997511861575,
      "learning_rate": 4.137311540087361e-06,
      "loss": 0.9568,
      "mean_token_accuracy": 0.7587210297584533,
      "num_tokens": 289575438.0,
      "step": 2890
    },
    {
      "entropy": 0.964453125,
      "epoch": 0.3963372967063004,
      "grad_norm": 0.2503887298719439,
      "learning_rate": 4.133788924897845e-06,
      "loss": 0.953,
      "mean_token_accuracy": 0.7576094806194306,
      "num_tokens": 290579778.0,
      "step": 2900
    },
    {
      "entropy": 0.893359375,
      "epoch": 0.3977039770397704,
      "grad_norm": 0.2338083542041779,
      "learning_rate": 4.130266309708328e-06,
      "loss": 0.8958,
      "mean_token_accuracy": 0.7720232009887695,
      "num_tokens": 291573891.0,
      "step": 2910
    },
    {
      "entropy": 0.95703125,
      "epoch": 0.3990706573732404,
      "grad_norm": 0.25412321965090184,
      "learning_rate": 4.126743694518811e-06,
      "loss": 0.9486,
      "mean_token_accuracy": 0.7577801287174225,
      "num_tokens": 292603953.0,
      "step": 2920
    },
    {
      "entropy": 0.925,
      "epoch": 0.4004373377067104,
      "grad_norm": 0.2555814567086417,
      "learning_rate": 4.123221079329294e-06,
      "loss": 0.9167,
      "mean_token_accuracy": 0.7654162108898163,
      "num_tokens": 293541021.0,
      "step": 2930
    },
    {
      "entropy": 0.944140625,
      "epoch": 0.4018040180401804,
      "grad_norm": 0.2537654206606426,
      "learning_rate": 4.1196984641397774e-06,
      "loss": 0.9441,
      "mean_token_accuracy": 0.7579146385192871,
      "num_tokens": 294528087.0,
      "step": 2940
    },
    {
      "entropy": 0.90625,
      "epoch": 0.4031706983736504,
      "grad_norm": 0.2538866892319518,
      "learning_rate": 4.116175848950261e-06,
      "loss": 0.9027,
      "mean_token_accuracy": 0.7696399629116059,
      "num_tokens": 295510553.0,
      "step": 2950
    },
    {
      "entropy": 0.90546875,
      "epoch": 0.4045373787071204,
      "grad_norm": 0.26249009203525264,
      "learning_rate": 4.1126532337607445e-06,
      "loss": 0.8978,
      "mean_token_accuracy": 0.7687437832355499,
      "num_tokens": 296428358.0,
      "step": 2960
    },
    {
      "entropy": 0.955859375,
      "epoch": 0.4059040590405904,
      "grad_norm": 0.2921863621843204,
      "learning_rate": 4.109130618571227e-06,
      "loss": 0.9513,
      "mean_token_accuracy": 0.7581724643707275,
      "num_tokens": 297444594.0,
      "step": 2970
    },
    {
      "entropy": 0.936328125,
      "epoch": 0.4072707393740604,
      "grad_norm": 0.2822671179715509,
      "learning_rate": 4.105608003381711e-06,
      "loss": 0.9272,
      "mean_token_accuracy": 0.759942251443863,
      "num_tokens": 298427763.0,
      "step": 2980
    },
    {
      "entropy": 0.898046875,
      "epoch": 0.4086374197075304,
      "grad_norm": 0.26153824815380355,
      "learning_rate": 4.102085388192194e-06,
      "loss": 0.8919,
      "mean_token_accuracy": 0.7696446001529693,
      "num_tokens": 299412943.0,
      "step": 2990
    },
    {
      "entropy": 0.936328125,
      "epoch": 0.4100041000410004,
      "grad_norm": 0.26964780576069725,
      "learning_rate": 4.098562773002678e-06,
      "loss": 0.9362,
      "mean_token_accuracy": 0.759148359298706,
      "num_tokens": 300389659.0,
      "step": 3000
    },
    {
      "entropy": 0.902734375,
      "epoch": 0.4113707803744704,
      "grad_norm": 0.23524741057035106,
      "learning_rate": 4.095040157813161e-06,
      "loss": 0.8961,
      "mean_token_accuracy": 0.7694474458694458,
      "num_tokens": 301433498.0,
      "step": 3010
    },
    {
      "entropy": 0.943359375,
      "epoch": 0.41273746070794043,
      "grad_norm": 0.2645579467831054,
      "learning_rate": 4.091517542623644e-06,
      "loss": 0.9555,
      "mean_token_accuracy": 0.7557021856307984,
      "num_tokens": 302413081.0,
      "step": 3020
    },
    {
      "entropy": 0.98203125,
      "epoch": 0.4141041410414104,
      "grad_norm": 0.25522105502015724,
      "learning_rate": 4.087994927434128e-06,
      "loss": 0.9884,
      "mean_token_accuracy": 0.7497303545475006,
      "num_tokens": 303402573.0,
      "step": 3030
    },
    {
      "entropy": 0.945703125,
      "epoch": 0.4154708213748804,
      "grad_norm": 0.23178353926914821,
      "learning_rate": 4.08447231224461e-06,
      "loss": 0.945,
      "mean_token_accuracy": 0.7578986823558808,
      "num_tokens": 304370910.0,
      "step": 3040
    },
    {
      "entropy": 0.883984375,
      "epoch": 0.41683750170835043,
      "grad_norm": 0.2505171778893956,
      "learning_rate": 4.080949697055094e-06,
      "loss": 0.8809,
      "mean_token_accuracy": 0.7707241833209991,
      "num_tokens": 305334775.0,
      "step": 3050
    },
    {
      "entropy": 0.91484375,
      "epoch": 0.4182041820418204,
      "grad_norm": 0.2464302863333403,
      "learning_rate": 4.0774270818655775e-06,
      "loss": 0.9107,
      "mean_token_accuracy": 0.7672606229782104,
      "num_tokens": 306353872.0,
      "step": 3060
    },
    {
      "entropy": 0.965625,
      "epoch": 0.4195708623752904,
      "grad_norm": 0.2610140371472074,
      "learning_rate": 4.073904466676061e-06,
      "loss": 0.9634,
      "mean_token_accuracy": 0.7539059102535248,
      "num_tokens": 307331806.0,
      "step": 3070
    },
    {
      "entropy": 0.94296875,
      "epoch": 0.42093754270876044,
      "grad_norm": 0.2945649626858789,
      "learning_rate": 4.070381851486544e-06,
      "loss": 0.9461,
      "mean_token_accuracy": 0.7609283149242401,
      "num_tokens": 308368576.0,
      "step": 3080
    },
    {
      "entropy": 0.925390625,
      "epoch": 0.4223042230422304,
      "grad_norm": 0.25048300953700015,
      "learning_rate": 4.066859236297027e-06,
      "loss": 0.9264,
      "mean_token_accuracy": 0.7636098444461823,
      "num_tokens": 309387885.0,
      "step": 3090
    },
    {
      "entropy": 0.927734375,
      "epoch": 0.4236709033757004,
      "grad_norm": 0.27116954555207556,
      "learning_rate": 4.06333662110751e-06,
      "loss": 0.9246,
      "mean_token_accuracy": 0.7642216086387634,
      "num_tokens": 310360880.0,
      "step": 3100
    },
    {
      "entropy": 0.971875,
      "epoch": 0.42503758370917044,
      "grad_norm": 0.25621559012715006,
      "learning_rate": 4.059814005917994e-06,
      "loss": 0.982,
      "mean_token_accuracy": 0.7537211298942565,
      "num_tokens": 311413015.0,
      "step": 3110
    },
    {
      "entropy": 0.92421875,
      "epoch": 0.4264042640426404,
      "grad_norm": 0.2290338048384126,
      "learning_rate": 4.056291390728477e-06,
      "loss": 0.9178,
      "mean_token_accuracy": 0.7653012752532959,
      "num_tokens": 312411848.0,
      "step": 3120
    },
    {
      "entropy": 0.97578125,
      "epoch": 0.4277709443761104,
      "grad_norm": 0.2838657601723272,
      "learning_rate": 4.052768775538961e-06,
      "loss": 0.9799,
      "mean_token_accuracy": 0.7539844691753388,
      "num_tokens": 313432995.0,
      "step": 3130
    },
    {
      "entropy": 0.941796875,
      "epoch": 0.42913762470958045,
      "grad_norm": 0.2706007610360644,
      "learning_rate": 4.049246160349444e-06,
      "loss": 0.933,
      "mean_token_accuracy": 0.7631049454212189,
      "num_tokens": 314460323.0,
      "step": 3140
    },
    {
      "entropy": 0.910546875,
      "epoch": 0.43050430504305043,
      "grad_norm": 0.23211552836366567,
      "learning_rate": 4.045723545159927e-06,
      "loss": 0.9091,
      "mean_token_accuracy": 0.7658684194087982,
      "num_tokens": 315425698.0,
      "step": 3150
    },
    {
      "entropy": 0.888671875,
      "epoch": 0.4318709853765204,
      "grad_norm": 0.24328976129731555,
      "learning_rate": 4.04220092997041e-06,
      "loss": 0.8907,
      "mean_token_accuracy": 0.7712959170341491,
      "num_tokens": 316440825.0,
      "step": 3160
    },
    {
      "entropy": 0.912109375,
      "epoch": 0.43323766570999045,
      "grad_norm": 0.23217746033287426,
      "learning_rate": 4.038678314780894e-06,
      "loss": 0.905,
      "mean_token_accuracy": 0.7674481213092804,
      "num_tokens": 317499361.0,
      "step": 3170
    },
    {
      "entropy": 0.9328125,
      "epoch": 0.43460434604346043,
      "grad_norm": 0.24280467057082167,
      "learning_rate": 4.0351556995913775e-06,
      "loss": 0.9342,
      "mean_token_accuracy": 0.7608679711818696,
      "num_tokens": 318535159.0,
      "step": 3180
    },
    {
      "entropy": 0.916015625,
      "epoch": 0.4359710263769304,
      "grad_norm": 0.22449385491275542,
      "learning_rate": 4.03163308440186e-06,
      "loss": 0.9206,
      "mean_token_accuracy": 0.7647063195705414,
      "num_tokens": 319525232.0,
      "step": 3190
    },
    {
      "entropy": 0.9390625,
      "epoch": 0.43733770671040045,
      "grad_norm": 0.2577269869986182,
      "learning_rate": 4.028110469212344e-06,
      "loss": 0.9399,
      "mean_token_accuracy": 0.7626935482025147,
      "num_tokens": 320474887.0,
      "step": 3200
    },
    {
      "entropy": 0.918359375,
      "epoch": 0.43870438704387044,
      "grad_norm": 0.24061375453286787,
      "learning_rate": 4.0245878540228264e-06,
      "loss": 0.9143,
      "mean_token_accuracy": 0.7655591249465943,
      "num_tokens": 321463665.0,
      "step": 3210
    },
    {
      "entropy": 0.96484375,
      "epoch": 0.4400710673773404,
      "grad_norm": 0.24421072288386622,
      "learning_rate": 4.02106523883331e-06,
      "loss": 0.9634,
      "mean_token_accuracy": 0.7574036836624145,
      "num_tokens": 322430041.0,
      "step": 3220
    },
    {
      "entropy": 0.90078125,
      "epoch": 0.44143774771081046,
      "grad_norm": 0.27169974402654024,
      "learning_rate": 4.0175426236437935e-06,
      "loss": 0.9058,
      "mean_token_accuracy": 0.7677097678184509,
      "num_tokens": 323393790.0,
      "step": 3230
    },
    {
      "entropy": 0.903125,
      "epoch": 0.44280442804428044,
      "grad_norm": 0.27039391262289975,
      "learning_rate": 4.014020008454277e-06,
      "loss": 0.9053,
      "mean_token_accuracy": 0.7680762946605683,
      "num_tokens": 324396436.0,
      "step": 3240
    },
    {
      "entropy": 0.909765625,
      "epoch": 0.4441711083777504,
      "grad_norm": 0.22551975841515468,
      "learning_rate": 4.01049739326476e-06,
      "loss": 0.8988,
      "mean_token_accuracy": 0.766703188419342,
      "num_tokens": 325343170.0,
      "step": 3250
    },
    {
      "entropy": 0.923828125,
      "epoch": 0.44553778871122046,
      "grad_norm": 0.22862294121205318,
      "learning_rate": 4.006974778075243e-06,
      "loss": 0.9224,
      "mean_token_accuracy": 0.765446400642395,
      "num_tokens": 326355307.0,
      "step": 3260
    },
    {
      "entropy": 0.946875,
      "epoch": 0.44690446904469044,
      "grad_norm": 0.21050924899596388,
      "learning_rate": 4.003452162885727e-06,
      "loss": 0.9487,
      "mean_token_accuracy": 0.7565960943698883,
      "num_tokens": 327388298.0,
      "step": 3270
    },
    {
      "entropy": 0.88359375,
      "epoch": 0.4482711493781604,
      "grad_norm": 0.26210404512096275,
      "learning_rate": 3.99992954769621e-06,
      "loss": 0.8919,
      "mean_token_accuracy": 0.7694587767124176,
      "num_tokens": 328389066.0,
      "step": 3280
    },
    {
      "entropy": 0.903515625,
      "epoch": 0.44963782971163047,
      "grad_norm": 0.24741994033339926,
      "learning_rate": 3.996406932506693e-06,
      "loss": 0.8994,
      "mean_token_accuracy": 0.7690979957580566,
      "num_tokens": 329429521.0,
      "step": 3290
    },
    {
      "entropy": 0.889453125,
      "epoch": 0.45100451004510045,
      "grad_norm": 0.2524424643366589,
      "learning_rate": 3.992884317317177e-06,
      "loss": 0.8921,
      "mean_token_accuracy": 0.7701402485370636,
      "num_tokens": 330482625.0,
      "step": 3300
    },
    {
      "entropy": 0.9515625,
      "epoch": 0.45237119037857043,
      "grad_norm": 0.2570748704806747,
      "learning_rate": 3.98936170212766e-06,
      "loss": 0.955,
      "mean_token_accuracy": 0.7582892954349518,
      "num_tokens": 331506313.0,
      "step": 3310
    },
    {
      "entropy": 0.88984375,
      "epoch": 0.45373787071204047,
      "grad_norm": 0.2311826496131989,
      "learning_rate": 3.985839086938143e-06,
      "loss": 0.8836,
      "mean_token_accuracy": 0.7706637859344483,
      "num_tokens": 332494855.0,
      "step": 3320
    },
    {
      "entropy": 0.9203125,
      "epoch": 0.45510455104551045,
      "grad_norm": 0.24890838165071882,
      "learning_rate": 3.9823164717486265e-06,
      "loss": 0.9216,
      "mean_token_accuracy": 0.7631955623626709,
      "num_tokens": 333547164.0,
      "step": 3330
    },
    {
      "entropy": 0.926953125,
      "epoch": 0.45647123137898044,
      "grad_norm": 0.2412858985243285,
      "learning_rate": 3.97879385655911e-06,
      "loss": 0.9248,
      "mean_token_accuracy": 0.7632501602172852,
      "num_tokens": 334529077.0,
      "step": 3340
    },
    {
      "entropy": 0.94609375,
      "epoch": 0.4578379117124505,
      "grad_norm": 0.28511656413905445,
      "learning_rate": 3.9752712413695936e-06,
      "loss": 0.9471,
      "mean_token_accuracy": 0.7590270161628723,
      "num_tokens": 335516657.0,
      "step": 3350
    },
    {
      "entropy": 0.97109375,
      "epoch": 0.45920459204592046,
      "grad_norm": 0.25916545700183485,
      "learning_rate": 3.971748626180076e-06,
      "loss": 0.9736,
      "mean_token_accuracy": 0.7526297092437744,
      "num_tokens": 336529399.0,
      "step": 3360
    },
    {
      "entropy": 0.9296875,
      "epoch": 0.46057127237939044,
      "grad_norm": 0.23552374406720894,
      "learning_rate": 3.96822601099056e-06,
      "loss": 0.9258,
      "mean_token_accuracy": 0.7617551326751709,
      "num_tokens": 337575192.0,
      "step": 3370
    },
    {
      "entropy": 0.926171875,
      "epoch": 0.4619379527128605,
      "grad_norm": 0.23045303551974136,
      "learning_rate": 3.9647033958010425e-06,
      "loss": 0.9375,
      "mean_token_accuracy": 0.7606622517108917,
      "num_tokens": 338561351.0,
      "step": 3380
    },
    {
      "entropy": 0.91484375,
      "epoch": 0.46330463304633046,
      "grad_norm": 0.2701818282476445,
      "learning_rate": 3.961180780611527e-06,
      "loss": 0.9156,
      "mean_token_accuracy": 0.7636234760284424,
      "num_tokens": 339557736.0,
      "step": 3390
    },
    {
      "entropy": 0.9484375,
      "epoch": 0.46467131337980044,
      "grad_norm": 0.22528223340560097,
      "learning_rate": 3.95765816542201e-06,
      "loss": 0.9467,
      "mean_token_accuracy": 0.7601224660873414,
      "num_tokens": 340603014.0,
      "step": 3400
    },
    {
      "entropy": 0.891796875,
      "epoch": 0.4660379937132705,
      "grad_norm": 0.23659715289796598,
      "learning_rate": 3.954135550232493e-06,
      "loss": 0.8844,
      "mean_token_accuracy": 0.769876879453659,
      "num_tokens": 341584764.0,
      "step": 3410
    },
    {
      "entropy": 0.937890625,
      "epoch": 0.46740467404674046,
      "grad_norm": 0.24134264781495762,
      "learning_rate": 3.950612935042976e-06,
      "loss": 0.9309,
      "mean_token_accuracy": 0.7618476152420044,
      "num_tokens": 342590031.0,
      "step": 3420
    },
    {
      "entropy": 0.8953125,
      "epoch": 0.46877135438021045,
      "grad_norm": 0.2508829404750703,
      "learning_rate": 3.947090319853459e-06,
      "loss": 0.8829,
      "mean_token_accuracy": 0.7718355357646942,
      "num_tokens": 343580633.0,
      "step": 3430
    },
    {
      "entropy": 0.967578125,
      "epoch": 0.4701380347136805,
      "grad_norm": 0.2780985189145375,
      "learning_rate": 3.943567704663943e-06,
      "loss": 0.9629,
      "mean_token_accuracy": 0.7578622341156006,
      "num_tokens": 344555481.0,
      "step": 3440
    },
    {
      "entropy": 0.919921875,
      "epoch": 0.47150471504715047,
      "grad_norm": 0.2743001916432963,
      "learning_rate": 3.9400450894744265e-06,
      "loss": 0.9123,
      "mean_token_accuracy": 0.7650802493095398,
      "num_tokens": 345513015.0,
      "step": 3450
    },
    {
      "entropy": 0.966796875,
      "epoch": 0.47287139538062045,
      "grad_norm": 0.33103746160839803,
      "learning_rate": 3.936522474284909e-06,
      "loss": 0.9846,
      "mean_token_accuracy": 0.753495842218399,
      "num_tokens": 346519872.0,
      "step": 3460
    },
    {
      "entropy": 0.915234375,
      "epoch": 0.4742380757140905,
      "grad_norm": 0.27481685444048404,
      "learning_rate": 3.932999859095393e-06,
      "loss": 0.9188,
      "mean_token_accuracy": 0.7648338913917542,
      "num_tokens": 347593024.0,
      "step": 3470
    },
    {
      "entropy": 0.906640625,
      "epoch": 0.4756047560475605,
      "grad_norm": 0.2506660894769899,
      "learning_rate": 3.929477243905876e-06,
      "loss": 0.9031,
      "mean_token_accuracy": 0.7684588253498077,
      "num_tokens": 348594832.0,
      "step": 3480
    },
    {
      "entropy": 0.94375,
      "epoch": 0.47697143638103046,
      "grad_norm": 0.29185525197697537,
      "learning_rate": 3.925954628716359e-06,
      "loss": 0.9371,
      "mean_token_accuracy": 0.7632603466510772,
      "num_tokens": 349593190.0,
      "step": 3490
    },
    {
      "entropy": 0.94921875,
      "epoch": 0.4783381167145005,
      "grad_norm": 0.25513835747651403,
      "learning_rate": 3.9224320135268425e-06,
      "loss": 0.942,
      "mean_token_accuracy": 0.7594867289066315,
      "num_tokens": 350561915.0,
      "step": 3500
    },
    {
      "entropy": 0.930078125,
      "epoch": 0.4797047970479705,
      "grad_norm": 0.347283068538184,
      "learning_rate": 3.918909398337326e-06,
      "loss": 0.929,
      "mean_token_accuracy": 0.7626115381717682,
      "num_tokens": 351565428.0,
      "step": 3510
    },
    {
      "entropy": 0.898828125,
      "epoch": 0.48107147738144046,
      "grad_norm": 0.25666358954407104,
      "learning_rate": 3.91538678314781e-06,
      "loss": 0.8939,
      "mean_token_accuracy": 0.7711920022964478,
      "num_tokens": 352587603.0,
      "step": 3520
    },
    {
      "entropy": 0.941796875,
      "epoch": 0.4824381577149105,
      "grad_norm": 0.24402418033501114,
      "learning_rate": 3.911864167958292e-06,
      "loss": 0.9277,
      "mean_token_accuracy": 0.7645569264888763,
      "num_tokens": 353602912.0,
      "step": 3530
    },
    {
      "entropy": 0.9171875,
      "epoch": 0.4838048380483805,
      "grad_norm": 0.23665105398697028,
      "learning_rate": 3.908341552768776e-06,
      "loss": 0.911,
      "mean_token_accuracy": 0.766057825088501,
      "num_tokens": 354606364.0,
      "step": 3540
    },
    {
      "entropy": 0.90859375,
      "epoch": 0.48517151838185046,
      "grad_norm": 0.23107576560319854,
      "learning_rate": 3.9048189375792586e-06,
      "loss": 0.9094,
      "mean_token_accuracy": 0.7648696720600128,
      "num_tokens": 355587589.0,
      "step": 3550
    },
    {
      "entropy": 0.955078125,
      "epoch": 0.4865381987153205,
      "grad_norm": 0.25270581348565063,
      "learning_rate": 3.901296322389743e-06,
      "loss": 0.9556,
      "mean_token_accuracy": 0.7563231945037842,
      "num_tokens": 356558152.0,
      "step": 3560
    },
    {
      "entropy": 0.94296875,
      "epoch": 0.4879048790487905,
      "grad_norm": 0.2617068218041789,
      "learning_rate": 3.897773707200226e-06,
      "loss": 0.9301,
      "mean_token_accuracy": 0.7607408821582794,
      "num_tokens": 357540541.0,
      "step": 3570
    },
    {
      "entropy": 0.936328125,
      "epoch": 0.48927155938226047,
      "grad_norm": 0.28155499037316056,
      "learning_rate": 3.894251092010709e-06,
      "loss": 0.9207,
      "mean_token_accuracy": 0.7626710355281829,
      "num_tokens": 358570092.0,
      "step": 3580
    },
    {
      "entropy": 0.884765625,
      "epoch": 0.4906382397157305,
      "grad_norm": 0.25942023118643376,
      "learning_rate": 3.890728476821192e-06,
      "loss": 0.8758,
      "mean_token_accuracy": 0.77434943318367,
      "num_tokens": 359534391.0,
      "step": 3590
    },
    {
      "entropy": 0.8671875,
      "epoch": 0.4920049200492005,
      "grad_norm": 0.24431485508580514,
      "learning_rate": 3.8872058616316755e-06,
      "loss": 0.8592,
      "mean_token_accuracy": 0.7780984103679657,
      "num_tokens": 360497311.0,
      "step": 3600
    },
    {
      "entropy": 0.914453125,
      "epoch": 0.49337160038267047,
      "grad_norm": 0.2459302587696285,
      "learning_rate": 3.883683246442159e-06,
      "loss": 0.9055,
      "mean_token_accuracy": 0.766940462589264,
      "num_tokens": 361488754.0,
      "step": 3610
    },
    {
      "entropy": 0.93828125,
      "epoch": 0.4947382807161405,
      "grad_norm": 0.24645552091822281,
      "learning_rate": 3.8801606312526426e-06,
      "loss": 0.9341,
      "mean_token_accuracy": 0.7629101872444153,
      "num_tokens": 362539500.0,
      "step": 3620
    },
    {
      "entropy": 0.849609375,
      "epoch": 0.4961049610496105,
      "grad_norm": 0.23058987667495062,
      "learning_rate": 3.876638016063125e-06,
      "loss": 0.8395,
      "mean_token_accuracy": 0.7826066732406616,
      "num_tokens": 363566701.0,
      "step": 3630
    },
    {
      "entropy": 0.88984375,
      "epoch": 0.4974716413830805,
      "grad_norm": 0.2843352984720728,
      "learning_rate": 3.873115400873609e-06,
      "loss": 0.886,
      "mean_token_accuracy": 0.772181510925293,
      "num_tokens": 364529201.0,
      "step": 3640
    },
    {
      "entropy": 0.930078125,
      "epoch": 0.4988383217165505,
      "grad_norm": 0.24550109080828295,
      "learning_rate": 3.869592785684092e-06,
      "loss": 0.9305,
      "mean_token_accuracy": 0.7635206341743469,
      "num_tokens": 365535910.0,
      "step": 3650
    },
    {
      "entropy": 0.9296875,
      "epoch": 0.5002050020500205,
      "grad_norm": 0.23527163198508574,
      "learning_rate": 3.866070170494575e-06,
      "loss": 0.9297,
      "mean_token_accuracy": 0.7632140338420867,
      "num_tokens": 366511634.0,
      "step": 3660
    },
    {
      "entropy": 0.920703125,
      "epoch": 0.5015716823834905,
      "grad_norm": 0.28471808266099025,
      "learning_rate": 3.862547555305059e-06,
      "loss": 0.9277,
      "mean_token_accuracy": 0.7621736168861389,
      "num_tokens": 367546812.0,
      "step": 3670
    },
    {
      "entropy": 0.92421875,
      "epoch": 0.5029383627169605,
      "grad_norm": 0.28171664128241086,
      "learning_rate": 3.859024940115542e-06,
      "loss": 0.932,
      "mean_token_accuracy": 0.7621535360813141,
      "num_tokens": 368552370.0,
      "step": 3680
    },
    {
      "entropy": 0.891015625,
      "epoch": 0.5043050430504306,
      "grad_norm": 0.228258790651715,
      "learning_rate": 3.855502324926026e-06,
      "loss": 0.8863,
      "mean_token_accuracy": 0.7735425889492035,
      "num_tokens": 369603613.0,
      "step": 3690
    },
    {
      "entropy": 0.92421875,
      "epoch": 0.5056717233839005,
      "grad_norm": 0.28602230133300843,
      "learning_rate": 3.851979709736508e-06,
      "loss": 0.9264,
      "mean_token_accuracy": 0.7657913327217102,
      "num_tokens": 370579772.0,
      "step": 3700
    },
    {
      "entropy": 0.930859375,
      "epoch": 0.5070384037173705,
      "grad_norm": 0.2515670602019458,
      "learning_rate": 3.848457094546992e-06,
      "loss": 0.9195,
      "mean_token_accuracy": 0.7658329784870148,
      "num_tokens": 371569052.0,
      "step": 3710
    },
    {
      "entropy": 0.899609375,
      "epoch": 0.5084050840508405,
      "grad_norm": 0.23991457436818692,
      "learning_rate": 3.8449344793574755e-06,
      "loss": 0.9016,
      "mean_token_accuracy": 0.7681352615356445,
      "num_tokens": 372600551.0,
      "step": 3720
    },
    {
      "entropy": 0.928125,
      "epoch": 0.5097717643843105,
      "grad_norm": 0.2304405811357261,
      "learning_rate": 3.841411864167959e-06,
      "loss": 0.9253,
      "mean_token_accuracy": 0.7629469871520996,
      "num_tokens": 373584656.0,
      "step": 3730
    },
    {
      "entropy": 0.93046875,
      "epoch": 0.5111384447177805,
      "grad_norm": 0.25516691749997217,
      "learning_rate": 3.837889248978442e-06,
      "loss": 0.9315,
      "mean_token_accuracy": 0.7614859819412232,
      "num_tokens": 374563340.0,
      "step": 3740
    },
    {
      "entropy": 0.919921875,
      "epoch": 0.5125051250512506,
      "grad_norm": 0.2574585715275644,
      "learning_rate": 3.834366633788925e-06,
      "loss": 0.9209,
      "mean_token_accuracy": 0.7661157548427582,
      "num_tokens": 375567281.0,
      "step": 3750
    },
    {
      "entropy": 0.934765625,
      "epoch": 0.5138718053847205,
      "grad_norm": 0.28388737164409805,
      "learning_rate": 3.830844018599408e-06,
      "loss": 0.9311,
      "mean_token_accuracy": 0.7611650288105011,
      "num_tokens": 376511811.0,
      "step": 3760
    },
    {
      "entropy": 0.943359375,
      "epoch": 0.5152384857181905,
      "grad_norm": 0.2422970655274601,
      "learning_rate": 3.8273214034098915e-06,
      "loss": 0.9381,
      "mean_token_accuracy": 0.7612590074539185,
      "num_tokens": 377512831.0,
      "step": 3770
    },
    {
      "entropy": 0.941015625,
      "epoch": 0.5166051660516605,
      "grad_norm": 0.22172132022411378,
      "learning_rate": 3.823798788220375e-06,
      "loss": 0.9295,
      "mean_token_accuracy": 0.7611710011959076,
      "num_tokens": 378478492.0,
      "step": 3780
    },
    {
      "entropy": 0.90234375,
      "epoch": 0.5179718463851305,
      "grad_norm": 0.27034539363362803,
      "learning_rate": 3.820276173030859e-06,
      "loss": 0.901,
      "mean_token_accuracy": 0.7679288804531097,
      "num_tokens": 379444691.0,
      "step": 3790
    },
    {
      "entropy": 0.922265625,
      "epoch": 0.5193385267186005,
      "grad_norm": 0.2417184005723101,
      "learning_rate": 3.816753557841341e-06,
      "loss": 0.9243,
      "mean_token_accuracy": 0.7634738266468049,
      "num_tokens": 380423660.0,
      "step": 3800
    },
    {
      "entropy": 0.92890625,
      "epoch": 0.5207052070520706,
      "grad_norm": 0.2562753129156492,
      "learning_rate": 3.813230942651825e-06,
      "loss": 0.9257,
      "mean_token_accuracy": 0.7637025535106658,
      "num_tokens": 381365233.0,
      "step": 3810
    },
    {
      "entropy": 0.919140625,
      "epoch": 0.5220718873855406,
      "grad_norm": 0.24708793648557684,
      "learning_rate": 3.809708327462308e-06,
      "loss": 0.9157,
      "mean_token_accuracy": 0.7644269526004791,
      "num_tokens": 382338629.0,
      "step": 3820
    },
    {
      "entropy": 0.927734375,
      "epoch": 0.5234385677190105,
      "grad_norm": 0.2467520311389951,
      "learning_rate": 3.806185712272792e-06,
      "loss": 0.926,
      "mean_token_accuracy": 0.7641110718250275,
      "num_tokens": 383353565.0,
      "step": 3830
    },
    {
      "entropy": 0.996875,
      "epoch": 0.5248052480524805,
      "grad_norm": 0.2530310613362054,
      "learning_rate": 3.802663097083275e-06,
      "loss": 1.0062,
      "mean_token_accuracy": 0.7464824199676514,
      "num_tokens": 384284378.0,
      "step": 3840
    },
    {
      "entropy": 0.92578125,
      "epoch": 0.5261719283859505,
      "grad_norm": 0.25333512473916536,
      "learning_rate": 3.799140481893758e-06,
      "loss": 0.9174,
      "mean_token_accuracy": 0.7647570967674255,
      "num_tokens": 385243988.0,
      "step": 3850
    },
    {
      "entropy": 0.912890625,
      "epoch": 0.5275386087194205,
      "grad_norm": 0.24407904227072305,
      "learning_rate": 3.7956178667042413e-06,
      "loss": 0.903,
      "mean_token_accuracy": 0.7701143205165863,
      "num_tokens": 386204705.0,
      "step": 3860
    },
    {
      "entropy": 0.88984375,
      "epoch": 0.5289052890528906,
      "grad_norm": 0.24689187590676753,
      "learning_rate": 3.792095251514725e-06,
      "loss": 0.8854,
      "mean_token_accuracy": 0.7702085137367248,
      "num_tokens": 387221442.0,
      "step": 3870
    },
    {
      "entropy": 0.887890625,
      "epoch": 0.5302719693863606,
      "grad_norm": 0.3505978562814055,
      "learning_rate": 3.788572636325208e-06,
      "loss": 0.89,
      "mean_token_accuracy": 0.7704306244850159,
      "num_tokens": 388252567.0,
      "step": 3880
    },
    {
      "entropy": 0.887890625,
      "epoch": 0.5316386497198305,
      "grad_norm": 0.2332565297454022,
      "learning_rate": 3.7850500211356916e-06,
      "loss": 0.8866,
      "mean_token_accuracy": 0.7707777559757233,
      "num_tokens": 389259487.0,
      "step": 3890
    },
    {
      "entropy": 0.923828125,
      "epoch": 0.5330053300533005,
      "grad_norm": 0.2467191348461594,
      "learning_rate": 3.7815274059461747e-06,
      "loss": 0.9222,
      "mean_token_accuracy": 0.7634963810443878,
      "num_tokens": 390253163.0,
      "step": 3900
    },
    {
      "entropy": 0.90625,
      "epoch": 0.5343720103867705,
      "grad_norm": 0.22594723081285767,
      "learning_rate": 3.7780047907566582e-06,
      "loss": 0.9124,
      "mean_token_accuracy": 0.7654871940612793,
      "num_tokens": 391269104.0,
      "step": 3910
    },
    {
      "entropy": 0.90234375,
      "epoch": 0.5357386907202405,
      "grad_norm": 0.23061715836339317,
      "learning_rate": 3.7744821755671413e-06,
      "loss": 0.9001,
      "mean_token_accuracy": 0.770538604259491,
      "num_tokens": 392288204.0,
      "step": 3920
    },
    {
      "entropy": 0.91796875,
      "epoch": 0.5371053710537106,
      "grad_norm": 0.23430711903477316,
      "learning_rate": 3.7709595603776245e-06,
      "loss": 0.9331,
      "mean_token_accuracy": 0.7622620820999145,
      "num_tokens": 393303667.0,
      "step": 3930
    },
    {
      "entropy": 0.9421875,
      "epoch": 0.5384720513871806,
      "grad_norm": 0.2644207390644048,
      "learning_rate": 3.767436945188108e-06,
      "loss": 0.9435,
      "mean_token_accuracy": 0.7592921435832978,
      "num_tokens": 394294972.0,
      "step": 3940
    },
    {
      "entropy": 0.90859375,
      "epoch": 0.5398387317206506,
      "grad_norm": 0.24698558213704624,
      "learning_rate": 3.7639143299985916e-06,
      "loss": 0.9083,
      "mean_token_accuracy": 0.7674551367759704,
      "num_tokens": 395281144.0,
      "step": 3950
    },
    {
      "entropy": 0.9421875,
      "epoch": 0.5412054120541205,
      "grad_norm": 0.2348300625337578,
      "learning_rate": 3.7603917148090747e-06,
      "loss": 0.9468,
      "mean_token_accuracy": 0.7595759332180023,
      "num_tokens": 396282458.0,
      "step": 3960
    },
    {
      "entropy": 0.895703125,
      "epoch": 0.5425720923875905,
      "grad_norm": 0.24093633388717386,
      "learning_rate": 3.756869099619558e-06,
      "loss": 0.9,
      "mean_token_accuracy": 0.7699548363685608,
      "num_tokens": 397299233.0,
      "step": 3970
    },
    {
      "entropy": 0.890625,
      "epoch": 0.5439387727210605,
      "grad_norm": 0.23997999218347857,
      "learning_rate": 3.753346484430041e-06,
      "loss": 0.8891,
      "mean_token_accuracy": 0.7713452637195587,
      "num_tokens": 398281717.0,
      "step": 3980
    },
    {
      "entropy": 0.89609375,
      "epoch": 0.5453054530545306,
      "grad_norm": 0.250834866849977,
      "learning_rate": 3.749823869240524e-06,
      "loss": 0.8945,
      "mean_token_accuracy": 0.7702607750892639,
      "num_tokens": 399265146.0,
      "step": 3990
    },
    {
      "entropy": 0.88203125,
      "epoch": 0.5466721333880006,
      "grad_norm": 0.24872402965275736,
      "learning_rate": 3.746301254051008e-06,
      "loss": 0.8783,
      "mean_token_accuracy": 0.7728537023067474,
      "num_tokens": 400256118.0,
      "step": 4000
    },
    {
      "entropy": 0.878125,
      "epoch": 0.5480388137214706,
      "grad_norm": 0.25540419847881574,
      "learning_rate": 3.742778638861491e-06,
      "loss": 0.8777,
      "mean_token_accuracy": 0.7721058785915375,
      "num_tokens": 401251718.0,
      "step": 4010
    },
    {
      "entropy": 0.912890625,
      "epoch": 0.5494054940549405,
      "grad_norm": 0.2618658961399223,
      "learning_rate": 3.7392560236719743e-06,
      "loss": 0.9078,
      "mean_token_accuracy": 0.7653727054595947,
      "num_tokens": 402208932.0,
      "step": 4020
    },
    {
      "entropy": 0.8734375,
      "epoch": 0.5507721743884105,
      "grad_norm": 0.2377555912757661,
      "learning_rate": 3.7357334084824574e-06,
      "loss": 0.8724,
      "mean_token_accuracy": 0.775447428226471,
      "num_tokens": 403201031.0,
      "step": 4030
    },
    {
      "entropy": 0.8875,
      "epoch": 0.5521388547218805,
      "grad_norm": 0.25601455189206146,
      "learning_rate": 3.732210793292941e-06,
      "loss": 0.8738,
      "mean_token_accuracy": 0.7742065966129303,
      "num_tokens": 404208352.0,
      "step": 4040
    },
    {
      "entropy": 0.926171875,
      "epoch": 0.5535055350553506,
      "grad_norm": 0.2502124293600694,
      "learning_rate": 3.7286881781034245e-06,
      "loss": 0.9258,
      "mean_token_accuracy": 0.7633727967739106,
      "num_tokens": 405228257.0,
      "step": 4050
    },
    {
      "entropy": 0.91015625,
      "epoch": 0.5548722153888206,
      "grad_norm": 0.23864710746614903,
      "learning_rate": 3.7251655629139076e-06,
      "loss": 0.903,
      "mean_token_accuracy": 0.7682978510856628,
      "num_tokens": 406262561.0,
      "step": 4060
    },
    {
      "entropy": 0.9546875,
      "epoch": 0.5562388957222906,
      "grad_norm": 0.23299728127910094,
      "learning_rate": 3.7216429477243907e-06,
      "loss": 0.9436,
      "mean_token_accuracy": 0.7585872650146485,
      "num_tokens": 407259161.0,
      "step": 4070
    },
    {
      "entropy": 0.9078125,
      "epoch": 0.5576055760557606,
      "grad_norm": 0.2279724297597042,
      "learning_rate": 3.7181203325348743e-06,
      "loss": 0.9026,
      "mean_token_accuracy": 0.7675146758556366,
      "num_tokens": 408297673.0,
      "step": 4080
    },
    {
      "entropy": 0.946875,
      "epoch": 0.5589722563892305,
      "grad_norm": 0.27136648530329244,
      "learning_rate": 3.7145977173453574e-06,
      "loss": 0.9406,
      "mean_token_accuracy": 0.7591859817504882,
      "num_tokens": 409266496.0,
      "step": 4090
    },
    {
      "entropy": 0.9015625,
      "epoch": 0.5603389367227005,
      "grad_norm": 0.23270598757534192,
      "learning_rate": 3.7110751021558405e-06,
      "loss": 0.9035,
      "mean_token_accuracy": 0.7673206269741059,
      "num_tokens": 410238401.0,
      "step": 4100
    },
    {
      "entropy": 0.890625,
      "epoch": 0.5617056170561706,
      "grad_norm": 0.23976690219392574,
      "learning_rate": 3.7075524869663245e-06,
      "loss": 0.887,
      "mean_token_accuracy": 0.770005077123642,
      "num_tokens": 411280517.0,
      "step": 4110
    },
    {
      "entropy": 0.89765625,
      "epoch": 0.5630722973896406,
      "grad_norm": 0.23881562056643357,
      "learning_rate": 3.7040298717768076e-06,
      "loss": 0.8891,
      "mean_token_accuracy": 0.7723242342472076,
      "num_tokens": 412309765.0,
      "step": 4120
    },
    {
      "entropy": 0.93359375,
      "epoch": 0.5644389777231106,
      "grad_norm": 0.24247641338605513,
      "learning_rate": 3.7005072565872908e-06,
      "loss": 0.9266,
      "mean_token_accuracy": 0.7634387075901031,
      "num_tokens": 413340967.0,
      "step": 4130
    },
    {
      "entropy": 0.928125,
      "epoch": 0.5658056580565806,
      "grad_norm": 0.2504408080600649,
      "learning_rate": 3.696984641397774e-06,
      "loss": 0.9319,
      "mean_token_accuracy": 0.7617969334125518,
      "num_tokens": 414340603.0,
      "step": 4140
    },
    {
      "entropy": 0.8828125,
      "epoch": 0.5671723383900505,
      "grad_norm": 0.25099532976762184,
      "learning_rate": 3.693462026208257e-06,
      "loss": 0.8774,
      "mean_token_accuracy": 0.7732459306716919,
      "num_tokens": 415339057.0,
      "step": 4150
    },
    {
      "entropy": 0.91953125,
      "epoch": 0.5685390187235205,
      "grad_norm": 0.22866191458168236,
      "learning_rate": 3.689939411018741e-06,
      "loss": 0.9219,
      "mean_token_accuracy": 0.7664397060871124,
      "num_tokens": 416381610.0,
      "step": 4160
    },
    {
      "entropy": 0.85078125,
      "epoch": 0.5699056990569906,
      "grad_norm": 0.24468939989873628,
      "learning_rate": 3.686416795829224e-06,
      "loss": 0.8408,
      "mean_token_accuracy": 0.7798651576042175,
      "num_tokens": 417378752.0,
      "step": 4170
    },
    {
      "entropy": 0.8953125,
      "epoch": 0.5712723793904606,
      "grad_norm": 0.2518772717227815,
      "learning_rate": 3.6828941806397072e-06,
      "loss": 0.898,
      "mean_token_accuracy": 0.7694315731525421,
      "num_tokens": 418347850.0,
      "step": 4180
    },
    {
      "entropy": 0.905859375,
      "epoch": 0.5726390597239306,
      "grad_norm": 0.24835410965277116,
      "learning_rate": 3.6793715654501903e-06,
      "loss": 0.8988,
      "mean_token_accuracy": 0.7679877758026123,
      "num_tokens": 419363657.0,
      "step": 4190
    },
    {
      "entropy": 0.91484375,
      "epoch": 0.5740057400574006,
      "grad_norm": 0.26766323432231526,
      "learning_rate": 3.6758489502606735e-06,
      "loss": 0.9125,
      "mean_token_accuracy": 0.766846525669098,
      "num_tokens": 420407370.0,
      "step": 4200
    },
    {
      "entropy": 0.922265625,
      "epoch": 0.5753724203908706,
      "grad_norm": 0.2563660551440524,
      "learning_rate": 3.672326335071157e-06,
      "loss": 0.9147,
      "mean_token_accuracy": 0.7662194669246674,
      "num_tokens": 421382440.0,
      "step": 4210
    },
    {
      "entropy": 0.915234375,
      "epoch": 0.5767391007243405,
      "grad_norm": 0.22888194635438958,
      "learning_rate": 3.6688037198816406e-06,
      "loss": 0.9182,
      "mean_token_accuracy": 0.7664249956607818,
      "num_tokens": 422362775.0,
      "step": 4220
    },
    {
      "entropy": 0.89453125,
      "epoch": 0.5781057810578106,
      "grad_norm": 0.27305581782352917,
      "learning_rate": 3.6652811046921237e-06,
      "loss": 0.8963,
      "mean_token_accuracy": 0.7702090442180634,
      "num_tokens": 423331211.0,
      "step": 4230
    },
    {
      "entropy": 0.90625,
      "epoch": 0.5794724613912806,
      "grad_norm": 0.22695796050556263,
      "learning_rate": 3.6617584895026072e-06,
      "loss": 0.9081,
      "mean_token_accuracy": 0.7665144741535187,
      "num_tokens": 424291289.0,
      "step": 4240
    },
    {
      "entropy": 0.93515625,
      "epoch": 0.5808391417247506,
      "grad_norm": 0.2599076278856365,
      "learning_rate": 3.6582358743130904e-06,
      "loss": 0.9302,
      "mean_token_accuracy": 0.7587469756603241,
      "num_tokens": 425304325.0,
      "step": 4250
    },
    {
      "entropy": 0.918359375,
      "epoch": 0.5822058220582206,
      "grad_norm": 0.271705301038031,
      "learning_rate": 3.6547132591235735e-06,
      "loss": 0.9137,
      "mean_token_accuracy": 0.7652993500232697,
      "num_tokens": 426270499.0,
      "step": 4260
    },
    {
      "entropy": 0.940234375,
      "epoch": 0.5835725023916906,
      "grad_norm": 0.28346548336773303,
      "learning_rate": 3.651190643934057e-06,
      "loss": 0.9456,
      "mean_token_accuracy": 0.7610472798347473,
      "num_tokens": 427187011.0,
      "step": 4270
    },
    {
      "entropy": 0.9203125,
      "epoch": 0.5849391827251605,
      "grad_norm": 0.24910139752970897,
      "learning_rate": 3.6476680287445406e-06,
      "loss": 0.9129,
      "mean_token_accuracy": 0.7668809175491333,
      "num_tokens": 428218892.0,
      "step": 4280
    },
    {
      "entropy": 0.892578125,
      "epoch": 0.5863058630586306,
      "grad_norm": 0.24377137538356908,
      "learning_rate": 3.6441454135550237e-06,
      "loss": 0.8854,
      "mean_token_accuracy": 0.7733765661716461,
      "num_tokens": 429237497.0,
      "step": 4290
    },
    {
      "entropy": 0.905859375,
      "epoch": 0.5876725433921006,
      "grad_norm": 0.24054952256842313,
      "learning_rate": 3.640622798365507e-06,
      "loss": 0.9078,
      "mean_token_accuracy": 0.7663526594638824,
      "num_tokens": 430237115.0,
      "step": 4300
    },
    {
      "entropy": 0.94453125,
      "epoch": 0.5890392237255706,
      "grad_norm": 0.2611378529830474,
      "learning_rate": 3.63710018317599e-06,
      "loss": 0.9338,
      "mean_token_accuracy": 0.7613563418388367,
      "num_tokens": 431241122.0,
      "step": 4310
    },
    {
      "entropy": 0.960546875,
      "epoch": 0.5904059040590406,
      "grad_norm": 0.3741027297150196,
      "learning_rate": 3.633577567986473e-06,
      "loss": 0.9649,
      "mean_token_accuracy": 0.7571986556053162,
      "num_tokens": 432221995.0,
      "step": 4320
    },
    {
      "entropy": 0.911328125,
      "epoch": 0.5917725843925106,
      "grad_norm": 0.25500333053964697,
      "learning_rate": 3.630054952796957e-06,
      "loss": 0.9074,
      "mean_token_accuracy": 0.7690041363239288,
      "num_tokens": 433198674.0,
      "step": 4330
    },
    {
      "entropy": 0.94921875,
      "epoch": 0.5931392647259806,
      "grad_norm": 0.24409050181257688,
      "learning_rate": 3.62653233760744e-06,
      "loss": 0.942,
      "mean_token_accuracy": 0.7596655189990997,
      "num_tokens": 434197222.0,
      "step": 4340
    },
    {
      "entropy": 0.907421875,
      "epoch": 0.5945059450594506,
      "grad_norm": 0.2667956570399064,
      "learning_rate": 3.6230097224179233e-06,
      "loss": 0.8982,
      "mean_token_accuracy": 0.7691293001174927,
      "num_tokens": 435080429.0,
      "step": 4350
    },
    {
      "entropy": 0.91640625,
      "epoch": 0.5958726253929206,
      "grad_norm": 0.2636206071096069,
      "learning_rate": 3.6194871072284064e-06,
      "loss": 0.9162,
      "mean_token_accuracy": 0.765841406583786,
      "num_tokens": 436104149.0,
      "step": 4360
    },
    {
      "entropy": 0.92265625,
      "epoch": 0.5972393057263906,
      "grad_norm": 0.24563127656833295,
      "learning_rate": 3.61596449203889e-06,
      "loss": 0.9157,
      "mean_token_accuracy": 0.7661712110042572,
      "num_tokens": 437087451.0,
      "step": 4370
    },
    {
      "entropy": 0.871875,
      "epoch": 0.5986059860598606,
      "grad_norm": 0.22855378890793285,
      "learning_rate": 3.6124418768493735e-06,
      "loss": 0.8626,
      "mean_token_accuracy": 0.7769632339477539,
      "num_tokens": 438073519.0,
      "step": 4380
    },
    {
      "entropy": 0.919140625,
      "epoch": 0.5999726663933306,
      "grad_norm": 0.23585453551868554,
      "learning_rate": 3.6089192616598566e-06,
      "loss": 0.9222,
      "mean_token_accuracy": 0.7653751134872436,
      "num_tokens": 439150829.0,
      "step": 4390
    },
    {
      "entropy": 0.926953125,
      "epoch": 0.6013393467268006,
      "grad_norm": 0.2609325037427649,
      "learning_rate": 3.6053966464703398e-06,
      "loss": 0.9327,
      "mean_token_accuracy": 0.761808431148529,
      "num_tokens": 440124792.0,
      "step": 4400
    },
    {
      "entropy": 0.948828125,
      "epoch": 0.6027060270602707,
      "grad_norm": 0.24005833467659626,
      "learning_rate": 3.6018740312808233e-06,
      "loss": 0.953,
      "mean_token_accuracy": 0.7570438146591186,
      "num_tokens": 441178545.0,
      "step": 4410
    },
    {
      "entropy": 0.911328125,
      "epoch": 0.6040727073937406,
      "grad_norm": 0.26479382327018836,
      "learning_rate": 3.5983514160913064e-06,
      "loss": 0.9129,
      "mean_token_accuracy": 0.7636487066745759,
      "num_tokens": 442210281.0,
      "step": 4420
    },
    {
      "entropy": 0.915234375,
      "epoch": 0.6054393877272106,
      "grad_norm": 0.2328809586208483,
      "learning_rate": 3.5948288009017895e-06,
      "loss": 0.908,
      "mean_token_accuracy": 0.7661548972129821,
      "num_tokens": 443225259.0,
      "step": 4430
    },
    {
      "entropy": 0.91796875,
      "epoch": 0.6068060680606806,
      "grad_norm": 0.248874698562607,
      "learning_rate": 3.591306185712273e-06,
      "loss": 0.9121,
      "mean_token_accuracy": 0.7658970355987549,
      "num_tokens": 444220229.0,
      "step": 4440
    },
    {
      "entropy": 0.931640625,
      "epoch": 0.6081727483941506,
      "grad_norm": 0.222697809179742,
      "learning_rate": 3.5877835705227566e-06,
      "loss": 0.9285,
      "mean_token_accuracy": 0.7627701103687287,
      "num_tokens": 445201473.0,
      "step": 4450
    },
    {
      "entropy": 0.878515625,
      "epoch": 0.6095394287276206,
      "grad_norm": 0.2630158794398894,
      "learning_rate": 3.5842609553332398e-06,
      "loss": 0.8762,
      "mean_token_accuracy": 0.7727480232715607,
      "num_tokens": 446200834.0,
      "step": 4460
    },
    {
      "entropy": 0.916015625,
      "epoch": 0.6109061090610907,
      "grad_norm": 0.25718408122321906,
      "learning_rate": 3.580738340143723e-06,
      "loss": 0.9166,
      "mean_token_accuracy": 0.7643830716609955,
      "num_tokens": 447203460.0,
      "step": 4470
    },
    {
      "entropy": 0.90390625,
      "epoch": 0.6122727893945606,
      "grad_norm": 0.24666432987006007,
      "learning_rate": 3.577215724954206e-06,
      "loss": 0.9081,
      "mean_token_accuracy": 0.767756563425064,
      "num_tokens": 448231820.0,
      "step": 4480
    },
    {
      "entropy": 0.944140625,
      "epoch": 0.6136394697280306,
      "grad_norm": 0.2587857341737352,
      "learning_rate": 3.57369310976469e-06,
      "loss": 0.9481,
      "mean_token_accuracy": 0.7572188973426819,
      "num_tokens": 449181166.0,
      "step": 4490
    },
    {
      "entropy": 0.94765625,
      "epoch": 0.6150061500615006,
      "grad_norm": 0.2414837545680312,
      "learning_rate": 3.570170494575173e-06,
      "loss": 0.9344,
      "mean_token_accuracy": 0.7652894496917725,
      "num_tokens": 450200977.0,
      "step": 4500
    },
    {
      "entropy": 0.96875,
      "epoch": 0.6163728303949706,
      "grad_norm": 0.24943326134783392,
      "learning_rate": 3.5666478793856562e-06,
      "loss": 0.9811,
      "mean_token_accuracy": 0.7519022583961487,
      "num_tokens": 451176344.0,
      "step": 4510
    },
    {
      "entropy": 0.894921875,
      "epoch": 0.6177395107284406,
      "grad_norm": 0.27836985536062225,
      "learning_rate": 3.5631252641961394e-06,
      "loss": 0.8931,
      "mean_token_accuracy": 0.7692384123802185,
      "num_tokens": 452144687.0,
      "step": 4520
    },
    {
      "entropy": 0.860546875,
      "epoch": 0.6191061910619107,
      "grad_norm": 0.24404028562772292,
      "learning_rate": 3.5596026490066225e-06,
      "loss": 0.8623,
      "mean_token_accuracy": 0.7758907735347748,
      "num_tokens": 453172733.0,
      "step": 4530
    },
    {
      "entropy": 0.902734375,
      "epoch": 0.6204728713953807,
      "grad_norm": 0.2610497892152077,
      "learning_rate": 3.556080033817106e-06,
      "loss": 0.9102,
      "mean_token_accuracy": 0.7672166228294373,
      "num_tokens": 454139460.0,
      "step": 4540
    },
    {
      "entropy": 0.955078125,
      "epoch": 0.6218395517288506,
      "grad_norm": 0.2776174011438883,
      "learning_rate": 3.5525574186275896e-06,
      "loss": 0.9466,
      "mean_token_accuracy": 0.7592322945594787,
      "num_tokens": 455099585.0,
      "step": 4550
    },
    {
      "entropy": 0.95,
      "epoch": 0.6232062320623206,
      "grad_norm": 0.25474370627640036,
      "learning_rate": 3.5490348034380727e-06,
      "loss": 0.9597,
      "mean_token_accuracy": 0.7573205173015595,
      "num_tokens": 456115164.0,
      "step": 4560
    },
    {
      "entropy": 0.92265625,
      "epoch": 0.6245729123957906,
      "grad_norm": 0.22229570925894804,
      "learning_rate": 3.545512188248556e-06,
      "loss": 0.9208,
      "mean_token_accuracy": 0.7627245962619782,
      "num_tokens": 457102641.0,
      "step": 4570
    },
    {
      "entropy": 0.88671875,
      "epoch": 0.6259395927292606,
      "grad_norm": 0.259528178924111,
      "learning_rate": 3.5419895730590394e-06,
      "loss": 0.8902,
      "mean_token_accuracy": 0.76944899559021,
      "num_tokens": 458063569.0,
      "step": 4580
    },
    {
      "entropy": 0.94609375,
      "epoch": 0.6273062730627307,
      "grad_norm": 0.2652101102361966,
      "learning_rate": 3.5384669578695225e-06,
      "loss": 0.9491,
      "mean_token_accuracy": 0.7592923998832702,
      "num_tokens": 459050393.0,
      "step": 4590
    },
    {
      "entropy": 0.93984375,
      "epoch": 0.6286729533962007,
      "grad_norm": 0.3311629791306372,
      "learning_rate": 3.534944342680006e-06,
      "loss": 0.9355,
      "mean_token_accuracy": 0.7621518731117248,
      "num_tokens": 460080370.0,
      "step": 4600
    },
    {
      "entropy": 0.9,
      "epoch": 0.6300396337296706,
      "grad_norm": 0.2525439326670619,
      "learning_rate": 3.5314217274904896e-06,
      "loss": 0.9,
      "mean_token_accuracy": 0.7679260730743408,
      "num_tokens": 461083660.0,
      "step": 4610
    },
    {
      "entropy": 0.9171875,
      "epoch": 0.6314063140631406,
      "grad_norm": 0.25325537930293385,
      "learning_rate": 3.5278991123009727e-06,
      "loss": 0.9239,
      "mean_token_accuracy": 0.7642706334590912,
      "num_tokens": 462065871.0,
      "step": 4620
    },
    {
      "entropy": 0.9265625,
      "epoch": 0.6327729943966106,
      "grad_norm": 0.2590698304349484,
      "learning_rate": 3.524376497111456e-06,
      "loss": 0.9207,
      "mean_token_accuracy": 0.7649545669555664,
      "num_tokens": 463080086.0,
      "step": 4630
    },
    {
      "entropy": 0.907421875,
      "epoch": 0.6341396747300806,
      "grad_norm": 0.2596360607561209,
      "learning_rate": 3.520853881921939e-06,
      "loss": 0.9012,
      "mean_token_accuracy": 0.7671885192394257,
      "num_tokens": 464075969.0,
      "step": 4640
    },
    {
      "entropy": 0.905078125,
      "epoch": 0.6355063550635507,
      "grad_norm": 0.26042682958200697,
      "learning_rate": 3.517331266732422e-06,
      "loss": 0.903,
      "mean_token_accuracy": 0.7696341097354888,
      "num_tokens": 465113877.0,
      "step": 4650
    },
    {
      "entropy": 0.953125,
      "epoch": 0.6368730353970207,
      "grad_norm": 0.2825507422628607,
      "learning_rate": 3.513808651542906e-06,
      "loss": 0.9576,
      "mean_token_accuracy": 0.7580760180950165,
      "num_tokens": 466103248.0,
      "step": 4660
    },
    {
      "entropy": 0.91640625,
      "epoch": 0.6382397157304907,
      "grad_norm": 0.2544821747054337,
      "learning_rate": 3.510286036353389e-06,
      "loss": 0.9048,
      "mean_token_accuracy": 0.7670815646648407,
      "num_tokens": 467036111.0,
      "step": 4670
    },
    {
      "entropy": 0.907421875,
      "epoch": 0.6396063960639606,
      "grad_norm": 0.21313504567628977,
      "learning_rate": 3.5067634211638723e-06,
      "loss": 0.9073,
      "mean_token_accuracy": 0.767392635345459,
      "num_tokens": 468077688.0,
      "step": 4680
    },
    {
      "entropy": 0.91171875,
      "epoch": 0.6409730763974306,
      "grad_norm": 0.24039052988103546,
      "learning_rate": 3.5032408059743554e-06,
      "loss": 0.9176,
      "mean_token_accuracy": 0.7651948213577271,
      "num_tokens": 469081863.0,
      "step": 4690
    },
    {
      "entropy": 0.90390625,
      "epoch": 0.6423397567309006,
      "grad_norm": 0.24646489449585554,
      "learning_rate": 3.499718190784839e-06,
      "loss": 0.9002,
      "mean_token_accuracy": 0.7672979474067688,
      "num_tokens": 470036745.0,
      "step": 4700
    },
    {
      "entropy": 0.916015625,
      "epoch": 0.6437064370643707,
      "grad_norm": 0.23943569188170358,
      "learning_rate": 3.4961955755953225e-06,
      "loss": 0.9117,
      "mean_token_accuracy": 0.7650454223155976,
      "num_tokens": 471040901.0,
      "step": 4710
    },
    {
      "entropy": 0.9234375,
      "epoch": 0.6450731173978407,
      "grad_norm": 0.23835145018819479,
      "learning_rate": 3.4926729604058056e-06,
      "loss": 0.9244,
      "mean_token_accuracy": 0.7642217159271241,
      "num_tokens": 472034268.0,
      "step": 4720
    },
    {
      "entropy": 0.898828125,
      "epoch": 0.6464397977313107,
      "grad_norm": 0.2685574846501126,
      "learning_rate": 3.4891503452162888e-06,
      "loss": 0.8878,
      "mean_token_accuracy": 0.771844208240509,
      "num_tokens": 472986643.0,
      "step": 4730
    },
    {
      "entropy": 0.890625,
      "epoch": 0.6478064780647806,
      "grad_norm": 0.24141325781118061,
      "learning_rate": 3.4856277300267723e-06,
      "loss": 0.885,
      "mean_token_accuracy": 0.7710981130599975,
      "num_tokens": 473958882.0,
      "step": 4740
    },
    {
      "entropy": 0.912109375,
      "epoch": 0.6491731583982506,
      "grad_norm": 0.23939188401085906,
      "learning_rate": 3.4821051148372554e-06,
      "loss": 0.9107,
      "mean_token_accuracy": 0.7654251098632813,
      "num_tokens": 474928079.0,
      "step": 4750
    },
    {
      "entropy": 0.85078125,
      "epoch": 0.6505398387317206,
      "grad_norm": 0.2873657474104278,
      "learning_rate": 3.4785824996477386e-06,
      "loss": 0.8358,
      "mean_token_accuracy": 0.7823678970336914,
      "num_tokens": 475886095.0,
      "step": 4760
    },
    {
      "entropy": 0.84296875,
      "epoch": 0.6519065190651907,
      "grad_norm": 0.24572439787414124,
      "learning_rate": 3.475059884458222e-06,
      "loss": 0.8471,
      "mean_token_accuracy": 0.7804961800575256,
      "num_tokens": 476869328.0,
      "step": 4770
    },
    {
      "entropy": 0.887109375,
      "epoch": 0.6532731993986607,
      "grad_norm": 0.27427986963541057,
      "learning_rate": 3.4715372692687057e-06,
      "loss": 0.8901,
      "mean_token_accuracy": 0.7701688766479492,
      "num_tokens": 477821773.0,
      "step": 4780
    },
    {
      "entropy": 0.9296875,
      "epoch": 0.6546398797321307,
      "grad_norm": 0.22761265956434898,
      "learning_rate": 3.4680146540791888e-06,
      "loss": 0.9281,
      "mean_token_accuracy": 0.7626783192157746,
      "num_tokens": 478842083.0,
      "step": 4790
    },
    {
      "entropy": 0.919140625,
      "epoch": 0.6560065600656007,
      "grad_norm": 0.24561930618881847,
      "learning_rate": 3.464492038889672e-06,
      "loss": 0.9129,
      "mean_token_accuracy": 0.7665828406810761,
      "num_tokens": 479784211.0,
      "step": 4800
    },
    {
      "entropy": 0.91796875,
      "epoch": 0.6573732403990706,
      "grad_norm": 0.2538867144281113,
      "learning_rate": 3.460969423700155e-06,
      "loss": 0.9254,
      "mean_token_accuracy": 0.7619325459003449,
      "num_tokens": 480833427.0,
      "step": 4810
    },
    {
      "entropy": 0.913671875,
      "epoch": 0.6587399207325406,
      "grad_norm": 0.23474609684927386,
      "learning_rate": 3.457446808510639e-06,
      "loss": 0.9051,
      "mean_token_accuracy": 0.7685582578182221,
      "num_tokens": 481851310.0,
      "step": 4820
    },
    {
      "entropy": 0.88984375,
      "epoch": 0.6601066010660107,
      "grad_norm": 0.2354898882451554,
      "learning_rate": 3.453924193321122e-06,
      "loss": 0.8958,
      "mean_token_accuracy": 0.7672967553138733,
      "num_tokens": 482891637.0,
      "step": 4830
    },
    {
      "entropy": 0.88671875,
      "epoch": 0.6614732813994807,
      "grad_norm": 0.25700830735918195,
      "learning_rate": 3.4504015781316052e-06,
      "loss": 0.8718,
      "mean_token_accuracy": 0.7750407576560974,
      "num_tokens": 483921621.0,
      "step": 4840
    },
    {
      "entropy": 0.919140625,
      "epoch": 0.6628399617329507,
      "grad_norm": 0.23519235158713592,
      "learning_rate": 3.4468789629420884e-06,
      "loss": 0.929,
      "mean_token_accuracy": 0.7620718121528626,
      "num_tokens": 484982954.0,
      "step": 4850
    },
    {
      "entropy": 0.8734375,
      "epoch": 0.6642066420664207,
      "grad_norm": 0.2516666903716511,
      "learning_rate": 3.4433563477525715e-06,
      "loss": 0.8786,
      "mean_token_accuracy": 0.7734734773635864,
      "num_tokens": 485972247.0,
      "step": 4860
    },
    {
      "entropy": 0.908984375,
      "epoch": 0.6655733223998906,
      "grad_norm": 0.24403079637178185,
      "learning_rate": 3.439833732563055e-06,
      "loss": 0.9031,
      "mean_token_accuracy": 0.7682634472846985,
      "num_tokens": 486961829.0,
      "step": 4870
    },
    {
      "entropy": 0.907421875,
      "epoch": 0.6669400027333606,
      "grad_norm": 0.2678687640219429,
      "learning_rate": 3.4363111173735386e-06,
      "loss": 0.9102,
      "mean_token_accuracy": 0.7660040318965912,
      "num_tokens": 487999991.0,
      "step": 4880
    },
    {
      "entropy": 0.915234375,
      "epoch": 0.6683066830668307,
      "grad_norm": 0.24057874052414593,
      "learning_rate": 3.4327885021840217e-06,
      "loss": 0.9141,
      "mean_token_accuracy": 0.7662294149398804,
      "num_tokens": 489015250.0,
      "step": 4890
    },
    {
      "entropy": 0.90390625,
      "epoch": 0.6696733634003007,
      "grad_norm": 0.24297776818156028,
      "learning_rate": 3.429265886994505e-06,
      "loss": 0.9105,
      "mean_token_accuracy": 0.7665644645690918,
      "num_tokens": 490060131.0,
      "step": 4900
    },
    {
      "entropy": 0.89609375,
      "epoch": 0.6710400437337707,
      "grad_norm": 0.25465062639359076,
      "learning_rate": 3.4257432718049884e-06,
      "loss": 0.8897,
      "mean_token_accuracy": 0.7697262942790986,
      "num_tokens": 491082366.0,
      "step": 4910
    },
    {
      "entropy": 0.891015625,
      "epoch": 0.6724067240672407,
      "grad_norm": 0.24690156806281224,
      "learning_rate": 3.4222206566154715e-06,
      "loss": 0.8993,
      "mean_token_accuracy": 0.7698754668235779,
      "num_tokens": 492125674.0,
      "step": 4920
    },
    {
      "entropy": 0.9359375,
      "epoch": 0.6737734044007107,
      "grad_norm": 0.23604322092384503,
      "learning_rate": 3.418698041425955e-06,
      "loss": 0.9338,
      "mean_token_accuracy": 0.7610738694667816,
      "num_tokens": 493112088.0,
      "step": 4930
    },
    {
      "entropy": 0.882421875,
      "epoch": 0.6751400847341806,
      "grad_norm": 0.23528054786581803,
      "learning_rate": 3.415175426236438e-06,
      "loss": 0.8797,
      "mean_token_accuracy": 0.7728910386562348,
      "num_tokens": 494137107.0,
      "step": 4940
    },
    {
      "entropy": 0.8609375,
      "epoch": 0.6765067650676507,
      "grad_norm": 0.23492235040679912,
      "learning_rate": 3.4116528110469217e-06,
      "loss": 0.8564,
      "mean_token_accuracy": 0.7787284791469574,
      "num_tokens": 495128504.0,
      "step": 4950
    },
    {
      "entropy": 0.900390625,
      "epoch": 0.6778734454011207,
      "grad_norm": 0.2788452197137999,
      "learning_rate": 3.408130195857405e-06,
      "loss": 0.8987,
      "mean_token_accuracy": 0.7692216277122498,
      "num_tokens": 496080043.0,
      "step": 4960
    },
    {
      "entropy": 0.91171875,
      "epoch": 0.6792401257345907,
      "grad_norm": 0.25855754779051576,
      "learning_rate": 3.404607580667888e-06,
      "loss": 0.9068,
      "mean_token_accuracy": 0.7673235177993775,
      "num_tokens": 497081232.0,
      "step": 4970
    },
    {
      "entropy": 0.873828125,
      "epoch": 0.6806068060680607,
      "grad_norm": 0.24345905988821795,
      "learning_rate": 3.401084965478371e-06,
      "loss": 0.8757,
      "mean_token_accuracy": 0.7744750797748565,
      "num_tokens": 498057583.0,
      "step": 4980
    },
    {
      "entropy": 0.908984375,
      "epoch": 0.6819734864015307,
      "grad_norm": 0.23531803957360162,
      "learning_rate": 3.397562350288855e-06,
      "loss": 0.9088,
      "mean_token_accuracy": 0.7683990120887756,
      "num_tokens": 499058823.0,
      "step": 4990
    },
    {
      "entropy": 0.88125,
      "epoch": 0.6833401667350006,
      "grad_norm": 0.2539124439879016,
      "learning_rate": 3.394039735099338e-06,
      "loss": 0.8817,
      "mean_token_accuracy": 0.772301298379898,
      "num_tokens": 500054628.0,
      "step": 5000
    },
    {
      "entropy": 0.867578125,
      "epoch": 0.6847068470684707,
      "grad_norm": 0.2522302216030442,
      "learning_rate": 3.3905171199098213e-06,
      "loss": 0.868,
      "mean_token_accuracy": 0.7746542990207672,
      "num_tokens": 501048187.0,
      "step": 5010
    },
    {
      "entropy": 0.894921875,
      "epoch": 0.6860735274019407,
      "grad_norm": 0.23058661574110456,
      "learning_rate": 3.3869945047203044e-06,
      "loss": 0.9027,
      "mean_token_accuracy": 0.7667459905147552,
      "num_tokens": 502062268.0,
      "step": 5020
    },
    {
      "entropy": 0.89296875,
      "epoch": 0.6874402077354107,
      "grad_norm": 0.2561795314292473,
      "learning_rate": 3.3834718895307876e-06,
      "loss": 0.8803,
      "mean_token_accuracy": 0.7718213498592377,
      "num_tokens": 503054152.0,
      "step": 5030
    },
    {
      "entropy": 0.8796875,
      "epoch": 0.6888068880688807,
      "grad_norm": 0.23762479180084062,
      "learning_rate": 3.3799492743412715e-06,
      "loss": 0.8846,
      "mean_token_accuracy": 0.7718693256378174,
      "num_tokens": 504061542.0,
      "step": 5040
    },
    {
      "entropy": 0.89765625,
      "epoch": 0.6901735684023507,
      "grad_norm": 0.2454010339188923,
      "learning_rate": 3.3764266591517547e-06,
      "loss": 0.896,
      "mean_token_accuracy": 0.7692206919193267,
      "num_tokens": 505071467.0,
      "step": 5050
    },
    {
      "entropy": 0.890625,
      "epoch": 0.6915402487358207,
      "grad_norm": 0.2501989515671564,
      "learning_rate": 3.3729040439622378e-06,
      "loss": 0.8838,
      "mean_token_accuracy": 0.7709180474281311,
      "num_tokens": 506090809.0,
      "step": 5060
    },
    {
      "entropy": 0.91171875,
      "epoch": 0.6929069290692907,
      "grad_norm": 0.27651344311198595,
      "learning_rate": 3.3693814287727213e-06,
      "loss": 0.9006,
      "mean_token_accuracy": 0.7667375683784485,
      "num_tokens": 507069713.0,
      "step": 5070
    },
    {
      "entropy": 0.937109375,
      "epoch": 0.6942736094027607,
      "grad_norm": 0.25196088581986986,
      "learning_rate": 3.3658588135832044e-06,
      "loss": 0.9346,
      "mean_token_accuracy": 0.7624842405319214,
      "num_tokens": 508131315.0,
      "step": 5080
    },
    {
      "entropy": 0.88359375,
      "epoch": 0.6956402897362307,
      "grad_norm": 0.21480087273395895,
      "learning_rate": 3.3623361983936876e-06,
      "loss": 0.8846,
      "mean_token_accuracy": 0.7727776050567627,
      "num_tokens": 509194218.0,
      "step": 5090
    },
    {
      "entropy": 0.895703125,
      "epoch": 0.6970069700697007,
      "grad_norm": 0.23054740138972266,
      "learning_rate": 3.358813583204171e-06,
      "loss": 0.8992,
      "mean_token_accuracy": 0.768429559469223,
      "num_tokens": 510256059.0,
      "step": 5100
    },
    {
      "entropy": 0.94296875,
      "epoch": 0.6983736504031707,
      "grad_norm": 0.2743306887151697,
      "learning_rate": 3.3552909680146547e-06,
      "loss": 0.935,
      "mean_token_accuracy": 0.7619015514850617,
      "num_tokens": 511260466.0,
      "step": 5110
    },
    {
      "entropy": 0.874609375,
      "epoch": 0.6997403307366407,
      "grad_norm": 0.24936065200392354,
      "learning_rate": 3.3517683528251378e-06,
      "loss": 0.8752,
      "mean_token_accuracy": 0.7732263922691345,
      "num_tokens": 512259871.0,
      "step": 5120
    },
    {
      "entropy": 0.8796875,
      "epoch": 0.7011070110701108,
      "grad_norm": 0.2597994116024639,
      "learning_rate": 3.348245737635621e-06,
      "loss": 0.8749,
      "mean_token_accuracy": 0.7741938948631286,
      "num_tokens": 513284332.0,
      "step": 5130
    },
    {
      "entropy": 0.903515625,
      "epoch": 0.7024736914035807,
      "grad_norm": 0.23049669297326916,
      "learning_rate": 3.344723122446104e-06,
      "loss": 0.8979,
      "mean_token_accuracy": 0.7683966338634491,
      "num_tokens": 514253926.0,
      "step": 5140
    },
    {
      "entropy": 0.925390625,
      "epoch": 0.7038403717370507,
      "grad_norm": 0.24675352046456994,
      "learning_rate": 3.341200507256587e-06,
      "loss": 0.9203,
      "mean_token_accuracy": 0.7643884778022766,
      "num_tokens": 515239960.0,
      "step": 5150
    },
    {
      "entropy": 0.93359375,
      "epoch": 0.7052070520705207,
      "grad_norm": 0.2590073860254919,
      "learning_rate": 3.337677892067071e-06,
      "loss": 0.928,
      "mean_token_accuracy": 0.765287721157074,
      "num_tokens": 516225008.0,
      "step": 5160
    },
    {
      "entropy": 0.91640625,
      "epoch": 0.7065737324039907,
      "grad_norm": 0.287744572791095,
      "learning_rate": 3.3341552768775543e-06,
      "loss": 0.915,
      "mean_token_accuracy": 0.7631172716617585,
      "num_tokens": 517241190.0,
      "step": 5170
    },
    {
      "entropy": 0.9109375,
      "epoch": 0.7079404127374607,
      "grad_norm": 0.2532752648512081,
      "learning_rate": 3.3306326616880374e-06,
      "loss": 0.9102,
      "mean_token_accuracy": 0.765239030122757,
      "num_tokens": 518251490.0,
      "step": 5180
    },
    {
      "entropy": 0.911328125,
      "epoch": 0.7093070930709308,
      "grad_norm": 0.24205237048729328,
      "learning_rate": 3.3271100464985205e-06,
      "loss": 0.9027,
      "mean_token_accuracy": 0.7687004506587982,
      "num_tokens": 519272357.0,
      "step": 5190
    },
    {
      "entropy": 0.8984375,
      "epoch": 0.7106737734044007,
      "grad_norm": 0.25514375472977874,
      "learning_rate": 3.323587431309004e-06,
      "loss": 0.8975,
      "mean_token_accuracy": 0.7707614719867706,
      "num_tokens": 520319517.0,
      "step": 5200
    },
    {
      "entropy": 0.920703125,
      "epoch": 0.7120404537378707,
      "grad_norm": 0.2728082711567666,
      "learning_rate": 3.3200648161194876e-06,
      "loss": 0.9044,
      "mean_token_accuracy": 0.7651322662830353,
      "num_tokens": 521333969.0,
      "step": 5210
    },
    {
      "entropy": 0.8984375,
      "epoch": 0.7134071340713407,
      "grad_norm": 0.24497557947486784,
      "learning_rate": 3.3165422009299707e-06,
      "loss": 0.8972,
      "mean_token_accuracy": 0.7689272940158844,
      "num_tokens": 522342219.0,
      "step": 5220
    },
    {
      "entropy": 0.920703125,
      "epoch": 0.7147738144048107,
      "grad_norm": 0.23749711883615854,
      "learning_rate": 3.313019585740454e-06,
      "loss": 0.9178,
      "mean_token_accuracy": 0.7656160295009613,
      "num_tokens": 523334861.0,
      "step": 5230
    },
    {
      "entropy": 0.92265625,
      "epoch": 0.7161404947382807,
      "grad_norm": 0.2611071472579543,
      "learning_rate": 3.3094969705509374e-06,
      "loss": 0.9236,
      "mean_token_accuracy": 0.7631015360355378,
      "num_tokens": 524347920.0,
      "step": 5240
    },
    {
      "entropy": 0.897265625,
      "epoch": 0.7175071750717508,
      "grad_norm": 0.24816125831277924,
      "learning_rate": 3.3059743553614205e-06,
      "loss": 0.9027,
      "mean_token_accuracy": 0.7681454718112946,
      "num_tokens": 525329939.0,
      "step": 5250
    },
    {
      "entropy": 0.89609375,
      "epoch": 0.7188738554052208,
      "grad_norm": 0.2426135922250884,
      "learning_rate": 3.3024517401719036e-06,
      "loss": 0.8884,
      "mean_token_accuracy": 0.7692592799663543,
      "num_tokens": 526310927.0,
      "step": 5260
    },
    {
      "entropy": 0.916796875,
      "epoch": 0.7202405357386907,
      "grad_norm": 0.2776161852576003,
      "learning_rate": 3.298929124982387e-06,
      "loss": 0.9261,
      "mean_token_accuracy": 0.7677697122097016,
      "num_tokens": 527328309.0,
      "step": 5270
    },
    {
      "entropy": 0.919921875,
      "epoch": 0.7216072160721607,
      "grad_norm": 0.227463742888591,
      "learning_rate": 3.2954065097928707e-06,
      "loss": 0.9255,
      "mean_token_accuracy": 0.7642485558986664,
      "num_tokens": 528355417.0,
      "step": 5280
    },
    {
      "entropy": 0.90546875,
      "epoch": 0.7229738964056307,
      "grad_norm": 0.24193382397239388,
      "learning_rate": 3.291883894603354e-06,
      "loss": 0.9056,
      "mean_token_accuracy": 0.7681565761566163,
      "num_tokens": 529367701.0,
      "step": 5290
    },
    {
      "entropy": 0.8765625,
      "epoch": 0.7243405767391007,
      "grad_norm": 0.2676768577599625,
      "learning_rate": 3.288361279413837e-06,
      "loss": 0.8723,
      "mean_token_accuracy": 0.7736148536205292,
      "num_tokens": 530358442.0,
      "step": 5300
    },
    {
      "entropy": 0.87734375,
      "epoch": 0.7257072570725708,
      "grad_norm": 0.24321855409210955,
      "learning_rate": 3.28483866422432e-06,
      "loss": 0.8748,
      "mean_token_accuracy": 0.7750908017158509,
      "num_tokens": 531346660.0,
      "step": 5310
    },
    {
      "entropy": 0.923046875,
      "epoch": 0.7270739374060408,
      "grad_norm": 0.2378624882523991,
      "learning_rate": 3.281316049034804e-06,
      "loss": 0.9277,
      "mean_token_accuracy": 0.7605945765972137,
      "num_tokens": 532403220.0,
      "step": 5320
    },
    {
      "entropy": 0.88125,
      "epoch": 0.7284406177395107,
      "grad_norm": 0.2287848644160904,
      "learning_rate": 3.277793433845287e-06,
      "loss": 0.8677,
      "mean_token_accuracy": 0.7726484775543213,
      "num_tokens": 533433256.0,
      "step": 5330
    },
    {
      "entropy": 0.89453125,
      "epoch": 0.7298072980729807,
      "grad_norm": 0.23756312878491664,
      "learning_rate": 3.2742708186557703e-06,
      "loss": 0.8965,
      "mean_token_accuracy": 0.7715663969516754,
      "num_tokens": 534455546.0,
      "step": 5340
    },
    {
      "entropy": 0.905859375,
      "epoch": 0.7311739784064507,
      "grad_norm": 0.26086760836800527,
      "learning_rate": 3.2707482034662534e-06,
      "loss": 0.9,
      "mean_token_accuracy": 0.7668693602085114,
      "num_tokens": 535465383.0,
      "step": 5350
    },
    {
      "entropy": 0.912890625,
      "epoch": 0.7325406587399207,
      "grad_norm": 0.2557060028636546,
      "learning_rate": 3.2672255882767366e-06,
      "loss": 0.9078,
      "mean_token_accuracy": 0.769695907831192,
      "num_tokens": 536463324.0,
      "step": 5360
    },
    {
      "entropy": 0.880859375,
      "epoch": 0.7339073390733908,
      "grad_norm": 0.2153030098205487,
      "learning_rate": 3.26370297308722e-06,
      "loss": 0.8776,
      "mean_token_accuracy": 0.7725082993507385,
      "num_tokens": 537502644.0,
      "step": 5370
    },
    {
      "entropy": 0.8859375,
      "epoch": 0.7352740194068608,
      "grad_norm": 0.25136242949702675,
      "learning_rate": 3.2601803578977037e-06,
      "loss": 0.8884,
      "mean_token_accuracy": 0.7702087998390198,
      "num_tokens": 538501841.0,
      "step": 5380
    },
    {
      "entropy": 0.876171875,
      "epoch": 0.7366406997403308,
      "grad_norm": 0.23601922853378654,
      "learning_rate": 3.2566577427081868e-06,
      "loss": 0.8786,
      "mean_token_accuracy": 0.7730222582817078,
      "num_tokens": 539529171.0,
      "step": 5390
    },
    {
      "entropy": 0.90390625,
      "epoch": 0.7380073800738007,
      "grad_norm": 0.27013425007509356,
      "learning_rate": 3.25313512751867e-06,
      "loss": 0.9063,
      "mean_token_accuracy": 0.7682417511940003,
      "num_tokens": 540506909.0,
      "step": 5400
    },
    {
      "entropy": 0.925390625,
      "epoch": 0.7393740604072707,
      "grad_norm": 0.23900637474505837,
      "learning_rate": 3.2496125123291535e-06,
      "loss": 0.9317,
      "mean_token_accuracy": 0.7615870833396912,
      "num_tokens": 541508626.0,
      "step": 5410
    },
    {
      "entropy": 0.884765625,
      "epoch": 0.7407407407407407,
      "grad_norm": 0.24292952228468123,
      "learning_rate": 3.2460898971396366e-06,
      "loss": 0.8787,
      "mean_token_accuracy": 0.7752685248851776,
      "num_tokens": 542509987.0,
      "step": 5420
    },
    {
      "entropy": 0.906640625,
      "epoch": 0.7421074210742108,
      "grad_norm": 0.26538663635240306,
      "learning_rate": 3.24256728195012e-06,
      "loss": 0.9021,
      "mean_token_accuracy": 0.7671275198459625,
      "num_tokens": 543492581.0,
      "step": 5430
    },
    {
      "entropy": 0.89765625,
      "epoch": 0.7434741014076808,
      "grad_norm": 0.23109487660739852,
      "learning_rate": 3.2390446667606037e-06,
      "loss": 0.9024,
      "mean_token_accuracy": 0.7674943387508393,
      "num_tokens": 544522249.0,
      "step": 5440
    },
    {
      "entropy": 0.903125,
      "epoch": 0.7448407817411508,
      "grad_norm": 0.2513424334745942,
      "learning_rate": 3.235522051571087e-06,
      "loss": 0.9002,
      "mean_token_accuracy": 0.7691900610923768,
      "num_tokens": 545521894.0,
      "step": 5450
    },
    {
      "entropy": 0.913671875,
      "epoch": 0.7462074620746207,
      "grad_norm": 0.22771319715131744,
      "learning_rate": 3.23199943638157e-06,
      "loss": 0.9126,
      "mean_token_accuracy": 0.7666519939899444,
      "num_tokens": 546492940.0,
      "step": 5460
    },
    {
      "entropy": 0.918359375,
      "epoch": 0.7475741424080907,
      "grad_norm": 0.2770744568390383,
      "learning_rate": 3.228476821192053e-06,
      "loss": 0.9334,
      "mean_token_accuracy": 0.7612827599048615,
      "num_tokens": 547508015.0,
      "step": 5470
    },
    {
      "entropy": 0.929296875,
      "epoch": 0.7489408227415607,
      "grad_norm": 0.27307949207288645,
      "learning_rate": 3.224954206002536e-06,
      "loss": 0.9366,
      "mean_token_accuracy": 0.7616847515106201,
      "num_tokens": 548533834.0,
      "step": 5480
    },
    {
      "entropy": 0.874609375,
      "epoch": 0.7503075030750308,
      "grad_norm": 0.26523798261883613,
      "learning_rate": 3.22143159081302e-06,
      "loss": 0.864,
      "mean_token_accuracy": 0.776493388414383,
      "num_tokens": 549548230.0,
      "step": 5490
    },
    {
      "entropy": 0.916796875,
      "epoch": 0.7516741834085008,
      "grad_norm": 0.2537481721465586,
      "learning_rate": 3.2179089756235033e-06,
      "loss": 0.9025,
      "mean_token_accuracy": 0.7669650316238403,
      "num_tokens": 550550533.0,
      "step": 5500
    },
    {
      "entropy": 0.916015625,
      "epoch": 0.7530408637419708,
      "grad_norm": 0.2387716896750163,
      "learning_rate": 3.2143863604339864e-06,
      "loss": 0.9126,
      "mean_token_accuracy": 0.7660277426242829,
      "num_tokens": 551582423.0,
      "step": 5510
    },
    {
      "entropy": 0.918359375,
      "epoch": 0.7544075440754408,
      "grad_norm": 0.24894930933434364,
      "learning_rate": 3.2108637452444695e-06,
      "loss": 0.9209,
      "mean_token_accuracy": 0.7651121616363525,
      "num_tokens": 552575638.0,
      "step": 5520
    },
    {
      "entropy": 0.94140625,
      "epoch": 0.7557742244089107,
      "grad_norm": 0.2602050509449289,
      "learning_rate": 3.2073411300549526e-06,
      "loss": 0.9375,
      "mean_token_accuracy": 0.7626407265663147,
      "num_tokens": 553546977.0,
      "step": 5530
    },
    {
      "entropy": 0.852734375,
      "epoch": 0.7571409047423807,
      "grad_norm": 0.23507724897930432,
      "learning_rate": 3.2038185148654366e-06,
      "loss": 0.8459,
      "mean_token_accuracy": 0.7799580752849579,
      "num_tokens": 554537362.0,
      "step": 5540
    },
    {
      "entropy": 0.92421875,
      "epoch": 0.7585075850758508,
      "grad_norm": 0.2505883352270284,
      "learning_rate": 3.2002958996759197e-06,
      "loss": 0.9273,
      "mean_token_accuracy": 0.7631006360054016,
      "num_tokens": 555506336.0,
      "step": 5550
    },
    {
      "entropy": 0.94296875,
      "epoch": 0.7598742654093208,
      "grad_norm": 0.24732043620353925,
      "learning_rate": 3.196773284486403e-06,
      "loss": 0.9449,
      "mean_token_accuracy": 0.7599311292171478,
      "num_tokens": 556496732.0,
      "step": 5560
    },
    {
      "entropy": 0.925390625,
      "epoch": 0.7612409457427908,
      "grad_norm": 0.320045573269237,
      "learning_rate": 3.1932506692968864e-06,
      "loss": 0.9247,
      "mean_token_accuracy": 0.7627750635147095,
      "num_tokens": 557522731.0,
      "step": 5570
    },
    {
      "entropy": 0.880078125,
      "epoch": 0.7626076260762608,
      "grad_norm": 0.24361121306321135,
      "learning_rate": 3.1897280541073695e-06,
      "loss": 0.8809,
      "mean_token_accuracy": 0.7710820317268372,
      "num_tokens": 558552808.0,
      "step": 5580
    },
    {
      "entropy": 0.900390625,
      "epoch": 0.7639743064097307,
      "grad_norm": 0.2286202691633917,
      "learning_rate": 3.1862054389178526e-06,
      "loss": 0.8989,
      "mean_token_accuracy": 0.7699727058410645,
      "num_tokens": 559613029.0,
      "step": 5590
    },
    {
      "entropy": 0.89296875,
      "epoch": 0.7653409867432007,
      "grad_norm": 0.2512563397531672,
      "learning_rate": 3.182682823728336e-06,
      "loss": 0.8891,
      "mean_token_accuracy": 0.7684906005859375,
      "num_tokens": 560628142.0,
      "step": 5600
    },
    {
      "entropy": 0.873828125,
      "epoch": 0.7667076670766708,
      "grad_norm": 0.23416461543293798,
      "learning_rate": 3.1791602085388197e-06,
      "loss": 0.8742,
      "mean_token_accuracy": 0.7739047646522522,
      "num_tokens": 561653303.0,
      "step": 5610
    },
    {
      "entropy": 0.946875,
      "epoch": 0.7680743474101408,
      "grad_norm": 0.2540263069449344,
      "learning_rate": 3.175637593349303e-06,
      "loss": 0.952,
      "mean_token_accuracy": 0.7595224618911743,
      "num_tokens": 562622003.0,
      "step": 5620
    },
    {
      "entropy": 0.93125,
      "epoch": 0.7694410277436108,
      "grad_norm": 0.22887964596690782,
      "learning_rate": 3.172114978159786e-06,
      "loss": 0.9302,
      "mean_token_accuracy": 0.763937133550644,
      "num_tokens": 563647661.0,
      "step": 5630
    },
    {
      "entropy": 0.91171875,
      "epoch": 0.7708077080770808,
      "grad_norm": 0.23168181963767961,
      "learning_rate": 3.168592362970269e-06,
      "loss": 0.9184,
      "mean_token_accuracy": 0.7665264308452606,
      "num_tokens": 564603750.0,
      "step": 5640
    },
    {
      "entropy": 0.87421875,
      "epoch": 0.7721743884105507,
      "grad_norm": 0.24275402477214209,
      "learning_rate": 3.165069747780753e-06,
      "loss": 0.8777,
      "mean_token_accuracy": 0.7727763950824738,
      "num_tokens": 565577122.0,
      "step": 5650
    },
    {
      "entropy": 0.909765625,
      "epoch": 0.7735410687440207,
      "grad_norm": 0.23526022877988373,
      "learning_rate": 3.161547132591236e-06,
      "loss": 0.9085,
      "mean_token_accuracy": 0.76685870885849,
      "num_tokens": 566604600.0,
      "step": 5660
    },
    {
      "entropy": 0.9234375,
      "epoch": 0.7749077490774908,
      "grad_norm": 0.23472350997040317,
      "learning_rate": 3.1580245174017193e-06,
      "loss": 0.9318,
      "mean_token_accuracy": 0.7631165564060212,
      "num_tokens": 567617845.0,
      "step": 5670
    },
    {
      "entropy": 0.906640625,
      "epoch": 0.7762744294109608,
      "grad_norm": 0.25210696180526265,
      "learning_rate": 3.1545019022122025e-06,
      "loss": 0.9004,
      "mean_token_accuracy": 0.7687010765075684,
      "num_tokens": 568612057.0,
      "step": 5680
    },
    {
      "entropy": 0.937109375,
      "epoch": 0.7776411097444308,
      "grad_norm": 0.4997457810684645,
      "learning_rate": 3.1509792870226856e-06,
      "loss": 0.9424,
      "mean_token_accuracy": 0.7596926867961884,
      "num_tokens": 569613099.0,
      "step": 5690
    },
    {
      "entropy": 0.898046875,
      "epoch": 0.7790077900779008,
      "grad_norm": 0.2745697983244396,
      "learning_rate": 3.147456671833169e-06,
      "loss": 0.8995,
      "mean_token_accuracy": 0.768541032075882,
      "num_tokens": 570607026.0,
      "step": 5700
    },
    {
      "entropy": 0.901171875,
      "epoch": 0.7803744704113708,
      "grad_norm": 0.23946195359848407,
      "learning_rate": 3.1439340566436527e-06,
      "loss": 0.8937,
      "mean_token_accuracy": 0.7701937258243561,
      "num_tokens": 571616119.0,
      "step": 5710
    },
    {
      "entropy": 0.91171875,
      "epoch": 0.7817411507448407,
      "grad_norm": 0.24512269996641797,
      "learning_rate": 3.140411441454136e-06,
      "loss": 0.9099,
      "mean_token_accuracy": 0.7668554484844208,
      "num_tokens": 572598084.0,
      "step": 5720
    },
    {
      "entropy": 0.91484375,
      "epoch": 0.7831078310783108,
      "grad_norm": 0.24592293754477493,
      "learning_rate": 3.136888826264619e-06,
      "loss": 0.9192,
      "mean_token_accuracy": 0.7636945962905883,
      "num_tokens": 573590736.0,
      "step": 5730
    },
    {
      "entropy": 0.88046875,
      "epoch": 0.7844745114117808,
      "grad_norm": 0.2579750008037871,
      "learning_rate": 3.1333662110751025e-06,
      "loss": 0.8761,
      "mean_token_accuracy": 0.7737733542919158,
      "num_tokens": 574574376.0,
      "step": 5740
    },
    {
      "entropy": 0.864453125,
      "epoch": 0.7858411917452508,
      "grad_norm": 0.25823869616711553,
      "learning_rate": 3.1298435958855856e-06,
      "loss": 0.8604,
      "mean_token_accuracy": 0.7770887970924377,
      "num_tokens": 575523219.0,
      "step": 5750
    },
    {
      "entropy": 0.903515625,
      "epoch": 0.7872078720787208,
      "grad_norm": 0.250968409413732,
      "learning_rate": 3.126320980696069e-06,
      "loss": 0.9016,
      "mean_token_accuracy": 0.7676100969314575,
      "num_tokens": 576500257.0,
      "step": 5760
    },
    {
      "entropy": 0.921484375,
      "epoch": 0.7885745524121908,
      "grad_norm": 0.25386879277367413,
      "learning_rate": 3.1227983655065523e-06,
      "loss": 0.9171,
      "mean_token_accuracy": 0.764497721195221,
      "num_tokens": 577473156.0,
      "step": 5770
    },
    {
      "entropy": 0.873046875,
      "epoch": 0.7899412327456607,
      "grad_norm": 0.2474394056731176,
      "learning_rate": 3.119275750317036e-06,
      "loss": 0.8697,
      "mean_token_accuracy": 0.7744831800460815,
      "num_tokens": 578458348.0,
      "step": 5780
    },
    {
      "entropy": 0.9328125,
      "epoch": 0.7913079130791308,
      "grad_norm": 0.2489164177305421,
      "learning_rate": 3.115753135127519e-06,
      "loss": 0.9341,
      "mean_token_accuracy": 0.7601588785648346,
      "num_tokens": 579469890.0,
      "step": 5790
    },
    {
      "entropy": 0.90078125,
      "epoch": 0.7926745934126008,
      "grad_norm": 0.2488344537871614,
      "learning_rate": 3.112230519938002e-06,
      "loss": 0.8956,
      "mean_token_accuracy": 0.7697606325149536,
      "num_tokens": 580508736.0,
      "step": 5800
    },
    {
      "entropy": 0.87421875,
      "epoch": 0.7940412737460708,
      "grad_norm": 0.2662701384028416,
      "learning_rate": 3.108707904748485e-06,
      "loss": 0.8725,
      "mean_token_accuracy": 0.7746344745159149,
      "num_tokens": 581445920.0,
      "step": 5810
    },
    {
      "entropy": 0.908203125,
      "epoch": 0.7954079540795408,
      "grad_norm": 0.22629952718342142,
      "learning_rate": 3.105185289558969e-06,
      "loss": 0.9145,
      "mean_token_accuracy": 0.766471529006958,
      "num_tokens": 582487593.0,
      "step": 5820
    },
    {
      "entropy": 0.880078125,
      "epoch": 0.7967746344130108,
      "grad_norm": 0.2357084167479174,
      "learning_rate": 3.1016626743694523e-06,
      "loss": 0.8777,
      "mean_token_accuracy": 0.7723721265792847,
      "num_tokens": 583488287.0,
      "step": 5830
    },
    {
      "entropy": 0.86171875,
      "epoch": 0.7981413147464808,
      "grad_norm": 0.2344475153817497,
      "learning_rate": 3.0981400591799354e-06,
      "loss": 0.8581,
      "mean_token_accuracy": 0.7768925189971924,
      "num_tokens": 584551415.0,
      "step": 5840
    },
    {
      "entropy": 0.877734375,
      "epoch": 0.7995079950799509,
      "grad_norm": 0.2270092833660769,
      "learning_rate": 3.0946174439904185e-06,
      "loss": 0.8743,
      "mean_token_accuracy": 0.7747855305671691,
      "num_tokens": 585569034.0,
      "step": 5850
    },
    {
      "entropy": 0.8984375,
      "epoch": 0.8008746754134208,
      "grad_norm": 0.24911593737699944,
      "learning_rate": 3.0910948288009016e-06,
      "loss": 0.887,
      "mean_token_accuracy": 0.7711389243602753,
      "num_tokens": 586536939.0,
      "step": 5860
    },
    {
      "entropy": 0.891015625,
      "epoch": 0.8022413557468908,
      "grad_norm": 0.2680799945676609,
      "learning_rate": 3.0875722136113856e-06,
      "loss": 0.8904,
      "mean_token_accuracy": 0.7683784544467926,
      "num_tokens": 587530274.0,
      "step": 5870
    },
    {
      "entropy": 0.913671875,
      "epoch": 0.8036080360803608,
      "grad_norm": 0.24725391867437344,
      "learning_rate": 3.0840495984218687e-06,
      "loss": 0.9104,
      "mean_token_accuracy": 0.7656572163105011,
      "num_tokens": 588558033.0,
      "step": 5880
    },
    {
      "entropy": 0.91640625,
      "epoch": 0.8049747164138308,
      "grad_norm": 0.26233686483053786,
      "learning_rate": 3.080526983232352e-06,
      "loss": 0.9179,
      "mean_token_accuracy": 0.7647158741950989,
      "num_tokens": 589542926.0,
      "step": 5890
    },
    {
      "entropy": 0.906640625,
      "epoch": 0.8063413967473008,
      "grad_norm": 0.23657622475927306,
      "learning_rate": 3.0770043680428354e-06,
      "loss": 0.9012,
      "mean_token_accuracy": 0.7668140947818756,
      "num_tokens": 590551239.0,
      "step": 5900
    },
    {
      "entropy": 0.866796875,
      "epoch": 0.8077080770807709,
      "grad_norm": 0.2493086020351828,
      "learning_rate": 3.0734817528533185e-06,
      "loss": 0.8663,
      "mean_token_accuracy": 0.7757237255573273,
      "num_tokens": 591541550.0,
      "step": 5910
    },
    {
      "entropy": 0.9359375,
      "epoch": 0.8090747574142408,
      "grad_norm": 0.2607603737678782,
      "learning_rate": 3.0699591376638017e-06,
      "loss": 0.9336,
      "mean_token_accuracy": 0.7620089650154114,
      "num_tokens": 592526054.0,
      "step": 5920
    },
    {
      "entropy": 0.89140625,
      "epoch": 0.8104414377477108,
      "grad_norm": 0.24425283792644323,
      "learning_rate": 3.066436522474285e-06,
      "loss": 0.8834,
      "mean_token_accuracy": 0.7739726543426514,
      "num_tokens": 593517164.0,
      "step": 5930
    },
    {
      "entropy": 0.849609375,
      "epoch": 0.8118081180811808,
      "grad_norm": 0.21908501203670844,
      "learning_rate": 3.0629139072847688e-06,
      "loss": 0.8525,
      "mean_token_accuracy": 0.7784701645374298,
      "num_tokens": 594586885.0,
      "step": 5940
    },
    {
      "entropy": 0.923046875,
      "epoch": 0.8131747984146508,
      "grad_norm": 0.44430198219504197,
      "learning_rate": 3.059391292095252e-06,
      "loss": 0.92,
      "mean_token_accuracy": 0.763478261232376,
      "num_tokens": 595562782.0,
      "step": 5950
    },
    {
      "entropy": 0.903125,
      "epoch": 0.8145414787481208,
      "grad_norm": 0.26092907458973097,
      "learning_rate": 3.055868676905735e-06,
      "loss": 0.9037,
      "mean_token_accuracy": 0.7687527298927307,
      "num_tokens": 596620797.0,
      "step": 5960
    },
    {
      "entropy": 0.92421875,
      "epoch": 0.8159081590815909,
      "grad_norm": 0.27953098068657006,
      "learning_rate": 3.052346061716218e-06,
      "loss": 0.9293,
      "mean_token_accuracy": 0.764080548286438,
      "num_tokens": 597544265.0,
      "step": 5970
    },
    {
      "entropy": 0.897265625,
      "epoch": 0.8172748394150608,
      "grad_norm": 0.26178629761986244,
      "learning_rate": 3.048823446526702e-06,
      "loss": 0.897,
      "mean_token_accuracy": 0.7692546844482422,
      "num_tokens": 598556947.0,
      "step": 5980
    },
    {
      "entropy": 0.924609375,
      "epoch": 0.8186415197485308,
      "grad_norm": 0.2925961970019385,
      "learning_rate": 3.0453008313371852e-06,
      "loss": 0.9225,
      "mean_token_accuracy": 0.7644391417503357,
      "num_tokens": 599603049.0,
      "step": 5990
    },
    {
      "entropy": 0.891015625,
      "epoch": 0.8200082000820008,
      "grad_norm": 0.2678725901792177,
      "learning_rate": 3.0417782161476683e-06,
      "loss": 0.8982,
      "mean_token_accuracy": 0.7677298009395599,
      "num_tokens": 600590091.0,
      "step": 6000
    },
    {
      "entropy": 0.946484375,
      "epoch": 0.8213748804154708,
      "grad_norm": 0.2742714201980835,
      "learning_rate": 3.0382556009581515e-06,
      "loss": 0.9546,
      "mean_token_accuracy": 0.7578386843204499,
      "num_tokens": 601575708.0,
      "step": 6010
    },
    {
      "entropy": 0.890234375,
      "epoch": 0.8227415607489408,
      "grad_norm": 0.236589155877852,
      "learning_rate": 3.0347329857686346e-06,
      "loss": 0.8759,
      "mean_token_accuracy": 0.7727506816387176,
      "num_tokens": 602543161.0,
      "step": 6020
    },
    {
      "entropy": 0.88203125,
      "epoch": 0.8241082410824109,
      "grad_norm": 0.2594398168092469,
      "learning_rate": 3.031210370579118e-06,
      "loss": 0.8868,
      "mean_token_accuracy": 0.7731856882572175,
      "num_tokens": 603550842.0,
      "step": 6030
    },
    {
      "entropy": 0.876953125,
      "epoch": 0.8254749214158809,
      "grad_norm": 0.23956697999620183,
      "learning_rate": 3.0276877553896017e-06,
      "loss": 0.8695,
      "mean_token_accuracy": 0.7734891891479492,
      "num_tokens": 604559325.0,
      "step": 6040
    },
    {
      "entropy": 0.9078125,
      "epoch": 0.8268416017493508,
      "grad_norm": 0.2794882531087385,
      "learning_rate": 3.024165140200085e-06,
      "loss": 0.9045,
      "mean_token_accuracy": 0.7684118747711182,
      "num_tokens": 605552607.0,
      "step": 6050
    },
    {
      "entropy": 0.906640625,
      "epoch": 0.8282082820828208,
      "grad_norm": 0.24996079028796014,
      "learning_rate": 3.020642525010568e-06,
      "loss": 0.9102,
      "mean_token_accuracy": 0.7670041620731354,
      "num_tokens": 606538979.0,
      "step": 6060
    },
    {
      "entropy": 0.889453125,
      "epoch": 0.8295749624162908,
      "grad_norm": 0.2494561067311921,
      "learning_rate": 3.0171199098210515e-06,
      "loss": 0.881,
      "mean_token_accuracy": 0.7726844429969788,
      "num_tokens": 607508204.0,
      "step": 6070
    },
    {
      "entropy": 0.895703125,
      "epoch": 0.8309416427497608,
      "grad_norm": 0.25391626382485993,
      "learning_rate": 3.0135972946315346e-06,
      "loss": 0.8963,
      "mean_token_accuracy": 0.7701733827590942,
      "num_tokens": 608524577.0,
      "step": 6080
    },
    {
      "entropy": 0.916015625,
      "epoch": 0.8323083230832309,
      "grad_norm": 0.2315701533034645,
      "learning_rate": 3.010074679442018e-06,
      "loss": 0.9154,
      "mean_token_accuracy": 0.7657362997531891,
      "num_tokens": 609491404.0,
      "step": 6090
    },
    {
      "entropy": 0.922265625,
      "epoch": 0.8336750034167009,
      "grad_norm": 0.2916125244234936,
      "learning_rate": 3.0065520642525013e-06,
      "loss": 0.9264,
      "mean_token_accuracy": 0.7643741250038147,
      "num_tokens": 610456894.0,
      "step": 6100
    },
    {
      "entropy": 0.922265625,
      "epoch": 0.8350416837501708,
      "grad_norm": 0.2518496012104553,
      "learning_rate": 3.003029449062985e-06,
      "loss": 0.9113,
      "mean_token_accuracy": 0.7670656621456147,
      "num_tokens": 611476065.0,
      "step": 6110
    },
    {
      "entropy": 0.905859375,
      "epoch": 0.8364083640836408,
      "grad_norm": 0.26700926221568183,
      "learning_rate": 2.999506833873468e-06,
      "loss": 0.9033,
      "mean_token_accuracy": 0.7674421787261962,
      "num_tokens": 612425310.0,
      "step": 6120
    },
    {
      "entropy": 0.926953125,
      "epoch": 0.8377750444171108,
      "grad_norm": 0.547696136169178,
      "learning_rate": 2.995984218683951e-06,
      "loss": 0.9152,
      "mean_token_accuracy": 0.764201557636261,
      "num_tokens": 613425793.0,
      "step": 6130
    },
    {
      "entropy": 0.893359375,
      "epoch": 0.8391417247505808,
      "grad_norm": 0.3485118746712834,
      "learning_rate": 2.992461603494434e-06,
      "loss": 0.8856,
      "mean_token_accuracy": 0.7712985813617707,
      "num_tokens": 614450318.0,
      "step": 6140
    },
    {
      "entropy": 0.900390625,
      "epoch": 0.8405084050840509,
      "grad_norm": 0.2971966607485969,
      "learning_rate": 2.988938988304918e-06,
      "loss": 0.8957,
      "mean_token_accuracy": 0.768949282169342,
      "num_tokens": 615468699.0,
      "step": 6150
    },
    {
      "entropy": 0.884375,
      "epoch": 0.8418750854175209,
      "grad_norm": 0.23544754327386178,
      "learning_rate": 2.9854163731154013e-06,
      "loss": 0.8802,
      "mean_token_accuracy": 0.7734637081623077,
      "num_tokens": 616457438.0,
      "step": 6160
    },
    {
      "entropy": 0.91328125,
      "epoch": 0.8432417657509909,
      "grad_norm": 0.22476713340504975,
      "learning_rate": 2.9818937579258844e-06,
      "loss": 0.9169,
      "mean_token_accuracy": 0.7638339042663574,
      "num_tokens": 617408605.0,
      "step": 6170
    },
    {
      "entropy": 0.877734375,
      "epoch": 0.8446084460844608,
      "grad_norm": 0.24724391036220808,
      "learning_rate": 2.9783711427363675e-06,
      "loss": 0.8779,
      "mean_token_accuracy": 0.7728815376758575,
      "num_tokens": 618412780.0,
      "step": 6180
    },
    {
      "entropy": 0.908203125,
      "epoch": 0.8459751264179308,
      "grad_norm": 0.2866016889157072,
      "learning_rate": 2.9748485275468507e-06,
      "loss": 0.9073,
      "mean_token_accuracy": 0.7687428057193756,
      "num_tokens": 619400950.0,
      "step": 6190
    },
    {
      "entropy": 0.887890625,
      "epoch": 0.8473418067514008,
      "grad_norm": 0.24008979473648062,
      "learning_rate": 2.9713259123573346e-06,
      "loss": 0.8881,
      "mean_token_accuracy": 0.7719139337539673,
      "num_tokens": 620361772.0,
      "step": 6200
    },
    {
      "entropy": 0.889453125,
      "epoch": 0.8487084870848709,
      "grad_norm": 0.2539717209899055,
      "learning_rate": 2.9678032971678177e-06,
      "loss": 0.8928,
      "mean_token_accuracy": 0.7688730239868165,
      "num_tokens": 621309759.0,
      "step": 6210
    },
    {
      "entropy": 0.887890625,
      "epoch": 0.8500751674183409,
      "grad_norm": 0.25170687152915894,
      "learning_rate": 2.964280681978301e-06,
      "loss": 0.8913,
      "mean_token_accuracy": 0.7682026147842407,
      "num_tokens": 622344321.0,
      "step": 6220
    },
    {
      "entropy": 0.8703125,
      "epoch": 0.8514418477518109,
      "grad_norm": 0.29318322135845315,
      "learning_rate": 2.960758066788784e-06,
      "loss": 0.8618,
      "mean_token_accuracy": 0.7760866165161133,
      "num_tokens": 623307147.0,
      "step": 6230
    },
    {
      "entropy": 0.930078125,
      "epoch": 0.8528085280852808,
      "grad_norm": 0.23964377191730307,
      "learning_rate": 2.9572354515992675e-06,
      "loss": 0.9192,
      "mean_token_accuracy": 0.7629397809505463,
      "num_tokens": 624284064.0,
      "step": 6240
    },
    {
      "entropy": 0.84375,
      "epoch": 0.8541752084187508,
      "grad_norm": 0.24516208228542846,
      "learning_rate": 2.9537128364097507e-06,
      "loss": 0.8351,
      "mean_token_accuracy": 0.7842687785625457,
      "num_tokens": 625283185.0,
      "step": 6250
    },
    {
      "entropy": 0.8890625,
      "epoch": 0.8555418887522208,
      "grad_norm": 0.25567652176427713,
      "learning_rate": 2.9501902212202342e-06,
      "loss": 0.8836,
      "mean_token_accuracy": 0.7723684906959534,
      "num_tokens": 626319054.0,
      "step": 6260
    },
    {
      "entropy": 0.897265625,
      "epoch": 0.8569085690856909,
      "grad_norm": 0.2413128828929309,
      "learning_rate": 2.9466676060307178e-06,
      "loss": 0.9002,
      "mean_token_accuracy": 0.7671930015087127,
      "num_tokens": 627327798.0,
      "step": 6270
    },
    {
      "entropy": 0.915234375,
      "epoch": 0.8582752494191609,
      "grad_norm": 0.2505100639925334,
      "learning_rate": 2.943144990841201e-06,
      "loss": 0.9132,
      "mean_token_accuracy": 0.7668414354324341,
      "num_tokens": 628345763.0,
      "step": 6280
    },
    {
      "entropy": 0.8921875,
      "epoch": 0.8596419297526309,
      "grad_norm": 0.24352497931814515,
      "learning_rate": 2.939622375651684e-06,
      "loss": 0.8806,
      "mean_token_accuracy": 0.7736104607582093,
      "num_tokens": 629349687.0,
      "step": 6290
    },
    {
      "entropy": 0.912109375,
      "epoch": 0.8610086100861009,
      "grad_norm": 0.26955093030218524,
      "learning_rate": 2.936099760462167e-06,
      "loss": 0.9131,
      "mean_token_accuracy": 0.766532552242279,
      "num_tokens": 630396591.0,
      "step": 6300
    },
    {
      "entropy": 0.882421875,
      "epoch": 0.8623752904195708,
      "grad_norm": 0.2421098131407384,
      "learning_rate": 2.932577145272651e-06,
      "loss": 0.8783,
      "mean_token_accuracy": 0.7728182017803192,
      "num_tokens": 631372808.0,
      "step": 6310
    },
    {
      "entropy": 0.91640625,
      "epoch": 0.8637419707530408,
      "grad_norm": 0.2473604414389413,
      "learning_rate": 2.9290545300831342e-06,
      "loss": 0.9153,
      "mean_token_accuracy": 0.7653838157653808,
      "num_tokens": 632389956.0,
      "step": 6320
    },
    {
      "entropy": 0.930078125,
      "epoch": 0.8651086510865109,
      "grad_norm": 0.24301908748350476,
      "learning_rate": 2.9255319148936174e-06,
      "loss": 0.9231,
      "mean_token_accuracy": 0.7656171023845673,
      "num_tokens": 633382741.0,
      "step": 6330
    },
    {
      "entropy": 0.858984375,
      "epoch": 0.8664753314199809,
      "grad_norm": 0.25635251507081747,
      "learning_rate": 2.9220092997041005e-06,
      "loss": 0.8563,
      "mean_token_accuracy": 0.7803897321224212,
      "num_tokens": 634392872.0,
      "step": 6340
    },
    {
      "entropy": 0.901953125,
      "epoch": 0.8678420117534509,
      "grad_norm": 0.22409546043374662,
      "learning_rate": 2.9184866845145836e-06,
      "loss": 0.8909,
      "mean_token_accuracy": 0.7698709666728973,
      "num_tokens": 635397192.0,
      "step": 6350
    },
    {
      "entropy": 0.891015625,
      "epoch": 0.8692086920869209,
      "grad_norm": 0.25914507491593924,
      "learning_rate": 2.9149640693250667e-06,
      "loss": 0.8821,
      "mean_token_accuracy": 0.773262369632721,
      "num_tokens": 636429865.0,
      "step": 6360
    },
    {
      "entropy": 0.89765625,
      "epoch": 0.8705753724203908,
      "grad_norm": 0.2595260221838575,
      "learning_rate": 2.9114414541355507e-06,
      "loss": 0.8975,
      "mean_token_accuracy": 0.7691482305526733,
      "num_tokens": 637412707.0,
      "step": 6370
    },
    {
      "entropy": 0.921484375,
      "epoch": 0.8719420527538608,
      "grad_norm": 0.23646224995513726,
      "learning_rate": 2.907918838946034e-06,
      "loss": 0.9143,
      "mean_token_accuracy": 0.7673406541347504,
      "num_tokens": 638419040.0,
      "step": 6380
    },
    {
      "entropy": 0.898828125,
      "epoch": 0.8733087330873309,
      "grad_norm": 0.24726638256702277,
      "learning_rate": 2.904396223756517e-06,
      "loss": 0.8911,
      "mean_token_accuracy": 0.7712416172027587,
      "num_tokens": 639409575.0,
      "step": 6390
    },
    {
      "entropy": 0.899609375,
      "epoch": 0.8746754134208009,
      "grad_norm": 0.2522158066716543,
      "learning_rate": 2.9008736085670005e-06,
      "loss": 0.8909,
      "mean_token_accuracy": 0.770140016078949,
      "num_tokens": 640403980.0,
      "step": 6400
    },
    {
      "entropy": 0.859375,
      "epoch": 0.8760420937542709,
      "grad_norm": 0.2862971406308959,
      "learning_rate": 2.8973509933774836e-06,
      "loss": 0.8503,
      "mean_token_accuracy": 0.7795560598373413,
      "num_tokens": 641380100.0,
      "step": 6410
    },
    {
      "entropy": 0.9203125,
      "epoch": 0.8774087740877409,
      "grad_norm": 0.2450350181489862,
      "learning_rate": 2.893828378187967e-06,
      "loss": 0.925,
      "mean_token_accuracy": 0.7634802043437958,
      "num_tokens": 642396526.0,
      "step": 6420
    },
    {
      "entropy": 0.874609375,
      "epoch": 0.8787754544212109,
      "grad_norm": 0.26387224713866264,
      "learning_rate": 2.8903057629984503e-06,
      "loss": 0.8679,
      "mean_token_accuracy": 0.7746940672397613,
      "num_tokens": 643365779.0,
      "step": 6430
    },
    {
      "entropy": 0.889453125,
      "epoch": 0.8801421347546808,
      "grad_norm": 0.2601986625954919,
      "learning_rate": 2.886783147808934e-06,
      "loss": 0.8858,
      "mean_token_accuracy": 0.7726252734661102,
      "num_tokens": 644374233.0,
      "step": 6440
    },
    {
      "entropy": 0.940234375,
      "epoch": 0.8815088150881509,
      "grad_norm": 0.24721127352218478,
      "learning_rate": 2.883260532619417e-06,
      "loss": 0.9348,
      "mean_token_accuracy": 0.7606673955917358,
      "num_tokens": 645333738.0,
      "step": 6450
    },
    {
      "entropy": 0.894140625,
      "epoch": 0.8828754954216209,
      "grad_norm": 0.2802750028811224,
      "learning_rate": 2.8797379174299e-06,
      "loss": 0.8845,
      "mean_token_accuracy": 0.7723939478397369,
      "num_tokens": 646280138.0,
      "step": 6460
    },
    {
      "entropy": 0.84609375,
      "epoch": 0.8842421757550909,
      "grad_norm": 0.2400400751010058,
      "learning_rate": 2.876215302240383e-06,
      "loss": 0.8436,
      "mean_token_accuracy": 0.7829388916492462,
      "num_tokens": 647278647.0,
      "step": 6470
    },
    {
      "entropy": 0.9265625,
      "epoch": 0.8856088560885609,
      "grad_norm": 0.2547203676509133,
      "learning_rate": 2.872692687050867e-06,
      "loss": 0.9147,
      "mean_token_accuracy": 0.766358244419098,
      "num_tokens": 648304920.0,
      "step": 6480
    },
    {
      "entropy": 0.898046875,
      "epoch": 0.8869755364220309,
      "grad_norm": 0.24121756806811037,
      "learning_rate": 2.8691700718613503e-06,
      "loss": 0.8941,
      "mean_token_accuracy": 0.7688595712184906,
      "num_tokens": 649296959.0,
      "step": 6490
    },
    {
      "entropy": 0.886328125,
      "epoch": 0.8883422167555008,
      "grad_norm": 0.2572790457685872,
      "learning_rate": 2.8656474566718334e-06,
      "loss": 0.8835,
      "mean_token_accuracy": 0.7703097999095917,
      "num_tokens": 650329433.0,
      "step": 6500
    },
    {
      "entropy": 0.870703125,
      "epoch": 0.8897088970889709,
      "grad_norm": 0.23165316838989408,
      "learning_rate": 2.8621248414823165e-06,
      "loss": 0.8659,
      "mean_token_accuracy": 0.7738924026489258,
      "num_tokens": 651325368.0,
      "step": 6510
    },
    {
      "entropy": 0.9078125,
      "epoch": 0.8910755774224409,
      "grad_norm": 0.27582802849403043,
      "learning_rate": 2.8586022262927997e-06,
      "loss": 0.8954,
      "mean_token_accuracy": 0.7690185487270356,
      "num_tokens": 652253282.0,
      "step": 6520
    },
    {
      "entropy": 0.93203125,
      "epoch": 0.8924422577559109,
      "grad_norm": 0.2584650743223534,
      "learning_rate": 2.8550796111032836e-06,
      "loss": 0.9275,
      "mean_token_accuracy": 0.7619855999946594,
      "num_tokens": 653261800.0,
      "step": 6530
    },
    {
      "entropy": 0.89453125,
      "epoch": 0.8938089380893809,
      "grad_norm": 0.24981836090241105,
      "learning_rate": 2.8515569959137668e-06,
      "loss": 0.9022,
      "mean_token_accuracy": 0.7680108666419982,
      "num_tokens": 654258824.0,
      "step": 6540
    },
    {
      "entropy": 0.8859375,
      "epoch": 0.8951756184228509,
      "grad_norm": 0.2410184770520671,
      "learning_rate": 2.84803438072425e-06,
      "loss": 0.8864,
      "mean_token_accuracy": 0.7728715598583221,
      "num_tokens": 655251617.0,
      "step": 6550
    },
    {
      "entropy": 0.88984375,
      "epoch": 0.8965422987563209,
      "grad_norm": 0.23760388794202555,
      "learning_rate": 2.844511765534733e-06,
      "loss": 0.8882,
      "mean_token_accuracy": 0.7721188426017761,
      "num_tokens": 656244842.0,
      "step": 6560
    },
    {
      "entropy": 0.856640625,
      "epoch": 0.897908979089791,
      "grad_norm": 0.21454747929000534,
      "learning_rate": 2.8409891503452166e-06,
      "loss": 0.8487,
      "mean_token_accuracy": 0.7788343489170074,
      "num_tokens": 657263161.0,
      "step": 6570
    },
    {
      "entropy": 0.897265625,
      "epoch": 0.8992756594232609,
      "grad_norm": 0.24494148734149765,
      "learning_rate": 2.8374665351556997e-06,
      "loss": 0.897,
      "mean_token_accuracy": 0.7679729640483857,
      "num_tokens": 658229030.0,
      "step": 6580
    },
    {
      "entropy": 0.906640625,
      "epoch": 0.9006423397567309,
      "grad_norm": 0.2454564249500482,
      "learning_rate": 2.8339439199661832e-06,
      "loss": 0.9025,
      "mean_token_accuracy": 0.7700074076652527,
      "num_tokens": 659270232.0,
      "step": 6590
    },
    {
      "entropy": 0.9109375,
      "epoch": 0.9020090200902009,
      "grad_norm": 0.24866635167193452,
      "learning_rate": 2.8304213047766663e-06,
      "loss": 0.9166,
      "mean_token_accuracy": 0.765674251317978,
      "num_tokens": 660230684.0,
      "step": 6600
    },
    {
      "entropy": 0.864453125,
      "epoch": 0.9033757004236709,
      "grad_norm": 0.24360376932925462,
      "learning_rate": 2.82689868958715e-06,
      "loss": 0.8658,
      "mean_token_accuracy": 0.7772009551525116,
      "num_tokens": 661227468.0,
      "step": 6610
    },
    {
      "entropy": 0.88125,
      "epoch": 0.9047423807571409,
      "grad_norm": 0.2596276937667202,
      "learning_rate": 2.823376074397633e-06,
      "loss": 0.8749,
      "mean_token_accuracy": 0.7721542656421662,
      "num_tokens": 662247616.0,
      "step": 6620
    },
    {
      "entropy": 0.88125,
      "epoch": 0.906109061090611,
      "grad_norm": 0.2409054531463976,
      "learning_rate": 2.819853459208116e-06,
      "loss": 0.8711,
      "mean_token_accuracy": 0.7747192800045013,
      "num_tokens": 663208530.0,
      "step": 6630
    },
    {
      "entropy": 0.9375,
      "epoch": 0.9074757414240809,
      "grad_norm": 0.25317649260234554,
      "learning_rate": 2.8163308440186e-06,
      "loss": 0.9395,
      "mean_token_accuracy": 0.7614738047122955,
      "num_tokens": 664207117.0,
      "step": 6640
    },
    {
      "entropy": 0.89765625,
      "epoch": 0.9088424217575509,
      "grad_norm": 0.24643731663893229,
      "learning_rate": 2.8128082288290832e-06,
      "loss": 0.895,
      "mean_token_accuracy": 0.7690996646881103,
      "num_tokens": 665189465.0,
      "step": 6650
    },
    {
      "entropy": 0.908984375,
      "epoch": 0.9102091020910209,
      "grad_norm": 0.2674971698376778,
      "learning_rate": 2.8092856136395664e-06,
      "loss": 0.9048,
      "mean_token_accuracy": 0.7677266538143158,
      "num_tokens": 666199452.0,
      "step": 6660
    },
    {
      "entropy": 0.903515625,
      "epoch": 0.9115757824244909,
      "grad_norm": 0.2573827752962256,
      "learning_rate": 2.8057629984500495e-06,
      "loss": 0.9006,
      "mean_token_accuracy": 0.7668889403343201,
      "num_tokens": 667240091.0,
      "step": 6670
    },
    {
      "entropy": 0.882421875,
      "epoch": 0.9129424627579609,
      "grad_norm": 0.24078829827444678,
      "learning_rate": 2.8022403832605326e-06,
      "loss": 0.8735,
      "mean_token_accuracy": 0.774550712108612,
      "num_tokens": 668253541.0,
      "step": 6680
    },
    {
      "entropy": 0.9015625,
      "epoch": 0.914309143091431,
      "grad_norm": 0.23334511918629114,
      "learning_rate": 2.7987177680710157e-06,
      "loss": 0.9025,
      "mean_token_accuracy": 0.7700253009796143,
      "num_tokens": 669273366.0,
      "step": 6690
    },
    {
      "entropy": 0.9046875,
      "epoch": 0.915675823424901,
      "grad_norm": 0.3155748591202036,
      "learning_rate": 2.7951951528814997e-06,
      "loss": 0.9099,
      "mean_token_accuracy": 0.76575688123703,
      "num_tokens": 670296894.0,
      "step": 6700
    },
    {
      "entropy": 0.907421875,
      "epoch": 0.9170425037583709,
      "grad_norm": 0.2268952731113817,
      "learning_rate": 2.791672537691983e-06,
      "loss": 0.9197,
      "mean_token_accuracy": 0.7628266096115113,
      "num_tokens": 671344584.0,
      "step": 6710
    },
    {
      "entropy": 0.903125,
      "epoch": 0.9184091840918409,
      "grad_norm": 0.2639238117981205,
      "learning_rate": 2.788149922502466e-06,
      "loss": 0.8953,
      "mean_token_accuracy": 0.7705367028713226,
      "num_tokens": 672327599.0,
      "step": 6720
    },
    {
      "entropy": 0.8921875,
      "epoch": 0.9197758644253109,
      "grad_norm": 0.2835422619357735,
      "learning_rate": 2.784627307312949e-06,
      "loss": 0.893,
      "mean_token_accuracy": 0.7713192999362946,
      "num_tokens": 673345908.0,
      "step": 6730
    },
    {
      "entropy": 0.868359375,
      "epoch": 0.9211425447587809,
      "grad_norm": 0.23700572103190579,
      "learning_rate": 2.7811046921234326e-06,
      "loss": 0.8581,
      "mean_token_accuracy": 0.7755220532417297,
      "num_tokens": 674352632.0,
      "step": 6740
    },
    {
      "entropy": 0.92578125,
      "epoch": 0.922509225092251,
      "grad_norm": 0.24618934754241967,
      "learning_rate": 2.777582076933916e-06,
      "loss": 0.9209,
      "mean_token_accuracy": 0.76649768948555,
      "num_tokens": 675334845.0,
      "step": 6750
    },
    {
      "entropy": 0.883984375,
      "epoch": 0.923875905425721,
      "grad_norm": 0.21329429690997082,
      "learning_rate": 2.7740594617443993e-06,
      "loss": 0.8817,
      "mean_token_accuracy": 0.7704555809497833,
      "num_tokens": 676355454.0,
      "step": 6760
    },
    {
      "entropy": 0.876953125,
      "epoch": 0.9252425857591909,
      "grad_norm": 0.3259508940444142,
      "learning_rate": 2.770536846554883e-06,
      "loss": 0.8722,
      "mean_token_accuracy": 0.7757901310920715,
      "num_tokens": 677398895.0,
      "step": 6770
    },
    {
      "entropy": 0.91875,
      "epoch": 0.9266092660926609,
      "grad_norm": 0.23958118419954663,
      "learning_rate": 2.767014231365366e-06,
      "loss": 0.9196,
      "mean_token_accuracy": 0.7658289134502411,
      "num_tokens": 678386628.0,
      "step": 6780
    },
    {
      "entropy": 0.90390625,
      "epoch": 0.9279759464261309,
      "grad_norm": 0.2568414928850565,
      "learning_rate": 2.763491616175849e-06,
      "loss": 0.8957,
      "mean_token_accuracy": 0.7690195679664612,
      "num_tokens": 679438210.0,
      "step": 6790
    },
    {
      "entropy": 0.887109375,
      "epoch": 0.9293426267596009,
      "grad_norm": 0.2667513687390162,
      "learning_rate": 2.759969000986332e-06,
      "loss": 0.8858,
      "mean_token_accuracy": 0.7706996440887451,
      "num_tokens": 680454998.0,
      "step": 6800
    },
    {
      "entropy": 0.854296875,
      "epoch": 0.930709307093071,
      "grad_norm": 0.23016779432509418,
      "learning_rate": 2.756446385796816e-06,
      "loss": 0.8491,
      "mean_token_accuracy": 0.7787668704986572,
      "num_tokens": 681444975.0,
      "step": 6810
    },
    {
      "entropy": 0.8828125,
      "epoch": 0.932075987426541,
      "grad_norm": 0.22869981948876927,
      "learning_rate": 2.7529237706072993e-06,
      "loss": 0.874,
      "mean_token_accuracy": 0.7743297815322876,
      "num_tokens": 682457981.0,
      "step": 6820
    },
    {
      "entropy": 0.890625,
      "epoch": 0.933442667760011,
      "grad_norm": 0.2341355443644789,
      "learning_rate": 2.7494011554177824e-06,
      "loss": 0.8827,
      "mean_token_accuracy": 0.7730326771736145,
      "num_tokens": 683453311.0,
      "step": 6830
    },
    {
      "entropy": 0.924609375,
      "epoch": 0.9348093480934809,
      "grad_norm": 0.2620503075270715,
      "learning_rate": 2.7458785402282656e-06,
      "loss": 0.9184,
      "mean_token_accuracy": 0.7652870357036591,
      "num_tokens": 684437155.0,
      "step": 6840
    },
    {
      "entropy": 0.925,
      "epoch": 0.9361760284269509,
      "grad_norm": 0.2523427150680377,
      "learning_rate": 2.7423559250387487e-06,
      "loss": 0.9146,
      "mean_token_accuracy": 0.7658263444900513,
      "num_tokens": 685428193.0,
      "step": 6850
    },
    {
      "entropy": 0.896875,
      "epoch": 0.9375427087604209,
      "grad_norm": 0.2508694995442182,
      "learning_rate": 2.7388333098492326e-06,
      "loss": 0.881,
      "mean_token_accuracy": 0.7729530036449432,
      "num_tokens": 686363719.0,
      "step": 6860
    },
    {
      "entropy": 0.9046875,
      "epoch": 0.938909389093891,
      "grad_norm": 0.24349347123001694,
      "learning_rate": 2.7353106946597158e-06,
      "loss": 0.9028,
      "mean_token_accuracy": 0.767532217502594,
      "num_tokens": 687423240.0,
      "step": 6870
    },
    {
      "entropy": 0.9125,
      "epoch": 0.940276069427361,
      "grad_norm": 0.2934400610992774,
      "learning_rate": 2.731788079470199e-06,
      "loss": 0.919,
      "mean_token_accuracy": 0.7635885715484619,
      "num_tokens": 688380864.0,
      "step": 6880
    },
    {
      "entropy": 0.902734375,
      "epoch": 0.941642749760831,
      "grad_norm": 0.2531358029541841,
      "learning_rate": 2.728265464280682e-06,
      "loss": 0.9046,
      "mean_token_accuracy": 0.7677012026309967,
      "num_tokens": 689366091.0,
      "step": 6890
    },
    {
      "entropy": 0.90078125,
      "epoch": 0.9430094300943009,
      "grad_norm": 0.24142933349258253,
      "learning_rate": 2.7247428490911656e-06,
      "loss": 0.905,
      "mean_token_accuracy": 0.7687666833400726,
      "num_tokens": 690330964.0,
      "step": 6900
    },
    {
      "entropy": 0.905078125,
      "epoch": 0.9443761104277709,
      "grad_norm": 0.27570637900308353,
      "learning_rate": 2.7212202339016487e-06,
      "loss": 0.9072,
      "mean_token_accuracy": 0.7683347165584564,
      "num_tokens": 691337981.0,
      "step": 6910
    },
    {
      "entropy": 0.887890625,
      "epoch": 0.9457427907612409,
      "grad_norm": 0.2235703425804558,
      "learning_rate": 2.7176976187121322e-06,
      "loss": 0.8901,
      "mean_token_accuracy": 0.7703555226325989,
      "num_tokens": 692402156.0,
      "step": 6920
    },
    {
      "entropy": 0.9140625,
      "epoch": 0.947109471094711,
      "grad_norm": 0.2728099707467059,
      "learning_rate": 2.7141750035226154e-06,
      "loss": 0.9054,
      "mean_token_accuracy": 0.7675408899784089,
      "num_tokens": 693447012.0,
      "step": 6930
    },
    {
      "entropy": 0.901171875,
      "epoch": 0.948476151428181,
      "grad_norm": 0.2607842415489501,
      "learning_rate": 2.710652388333099e-06,
      "loss": 0.8983,
      "mean_token_accuracy": 0.7695928990840912,
      "num_tokens": 694464422.0,
      "step": 6940
    },
    {
      "entropy": 0.911328125,
      "epoch": 0.949842831761651,
      "grad_norm": 0.2431096399050826,
      "learning_rate": 2.707129773143582e-06,
      "loss": 0.9161,
      "mean_token_accuracy": 0.7639177441596985,
      "num_tokens": 695496716.0,
      "step": 6950
    },
    {
      "entropy": 0.868359375,
      "epoch": 0.951209512095121,
      "grad_norm": 0.2546828458856536,
      "learning_rate": 2.703607157954065e-06,
      "loss": 0.8637,
      "mean_token_accuracy": 0.7758026778697967,
      "num_tokens": 696522504.0,
      "step": 6960
    },
    {
      "entropy": 0.930859375,
      "epoch": 0.9525761924285909,
      "grad_norm": 0.2600579213890082,
      "learning_rate": 2.7000845427645483e-06,
      "loss": 0.9305,
      "mean_token_accuracy": 0.7626433968544006,
      "num_tokens": 697477258.0,
      "step": 6970
    },
    {
      "entropy": 0.875390625,
      "epoch": 0.9539428727620609,
      "grad_norm": 0.2513002531725769,
      "learning_rate": 2.6965619275750322e-06,
      "loss": 0.8789,
      "mean_token_accuracy": 0.7729565083980561,
      "num_tokens": 698459724.0,
      "step": 6980
    },
    {
      "entropy": 0.93515625,
      "epoch": 0.955309553095531,
      "grad_norm": 0.2616376038363967,
      "learning_rate": 2.6930393123855154e-06,
      "loss": 0.9433,
      "mean_token_accuracy": 0.7608757972717285,
      "num_tokens": 699484062.0,
      "step": 6990
    },
    {
      "entropy": 0.940234375,
      "epoch": 0.956676233429001,
      "grad_norm": 0.2538681019781568,
      "learning_rate": 2.6895166971959985e-06,
      "loss": 0.9412,
      "mean_token_accuracy": 0.7594929754734039,
      "num_tokens": 700454967.0,
      "step": 7000
    },
    {
      "entropy": 0.865625,
      "epoch": 0.958042913762471,
      "grad_norm": 0.2440334156964457,
      "learning_rate": 2.6859940820064816e-06,
      "loss": 0.8638,
      "mean_token_accuracy": 0.7767983078956604,
      "num_tokens": 701442196.0,
      "step": 7010
    },
    {
      "entropy": 0.926171875,
      "epoch": 0.959409594095941,
      "grad_norm": 0.28012767497811336,
      "learning_rate": 2.6824714668169647e-06,
      "loss": 0.9231,
      "mean_token_accuracy": 0.7643571853637695,
      "num_tokens": 702419631.0,
      "step": 7020
    },
    {
      "entropy": 0.90390625,
      "epoch": 0.9607762744294109,
      "grad_norm": 0.2472289892079846,
      "learning_rate": 2.6789488516274487e-06,
      "loss": 0.9055,
      "mean_token_accuracy": 0.7669287145137786,
      "num_tokens": 703488927.0,
      "step": 7030
    },
    {
      "entropy": 0.89921875,
      "epoch": 0.9621429547628809,
      "grad_norm": 0.2672195288495647,
      "learning_rate": 2.675426236437932e-06,
      "loss": 0.9003,
      "mean_token_accuracy": 0.7696789622306823,
      "num_tokens": 704531284.0,
      "step": 7040
    },
    {
      "entropy": 0.87890625,
      "epoch": 0.963509635096351,
      "grad_norm": 0.28812089276771674,
      "learning_rate": 2.671903621248415e-06,
      "loss": 0.8841,
      "mean_token_accuracy": 0.7703081667423248,
      "num_tokens": 705501913.0,
      "step": 7050
    },
    {
      "entropy": 0.894921875,
      "epoch": 0.964876315429821,
      "grad_norm": 0.2571278707821726,
      "learning_rate": 2.668381006058898e-06,
      "loss": 0.8911,
      "mean_token_accuracy": 0.7690722942352295,
      "num_tokens": 706485055.0,
      "step": 7060
    },
    {
      "entropy": 0.9078125,
      "epoch": 0.966242995763291,
      "grad_norm": 0.25709502450163846,
      "learning_rate": 2.6648583908693816e-06,
      "loss": 0.8971,
      "mean_token_accuracy": 0.7692672312259674,
      "num_tokens": 707478154.0,
      "step": 7070
    },
    {
      "entropy": 0.939453125,
      "epoch": 0.967609676096761,
      "grad_norm": 0.2709484379285642,
      "learning_rate": 2.6613357756798648e-06,
      "loss": 0.944,
      "mean_token_accuracy": 0.759447705745697,
      "num_tokens": 708467999.0,
      "step": 7080
    },
    {
      "entropy": 0.8921875,
      "epoch": 0.968976356430231,
      "grad_norm": 0.24320985736034334,
      "learning_rate": 2.6578131604903483e-06,
      "loss": 0.8931,
      "mean_token_accuracy": 0.7701657235622406,
      "num_tokens": 709429624.0,
      "step": 7090
    },
    {
      "entropy": 0.890234375,
      "epoch": 0.9703430367637009,
      "grad_norm": 0.2407428915073799,
      "learning_rate": 2.6542905453008314e-06,
      "loss": 0.8797,
      "mean_token_accuracy": 0.7742334365844726,
      "num_tokens": 710434764.0,
      "step": 7100
    },
    {
      "entropy": 0.903125,
      "epoch": 0.971709717097171,
      "grad_norm": 0.23436077470351005,
      "learning_rate": 2.650767930111315e-06,
      "loss": 0.8927,
      "mean_token_accuracy": 0.7714557886123657,
      "num_tokens": 711448154.0,
      "step": 7110
    },
    {
      "entropy": 0.90546875,
      "epoch": 0.973076397430641,
      "grad_norm": 0.24279278639946925,
      "learning_rate": 2.647245314921798e-06,
      "loss": 0.9048,
      "mean_token_accuracy": 0.7679197371006012,
      "num_tokens": 712485461.0,
      "step": 7120
    },
    {
      "entropy": 0.885546875,
      "epoch": 0.974443077764111,
      "grad_norm": 0.23277370846718987,
      "learning_rate": 2.6437226997322812e-06,
      "loss": 0.8752,
      "mean_token_accuracy": 0.7737049102783203,
      "num_tokens": 713537375.0,
      "step": 7130
    },
    {
      "entropy": 0.87734375,
      "epoch": 0.975809758097581,
      "grad_norm": 0.2535943216045646,
      "learning_rate": 2.640200084542765e-06,
      "loss": 0.8663,
      "mean_token_accuracy": 0.7738176226615906,
      "num_tokens": 714549530.0,
      "step": 7140
    },
    {
      "entropy": 0.890625,
      "epoch": 0.977176438431051,
      "grad_norm": 0.2706457904227027,
      "learning_rate": 2.6366774693532483e-06,
      "loss": 0.8955,
      "mean_token_accuracy": 0.7697429358959198,
      "num_tokens": 715478350.0,
      "step": 7150
    },
    {
      "entropy": 0.912890625,
      "epoch": 0.9785431187645209,
      "grad_norm": 0.26219097812273373,
      "learning_rate": 2.6331548541637314e-06,
      "loss": 0.9216,
      "mean_token_accuracy": 0.7643473207950592,
      "num_tokens": 716476986.0,
      "step": 7160
    },
    {
      "entropy": 0.877734375,
      "epoch": 0.979909799097991,
      "grad_norm": 0.22185899229288047,
      "learning_rate": 2.6296322389742146e-06,
      "loss": 0.8757,
      "mean_token_accuracy": 0.7749068021774292,
      "num_tokens": 717495137.0,
      "step": 7170
    },
    {
      "entropy": 0.8671875,
      "epoch": 0.981276479431461,
      "grad_norm": 0.2372804604814637,
      "learning_rate": 2.6261096237846977e-06,
      "loss": 0.8609,
      "mean_token_accuracy": 0.7757586598396301,
      "num_tokens": 718485758.0,
      "step": 7180
    },
    {
      "entropy": 0.88203125,
      "epoch": 0.982643159764931,
      "grad_norm": 0.24056933723521762,
      "learning_rate": 2.622587008595181e-06,
      "loss": 0.8792,
      "mean_token_accuracy": 0.7740805268287658,
      "num_tokens": 719460644.0,
      "step": 7190
    },
    {
      "entropy": 0.90859375,
      "epoch": 0.984009840098401,
      "grad_norm": 0.2591653783989941,
      "learning_rate": 2.6190643934056648e-06,
      "loss": 0.8975,
      "mean_token_accuracy": 0.7678978264331817,
      "num_tokens": 720475792.0,
      "step": 7200
    },
    {
      "entropy": 0.937109375,
      "epoch": 0.985376520431871,
      "grad_norm": 0.25697451362121976,
      "learning_rate": 2.615541778216148e-06,
      "loss": 0.9371,
      "mean_token_accuracy": 0.7612677752971649,
      "num_tokens": 721453125.0,
      "step": 7210
    },
    {
      "entropy": 0.889453125,
      "epoch": 0.9867432007653409,
      "grad_norm": 0.2538832545707573,
      "learning_rate": 2.612019163026631e-06,
      "loss": 0.8857,
      "mean_token_accuracy": 0.7722082674503327,
      "num_tokens": 722432480.0,
      "step": 7220
    },
    {
      "entropy": 0.9390625,
      "epoch": 0.988109881098811,
      "grad_norm": 0.2682517190379944,
      "learning_rate": 2.6084965478371146e-06,
      "loss": 0.9473,
      "mean_token_accuracy": 0.7596702635288238,
      "num_tokens": 723432525.0,
      "step": 7230
    },
    {
      "entropy": 0.8734375,
      "epoch": 0.989476561432281,
      "grad_norm": 0.22863132265580347,
      "learning_rate": 2.6049739326475977e-06,
      "loss": 0.8771,
      "mean_token_accuracy": 0.7744122862815856,
      "num_tokens": 724435158.0,
      "step": 7240
    },
    {
      "entropy": 0.90078125,
      "epoch": 0.990843241765751,
      "grad_norm": 0.2859855308934987,
      "learning_rate": 2.6014513174580812e-06,
      "loss": 0.8951,
      "mean_token_accuracy": 0.7688189923763276,
      "num_tokens": 725410072.0,
      "step": 7250
    },
    {
      "entropy": 0.893359375,
      "epoch": 0.992209922099221,
      "grad_norm": 0.24704151122408216,
      "learning_rate": 2.5979287022685644e-06,
      "loss": 0.9004,
      "mean_token_accuracy": 0.7693313896656037,
      "num_tokens": 726377155.0,
      "step": 7260
    },
    {
      "entropy": 0.863671875,
      "epoch": 0.993576602432691,
      "grad_norm": 0.23826275307836764,
      "learning_rate": 2.594406087079048e-06,
      "loss": 0.8573,
      "mean_token_accuracy": 0.7764312863349915,
      "num_tokens": 727361527.0,
      "step": 7270
    },
    {
      "entropy": 0.918359375,
      "epoch": 0.994943282766161,
      "grad_norm": 0.24101502747282477,
      "learning_rate": 2.590883471889531e-06,
      "loss": 0.9178,
      "mean_token_accuracy": 0.7651427745819092,
      "num_tokens": 728344461.0,
      "step": 7280
    },
    {
      "entropy": 0.887109375,
      "epoch": 0.996309963099631,
      "grad_norm": 0.26093700772686357,
      "learning_rate": 2.587360856700014e-06,
      "loss": 0.8847,
      "mean_token_accuracy": 0.7722488164901733,
      "num_tokens": 729330460.0,
      "step": 7290
    },
    {
      "entropy": 0.884375,
      "epoch": 0.997676643433101,
      "grad_norm": 0.24717582660379142,
      "learning_rate": 2.5838382415104973e-06,
      "loss": 0.8825,
      "mean_token_accuracy": 0.7713579952716827,
      "num_tokens": 730339383.0,
      "step": 7300
    },
    {
      "entropy": 0.926953125,
      "epoch": 0.999043323766571,
      "grad_norm": 0.24165213553636655,
      "learning_rate": 2.5803156263209813e-06,
      "loss": 0.9317,
      "mean_token_accuracy": 0.7609747886657715,
      "num_tokens": 731309956.0,
      "step": 7310
    },
    {
      "entropy": 0.92109375,
      "epoch": 1.000410004100041,
      "grad_norm": 0.24527630333781322,
      "learning_rate": 2.5767930111314644e-06,
      "loss": 0.9199,
      "mean_token_accuracy": 0.7637450277805329,
      "num_tokens": 732351410.0,
      "step": 7320
    },
    {
      "entropy": 0.894140625,
      "epoch": 1.001776684433511,
      "grad_norm": 0.24522752502848463,
      "learning_rate": 2.5732703959419475e-06,
      "loss": 0.8916,
      "mean_token_accuracy": 0.7702764451503754,
      "num_tokens": 733308446.0,
      "step": 7330
    },
    {
      "entropy": 0.8703125,
      "epoch": 1.003143364766981,
      "grad_norm": 0.2368412602658416,
      "learning_rate": 2.5697477807524306e-06,
      "loss": 0.8684,
      "mean_token_accuracy": 0.7735481560230255,
      "num_tokens": 734386467.0,
      "step": 7340
    },
    {
      "entropy": 0.85,
      "epoch": 1.004510045100451,
      "grad_norm": 0.2728170204783567,
      "learning_rate": 2.5662251655629138e-06,
      "loss": 0.8396,
      "mean_token_accuracy": 0.7813845336437225,
      "num_tokens": 735387465.0,
      "step": 7350
    },
    {
      "entropy": 0.90859375,
      "epoch": 1.005876725433921,
      "grad_norm": 0.2651371625545301,
      "learning_rate": 2.5627025503733977e-06,
      "loss": 0.9083,
      "mean_token_accuracy": 0.7653790593147278,
      "num_tokens": 736402880.0,
      "step": 7360
    },
    {
      "entropy": 0.909375,
      "epoch": 1.007243405767391,
      "grad_norm": 0.2425162560101776,
      "learning_rate": 2.559179935183881e-06,
      "loss": 0.8977,
      "mean_token_accuracy": 0.7698594331741333,
      "num_tokens": 737386726.0,
      "step": 7370
    },
    {
      "entropy": 0.91015625,
      "epoch": 1.0086100861008611,
      "grad_norm": 0.26390307552374886,
      "learning_rate": 2.555657319994364e-06,
      "loss": 0.9117,
      "mean_token_accuracy": 0.7671860456466675,
      "num_tokens": 738377522.0,
      "step": 7380
    },
    {
      "entropy": 0.882421875,
      "epoch": 1.009976766434331,
      "grad_norm": 0.23803816812909875,
      "learning_rate": 2.552134704804847e-06,
      "loss": 0.8687,
      "mean_token_accuracy": 0.7738958120346069,
      "num_tokens": 739422958.0,
      "step": 7390
    },
    {
      "entropy": 0.91953125,
      "epoch": 1.011343446767801,
      "grad_norm": 0.2684968173493525,
      "learning_rate": 2.5486120896153306e-06,
      "loss": 0.929,
      "mean_token_accuracy": 0.7608494818210602,
      "num_tokens": 740403213.0,
      "step": 7400
    },
    {
      "entropy": 0.88671875,
      "epoch": 1.012710127101271,
      "grad_norm": 0.26480102269794326,
      "learning_rate": 2.5450894744258138e-06,
      "loss": 0.8841,
      "mean_token_accuracy": 0.7738081395626069,
      "num_tokens": 741400708.0,
      "step": 7410
    },
    {
      "entropy": 0.851171875,
      "epoch": 1.014076807434741,
      "grad_norm": 0.2548358815779509,
      "learning_rate": 2.5415668592362973e-06,
      "loss": 0.8452,
      "mean_token_accuracy": 0.7803570210933686,
      "num_tokens": 742355306.0,
      "step": 7420
    },
    {
      "entropy": 0.87265625,
      "epoch": 1.015443487768211,
      "grad_norm": 0.25093576406623613,
      "learning_rate": 2.5380442440467804e-06,
      "loss": 0.8763,
      "mean_token_accuracy": 0.7761244297027587,
      "num_tokens": 743374434.0,
      "step": 7430
    },
    {
      "entropy": 0.935546875,
      "epoch": 1.016810168101681,
      "grad_norm": 0.28641711985667895,
      "learning_rate": 2.534521628857264e-06,
      "loss": 0.9346,
      "mean_token_accuracy": 0.760015869140625,
      "num_tokens": 744361052.0,
      "step": 7440
    },
    {
      "entropy": 0.8921875,
      "epoch": 1.018176848435151,
      "grad_norm": 0.22852820278674227,
      "learning_rate": 2.530999013667747e-06,
      "loss": 0.891,
      "mean_token_accuracy": 0.7710466384887695,
      "num_tokens": 745341094.0,
      "step": 7450
    },
    {
      "entropy": 0.96640625,
      "epoch": 1.019543528768621,
      "grad_norm": 0.28738323686689504,
      "learning_rate": 2.5274763984782302e-06,
      "loss": 0.9568,
      "mean_token_accuracy": 0.758813989162445,
      "num_tokens": 746336609.0,
      "step": 7460
    },
    {
      "entropy": 0.852734375,
      "epoch": 1.020910209102091,
      "grad_norm": 0.3274412036763482,
      "learning_rate": 2.5239537832887138e-06,
      "loss": 0.8536,
      "mean_token_accuracy": 0.7794892847537994,
      "num_tokens": 747379304.0,
      "step": 7470
    },
    {
      "entropy": 0.89765625,
      "epoch": 1.022276889435561,
      "grad_norm": 0.2581532931807776,
      "learning_rate": 2.5204311680991973e-06,
      "loss": 0.8967,
      "mean_token_accuracy": 0.7672302484512329,
      "num_tokens": 748386663.0,
      "step": 7480
    },
    {
      "entropy": 0.85703125,
      "epoch": 1.023643569769031,
      "grad_norm": 0.23080801062853581,
      "learning_rate": 2.5169085529096804e-06,
      "loss": 0.8587,
      "mean_token_accuracy": 0.7775318861007691,
      "num_tokens": 749319875.0,
      "step": 7490
    },
    {
      "entropy": 0.905859375,
      "epoch": 1.0250102501025011,
      "grad_norm": 0.26754358601956935,
      "learning_rate": 2.5133859377201636e-06,
      "loss": 0.9044,
      "mean_token_accuracy": 0.7658833563327789,
      "num_tokens": 750306281.0,
      "step": 7500
    },
    {
      "entropy": 0.929296875,
      "epoch": 1.0263769304359711,
      "grad_norm": 0.23512560687911893,
      "learning_rate": 2.5098633225306467e-06,
      "loss": 0.9284,
      "mean_token_accuracy": 0.762175589799881,
      "num_tokens": 751317486.0,
      "step": 7510
    },
    {
      "entropy": 0.88203125,
      "epoch": 1.027743610769441,
      "grad_norm": 0.2437656269438685,
      "learning_rate": 2.50634070734113e-06,
      "loss": 0.8808,
      "mean_token_accuracy": 0.773005735874176,
      "num_tokens": 752323434.0,
      "step": 7520
    },
    {
      "entropy": 0.88203125,
      "epoch": 1.029110291102911,
      "grad_norm": 0.2179150369710567,
      "learning_rate": 2.502818092151614e-06,
      "loss": 0.8791,
      "mean_token_accuracy": 0.7739563584327698,
      "num_tokens": 753298426.0,
      "step": 7530
    },
    {
      "entropy": 0.8734375,
      "epoch": 1.030476971436381,
      "grad_norm": 0.27027072971627186,
      "learning_rate": 2.499295476962097e-06,
      "loss": 0.859,
      "mean_token_accuracy": 0.7760695099830628,
      "num_tokens": 754304365.0,
      "step": 7540
    },
    {
      "entropy": 0.890625,
      "epoch": 1.031843651769851,
      "grad_norm": 0.24276261573606064,
      "learning_rate": 2.49577286177258e-06,
      "loss": 0.8952,
      "mean_token_accuracy": 0.7717640280723572,
      "num_tokens": 755337024.0,
      "step": 7550
    },
    {
      "entropy": 0.892578125,
      "epoch": 1.033210332103321,
      "grad_norm": 0.26853469793702306,
      "learning_rate": 2.492250246583063e-06,
      "loss": 0.8933,
      "mean_token_accuracy": 0.7700395345687866,
      "num_tokens": 756321824.0,
      "step": 7560
    },
    {
      "entropy": 0.8796875,
      "epoch": 1.034577012436791,
      "grad_norm": 0.24979050000375078,
      "learning_rate": 2.4887276313935467e-06,
      "loss": 0.8724,
      "mean_token_accuracy": 0.7730727612972259,
      "num_tokens": 757309000.0,
      "step": 7570
    },
    {
      "entropy": 0.857421875,
      "epoch": 1.035943692770261,
      "grad_norm": 0.2305582354796308,
      "learning_rate": 2.48520501620403e-06,
      "loss": 0.856,
      "mean_token_accuracy": 0.7765954196453094,
      "num_tokens": 758343356.0,
      "step": 7580
    },
    {
      "entropy": 0.86171875,
      "epoch": 1.037310373103731,
      "grad_norm": 0.26204299890672406,
      "learning_rate": 2.4816824010145134e-06,
      "loss": 0.8664,
      "mean_token_accuracy": 0.7740642428398132,
      "num_tokens": 759319244.0,
      "step": 7590
    },
    {
      "entropy": 0.894921875,
      "epoch": 1.038677053437201,
      "grad_norm": 0.2834871920085595,
      "learning_rate": 2.478159785824997e-06,
      "loss": 0.8898,
      "mean_token_accuracy": 0.770347660779953,
      "num_tokens": 760380763.0,
      "step": 7600
    },
    {
      "entropy": 0.903515625,
      "epoch": 1.040043733770671,
      "grad_norm": 0.26522861943495163,
      "learning_rate": 2.47463717063548e-06,
      "loss": 0.9101,
      "mean_token_accuracy": 0.7677455544471741,
      "num_tokens": 761390881.0,
      "step": 7610
    },
    {
      "entropy": 0.915234375,
      "epoch": 1.0414104141041411,
      "grad_norm": 0.25346158367910787,
      "learning_rate": 2.4711145554459636e-06,
      "loss": 0.9109,
      "mean_token_accuracy": 0.766285240650177,
      "num_tokens": 762417830.0,
      "step": 7620
    },
    {
      "entropy": 0.907421875,
      "epoch": 1.0427770944376111,
      "grad_norm": 0.23235208542394323,
      "learning_rate": 2.4675919402564467e-06,
      "loss": 0.9019,
      "mean_token_accuracy": 0.7676967024803162,
      "num_tokens": 763421144.0,
      "step": 7630
    },
    {
      "entropy": 0.901171875,
      "epoch": 1.0441437747710811,
      "grad_norm": 0.23519104981184893,
      "learning_rate": 2.46406932506693e-06,
      "loss": 0.8986,
      "mean_token_accuracy": 0.7688596546649933,
      "num_tokens": 764456854.0,
      "step": 7640
    },
    {
      "entropy": 0.866015625,
      "epoch": 1.045510455104551,
      "grad_norm": 0.2697446129312067,
      "learning_rate": 2.4605467098774134e-06,
      "loss": 0.8619,
      "mean_token_accuracy": 0.7776471912860871,
      "num_tokens": 765502181.0,
      "step": 7650
    },
    {
      "entropy": 0.87265625,
      "epoch": 1.046877135438021,
      "grad_norm": 0.24315878117873738,
      "learning_rate": 2.4570240946878965e-06,
      "loss": 0.8736,
      "mean_token_accuracy": 0.773573499917984,
      "num_tokens": 766492469.0,
      "step": 7660
    },
    {
      "entropy": 0.9,
      "epoch": 1.048243815771491,
      "grad_norm": 0.24045280328122956,
      "learning_rate": 2.4535014794983796e-06,
      "loss": 0.9054,
      "mean_token_accuracy": 0.7676997661590577,
      "num_tokens": 767484098.0,
      "step": 7670
    },
    {
      "entropy": 0.865625,
      "epoch": 1.049610496104961,
      "grad_norm": 0.2698023856402039,
      "learning_rate": 2.449978864308863e-06,
      "loss": 0.8665,
      "mean_token_accuracy": 0.7754177868366241,
      "num_tokens": 768449811.0,
      "step": 7680
    },
    {
      "entropy": 0.888671875,
      "epoch": 1.050977176438431,
      "grad_norm": 0.2511075720997758,
      "learning_rate": 2.4464562491193463e-06,
      "loss": 0.8824,
      "mean_token_accuracy": 0.7715838313102722,
      "num_tokens": 769423148.0,
      "step": 7690
    },
    {
      "entropy": 0.911328125,
      "epoch": 1.052343856771901,
      "grad_norm": 0.27217691986278614,
      "learning_rate": 2.4429336339298294e-06,
      "loss": 0.9243,
      "mean_token_accuracy": 0.7651043653488159,
      "num_tokens": 770446252.0,
      "step": 7700
    },
    {
      "entropy": 0.842578125,
      "epoch": 1.053710537105371,
      "grad_norm": 0.24825054994423157,
      "learning_rate": 2.439411018740313e-06,
      "loss": 0.84,
      "mean_token_accuracy": 0.7792118906974792,
      "num_tokens": 771407315.0,
      "step": 7710
    },
    {
      "entropy": 0.848828125,
      "epoch": 1.055077217438841,
      "grad_norm": 0.23166223438573966,
      "learning_rate": 2.435888403550796e-06,
      "loss": 0.8397,
      "mean_token_accuracy": 0.7797295212745666,
      "num_tokens": 772382184.0,
      "step": 7720
    },
    {
      "entropy": 0.899609375,
      "epoch": 1.056443897772311,
      "grad_norm": 0.2500715784059908,
      "learning_rate": 2.4323657883612797e-06,
      "loss": 0.9072,
      "mean_token_accuracy": 0.767745441198349,
      "num_tokens": 773395262.0,
      "step": 7730
    },
    {
      "entropy": 0.90625,
      "epoch": 1.0578105781057812,
      "grad_norm": 0.25685664871431385,
      "learning_rate": 2.4288431731717628e-06,
      "loss": 0.9076,
      "mean_token_accuracy": 0.7678821444511413,
      "num_tokens": 774360843.0,
      "step": 7740
    },
    {
      "entropy": 0.887109375,
      "epoch": 1.0591772584392511,
      "grad_norm": 0.2785411126859055,
      "learning_rate": 2.4253205579822463e-06,
      "loss": 0.8856,
      "mean_token_accuracy": 0.769751352071762,
      "num_tokens": 775331478.0,
      "step": 7750
    },
    {
      "entropy": 0.88203125,
      "epoch": 1.0605439387727211,
      "grad_norm": 0.25103317722203217,
      "learning_rate": 2.4217979427927294e-06,
      "loss": 0.8703,
      "mean_token_accuracy": 0.7758877158164978,
      "num_tokens": 776295077.0,
      "step": 7760
    },
    {
      "entropy": 0.856640625,
      "epoch": 1.0619106191061911,
      "grad_norm": 0.23433290186981268,
      "learning_rate": 2.418275327603213e-06,
      "loss": 0.8581,
      "mean_token_accuracy": 0.7768990337848664,
      "num_tokens": 777280868.0,
      "step": 7770
    },
    {
      "entropy": 0.8796875,
      "epoch": 1.063277299439661,
      "grad_norm": 0.28105706367895184,
      "learning_rate": 2.414752712413696e-06,
      "loss": 0.8705,
      "mean_token_accuracy": 0.7737526297569275,
      "num_tokens": 778276696.0,
      "step": 7780
    },
    {
      "entropy": 0.844140625,
      "epoch": 1.064643979773131,
      "grad_norm": 0.2489872489520409,
      "learning_rate": 2.4112300972241797e-06,
      "loss": 0.8425,
      "mean_token_accuracy": 0.7819388508796692,
      "num_tokens": 779266431.0,
      "step": 7790
    },
    {
      "entropy": 0.887109375,
      "epoch": 1.066010660106601,
      "grad_norm": 0.246990705660461,
      "learning_rate": 2.4077074820346628e-06,
      "loss": 0.8876,
      "mean_token_accuracy": 0.7706845104694366,
      "num_tokens": 780277233.0,
      "step": 7800
    },
    {
      "entropy": 0.91953125,
      "epoch": 1.067377340440071,
      "grad_norm": 0.27730579722956966,
      "learning_rate": 2.404184866845146e-06,
      "loss": 0.9202,
      "mean_token_accuracy": 0.7634628772735595,
      "num_tokens": 781305479.0,
      "step": 7810
    },
    {
      "entropy": 0.899609375,
      "epoch": 1.068744020773541,
      "grad_norm": 0.2514967090539157,
      "learning_rate": 2.4006622516556295e-06,
      "loss": 0.8938,
      "mean_token_accuracy": 0.7696808457374573,
      "num_tokens": 782310821.0,
      "step": 7820
    },
    {
      "entropy": 0.90859375,
      "epoch": 1.070110701107011,
      "grad_norm": 0.26257044390855167,
      "learning_rate": 2.3971396364661126e-06,
      "loss": 0.908,
      "mean_token_accuracy": 0.7667727291584014,
      "num_tokens": 783300711.0,
      "step": 7830
    },
    {
      "entropy": 0.9125,
      "epoch": 1.071477381440481,
      "grad_norm": 0.24577355416784183,
      "learning_rate": 2.393617021276596e-06,
      "loss": 0.9121,
      "mean_token_accuracy": 0.7674382865428925,
      "num_tokens": 784293361.0,
      "step": 7840
    },
    {
      "entropy": 0.8953125,
      "epoch": 1.072844061773951,
      "grad_norm": 0.2386873326895053,
      "learning_rate": 2.3900944060870793e-06,
      "loss": 0.8999,
      "mean_token_accuracy": 0.7696232199668884,
      "num_tokens": 785257780.0,
      "step": 7850
    },
    {
      "entropy": 0.898828125,
      "epoch": 1.0742107421074212,
      "grad_norm": 0.25272995086665706,
      "learning_rate": 2.3865717908975624e-06,
      "loss": 0.8912,
      "mean_token_accuracy": 0.770497077703476,
      "num_tokens": 786269697.0,
      "step": 7860
    },
    {
      "entropy": 0.8984375,
      "epoch": 1.0755774224408912,
      "grad_norm": 0.2679599864059166,
      "learning_rate": 2.383049175708046e-06,
      "loss": 0.8901,
      "mean_token_accuracy": 0.7697477877140045,
      "num_tokens": 787269436.0,
      "step": 7870
    },
    {
      "entropy": 0.862890625,
      "epoch": 1.0769441027743611,
      "grad_norm": 0.2778638591020833,
      "learning_rate": 2.379526560518529e-06,
      "loss": 0.8629,
      "mean_token_accuracy": 0.7763212442398071,
      "num_tokens": 788255012.0,
      "step": 7880
    },
    {
      "entropy": 0.9234375,
      "epoch": 1.0783107831078311,
      "grad_norm": 0.25514091877355777,
      "learning_rate": 2.376003945329012e-06,
      "loss": 0.9179,
      "mean_token_accuracy": 0.7632522344589233,
      "num_tokens": 789269288.0,
      "step": 7890
    },
    {
      "entropy": 0.840625,
      "epoch": 1.079677463441301,
      "grad_norm": 0.32068810510478785,
      "learning_rate": 2.3724813301394957e-06,
      "loss": 0.8363,
      "mean_token_accuracy": 0.7823089361190796,
      "num_tokens": 790240965.0,
      "step": 7900
    },
    {
      "entropy": 0.86171875,
      "epoch": 1.081044143774771,
      "grad_norm": 0.25506501745385113,
      "learning_rate": 2.368958714949979e-06,
      "loss": 0.8509,
      "mean_token_accuracy": 0.7795878469944,
      "num_tokens": 791198003.0,
      "step": 7910
    },
    {
      "entropy": 0.884765625,
      "epoch": 1.082410824108241,
      "grad_norm": 0.2503809518558434,
      "learning_rate": 2.3654360997604624e-06,
      "loss": 0.8668,
      "mean_token_accuracy": 0.7756688177585602,
      "num_tokens": 792174104.0,
      "step": 7920
    },
    {
      "entropy": 0.896484375,
      "epoch": 1.083777504441711,
      "grad_norm": 0.2503372988925439,
      "learning_rate": 2.3619134845709455e-06,
      "loss": 0.9014,
      "mean_token_accuracy": 0.7706475377082824,
      "num_tokens": 793200436.0,
      "step": 7930
    },
    {
      "entropy": 0.898828125,
      "epoch": 1.085144184775181,
      "grad_norm": 0.218583780384884,
      "learning_rate": 2.358390869381429e-06,
      "loss": 0.8892,
      "mean_token_accuracy": 0.7714643478393555,
      "num_tokens": 794189380.0,
      "step": 7940
    },
    {
      "entropy": 0.912109375,
      "epoch": 1.086510865108651,
      "grad_norm": 0.2509854162948879,
      "learning_rate": 2.354868254191912e-06,
      "loss": 0.9206,
      "mean_token_accuracy": 0.7655007481575012,
      "num_tokens": 795204803.0,
      "step": 7950
    },
    {
      "entropy": 0.890234375,
      "epoch": 1.087877545442121,
      "grad_norm": 0.25722474566445025,
      "learning_rate": 2.3513456390023957e-06,
      "loss": 0.8883,
      "mean_token_accuracy": 0.771285992860794,
      "num_tokens": 796219873.0,
      "step": 7960
    },
    {
      "entropy": 0.9125,
      "epoch": 1.089244225775591,
      "grad_norm": 0.2466900538030173,
      "learning_rate": 2.347823023812879e-06,
      "loss": 0.9156,
      "mean_token_accuracy": 0.7650097668170929,
      "num_tokens": 797177168.0,
      "step": 7970
    },
    {
      "entropy": 0.917578125,
      "epoch": 1.090610906109061,
      "grad_norm": 0.24974445040383378,
      "learning_rate": 2.3443004086233624e-06,
      "loss": 0.9113,
      "mean_token_accuracy": 0.767474752664566,
      "num_tokens": 798158967.0,
      "step": 7980
    },
    {
      "entropy": 0.876953125,
      "epoch": 1.0919775864425312,
      "grad_norm": 0.2834402887835324,
      "learning_rate": 2.3407777934338455e-06,
      "loss": 0.88,
      "mean_token_accuracy": 0.7733891487121582,
      "num_tokens": 799174977.0,
      "step": 7990
    },
    {
      "entropy": 0.8765625,
      "epoch": 1.0933442667760012,
      "grad_norm": 0.2535601852582017,
      "learning_rate": 2.3372551782443286e-06,
      "loss": 0.8704,
      "mean_token_accuracy": 0.7751302778720855,
      "num_tokens": 800166131.0,
      "step": 8000
    },
    {
      "entropy": 0.891796875,
      "epoch": 1.0947109471094711,
      "grad_norm": 0.23936137357817705,
      "learning_rate": 2.333732563054812e-06,
      "loss": 0.8924,
      "mean_token_accuracy": 0.7704637348651886,
      "num_tokens": 801197432.0,
      "step": 8010
    },
    {
      "entropy": 0.899609375,
      "epoch": 1.0960776274429411,
      "grad_norm": 0.27621356123073487,
      "learning_rate": 2.3302099478652953e-06,
      "loss": 0.896,
      "mean_token_accuracy": 0.7708267271518707,
      "num_tokens": 802211389.0,
      "step": 8020
    },
    {
      "entropy": 0.891015625,
      "epoch": 1.097444307776411,
      "grad_norm": 0.2773354554587145,
      "learning_rate": 2.3266873326757784e-06,
      "loss": 0.8998,
      "mean_token_accuracy": 0.7700413584709167,
      "num_tokens": 803171428.0,
      "step": 8030
    },
    {
      "entropy": 0.94921875,
      "epoch": 1.098810988109881,
      "grad_norm": 0.2626075407783824,
      "learning_rate": 2.323164717486262e-06,
      "loss": 0.9531,
      "mean_token_accuracy": 0.755423778295517,
      "num_tokens": 804203089.0,
      "step": 8040
    },
    {
      "entropy": 0.84140625,
      "epoch": 1.100177668443351,
      "grad_norm": 0.24575670086692553,
      "learning_rate": 2.319642102296745e-06,
      "loss": 0.838,
      "mean_token_accuracy": 0.7824958860874176,
      "num_tokens": 805209580.0,
      "step": 8050
    },
    {
      "entropy": 0.886328125,
      "epoch": 1.101544348776821,
      "grad_norm": 0.26126891337438884,
      "learning_rate": 2.3161194871072287e-06,
      "loss": 0.8794,
      "mean_token_accuracy": 0.7713410139083863,
      "num_tokens": 806191794.0,
      "step": 8060
    },
    {
      "entropy": 0.86875,
      "epoch": 1.102911029110291,
      "grad_norm": 0.23536123598117947,
      "learning_rate": 2.3125968719177118e-06,
      "loss": 0.8634,
      "mean_token_accuracy": 0.7766385316848755,
      "num_tokens": 807170541.0,
      "step": 8070
    },
    {
      "entropy": 0.903125,
      "epoch": 1.104277709443761,
      "grad_norm": 0.2709204641768538,
      "learning_rate": 2.3090742567281953e-06,
      "loss": 0.8947,
      "mean_token_accuracy": 0.7704450011253356,
      "num_tokens": 808211241.0,
      "step": 8080
    },
    {
      "entropy": 0.880078125,
      "epoch": 1.105644389777231,
      "grad_norm": 0.23172089570643695,
      "learning_rate": 2.3055516415386785e-06,
      "loss": 0.879,
      "mean_token_accuracy": 0.7745690405368805,
      "num_tokens": 809195307.0,
      "step": 8090
    },
    {
      "entropy": 0.890625,
      "epoch": 1.1070110701107012,
      "grad_norm": 0.3134548537000887,
      "learning_rate": 2.302029026349162e-06,
      "loss": 0.8953,
      "mean_token_accuracy": 0.7699700057506561,
      "num_tokens": 810175750.0,
      "step": 8100
    },
    {
      "entropy": 0.90625,
      "epoch": 1.1083777504441712,
      "grad_norm": 0.2940987885425701,
      "learning_rate": 2.298506411159645e-06,
      "loss": 0.9038,
      "mean_token_accuracy": 0.7679292261600494,
      "num_tokens": 811202472.0,
      "step": 8110
    },
    {
      "entropy": 0.888671875,
      "epoch": 1.1097444307776412,
      "grad_norm": 0.2399480639289965,
      "learning_rate": 2.2949837959701287e-06,
      "loss": 0.8845,
      "mean_token_accuracy": 0.7707052052021026,
      "num_tokens": 812275788.0,
      "step": 8120
    },
    {
      "entropy": 0.9109375,
      "epoch": 1.1111111111111112,
      "grad_norm": 0.2567899515953075,
      "learning_rate": 2.291461180780612e-06,
      "loss": 0.9048,
      "mean_token_accuracy": 0.7682106971740723,
      "num_tokens": 813309547.0,
      "step": 8130
    },
    {
      "entropy": 0.8875,
      "epoch": 1.1124777914445811,
      "grad_norm": 0.24653980652361282,
      "learning_rate": 2.287938565591095e-06,
      "loss": 0.8871,
      "mean_token_accuracy": 0.7716385066509247,
      "num_tokens": 814311981.0,
      "step": 8140
    },
    {
      "entropy": 0.85078125,
      "epoch": 1.1138444717780511,
      "grad_norm": 0.22753201579478002,
      "learning_rate": 2.2844159504015785e-06,
      "loss": 0.8494,
      "mean_token_accuracy": 0.7787998199462891,
      "num_tokens": 815337391.0,
      "step": 8150
    },
    {
      "entropy": 0.894140625,
      "epoch": 1.115211152111521,
      "grad_norm": 0.26009921902925304,
      "learning_rate": 2.2808933352120616e-06,
      "loss": 0.8826,
      "mean_token_accuracy": 0.7726885735988617,
      "num_tokens": 816285117.0,
      "step": 8160
    },
    {
      "entropy": 0.887890625,
      "epoch": 1.116577832444991,
      "grad_norm": 0.2477282076903686,
      "learning_rate": 2.277370720022545e-06,
      "loss": 0.8845,
      "mean_token_accuracy": 0.7696813762187957,
      "num_tokens": 817279034.0,
      "step": 8170
    },
    {
      "entropy": 0.88984375,
      "epoch": 1.117944512778461,
      "grad_norm": 0.26029717729170776,
      "learning_rate": 2.2738481048330283e-06,
      "loss": 0.8889,
      "mean_token_accuracy": 0.7698988497257233,
      "num_tokens": 818293161.0,
      "step": 8180
    },
    {
      "entropy": 0.876171875,
      "epoch": 1.119311193111931,
      "grad_norm": 0.2636674921241409,
      "learning_rate": 2.2703254896435114e-06,
      "loss": 0.8785,
      "mean_token_accuracy": 0.7721447706222534,
      "num_tokens": 819333445.0,
      "step": 8190
    },
    {
      "entropy": 0.9109375,
      "epoch": 1.120677873445401,
      "grad_norm": 0.2376222694235127,
      "learning_rate": 2.266802874453995e-06,
      "loss": 0.9212,
      "mean_token_accuracy": 0.7632512629032135,
      "num_tokens": 820345529.0,
      "step": 8200
    },
    {
      "entropy": 0.8984375,
      "epoch": 1.122044553778871,
      "grad_norm": 0.2877174772660183,
      "learning_rate": 2.263280259264478e-06,
      "loss": 0.8894,
      "mean_token_accuracy": 0.7711076438426971,
      "num_tokens": 821321575.0,
      "step": 8210
    },
    {
      "entropy": 0.85703125,
      "epoch": 1.123411234112341,
      "grad_norm": 0.2417079541458476,
      "learning_rate": 2.259757644074961e-06,
      "loss": 0.8426,
      "mean_token_accuracy": 0.781276136636734,
      "num_tokens": 822305031.0,
      "step": 8220
    },
    {
      "entropy": 0.898046875,
      "epoch": 1.1247779144458112,
      "grad_norm": 0.2656611390956831,
      "learning_rate": 2.2562350288854447e-06,
      "loss": 0.8881,
      "mean_token_accuracy": 0.7712067544460297,
      "num_tokens": 823307632.0,
      "step": 8230
    },
    {
      "entropy": 0.84921875,
      "epoch": 1.1261445947792812,
      "grad_norm": 0.25252880999325455,
      "learning_rate": 2.252712413695928e-06,
      "loss": 0.8425,
      "mean_token_accuracy": 0.7804633915424347,
      "num_tokens": 824271389.0,
      "step": 8240
    },
    {
      "entropy": 0.898828125,
      "epoch": 1.1275112751127512,
      "grad_norm": 0.2527147516928292,
      "learning_rate": 2.2491897985064114e-06,
      "loss": 0.8992,
      "mean_token_accuracy": 0.7681646108627319,
      "num_tokens": 825278540.0,
      "step": 8250
    },
    {
      "entropy": 0.871875,
      "epoch": 1.1288779554462212,
      "grad_norm": 0.25724153691793983,
      "learning_rate": 2.2456671833168945e-06,
      "loss": 0.875,
      "mean_token_accuracy": 0.7730645060539245,
      "num_tokens": 826243008.0,
      "step": 8260
    },
    {
      "entropy": 0.8921875,
      "epoch": 1.1302446357796911,
      "grad_norm": 0.2694874378030406,
      "learning_rate": 2.242144568127378e-06,
      "loss": 0.8853,
      "mean_token_accuracy": 0.7717305839061737,
      "num_tokens": 827215814.0,
      "step": 8270
    },
    {
      "entropy": 0.926953125,
      "epoch": 1.1316113161131611,
      "grad_norm": 0.2321491008727304,
      "learning_rate": 2.238621952937861e-06,
      "loss": 0.9318,
      "mean_token_accuracy": 0.7632485032081604,
      "num_tokens": 828242802.0,
      "step": 8280
    },
    {
      "entropy": 0.917578125,
      "epoch": 1.132977996446631,
      "grad_norm": 0.26628597281416694,
      "learning_rate": 2.2350993377483447e-06,
      "loss": 0.9145,
      "mean_token_accuracy": 0.7659434735774994,
      "num_tokens": 829230247.0,
      "step": 8290
    },
    {
      "entropy": 0.8796875,
      "epoch": 1.134344676780101,
      "grad_norm": 0.23888148991390298,
      "learning_rate": 2.231576722558828e-06,
      "loss": 0.8784,
      "mean_token_accuracy": 0.7728942036628723,
      "num_tokens": 830212886.0,
      "step": 8300
    },
    {
      "entropy": 0.86953125,
      "epoch": 1.135711357113571,
      "grad_norm": 0.2707132718647114,
      "learning_rate": 2.2280541073693114e-06,
      "loss": 0.8629,
      "mean_token_accuracy": 0.7764146029949188,
      "num_tokens": 831226328.0,
      "step": 8310
    },
    {
      "entropy": 0.923046875,
      "epoch": 1.137078037447041,
      "grad_norm": 0.26880570539706805,
      "learning_rate": 2.2245314921797945e-06,
      "loss": 0.9247,
      "mean_token_accuracy": 0.7649201154708862,
      "num_tokens": 832234093.0,
      "step": 8320
    },
    {
      "entropy": 0.9015625,
      "epoch": 1.1384447177805113,
      "grad_norm": 0.24995502334596228,
      "learning_rate": 2.2210088769902777e-06,
      "loss": 0.9,
      "mean_token_accuracy": 0.7679629027843475,
      "num_tokens": 833253215.0,
      "step": 8330
    },
    {
      "entropy": 0.819140625,
      "epoch": 1.1398113981139812,
      "grad_norm": 0.2478345085794417,
      "learning_rate": 2.217486261800761e-06,
      "loss": 0.8212,
      "mean_token_accuracy": 0.7835867941379547,
      "num_tokens": 834191417.0,
      "step": 8340
    },
    {
      "entropy": 0.887109375,
      "epoch": 1.1411780784474512,
      "grad_norm": 0.2613716780937575,
      "learning_rate": 2.2139636466112443e-06,
      "loss": 0.8866,
      "mean_token_accuracy": 0.7723490595817566,
      "num_tokens": 835221928.0,
      "step": 8350
    },
    {
      "entropy": 0.864453125,
      "epoch": 1.1425447587809212,
      "grad_norm": 0.24574206205625812,
      "learning_rate": 2.2104410314217275e-06,
      "loss": 0.8627,
      "mean_token_accuracy": 0.777004623413086,
      "num_tokens": 836213826.0,
      "step": 8360
    },
    {
      "entropy": 0.906640625,
      "epoch": 1.1439114391143912,
      "grad_norm": 0.2639281144067982,
      "learning_rate": 2.206918416232211e-06,
      "loss": 0.9059,
      "mean_token_accuracy": 0.7679747819900513,
      "num_tokens": 837243775.0,
      "step": 8370
    },
    {
      "entropy": 0.915625,
      "epoch": 1.1452781194478612,
      "grad_norm": 0.24539977360505086,
      "learning_rate": 2.203395801042694e-06,
      "loss": 0.9107,
      "mean_token_accuracy": 0.7647423863410949,
      "num_tokens": 838260824.0,
      "step": 8380
    },
    {
      "entropy": 0.88828125,
      "epoch": 1.1466447997813312,
      "grad_norm": 0.2679147235915592,
      "learning_rate": 2.1998731858531777e-06,
      "loss": 0.8917,
      "mean_token_accuracy": 0.7707423627376556,
      "num_tokens": 839308991.0,
      "step": 8390
    },
    {
      "entropy": 0.90234375,
      "epoch": 1.1480114801148011,
      "grad_norm": 0.26420174246714945,
      "learning_rate": 2.196350570663661e-06,
      "loss": 0.9046,
      "mean_token_accuracy": 0.7692187666893006,
      "num_tokens": 840316186.0,
      "step": 8400
    },
    {
      "entropy": 0.8859375,
      "epoch": 1.1493781604482711,
      "grad_norm": 0.2421636173978863,
      "learning_rate": 2.192827955474144e-06,
      "loss": 0.8724,
      "mean_token_accuracy": 0.7741237759590149,
      "num_tokens": 841297160.0,
      "step": 8410
    },
    {
      "entropy": 0.857421875,
      "epoch": 1.150744840781741,
      "grad_norm": 0.23499216153463393,
      "learning_rate": 2.1893053402846275e-06,
      "loss": 0.8541,
      "mean_token_accuracy": 0.7782944083213806,
      "num_tokens": 842305251.0,
      "step": 8420
    },
    {
      "entropy": 0.92734375,
      "epoch": 1.152111521115211,
      "grad_norm": 0.24499829052632813,
      "learning_rate": 2.1857827250951106e-06,
      "loss": 0.923,
      "mean_token_accuracy": 0.7674732804298401,
      "num_tokens": 843329273.0,
      "step": 8430
    },
    {
      "entropy": 0.898046875,
      "epoch": 1.153478201448681,
      "grad_norm": 0.2530481950548053,
      "learning_rate": 2.182260109905594e-06,
      "loss": 0.8998,
      "mean_token_accuracy": 0.7669977188110352,
      "num_tokens": 844332178.0,
      "step": 8440
    },
    {
      "entropy": 0.854296875,
      "epoch": 1.154844881782151,
      "grad_norm": 0.2615482299473055,
      "learning_rate": 2.1787374947160777e-06,
      "loss": 0.8518,
      "mean_token_accuracy": 0.7791890501976013,
      "num_tokens": 845304453.0,
      "step": 8450
    },
    {
      "entropy": 0.86328125,
      "epoch": 1.156211562115621,
      "grad_norm": 0.23154373696712738,
      "learning_rate": 2.175214879526561e-06,
      "loss": 0.8609,
      "mean_token_accuracy": 0.7754144608974457,
      "num_tokens": 846348270.0,
      "step": 8460
    },
    {
      "entropy": 0.9140625,
      "epoch": 1.1575782424490912,
      "grad_norm": 0.23772949081406422,
      "learning_rate": 2.171692264337044e-06,
      "loss": 0.8988,
      "mean_token_accuracy": 0.7689536690711976,
      "num_tokens": 847329653.0,
      "step": 8470
    },
    {
      "entropy": 0.880859375,
      "epoch": 1.1589449227825612,
      "grad_norm": 0.2763108298529708,
      "learning_rate": 2.1681696491475275e-06,
      "loss": 0.8697,
      "mean_token_accuracy": 0.7752561748027802,
      "num_tokens": 848298122.0,
      "step": 8480
    },
    {
      "entropy": 0.880078125,
      "epoch": 1.1603116031160312,
      "grad_norm": 0.24966284809103767,
      "learning_rate": 2.1646470339580106e-06,
      "loss": 0.8736,
      "mean_token_accuracy": 0.7743152201175689,
      "num_tokens": 849361995.0,
      "step": 8490
    },
    {
      "entropy": 0.85859375,
      "epoch": 1.1616782834495012,
      "grad_norm": 0.2543502441275348,
      "learning_rate": 2.1611244187684937e-06,
      "loss": 0.8514,
      "mean_token_accuracy": 0.7801983654499054,
      "num_tokens": 850348679.0,
      "step": 8500
    },
    {
      "entropy": 0.87265625,
      "epoch": 1.1630449637829712,
      "grad_norm": 0.23599591825145452,
      "learning_rate": 2.1576018035789773e-06,
      "loss": 0.8714,
      "mean_token_accuracy": 0.7755310773849488,
      "num_tokens": 851390979.0,
      "step": 8510
    },
    {
      "entropy": 0.859375,
      "epoch": 1.1644116441164412,
      "grad_norm": 0.2570665527109077,
      "learning_rate": 2.1540791883894604e-06,
      "loss": 0.8557,
      "mean_token_accuracy": 0.7759420335292816,
      "num_tokens": 852334784.0,
      "step": 8520
    },
    {
      "entropy": 0.89921875,
      "epoch": 1.1657783244499111,
      "grad_norm": 0.2548829839934772,
      "learning_rate": 2.150556573199944e-06,
      "loss": 0.9068,
      "mean_token_accuracy": 0.7692771911621094,
      "num_tokens": 853316164.0,
      "step": 8530
    },
    {
      "entropy": 0.88359375,
      "epoch": 1.1671450047833811,
      "grad_norm": 0.2249087883700948,
      "learning_rate": 2.147033958010427e-06,
      "loss": 0.8799,
      "mean_token_accuracy": 0.7732322335243225,
      "num_tokens": 854310705.0,
      "step": 8540
    },
    {
      "entropy": 0.9109375,
      "epoch": 1.168511685116851,
      "grad_norm": 0.279259954243377,
      "learning_rate": 2.14351134282091e-06,
      "loss": 0.9,
      "mean_token_accuracy": 0.769634735584259,
      "num_tokens": 855323999.0,
      "step": 8550
    },
    {
      "entropy": 0.859375,
      "epoch": 1.169878365450321,
      "grad_norm": 0.26231306432130314,
      "learning_rate": 2.1399887276313937e-06,
      "loss": 0.8398,
      "mean_token_accuracy": 0.7825438737869262,
      "num_tokens": 856354716.0,
      "step": 8560
    },
    {
      "entropy": 0.916796875,
      "epoch": 1.1712450457837913,
      "grad_norm": 0.24988572820591112,
      "learning_rate": 2.136466112441877e-06,
      "loss": 0.9186,
      "mean_token_accuracy": 0.7658189117908478,
      "num_tokens": 857367255.0,
      "step": 8570
    },
    {
      "entropy": 0.87578125,
      "epoch": 1.1726117261172613,
      "grad_norm": 0.26227452706264576,
      "learning_rate": 2.1329434972523604e-06,
      "loss": 0.8713,
      "mean_token_accuracy": 0.7746641278266907,
      "num_tokens": 858351443.0,
      "step": 8580
    },
    {
      "entropy": 0.8828125,
      "epoch": 1.1739784064507313,
      "grad_norm": 0.263006458520992,
      "learning_rate": 2.1294208820628435e-06,
      "loss": 0.8745,
      "mean_token_accuracy": 0.7738819003105164,
      "num_tokens": 859323958.0,
      "step": 8590
    },
    {
      "entropy": 0.9234375,
      "epoch": 1.1753450867842012,
      "grad_norm": 0.25112241965464044,
      "learning_rate": 2.125898266873327e-06,
      "loss": 0.9188,
      "mean_token_accuracy": 0.7623209238052369,
      "num_tokens": 860387216.0,
      "step": 8600
    },
    {
      "entropy": 0.91328125,
      "epoch": 1.1767117671176712,
      "grad_norm": 0.24500124528900655,
      "learning_rate": 2.12237565168381e-06,
      "loss": 0.901,
      "mean_token_accuracy": 0.7680050551891326,
      "num_tokens": 861392464.0,
      "step": 8610
    },
    {
      "entropy": 0.895703125,
      "epoch": 1.1780784474511412,
      "grad_norm": 0.24813846592274663,
      "learning_rate": 2.1188530364942938e-06,
      "loss": 0.8949,
      "mean_token_accuracy": 0.7693600714206695,
      "num_tokens": 862397043.0,
      "step": 8620
    },
    {
      "entropy": 0.84375,
      "epoch": 1.1794451277846112,
      "grad_norm": 0.2323242110195881,
      "learning_rate": 2.115330421304777e-06,
      "loss": 0.8422,
      "mean_token_accuracy": 0.7796163380146026,
      "num_tokens": 863390205.0,
      "step": 8630
    },
    {
      "entropy": 0.862890625,
      "epoch": 1.1808118081180812,
      "grad_norm": 0.2485218436622827,
      "learning_rate": 2.1118078061152604e-06,
      "loss": 0.8739,
      "mean_token_accuracy": 0.7744292378425598,
      "num_tokens": 864448969.0,
      "step": 8640
    },
    {
      "entropy": 0.857421875,
      "epoch": 1.1821784884515512,
      "grad_norm": 0.23791389692968526,
      "learning_rate": 2.1082851909257435e-06,
      "loss": 0.8631,
      "mean_token_accuracy": 0.7757593810558319,
      "num_tokens": 865457188.0,
      "step": 8650
    },
    {
      "entropy": 0.881640625,
      "epoch": 1.1835451687850211,
      "grad_norm": 0.2174307816320654,
      "learning_rate": 2.1047625757362267e-06,
      "loss": 0.8807,
      "mean_token_accuracy": 0.7735972285270691,
      "num_tokens": 866493920.0,
      "step": 8660
    },
    {
      "entropy": 0.884765625,
      "epoch": 1.1849118491184911,
      "grad_norm": 0.2625528561158341,
      "learning_rate": 2.1012399605467102e-06,
      "loss": 0.8909,
      "mean_token_accuracy": 0.7696341216564179,
      "num_tokens": 867456088.0,
      "step": 8670
    },
    {
      "entropy": 0.91328125,
      "epoch": 1.186278529451961,
      "grad_norm": 0.23553694663115288,
      "learning_rate": 2.0977173453571933e-06,
      "loss": 0.9163,
      "mean_token_accuracy": 0.7656874775886535,
      "num_tokens": 868415965.0,
      "step": 8680
    },
    {
      "entropy": 0.922265625,
      "epoch": 1.187645209785431,
      "grad_norm": 0.2910105433671727,
      "learning_rate": 2.0941947301676765e-06,
      "loss": 0.9267,
      "mean_token_accuracy": 0.7631831586360931,
      "num_tokens": 869360829.0,
      "step": 8690
    },
    {
      "entropy": 0.861328125,
      "epoch": 1.189011890118901,
      "grad_norm": 0.24289050421263012,
      "learning_rate": 2.09067211497816e-06,
      "loss": 0.8553,
      "mean_token_accuracy": 0.7762593686580658,
      "num_tokens": 870385804.0,
      "step": 8700
    },
    {
      "entropy": 0.8890625,
      "epoch": 1.1903785704523713,
      "grad_norm": 0.2588167918040978,
      "learning_rate": 2.087149499788643e-06,
      "loss": 0.8866,
      "mean_token_accuracy": 0.7695386052131653,
      "num_tokens": 871374976.0,
      "step": 8710
    },
    {
      "entropy": 0.886328125,
      "epoch": 1.1917452507858413,
      "grad_norm": 0.33958499640747064,
      "learning_rate": 2.0836268845991263e-06,
      "loss": 0.8851,
      "mean_token_accuracy": 0.7713635206222534,
      "num_tokens": 872381296.0,
      "step": 8720
    },
    {
      "entropy": 0.89296875,
      "epoch": 1.1931119311193112,
      "grad_norm": 0.2674088570865112,
      "learning_rate": 2.08010426940961e-06,
      "loss": 0.8991,
      "mean_token_accuracy": 0.7694521248340607,
      "num_tokens": 873413346.0,
      "step": 8730
    },
    {
      "entropy": 0.9140625,
      "epoch": 1.1944786114527812,
      "grad_norm": 0.28078050932483173,
      "learning_rate": 2.076581654220093e-06,
      "loss": 0.922,
      "mean_token_accuracy": 0.7649959027767181,
      "num_tokens": 874412929.0,
      "step": 8740
    },
    {
      "entropy": 0.860546875,
      "epoch": 1.1958452917862512,
      "grad_norm": 0.28821154410934025,
      "learning_rate": 2.0730590390305765e-06,
      "loss": 0.8566,
      "mean_token_accuracy": 0.7773741483688354,
      "num_tokens": 875402223.0,
      "step": 8750
    },
    {
      "entropy": 0.89453125,
      "epoch": 1.1972119721197212,
      "grad_norm": 0.2641922700919576,
      "learning_rate": 2.0695364238410596e-06,
      "loss": 0.8728,
      "mean_token_accuracy": 0.7730828285217285,
      "num_tokens": 876463167.0,
      "step": 8760
    },
    {
      "entropy": 0.88046875,
      "epoch": 1.1985786524531912,
      "grad_norm": 0.2314981779350131,
      "learning_rate": 2.066013808651543e-06,
      "loss": 0.8812,
      "mean_token_accuracy": 0.7717103660106659,
      "num_tokens": 877461994.0,
      "step": 8770
    },
    {
      "entropy": 0.9171875,
      "epoch": 1.1999453327866612,
      "grad_norm": 0.2863278286658764,
      "learning_rate": 2.0624911934620263e-06,
      "loss": 0.918,
      "mean_token_accuracy": 0.7656929433345795,
      "num_tokens": 878411994.0,
      "step": 8780
    },
    {
      "entropy": 0.902734375,
      "epoch": 1.2013120131201311,
      "grad_norm": 0.25051060998153396,
      "learning_rate": 2.05896857827251e-06,
      "loss": 0.9047,
      "mean_token_accuracy": 0.7668738603591919,
      "num_tokens": 879467450.0,
      "step": 8790
    },
    {
      "entropy": 0.84921875,
      "epoch": 1.2026786934536011,
      "grad_norm": 0.24369711772747424,
      "learning_rate": 2.055445963082993e-06,
      "loss": 0.8411,
      "mean_token_accuracy": 0.7815734148025513,
      "num_tokens": 880463239.0,
      "step": 8800
    },
    {
      "entropy": 0.862890625,
      "epoch": 1.2040453737870713,
      "grad_norm": 0.24479246062192642,
      "learning_rate": 2.0519233478934765e-06,
      "loss": 0.868,
      "mean_token_accuracy": 0.7748381972312928,
      "num_tokens": 881497928.0,
      "step": 8810
    },
    {
      "entropy": 0.8921875,
      "epoch": 1.2054120541205413,
      "grad_norm": 0.2451669607705491,
      "learning_rate": 2.0484007327039596e-06,
      "loss": 0.8961,
      "mean_token_accuracy": 0.76891970038414,
      "num_tokens": 882484287.0,
      "step": 8820
    },
    {
      "entropy": 0.88984375,
      "epoch": 1.2067787344540113,
      "grad_norm": 0.28606279324877226,
      "learning_rate": 2.0448781175144427e-06,
      "loss": 0.8809,
      "mean_token_accuracy": 0.7729420244693757,
      "num_tokens": 883474734.0,
      "step": 8830
    },
    {
      "entropy": 0.87734375,
      "epoch": 1.2081454147874813,
      "grad_norm": 0.24065100618275237,
      "learning_rate": 2.0413555023249263e-06,
      "loss": 0.8729,
      "mean_token_accuracy": 0.7750382423400879,
      "num_tokens": 884485200.0,
      "step": 8840
    },
    {
      "entropy": 0.883203125,
      "epoch": 1.2095120951209513,
      "grad_norm": 0.25711069048832974,
      "learning_rate": 2.0378328871354094e-06,
      "loss": 0.8836,
      "mean_token_accuracy": 0.7717195272445678,
      "num_tokens": 885527588.0,
      "step": 8850
    },
    {
      "entropy": 0.87109375,
      "epoch": 1.2108787754544212,
      "grad_norm": 0.23149523300628838,
      "learning_rate": 2.034310271945893e-06,
      "loss": 0.8714,
      "mean_token_accuracy": 0.7755617380142212,
      "num_tokens": 886576177.0,
      "step": 8860
    },
    {
      "entropy": 0.887109375,
      "epoch": 1.2122454557878912,
      "grad_norm": 0.2542832775455926,
      "learning_rate": 2.030787656756376e-06,
      "loss": 0.8812,
      "mean_token_accuracy": 0.7712954878807068,
      "num_tokens": 887557289.0,
      "step": 8870
    },
    {
      "entropy": 0.865234375,
      "epoch": 1.2136121361213612,
      "grad_norm": 0.23293342188189903,
      "learning_rate": 2.027265041566859e-06,
      "loss": 0.8775,
      "mean_token_accuracy": 0.7733361005783081,
      "num_tokens": 888551450.0,
      "step": 8880
    },
    {
      "entropy": 0.876953125,
      "epoch": 1.2149788164548312,
      "grad_norm": 0.2544027505108998,
      "learning_rate": 2.0237424263773427e-06,
      "loss": 0.8672,
      "mean_token_accuracy": 0.7744433522224426,
      "num_tokens": 889517616.0,
      "step": 8890
    },
    {
      "entropy": 0.85,
      "epoch": 1.2163454967883012,
      "grad_norm": 0.22517513301618367,
      "learning_rate": 2.020219811187826e-06,
      "loss": 0.8494,
      "mean_token_accuracy": 0.7796874344348907,
      "num_tokens": 890537135.0,
      "step": 8900
    },
    {
      "entropy": 0.899609375,
      "epoch": 1.2177121771217712,
      "grad_norm": 0.2504164964683506,
      "learning_rate": 2.0166971959983094e-06,
      "loss": 0.9066,
      "mean_token_accuracy": 0.7664426386356353,
      "num_tokens": 891549004.0,
      "step": 8910
    },
    {
      "entropy": 0.853515625,
      "epoch": 1.2190788574552411,
      "grad_norm": 0.23517256659336147,
      "learning_rate": 2.0131745808087925e-06,
      "loss": 0.8572,
      "mean_token_accuracy": 0.778069257736206,
      "num_tokens": 892557106.0,
      "step": 8920
    },
    {
      "entropy": 0.862109375,
      "epoch": 1.2204455377887111,
      "grad_norm": 0.2579373551631933,
      "learning_rate": 2.009651965619276e-06,
      "loss": 0.8653,
      "mean_token_accuracy": 0.7754604697227478,
      "num_tokens": 893557870.0,
      "step": 8930
    },
    {
      "entropy": 0.9,
      "epoch": 1.221812218122181,
      "grad_norm": 0.24375029986375282,
      "learning_rate": 2.0061293504297592e-06,
      "loss": 0.9083,
      "mean_token_accuracy": 0.7674606442451477,
      "num_tokens": 894586657.0,
      "step": 8940
    },
    {
      "entropy": 0.836328125,
      "epoch": 1.2231788984556513,
      "grad_norm": 0.24215513015998338,
      "learning_rate": 2.0026067352402428e-06,
      "loss": 0.8302,
      "mean_token_accuracy": 0.7824345052242279,
      "num_tokens": 895604874.0,
      "step": 8950
    },
    {
      "entropy": 0.89375,
      "epoch": 1.2245455787891213,
      "grad_norm": 0.23106536647285417,
      "learning_rate": 1.999084120050726e-06,
      "loss": 0.8988,
      "mean_token_accuracy": 0.7693879246711731,
      "num_tokens": 896608041.0,
      "step": 8960
    },
    {
      "entropy": 0.859765625,
      "epoch": 1.2259122591225913,
      "grad_norm": 0.23710454866217784,
      "learning_rate": 1.9955615048612094e-06,
      "loss": 0.8552,
      "mean_token_accuracy": 0.7783908128738404,
      "num_tokens": 897597600.0,
      "step": 8970
    },
    {
      "entropy": 0.877734375,
      "epoch": 1.2272789394560613,
      "grad_norm": 0.266689779587418,
      "learning_rate": 1.9920388896716926e-06,
      "loss": 0.8788,
      "mean_token_accuracy": 0.7737061560153962,
      "num_tokens": 898615203.0,
      "step": 8980
    },
    {
      "entropy": 0.8875,
      "epoch": 1.2286456197895312,
      "grad_norm": 0.2362254626638693,
      "learning_rate": 1.9885162744821757e-06,
      "loss": 0.8911,
      "mean_token_accuracy": 0.7736220121383667,
      "num_tokens": 899617423.0,
      "step": 8990
    },
    {
      "entropy": 0.87265625,
      "epoch": 1.2300123001230012,
      "grad_norm": 0.25866906087074587,
      "learning_rate": 1.9849936592926592e-06,
      "loss": 0.8679,
      "mean_token_accuracy": 0.7739406704902649,
      "num_tokens": 900558849.0,
      "step": 9000
    },
    {
      "entropy": 0.865625,
      "epoch": 1.2313789804564712,
      "grad_norm": 0.24165604752599137,
      "learning_rate": 1.9814710441031424e-06,
      "loss": 0.8609,
      "mean_token_accuracy": 0.7760150969028473,
      "num_tokens": 901548912.0,
      "step": 9010
    },
    {
      "entropy": 0.8609375,
      "epoch": 1.2327456607899412,
      "grad_norm": 0.2606194234133266,
      "learning_rate": 1.9779484289136255e-06,
      "loss": 0.848,
      "mean_token_accuracy": 0.7801451444625854,
      "num_tokens": 902535364.0,
      "step": 9020
    },
    {
      "entropy": 0.90625,
      "epoch": 1.2341123411234112,
      "grad_norm": 0.24226418518983245,
      "learning_rate": 1.974425813724109e-06,
      "loss": 0.8988,
      "mean_token_accuracy": 0.7692228019237518,
      "num_tokens": 903543096.0,
      "step": 9030
    },
    {
      "entropy": 0.8546875,
      "epoch": 1.2354790214568812,
      "grad_norm": 0.24573133967495392,
      "learning_rate": 1.970903198534592e-06,
      "loss": 0.847,
      "mean_token_accuracy": 0.7793092608451844,
      "num_tokens": 904565326.0,
      "step": 9040
    },
    {
      "entropy": 0.8859375,
      "epoch": 1.2368457017903514,
      "grad_norm": 0.2609707181434071,
      "learning_rate": 1.9673805833450753e-06,
      "loss": 0.8806,
      "mean_token_accuracy": 0.7712575495243073,
      "num_tokens": 905584767.0,
      "step": 9050
    },
    {
      "entropy": 0.900390625,
      "epoch": 1.2382123821238213,
      "grad_norm": 0.21512106679567722,
      "learning_rate": 1.963857968155559e-06,
      "loss": 0.8942,
      "mean_token_accuracy": 0.7697038650512695,
      "num_tokens": 906607326.0,
      "step": 9060
    },
    {
      "entropy": 0.87265625,
      "epoch": 1.2395790624572913,
      "grad_norm": 0.2766798642511506,
      "learning_rate": 1.960335352966042e-06,
      "loss": 0.8661,
      "mean_token_accuracy": 0.7769132554531097,
      "num_tokens": 907609267.0,
      "step": 9070
    },
    {
      "entropy": 0.89609375,
      "epoch": 1.2409457427907613,
      "grad_norm": 0.23472090797746087,
      "learning_rate": 1.9568127377765255e-06,
      "loss": 0.892,
      "mean_token_accuracy": 0.7681228041648864,
      "num_tokens": 908637270.0,
      "step": 9080
    },
    {
      "entropy": 0.844921875,
      "epoch": 1.2423124231242313,
      "grad_norm": 0.2279141528476634,
      "learning_rate": 1.9532901225870086e-06,
      "loss": 0.8413,
      "mean_token_accuracy": 0.7804128408432007,
      "num_tokens": 909704935.0,
      "step": 9090
    },
    {
      "entropy": 0.87890625,
      "epoch": 1.2436791034577013,
      "grad_norm": 0.2608536355203213,
      "learning_rate": 1.949767507397492e-06,
      "loss": 0.8775,
      "mean_token_accuracy": 0.7738279223442077,
      "num_tokens": 910672097.0,
      "step": 9100
    },
    {
      "entropy": 0.900390625,
      "epoch": 1.2450457837911713,
      "grad_norm": 0.2435553444795414,
      "learning_rate": 1.9462448922079753e-06,
      "loss": 0.8999,
      "mean_token_accuracy": 0.7695578932762146,
      "num_tokens": 911652942.0,
      "step": 9110
    },
    {
      "entropy": 0.8890625,
      "epoch": 1.2464124641246412,
      "grad_norm": 0.24078437720603302,
      "learning_rate": 1.942722277018459e-06,
      "loss": 0.8872,
      "mean_token_accuracy": 0.7732397854328156,
      "num_tokens": 912632049.0,
      "step": 9120
    },
    {
      "entropy": 0.9171875,
      "epoch": 1.2477791444581112,
      "grad_norm": 0.2722381899970228,
      "learning_rate": 1.939199661828942e-06,
      "loss": 0.9223,
      "mean_token_accuracy": 0.7641969740390777,
      "num_tokens": 913616040.0,
      "step": 9130
    },
    {
      "entropy": 0.85703125,
      "epoch": 1.2491458247915812,
      "grad_norm": 0.2535808969749599,
      "learning_rate": 1.9356770466394255e-06,
      "loss": 0.8554,
      "mean_token_accuracy": 0.7788726150989532,
      "num_tokens": 914540891.0,
      "step": 9140
    },
    {
      "entropy": 0.846484375,
      "epoch": 1.2505125051250512,
      "grad_norm": 0.24429402973930478,
      "learning_rate": 1.9321544314499086e-06,
      "loss": 0.841,
      "mean_token_accuracy": 0.7804793834686279,
      "num_tokens": 915532706.0,
      "step": 9150
    },
    {
      "entropy": 0.87890625,
      "epoch": 1.2518791854585212,
      "grad_norm": 0.27876398666426255,
      "learning_rate": 1.9286318162603917e-06,
      "loss": 0.8799,
      "mean_token_accuracy": 0.7710568368434906,
      "num_tokens": 916543389.0,
      "step": 9160
    },
    {
      "entropy": 0.845703125,
      "epoch": 1.2532458657919912,
      "grad_norm": 0.23330475719928712,
      "learning_rate": 1.9251092010708753e-06,
      "loss": 0.8467,
      "mean_token_accuracy": 0.7815133810043335,
      "num_tokens": 917543100.0,
      "step": 9170
    },
    {
      "entropy": 0.89453125,
      "epoch": 1.2546125461254611,
      "grad_norm": 0.21465324532740807,
      "learning_rate": 1.9215865858813584e-06,
      "loss": 0.8974,
      "mean_token_accuracy": 0.7697231292724609,
      "num_tokens": 918538535.0,
      "step": 9180
    },
    {
      "entropy": 0.8984375,
      "epoch": 1.2559792264589311,
      "grad_norm": 0.2378320686089286,
      "learning_rate": 1.918063970691842e-06,
      "loss": 0.8991,
      "mean_token_accuracy": 0.7680694162845612,
      "num_tokens": 919540564.0,
      "step": 9190
    },
    {
      "entropy": 0.8796875,
      "epoch": 1.2573459067924013,
      "grad_norm": 0.2652113616983802,
      "learning_rate": 1.914541355502325e-06,
      "loss": 0.8719,
      "mean_token_accuracy": 0.7720320224761963,
      "num_tokens": 920498208.0,
      "step": 9200
    },
    {
      "entropy": 0.883984375,
      "epoch": 1.2587125871258713,
      "grad_norm": 0.23709055366138312,
      "learning_rate": 1.9110187403128082e-06,
      "loss": 0.8762,
      "mean_token_accuracy": 0.7716663718223572,
      "num_tokens": 921485540.0,
      "step": 9210
    },
    {
      "entropy": 0.87421875,
      "epoch": 1.2600792674593413,
      "grad_norm": 0.23795388786308322,
      "learning_rate": 1.9074961251232918e-06,
      "loss": 0.8769,
      "mean_token_accuracy": 0.7734124720096588,
      "num_tokens": 922529790.0,
      "step": 9220
    },
    {
      "entropy": 0.8734375,
      "epoch": 1.2614459477928113,
      "grad_norm": 0.27002943696292586,
      "learning_rate": 1.903973509933775e-06,
      "loss": 0.8684,
      "mean_token_accuracy": 0.7728486955165863,
      "num_tokens": 923511480.0,
      "step": 9230
    },
    {
      "entropy": 0.90859375,
      "epoch": 1.2628126281262813,
      "grad_norm": 0.2519452956545446,
      "learning_rate": 1.9004508947442582e-06,
      "loss": 0.8969,
      "mean_token_accuracy": 0.7690755784511566,
      "num_tokens": 924472391.0,
      "step": 9240
    },
    {
      "entropy": 0.848046875,
      "epoch": 1.2641793084597512,
      "grad_norm": 0.283182031223799,
      "learning_rate": 1.8969282795547418e-06,
      "loss": 0.8477,
      "mean_token_accuracy": 0.7790941596031189,
      "num_tokens": 925446242.0,
      "step": 9250
    },
    {
      "entropy": 0.872265625,
      "epoch": 1.2655459887932212,
      "grad_norm": 0.24032307972135739,
      "learning_rate": 1.8934056643652249e-06,
      "loss": 0.871,
      "mean_token_accuracy": 0.7736749529838562,
      "num_tokens": 926428154.0,
      "step": 9260
    },
    {
      "entropy": 0.869140625,
      "epoch": 1.2669126691266912,
      "grad_norm": 0.24645739980098175,
      "learning_rate": 1.889883049175708e-06,
      "loss": 0.8657,
      "mean_token_accuracy": 0.7753252804279327,
      "num_tokens": 927412643.0,
      "step": 9270
    },
    {
      "entropy": 0.83125,
      "epoch": 1.2682793494601612,
      "grad_norm": 0.25559116304404733,
      "learning_rate": 1.8863604339861916e-06,
      "loss": 0.8308,
      "mean_token_accuracy": 0.7823814392089844,
      "num_tokens": 928410601.0,
      "step": 9280
    },
    {
      "entropy": 0.90859375,
      "epoch": 1.2696460297936314,
      "grad_norm": 0.2642392817013704,
      "learning_rate": 1.8828378187966747e-06,
      "loss": 0.9115,
      "mean_token_accuracy": 0.7665455758571624,
      "num_tokens": 929431939.0,
      "step": 9290
    },
    {
      "entropy": 0.8625,
      "epoch": 1.2710127101271014,
      "grad_norm": 0.2493452366901662,
      "learning_rate": 1.8793152036071582e-06,
      "loss": 0.8622,
      "mean_token_accuracy": 0.7761166334152222,
      "num_tokens": 930423657.0,
      "step": 9300
    },
    {
      "entropy": 0.842578125,
      "epoch": 1.2723793904605714,
      "grad_norm": 0.24772579344618725,
      "learning_rate": 1.8757925884176414e-06,
      "loss": 0.8407,
      "mean_token_accuracy": 0.780656349658966,
      "num_tokens": 931442449.0,
      "step": 9310
    },
    {
      "entropy": 0.907421875,
      "epoch": 1.2737460707940413,
      "grad_norm": 0.24545542730683206,
      "learning_rate": 1.8722699732281247e-06,
      "loss": 0.9104,
      "mean_token_accuracy": 0.7646314263343811,
      "num_tokens": 932521052.0,
      "step": 9320
    },
    {
      "entropy": 0.91328125,
      "epoch": 1.2751127511275113,
      "grad_norm": 0.2571122838597282,
      "learning_rate": 1.868747358038608e-06,
      "loss": 0.9046,
      "mean_token_accuracy": 0.7674856007099151,
      "num_tokens": 933507370.0,
      "step": 9330
    },
    {
      "entropy": 0.86015625,
      "epoch": 1.2764794314609813,
      "grad_norm": 0.23865571966482396,
      "learning_rate": 1.8652247428490914e-06,
      "loss": 0.8593,
      "mean_token_accuracy": 0.7769276201725006,
      "num_tokens": 934502095.0,
      "step": 9340
    },
    {
      "entropy": 0.900390625,
      "epoch": 1.2778461117944513,
      "grad_norm": 0.2725287804073868,
      "learning_rate": 1.8617021276595745e-06,
      "loss": 0.9025,
      "mean_token_accuracy": 0.768830168247223,
      "num_tokens": 935487419.0,
      "step": 9350
    },
    {
      "entropy": 0.881640625,
      "epoch": 1.2792127921279213,
      "grad_norm": 0.2871695492518628,
      "learning_rate": 1.858179512470058e-06,
      "loss": 0.8789,
      "mean_token_accuracy": 0.7747833490371704,
      "num_tokens": 936471802.0,
      "step": 9360
    },
    {
      "entropy": 0.865234375,
      "epoch": 1.2805794724613913,
      "grad_norm": 0.22840009596392435,
      "learning_rate": 1.8546568972805412e-06,
      "loss": 0.8676,
      "mean_token_accuracy": 0.776058840751648,
      "num_tokens": 937539862.0,
      "step": 9370
    },
    {
      "entropy": 0.860546875,
      "epoch": 1.2819461527948612,
      "grad_norm": 0.2534985866524098,
      "learning_rate": 1.8511342820910245e-06,
      "loss": 0.8508,
      "mean_token_accuracy": 0.7780943632125854,
      "num_tokens": 938529370.0,
      "step": 9380
    },
    {
      "entropy": 0.850390625,
      "epoch": 1.2833128331283312,
      "grad_norm": 0.2605052620183265,
      "learning_rate": 1.8476116669015078e-06,
      "loss": 0.8495,
      "mean_token_accuracy": 0.7804641604423523,
      "num_tokens": 939551040.0,
      "step": 9390
    },
    {
      "entropy": 0.858984375,
      "epoch": 1.2846795134618012,
      "grad_norm": 0.26221854741935774,
      "learning_rate": 1.8440890517119912e-06,
      "loss": 0.849,
      "mean_token_accuracy": 0.7792762815952301,
      "num_tokens": 940566873.0,
      "step": 9400
    },
    {
      "entropy": 0.8765625,
      "epoch": 1.2860461937952712,
      "grad_norm": 0.275277552439623,
      "learning_rate": 1.8405664365224743e-06,
      "loss": 0.8695,
      "mean_token_accuracy": 0.7746017098426818,
      "num_tokens": 941533238.0,
      "step": 9410
    },
    {
      "entropy": 0.885546875,
      "epoch": 1.2874128741287412,
      "grad_norm": 0.26404360174683794,
      "learning_rate": 1.8370438213329578e-06,
      "loss": 0.8923,
      "mean_token_accuracy": 0.7721462309360504,
      "num_tokens": 942585724.0,
      "step": 9420
    },
    {
      "entropy": 0.89921875,
      "epoch": 1.2887795544622112,
      "grad_norm": 0.2531543027014083,
      "learning_rate": 1.833521206143441e-06,
      "loss": 0.8898,
      "mean_token_accuracy": 0.7703142404556275,
      "num_tokens": 943591743.0,
      "step": 9430
    },
    {
      "entropy": 0.925,
      "epoch": 1.2901462347956814,
      "grad_norm": 0.27170464417729284,
      "learning_rate": 1.8299985909539245e-06,
      "loss": 0.9181,
      "mean_token_accuracy": 0.7649078786373138,
      "num_tokens": 944552381.0,
      "step": 9440
    },
    {
      "entropy": 0.89140625,
      "epoch": 1.2915129151291513,
      "grad_norm": 0.264952963478439,
      "learning_rate": 1.8264759757644076e-06,
      "loss": 0.8859,
      "mean_token_accuracy": 0.7726752758026123,
      "num_tokens": 945540560.0,
      "step": 9450
    },
    {
      "entropy": 0.859375,
      "epoch": 1.2928795954626213,
      "grad_norm": 0.2989308118135574,
      "learning_rate": 1.822953360574891e-06,
      "loss": 0.8584,
      "mean_token_accuracy": 0.7767162621021271,
      "num_tokens": 946489712.0,
      "step": 9460
    },
    {
      "entropy": 0.859765625,
      "epoch": 1.2942462757960913,
      "grad_norm": 0.22212343937066492,
      "learning_rate": 1.8194307453853743e-06,
      "loss": 0.8504,
      "mean_token_accuracy": 0.779343181848526,
      "num_tokens": 947476787.0,
      "step": 9470
    },
    {
      "entropy": 0.907421875,
      "epoch": 1.2956129561295613,
      "grad_norm": 0.2710845963994247,
      "learning_rate": 1.8159081301958576e-06,
      "loss": 0.9113,
      "mean_token_accuracy": 0.767876136302948,
      "num_tokens": 948501617.0,
      "step": 9480
    },
    {
      "entropy": 0.8640625,
      "epoch": 1.2969796364630313,
      "grad_norm": 0.22631223013905444,
      "learning_rate": 1.8123855150063408e-06,
      "loss": 0.858,
      "mean_token_accuracy": 0.7791894018650055,
      "num_tokens": 949519303.0,
      "step": 9490
    },
    {
      "entropy": 0.89453125,
      "epoch": 1.2983463167965013,
      "grad_norm": 0.25320528980047985,
      "learning_rate": 1.8088628998168243e-06,
      "loss": 0.9028,
      "mean_token_accuracy": 0.7691114842891693,
      "num_tokens": 950486819.0,
      "step": 9500
    },
    {
      "entropy": 0.847265625,
      "epoch": 1.2997129971299712,
      "grad_norm": 0.26306181476526247,
      "learning_rate": 1.8053402846273074e-06,
      "loss": 0.8395,
      "mean_token_accuracy": 0.7794189989566803,
      "num_tokens": 951473991.0,
      "step": 9510
    },
    {
      "entropy": 0.8265625,
      "epoch": 1.3010796774634412,
      "grad_norm": 0.23338760791444135,
      "learning_rate": 1.8018176694377906e-06,
      "loss": 0.8267,
      "mean_token_accuracy": 0.7826663672924041,
      "num_tokens": 952456845.0,
      "step": 9520
    },
    {
      "entropy": 0.8640625,
      "epoch": 1.3024463577969114,
      "grad_norm": 0.24288361906105282,
      "learning_rate": 1.798295054248274e-06,
      "loss": 0.8702,
      "mean_token_accuracy": 0.7747513353824615,
      "num_tokens": 953432509.0,
      "step": 9530
    },
    {
      "entropy": 0.8703125,
      "epoch": 1.3038130381303814,
      "grad_norm": 0.28222503169864166,
      "learning_rate": 1.7947724390587572e-06,
      "loss": 0.8602,
      "mean_token_accuracy": 0.7766392290592193,
      "num_tokens": 954412401.0,
      "step": 9540
    },
    {
      "entropy": 0.8953125,
      "epoch": 1.3051797184638514,
      "grad_norm": 0.28231521551274186,
      "learning_rate": 1.7912498238692408e-06,
      "loss": 0.8974,
      "mean_token_accuracy": 0.7687473654747009,
      "num_tokens": 955434387.0,
      "step": 9550
    },
    {
      "entropy": 0.8640625,
      "epoch": 1.3065463987973214,
      "grad_norm": 0.24673932046897581,
      "learning_rate": 1.7877272086797239e-06,
      "loss": 0.8743,
      "mean_token_accuracy": 0.7748459279537201,
      "num_tokens": 956436781.0,
      "step": 9560
    },
    {
      "entropy": 0.881640625,
      "epoch": 1.3079130791307914,
      "grad_norm": 0.24225383360956657,
      "learning_rate": 1.7842045934902072e-06,
      "loss": 0.8793,
      "mean_token_accuracy": 0.7711471319198608,
      "num_tokens": 957455135.0,
      "step": 9570
    },
    {
      "entropy": 0.883984375,
      "epoch": 1.3092797594642613,
      "grad_norm": 0.24097059681574584,
      "learning_rate": 1.7806819783006908e-06,
      "loss": 0.8769,
      "mean_token_accuracy": 0.7737166583538055,
      "num_tokens": 958444739.0,
      "step": 9580
    },
    {
      "entropy": 0.876953125,
      "epoch": 1.3106464397977313,
      "grad_norm": 0.24652033947743532,
      "learning_rate": 1.777159363111174e-06,
      "loss": 0.8845,
      "mean_token_accuracy": 0.7729203104972839,
      "num_tokens": 959438087.0,
      "step": 9590
    },
    {
      "entropy": 0.868359375,
      "epoch": 1.3120131201312013,
      "grad_norm": 0.2161919147875522,
      "learning_rate": 1.773636747921657e-06,
      "loss": 0.8536,
      "mean_token_accuracy": 0.7781744837760926,
      "num_tokens": 960385839.0,
      "step": 9600
    },
    {
      "entropy": 0.872265625,
      "epoch": 1.3133798004646713,
      "grad_norm": 0.22345117115410723,
      "learning_rate": 1.7701141327321406e-06,
      "loss": 0.8593,
      "mean_token_accuracy": 0.7778506517410279,
      "num_tokens": 961419505.0,
      "step": 9610
    },
    {
      "entropy": 0.875390625,
      "epoch": 1.3147464807981413,
      "grad_norm": 0.23785256671465954,
      "learning_rate": 1.7665915175426237e-06,
      "loss": 0.8732,
      "mean_token_accuracy": 0.7745479702949524,
      "num_tokens": 962470145.0,
      "step": 9620
    },
    {
      "entropy": 0.863671875,
      "epoch": 1.3161131611316113,
      "grad_norm": 0.240775176258654,
      "learning_rate": 1.763068902353107e-06,
      "loss": 0.8673,
      "mean_token_accuracy": 0.7740548372268676,
      "num_tokens": 963447229.0,
      "step": 9630
    },
    {
      "entropy": 0.90390625,
      "epoch": 1.3174798414650812,
      "grad_norm": 0.2503019132630452,
      "learning_rate": 1.7595462871635904e-06,
      "loss": 0.9051,
      "mean_token_accuracy": 0.7670784890651703,
      "num_tokens": 964422167.0,
      "step": 9640
    },
    {
      "entropy": 0.83671875,
      "epoch": 1.3188465217985512,
      "grad_norm": 0.2387831401910408,
      "learning_rate": 1.7560236719740737e-06,
      "loss": 0.8335,
      "mean_token_accuracy": 0.7812881410121918,
      "num_tokens": 965440668.0,
      "step": 9650
    },
    {
      "entropy": 0.890625,
      "epoch": 1.3202132021320212,
      "grad_norm": 0.22956529385170993,
      "learning_rate": 1.752501056784557e-06,
      "loss": 0.8784,
      "mean_token_accuracy": 0.7761000573635102,
      "num_tokens": 966467260.0,
      "step": 9660
    },
    {
      "entropy": 0.87734375,
      "epoch": 1.3215798824654912,
      "grad_norm": 0.25630926010218574,
      "learning_rate": 1.7489784415950404e-06,
      "loss": 0.8763,
      "mean_token_accuracy": 0.7724874019622803,
      "num_tokens": 967428711.0,
      "step": 9670
    },
    {
      "entropy": 0.85546875,
      "epoch": 1.3229465627989614,
      "grad_norm": 0.24848824543877202,
      "learning_rate": 1.7454558264055235e-06,
      "loss": 0.8448,
      "mean_token_accuracy": 0.7781790554523468,
      "num_tokens": 968403916.0,
      "step": 9680
    },
    {
      "entropy": 0.869921875,
      "epoch": 1.3243132431324314,
      "grad_norm": 0.4038004976182308,
      "learning_rate": 1.741933211216007e-06,
      "loss": 0.8691,
      "mean_token_accuracy": 0.7768273234367371,
      "num_tokens": 969366462.0,
      "step": 9690
    },
    {
      "entropy": 0.8890625,
      "epoch": 1.3256799234659014,
      "grad_norm": 0.2441489867060138,
      "learning_rate": 1.7384105960264902e-06,
      "loss": 0.8844,
      "mean_token_accuracy": 0.7739598035812378,
      "num_tokens": 970373679.0,
      "step": 9700
    },
    {
      "entropy": 0.915625,
      "epoch": 1.3270466037993713,
      "grad_norm": 0.27625013767508794,
      "learning_rate": 1.7348879808369735e-06,
      "loss": 0.9073,
      "mean_token_accuracy": 0.7649716377258301,
      "num_tokens": 971400650.0,
      "step": 9710
    },
    {
      "entropy": 0.863671875,
      "epoch": 1.3284132841328413,
      "grad_norm": 0.2738015229961775,
      "learning_rate": 1.7313653656474568e-06,
      "loss": 0.8747,
      "mean_token_accuracy": 0.773665052652359,
      "num_tokens": 972421944.0,
      "step": 9720
    },
    {
      "entropy": 0.897265625,
      "epoch": 1.3297799644663113,
      "grad_norm": 0.2590368127361481,
      "learning_rate": 1.7278427504579402e-06,
      "loss": 0.9008,
      "mean_token_accuracy": 0.7692123651504517,
      "num_tokens": 973453605.0,
      "step": 9730
    },
    {
      "entropy": 0.892578125,
      "epoch": 1.3311466447997813,
      "grad_norm": 0.24613547946139736,
      "learning_rate": 1.7243201352684233e-06,
      "loss": 0.9044,
      "mean_token_accuracy": 0.7675025761127472,
      "num_tokens": 974495387.0,
      "step": 9740
    },
    {
      "entropy": 0.892578125,
      "epoch": 1.3325133251332513,
      "grad_norm": 0.26157726252881786,
      "learning_rate": 1.7207975200789068e-06,
      "loss": 0.8926,
      "mean_token_accuracy": 0.7691490232944489,
      "num_tokens": 975496025.0,
      "step": 9750
    },
    {
      "entropy": 0.86796875,
      "epoch": 1.3338800054667213,
      "grad_norm": 0.268065947398635,
      "learning_rate": 1.71727490488939e-06,
      "loss": 0.8615,
      "mean_token_accuracy": 0.776117867231369,
      "num_tokens": 976445931.0,
      "step": 9760
    },
    {
      "entropy": 0.866796875,
      "epoch": 1.3352466858001915,
      "grad_norm": 0.26325723494457487,
      "learning_rate": 1.7137522896998735e-06,
      "loss": 0.8792,
      "mean_token_accuracy": 0.7722712099552155,
      "num_tokens": 977455378.0,
      "step": 9770
    },
    {
      "entropy": 0.84453125,
      "epoch": 1.3366133661336614,
      "grad_norm": 0.2566578225728107,
      "learning_rate": 1.7102296745103566e-06,
      "loss": 0.8502,
      "mean_token_accuracy": 0.7792487978935242,
      "num_tokens": 978419993.0,
      "step": 9780
    },
    {
      "entropy": 0.88984375,
      "epoch": 1.3379800464671314,
      "grad_norm": 0.26795846206793056,
      "learning_rate": 1.7067070593208398e-06,
      "loss": 0.8834,
      "mean_token_accuracy": 0.7710716307163239,
      "num_tokens": 979452387.0,
      "step": 9790
    },
    {
      "entropy": 0.880859375,
      "epoch": 1.3393467268006014,
      "grad_norm": 0.2676105388739744,
      "learning_rate": 1.7031844441313233e-06,
      "loss": 0.8797,
      "mean_token_accuracy": 0.7735347747802734,
      "num_tokens": 980455389.0,
      "step": 9800
    },
    {
      "entropy": 0.865234375,
      "epoch": 1.3407134071340714,
      "grad_norm": 0.2573515473820077,
      "learning_rate": 1.6996618289418064e-06,
      "loss": 0.8705,
      "mean_token_accuracy": 0.7741446375846863,
      "num_tokens": 981471110.0,
      "step": 9810
    },
    {
      "entropy": 0.877734375,
      "epoch": 1.3420800874675414,
      "grad_norm": 0.25205209830525516,
      "learning_rate": 1.6961392137522898e-06,
      "loss": 0.8712,
      "mean_token_accuracy": 0.7734929978847503,
      "num_tokens": 982422886.0,
      "step": 9820
    },
    {
      "entropy": 0.846484375,
      "epoch": 1.3434467678010114,
      "grad_norm": 0.24405167401695715,
      "learning_rate": 1.6926165985627733e-06,
      "loss": 0.8342,
      "mean_token_accuracy": 0.7821528315544128,
      "num_tokens": 983371506.0,
      "step": 9830
    },
    {
      "entropy": 0.890234375,
      "epoch": 1.3448134481344813,
      "grad_norm": 0.24425471839368215,
      "learning_rate": 1.6890939833732564e-06,
      "loss": 0.8974,
      "mean_token_accuracy": 0.7687141716480255,
      "num_tokens": 984412138.0,
      "step": 9840
    },
    {
      "entropy": 0.895703125,
      "epoch": 1.3461801284679513,
      "grad_norm": 0.25535543255895754,
      "learning_rate": 1.6855713681837396e-06,
      "loss": 0.8988,
      "mean_token_accuracy": 0.7698938429355622,
      "num_tokens": 985425229.0,
      "step": 9850
    },
    {
      "entropy": 0.8546875,
      "epoch": 1.3475468088014213,
      "grad_norm": 0.2552857461132361,
      "learning_rate": 1.6820487529942231e-06,
      "loss": 0.8403,
      "mean_token_accuracy": 0.7810467958450318,
      "num_tokens": 986419865.0,
      "step": 9860
    },
    {
      "entropy": 0.85234375,
      "epoch": 1.3489134891348913,
      "grad_norm": 0.2941731756080486,
      "learning_rate": 1.6785261378047062e-06,
      "loss": 0.8403,
      "mean_token_accuracy": 0.7800397992134094,
      "num_tokens": 987419067.0,
      "step": 9870
    },
    {
      "entropy": 0.86953125,
      "epoch": 1.3502801694683613,
      "grad_norm": 0.2481716894715601,
      "learning_rate": 1.6750035226151898e-06,
      "loss": 0.8601,
      "mean_token_accuracy": 0.7765937507152557,
      "num_tokens": 988373727.0,
      "step": 9880
    },
    {
      "entropy": 0.86953125,
      "epoch": 1.3516468498018313,
      "grad_norm": 0.28718081414061203,
      "learning_rate": 1.671480907425673e-06,
      "loss": 0.8626,
      "mean_token_accuracy": 0.7756882548332215,
      "num_tokens": 989387984.0,
      "step": 9890
    },
    {
      "entropy": 0.887890625,
      "epoch": 1.3530135301353012,
      "grad_norm": 0.2434699598424767,
      "learning_rate": 1.6679582922361562e-06,
      "loss": 0.8885,
      "mean_token_accuracy": 0.772509491443634,
      "num_tokens": 990355546.0,
      "step": 9900
    },
    {
      "entropy": 0.87421875,
      "epoch": 1.3543802104687712,
      "grad_norm": 0.25071909104521317,
      "learning_rate": 1.6644356770466396e-06,
      "loss": 0.8749,
      "mean_token_accuracy": 0.7733150839805603,
      "num_tokens": 991370672.0,
      "step": 9910
    },
    {
      "entropy": 0.87890625,
      "epoch": 1.3557468908022414,
      "grad_norm": 0.2739869575094144,
      "learning_rate": 1.660913061857123e-06,
      "loss": 0.8762,
      "mean_token_accuracy": 0.7734025597572327,
      "num_tokens": 992381520.0,
      "step": 9920
    },
    {
      "entropy": 0.83984375,
      "epoch": 1.3571135711357114,
      "grad_norm": 0.2495660897083125,
      "learning_rate": 1.657390446667606e-06,
      "loss": 0.8275,
      "mean_token_accuracy": 0.7853532135486603,
      "num_tokens": 993382761.0,
      "step": 9930
    },
    {
      "entropy": 0.862890625,
      "epoch": 1.3584802514691814,
      "grad_norm": 0.24599348530053525,
      "learning_rate": 1.6538678314780896e-06,
      "loss": 0.8638,
      "mean_token_accuracy": 0.7769832074642181,
      "num_tokens": 994369777.0,
      "step": 9940
    },
    {
      "entropy": 0.93125,
      "epoch": 1.3598469318026514,
      "grad_norm": 0.27224038320702376,
      "learning_rate": 1.6503452162885727e-06,
      "loss": 0.9327,
      "mean_token_accuracy": 0.7608566343784332,
      "num_tokens": 995342083.0,
      "step": 9950
    },
    {
      "entropy": 0.877734375,
      "epoch": 1.3612136121361214,
      "grad_norm": 0.26382466796592635,
      "learning_rate": 1.646822601099056e-06,
      "loss": 0.8711,
      "mean_token_accuracy": 0.7746276080608367,
      "num_tokens": 996342172.0,
      "step": 9960
    },
    {
      "entropy": 0.861328125,
      "epoch": 1.3625802924695913,
      "grad_norm": 0.25975540265899644,
      "learning_rate": 1.6432999859095394e-06,
      "loss": 0.8715,
      "mean_token_accuracy": 0.7753895044326782,
      "num_tokens": 997342669.0,
      "step": 9970
    },
    {
      "entropy": 0.91640625,
      "epoch": 1.3639469728030613,
      "grad_norm": 0.26097895225666795,
      "learning_rate": 1.6397773707200227e-06,
      "loss": 0.913,
      "mean_token_accuracy": 0.76483935713768,
      "num_tokens": 998358263.0,
      "step": 9980
    },
    {
      "entropy": 0.859765625,
      "epoch": 1.3653136531365313,
      "grad_norm": 0.2383187599159104,
      "learning_rate": 1.636254755530506e-06,
      "loss": 0.8643,
      "mean_token_accuracy": 0.7745160102844239,
      "num_tokens": 999320568.0,
      "step": 9990
    },
    {
      "entropy": 0.809765625,
      "epoch": 1.3666803334700013,
      "grad_norm": 0.2859564556602717,
      "learning_rate": 1.6327321403409894e-06,
      "loss": 0.8123,
      "mean_token_accuracy": 0.786745285987854,
      "num_tokens": 1000320181.0,
      "step": 10000
    },
    {
      "entropy": 0.88359375,
      "epoch": 1.3680470138034715,
      "grad_norm": 0.2829925717599683,
      "learning_rate": 1.6292095251514725e-06,
      "loss": 0.89,
      "mean_token_accuracy": 0.7714467287063599,
      "num_tokens": 1001302690.0,
      "step": 10010
    },
    {
      "entropy": 0.88046875,
      "epoch": 1.3694136941369415,
      "grad_norm": 0.24066227814506272,
      "learning_rate": 1.625686909961956e-06,
      "loss": 0.8846,
      "mean_token_accuracy": 0.771180945634842,
      "num_tokens": 1002324480.0,
      "step": 10020
    },
    {
      "entropy": 0.891015625,
      "epoch": 1.3707803744704115,
      "grad_norm": 0.28664188450103995,
      "learning_rate": 1.6221642947724392e-06,
      "loss": 0.89,
      "mean_token_accuracy": 0.7709534883499145,
      "num_tokens": 1003274627.0,
      "step": 10030
    },
    {
      "entropy": 0.914453125,
      "epoch": 1.3721470548038814,
      "grad_norm": 0.27229324518681874,
      "learning_rate": 1.6186416795829223e-06,
      "loss": 0.8995,
      "mean_token_accuracy": 0.7689455986022949,
      "num_tokens": 1004298174.0,
      "step": 10040
    },
    {
      "entropy": 0.8828125,
      "epoch": 1.3735137351373514,
      "grad_norm": 0.2658070268474554,
      "learning_rate": 1.6151190643934058e-06,
      "loss": 0.8771,
      "mean_token_accuracy": 0.7717506468296051,
      "num_tokens": 1005322220.0,
      "step": 10050
    },
    {
      "entropy": 0.85546875,
      "epoch": 1.3748804154708214,
      "grad_norm": 0.23654102365411483,
      "learning_rate": 1.6115964492038892e-06,
      "loss": 0.8516,
      "mean_token_accuracy": 0.7777579724788666,
      "num_tokens": 1006316700.0,
      "step": 10060
    },
    {
      "entropy": 0.872265625,
      "epoch": 1.3762470958042914,
      "grad_norm": 0.2631474082451299,
      "learning_rate": 1.6080738340143723e-06,
      "loss": 0.8772,
      "mean_token_accuracy": 0.7752035617828369,
      "num_tokens": 1007336671.0,
      "step": 10070
    },
    {
      "entropy": 0.849609375,
      "epoch": 1.3776137761377614,
      "grad_norm": 0.2548298377599683,
      "learning_rate": 1.6045512188248559e-06,
      "loss": 0.8508,
      "mean_token_accuracy": 0.7796052277088166,
      "num_tokens": 1008278921.0,
      "step": 10080
    },
    {
      "entropy": 0.89453125,
      "epoch": 1.3789804564712314,
      "grad_norm": 0.24429153515312402,
      "learning_rate": 1.601028603635339e-06,
      "loss": 0.8886,
      "mean_token_accuracy": 0.7725086867809295,
      "num_tokens": 1009246342.0,
      "step": 10090
    },
    {
      "entropy": 0.8765625,
      "epoch": 1.3803471368047013,
      "grad_norm": 0.26449618250667184,
      "learning_rate": 1.5975059884458225e-06,
      "loss": 0.8838,
      "mean_token_accuracy": 0.7717776477336884,
      "num_tokens": 1010299250.0,
      "step": 10100
    },
    {
      "entropy": 0.866796875,
      "epoch": 1.3817138171381713,
      "grad_norm": 0.25445955254416464,
      "learning_rate": 1.5939833732563056e-06,
      "loss": 0.8642,
      "mean_token_accuracy": 0.7756950676441192,
      "num_tokens": 1011305561.0,
      "step": 10110
    },
    {
      "entropy": 0.869921875,
      "epoch": 1.3830804974716413,
      "grad_norm": 0.22896907916272582,
      "learning_rate": 1.5904607580667888e-06,
      "loss": 0.8682,
      "mean_token_accuracy": 0.7740510821342468,
      "num_tokens": 1012341918.0,
      "step": 10120
    },
    {
      "entropy": 0.879296875,
      "epoch": 1.3844471778051113,
      "grad_norm": 0.2724561980911051,
      "learning_rate": 1.5869381428772723e-06,
      "loss": 0.8872,
      "mean_token_accuracy": 0.7718442976474762,
      "num_tokens": 1013327756.0,
      "step": 10130
    },
    {
      "entropy": 0.891796875,
      "epoch": 1.3858138581385813,
      "grad_norm": 0.28719631142759267,
      "learning_rate": 1.5834155276877554e-06,
      "loss": 0.888,
      "mean_token_accuracy": 0.7722653210163116,
      "num_tokens": 1014308706.0,
      "step": 10140
    },
    {
      "entropy": 0.88203125,
      "epoch": 1.3871805384720512,
      "grad_norm": 0.240341657066087,
      "learning_rate": 1.5798929124982388e-06,
      "loss": 0.8755,
      "mean_token_accuracy": 0.7720805168151855,
      "num_tokens": 1015268139.0,
      "step": 10150
    },
    {
      "entropy": 0.86875,
      "epoch": 1.3885472188055215,
      "grad_norm": 0.2683160337191295,
      "learning_rate": 1.5763702973087221e-06,
      "loss": 0.8755,
      "mean_token_accuracy": 0.7737175047397613,
      "num_tokens": 1016240467.0,
      "step": 10160
    },
    {
      "entropy": 0.8375,
      "epoch": 1.3899138991389914,
      "grad_norm": 0.28858698725428017,
      "learning_rate": 1.5728476821192054e-06,
      "loss": 0.8381,
      "mean_token_accuracy": 0.7825332343578338,
      "num_tokens": 1017227965.0,
      "step": 10170
    },
    {
      "entropy": 0.9109375,
      "epoch": 1.3912805794724614,
      "grad_norm": 0.24975983987609193,
      "learning_rate": 1.5693250669296886e-06,
      "loss": 0.9109,
      "mean_token_accuracy": 0.7663289070129394,
      "num_tokens": 1018268281.0,
      "step": 10180
    },
    {
      "entropy": 0.858984375,
      "epoch": 1.3926472598059314,
      "grad_norm": 0.2503658867434121,
      "learning_rate": 1.5658024517401721e-06,
      "loss": 0.8571,
      "mean_token_accuracy": 0.7773129284381867,
      "num_tokens": 1019262621.0,
      "step": 10190
    },
    {
      "entropy": 0.840625,
      "epoch": 1.3940139401394014,
      "grad_norm": 0.22357332358912388,
      "learning_rate": 1.5622798365506552e-06,
      "loss": 0.8414,
      "mean_token_accuracy": 0.7819576382637023,
      "num_tokens": 1020287525.0,
      "step": 10200
    },
    {
      "entropy": 0.8734375,
      "epoch": 1.3953806204728714,
      "grad_norm": 0.25038982575712504,
      "learning_rate": 1.5587572213611388e-06,
      "loss": 0.8643,
      "mean_token_accuracy": 0.7753982782363892,
      "num_tokens": 1021281798.0,
      "step": 10210
    },
    {
      "entropy": 0.905078125,
      "epoch": 1.3967473008063414,
      "grad_norm": 0.27423390115116475,
      "learning_rate": 1.555234606171622e-06,
      "loss": 0.8925,
      "mean_token_accuracy": 0.7708808302879333,
      "num_tokens": 1022297013.0,
      "step": 10220
    },
    {
      "entropy": 0.8796875,
      "epoch": 1.3981139811398113,
      "grad_norm": 0.22954144314782637,
      "learning_rate": 1.5517119909821052e-06,
      "loss": 0.8746,
      "mean_token_accuracy": 0.7730835795402526,
      "num_tokens": 1023336531.0,
      "step": 10230
    },
    {
      "entropy": 0.888671875,
      "epoch": 1.3994806614732813,
      "grad_norm": 0.2421698728566302,
      "learning_rate": 1.5481893757925886e-06,
      "loss": 0.8885,
      "mean_token_accuracy": 0.7715390503406525,
      "num_tokens": 1024359820.0,
      "step": 10240
    },
    {
      "entropy": 0.890234375,
      "epoch": 1.4008473418067515,
      "grad_norm": 0.28358932196132325,
      "learning_rate": 1.544666760603072e-06,
      "loss": 0.8849,
      "mean_token_accuracy": 0.7717201828956604,
      "num_tokens": 1025313651.0,
      "step": 10250
    },
    {
      "entropy": 0.9171875,
      "epoch": 1.4022140221402215,
      "grad_norm": 0.27857099243641076,
      "learning_rate": 1.541144145413555e-06,
      "loss": 0.9199,
      "mean_token_accuracy": 0.7642244815826416,
      "num_tokens": 1026338791.0,
      "step": 10260
    },
    {
      "entropy": 0.878125,
      "epoch": 1.4035807024736915,
      "grad_norm": 0.25614984841292215,
      "learning_rate": 1.5376215302240386e-06,
      "loss": 0.8762,
      "mean_token_accuracy": 0.7755989551544189,
      "num_tokens": 1027409356.0,
      "step": 10270
    },
    {
      "entropy": 0.87265625,
      "epoch": 1.4049473828071615,
      "grad_norm": 0.2408480868903574,
      "learning_rate": 1.5340989150345217e-06,
      "loss": 0.8772,
      "mean_token_accuracy": 0.7743278205394745,
      "num_tokens": 1028421417.0,
      "step": 10280
    },
    {
      "entropy": 0.837890625,
      "epoch": 1.4063140631406315,
      "grad_norm": 0.23801368789798888,
      "learning_rate": 1.5305762998450048e-06,
      "loss": 0.8438,
      "mean_token_accuracy": 0.7819726467132568,
      "num_tokens": 1029407757.0,
      "step": 10290
    },
    {
      "entropy": 0.91015625,
      "epoch": 1.4076807434741014,
      "grad_norm": 0.28406688995054086,
      "learning_rate": 1.5270536846554884e-06,
      "loss": 0.9079,
      "mean_token_accuracy": 0.7677680134773255,
      "num_tokens": 1030402768.0,
      "step": 10300
    },
    {
      "entropy": 0.89609375,
      "epoch": 1.4090474238075714,
      "grad_norm": 0.35024350766494455,
      "learning_rate": 1.5235310694659717e-06,
      "loss": 0.893,
      "mean_token_accuracy": 0.768581336736679,
      "num_tokens": 1031421346.0,
      "step": 10310
    },
    {
      "entropy": 0.854296875,
      "epoch": 1.4104141041410414,
      "grad_norm": 0.2659037843191633,
      "learning_rate": 1.5200084542764548e-06,
      "loss": 0.8389,
      "mean_token_accuracy": 0.7802983582019806,
      "num_tokens": 1032449936.0,
      "step": 10320
    },
    {
      "entropy": 0.87421875,
      "epoch": 1.4117807844745114,
      "grad_norm": 0.2565232351452053,
      "learning_rate": 1.5164858390869384e-06,
      "loss": 0.8731,
      "mean_token_accuracy": 0.772748327255249,
      "num_tokens": 1033451424.0,
      "step": 10330
    },
    {
      "entropy": 0.944921875,
      "epoch": 1.4131474648079814,
      "grad_norm": 0.27701349804411096,
      "learning_rate": 1.5129632238974215e-06,
      "loss": 0.9453,
      "mean_token_accuracy": 0.761473536491394,
      "num_tokens": 1034410200.0,
      "step": 10340
    },
    {
      "entropy": 0.873046875,
      "epoch": 1.4145141451414514,
      "grad_norm": 0.23540233350448556,
      "learning_rate": 1.509440608707905e-06,
      "loss": 0.8672,
      "mean_token_accuracy": 0.7745201587677002,
      "num_tokens": 1035442507.0,
      "step": 10350
    },
    {
      "entropy": 0.915625,
      "epoch": 1.4158808254749213,
      "grad_norm": 0.2629456745342563,
      "learning_rate": 1.5059179935183882e-06,
      "loss": 0.9138,
      "mean_token_accuracy": 0.7652137160301209,
      "num_tokens": 1036434906.0,
      "step": 10360
    },
    {
      "entropy": 0.893359375,
      "epoch": 1.4172475058083913,
      "grad_norm": 0.2481252658050803,
      "learning_rate": 1.5023953783288713e-06,
      "loss": 0.9,
      "mean_token_accuracy": 0.7711206257343293,
      "num_tokens": 1037442931.0,
      "step": 10370
    },
    {
      "entropy": 0.88203125,
      "epoch": 1.4186141861418613,
      "grad_norm": 0.23527055968901858,
      "learning_rate": 1.4988727631393549e-06,
      "loss": 0.8796,
      "mean_token_accuracy": 0.7709137201309204,
      "num_tokens": 1038428896.0,
      "step": 10380
    },
    {
      "entropy": 0.88984375,
      "epoch": 1.4199808664753313,
      "grad_norm": 0.27229235076027947,
      "learning_rate": 1.495350147949838e-06,
      "loss": 0.8896,
      "mean_token_accuracy": 0.7717387020587921,
      "num_tokens": 1039468446.0,
      "step": 10390
    },
    {
      "entropy": 0.854296875,
      "epoch": 1.4213475468088015,
      "grad_norm": 0.2536604464506726,
      "learning_rate": 1.4918275327603213e-06,
      "loss": 0.8534,
      "mean_token_accuracy": 0.7802141070365906,
      "num_tokens": 1040415907.0,
      "step": 10400
    },
    {
      "entropy": 0.849609375,
      "epoch": 1.4227142271422715,
      "grad_norm": 0.22571411305485503,
      "learning_rate": 1.4883049175708047e-06,
      "loss": 0.8547,
      "mean_token_accuracy": 0.7771438598632813,
      "num_tokens": 1041365926.0,
      "step": 10410
    },
    {
      "entropy": 0.884765625,
      "epoch": 1.4240809074757415,
      "grad_norm": 0.24783225972015097,
      "learning_rate": 1.484782302381288e-06,
      "loss": 0.8728,
      "mean_token_accuracy": 0.7731225728988648,
      "num_tokens": 1042376843.0,
      "step": 10420
    },
    {
      "entropy": 0.894140625,
      "epoch": 1.4254475878092114,
      "grad_norm": 0.27947800053306876,
      "learning_rate": 1.4812596871917711e-06,
      "loss": 0.8944,
      "mean_token_accuracy": 0.770713073015213,
      "num_tokens": 1043360046.0,
      "step": 10430
    },
    {
      "entropy": 0.8625,
      "epoch": 1.4268142681426814,
      "grad_norm": 0.2398559516881835,
      "learning_rate": 1.4777370720022547e-06,
      "loss": 0.8584,
      "mean_token_accuracy": 0.7763915002346039,
      "num_tokens": 1044350861.0,
      "step": 10440
    },
    {
      "entropy": 0.87734375,
      "epoch": 1.4281809484761514,
      "grad_norm": 0.2508450296817306,
      "learning_rate": 1.4742144568127378e-06,
      "loss": 0.8707,
      "mean_token_accuracy": 0.7742851376533508,
      "num_tokens": 1045385211.0,
      "step": 10450
    },
    {
      "entropy": 0.845703125,
      "epoch": 1.4295476288096214,
      "grad_norm": 0.256525058069466,
      "learning_rate": 1.4706918416232213e-06,
      "loss": 0.8394,
      "mean_token_accuracy": 0.782331645488739,
      "num_tokens": 1046364295.0,
      "step": 10460
    },
    {
      "entropy": 0.871484375,
      "epoch": 1.4309143091430914,
      "grad_norm": 0.23752487779013867,
      "learning_rate": 1.4671692264337045e-06,
      "loss": 0.8626,
      "mean_token_accuracy": 0.7755087614059448,
      "num_tokens": 1047401532.0,
      "step": 10470
    },
    {
      "entropy": 0.862890625,
      "epoch": 1.4322809894765614,
      "grad_norm": 0.2165950294727235,
      "learning_rate": 1.4636466112441878e-06,
      "loss": 0.8576,
      "mean_token_accuracy": 0.7756847679615021,
      "num_tokens": 1048443079.0,
      "step": 10480
    },
    {
      "entropy": 0.845703125,
      "epoch": 1.4336476698100316,
      "grad_norm": 0.23138239345922468,
      "learning_rate": 1.4601239960546711e-06,
      "loss": 0.84,
      "mean_token_accuracy": 0.781000816822052,
      "num_tokens": 1049441194.0,
      "step": 10490
    },
    {
      "entropy": 0.884765625,
      "epoch": 1.4350143501435015,
      "grad_norm": 0.25921873198084017,
      "learning_rate": 1.4566013808651545e-06,
      "loss": 0.8767,
      "mean_token_accuracy": 0.7717730462551117,
      "num_tokens": 1050494420.0,
      "step": 10500
    },
    {
      "entropy": 0.845703125,
      "epoch": 1.4363810304769715,
      "grad_norm": 0.24451570554060906,
      "learning_rate": 1.4530787656756376e-06,
      "loss": 0.8495,
      "mean_token_accuracy": 0.7790216982364655,
      "num_tokens": 1051525559.0,
      "step": 10510
    },
    {
      "entropy": 0.8515625,
      "epoch": 1.4377477108104415,
      "grad_norm": 0.28278465181423224,
      "learning_rate": 1.4495561504861211e-06,
      "loss": 0.8422,
      "mean_token_accuracy": 0.7800572216510773,
      "num_tokens": 1052570593.0,
      "step": 10520
    },
    {
      "entropy": 0.885546875,
      "epoch": 1.4391143911439115,
      "grad_norm": 0.23444488905930227,
      "learning_rate": 1.4460335352966043e-06,
      "loss": 0.8828,
      "mean_token_accuracy": 0.7749235212802887,
      "num_tokens": 1053556483.0,
      "step": 10530
    },
    {
      "entropy": 0.92734375,
      "epoch": 1.4404810714773815,
      "grad_norm": 0.25488143221857795,
      "learning_rate": 1.4425109201070876e-06,
      "loss": 0.922,
      "mean_token_accuracy": 0.7643430650234222,
      "num_tokens": 1054642123.0,
      "step": 10540
    },
    {
      "entropy": 0.883203125,
      "epoch": 1.4418477518108515,
      "grad_norm": 0.27313718914294244,
      "learning_rate": 1.438988304917571e-06,
      "loss": 0.8769,
      "mean_token_accuracy": 0.7720771253108978,
      "num_tokens": 1055670389.0,
      "step": 10550
    },
    {
      "entropy": 0.878125,
      "epoch": 1.4432144321443214,
      "grad_norm": 0.23711347504493535,
      "learning_rate": 1.4354656897280543e-06,
      "loss": 0.882,
      "mean_token_accuracy": 0.7719392955303193,
      "num_tokens": 1056685940.0,
      "step": 10560
    },
    {
      "entropy": 0.86640625,
      "epoch": 1.4445811124777914,
      "grad_norm": 0.24526434865387145,
      "learning_rate": 1.4319430745385376e-06,
      "loss": 0.8614,
      "mean_token_accuracy": 0.7755716443061829,
      "num_tokens": 1057681428.0,
      "step": 10570
    },
    {
      "entropy": 0.8703125,
      "epoch": 1.4459477928112614,
      "grad_norm": 0.23784016520494933,
      "learning_rate": 1.428420459349021e-06,
      "loss": 0.8678,
      "mean_token_accuracy": 0.7761475265026092,
      "num_tokens": 1058675715.0,
      "step": 10580
    },
    {
      "entropy": 0.840625,
      "epoch": 1.4473144731447314,
      "grad_norm": 0.2666019740796873,
      "learning_rate": 1.424897844159504e-06,
      "loss": 0.8398,
      "mean_token_accuracy": 0.7819160282611847,
      "num_tokens": 1059671350.0,
      "step": 10590
    },
    {
      "entropy": 0.8625,
      "epoch": 1.4486811534782014,
      "grad_norm": 0.2676907287626204,
      "learning_rate": 1.4213752289699876e-06,
      "loss": 0.8579,
      "mean_token_accuracy": 0.7767970144748688,
      "num_tokens": 1060663937.0,
      "step": 10600
    },
    {
      "entropy": 0.855859375,
      "epoch": 1.4500478338116713,
      "grad_norm": 0.2213478616991254,
      "learning_rate": 1.4178526137804707e-06,
      "loss": 0.8545,
      "mean_token_accuracy": 0.777578467130661,
      "num_tokens": 1061638094.0,
      "step": 10610
    },
    {
      "entropy": 0.85546875,
      "epoch": 1.4514145141451413,
      "grad_norm": 0.2608410248990045,
      "learning_rate": 1.4143299985909538e-06,
      "loss": 0.8482,
      "mean_token_accuracy": 0.7813037157058715,
      "num_tokens": 1062601786.0,
      "step": 10620
    },
    {
      "entropy": 0.865234375,
      "epoch": 1.4527811944786113,
      "grad_norm": 0.27159115057556227,
      "learning_rate": 1.4108073834014374e-06,
      "loss": 0.8534,
      "mean_token_accuracy": 0.7777646899223327,
      "num_tokens": 1063627100.0,
      "step": 10630
    },
    {
      "entropy": 0.86328125,
      "epoch": 1.4541478748120815,
      "grad_norm": 0.25708705351442657,
      "learning_rate": 1.4072847682119205e-06,
      "loss": 0.8666,
      "mean_token_accuracy": 0.7761737763881683,
      "num_tokens": 1064647511.0,
      "step": 10640
    },
    {
      "entropy": 0.858203125,
      "epoch": 1.4555145551455515,
      "grad_norm": 0.2467190545988532,
      "learning_rate": 1.4037621530224039e-06,
      "loss": 0.8535,
      "mean_token_accuracy": 0.7788956642150879,
      "num_tokens": 1065704175.0,
      "step": 10650
    },
    {
      "entropy": 0.85078125,
      "epoch": 1.4568812354790215,
      "grad_norm": 0.2450677203966149,
      "learning_rate": 1.4002395378328872e-06,
      "loss": 0.8513,
      "mean_token_accuracy": 0.7776213526725769,
      "num_tokens": 1066748260.0,
      "step": 10660
    },
    {
      "entropy": 0.83984375,
      "epoch": 1.4582479158124915,
      "grad_norm": 0.2613357563337411,
      "learning_rate": 1.3967169226433705e-06,
      "loss": 0.8359,
      "mean_token_accuracy": 0.7823217153549195,
      "num_tokens": 1067750021.0,
      "step": 10670
    },
    {
      "entropy": 0.888671875,
      "epoch": 1.4596145961459615,
      "grad_norm": 0.2472073083648962,
      "learning_rate": 1.393194307453854e-06,
      "loss": 0.8831,
      "mean_token_accuracy": 0.7724920988082886,
      "num_tokens": 1068768921.0,
      "step": 10680
    },
    {
      "entropy": 0.906640625,
      "epoch": 1.4609812764794314,
      "grad_norm": 0.2605961431421383,
      "learning_rate": 1.3896716922643372e-06,
      "loss": 0.8969,
      "mean_token_accuracy": 0.7678226947784423,
      "num_tokens": 1069750490.0,
      "step": 10690
    },
    {
      "entropy": 0.85625,
      "epoch": 1.4623479568129014,
      "grad_norm": 0.22667957714550305,
      "learning_rate": 1.3861490770748203e-06,
      "loss": 0.858,
      "mean_token_accuracy": 0.777223539352417,
      "num_tokens": 1070764757.0,
      "step": 10700
    },
    {
      "entropy": 0.882421875,
      "epoch": 1.4637146371463714,
      "grad_norm": 0.28878098188701623,
      "learning_rate": 1.3826264618853039e-06,
      "loss": 0.8806,
      "mean_token_accuracy": 0.7715876936912537,
      "num_tokens": 1071707028.0,
      "step": 10710
    },
    {
      "entropy": 0.89375,
      "epoch": 1.4650813174798414,
      "grad_norm": 0.23371997612592835,
      "learning_rate": 1.379103846695787e-06,
      "loss": 0.8967,
      "mean_token_accuracy": 0.7693150818347931,
      "num_tokens": 1072782291.0,
      "step": 10720
    },
    {
      "entropy": 0.886328125,
      "epoch": 1.4664479978133116,
      "grad_norm": 0.25661003481103967,
      "learning_rate": 1.3755812315062703e-06,
      "loss": 0.8914,
      "mean_token_accuracy": 0.7703418910503388,
      "num_tokens": 1073775705.0,
      "step": 10730
    },
    {
      "entropy": 0.852734375,
      "epoch": 1.4678146781467816,
      "grad_norm": 0.23740346287390662,
      "learning_rate": 1.3720586163167537e-06,
      "loss": 0.8569,
      "mean_token_accuracy": 0.7760402739048005,
      "num_tokens": 1074768516.0,
      "step": 10740
    },
    {
      "entropy": 0.90625,
      "epoch": 1.4691813584802516,
      "grad_norm": 0.2752929323197739,
      "learning_rate": 1.368536001127237e-06,
      "loss": 0.9115,
      "mean_token_accuracy": 0.7678117096424103,
      "num_tokens": 1075736584.0,
      "step": 10750
    },
    {
      "entropy": 0.836328125,
      "epoch": 1.4705480388137215,
      "grad_norm": 0.23299895458814548,
      "learning_rate": 1.3650133859377201e-06,
      "loss": 0.8284,
      "mean_token_accuracy": 0.7814499020576477,
      "num_tokens": 1076732968.0,
      "step": 10760
    },
    {
      "entropy": 0.883984375,
      "epoch": 1.4719147191471915,
      "grad_norm": 0.2475089532870903,
      "learning_rate": 1.3614907707482037e-06,
      "loss": 0.8765,
      "mean_token_accuracy": 0.773450893163681,
      "num_tokens": 1077705908.0,
      "step": 10770
    },
    {
      "entropy": 0.9421875,
      "epoch": 1.4732813994806615,
      "grad_norm": 0.26028636426885454,
      "learning_rate": 1.3579681555586868e-06,
      "loss": 0.9245,
      "mean_token_accuracy": 0.7648691534996033,
      "num_tokens": 1078728964.0,
      "step": 10780
    },
    {
      "entropy": 0.878125,
      "epoch": 1.4746480798141315,
      "grad_norm": 0.4327734249688086,
      "learning_rate": 1.3544455403691703e-06,
      "loss": 0.8725,
      "mean_token_accuracy": 0.7747329771518707,
      "num_tokens": 1079762618.0,
      "step": 10790
    },
    {
      "entropy": 0.86484375,
      "epoch": 1.4760147601476015,
      "grad_norm": 0.26279659840014086,
      "learning_rate": 1.3509229251796535e-06,
      "loss": 0.8546,
      "mean_token_accuracy": 0.7791213154792785,
      "num_tokens": 1080719511.0,
      "step": 10800
    },
    {
      "entropy": 0.880859375,
      "epoch": 1.4773814404810715,
      "grad_norm": 0.2558910001453359,
      "learning_rate": 1.3474003099901368e-06,
      "loss": 0.8724,
      "mean_token_accuracy": 0.7750336050987243,
      "num_tokens": 1081698936.0,
      "step": 10810
    },
    {
      "entropy": 0.858984375,
      "epoch": 1.4787481208145414,
      "grad_norm": 0.2483872655123405,
      "learning_rate": 1.3438776948006201e-06,
      "loss": 0.8455,
      "mean_token_accuracy": 0.7807262122631073,
      "num_tokens": 1082686698.0,
      "step": 10820
    },
    {
      "entropy": 0.841796875,
      "epoch": 1.4801148011480114,
      "grad_norm": 0.2345451358269877,
      "learning_rate": 1.3403550796111035e-06,
      "loss": 0.8402,
      "mean_token_accuracy": 0.7823900580406189,
      "num_tokens": 1083694783.0,
      "step": 10830
    },
    {
      "entropy": 0.8859375,
      "epoch": 1.4814814814814814,
      "grad_norm": 0.2329099055565115,
      "learning_rate": 1.3368324644215866e-06,
      "loss": 0.8733,
      "mean_token_accuracy": 0.7736948788166046,
      "num_tokens": 1084697142.0,
      "step": 10840
    },
    {
      "entropy": 0.828515625,
      "epoch": 1.4828481618149514,
      "grad_norm": 0.23325997425700573,
      "learning_rate": 1.3333098492320701e-06,
      "loss": 0.8257,
      "mean_token_accuracy": 0.7832045257091522,
      "num_tokens": 1085719990.0,
      "step": 10850
    },
    {
      "entropy": 0.8921875,
      "epoch": 1.4842148421484214,
      "grad_norm": 0.27687015713105545,
      "learning_rate": 1.3297872340425533e-06,
      "loss": 0.883,
      "mean_token_accuracy": 0.7710644721984863,
      "num_tokens": 1086693132.0,
      "step": 10860
    },
    {
      "entropy": 0.8984375,
      "epoch": 1.4855815224818913,
      "grad_norm": 0.24635774610716812,
      "learning_rate": 1.3262646188530364e-06,
      "loss": 0.9031,
      "mean_token_accuracy": 0.768856406211853,
      "num_tokens": 1087739681.0,
      "step": 10870
    },
    {
      "entropy": 0.855859375,
      "epoch": 1.4869482028153616,
      "grad_norm": 0.2414233181238888,
      "learning_rate": 1.32274200366352e-06,
      "loss": 0.8569,
      "mean_token_accuracy": 0.7793878793716431,
      "num_tokens": 1088737790.0,
      "step": 10880
    },
    {
      "entropy": 0.85390625,
      "epoch": 1.4883148831488315,
      "grad_norm": 0.22629504907004389,
      "learning_rate": 1.319219388474003e-06,
      "loss": 0.8555,
      "mean_token_accuracy": 0.7789722979068756,
      "num_tokens": 1089700014.0,
      "step": 10890
    },
    {
      "entropy": 0.8984375,
      "epoch": 1.4896815634823015,
      "grad_norm": 0.24381612076372974,
      "learning_rate": 1.3156967732844866e-06,
      "loss": 0.8985,
      "mean_token_accuracy": 0.7699560821056366,
      "num_tokens": 1090707376.0,
      "step": 10900
    },
    {
      "entropy": 0.83828125,
      "epoch": 1.4910482438157715,
      "grad_norm": 0.2520615089423075,
      "learning_rate": 1.31217415809497e-06,
      "loss": 0.8334,
      "mean_token_accuracy": 0.7826353788375855,
      "num_tokens": 1091734576.0,
      "step": 10910
    },
    {
      "entropy": 0.897265625,
      "epoch": 1.4924149241492415,
      "grad_norm": 0.2518124067041835,
      "learning_rate": 1.308651542905453e-06,
      "loss": 0.9079,
      "mean_token_accuracy": 0.7658756673336029,
      "num_tokens": 1092800189.0,
      "step": 10920
    },
    {
      "entropy": 0.867578125,
      "epoch": 1.4937816044827115,
      "grad_norm": 0.289894432979175,
      "learning_rate": 1.3051289277159366e-06,
      "loss": 0.8679,
      "mean_token_accuracy": 0.7752394795417785,
      "num_tokens": 1093775552.0,
      "step": 10930
    },
    {
      "entropy": 0.876953125,
      "epoch": 1.4951482848161814,
      "grad_norm": 0.26122253605899665,
      "learning_rate": 1.3016063125264197e-06,
      "loss": 0.8797,
      "mean_token_accuracy": 0.7738613843917846,
      "num_tokens": 1094746366.0,
      "step": 10940
    },
    {
      "entropy": 0.893359375,
      "epoch": 1.4965149651496514,
      "grad_norm": 0.25412151948466954,
      "learning_rate": 1.2980836973369029e-06,
      "loss": 0.8894,
      "mean_token_accuracy": 0.768801748752594,
      "num_tokens": 1095721115.0,
      "step": 10950
    },
    {
      "entropy": 0.8640625,
      "epoch": 1.4978816454831214,
      "grad_norm": 0.2716204263578766,
      "learning_rate": 1.2945610821473864e-06,
      "loss": 0.865,
      "mean_token_accuracy": 0.7759302079677581,
      "num_tokens": 1096675122.0,
      "step": 10960
    },
    {
      "entropy": 0.848828125,
      "epoch": 1.4992483258165916,
      "grad_norm": 0.2583346154556236,
      "learning_rate": 1.2910384669578695e-06,
      "loss": 0.8449,
      "mean_token_accuracy": 0.7825251936912536,
      "num_tokens": 1097680195.0,
      "step": 10970
    },
    {
      "entropy": 0.848046875,
      "epoch": 1.5006150061500616,
      "grad_norm": 0.26634692687628586,
      "learning_rate": 1.2875158517683529e-06,
      "loss": 0.8507,
      "mean_token_accuracy": 0.7780414879322052,
      "num_tokens": 1098654530.0,
      "step": 10980
    },
    {
      "entropy": 0.90078125,
      "epoch": 1.5019816864835316,
      "grad_norm": 0.27087781446531684,
      "learning_rate": 1.2839932365788362e-06,
      "loss": 0.8953,
      "mean_token_accuracy": 0.7698237776756287,
      "num_tokens": 1099644954.0,
      "step": 10990
    },
    {
      "entropy": 0.880078125,
      "epoch": 1.5033483668170016,
      "grad_norm": 0.23954094078230723,
      "learning_rate": 1.2804706213893195e-06,
      "loss": 0.8777,
      "mean_token_accuracy": 0.7742987811565399,
      "num_tokens": 1100670867.0,
      "step": 11000
    },
    {
      "entropy": 0.907421875,
      "epoch": 1.5047150471504716,
      "grad_norm": 0.25416804783463964,
      "learning_rate": 1.2769480061998029e-06,
      "loss": 0.9087,
      "mean_token_accuracy": 0.7687415659427643,
      "num_tokens": 1101669252.0,
      "step": 11010
    },
    {
      "entropy": 0.8421875,
      "epoch": 1.5060817274839415,
      "grad_norm": 0.2383845856650063,
      "learning_rate": 1.2734253910102862e-06,
      "loss": 0.8401,
      "mean_token_accuracy": 0.7813042581081391,
      "num_tokens": 1102724602.0,
      "step": 11020
    },
    {
      "entropy": 0.86953125,
      "epoch": 1.5074484078174115,
      "grad_norm": 0.2424582009248749,
      "learning_rate": 1.2699027758207693e-06,
      "loss": 0.8687,
      "mean_token_accuracy": 0.7753204584121705,
      "num_tokens": 1103718122.0,
      "step": 11030
    },
    {
      "entropy": 0.901171875,
      "epoch": 1.5088150881508815,
      "grad_norm": 0.24526455442583522,
      "learning_rate": 1.2663801606312529e-06,
      "loss": 0.8954,
      "mean_token_accuracy": 0.7684087634086609,
      "num_tokens": 1104799231.0,
      "step": 11040
    },
    {
      "entropy": 0.84453125,
      "epoch": 1.5101817684843515,
      "grad_norm": 0.2636092143579383,
      "learning_rate": 1.262857545441736e-06,
      "loss": 0.8405,
      "mean_token_accuracy": 0.7814874768257141,
      "num_tokens": 1105748944.0,
      "step": 11050
    },
    {
      "entropy": 0.878515625,
      "epoch": 1.5115484488178215,
      "grad_norm": 0.2360131991509189,
      "learning_rate": 1.2593349302522193e-06,
      "loss": 0.8774,
      "mean_token_accuracy": 0.7721716642379761,
      "num_tokens": 1106750859.0,
      "step": 11060
    },
    {
      "entropy": 0.87890625,
      "epoch": 1.5129151291512914,
      "grad_norm": 0.2801783891290154,
      "learning_rate": 1.2558123150627027e-06,
      "loss": 0.882,
      "mean_token_accuracy": 0.7730323553085328,
      "num_tokens": 1107766800.0,
      "step": 11070
    },
    {
      "entropy": 0.909375,
      "epoch": 1.5142818094847614,
      "grad_norm": 0.2860592254241952,
      "learning_rate": 1.252289699873186e-06,
      "loss": 0.9165,
      "mean_token_accuracy": 0.764224249124527,
      "num_tokens": 1108772544.0,
      "step": 11080
    },
    {
      "entropy": 0.90234375,
      "epoch": 1.5156484898182314,
      "grad_norm": 0.2807719377447237,
      "learning_rate": 1.2487670846836693e-06,
      "loss": 0.8974,
      "mean_token_accuracy": 0.7690369963645936,
      "num_tokens": 1109784879.0,
      "step": 11090
    },
    {
      "entropy": 0.941796875,
      "epoch": 1.5170151701517014,
      "grad_norm": 0.28519205715078233,
      "learning_rate": 1.2452444694941527e-06,
      "loss": 0.9439,
      "mean_token_accuracy": 0.7586427390575409,
      "num_tokens": 1110755323.0,
      "step": 11100
    },
    {
      "entropy": 0.894921875,
      "epoch": 1.5183818504851714,
      "grad_norm": 0.22344551875018748,
      "learning_rate": 1.2417218543046358e-06,
      "loss": 0.8869,
      "mean_token_accuracy": 0.772808414697647,
      "num_tokens": 1111752070.0,
      "step": 11110
    },
    {
      "entropy": 0.870703125,
      "epoch": 1.5197485308186414,
      "grad_norm": 0.24553489574144016,
      "learning_rate": 1.2381992391151191e-06,
      "loss": 0.8704,
      "mean_token_accuracy": 0.7760096549987793,
      "num_tokens": 1112742919.0,
      "step": 11120
    },
    {
      "entropy": 0.876171875,
      "epoch": 1.5211152111521116,
      "grad_norm": 0.24512676449872456,
      "learning_rate": 1.2346766239256025e-06,
      "loss": 0.8885,
      "mean_token_accuracy": 0.7700730562210083,
      "num_tokens": 1113773062.0,
      "step": 11130
    },
    {
      "entropy": 0.8546875,
      "epoch": 1.5224818914855816,
      "grad_norm": 0.24659280424488808,
      "learning_rate": 1.2311540087360858e-06,
      "loss": 0.856,
      "mean_token_accuracy": 0.7775633752346038,
      "num_tokens": 1114820138.0,
      "step": 11140
    },
    {
      "entropy": 0.859765625,
      "epoch": 1.5238485718190515,
      "grad_norm": 0.27267520045347626,
      "learning_rate": 1.2276313935465691e-06,
      "loss": 0.8428,
      "mean_token_accuracy": 0.7811834454536438,
      "num_tokens": 1115814461.0,
      "step": 11150
    },
    {
      "entropy": 0.842578125,
      "epoch": 1.5252152521525215,
      "grad_norm": 0.2437140266509215,
      "learning_rate": 1.2241087783570525e-06,
      "loss": 0.8413,
      "mean_token_accuracy": 0.7803109049797058,
      "num_tokens": 1116817324.0,
      "step": 11160
    },
    {
      "entropy": 0.87890625,
      "epoch": 1.5265819324859915,
      "grad_norm": 0.2360864045594655,
      "learning_rate": 1.2205861631675358e-06,
      "loss": 0.8824,
      "mean_token_accuracy": 0.7720481872558593,
      "num_tokens": 1117823984.0,
      "step": 11170
    },
    {
      "entropy": 0.89453125,
      "epoch": 1.5279486128194615,
      "grad_norm": 0.2774996864915883,
      "learning_rate": 1.217063547978019e-06,
      "loss": 0.8922,
      "mean_token_accuracy": 0.7698550522327423,
      "num_tokens": 1118804345.0,
      "step": 11180
    },
    {
      "entropy": 0.8671875,
      "epoch": 1.5293152931529317,
      "grad_norm": 0.24371009540907385,
      "learning_rate": 1.2135409327885023e-06,
      "loss": 0.8725,
      "mean_token_accuracy": 0.7745131194591522,
      "num_tokens": 1119802939.0,
      "step": 11190
    },
    {
      "entropy": 0.85703125,
      "epoch": 1.5306819734864017,
      "grad_norm": 0.24091227970245305,
      "learning_rate": 1.2100183175989856e-06,
      "loss": 0.8505,
      "mean_token_accuracy": 0.7794648349285126,
      "num_tokens": 1120777771.0,
      "step": 11200
    },
    {
      "entropy": 0.837109375,
      "epoch": 1.5320486538198717,
      "grad_norm": 0.23966795839423782,
      "learning_rate": 1.206495702409469e-06,
      "loss": 0.8352,
      "mean_token_accuracy": 0.7814884841442108,
      "num_tokens": 1121758238.0,
      "step": 11210
    },
    {
      "entropy": 0.826953125,
      "epoch": 1.5334153341533416,
      "grad_norm": 0.2745176369115751,
      "learning_rate": 1.202973087219952e-06,
      "loss": 0.8204,
      "mean_token_accuracy": 0.7835103034973144,
      "num_tokens": 1122757820.0,
      "step": 11220
    },
    {
      "entropy": 0.8546875,
      "epoch": 1.5347820144868116,
      "grad_norm": 0.2487176215699584,
      "learning_rate": 1.1994504720304354e-06,
      "loss": 0.863,
      "mean_token_accuracy": 0.7771890759468079,
      "num_tokens": 1123784136.0,
      "step": 11230
    },
    {
      "entropy": 0.844921875,
      "epoch": 1.5361486948202816,
      "grad_norm": 0.2626418973138496,
      "learning_rate": 1.1959278568409187e-06,
      "loss": 0.8405,
      "mean_token_accuracy": 0.7795972347259521,
      "num_tokens": 1124819123.0,
      "step": 11240
    },
    {
      "entropy": 0.844140625,
      "epoch": 1.5375153751537516,
      "grad_norm": 0.252446762659111,
      "learning_rate": 1.192405241651402e-06,
      "loss": 0.844,
      "mean_token_accuracy": 0.7793748438358307,
      "num_tokens": 1125826807.0,
      "step": 11250
    },
    {
      "entropy": 0.873828125,
      "epoch": 1.5388820554872216,
      "grad_norm": 0.2640036666508749,
      "learning_rate": 1.1888826264618854e-06,
      "loss": 0.8739,
      "mean_token_accuracy": 0.7735552847385406,
      "num_tokens": 1126817641.0,
      "step": 11260
    },
    {
      "entropy": 0.860546875,
      "epoch": 1.5402487358206916,
      "grad_norm": 0.2312647720430947,
      "learning_rate": 1.1853600112723687e-06,
      "loss": 0.8544,
      "mean_token_accuracy": 0.7786914587020874,
      "num_tokens": 1127842712.0,
      "step": 11270
    },
    {
      "entropy": 0.85078125,
      "epoch": 1.5416154161541615,
      "grad_norm": 0.27062111676824885,
      "learning_rate": 1.181837396082852e-06,
      "loss": 0.8457,
      "mean_token_accuracy": 0.7798723161220551,
      "num_tokens": 1128863816.0,
      "step": 11280
    },
    {
      "entropy": 0.85625,
      "epoch": 1.5429820964876315,
      "grad_norm": 0.24260182117389373,
      "learning_rate": 1.1783147808933352e-06,
      "loss": 0.8519,
      "mean_token_accuracy": 0.7783517599105835,
      "num_tokens": 1129869633.0,
      "step": 11290
    },
    {
      "entropy": 0.9359375,
      "epoch": 1.5443487768211015,
      "grad_norm": 0.26738707853445015,
      "learning_rate": 1.1747921657038185e-06,
      "loss": 0.9387,
      "mean_token_accuracy": 0.761005038022995,
      "num_tokens": 1130865671.0,
      "step": 11300
    },
    {
      "entropy": 0.848046875,
      "epoch": 1.5457154571545715,
      "grad_norm": 0.2489673243680607,
      "learning_rate": 1.1712695505143019e-06,
      "loss": 0.8418,
      "mean_token_accuracy": 0.7794171690940856,
      "num_tokens": 1131846947.0,
      "step": 11310
    },
    {
      "entropy": 0.8859375,
      "epoch": 1.5470821374880415,
      "grad_norm": 0.26425202193127595,
      "learning_rate": 1.1677469353247852e-06,
      "loss": 0.8748,
      "mean_token_accuracy": 0.7753334283828736,
      "num_tokens": 1132793844.0,
      "step": 11320
    },
    {
      "entropy": 0.896484375,
      "epoch": 1.5484488178215114,
      "grad_norm": 0.2396439851577067,
      "learning_rate": 1.1642243201352685e-06,
      "loss": 0.8994,
      "mean_token_accuracy": 0.7679152905941009,
      "num_tokens": 1133827525.0,
      "step": 11330
    },
    {
      "entropy": 0.855859375,
      "epoch": 1.5498154981549814,
      "grad_norm": 0.25137975863894385,
      "learning_rate": 1.1607017049457519e-06,
      "loss": 0.8544,
      "mean_token_accuracy": 0.7764490187168122,
      "num_tokens": 1134851611.0,
      "step": 11340
    },
    {
      "entropy": 0.899609375,
      "epoch": 1.5511821784884514,
      "grad_norm": 0.25833627752876737,
      "learning_rate": 1.1571790897562352e-06,
      "loss": 0.8999,
      "mean_token_accuracy": 0.7692273378372192,
      "num_tokens": 1135812714.0,
      "step": 11350
    },
    {
      "entropy": 0.858203125,
      "epoch": 1.5525488588219214,
      "grad_norm": 0.2561602119948696,
      "learning_rate": 1.1536564745667183e-06,
      "loss": 0.8511,
      "mean_token_accuracy": 0.7788959443569183,
      "num_tokens": 1136794405.0,
      "step": 11360
    },
    {
      "entropy": 0.85859375,
      "epoch": 1.5539155391553916,
      "grad_norm": 0.26450697868936623,
      "learning_rate": 1.1501338593772017e-06,
      "loss": 0.8541,
      "mean_token_accuracy": 0.7785285830497741,
      "num_tokens": 1137769619.0,
      "step": 11370
    },
    {
      "entropy": 0.887109375,
      "epoch": 1.5552822194888616,
      "grad_norm": 0.26861908340777185,
      "learning_rate": 1.146611244187685e-06,
      "loss": 0.8822,
      "mean_token_accuracy": 0.774242615699768,
      "num_tokens": 1138799883.0,
      "step": 11380
    },
    {
      "entropy": 0.8875,
      "epoch": 1.5566488998223316,
      "grad_norm": 0.2557228647184408,
      "learning_rate": 1.1430886289981683e-06,
      "loss": 0.887,
      "mean_token_accuracy": 0.7682441234588623,
      "num_tokens": 1139800900.0,
      "step": 11390
    },
    {
      "entropy": 0.831640625,
      "epoch": 1.5580155801558015,
      "grad_norm": 0.25694349514080667,
      "learning_rate": 1.1395660138086517e-06,
      "loss": 0.8234,
      "mean_token_accuracy": 0.7840243697166442,
      "num_tokens": 1140741463.0,
      "step": 11400
    },
    {
      "entropy": 0.846484375,
      "epoch": 1.5593822604892715,
      "grad_norm": 0.28678102203135125,
      "learning_rate": 1.136043398619135e-06,
      "loss": 0.8451,
      "mean_token_accuracy": 0.7810888350009918,
      "num_tokens": 1141722088.0,
      "step": 11410
    },
    {
      "entropy": 0.91796875,
      "epoch": 1.5607489408227415,
      "grad_norm": 0.27206940772659927,
      "learning_rate": 1.1325207834296184e-06,
      "loss": 0.9083,
      "mean_token_accuracy": 0.7668960154056549,
      "num_tokens": 1142741382.0,
      "step": 11420
    },
    {
      "entropy": 0.83984375,
      "epoch": 1.5621156211562117,
      "grad_norm": 0.2504788320796507,
      "learning_rate": 1.1289981682401017e-06,
      "loss": 0.8342,
      "mean_token_accuracy": 0.7814988434314728,
      "num_tokens": 1143707105.0,
      "step": 11430
    },
    {
      "entropy": 0.865625,
      "epoch": 1.5634823014896817,
      "grad_norm": 0.22573027086287523,
      "learning_rate": 1.1254755530505848e-06,
      "loss": 0.8564,
      "mean_token_accuracy": 0.7775776863098145,
      "num_tokens": 1144704253.0,
      "step": 11440
    },
    {
      "entropy": 0.894921875,
      "epoch": 1.5648489818231517,
      "grad_norm": 0.2329440750316794,
      "learning_rate": 1.1219529378610681e-06,
      "loss": 0.8909,
      "mean_token_accuracy": 0.7694925010204315,
      "num_tokens": 1145699269.0,
      "step": 11450
    },
    {
      "entropy": 0.889453125,
      "epoch": 1.5662156621566217,
      "grad_norm": 0.24336574533038247,
      "learning_rate": 1.1184303226715515e-06,
      "loss": 0.8882,
      "mean_token_accuracy": 0.7722897112369538,
      "num_tokens": 1146720558.0,
      "step": 11460
    },
    {
      "entropy": 0.893359375,
      "epoch": 1.5675823424900917,
      "grad_norm": 0.2622775483504381,
      "learning_rate": 1.1149077074820346e-06,
      "loss": 0.8876,
      "mean_token_accuracy": 0.7708047986030578,
      "num_tokens": 1147722919.0,
      "step": 11470
    },
    {
      "entropy": 0.92265625,
      "epoch": 1.5689490228235616,
      "grad_norm": 0.2780234589108885,
      "learning_rate": 1.111385092292518e-06,
      "loss": 0.9184,
      "mean_token_accuracy": 0.7670957505702972,
      "num_tokens": 1148706767.0,
      "step": 11480
    },
    {
      "entropy": 0.868359375,
      "epoch": 1.5703157031570316,
      "grad_norm": 0.23270258883809763,
      "learning_rate": 1.1078624771030013e-06,
      "loss": 0.8733,
      "mean_token_accuracy": 0.7737132728099823,
      "num_tokens": 1149707433.0,
      "step": 11490
    },
    {
      "entropy": 0.8828125,
      "epoch": 1.5716823834905016,
      "grad_norm": 0.23648524155380332,
      "learning_rate": 1.1043398619134846e-06,
      "loss": 0.8806,
      "mean_token_accuracy": 0.7712568581104279,
      "num_tokens": 1150747647.0,
      "step": 11500
    },
    {
      "entropy": 0.89140625,
      "epoch": 1.5730490638239716,
      "grad_norm": 0.22934822116678713,
      "learning_rate": 1.100817246723968e-06,
      "loss": 0.8878,
      "mean_token_accuracy": 0.7707357048988343,
      "num_tokens": 1151734770.0,
      "step": 11510
    },
    {
      "entropy": 0.89140625,
      "epoch": 1.5744157441574416,
      "grad_norm": 0.22836538326609018,
      "learning_rate": 1.0972946315344513e-06,
      "loss": 0.8954,
      "mean_token_accuracy": 0.7710276782512665,
      "num_tokens": 1152776679.0,
      "step": 11520
    },
    {
      "entropy": 0.858203125,
      "epoch": 1.5757824244909115,
      "grad_norm": 0.24421956100680892,
      "learning_rate": 1.0937720163449346e-06,
      "loss": 0.8573,
      "mean_token_accuracy": 0.7796033501625061,
      "num_tokens": 1153760751.0,
      "step": 11530
    },
    {
      "entropy": 0.872265625,
      "epoch": 1.5771491048243815,
      "grad_norm": 0.2609303320991187,
      "learning_rate": 1.0902494011554177e-06,
      "loss": 0.8711,
      "mean_token_accuracy": 0.7738117098808288,
      "num_tokens": 1154773032.0,
      "step": 11540
    },
    {
      "entropy": 0.848046875,
      "epoch": 1.5785157851578515,
      "grad_norm": 0.25978391977686527,
      "learning_rate": 1.086726785965901e-06,
      "loss": 0.8518,
      "mean_token_accuracy": 0.7787124514579773,
      "num_tokens": 1155822119.0,
      "step": 11550
    },
    {
      "entropy": 0.9109375,
      "epoch": 1.5798824654913215,
      "grad_norm": 0.2714062278671675,
      "learning_rate": 1.0832041707763844e-06,
      "loss": 0.9083,
      "mean_token_accuracy": 0.7685537278652191,
      "num_tokens": 1156821322.0,
      "step": 11560
    },
    {
      "entropy": 0.90625,
      "epoch": 1.5812491458247915,
      "grad_norm": 0.24443407671415066,
      "learning_rate": 1.0796815555868678e-06,
      "loss": 0.9105,
      "mean_token_accuracy": 0.7691064238548279,
      "num_tokens": 1157885137.0,
      "step": 11570
    },
    {
      "entropy": 0.909765625,
      "epoch": 1.5826158261582615,
      "grad_norm": 0.22255354983411127,
      "learning_rate": 1.076158940397351e-06,
      "loss": 0.9104,
      "mean_token_accuracy": 0.7668884992599487,
      "num_tokens": 1158890096.0,
      "step": 11580
    },
    {
      "entropy": 0.886328125,
      "epoch": 1.5839825064917314,
      "grad_norm": 0.23701948195896808,
      "learning_rate": 1.0726363252078344e-06,
      "loss": 0.8895,
      "mean_token_accuracy": 0.7721175909042358,
      "num_tokens": 1159846658.0,
      "step": 11590
    },
    {
      "entropy": 0.835546875,
      "epoch": 1.5853491868252014,
      "grad_norm": 0.23619132131475537,
      "learning_rate": 1.0691137100183178e-06,
      "loss": 0.8268,
      "mean_token_accuracy": 0.7843947887420655,
      "num_tokens": 1160838561.0,
      "step": 11600
    },
    {
      "entropy": 0.83984375,
      "epoch": 1.5867158671586716,
      "grad_norm": 0.26135980688210614,
      "learning_rate": 1.065591094828801e-06,
      "loss": 0.8426,
      "mean_token_accuracy": 0.7802786827087402,
      "num_tokens": 1161897074.0,
      "step": 11610
    },
    {
      "entropy": 0.8578125,
      "epoch": 1.5880825474921416,
      "grad_norm": 0.2570340554853236,
      "learning_rate": 1.0620684796392842e-06,
      "loss": 0.8508,
      "mean_token_accuracy": 0.7773025631904602,
      "num_tokens": 1162836144.0,
      "step": 11620
    },
    {
      "entropy": 0.81328125,
      "epoch": 1.5894492278256116,
      "grad_norm": 0.2383584747332198,
      "learning_rate": 1.0585458644497676e-06,
      "loss": 0.8099,
      "mean_token_accuracy": 0.7857897639274597,
      "num_tokens": 1163803783.0,
      "step": 11630
    },
    {
      "entropy": 0.896875,
      "epoch": 1.5908159081590816,
      "grad_norm": 0.24872047476766293,
      "learning_rate": 1.0550232492602509e-06,
      "loss": 0.8983,
      "mean_token_accuracy": 0.7681887924671174,
      "num_tokens": 1164789119.0,
      "step": 11640
    },
    {
      "entropy": 0.897265625,
      "epoch": 1.5921825884925516,
      "grad_norm": 0.2338036869262491,
      "learning_rate": 1.0515006340707342e-06,
      "loss": 0.8888,
      "mean_token_accuracy": 0.7722593009471893,
      "num_tokens": 1165766661.0,
      "step": 11650
    },
    {
      "entropy": 0.83984375,
      "epoch": 1.5935492688260215,
      "grad_norm": 0.27035245078170966,
      "learning_rate": 1.0479780188812176e-06,
      "loss": 0.8408,
      "mean_token_accuracy": 0.7813570499420166,
      "num_tokens": 1166714400.0,
      "step": 11660
    },
    {
      "entropy": 0.870703125,
      "epoch": 1.5949159491594918,
      "grad_norm": 0.25498658468137403,
      "learning_rate": 1.0444554036917009e-06,
      "loss": 0.8741,
      "mean_token_accuracy": 0.7734224081039429,
      "num_tokens": 1167724315.0,
      "step": 11670
    },
    {
      "entropy": 0.892578125,
      "epoch": 1.5962826294929617,
      "grad_norm": 0.24803044632603852,
      "learning_rate": 1.0409327885021842e-06,
      "loss": 0.8947,
      "mean_token_accuracy": 0.7670565962791442,
      "num_tokens": 1168744110.0,
      "step": 11680
    },
    {
      "entropy": 0.847265625,
      "epoch": 1.5976493098264317,
      "grad_norm": 0.24758254407184296,
      "learning_rate": 1.0374101733126674e-06,
      "loss": 0.8529,
      "mean_token_accuracy": 0.779120248556137,
      "num_tokens": 1169739567.0,
      "step": 11690
    },
    {
      "entropy": 0.8328125,
      "epoch": 1.5990159901599017,
      "grad_norm": 0.29156522131505985,
      "learning_rate": 1.0338875581231507e-06,
      "loss": 0.8201,
      "mean_token_accuracy": 0.7844766914844513,
      "num_tokens": 1170678500.0,
      "step": 11700
    },
    {
      "entropy": 0.89375,
      "epoch": 1.6003826704933717,
      "grad_norm": 0.2557462657682893,
      "learning_rate": 1.030364942933634e-06,
      "loss": 0.8924,
      "mean_token_accuracy": 0.7682031989097595,
      "num_tokens": 1171654365.0,
      "step": 11710
    },
    {
      "entropy": 0.89140625,
      "epoch": 1.6017493508268417,
      "grad_norm": 0.2255780026970447,
      "learning_rate": 1.0268423277441174e-06,
      "loss": 0.8913,
      "mean_token_accuracy": 0.7698908746242523,
      "num_tokens": 1172617824.0,
      "step": 11720
    },
    {
      "entropy": 0.8796875,
      "epoch": 1.6031160311603116,
      "grad_norm": 0.2666334242119741,
      "learning_rate": 1.0233197125546005e-06,
      "loss": 0.8703,
      "mean_token_accuracy": 0.775872814655304,
      "num_tokens": 1173559869.0,
      "step": 11730
    },
    {
      "entropy": 0.87890625,
      "epoch": 1.6044827114937816,
      "grad_norm": 0.26052424651519873,
      "learning_rate": 1.0197970973650838e-06,
      "loss": 0.8777,
      "mean_token_accuracy": 0.7732029378414154,
      "num_tokens": 1174562880.0,
      "step": 11740
    },
    {
      "entropy": 0.87109375,
      "epoch": 1.6058493918272516,
      "grad_norm": 0.2649015285471125,
      "learning_rate": 1.0162744821755674e-06,
      "loss": 0.8748,
      "mean_token_accuracy": 0.7741796135902405,
      "num_tokens": 1175582329.0,
      "step": 11750
    },
    {
      "entropy": 0.857421875,
      "epoch": 1.6072160721607216,
      "grad_norm": 0.25116018576267707,
      "learning_rate": 1.0127518669860505e-06,
      "loss": 0.8521,
      "mean_token_accuracy": 0.7789849877357483,
      "num_tokens": 1176571463.0,
      "step": 11760
    },
    {
      "entropy": 0.909375,
      "epoch": 1.6085827524941916,
      "grad_norm": 0.28786857721618986,
      "learning_rate": 1.0092292517965338e-06,
      "loss": 0.9056,
      "mean_token_accuracy": 0.7688167810440063,
      "num_tokens": 1177603350.0,
      "step": 11770
    },
    {
      "entropy": 0.879296875,
      "epoch": 1.6099494328276616,
      "grad_norm": 0.24981960396515016,
      "learning_rate": 1.0057066366070172e-06,
      "loss": 0.8769,
      "mean_token_accuracy": 0.7743636071681976,
      "num_tokens": 1178602301.0,
      "step": 11780
    },
    {
      "entropy": 0.8453125,
      "epoch": 1.6113161131611315,
      "grad_norm": 0.2506137512250527,
      "learning_rate": 1.0021840214175005e-06,
      "loss": 0.8397,
      "mean_token_accuracy": 0.7817411780357361,
      "num_tokens": 1179589154.0,
      "step": 11790
    },
    {
      "entropy": 0.878515625,
      "epoch": 1.6126827934946015,
      "grad_norm": 0.2607941841540487,
      "learning_rate": 9.986614062279836e-07,
      "loss": 0.883,
      "mean_token_accuracy": 0.7733896434307098,
      "num_tokens": 1180600360.0,
      "step": 11800
    },
    {
      "entropy": 0.83203125,
      "epoch": 1.6140494738280715,
      "grad_norm": 0.2559767117893654,
      "learning_rate": 9.95138791038467e-07,
      "loss": 0.8273,
      "mean_token_accuracy": 0.7840158939361572,
      "num_tokens": 1181606919.0,
      "step": 11810
    },
    {
      "entropy": 0.8546875,
      "epoch": 1.6154161541615415,
      "grad_norm": 0.25362696654779443,
      "learning_rate": 9.916161758489503e-07,
      "loss": 0.8438,
      "mean_token_accuracy": 0.7811732351779938,
      "num_tokens": 1182605366.0,
      "step": 11820
    },
    {
      "entropy": 0.854296875,
      "epoch": 1.6167828344950115,
      "grad_norm": 0.2551158190819966,
      "learning_rate": 9.880935606594336e-07,
      "loss": 0.859,
      "mean_token_accuracy": 0.7774627268314361,
      "num_tokens": 1183673571.0,
      "step": 11830
    },
    {
      "entropy": 0.86328125,
      "epoch": 1.6181495148284815,
      "grad_norm": 0.23273836326117742,
      "learning_rate": 9.84570945469917e-07,
      "loss": 0.8721,
      "mean_token_accuracy": 0.7753134727478027,
      "num_tokens": 1184672054.0,
      "step": 11840
    },
    {
      "entropy": 0.878125,
      "epoch": 1.6195161951619517,
      "grad_norm": 0.24983258830992794,
      "learning_rate": 9.810483302804003e-07,
      "loss": 0.8666,
      "mean_token_accuracy": 0.7751948893070221,
      "num_tokens": 1185671748.0,
      "step": 11850
    },
    {
      "entropy": 0.870703125,
      "epoch": 1.6208828754954216,
      "grad_norm": 0.25674888097584747,
      "learning_rate": 9.775257150908836e-07,
      "loss": 0.8615,
      "mean_token_accuracy": 0.7761265337467194,
      "num_tokens": 1186650051.0,
      "step": 11860
    },
    {
      "entropy": 0.865234375,
      "epoch": 1.6222495558288916,
      "grad_norm": 0.24520788555460998,
      "learning_rate": 9.740030999013668e-07,
      "loss": 0.8679,
      "mean_token_accuracy": 0.7760342061519623,
      "num_tokens": 1187625175.0,
      "step": 11870
    },
    {
      "entropy": 0.84921875,
      "epoch": 1.6236162361623616,
      "grad_norm": 0.2342739795739743,
      "learning_rate": 9.7048048471185e-07,
      "loss": 0.841,
      "mean_token_accuracy": 0.7787468433380127,
      "num_tokens": 1188594146.0,
      "step": 11880
    },
    {
      "entropy": 0.891796875,
      "epoch": 1.6249829164958316,
      "grad_norm": 0.22891421599926312,
      "learning_rate": 9.669578695223334e-07,
      "loss": 0.8924,
      "mean_token_accuracy": 0.770384794473648,
      "num_tokens": 1189612533.0,
      "step": 11890
    },
    {
      "entropy": 0.8765625,
      "epoch": 1.6263495968293016,
      "grad_norm": 0.2528720270196318,
      "learning_rate": 9.634352543328168e-07,
      "loss": 0.8723,
      "mean_token_accuracy": 0.7739668428897858,
      "num_tokens": 1190580400.0,
      "step": 11900
    },
    {
      "entropy": 0.87265625,
      "epoch": 1.6277162771627718,
      "grad_norm": 0.2574954751020301,
      "learning_rate": 9.599126391433e-07,
      "loss": 0.8702,
      "mean_token_accuracy": 0.7743063688278198,
      "num_tokens": 1191586787.0,
      "step": 11910
    },
    {
      "entropy": 0.892578125,
      "epoch": 1.6290829574962418,
      "grad_norm": 0.2533287420013768,
      "learning_rate": 9.563900239537834e-07,
      "loss": 0.8883,
      "mean_token_accuracy": 0.7700186133384704,
      "num_tokens": 1192578364.0,
      "step": 11920
    },
    {
      "entropy": 0.848046875,
      "epoch": 1.6304496378297118,
      "grad_norm": 0.26053326985789993,
      "learning_rate": 9.528674087642667e-07,
      "loss": 0.8551,
      "mean_token_accuracy": 0.7777946174144745,
      "num_tokens": 1193601099.0,
      "step": 11930
    },
    {
      "entropy": 0.84140625,
      "epoch": 1.6318163181631817,
      "grad_norm": 0.24762617615955454,
      "learning_rate": 9.4934479357475e-07,
      "loss": 0.8298,
      "mean_token_accuracy": 0.7832838475704194,
      "num_tokens": 1194615552.0,
      "step": 11940
    },
    {
      "entropy": 0.890625,
      "epoch": 1.6331829984966517,
      "grad_norm": 0.23816882256237965,
      "learning_rate": 9.458221783852332e-07,
      "loss": 0.8824,
      "mean_token_accuracy": 0.7711098551750183,
      "num_tokens": 1195661648.0,
      "step": 11950
    },
    {
      "entropy": 0.86484375,
      "epoch": 1.6345496788301217,
      "grad_norm": 0.2621427004886347,
      "learning_rate": 9.422995631957166e-07,
      "loss": 0.8641,
      "mean_token_accuracy": 0.776460486650467,
      "num_tokens": 1196611904.0,
      "step": 11960
    },
    {
      "entropy": 0.89609375,
      "epoch": 1.6359163591635917,
      "grad_norm": 0.2702590308833623,
      "learning_rate": 9.387769480061999e-07,
      "loss": 0.8916,
      "mean_token_accuracy": 0.7712073206901551,
      "num_tokens": 1197598162.0,
      "step": 11970
    },
    {
      "entropy": 0.86796875,
      "epoch": 1.6372830394970617,
      "grad_norm": 0.252274714576929,
      "learning_rate": 9.352543328166831e-07,
      "loss": 0.8605,
      "mean_token_accuracy": 0.7764213621616364,
      "num_tokens": 1198636269.0,
      "step": 11980
    },
    {
      "entropy": 0.876953125,
      "epoch": 1.6386497198305316,
      "grad_norm": 0.23054408667340467,
      "learning_rate": 9.317317176271665e-07,
      "loss": 0.8781,
      "mean_token_accuracy": 0.7733772933483124,
      "num_tokens": 1199590978.0,
      "step": 11990
    },
    {
      "entropy": 0.903125,
      "epoch": 1.6400164001640016,
      "grad_norm": 0.22232941150320107,
      "learning_rate": 9.282091024376498e-07,
      "loss": 0.9065,
      "mean_token_accuracy": 0.7657728314399719,
      "num_tokens": 1200657756.0,
      "step": 12000
    },
    {
      "entropy": 0.911328125,
      "epoch": 1.6413830804974716,
      "grad_norm": 0.290733684741928,
      "learning_rate": 9.246864872481331e-07,
      "loss": 0.9065,
      "mean_token_accuracy": 0.7649955034255982,
      "num_tokens": 1201625479.0,
      "step": 12010
    },
    {
      "entropy": 0.85546875,
      "epoch": 1.6427497608309416,
      "grad_norm": 0.2501214583998603,
      "learning_rate": 9.211638720586164e-07,
      "loss": 0.8524,
      "mean_token_accuracy": 0.7776315808296204,
      "num_tokens": 1202578801.0,
      "step": 12020
    },
    {
      "entropy": 0.860546875,
      "epoch": 1.6441164411644116,
      "grad_norm": 0.27383692093760803,
      "learning_rate": 9.176412568690997e-07,
      "loss": 0.8509,
      "mean_token_accuracy": 0.7787457942962647,
      "num_tokens": 1203570618.0,
      "step": 12030
    },
    {
      "entropy": 0.8890625,
      "epoch": 1.6454831214978816,
      "grad_norm": 0.2719994808175802,
      "learning_rate": 9.14118641679583e-07,
      "loss": 0.8804,
      "mean_token_accuracy": 0.7707540035247803,
      "num_tokens": 1204596821.0,
      "step": 12040
    },
    {
      "entropy": 0.852734375,
      "epoch": 1.6468498018313515,
      "grad_norm": 0.2523508832608629,
      "learning_rate": 9.105960264900663e-07,
      "loss": 0.8548,
      "mean_token_accuracy": 0.7770278215408325,
      "num_tokens": 1205542592.0,
      "step": 12050
    },
    {
      "entropy": 0.86796875,
      "epoch": 1.6482164821648215,
      "grad_norm": 0.24766637251429982,
      "learning_rate": 9.070734113005496e-07,
      "loss": 0.8748,
      "mean_token_accuracy": 0.7754977762699127,
      "num_tokens": 1206585474.0,
      "step": 12060
    },
    {
      "entropy": 0.934375,
      "epoch": 1.6495831624982915,
      "grad_norm": 0.25581920366263083,
      "learning_rate": 9.035507961110329e-07,
      "loss": 0.9265,
      "mean_token_accuracy": 0.7635209381580352,
      "num_tokens": 1207563707.0,
      "step": 12070
    },
    {
      "entropy": 0.853515625,
      "epoch": 1.6509498428317615,
      "grad_norm": 0.2520573398865736,
      "learning_rate": 9.000281809215163e-07,
      "loss": 0.8542,
      "mean_token_accuracy": 0.7771300971508026,
      "num_tokens": 1208556252.0,
      "step": 12080
    },
    {
      "entropy": 0.833203125,
      "epoch": 1.6523165231652317,
      "grad_norm": 0.2585087780923712,
      "learning_rate": 8.965055657319995e-07,
      "loss": 0.8354,
      "mean_token_accuracy": 0.7823965787887573,
      "num_tokens": 1209554358.0,
      "step": 12090
    },
    {
      "entropy": 0.85625,
      "epoch": 1.6536832034987017,
      "grad_norm": 0.2245225215168944,
      "learning_rate": 8.929829505424828e-07,
      "loss": 0.8501,
      "mean_token_accuracy": 0.7786970734596252,
      "num_tokens": 1210557665.0,
      "step": 12100
    },
    {
      "entropy": 0.853515625,
      "epoch": 1.6550498838321717,
      "grad_norm": 0.24240863756651831,
      "learning_rate": 8.894603353529662e-07,
      "loss": 0.8506,
      "mean_token_accuracy": 0.7789479196071625,
      "num_tokens": 1211549288.0,
      "step": 12110
    },
    {
      "entropy": 0.8296875,
      "epoch": 1.6564165641656416,
      "grad_norm": 0.23366653008763139,
      "learning_rate": 8.859377201634495e-07,
      "loss": 0.8296,
      "mean_token_accuracy": 0.7829292774200439,
      "num_tokens": 1212591886.0,
      "step": 12120
    },
    {
      "entropy": 0.91328125,
      "epoch": 1.6577832444991116,
      "grad_norm": 0.2553313644049335,
      "learning_rate": 8.824151049739326e-07,
      "loss": 0.9067,
      "mean_token_accuracy": 0.766779613494873,
      "num_tokens": 1213604606.0,
      "step": 12130
    },
    {
      "entropy": 0.841796875,
      "epoch": 1.6591499248325816,
      "grad_norm": 0.24962628941108328,
      "learning_rate": 8.788924897844161e-07,
      "loss": 0.8417,
      "mean_token_accuracy": 0.7809658646583557,
      "num_tokens": 1214642551.0,
      "step": 12140
    },
    {
      "entropy": 0.842578125,
      "epoch": 1.6605166051660518,
      "grad_norm": 0.27544807211594224,
      "learning_rate": 8.753698745948994e-07,
      "loss": 0.8355,
      "mean_token_accuracy": 0.7819350183010101,
      "num_tokens": 1215673969.0,
      "step": 12150
    },
    {
      "entropy": 0.857421875,
      "epoch": 1.6618832854995218,
      "grad_norm": 0.2612134655689382,
      "learning_rate": 8.718472594053825e-07,
      "loss": 0.8463,
      "mean_token_accuracy": 0.7806155562400818,
      "num_tokens": 1216619775.0,
      "step": 12160
    },
    {
      "entropy": 0.863671875,
      "epoch": 1.6632499658329918,
      "grad_norm": 0.2625516124168709,
      "learning_rate": 8.683246442158659e-07,
      "loss": 0.8591,
      "mean_token_accuracy": 0.7762869894504547,
      "num_tokens": 1217597835.0,
      "step": 12170
    },
    {
      "entropy": 0.838671875,
      "epoch": 1.6646166461664618,
      "grad_norm": 0.24285195279486282,
      "learning_rate": 8.648020290263492e-07,
      "loss": 0.8333,
      "mean_token_accuracy": 0.782323706150055,
      "num_tokens": 1218556074.0,
      "step": 12180
    },
    {
      "entropy": 0.870703125,
      "epoch": 1.6659833264999317,
      "grad_norm": 0.2537781228361571,
      "learning_rate": 8.612794138368325e-07,
      "loss": 0.8669,
      "mean_token_accuracy": 0.7763471364974975,
      "num_tokens": 1219563177.0,
      "step": 12190
    },
    {
      "entropy": 0.887109375,
      "epoch": 1.6673500068334017,
      "grad_norm": 0.2742775627821766,
      "learning_rate": 8.577567986473158e-07,
      "loss": 0.8781,
      "mean_token_accuracy": 0.7746611475944519,
      "num_tokens": 1220525706.0,
      "step": 12200
    },
    {
      "entropy": 0.85859375,
      "epoch": 1.6687166871668717,
      "grad_norm": 0.263174891688622,
      "learning_rate": 8.542341834577991e-07,
      "loss": 0.8494,
      "mean_token_accuracy": 0.7789514183998107,
      "num_tokens": 1221509657.0,
      "step": 12210
    },
    {
      "entropy": 0.862109375,
      "epoch": 1.6700833675003417,
      "grad_norm": 0.2685864875027837,
      "learning_rate": 8.507115682682824e-07,
      "loss": 0.8611,
      "mean_token_accuracy": 0.7769227743148803,
      "num_tokens": 1222483747.0,
      "step": 12220
    },
    {
      "entropy": 0.9109375,
      "epoch": 1.6714500478338117,
      "grad_norm": 0.26100124433330163,
      "learning_rate": 8.471889530787658e-07,
      "loss": 0.9077,
      "mean_token_accuracy": 0.7675847709178925,
      "num_tokens": 1223511420.0,
      "step": 12230
    },
    {
      "entropy": 0.855078125,
      "epoch": 1.6728167281672817,
      "grad_norm": 0.244380117202839,
      "learning_rate": 8.43666337889249e-07,
      "loss": 0.8502,
      "mean_token_accuracy": 0.7775459885597229,
      "num_tokens": 1224496559.0,
      "step": 12240
    },
    {
      "entropy": 0.86640625,
      "epoch": 1.6741834085007516,
      "grad_norm": 0.23372779472333632,
      "learning_rate": 8.401437226997323e-07,
      "loss": 0.8688,
      "mean_token_accuracy": 0.7767118811607361,
      "num_tokens": 1225517907.0,
      "step": 12250
    },
    {
      "entropy": 0.862109375,
      "epoch": 1.6755500888342216,
      "grad_norm": 0.27418575753201513,
      "learning_rate": 8.366211075102157e-07,
      "loss": 0.8551,
      "mean_token_accuracy": 0.777853399515152,
      "num_tokens": 1226443690.0,
      "step": 12260
    },
    {
      "entropy": 0.86484375,
      "epoch": 1.6769167691676916,
      "grad_norm": 0.26326585663595414,
      "learning_rate": 8.330984923206989e-07,
      "loss": 0.8532,
      "mean_token_accuracy": 0.7788276970386505,
      "num_tokens": 1227466312.0,
      "step": 12270
    },
    {
      "entropy": 0.90625,
      "epoch": 1.6782834495011616,
      "grad_norm": 0.2514113425403903,
      "learning_rate": 8.295758771311822e-07,
      "loss": 0.9125,
      "mean_token_accuracy": 0.7657253444194794,
      "num_tokens": 1228400415.0,
      "step": 12280
    },
    {
      "entropy": 0.884375,
      "epoch": 1.6796501298346316,
      "grad_norm": 0.22938295360227,
      "learning_rate": 8.260532619416656e-07,
      "loss": 0.8812,
      "mean_token_accuracy": 0.7711211323738099,
      "num_tokens": 1229369061.0,
      "step": 12290
    },
    {
      "entropy": 0.859765625,
      "epoch": 1.6810168101681016,
      "grad_norm": 0.24192339146288144,
      "learning_rate": 8.225306467521489e-07,
      "loss": 0.8515,
      "mean_token_accuracy": 0.7796787202358246,
      "num_tokens": 1230368442.0,
      "step": 12300
    },
    {
      "entropy": 0.88515625,
      "epoch": 1.6823834905015715,
      "grad_norm": 0.2505047037790002,
      "learning_rate": 8.190080315626321e-07,
      "loss": 0.8903,
      "mean_token_accuracy": 0.7716611623764038,
      "num_tokens": 1231332600.0,
      "step": 12310
    },
    {
      "entropy": 0.871875,
      "epoch": 1.6837501708350415,
      "grad_norm": 0.24106179206607792,
      "learning_rate": 8.154854163731155e-07,
      "loss": 0.863,
      "mean_token_accuracy": 0.7769457161426544,
      "num_tokens": 1232365140.0,
      "step": 12320
    },
    {
      "entropy": 0.86953125,
      "epoch": 1.6851168511685117,
      "grad_norm": 0.2720980623774719,
      "learning_rate": 8.119628011835988e-07,
      "loss": 0.8682,
      "mean_token_accuracy": 0.773671442270279,
      "num_tokens": 1233345099.0,
      "step": 12330
    },
    {
      "entropy": 0.864453125,
      "epoch": 1.6864835315019817,
      "grad_norm": 0.2382576678234677,
      "learning_rate": 8.084401859940821e-07,
      "loss": 0.8544,
      "mean_token_accuracy": 0.7780936241149903,
      "num_tokens": 1234317291.0,
      "step": 12340
    },
    {
      "entropy": 0.903515625,
      "epoch": 1.6878502118354517,
      "grad_norm": 0.2615465141235852,
      "learning_rate": 8.049175708045654e-07,
      "loss": 0.9122,
      "mean_token_accuracy": 0.7659486949443817,
      "num_tokens": 1235330069.0,
      "step": 12350
    },
    {
      "entropy": 0.83828125,
      "epoch": 1.6892168921689217,
      "grad_norm": 0.23487690978405942,
      "learning_rate": 8.013949556150487e-07,
      "loss": 0.8311,
      "mean_token_accuracy": 0.7811040103435516,
      "num_tokens": 1236278954.0,
      "step": 12360
    },
    {
      "entropy": 0.865234375,
      "epoch": 1.6905835725023917,
      "grad_norm": 0.2725168913566555,
      "learning_rate": 7.97872340425532e-07,
      "loss": 0.8583,
      "mean_token_accuracy": 0.7772610366344452,
      "num_tokens": 1237283806.0,
      "step": 12370
    },
    {
      "entropy": 0.88125,
      "epoch": 1.6919502528358616,
      "grad_norm": 0.2862726368095338,
      "learning_rate": 7.943497252360153e-07,
      "loss": 0.8849,
      "mean_token_accuracy": 0.769998413324356,
      "num_tokens": 1238255669.0,
      "step": 12380
    },
    {
      "entropy": 0.887109375,
      "epoch": 1.6933169331693319,
      "grad_norm": 0.2558063545726356,
      "learning_rate": 7.908271100464986e-07,
      "loss": 0.8883,
      "mean_token_accuracy": 0.7702776610851287,
      "num_tokens": 1239290900.0,
      "step": 12390
    },
    {
      "entropy": 0.879296875,
      "epoch": 1.6946836135028018,
      "grad_norm": 0.28985163166153555,
      "learning_rate": 7.873044948569819e-07,
      "loss": 0.8874,
      "mean_token_accuracy": 0.7727159261703491,
      "num_tokens": 1240288490.0,
      "step": 12400
    },
    {
      "entropy": 0.8828125,
      "epoch": 1.6960502938362718,
      "grad_norm": 0.2397340107771052,
      "learning_rate": 7.837818796674653e-07,
      "loss": 0.8738,
      "mean_token_accuracy": 0.7760061860084534,
      "num_tokens": 1241290636.0,
      "step": 12410
    },
    {
      "entropy": 0.865234375,
      "epoch": 1.6974169741697418,
      "grad_norm": 0.2895071110491617,
      "learning_rate": 7.802592644779484e-07,
      "loss": 0.8563,
      "mean_token_accuracy": 0.7767000317573547,
      "num_tokens": 1242335573.0,
      "step": 12420
    },
    {
      "entropy": 0.8875,
      "epoch": 1.6987836545032118,
      "grad_norm": 0.2757043896406274,
      "learning_rate": 7.767366492884317e-07,
      "loss": 0.8888,
      "mean_token_accuracy": 0.7707332372665405,
      "num_tokens": 1243320695.0,
      "step": 12430
    },
    {
      "entropy": 0.8859375,
      "epoch": 1.7001503348366818,
      "grad_norm": 0.2609716374584454,
      "learning_rate": 7.732140340989152e-07,
      "loss": 0.884,
      "mean_token_accuracy": 0.7721702814102173,
      "num_tokens": 1244361117.0,
      "step": 12440
    },
    {
      "entropy": 0.871875,
      "epoch": 1.7015170151701517,
      "grad_norm": 0.25404380796327025,
      "learning_rate": 7.696914189093985e-07,
      "loss": 0.8633,
      "mean_token_accuracy": 0.7766152739524841,
      "num_tokens": 1245361248.0,
      "step": 12450
    },
    {
      "entropy": 0.85546875,
      "epoch": 1.7028836955036217,
      "grad_norm": 0.2163241726649797,
      "learning_rate": 7.661688037198816e-07,
      "loss": 0.8486,
      "mean_token_accuracy": 0.7779528975486756,
      "num_tokens": 1246373180.0,
      "step": 12460
    },
    {
      "entropy": 0.8453125,
      "epoch": 1.7042503758370917,
      "grad_norm": 0.23952354476117288,
      "learning_rate": 7.62646188530365e-07,
      "loss": 0.841,
      "mean_token_accuracy": 0.7803326785564423,
      "num_tokens": 1247358000.0,
      "step": 12470
    },
    {
      "entropy": 0.8421875,
      "epoch": 1.7056170561705617,
      "grad_norm": 0.24065182433855165,
      "learning_rate": 7.591235733408483e-07,
      "loss": 0.8328,
      "mean_token_accuracy": 0.7817547917366028,
      "num_tokens": 1248369118.0,
      "step": 12480
    },
    {
      "entropy": 0.824609375,
      "epoch": 1.7069837365040317,
      "grad_norm": 0.26279310506000697,
      "learning_rate": 7.556009581513315e-07,
      "loss": 0.8127,
      "mean_token_accuracy": 0.7856400668621063,
      "num_tokens": 1249365813.0,
      "step": 12490
    },
    {
      "entropy": 0.830078125,
      "epoch": 1.7083504168375017,
      "grad_norm": 0.24845461953140416,
      "learning_rate": 7.520783429618149e-07,
      "loss": 0.8385,
      "mean_token_accuracy": 0.7814608156681061,
      "num_tokens": 1250403248.0,
      "step": 12500
    },
    {
      "entropy": 0.84453125,
      "epoch": 1.7097170971709716,
      "grad_norm": 0.284225035569548,
      "learning_rate": 7.485557277722982e-07,
      "loss": 0.8475,
      "mean_token_accuracy": 0.7807310521602631,
      "num_tokens": 1251407666.0,
      "step": 12510
    },
    {
      "entropy": 0.87265625,
      "epoch": 1.7110837775044416,
      "grad_norm": 0.2298371248110285,
      "learning_rate": 7.450331125827815e-07,
      "loss": 0.8707,
      "mean_token_accuracy": 0.7747371613979339,
      "num_tokens": 1252413446.0,
      "step": 12520
    },
    {
      "entropy": 0.866796875,
      "epoch": 1.7124504578379116,
      "grad_norm": 0.2633021267414833,
      "learning_rate": 7.415104973932648e-07,
      "loss": 0.8589,
      "mean_token_accuracy": 0.7770948588848114,
      "num_tokens": 1253419895.0,
      "step": 12530
    },
    {
      "entropy": 0.842578125,
      "epoch": 1.7138171381713816,
      "grad_norm": 0.26467582745197343,
      "learning_rate": 7.379878822037481e-07,
      "loss": 0.8396,
      "mean_token_accuracy": 0.7803647935390472,
      "num_tokens": 1254356254.0,
      "step": 12540
    },
    {
      "entropy": 0.910546875,
      "epoch": 1.7151838185048516,
      "grad_norm": 0.2671137132313433,
      "learning_rate": 7.344652670142314e-07,
      "loss": 0.8994,
      "mean_token_accuracy": 0.7692537307739258,
      "num_tokens": 1255353127.0,
      "step": 12550
    },
    {
      "entropy": 0.87265625,
      "epoch": 1.7165504988383216,
      "grad_norm": 0.2704985913733815,
      "learning_rate": 7.309426518247147e-07,
      "loss": 0.8659,
      "mean_token_accuracy": 0.7754247188568115,
      "num_tokens": 1256385439.0,
      "step": 12560
    },
    {
      "entropy": 0.86875,
      "epoch": 1.7179171791717918,
      "grad_norm": 0.2464596955485229,
      "learning_rate": 7.27420036635198e-07,
      "loss": 0.8771,
      "mean_token_accuracy": 0.7742304801940918,
      "num_tokens": 1257359806.0,
      "step": 12570
    },
    {
      "entropy": 0.873828125,
      "epoch": 1.7192838595052617,
      "grad_norm": 0.24022708232776943,
      "learning_rate": 7.238974214456813e-07,
      "loss": 0.8734,
      "mean_token_accuracy": 0.7725796163082123,
      "num_tokens": 1258395792.0,
      "step": 12580
    },
    {
      "entropy": 0.87421875,
      "epoch": 1.7206505398387317,
      "grad_norm": 0.24899697141489707,
      "learning_rate": 7.203748062561647e-07,
      "loss": 0.8683,
      "mean_token_accuracy": 0.7765384972095489,
      "num_tokens": 1259465597.0,
      "step": 12590
    },
    {
      "entropy": 0.866015625,
      "epoch": 1.7220172201722017,
      "grad_norm": 0.3160612350647784,
      "learning_rate": 7.168521910666479e-07,
      "loss": 0.8638,
      "mean_token_accuracy": 0.7767565548419952,
      "num_tokens": 1260458869.0,
      "step": 12600
    },
    {
      "entropy": 0.86953125,
      "epoch": 1.7233839005056717,
      "grad_norm": 0.24759730780456923,
      "learning_rate": 7.133295758771312e-07,
      "loss": 0.8754,
      "mean_token_accuracy": 0.773160058259964,
      "num_tokens": 1261455673.0,
      "step": 12610
    },
    {
      "entropy": 0.84765625,
      "epoch": 1.7247505808391417,
      "grad_norm": 0.2645802279102872,
      "learning_rate": 7.098069606876146e-07,
      "loss": 0.8419,
      "mean_token_accuracy": 0.7809039175510406,
      "num_tokens": 1262452225.0,
      "step": 12620
    },
    {
      "entropy": 0.84765625,
      "epoch": 1.7261172611726119,
      "grad_norm": 0.27957327780764923,
      "learning_rate": 7.062843454980979e-07,
      "loss": 0.852,
      "mean_token_accuracy": 0.7806745827198028,
      "num_tokens": 1263423599.0,
      "step": 12630
    },
    {
      "entropy": 0.856640625,
      "epoch": 1.7274839415060819,
      "grad_norm": 0.23907189148137784,
      "learning_rate": 7.027617303085811e-07,
      "loss": 0.8556,
      "mean_token_accuracy": 0.778958010673523,
      "num_tokens": 1264437915.0,
      "step": 12640
    },
    {
      "entropy": 0.86015625,
      "epoch": 1.7288506218395518,
      "grad_norm": 0.2843678514409881,
      "learning_rate": 6.992391151190645e-07,
      "loss": 0.8685,
      "mean_token_accuracy": 0.775641930103302,
      "num_tokens": 1265448913.0,
      "step": 12650
    },
    {
      "entropy": 0.894140625,
      "epoch": 1.7302173021730218,
      "grad_norm": 0.28564026571552714,
      "learning_rate": 6.957164999295478e-07,
      "loss": 0.8895,
      "mean_token_accuracy": 0.7691075205802917,
      "num_tokens": 1266405679.0,
      "step": 12660
    },
    {
      "entropy": 0.858203125,
      "epoch": 1.7315839825064918,
      "grad_norm": 0.24740725944201986,
      "learning_rate": 6.921938847400309e-07,
      "loss": 0.8502,
      "mean_token_accuracy": 0.7764783799648285,
      "num_tokens": 1267365497.0,
      "step": 12670
    },
    {
      "entropy": 0.86796875,
      "epoch": 1.7329506628399618,
      "grad_norm": 0.22584533398943354,
      "learning_rate": 6.886712695505144e-07,
      "loss": 0.8682,
      "mean_token_accuracy": 0.7758510887622834,
      "num_tokens": 1268399851.0,
      "step": 12680
    },
    {
      "entropy": 0.9109375,
      "epoch": 1.7343173431734318,
      "grad_norm": 0.25399951259462317,
      "learning_rate": 6.851486543609977e-07,
      "loss": 0.9166,
      "mean_token_accuracy": 0.763919985294342,
      "num_tokens": 1269408675.0,
      "step": 12690
    },
    {
      "entropy": 0.891015625,
      "epoch": 1.7356840235069018,
      "grad_norm": 0.24533565595591886,
      "learning_rate": 6.816260391714811e-07,
      "loss": 0.8982,
      "mean_token_accuracy": 0.768521499633789,
      "num_tokens": 1270396370.0,
      "step": 12700
    },
    {
      "entropy": 0.8828125,
      "epoch": 1.7370507038403717,
      "grad_norm": 0.28194239335939897,
      "learning_rate": 6.781034239819642e-07,
      "loss": 0.8821,
      "mean_token_accuracy": 0.7721506357192993,
      "num_tokens": 1271394992.0,
      "step": 12710
    },
    {
      "entropy": 0.8546875,
      "epoch": 1.7384173841738417,
      "grad_norm": 0.25584406869150783,
      "learning_rate": 6.745808087924475e-07,
      "loss": 0.8487,
      "mean_token_accuracy": 0.779106080532074,
      "num_tokens": 1272386483.0,
      "step": 12720
    },
    {
      "entropy": 0.881640625,
      "epoch": 1.7397840645073117,
      "grad_norm": 0.26348524665023904,
      "learning_rate": 6.710581936029308e-07,
      "loss": 0.8892,
      "mean_token_accuracy": 0.7713488936424255,
      "num_tokens": 1273372646.0,
      "step": 12730
    },
    {
      "entropy": 0.83828125,
      "epoch": 1.7411507448407817,
      "grad_norm": 0.25049052610492994,
      "learning_rate": 6.675355784134143e-07,
      "loss": 0.8385,
      "mean_token_accuracy": 0.7809202969074249,
      "num_tokens": 1274412839.0,
      "step": 12740
    },
    {
      "entropy": 0.8796875,
      "epoch": 1.7425174251742517,
      "grad_norm": 0.2732826796992716,
      "learning_rate": 6.640129632238974e-07,
      "loss": 0.8706,
      "mean_token_accuracy": 0.7774352788925171,
      "num_tokens": 1275411093.0,
      "step": 12750
    },
    {
      "entropy": 0.89765625,
      "epoch": 1.7438841055077217,
      "grad_norm": 0.23873978031151785,
      "learning_rate": 6.604903480343807e-07,
      "loss": 0.8964,
      "mean_token_accuracy": 0.7677988469600677,
      "num_tokens": 1276433218.0,
      "step": 12760
    },
    {
      "entropy": 0.846484375,
      "epoch": 1.7452507858411916,
      "grad_norm": 0.27301849706849995,
      "learning_rate": 6.569677328448641e-07,
      "loss": 0.8421,
      "mean_token_accuracy": 0.782086831331253,
      "num_tokens": 1277399684.0,
      "step": 12770
    },
    {
      "entropy": 0.8421875,
      "epoch": 1.7466174661746616,
      "grad_norm": 0.24693650840130735,
      "learning_rate": 6.534451176553473e-07,
      "loss": 0.8328,
      "mean_token_accuracy": 0.7853989958763122,
      "num_tokens": 1278391488.0,
      "step": 12780
    },
    {
      "entropy": 0.862890625,
      "epoch": 1.7479841465081316,
      "grad_norm": 0.24073142228101024,
      "learning_rate": 6.499225024658306e-07,
      "loss": 0.861,
      "mean_token_accuracy": 0.7754570364952087,
      "num_tokens": 1279414925.0,
      "step": 12790
    },
    {
      "entropy": 0.8578125,
      "epoch": 1.7493508268416016,
      "grad_norm": 0.24538802110445118,
      "learning_rate": 6.46399887276314e-07,
      "loss": 0.8528,
      "mean_token_accuracy": 0.7793990135192871,
      "num_tokens": 1280366866.0,
      "step": 12800
    },
    {
      "entropy": 0.899609375,
      "epoch": 1.7507175071750718,
      "grad_norm": 0.29579818537704033,
      "learning_rate": 6.428772720867973e-07,
      "loss": 0.8922,
      "mean_token_accuracy": 0.7706041038036346,
      "num_tokens": 1281340884.0,
      "step": 12810
    },
    {
      "entropy": 0.873046875,
      "epoch": 1.7520841875085418,
      "grad_norm": 0.24687822297078515,
      "learning_rate": 6.393546568972805e-07,
      "loss": 0.868,
      "mean_token_accuracy": 0.7746412694454193,
      "num_tokens": 1282309544.0,
      "step": 12820
    },
    {
      "entropy": 0.88359375,
      "epoch": 1.7534508678420118,
      "grad_norm": 0.25799494380309324,
      "learning_rate": 6.358320417077639e-07,
      "loss": 0.8787,
      "mean_token_accuracy": 0.7741187751293183,
      "num_tokens": 1283296117.0,
      "step": 12830
    },
    {
      "entropy": 0.85859375,
      "epoch": 1.7548175481754817,
      "grad_norm": 0.246013618286835,
      "learning_rate": 6.323094265182472e-07,
      "loss": 0.8594,
      "mean_token_accuracy": 0.7749979257583618,
      "num_tokens": 1284253172.0,
      "step": 12840
    },
    {
      "entropy": 0.8296875,
      "epoch": 1.7561842285089517,
      "grad_norm": 0.23988659476667704,
      "learning_rate": 6.287868113287306e-07,
      "loss": 0.8189,
      "mean_token_accuracy": 0.7851581335067749,
      "num_tokens": 1285293723.0,
      "step": 12850
    },
    {
      "entropy": 0.85703125,
      "epoch": 1.7575509088424217,
      "grad_norm": 0.29439154987494554,
      "learning_rate": 6.252641961392138e-07,
      "loss": 0.8582,
      "mean_token_accuracy": 0.7770539581775665,
      "num_tokens": 1286315895.0,
      "step": 12860
    },
    {
      "entropy": 0.82265625,
      "epoch": 1.758917589175892,
      "grad_norm": 0.2366312722421867,
      "learning_rate": 6.217415809496971e-07,
      "loss": 0.8282,
      "mean_token_accuracy": 0.7828741252422333,
      "num_tokens": 1287326679.0,
      "step": 12870
    },
    {
      "entropy": 0.883203125,
      "epoch": 1.760284269509362,
      "grad_norm": 0.25203353977426296,
      "learning_rate": 6.182189657601804e-07,
      "loss": 0.8947,
      "mean_token_accuracy": 0.7704302251338959,
      "num_tokens": 1288355321.0,
      "step": 12880
    },
    {
      "entropy": 0.86484375,
      "epoch": 1.7616509498428319,
      "grad_norm": 0.2905570961386443,
      "learning_rate": 6.146963505706637e-07,
      "loss": 0.8655,
      "mean_token_accuracy": 0.7757892966270447,
      "num_tokens": 1289342451.0,
      "step": 12890
    },
    {
      "entropy": 0.8765625,
      "epoch": 1.7630176301763019,
      "grad_norm": 0.26045948059947244,
      "learning_rate": 6.11173735381147e-07,
      "loss": 0.8711,
      "mean_token_accuracy": 0.7758624851703644,
      "num_tokens": 1290306232.0,
      "step": 12900
    },
    {
      "entropy": 0.8765625,
      "epoch": 1.7643843105097718,
      "grad_norm": 0.2245094663375824,
      "learning_rate": 6.076511201916304e-07,
      "loss": 0.8884,
      "mean_token_accuracy": 0.77158882021904,
      "num_tokens": 1291292043.0,
      "step": 12910
    },
    {
      "entropy": 0.85625,
      "epoch": 1.7657509908432418,
      "grad_norm": 0.2809996454666376,
      "learning_rate": 6.041285050021136e-07,
      "loss": 0.8517,
      "mean_token_accuracy": 0.777596366405487,
      "num_tokens": 1292227234.0,
      "step": 12920
    },
    {
      "entropy": 0.88203125,
      "epoch": 1.7671176711767118,
      "grad_norm": 0.22869505130081996,
      "learning_rate": 6.006058898125969e-07,
      "loss": 0.8757,
      "mean_token_accuracy": 0.7739199936389923,
      "num_tokens": 1293271324.0,
      "step": 12930
    },
    {
      "entropy": 0.90078125,
      "epoch": 1.7684843515101818,
      "grad_norm": 0.25669248047890303,
      "learning_rate": 5.970832746230803e-07,
      "loss": 0.9079,
      "mean_token_accuracy": 0.7671576082706452,
      "num_tokens": 1294344608.0,
      "step": 12940
    },
    {
      "entropy": 0.885546875,
      "epoch": 1.7698510318436518,
      "grad_norm": 0.25739664746892216,
      "learning_rate": 5.935606594335636e-07,
      "loss": 0.8766,
      "mean_token_accuracy": 0.7736651122570037,
      "num_tokens": 1295392624.0,
      "step": 12950
    },
    {
      "entropy": 0.878515625,
      "epoch": 1.7712177121771218,
      "grad_norm": 0.2427382903653526,
      "learning_rate": 5.900380442440468e-07,
      "loss": 0.8797,
      "mean_token_accuracy": 0.7726397275924682,
      "num_tokens": 1296388849.0,
      "step": 12960
    },
    {
      "entropy": 0.925390625,
      "epoch": 1.7725843925105917,
      "grad_norm": 0.2544111866071307,
      "learning_rate": 5.8651542905453e-07,
      "loss": 0.9186,
      "mean_token_accuracy": 0.764128041267395,
      "num_tokens": 1297403747.0,
      "step": 12970
    },
    {
      "entropy": 0.848828125,
      "epoch": 1.7739510728440617,
      "grad_norm": 0.2673641965620872,
      "learning_rate": 5.829928138650135e-07,
      "loss": 0.8501,
      "mean_token_accuracy": 0.7799137353897094,
      "num_tokens": 1298390531.0,
      "step": 12980
    },
    {
      "entropy": 0.86171875,
      "epoch": 1.7753177531775317,
      "grad_norm": 0.24585710566243532,
      "learning_rate": 5.794701986754967e-07,
      "loss": 0.8604,
      "mean_token_accuracy": 0.7765636563301086,
      "num_tokens": 1299380008.0,
      "step": 12990
    },
    {
      "entropy": 0.8734375,
      "epoch": 1.7766844335110017,
      "grad_norm": 0.25249472745514123,
      "learning_rate": 5.759475834859801e-07,
      "loss": 0.8743,
      "mean_token_accuracy": 0.7741809844970703,
      "num_tokens": 1300380140.0,
      "step": 13000
    },
    {
      "entropy": 0.903515625,
      "epoch": 1.7780511138444717,
      "grad_norm": 0.26483546237013444,
      "learning_rate": 5.724249682964633e-07,
      "loss": 0.9033,
      "mean_token_accuracy": 0.7677201628684998,
      "num_tokens": 1301342727.0,
      "step": 13010
    },
    {
      "entropy": 0.8796875,
      "epoch": 1.7794177941779417,
      "grad_norm": 0.2582554267159739,
      "learning_rate": 5.689023531069466e-07,
      "loss": 0.8768,
      "mean_token_accuracy": 0.7725718379020691,
      "num_tokens": 1302387080.0,
      "step": 13020
    },
    {
      "entropy": 0.881640625,
      "epoch": 1.7807844745114116,
      "grad_norm": 0.23531044081216754,
      "learning_rate": 5.6537973791743e-07,
      "loss": 0.8929,
      "mean_token_accuracy": 0.7710127830505371,
      "num_tokens": 1303366775.0,
      "step": 13030
    },
    {
      "entropy": 0.83984375,
      "epoch": 1.7821511548448816,
      "grad_norm": 0.23929497515408718,
      "learning_rate": 5.618571227279133e-07,
      "loss": 0.8416,
      "mean_token_accuracy": 0.7821828365325928,
      "num_tokens": 1304402696.0,
      "step": 13040
    },
    {
      "entropy": 0.84609375,
      "epoch": 1.7835178351783518,
      "grad_norm": 0.2562754130265248,
      "learning_rate": 5.583345075383965e-07,
      "loss": 0.8414,
      "mean_token_accuracy": 0.7797250509262085,
      "num_tokens": 1305437835.0,
      "step": 13050
    },
    {
      "entropy": 0.833984375,
      "epoch": 1.7848845155118218,
      "grad_norm": 0.2615045341599847,
      "learning_rate": 5.548118923488799e-07,
      "loss": 0.834,
      "mean_token_accuracy": 0.7816120684146881,
      "num_tokens": 1306396989.0,
      "step": 13060
    },
    {
      "entropy": 0.85390625,
      "epoch": 1.7862511958452918,
      "grad_norm": 0.23436604496536123,
      "learning_rate": 5.512892771593632e-07,
      "loss": 0.8438,
      "mean_token_accuracy": 0.779767507314682,
      "num_tokens": 1307411160.0,
      "step": 13070
    },
    {
      "entropy": 0.89921875,
      "epoch": 1.7876178761787618,
      "grad_norm": 0.2336777619128654,
      "learning_rate": 5.477666619698464e-07,
      "loss": 0.908,
      "mean_token_accuracy": 0.7677149951457978,
      "num_tokens": 1308422364.0,
      "step": 13080
    },
    {
      "entropy": 0.863671875,
      "epoch": 1.7889845565122318,
      "grad_norm": 0.24910743031017832,
      "learning_rate": 5.442440467803298e-07,
      "loss": 0.8611,
      "mean_token_accuracy": 0.7763677418231965,
      "num_tokens": 1309416956.0,
      "step": 13090
    },
    {
      "entropy": 0.887109375,
      "epoch": 1.7903512368457017,
      "grad_norm": 0.3060774088736704,
      "learning_rate": 5.407214315908131e-07,
      "loss": 0.873,
      "mean_token_accuracy": 0.7744247436523437,
      "num_tokens": 1310437474.0,
      "step": 13100
    },
    {
      "entropy": 0.873828125,
      "epoch": 1.791717917179172,
      "grad_norm": 0.2324456345163346,
      "learning_rate": 5.371988164012964e-07,
      "loss": 0.8677,
      "mean_token_accuracy": 0.7744212448596954,
      "num_tokens": 1311483257.0,
      "step": 13110
    },
    {
      "entropy": 0.83828125,
      "epoch": 1.793084597512642,
      "grad_norm": 0.23253076842263248,
      "learning_rate": 5.336762012117797e-07,
      "loss": 0.8382,
      "mean_token_accuracy": 0.781850129365921,
      "num_tokens": 1312504017.0,
      "step": 13120
    },
    {
      "entropy": 0.871875,
      "epoch": 1.794451277846112,
      "grad_norm": 0.2595970624714197,
      "learning_rate": 5.30153586022263e-07,
      "loss": 0.8707,
      "mean_token_accuracy": 0.7737591087818145,
      "num_tokens": 1313519252.0,
      "step": 13130
    },
    {
      "entropy": 0.871484375,
      "epoch": 1.795817958179582,
      "grad_norm": 0.23547029701231986,
      "learning_rate": 5.266309708327462e-07,
      "loss": 0.8617,
      "mean_token_accuracy": 0.7770364463329316,
      "num_tokens": 1314515155.0,
      "step": 13140
    },
    {
      "entropy": 0.844140625,
      "epoch": 1.7971846385130519,
      "grad_norm": 0.25732176806465723,
      "learning_rate": 5.231083556432296e-07,
      "loss": 0.8494,
      "mean_token_accuracy": 0.7805206954479218,
      "num_tokens": 1315494592.0,
      "step": 13150
    },
    {
      "entropy": 0.908984375,
      "epoch": 1.7985513188465219,
      "grad_norm": 0.2502734543313785,
      "learning_rate": 5.195857404537129e-07,
      "loss": 0.9203,
      "mean_token_accuracy": 0.7674553275108338,
      "num_tokens": 1316485334.0,
      "step": 13160
    },
    {
      "entropy": 0.872265625,
      "epoch": 1.7999179991799918,
      "grad_norm": 0.2604738321173178,
      "learning_rate": 5.160631252641961e-07,
      "loss": 0.8622,
      "mean_token_accuracy": 0.7781521379947662,
      "num_tokens": 1317455713.0,
      "step": 13170
    },
    {
      "entropy": 0.85703125,
      "epoch": 1.8012846795134618,
      "grad_norm": 0.28677792137534114,
      "learning_rate": 5.125405100746795e-07,
      "loss": 0.8561,
      "mean_token_accuracy": 0.7786346435546875,
      "num_tokens": 1318491881.0,
      "step": 13180
    },
    {
      "entropy": 0.877734375,
      "epoch": 1.8026513598469318,
      "grad_norm": 0.2641440782214652,
      "learning_rate": 5.090178948851628e-07,
      "loss": 0.8856,
      "mean_token_accuracy": 0.7709955453872681,
      "num_tokens": 1319522529.0,
      "step": 13190
    },
    {
      "entropy": 0.90546875,
      "epoch": 1.8040180401804018,
      "grad_norm": 0.2791640623870515,
      "learning_rate": 5.054952796956461e-07,
      "loss": 0.9048,
      "mean_token_accuracy": 0.7672102570533752,
      "num_tokens": 1320498119.0,
      "step": 13200
    },
    {
      "entropy": 0.833984375,
      "epoch": 1.8053847205138718,
      "grad_norm": 0.2521351747932543,
      "learning_rate": 5.019726645061294e-07,
      "loss": 0.8319,
      "mean_token_accuracy": 0.7832971274852752,
      "num_tokens": 1321520797.0,
      "step": 13210
    },
    {
      "entropy": 0.915625,
      "epoch": 1.8067514008473418,
      "grad_norm": 0.27019272980679243,
      "learning_rate": 4.984500493166127e-07,
      "loss": 0.9205,
      "mean_token_accuracy": 0.7672651648521424,
      "num_tokens": 1322533199.0,
      "step": 13220
    },
    {
      "entropy": 0.81875,
      "epoch": 1.8081180811808117,
      "grad_norm": 0.2533479871855046,
      "learning_rate": 4.94927434127096e-07,
      "loss": 0.8142,
      "mean_token_accuracy": 0.7855072855949402,
      "num_tokens": 1323516433.0,
      "step": 13230
    },
    {
      "entropy": 0.860546875,
      "epoch": 1.8094847615142817,
      "grad_norm": 0.2782495182576311,
      "learning_rate": 4.914048189375794e-07,
      "loss": 0.8587,
      "mean_token_accuracy": 0.7776366889476776,
      "num_tokens": 1324489442.0,
      "step": 13240
    },
    {
      "entropy": 0.865625,
      "epoch": 1.8108514418477517,
      "grad_norm": 0.2606246943331102,
      "learning_rate": 4.878822037480626e-07,
      "loss": 0.8579,
      "mean_token_accuracy": 0.7766014814376831,
      "num_tokens": 1325407187.0,
      "step": 13250
    },
    {
      "entropy": 0.861328125,
      "epoch": 1.8122181221812217,
      "grad_norm": 0.23366195523222902,
      "learning_rate": 4.843595885585459e-07,
      "loss": 0.8618,
      "mean_token_accuracy": 0.7764468252658844,
      "num_tokens": 1326374552.0,
      "step": 13260
    },
    {
      "entropy": 0.862890625,
      "epoch": 1.8135848025146917,
      "grad_norm": 0.26294473304019994,
      "learning_rate": 4.808369733690292e-07,
      "loss": 0.8639,
      "mean_token_accuracy": 0.7750355422496795,
      "num_tokens": 1327402092.0,
      "step": 13270
    },
    {
      "entropy": 0.9140625,
      "epoch": 1.8149514828481617,
      "grad_norm": 0.2522872368325188,
      "learning_rate": 4.773143581795125e-07,
      "loss": 0.9142,
      "mean_token_accuracy": 0.7672018766403198,
      "num_tokens": 1328445454.0,
      "step": 13280
    },
    {
      "entropy": 0.82578125,
      "epoch": 1.8163181631816319,
      "grad_norm": 0.2581680014089722,
      "learning_rate": 4.7379174298999583e-07,
      "loss": 0.8164,
      "mean_token_accuracy": 0.7866885781288147,
      "num_tokens": 1329428756.0,
      "step": 13290
    },
    {
      "entropy": 0.866796875,
      "epoch": 1.8176848435151018,
      "grad_norm": 0.26370149734226844,
      "learning_rate": 4.702691278004791e-07,
      "loss": 0.8635,
      "mean_token_accuracy": 0.7773406982421875,
      "num_tokens": 1330472541.0,
      "step": 13300
    },
    {
      "entropy": 0.86015625,
      "epoch": 1.8190515238485718,
      "grad_norm": 0.28873663494123897,
      "learning_rate": 4.6674651261096245e-07,
      "loss": 0.8615,
      "mean_token_accuracy": 0.7770265400409698,
      "num_tokens": 1331479843.0,
      "step": 13310
    },
    {
      "entropy": 0.830859375,
      "epoch": 1.8204182041820418,
      "grad_norm": 0.26608586451579425,
      "learning_rate": 4.632238974214457e-07,
      "loss": 0.8233,
      "mean_token_accuracy": 0.7854311108589173,
      "num_tokens": 1332493314.0,
      "step": 13320
    },
    {
      "entropy": 0.846875,
      "epoch": 1.8217848845155118,
      "grad_norm": 0.23802053502404666,
      "learning_rate": 4.5970128223192907e-07,
      "loss": 0.8409,
      "mean_token_accuracy": 0.7814251363277436,
      "num_tokens": 1333490980.0,
      "step": 13330
    },
    {
      "entropy": 0.83203125,
      "epoch": 1.8231515648489818,
      "grad_norm": 0.24623467090010043,
      "learning_rate": 4.561786670424123e-07,
      "loss": 0.8325,
      "mean_token_accuracy": 0.7831526160240173,
      "num_tokens": 1334466846.0,
      "step": 13340
    },
    {
      "entropy": 0.866015625,
      "epoch": 1.824518245182452,
      "grad_norm": 0.26048730286721433,
      "learning_rate": 4.5265605185289563e-07,
      "loss": 0.8755,
      "mean_token_accuracy": 0.77398641705513,
      "num_tokens": 1335493116.0,
      "step": 13350
    },
    {
      "entropy": 0.853125,
      "epoch": 1.825884925515922,
      "grad_norm": 0.23518664585400573,
      "learning_rate": 4.491334366633789e-07,
      "loss": 0.8423,
      "mean_token_accuracy": 0.7806272208690643,
      "num_tokens": 1336516552.0,
      "step": 13360
    },
    {
      "entropy": 0.8890625,
      "epoch": 1.827251605849392,
      "grad_norm": 0.25154240624181096,
      "learning_rate": 4.456108214738622e-07,
      "loss": 0.8907,
      "mean_token_accuracy": 0.7712478458881378,
      "num_tokens": 1337514975.0,
      "step": 13370
    },
    {
      "entropy": 0.87109375,
      "epoch": 1.828618286182862,
      "grad_norm": 0.27084633311527656,
      "learning_rate": 4.4208820628434553e-07,
      "loss": 0.8656,
      "mean_token_accuracy": 0.7766042292118073,
      "num_tokens": 1338513483.0,
      "step": 13380
    },
    {
      "entropy": 0.887109375,
      "epoch": 1.829984966516332,
      "grad_norm": 0.2609622957361796,
      "learning_rate": 4.385655910948288e-07,
      "loss": 0.8797,
      "mean_token_accuracy": 0.7717256367206573,
      "num_tokens": 1339518810.0,
      "step": 13390
    },
    {
      "entropy": 0.89453125,
      "epoch": 1.831351646849802,
      "grad_norm": 0.25753942754278014,
      "learning_rate": 4.3504297590531215e-07,
      "loss": 0.8997,
      "mean_token_accuracy": 0.7678611636161804,
      "num_tokens": 1340527451.0,
      "step": 13400
    },
    {
      "entropy": 0.843359375,
      "epoch": 1.8327183271832719,
      "grad_norm": 0.24929747744966627,
      "learning_rate": 4.3152036071579543e-07,
      "loss": 0.8584,
      "mean_token_accuracy": 0.7786993741989136,
      "num_tokens": 1341550702.0,
      "step": 13410
    },
    {
      "entropy": 0.84921875,
      "epoch": 1.8340850075167419,
      "grad_norm": 0.2580436212188191,
      "learning_rate": 4.2799774552627877e-07,
      "loss": 0.8551,
      "mean_token_accuracy": 0.7782102644443512,
      "num_tokens": 1342575219.0,
      "step": 13420
    },
    {
      "entropy": 0.85703125,
      "epoch": 1.8354516878502118,
      "grad_norm": 0.2810665254341411,
      "learning_rate": 4.2447513033676205e-07,
      "loss": 0.8565,
      "mean_token_accuracy": 0.7781369864940644,
      "num_tokens": 1343565670.0,
      "step": 13430
    },
    {
      "entropy": 0.85859375,
      "epoch": 1.8368183681836818,
      "grad_norm": 0.25868502019663403,
      "learning_rate": 4.209525151472454e-07,
      "loss": 0.8456,
      "mean_token_accuracy": 0.7804578602313995,
      "num_tokens": 1344543137.0,
      "step": 13440
    },
    {
      "entropy": 0.871875,
      "epoch": 1.8381850485171518,
      "grad_norm": 0.2597569426127688,
      "learning_rate": 4.1742989995772867e-07,
      "loss": 0.8701,
      "mean_token_accuracy": 0.7746596455574035,
      "num_tokens": 1345577171.0,
      "step": 13450
    },
    {
      "entropy": 0.898046875,
      "epoch": 1.8395517288506218,
      "grad_norm": 0.237505065562803,
      "learning_rate": 4.13907284768212e-07,
      "loss": 0.9073,
      "mean_token_accuracy": 0.7690718114376068,
      "num_tokens": 1346542242.0,
      "step": 13460
    },
    {
      "entropy": 0.885546875,
      "epoch": 1.8409184091840918,
      "grad_norm": 0.25584216555144756,
      "learning_rate": 4.1038466957869523e-07,
      "loss": 0.8838,
      "mean_token_accuracy": 0.7730479121208191,
      "num_tokens": 1347510243.0,
      "step": 13470
    },
    {
      "entropy": 0.858203125,
      "epoch": 1.8422850895175618,
      "grad_norm": 0.2546382966299349,
      "learning_rate": 4.068620543891785e-07,
      "loss": 0.8566,
      "mean_token_accuracy": 0.7783363223075866,
      "num_tokens": 1348582573.0,
      "step": 13480
    },
    {
      "entropy": 0.862109375,
      "epoch": 1.8436517698510317,
      "grad_norm": 0.2329849635200211,
      "learning_rate": 4.0333943919966185e-07,
      "loss": 0.8632,
      "mean_token_accuracy": 0.7760841012001037,
      "num_tokens": 1349636357.0,
      "step": 13490
    },
    {
      "entropy": 0.842578125,
      "epoch": 1.8450184501845017,
      "grad_norm": 0.25022395319290924,
      "learning_rate": 3.9981682401014513e-07,
      "loss": 0.8372,
      "mean_token_accuracy": 0.7825895309448242,
      "num_tokens": 1350688209.0,
      "step": 13500
    },
    {
      "entropy": 0.844140625,
      "epoch": 1.8463851305179717,
      "grad_norm": 0.2514517942331343,
      "learning_rate": 3.9629420882062847e-07,
      "loss": 0.8407,
      "mean_token_accuracy": 0.7807157397270202,
      "num_tokens": 1351686326.0,
      "step": 13510
    },
    {
      "entropy": 0.88828125,
      "epoch": 1.8477518108514417,
      "grad_norm": 0.24377609031407618,
      "learning_rate": 3.9277159363111175e-07,
      "loss": 0.8744,
      "mean_token_accuracy": 0.7746728658676147,
      "num_tokens": 1352685550.0,
      "step": 13520
    },
    {
      "entropy": 0.876953125,
      "epoch": 1.849118491184912,
      "grad_norm": 0.265803897051937,
      "learning_rate": 3.892489784415951e-07,
      "loss": 0.8766,
      "mean_token_accuracy": 0.7727934181690216,
      "num_tokens": 1353677598.0,
      "step": 13530
    },
    {
      "entropy": 0.90625,
      "epoch": 1.8504851715183819,
      "grad_norm": 0.27686584961906385,
      "learning_rate": 3.8572636325207837e-07,
      "loss": 0.9106,
      "mean_token_accuracy": 0.7659806907176971,
      "num_tokens": 1354595839.0,
      "step": 13540
    },
    {
      "entropy": 0.896875,
      "epoch": 1.8518518518518519,
      "grad_norm": 0.24945608165247554,
      "learning_rate": 3.822037480625617e-07,
      "loss": 0.887,
      "mean_token_accuracy": 0.771367871761322,
      "num_tokens": 1355600144.0,
      "step": 13550
    },
    {
      "entropy": 0.834375,
      "epoch": 1.8532185321853218,
      "grad_norm": 0.24485528758832004,
      "learning_rate": 3.78681132873045e-07,
      "loss": 0.8244,
      "mean_token_accuracy": 0.7847785651683807,
      "num_tokens": 1356670331.0,
      "step": 13560
    },
    {
      "entropy": 0.88125,
      "epoch": 1.8545852125187918,
      "grad_norm": 0.2312010825616499,
      "learning_rate": 3.7515851768352827e-07,
      "loss": 0.8667,
      "mean_token_accuracy": 0.7749705016613007,
      "num_tokens": 1357661057.0,
      "step": 13570
    },
    {
      "entropy": 0.894921875,
      "epoch": 1.8559518928522618,
      "grad_norm": 0.2884214866091232,
      "learning_rate": 3.716359024940116e-07,
      "loss": 0.9,
      "mean_token_accuracy": 0.767298799753189,
      "num_tokens": 1358616915.0,
      "step": 13580
    },
    {
      "entropy": 0.885546875,
      "epoch": 1.857318573185732,
      "grad_norm": 0.2645935760050665,
      "learning_rate": 3.6811328730449484e-07,
      "loss": 0.8869,
      "mean_token_accuracy": 0.770000833272934,
      "num_tokens": 1359643045.0,
      "step": 13590
    },
    {
      "entropy": 0.8640625,
      "epoch": 1.858685253519202,
      "grad_norm": 0.24456097069378874,
      "learning_rate": 3.645906721149782e-07,
      "loss": 0.8644,
      "mean_token_accuracy": 0.7761227369308472,
      "num_tokens": 1360589535.0,
      "step": 13600
    },
    {
      "entropy": 0.8703125,
      "epoch": 1.860051933852672,
      "grad_norm": 0.25486769256028974,
      "learning_rate": 3.6106805692546145e-07,
      "loss": 0.8746,
      "mean_token_accuracy": 0.775206059217453,
      "num_tokens": 1361633326.0,
      "step": 13610
    },
    {
      "entropy": 0.87734375,
      "epoch": 1.861418614186142,
      "grad_norm": 0.2575325144339906,
      "learning_rate": 3.575454417359448e-07,
      "loss": 0.8743,
      "mean_token_accuracy": 0.774530416727066,
      "num_tokens": 1362627505.0,
      "step": 13620
    },
    {
      "entropy": 0.865625,
      "epoch": 1.862785294519612,
      "grad_norm": 0.2840663557768464,
      "learning_rate": 3.5402282654642807e-07,
      "loss": 0.8567,
      "mean_token_accuracy": 0.7786360144615173,
      "num_tokens": 1363598703.0,
      "step": 13630
    },
    {
      "entropy": 0.887890625,
      "epoch": 1.864151974853082,
      "grad_norm": 0.24983800915802581,
      "learning_rate": 3.505002113569114e-07,
      "loss": 0.892,
      "mean_token_accuracy": 0.7702949941158295,
      "num_tokens": 1364623838.0,
      "step": 13640
    },
    {
      "entropy": 0.866796875,
      "epoch": 1.865518655186552,
      "grad_norm": 0.2889688186705307,
      "learning_rate": 3.469775961673947e-07,
      "loss": 0.8661,
      "mean_token_accuracy": 0.7749595701694488,
      "num_tokens": 1365591620.0,
      "step": 13650
    },
    {
      "entropy": 0.851953125,
      "epoch": 1.866885335520022,
      "grad_norm": 0.23548372967225217,
      "learning_rate": 3.43454980977878e-07,
      "loss": 0.8486,
      "mean_token_accuracy": 0.7820235788822174,
      "num_tokens": 1366562325.0,
      "step": 13660
    },
    {
      "entropy": 0.8828125,
      "epoch": 1.8682520158534919,
      "grad_norm": 0.25480693331869314,
      "learning_rate": 3.399323657883613e-07,
      "loss": 0.8748,
      "mean_token_accuracy": 0.7733936190605164,
      "num_tokens": 1367547706.0,
      "step": 13670
    },
    {
      "entropy": 0.8859375,
      "epoch": 1.8696186961869619,
      "grad_norm": 0.24854109328644283,
      "learning_rate": 3.364097505988446e-07,
      "loss": 0.8874,
      "mean_token_accuracy": 0.7713177442550659,
      "num_tokens": 1368583588.0,
      "step": 13680
    },
    {
      "entropy": 0.8703125,
      "epoch": 1.8709853765204318,
      "grad_norm": 0.23772020422335788,
      "learning_rate": 3.328871354093279e-07,
      "loss": 0.8691,
      "mean_token_accuracy": 0.7745020270347596,
      "num_tokens": 1369619311.0,
      "step": 13690
    },
    {
      "entropy": 0.89140625,
      "epoch": 1.8723520568539018,
      "grad_norm": 0.2409227513647362,
      "learning_rate": 3.293645202198112e-07,
      "loss": 0.8955,
      "mean_token_accuracy": 0.7699754655361175,
      "num_tokens": 1370620293.0,
      "step": 13700
    },
    {
      "entropy": 0.896484375,
      "epoch": 1.8737187371873718,
      "grad_norm": 0.23188230112864064,
      "learning_rate": 3.2584190503029454e-07,
      "loss": 0.8929,
      "mean_token_accuracy": 0.7684727251529694,
      "num_tokens": 1371582481.0,
      "step": 13710
    },
    {
      "entropy": 0.855078125,
      "epoch": 1.8750854175208418,
      "grad_norm": 0.2730690194313448,
      "learning_rate": 3.223192898407778e-07,
      "loss": 0.8567,
      "mean_token_accuracy": 0.7794440746307373,
      "num_tokens": 1372591370.0,
      "step": 13720
    },
    {
      "entropy": 0.8734375,
      "epoch": 1.8764520978543118,
      "grad_norm": 0.24080745549020757,
      "learning_rate": 3.1879667465126116e-07,
      "loss": 0.8693,
      "mean_token_accuracy": 0.7772287786006927,
      "num_tokens": 1373606101.0,
      "step": 13730
    },
    {
      "entropy": 0.851171875,
      "epoch": 1.8778187781877818,
      "grad_norm": 0.22953639109704796,
      "learning_rate": 3.152740594617444e-07,
      "loss": 0.8499,
      "mean_token_accuracy": 0.7806114137172699,
      "num_tokens": 1374669486.0,
      "step": 13740
    },
    {
      "entropy": 0.88203125,
      "epoch": 1.8791854585212517,
      "grad_norm": 0.242383736663181,
      "learning_rate": 3.117514442722277e-07,
      "loss": 0.8735,
      "mean_token_accuracy": 0.7743736982345581,
      "num_tokens": 1375701416.0,
      "step": 13750
    },
    {
      "entropy": 0.796875,
      "epoch": 1.8805521388547217,
      "grad_norm": 0.23174654102668982,
      "learning_rate": 3.08228829082711e-07,
      "loss": 0.799,
      "mean_token_accuracy": 0.7895133078098298,
      "num_tokens": 1376758478.0,
      "step": 13760
    },
    {
      "entropy": 0.873046875,
      "epoch": 1.881918819188192,
      "grad_norm": 0.2728655041152735,
      "learning_rate": 3.0470621389319434e-07,
      "loss": 0.8683,
      "mean_token_accuracy": 0.7755781292915345,
      "num_tokens": 1377731744.0,
      "step": 13770
    },
    {
      "entropy": 0.861328125,
      "epoch": 1.883285499521662,
      "grad_norm": 0.22245410193068213,
      "learning_rate": 3.0118359870367763e-07,
      "loss": 0.8673,
      "mean_token_accuracy": 0.7772864758968353,
      "num_tokens": 1378676516.0,
      "step": 13780
    },
    {
      "entropy": 0.83359375,
      "epoch": 1.884652179855132,
      "grad_norm": 0.2436718195029777,
      "learning_rate": 2.9766098351416096e-07,
      "loss": 0.8297,
      "mean_token_accuracy": 0.7837514698505401,
      "num_tokens": 1379694371.0,
      "step": 13790
    },
    {
      "entropy": 0.8703125,
      "epoch": 1.8860188601886019,
      "grad_norm": 0.2515322840313183,
      "learning_rate": 2.9413836832464424e-07,
      "loss": 0.8665,
      "mean_token_accuracy": 0.7758422672748566,
      "num_tokens": 1380725075.0,
      "step": 13800
    },
    {
      "entropy": 0.908203125,
      "epoch": 1.8873855405220719,
      "grad_norm": 0.24679772597566818,
      "learning_rate": 2.906157531351276e-07,
      "loss": 0.9167,
      "mean_token_accuracy": 0.7680249512195587,
      "num_tokens": 1381734170.0,
      "step": 13810
    },
    {
      "entropy": 0.862890625,
      "epoch": 1.8887522208555418,
      "grad_norm": 0.2720596757735401,
      "learning_rate": 2.8709313794561086e-07,
      "loss": 0.8552,
      "mean_token_accuracy": 0.7785169959068299,
      "num_tokens": 1382760495.0,
      "step": 13820
    },
    {
      "entropy": 0.880859375,
      "epoch": 1.890118901189012,
      "grad_norm": 0.2523747842725353,
      "learning_rate": 2.8357052275609415e-07,
      "loss": 0.8737,
      "mean_token_accuracy": 0.7726004004478455,
      "num_tokens": 1383715689.0,
      "step": 13830
    },
    {
      "entropy": 0.912109375,
      "epoch": 1.891485581522482,
      "grad_norm": 0.30753255894119064,
      "learning_rate": 2.8004790756657743e-07,
      "loss": 0.9137,
      "mean_token_accuracy": 0.76835857629776,
      "num_tokens": 1384708046.0,
      "step": 13840
    },
    {
      "entropy": 0.867578125,
      "epoch": 1.892852261855952,
      "grad_norm": 0.21783896501709274,
      "learning_rate": 2.7652529237706076e-07,
      "loss": 0.8445,
      "mean_token_accuracy": 0.7798754692077636,
      "num_tokens": 1385697303.0,
      "step": 13850
    },
    {
      "entropy": 0.8453125,
      "epoch": 1.894218942189422,
      "grad_norm": 0.24753847239490284,
      "learning_rate": 2.7300267718754405e-07,
      "loss": 0.8448,
      "mean_token_accuracy": 0.7807921290397644,
      "num_tokens": 1386666553.0,
      "step": 13860
    },
    {
      "entropy": 0.805078125,
      "epoch": 1.895585622522892,
      "grad_norm": 0.2436356071123059,
      "learning_rate": 2.694800619980274e-07,
      "loss": 0.8053,
      "mean_token_accuracy": 0.7878724992275238,
      "num_tokens": 1387666933.0,
      "step": 13870
    },
    {
      "entropy": 0.852734375,
      "epoch": 1.896952302856362,
      "grad_norm": 0.2578340467468642,
      "learning_rate": 2.6595744680851066e-07,
      "loss": 0.8479,
      "mean_token_accuracy": 0.778966236114502,
      "num_tokens": 1388708335.0,
      "step": 13880
    },
    {
      "entropy": 0.883203125,
      "epoch": 1.898318983189832,
      "grad_norm": 0.23889651194455985,
      "learning_rate": 2.6243483161899395e-07,
      "loss": 0.8901,
      "mean_token_accuracy": 0.7705652177333832,
      "num_tokens": 1389687489.0,
      "step": 13890
    },
    {
      "entropy": 0.865625,
      "epoch": 1.899685663523302,
      "grad_norm": 0.24171347904285606,
      "learning_rate": 2.589122164294773e-07,
      "loss": 0.8626,
      "mean_token_accuracy": 0.7757298827171326,
      "num_tokens": 1390740352.0,
      "step": 13900
    },
    {
      "entropy": 0.858984375,
      "epoch": 1.901052343856772,
      "grad_norm": 0.26583771160716224,
      "learning_rate": 2.5538960123996056e-07,
      "loss": 0.863,
      "mean_token_accuracy": 0.777045750617981,
      "num_tokens": 1391739989.0,
      "step": 13910
    },
    {
      "entropy": 0.8671875,
      "epoch": 1.902419024190242,
      "grad_norm": 0.2562818337530405,
      "learning_rate": 2.518669860504439e-07,
      "loss": 0.8682,
      "mean_token_accuracy": 0.7739504277706146,
      "num_tokens": 1392697957.0,
      "step": 13920
    },
    {
      "entropy": 0.8703125,
      "epoch": 1.9037857045237119,
      "grad_norm": 0.2945024426963276,
      "learning_rate": 2.483443708609272e-07,
      "loss": 0.8705,
      "mean_token_accuracy": 0.7735659539699554,
      "num_tokens": 1393680975.0,
      "step": 13930
    },
    {
      "entropy": 0.845703125,
      "epoch": 1.9051523848571819,
      "grad_norm": 0.2716743672392539,
      "learning_rate": 2.4482175567141046e-07,
      "loss": 0.8499,
      "mean_token_accuracy": 0.7785521864891052,
      "num_tokens": 1394700240.0,
      "step": 13940
    },
    {
      "entropy": 0.8828125,
      "epoch": 1.9065190651906518,
      "grad_norm": 0.2192059386613301,
      "learning_rate": 2.4129914048189375e-07,
      "loss": 0.88,
      "mean_token_accuracy": 0.7733606100082397,
      "num_tokens": 1395752339.0,
      "step": 13950
    },
    {
      "entropy": 0.884765625,
      "epoch": 1.9078857455241218,
      "grad_norm": 0.23483503603206954,
      "learning_rate": 2.3777652529237708e-07,
      "loss": 0.8897,
      "mean_token_accuracy": 0.7727166831493377,
      "num_tokens": 1396771928.0,
      "step": 13960
    },
    {
      "entropy": 0.896875,
      "epoch": 1.9092524258575918,
      "grad_norm": 0.25653470158332975,
      "learning_rate": 2.342539101028604e-07,
      "loss": 0.904,
      "mean_token_accuracy": 0.7673429787158966,
      "num_tokens": 1397822025.0,
      "step": 13970
    },
    {
      "entropy": 0.896484375,
      "epoch": 1.9106191061910618,
      "grad_norm": 0.26898853329541855,
      "learning_rate": 2.307312949133437e-07,
      "loss": 0.9049,
      "mean_token_accuracy": 0.7676107466220856,
      "num_tokens": 1398809018.0,
      "step": 13980
    },
    {
      "entropy": 0.85,
      "epoch": 1.9119857865245318,
      "grad_norm": 0.23683058789678116,
      "learning_rate": 2.2720867972382698e-07,
      "loss": 0.8554,
      "mean_token_accuracy": 0.7769368290901184,
      "num_tokens": 1399817169.0,
      "step": 13990
    },
    {
      "entropy": 0.89375,
      "epoch": 1.9133524668580018,
      "grad_norm": 0.24046058944598628,
      "learning_rate": 2.236860645343103e-07,
      "loss": 0.8841,
      "mean_token_accuracy": 0.7715309917926788,
      "num_tokens": 1400792761.0,
      "step": 14000
    },
    {
      "entropy": 0.8390625,
      "epoch": 1.914719147191472,
      "grad_norm": 0.27303363916911394,
      "learning_rate": 2.201634493447936e-07,
      "loss": 0.8241,
      "mean_token_accuracy": 0.7834710121154785,
      "num_tokens": 1401775004.0,
      "step": 14010
    },
    {
      "entropy": 0.861328125,
      "epoch": 1.916085827524942,
      "grad_norm": 0.24647447884742182,
      "learning_rate": 2.166408341552769e-07,
      "loss": 0.8622,
      "mean_token_accuracy": 0.775143951177597,
      "num_tokens": 1402756501.0,
      "step": 14020
    },
    {
      "entropy": 0.852734375,
      "epoch": 1.917452507858412,
      "grad_norm": 0.22874189754132673,
      "learning_rate": 2.131182189657602e-07,
      "loss": 0.8422,
      "mean_token_accuracy": 0.7808069527149201,
      "num_tokens": 1403739936.0,
      "step": 14030
    },
    {
      "entropy": 0.862109375,
      "epoch": 1.918819188191882,
      "grad_norm": 0.2539225754960069,
      "learning_rate": 2.095956037762435e-07,
      "loss": 0.8633,
      "mean_token_accuracy": 0.7759931683540344,
      "num_tokens": 1404737117.0,
      "step": 14040
    },
    {
      "entropy": 0.879296875,
      "epoch": 1.920185868525352,
      "grad_norm": 0.23855446423315008,
      "learning_rate": 2.0607298858672678e-07,
      "loss": 0.8809,
      "mean_token_accuracy": 0.7750050365924835,
      "num_tokens": 1405734788.0,
      "step": 14050
    },
    {
      "entropy": 0.8578125,
      "epoch": 1.9215525488588219,
      "grad_norm": 0.26826950179019105,
      "learning_rate": 2.025503733972101e-07,
      "loss": 0.8655,
      "mean_token_accuracy": 0.7764645278453827,
      "num_tokens": 1406751331.0,
      "step": 14060
    },
    {
      "entropy": 0.89921875,
      "epoch": 1.922919229192292,
      "grad_norm": 0.22693303604717704,
      "learning_rate": 1.990277582076934e-07,
      "loss": 0.9006,
      "mean_token_accuracy": 0.7690851807594299,
      "num_tokens": 1407785215.0,
      "step": 14070
    },
    {
      "entropy": 0.872265625,
      "epoch": 1.924285909525762,
      "grad_norm": 0.266747914533374,
      "learning_rate": 1.955051430181767e-07,
      "loss": 0.8569,
      "mean_token_accuracy": 0.7758675992488862,
      "num_tokens": 1408718823.0,
      "step": 14080
    },
    {
      "entropy": 0.857421875,
      "epoch": 1.925652589859232,
      "grad_norm": 0.2618728996682572,
      "learning_rate": 1.9198252782866002e-07,
      "loss": 0.8525,
      "mean_token_accuracy": 0.7797804355621338,
      "num_tokens": 1409707417.0,
      "step": 14090
    },
    {
      "entropy": 0.88046875,
      "epoch": 1.927019270192702,
      "grad_norm": 0.24835642399503183,
      "learning_rate": 1.8845991263914333e-07,
      "loss": 0.877,
      "mean_token_accuracy": 0.774787700176239,
      "num_tokens": 1410702222.0,
      "step": 14100
    },
    {
      "entropy": 0.890625,
      "epoch": 1.928385950526172,
      "grad_norm": 0.27088471292827077,
      "learning_rate": 1.8493729744962664e-07,
      "loss": 0.8848,
      "mean_token_accuracy": 0.7711002945899963,
      "num_tokens": 1411621562.0,
      "step": 14110
    },
    {
      "entropy": 0.922265625,
      "epoch": 1.929752630859642,
      "grad_norm": 0.24193269492894018,
      "learning_rate": 1.8141468226010995e-07,
      "loss": 0.9239,
      "mean_token_accuracy": 0.76500324010849,
      "num_tokens": 1412638000.0,
      "step": 14120
    },
    {
      "entropy": 0.84375,
      "epoch": 1.931119311193112,
      "grad_norm": 0.2594788813491011,
      "learning_rate": 1.778920670705932e-07,
      "loss": 0.837,
      "mean_token_accuracy": 0.7825123369693756,
      "num_tokens": 1413639889.0,
      "step": 14130
    },
    {
      "entropy": 0.85703125,
      "epoch": 1.932485991526582,
      "grad_norm": 0.23084871894426248,
      "learning_rate": 1.743694518810765e-07,
      "loss": 0.8522,
      "mean_token_accuracy": 0.7777527809143067,
      "num_tokens": 1414666234.0,
      "step": 14140
    },
    {
      "entropy": 0.84765625,
      "epoch": 1.933852671860052,
      "grad_norm": 0.2471796817393757,
      "learning_rate": 1.7084683669155982e-07,
      "loss": 0.8355,
      "mean_token_accuracy": 0.7830275177955628,
      "num_tokens": 1415670134.0,
      "step": 14150
    },
    {
      "entropy": 0.891796875,
      "epoch": 1.935219352193522,
      "grad_norm": 0.2614617780412159,
      "learning_rate": 1.6732422150204313e-07,
      "loss": 0.8874,
      "mean_token_accuracy": 0.7716829121112824,
      "num_tokens": 1416642461.0,
      "step": 14160
    },
    {
      "entropy": 0.837109375,
      "epoch": 1.936586032526992,
      "grad_norm": 0.23934176458559628,
      "learning_rate": 1.6380160631252644e-07,
      "loss": 0.8419,
      "mean_token_accuracy": 0.7820378243923187,
      "num_tokens": 1417700877.0,
      "step": 14170
    },
    {
      "entropy": 0.87890625,
      "epoch": 1.937952712860462,
      "grad_norm": 0.2309894587424063,
      "learning_rate": 1.6027899112300975e-07,
      "loss": 0.8685,
      "mean_token_accuracy": 0.7760373115539551,
      "num_tokens": 1418691154.0,
      "step": 14180
    },
    {
      "entropy": 0.844921875,
      "epoch": 1.9393193931939319,
      "grad_norm": 0.2424647002093204,
      "learning_rate": 1.5675637593349303e-07,
      "loss": 0.8341,
      "mean_token_accuracy": 0.783150577545166,
      "num_tokens": 1419717600.0,
      "step": 14190
    },
    {
      "entropy": 0.860546875,
      "epoch": 1.9406860735274019,
      "grad_norm": 0.2627535960120006,
      "learning_rate": 1.5323376074397634e-07,
      "loss": 0.8487,
      "mean_token_accuracy": 0.7785187900066376,
      "num_tokens": 1420737827.0,
      "step": 14200
    },
    {
      "entropy": 0.937109375,
      "epoch": 1.9420527538608718,
      "grad_norm": 0.2729986223755515,
      "learning_rate": 1.4971114555445965e-07,
      "loss": 0.939,
      "mean_token_accuracy": 0.7595550656318665,
      "num_tokens": 1421751522.0,
      "step": 14210
    },
    {
      "entropy": 0.89296875,
      "epoch": 1.9434194341943418,
      "grad_norm": 0.24878116269415013,
      "learning_rate": 1.4618853036494293e-07,
      "loss": 0.9005,
      "mean_token_accuracy": 0.7682554721832275,
      "num_tokens": 1422734672.0,
      "step": 14220
    },
    {
      "entropy": 0.877734375,
      "epoch": 1.9447861145278118,
      "grad_norm": 0.24841888376410617,
      "learning_rate": 1.4266591517542624e-07,
      "loss": 0.8811,
      "mean_token_accuracy": 0.7719283759593963,
      "num_tokens": 1423713545.0,
      "step": 14230
    },
    {
      "entropy": 0.858984375,
      "epoch": 1.9461527948612818,
      "grad_norm": 0.23153976337497165,
      "learning_rate": 1.3914329998590955e-07,
      "loss": 0.852,
      "mean_token_accuracy": 0.7799326956272126,
      "num_tokens": 1424645986.0,
      "step": 14240
    },
    {
      "entropy": 0.873046875,
      "epoch": 1.947519475194752,
      "grad_norm": 0.23773243246127004,
      "learning_rate": 1.3562068479639286e-07,
      "loss": 0.8644,
      "mean_token_accuracy": 0.7764889776706696,
      "num_tokens": 1425688603.0,
      "step": 14250
    },
    {
      "entropy": 0.83515625,
      "epoch": 1.948886155528222,
      "grad_norm": 0.25323637222576245,
      "learning_rate": 1.3209806960687614e-07,
      "loss": 0.8292,
      "mean_token_accuracy": 0.7834983229637146,
      "num_tokens": 1426653167.0,
      "step": 14260
    },
    {
      "entropy": 0.861328125,
      "epoch": 1.950252835861692,
      "grad_norm": 0.2550720104554093,
      "learning_rate": 1.2857545441735945e-07,
      "loss": 0.8639,
      "mean_token_accuracy": 0.776465630531311,
      "num_tokens": 1427641418.0,
      "step": 14270
    },
    {
      "entropy": 0.88359375,
      "epoch": 1.951619516195162,
      "grad_norm": 0.26642729550570193,
      "learning_rate": 1.2505283922784276e-07,
      "loss": 0.8806,
      "mean_token_accuracy": 0.7735596656799316,
      "num_tokens": 1428672424.0,
      "step": 14280
    },
    {
      "entropy": 0.850390625,
      "epoch": 1.952986196528632,
      "grad_norm": 0.24108632045329917,
      "learning_rate": 1.2153022403832607e-07,
      "loss": 0.85,
      "mean_token_accuracy": 0.7784816145896911,
      "num_tokens": 1429685204.0,
      "step": 14290
    },
    {
      "entropy": 0.8671875,
      "epoch": 1.954352876862102,
      "grad_norm": 0.24743785394389842,
      "learning_rate": 1.1800760884880937e-07,
      "loss": 0.8712,
      "mean_token_accuracy": 0.7737383663654327,
      "num_tokens": 1430729799.0,
      "step": 14300
    },
    {
      "entropy": 0.8765625,
      "epoch": 1.9557195571955721,
      "grad_norm": 0.24121410859584952,
      "learning_rate": 1.1448499365929266e-07,
      "loss": 0.8738,
      "mean_token_accuracy": 0.7735775232315063,
      "num_tokens": 1431740518.0,
      "step": 14310
    },
    {
      "entropy": 0.86796875,
      "epoch": 1.957086237529042,
      "grad_norm": 0.2520423857220494,
      "learning_rate": 1.1096237846977597e-07,
      "loss": 0.8607,
      "mean_token_accuracy": 0.777730405330658,
      "num_tokens": 1432734226.0,
      "step": 14320
    },
    {
      "entropy": 0.869921875,
      "epoch": 1.958452917862512,
      "grad_norm": 0.2613763936948302,
      "learning_rate": 1.0743976328025928e-07,
      "loss": 0.8574,
      "mean_token_accuracy": 0.7747048020362854,
      "num_tokens": 1433760564.0,
      "step": 14330
    },
    {
      "entropy": 0.823828125,
      "epoch": 1.959819598195982,
      "grad_norm": 0.25501753145534,
      "learning_rate": 1.0391714809074258e-07,
      "loss": 0.823,
      "mean_token_accuracy": 0.7827814221382141,
      "num_tokens": 1434780839.0,
      "step": 14340
    },
    {
      "entropy": 0.862890625,
      "epoch": 1.961186278529452,
      "grad_norm": 0.24261374222626544,
      "learning_rate": 1.0039453290122588e-07,
      "loss": 0.8667,
      "mean_token_accuracy": 0.7736246943473816,
      "num_tokens": 1435777762.0,
      "step": 14350
    },
    {
      "entropy": 0.837109375,
      "epoch": 1.962552958862922,
      "grad_norm": 0.25311026250284896,
      "learning_rate": 9.687191771170918e-08,
      "loss": 0.8348,
      "mean_token_accuracy": 0.781865531206131,
      "num_tokens": 1436761658.0,
      "step": 14360
    },
    {
      "entropy": 0.897265625,
      "epoch": 1.963919639196392,
      "grad_norm": 0.2701548682398619,
      "learning_rate": 9.334930252219248e-08,
      "loss": 0.9007,
      "mean_token_accuracy": 0.7689678251743317,
      "num_tokens": 1437801007.0,
      "step": 14370
    },
    {
      "entropy": 0.864453125,
      "epoch": 1.965286319529862,
      "grad_norm": 0.24029246637439983,
      "learning_rate": 8.982668733267578e-08,
      "loss": 0.8693,
      "mean_token_accuracy": 0.7751906394958497,
      "num_tokens": 1438814755.0,
      "step": 14380
    },
    {
      "entropy": 0.82421875,
      "epoch": 1.966652999863332,
      "grad_norm": 0.2391167009257074,
      "learning_rate": 8.630407214315909e-08,
      "loss": 0.8238,
      "mean_token_accuracy": 0.784399789571762,
      "num_tokens": 1439819938.0,
      "step": 14390
    },
    {
      "entropy": 0.882421875,
      "epoch": 1.968019680196802,
      "grad_norm": 0.2593635202416782,
      "learning_rate": 8.27814569536424e-08,
      "loss": 0.8782,
      "mean_token_accuracy": 0.7745446920394897,
      "num_tokens": 1440835381.0,
      "step": 14400
    },
    {
      "entropy": 0.89296875,
      "epoch": 1.969386360530272,
      "grad_norm": 0.2815092427321605,
      "learning_rate": 7.925884176412568e-08,
      "loss": 0.9045,
      "mean_token_accuracy": 0.7675356149673462,
      "num_tokens": 1441812568.0,
      "step": 14410
    },
    {
      "entropy": 0.891796875,
      "epoch": 1.970753040863742,
      "grad_norm": 0.2625698749062575,
      "learning_rate": 7.573622657460899e-08,
      "loss": 0.8996,
      "mean_token_accuracy": 0.7688333868980408,
      "num_tokens": 1442798498.0,
      "step": 14420
    },
    {
      "entropy": 0.848046875,
      "epoch": 1.972119721197212,
      "grad_norm": 0.26615289441787915,
      "learning_rate": 7.22136113850923e-08,
      "loss": 0.8436,
      "mean_token_accuracy": 0.7812350392341614,
      "num_tokens": 1443804598.0,
      "step": 14430
    },
    {
      "entropy": 0.847265625,
      "epoch": 1.9734864015306819,
      "grad_norm": 0.2503481243007385,
      "learning_rate": 6.869099619557561e-08,
      "loss": 0.8422,
      "mean_token_accuracy": 0.7794718861579895,
      "num_tokens": 1444812504.0,
      "step": 14440
    },
    {
      "entropy": 0.852734375,
      "epoch": 1.9748530818641519,
      "grad_norm": 0.3009428838258912,
      "learning_rate": 6.51683810060589e-08,
      "loss": 0.8592,
      "mean_token_accuracy": 0.7770665287971497,
      "num_tokens": 1445856326.0,
      "step": 14450
    },
    {
      "entropy": 0.88515625,
      "epoch": 1.9762197621976219,
      "grad_norm": 0.26853388900636155,
      "learning_rate": 6.164576581654221e-08,
      "loss": 0.8807,
      "mean_token_accuracy": 0.7723606288433075,
      "num_tokens": 1446814419.0,
      "step": 14460
    },
    {
      "entropy": 0.858984375,
      "epoch": 1.9775864425310918,
      "grad_norm": 0.24850773293464998,
      "learning_rate": 5.8123150627025515e-08,
      "loss": 0.8514,
      "mean_token_accuracy": 0.7785784602165222,
      "num_tokens": 1447785682.0,
      "step": 14470
    },
    {
      "entropy": 0.858203125,
      "epoch": 1.9789531228645618,
      "grad_norm": 0.2521161929393703,
      "learning_rate": 5.460053543750881e-08,
      "loss": 0.8587,
      "mean_token_accuracy": 0.7776934027671814,
      "num_tokens": 1448707537.0,
      "step": 14480
    },
    {
      "entropy": 0.898046875,
      "epoch": 1.980319803198032,
      "grad_norm": 0.2501518722633191,
      "learning_rate": 5.107792024799211e-08,
      "loss": 0.9032,
      "mean_token_accuracy": 0.7676116526126862,
      "num_tokens": 1449707689.0,
      "step": 14490
    },
    {
      "entropy": 0.91015625,
      "epoch": 1.981686483531502,
      "grad_norm": 0.2576057543008344,
      "learning_rate": 4.7555305058475415e-08,
      "loss": 0.9093,
      "mean_token_accuracy": 0.7657099306583405,
      "num_tokens": 1450667160.0,
      "step": 14500
    },
    {
      "entropy": 0.88046875,
      "epoch": 1.983053163864972,
      "grad_norm": 0.25472761703219676,
      "learning_rate": 4.403268986895872e-08,
      "loss": 0.8941,
      "mean_token_accuracy": 0.7695580363273621,
      "num_tokens": 1451717212.0,
      "step": 14510
    },
    {
      "entropy": 0.88828125,
      "epoch": 1.984419844198442,
      "grad_norm": 0.2574404535581152,
      "learning_rate": 4.0510074679442026e-08,
      "loss": 0.8876,
      "mean_token_accuracy": 0.7698045790195465,
      "num_tokens": 1452714510.0,
      "step": 14520
    },
    {
      "entropy": 0.866015625,
      "epoch": 1.985786524531912,
      "grad_norm": 0.2663702734931808,
      "learning_rate": 3.698745948992532e-08,
      "loss": 0.861,
      "mean_token_accuracy": 0.7772542417049408,
      "num_tokens": 1453655116.0,
      "step": 14530
    },
    {
      "entropy": 0.855078125,
      "epoch": 1.987153204865382,
      "grad_norm": 0.25894285110683773,
      "learning_rate": 3.3464844300408624e-08,
      "loss": 0.8514,
      "mean_token_accuracy": 0.7782913267612457,
      "num_tokens": 1454601117.0,
      "step": 14540
    },
    {
      "entropy": 0.85,
      "epoch": 1.9885198851988521,
      "grad_norm": 0.24782712012314348,
      "learning_rate": 2.994222911089193e-08,
      "loss": 0.8399,
      "mean_token_accuracy": 0.78282350897789,
      "num_tokens": 1455611512.0,
      "step": 14550
    },
    {
      "entropy": 0.896484375,
      "epoch": 1.9898865655323221,
      "grad_norm": 0.2510714310699622,
      "learning_rate": 2.6419613921375232e-08,
      "loss": 0.8939,
      "mean_token_accuracy": 0.7722494065761566,
      "num_tokens": 1456632158.0,
      "step": 14560
    },
    {
      "entropy": 0.838671875,
      "epoch": 1.991253245865792,
      "grad_norm": 0.26270093644252596,
      "learning_rate": 2.289699873185853e-08,
      "loss": 0.8404,
      "mean_token_accuracy": 0.7786963939666748,
      "num_tokens": 1457642976.0,
      "step": 14570
    },
    {
      "entropy": 0.927734375,
      "epoch": 1.992619926199262,
      "grad_norm": 0.24549238422470418,
      "learning_rate": 1.9374383542341837e-08,
      "loss": 0.9254,
      "mean_token_accuracy": 0.7617744386196137,
      "num_tokens": 1458592777.0,
      "step": 14580
    },
    {
      "entropy": 0.836328125,
      "epoch": 1.993986606532732,
      "grad_norm": 0.2438952263546096,
      "learning_rate": 1.585176835282514e-08,
      "loss": 0.8227,
      "mean_token_accuracy": 0.7847065806388855,
      "num_tokens": 1459598963.0,
      "step": 14590
    },
    {
      "entropy": 0.905078125,
      "epoch": 1.995353286866202,
      "grad_norm": 0.23862395330735406,
      "learning_rate": 1.2329153163308442e-08,
      "loss": 0.899,
      "mean_token_accuracy": 0.7689885139465332,
      "num_tokens": 1460621010.0,
      "step": 14600
    },
    {
      "entropy": 0.872265625,
      "epoch": 1.996719967199672,
      "grad_norm": 0.2590332913919192,
      "learning_rate": 8.806537973791744e-09,
      "loss": 0.8682,
      "mean_token_accuracy": 0.7750216841697692,
      "num_tokens": 1461657932.0,
      "step": 14610
    },
    {
      "entropy": 0.84921875,
      "epoch": 1.998086647533142,
      "grad_norm": 0.23803700782471726,
      "learning_rate": 5.2839227842750465e-09,
      "loss": 0.8528,
      "mean_token_accuracy": 0.777831393480301,
      "num_tokens": 1462690155.0,
      "step": 14620
    },
    {
      "entropy": 0.883984375,
      "epoch": 1.999453327866612,
      "grad_norm": 0.2605971917206046,
      "learning_rate": 1.7613075947583486e-09,
      "loss": 0.8746,
      "mean_token_accuracy": 0.7746300876140595,
      "num_tokens": 1463697643.0,
      "step": 14630
    },
    {
      "entropy": 0.8896484375,
      "epoch": 2.0,
      "mean_token_accuracy": 0.771592453122139,
      "num_tokens": 1464106948.0,
      "step": 14634,
      "total_flos": 3199489317601280.0,
      "train_loss": 0.9069533730784906,
      "train_runtime": 41137.9828,
      "train_samples_per_second": 45.53,
      "train_steps_per_second": 0.356
    }
  ],
  "logging_steps": 10,
  "max_steps": 14634,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 200,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3199489317601280.0,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}