ind-latn-100mb-after-ppt-sh…/checkpoint-500/trainer_state.json

{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.39184952978056425,
  "eval_steps": 500,
  "global_step": 500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 4.789229106903076,
      "epoch": 0.003918495297805642,
      "grad_norm": 17.125,
      "learning_rate": 2e-06,
      "loss": 14.3537,
      "mean_token_accuracy": 0.0,
      "num_tokens": 9174.0,
      "step": 5
    },
    {
      "entropy": 4.8115012645721436,
      "epoch": 0.007836990595611285,
      "grad_norm": 19.625,
      "learning_rate": 4.5e-06,
      "loss": 14.2452,
      "mean_token_accuracy": 0.0,
      "num_tokens": 17790.0,
      "step": 10
    },
    {
      "entropy": 4.899150800704956,
      "epoch": 0.011755485893416929,
      "grad_norm": 24.25,
      "learning_rate": 7e-06,
      "loss": 13.9044,
      "mean_token_accuracy": 0.0,
      "num_tokens": 25850.0,
      "step": 15
    },
    {
      "entropy": 5.367580604553223,
      "epoch": 0.01567398119122257,
      "grad_norm": 32.5,
      "learning_rate": 9.5e-06,
      "loss": 13.1444,
      "mean_token_accuracy": 0.0,
      "num_tokens": 35194.0,
      "step": 20
    },
    {
      "entropy": 8.583788537979126,
      "epoch": 0.019592476489028215,
      "grad_norm": 7.5,
      "learning_rate": 1.2e-05,
      "loss": 11.3911,
      "mean_token_accuracy": 0.00023256096756085753,
      "num_tokens": 44218.0,
      "step": 25
    },
    {
      "entropy": 10.630141735076904,
      "epoch": 0.023510971786833857,
      "grad_norm": 3.234375,
      "learning_rate": 1.4500000000000002e-05,
      "loss": 10.7102,
      "mean_token_accuracy": 0.014597209030762314,
      "num_tokens": 53397.0,
      "step": 30
    },
    {
      "entropy": 10.695956897735595,
      "epoch": 0.0274294670846395,
      "grad_norm": 3.0,
      "learning_rate": 1.7000000000000003e-05,
      "loss": 10.4664,
      "mean_token_accuracy": 0.01781447734683752,
      "num_tokens": 62749.0,
      "step": 35
    },
    {
      "entropy": 10.673796558380127,
      "epoch": 0.03134796238244514,
      "grad_norm": 2.421875,
      "learning_rate": 1.95e-05,
      "loss": 10.1632,
      "mean_token_accuracy": 0.0182854525744915,
      "num_tokens": 71721.0,
      "step": 40
    },
    {
      "entropy": 10.631663513183593,
      "epoch": 0.03526645768025078,
      "grad_norm": 2.421875,
      "learning_rate": 2.2e-05,
      "loss": 9.8792,
      "mean_token_accuracy": 0.03653257880359888,
      "num_tokens": 79844.0,
      "step": 45
    },
    {
      "entropy": 10.549837970733643,
      "epoch": 0.03918495297805643,
      "grad_norm": 1.953125,
      "learning_rate": 2.4500000000000003e-05,
      "loss": 9.7665,
      "mean_token_accuracy": 0.04605128690600395,
      "num_tokens": 88866.0,
      "step": 50
    },
    {
      "entropy": 10.509830379486084,
      "epoch": 0.04310344827586207,
      "grad_norm": 1.84375,
      "learning_rate": 2.7e-05,
      "loss": 9.6605,
      "mean_token_accuracy": 0.044031094387173654,
      "num_tokens": 97918.0,
      "step": 55
    },
    {
      "entropy": 10.524475193023681,
      "epoch": 0.047021943573667714,
      "grad_norm": 1.875,
      "learning_rate": 2.95e-05,
      "loss": 9.5619,
      "mean_token_accuracy": 0.04601282589137554,
      "num_tokens": 107043.0,
      "step": 60
    },
    {
      "entropy": 10.512676334381103,
      "epoch": 0.050940438871473356,
      "grad_norm": 2.03125,
      "learning_rate": 3.2e-05,
      "loss": 9.4987,
      "mean_token_accuracy": 0.04643600396811962,
      "num_tokens": 116000.0,
      "step": 65
    },
    {
      "entropy": 10.477371215820312,
      "epoch": 0.054858934169279,
      "grad_norm": 1.8984375,
      "learning_rate": 3.4500000000000005e-05,
      "loss": 9.4179,
      "mean_token_accuracy": 0.04148977212607861,
      "num_tokens": 124559.0,
      "step": 70
    },
    {
      "entropy": 10.470399188995362,
      "epoch": 0.05877742946708464,
      "grad_norm": 1.828125,
      "learning_rate": 3.7e-05,
      "loss": 9.2945,
      "mean_token_accuracy": 0.04952896051108837,
      "num_tokens": 132868.0,
      "step": 75
    },
    {
      "entropy": 10.453096103668212,
      "epoch": 0.06269592476489028,
      "grad_norm": 1.796875,
      "learning_rate": 3.95e-05,
      "loss": 9.2848,
      "mean_token_accuracy": 0.05274602882564068,
      "num_tokens": 141286.0,
      "step": 80
    },
    {
      "entropy": 10.431593227386475,
      "epoch": 0.06661442006269593,
      "grad_norm": 1.71875,
      "learning_rate": 4.2000000000000004e-05,
      "loss": 9.1405,
      "mean_token_accuracy": 0.05872356928884983,
      "num_tokens": 150406.0,
      "step": 85
    },
    {
      "entropy": 10.36865291595459,
      "epoch": 0.07053291536050156,
      "grad_norm": 1.84375,
      "learning_rate": 4.45e-05,
      "loss": 9.0678,
      "mean_token_accuracy": 0.059385529905557635,
      "num_tokens": 158770.0,
      "step": 90
    },
    {
      "entropy": 10.264866065979003,
      "epoch": 0.07445141065830721,
      "grad_norm": 2.046875,
      "learning_rate": 4.7000000000000004e-05,
      "loss": 8.9633,
      "mean_token_accuracy": 0.06288341507315635,
      "num_tokens": 167763.0,
      "step": 95
    },
    {
      "entropy": 10.183263969421386,
      "epoch": 0.07836990595611286,
      "grad_norm": 1.6796875,
      "learning_rate": 4.9500000000000004e-05,
      "loss": 8.819,
      "mean_token_accuracy": 0.0607046652585268,
      "num_tokens": 177306.0,
      "step": 100
    },
    {
      "entropy": 10.144334697723389,
      "epoch": 0.0822884012539185,
      "grad_norm": 1.5078125,
      "learning_rate": 5.2e-05,
      "loss": 8.7349,
      "mean_token_accuracy": 0.06028640605509281,
      "num_tokens": 186014.0,
      "step": 105
    },
    {
      "entropy": 10.06214361190796,
      "epoch": 0.08620689655172414,
      "grad_norm": 1.390625,
      "learning_rate": 5.45e-05,
      "loss": 8.5758,
      "mean_token_accuracy": 0.06410923898220063,
      "num_tokens": 194122.0,
      "step": 110
    },
    {
      "entropy": 9.952830028533935,
      "epoch": 0.09012539184952978,
      "grad_norm": 1.4765625,
      "learning_rate": 5.7e-05,
      "loss": 8.4698,
      "mean_token_accuracy": 0.05936008468270302,
      "num_tokens": 203097.0,
      "step": 115
    },
    {
      "entropy": 9.820581531524658,
      "epoch": 0.09404388714733543,
      "grad_norm": 1.4375,
      "learning_rate": 5.9499999999999996e-05,
      "loss": 8.3405,
      "mean_token_accuracy": 0.06221077479422092,
      "num_tokens": 211413.0,
      "step": 120
    },
    {
      "entropy": 9.732498264312744,
      "epoch": 0.09796238244514106,
      "grad_norm": 1.1484375,
      "learning_rate": 6.2e-05,
      "loss": 8.2718,
      "mean_token_accuracy": 0.061625415459275246,
      "num_tokens": 220550.0,
      "step": 125
    },
    {
      "entropy": 9.504752349853515,
      "epoch": 0.10188087774294671,
      "grad_norm": 1.15625,
      "learning_rate": 6.450000000000001e-05,
      "loss": 8.0995,
      "mean_token_accuracy": 0.0649514563381672,
      "num_tokens": 229197.0,
      "step": 130
    },
    {
      "entropy": 9.307702922821045,
      "epoch": 0.10579937304075235,
      "grad_norm": 1.09375,
      "learning_rate": 6.7e-05,
      "loss": 8.0979,
      "mean_token_accuracy": 0.05685936994850636,
      "num_tokens": 238479.0,
      "step": 135
    },
    {
      "entropy": 9.162922954559326,
      "epoch": 0.109717868338558,
      "grad_norm": 1.375,
      "learning_rate": 6.950000000000001e-05,
      "loss": 7.9442,
      "mean_token_accuracy": 0.059861503541469574,
      "num_tokens": 246318.0,
      "step": 140
    },
    {
      "entropy": 8.96123743057251,
      "epoch": 0.11363636363636363,
      "grad_norm": 0.98828125,
      "learning_rate": 7.2e-05,
      "loss": 7.9513,
      "mean_token_accuracy": 0.05959276556968689,
      "num_tokens": 254783.0,
      "step": 145
    },
    {
      "entropy": 8.760778617858886,
      "epoch": 0.11755485893416928,
      "grad_norm": 1.1171875,
      "learning_rate": 7.45e-05,
      "loss": 7.7945,
      "mean_token_accuracy": 0.06369670145213605,
      "num_tokens": 263416.0,
      "step": 150
    },
    {
      "entropy": 8.68117027282715,
      "epoch": 0.12147335423197492,
      "grad_norm": 1.0703125,
      "learning_rate": 7.7e-05,
      "loss": 7.8147,
      "mean_token_accuracy": 0.0631796333938837,
      "num_tokens": 271930.0,
      "step": 155
    },
    {
      "entropy": 8.476777839660645,
      "epoch": 0.12539184952978055,
      "grad_norm": 0.78515625,
      "learning_rate": 7.950000000000001e-05,
      "loss": 7.7159,
      "mean_token_accuracy": 0.06549291461706161,
      "num_tokens": 280546.0,
      "step": 160
    },
    {
      "entropy": 8.308262157440186,
      "epoch": 0.12931034482758622,
      "grad_norm": 0.9296875,
      "learning_rate": 8.2e-05,
      "loss": 7.7078,
      "mean_token_accuracy": 0.06602046675980092,
      "num_tokens": 288813.0,
      "step": 165
    },
    {
      "entropy": 8.279962158203125,
      "epoch": 0.13322884012539185,
      "grad_norm": 0.97265625,
      "learning_rate": 8.450000000000001e-05,
      "loss": 7.6847,
      "mean_token_accuracy": 0.06443305909633637,
      "num_tokens": 297966.0,
      "step": 170
    },
    {
      "entropy": 8.152728843688966,
      "epoch": 0.1371473354231975,
      "grad_norm": 0.8671875,
      "learning_rate": 8.7e-05,
      "loss": 7.7467,
      "mean_token_accuracy": 0.06189337000250816,
      "num_tokens": 307135.0,
      "step": 175
    },
    {
      "entropy": 8.145699501037598,
      "epoch": 0.14106583072100312,
      "grad_norm": 0.890625,
      "learning_rate": 8.95e-05,
      "loss": 7.6581,
      "mean_token_accuracy": 0.06488074697554111,
      "num_tokens": 315546.0,
      "step": 180
    },
    {
      "entropy": 8.149786376953125,
      "epoch": 0.14498432601880878,
      "grad_norm": 0.89453125,
      "learning_rate": 9.2e-05,
      "loss": 7.6538,
      "mean_token_accuracy": 0.06405953019857406,
      "num_tokens": 323930.0,
      "step": 185
    },
    {
      "entropy": 7.983444690704346,
      "epoch": 0.14890282131661442,
      "grad_norm": 1.03125,
      "learning_rate": 9.45e-05,
      "loss": 7.5166,
      "mean_token_accuracy": 0.07129846066236496,
      "num_tokens": 332419.0,
      "step": 190
    },
    {
      "entropy": 7.974339866638184,
      "epoch": 0.15282131661442006,
      "grad_norm": 1.0234375,
      "learning_rate": 9.7e-05,
      "loss": 7.6157,
      "mean_token_accuracy": 0.06940566822886467,
      "num_tokens": 341362.0,
      "step": 195
    },
    {
      "entropy": 7.973450374603272,
      "epoch": 0.15673981191222572,
      "grad_norm": 1.625,
      "learning_rate": 9.95e-05,
      "loss": 7.5198,
      "mean_token_accuracy": 0.07214542552828788,
      "num_tokens": 349395.0,
      "step": 200
    },
    {
      "entropy": 7.946638202667236,
      "epoch": 0.16065830721003135,
      "grad_norm": 1.2890625,
      "learning_rate": 0.000102,
      "loss": 7.545,
      "mean_token_accuracy": 0.06696730926632881,
      "num_tokens": 358413.0,
      "step": 205
    },
    {
      "entropy": 7.863241577148438,
      "epoch": 0.164576802507837,
      "grad_norm": 1.2578125,
      "learning_rate": 0.00010449999999999999,
      "loss": 7.6316,
      "mean_token_accuracy": 0.06982938721776008,
      "num_tokens": 366489.0,
      "step": 210
    },
    {
      "entropy": 7.940403842926026,
      "epoch": 0.16849529780564262,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000107,
      "loss": 7.5023,
      "mean_token_accuracy": 0.06740010716021061,
      "num_tokens": 375335.0,
      "step": 215
    },
    {
      "entropy": 7.874079847335816,
      "epoch": 0.1724137931034483,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0001095,
      "loss": 7.5555,
      "mean_token_accuracy": 0.07188675999641418,
      "num_tokens": 384276.0,
      "step": 220
    },
    {
      "entropy": 7.911562585830689,
      "epoch": 0.17633228840125392,
      "grad_norm": 0.99609375,
      "learning_rate": 0.000112,
      "loss": 7.5929,
      "mean_token_accuracy": 0.06714313849806786,
      "num_tokens": 393571.0,
      "step": 225
    },
    {
      "entropy": 7.920306205749512,
      "epoch": 0.18025078369905956,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0001145,
      "loss": 7.5193,
      "mean_token_accuracy": 0.07089398205280303,
      "num_tokens": 401865.0,
      "step": 230
    },
    {
      "entropy": 7.848536252975464,
      "epoch": 0.1841692789968652,
      "grad_norm": 0.91015625,
      "learning_rate": 0.00011700000000000001,
      "loss": 7.4905,
      "mean_token_accuracy": 0.07226377129554748,
      "num_tokens": 410518.0,
      "step": 235
    },
    {
      "entropy": 7.869985485076905,
      "epoch": 0.18808777429467086,
      "grad_norm": 0.97265625,
      "learning_rate": 0.00011949999999999999,
      "loss": 7.4997,
      "mean_token_accuracy": 0.07303371652960777,
      "num_tokens": 419769.0,
      "step": 240
    },
    {
      "entropy": 7.837644481658936,
      "epoch": 0.1920062695924765,
      "grad_norm": 0.95703125,
      "learning_rate": 0.000122,
      "loss": 7.437,
      "mean_token_accuracy": 0.0742616519331932,
      "num_tokens": 428204.0,
      "step": 245
    },
    {
      "entropy": 7.897941255569458,
      "epoch": 0.19592476489028213,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0001245,
      "loss": 7.5267,
      "mean_token_accuracy": 0.06978406608104706,
      "num_tokens": 436594.0,
      "step": 250
    },
    {
      "entropy": 7.80897855758667,
      "epoch": 0.19984326018808776,
      "grad_norm": 0.96875,
      "learning_rate": 0.000127,
      "loss": 7.3256,
      "mean_token_accuracy": 0.07486266531050205,
      "num_tokens": 444645.0,
      "step": 255
    },
    {
      "entropy": 7.8133704662323,
      "epoch": 0.20376175548589343,
      "grad_norm": 1.234375,
      "learning_rate": 0.0001295,
      "loss": 7.3726,
      "mean_token_accuracy": 0.07738698273897171,
      "num_tokens": 453016.0,
      "step": 260
    },
    {
      "entropy": 7.736161422729492,
      "epoch": 0.20768025078369906,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000132,
      "loss": 7.4507,
      "mean_token_accuracy": 0.06978621035814285,
      "num_tokens": 462116.0,
      "step": 265
    },
    {
      "entropy": 7.664476203918457,
      "epoch": 0.2115987460815047,
      "grad_norm": 1.1875,
      "learning_rate": 0.00013450000000000002,
      "loss": 7.3961,
      "mean_token_accuracy": 0.07115238644182682,
      "num_tokens": 470807.0,
      "step": 270
    },
    {
      "entropy": 7.7677568912506105,
      "epoch": 0.21551724137931033,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00013700000000000002,
      "loss": 7.4818,
      "mean_token_accuracy": 0.07023664973676205,
      "num_tokens": 479592.0,
      "step": 275
    },
    {
      "entropy": 7.912611389160157,
      "epoch": 0.219435736677116,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0001395,
      "loss": 7.4068,
      "mean_token_accuracy": 0.07160313390195369,
      "num_tokens": 488107.0,
      "step": 280
    },
    {
      "entropy": 7.755217599868774,
      "epoch": 0.22335423197492163,
      "grad_norm": 1.1796875,
      "learning_rate": 0.00014199999999999998,
      "loss": 7.4212,
      "mean_token_accuracy": 0.07538670524954796,
      "num_tokens": 496775.0,
      "step": 285
    },
    {
      "entropy": 7.762103033065796,
      "epoch": 0.22727272727272727,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0001445,
      "loss": 7.4447,
      "mean_token_accuracy": 0.07036296911537647,
      "num_tokens": 505415.0,
      "step": 290
    },
    {
      "entropy": 7.757038116455078,
      "epoch": 0.23119122257053293,
      "grad_norm": 1.015625,
      "learning_rate": 0.000147,
      "loss": 7.4344,
      "mean_token_accuracy": 0.074312524497509,
      "num_tokens": 514447.0,
      "step": 295
    },
    {
      "entropy": 7.7855620861053465,
      "epoch": 0.23510971786833856,
      "grad_norm": 1.0234375,
      "learning_rate": 0.0001495,
      "loss": 7.4189,
      "mean_token_accuracy": 0.07684484757483005,
      "num_tokens": 522998.0,
      "step": 300
    },
    {
      "entropy": 7.774819326400757,
      "epoch": 0.2390282131661442,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000152,
      "loss": 7.3794,
      "mean_token_accuracy": 0.07512850686907768,
      "num_tokens": 531542.0,
      "step": 305
    },
    {
      "entropy": 7.7300177097320555,
      "epoch": 0.24294670846394983,
      "grad_norm": 0.9921875,
      "learning_rate": 0.00015450000000000001,
      "loss": 7.3247,
      "mean_token_accuracy": 0.07261879369616508,
      "num_tokens": 540143.0,
      "step": 310
    },
    {
      "entropy": 7.773348236083985,
      "epoch": 0.2468652037617555,
      "grad_norm": 1.0390625,
      "learning_rate": 0.000157,
      "loss": 7.4017,
      "mean_token_accuracy": 0.07950926274061203,
      "num_tokens": 549156.0,
      "step": 315
    },
    {
      "entropy": 7.7285737037658695,
      "epoch": 0.2507836990595611,
      "grad_norm": 1.03125,
      "learning_rate": 0.0001595,
      "loss": 7.2557,
      "mean_token_accuracy": 0.07481630519032478,
      "num_tokens": 557522.0,
      "step": 320
    },
    {
      "entropy": 7.654256391525268,
      "epoch": 0.2547021943573668,
      "grad_norm": 1.109375,
      "learning_rate": 0.000162,
      "loss": 7.331,
      "mean_token_accuracy": 0.07940150126814842,
      "num_tokens": 566650.0,
      "step": 325
    },
    {
      "entropy": 7.672131299972534,
      "epoch": 0.25862068965517243,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00016450000000000001,
      "loss": 7.2864,
      "mean_token_accuracy": 0.07869702018797398,
      "num_tokens": 576219.0,
      "step": 330
    },
    {
      "entropy": 7.713160848617553,
      "epoch": 0.26253918495297807,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00016700000000000002,
      "loss": 7.374,
      "mean_token_accuracy": 0.07567794360220433,
      "num_tokens": 584304.0,
      "step": 335
    },
    {
      "entropy": 7.634349060058594,
      "epoch": 0.2664576802507837,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00016950000000000003,
      "loss": 7.3003,
      "mean_token_accuracy": 0.07832697704434395,
      "num_tokens": 593163.0,
      "step": 340
    },
    {
      "entropy": 7.6303457736969,
      "epoch": 0.27037617554858934,
      "grad_norm": 1.21875,
      "learning_rate": 0.00017199999999999998,
      "loss": 7.2164,
      "mean_token_accuracy": 0.07754571028053761,
      "num_tokens": 602077.0,
      "step": 345
    },
    {
      "entropy": 7.6355628490448,
      "epoch": 0.274294670846395,
      "grad_norm": 1.59375,
      "learning_rate": 0.00017449999999999999,
      "loss": 7.3284,
      "mean_token_accuracy": 0.08122679404914379,
      "num_tokens": 610009.0,
      "step": 350
    },
    {
      "entropy": 7.685596513748169,
      "epoch": 0.2782131661442006,
      "grad_norm": 1.1015625,
      "learning_rate": 0.000177,
      "loss": 7.362,
      "mean_token_accuracy": 0.07597106769680977,
      "num_tokens": 619282.0,
      "step": 355
    },
    {
      "entropy": 7.619720935821533,
      "epoch": 0.28213166144200624,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0001795,
      "loss": 7.2893,
      "mean_token_accuracy": 0.08018167689442635,
      "num_tokens": 628138.0,
      "step": 360
    },
    {
      "entropy": 7.6796112060546875,
      "epoch": 0.28605015673981193,
      "grad_norm": 1.1875,
      "learning_rate": 0.000182,
      "loss": 7.1745,
      "mean_token_accuracy": 0.08669476807117463,
      "num_tokens": 637021.0,
      "step": 365
    },
    {
      "entropy": 7.619413709640503,
      "epoch": 0.28996865203761757,
      "grad_norm": 1.453125,
      "learning_rate": 0.0001845,
      "loss": 7.3161,
      "mean_token_accuracy": 0.07477690353989601,
      "num_tokens": 646703.0,
      "step": 370
    },
    {
      "entropy": 7.623689222335815,
      "epoch": 0.2938871473354232,
      "grad_norm": 1.1796875,
      "learning_rate": 0.000187,
      "loss": 7.1981,
      "mean_token_accuracy": 0.08060777708888053,
      "num_tokens": 655616.0,
      "step": 375
    },
    {
      "entropy": 7.556978368759156,
      "epoch": 0.29780564263322884,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0001895,
      "loss": 7.1994,
      "mean_token_accuracy": 0.08719867020845413,
      "num_tokens": 663783.0,
      "step": 380
    },
    {
      "entropy": 7.5845866203308105,
      "epoch": 0.3017241379310345,
      "grad_norm": 1.2734375,
      "learning_rate": 0.000192,
      "loss": 7.2094,
      "mean_token_accuracy": 0.08289245739579201,
      "num_tokens": 671855.0,
      "step": 385
    },
    {
      "entropy": 7.527840566635132,
      "epoch": 0.3056426332288401,
      "grad_norm": 1.34375,
      "learning_rate": 0.0001945,
      "loss": 7.2219,
      "mean_token_accuracy": 0.07747755497694016,
      "num_tokens": 680981.0,
      "step": 390
    },
    {
      "entropy": 7.6136561870574955,
      "epoch": 0.30956112852664575,
      "grad_norm": 1.328125,
      "learning_rate": 0.00019700000000000002,
      "loss": 7.1491,
      "mean_token_accuracy": 0.08336339518427849,
      "num_tokens": 689294.0,
      "step": 395
    },
    {
      "entropy": 7.469813442230224,
      "epoch": 0.31347962382445144,
      "grad_norm": 1.0625,
      "learning_rate": 0.00019950000000000002,
      "loss": 7.1035,
      "mean_token_accuracy": 0.08146922513842583,
      "num_tokens": 697703.0,
      "step": 400
    },
    {
      "entropy": 7.550826740264893,
      "epoch": 0.31739811912225707,
      "grad_norm": 0.98046875,
      "learning_rate": 0.000202,
      "loss": 7.2372,
      "mean_token_accuracy": 0.08058681413531303,
      "num_tokens": 706792.0,
      "step": 405
    },
    {
      "entropy": 7.606830406188965,
      "epoch": 0.3213166144200627,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00020449999999999998,
      "loss": 7.1473,
      "mean_token_accuracy": 0.08346155509352685,
      "num_tokens": 715864.0,
      "step": 410
    },
    {
      "entropy": 7.3859583854675295,
      "epoch": 0.32523510971786834,
      "grad_norm": 1.5078125,
      "learning_rate": 0.000207,
      "loss": 7.1975,
      "mean_token_accuracy": 0.0853593334555626,
      "num_tokens": 723921.0,
      "step": 415
    },
    {
      "entropy": 7.5406107902526855,
      "epoch": 0.329153605015674,
      "grad_norm": 1.2578125,
      "learning_rate": 0.0002095,
      "loss": 7.2071,
      "mean_token_accuracy": 0.08046000376343727,
      "num_tokens": 732797.0,
      "step": 420
    },
    {
      "entropy": 7.510403490066528,
      "epoch": 0.3330721003134796,
      "grad_norm": 1.3515625,
      "learning_rate": 0.000212,
      "loss": 7.0654,
      "mean_token_accuracy": 0.0873202033340931,
      "num_tokens": 741248.0,
      "step": 425
    },
    {
      "entropy": 7.501159954071045,
      "epoch": 0.33699059561128525,
      "grad_norm": 1.1875,
      "learning_rate": 0.0002145,
      "loss": 7.1615,
      "mean_token_accuracy": 0.08190247714519501,
      "num_tokens": 749766.0,
      "step": 430
    },
    {
      "entropy": 7.408373832702637,
      "epoch": 0.3409090909090909,
      "grad_norm": 1.34375,
      "learning_rate": 0.00021700000000000002,
      "loss": 7.1268,
      "mean_token_accuracy": 0.08113668784499169,
      "num_tokens": 758695.0,
      "step": 435
    },
    {
      "entropy": 7.44956521987915,
      "epoch": 0.3448275862068966,
      "grad_norm": 1.234375,
      "learning_rate": 0.0002195,
      "loss": 7.1248,
      "mean_token_accuracy": 0.08192591443657875,
      "num_tokens": 767624.0,
      "step": 440
    },
    {
      "entropy": 7.422909212112427,
      "epoch": 0.3487460815047022,
      "grad_norm": 1.140625,
      "learning_rate": 0.000222,
      "loss": 7.117,
      "mean_token_accuracy": 0.0853099413216114,
      "num_tokens": 776616.0,
      "step": 445
    },
    {
      "entropy": 7.365292644500732,
      "epoch": 0.35266457680250785,
      "grad_norm": 1.203125,
      "learning_rate": 0.0002245,
      "loss": 7.1317,
      "mean_token_accuracy": 0.08413158729672432,
      "num_tokens": 786147.0,
      "step": 450
    },
    {
      "entropy": 7.536469745635986,
      "epoch": 0.3565830721003135,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00022700000000000002,
      "loss": 7.2317,
      "mean_token_accuracy": 0.08228531405329705,
      "num_tokens": 795213.0,
      "step": 455
    },
    {
      "entropy": 7.461417722702026,
      "epoch": 0.3605015673981191,
      "grad_norm": 1.28125,
      "learning_rate": 0.00022950000000000002,
      "loss": 7.0349,
      "mean_token_accuracy": 0.09094136133790016,
      "num_tokens": 803118.0,
      "step": 460
    },
    {
      "entropy": 7.444038438796997,
      "epoch": 0.36442006269592475,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00023200000000000003,
      "loss": 7.0219,
      "mean_token_accuracy": 0.09442275986075402,
      "num_tokens": 811358.0,
      "step": 465
    },
    {
      "entropy": 7.324700260162354,
      "epoch": 0.3683385579937304,
      "grad_norm": 1.515625,
      "learning_rate": 0.00023449999999999998,
      "loss": 7.0256,
      "mean_token_accuracy": 0.08778790757060051,
      "num_tokens": 819653.0,
      "step": 470
    },
    {
      "entropy": 7.2960240840911865,
      "epoch": 0.3722570532915361,
      "grad_norm": 1.34375,
      "learning_rate": 0.000237,
      "loss": 7.0511,
      "mean_token_accuracy": 0.08624262139201164,
      "num_tokens": 828462.0,
      "step": 475
    },
    {
      "entropy": 7.437795686721802,
      "epoch": 0.3761755485893417,
      "grad_norm": 1.09375,
      "learning_rate": 0.0002395,
      "loss": 7.1429,
      "mean_token_accuracy": 0.0912679947912693,
      "num_tokens": 836204.0,
      "step": 480
    },
    {
      "entropy": 7.2959794998168945,
      "epoch": 0.38009404388714735,
      "grad_norm": 1.3359375,
      "learning_rate": 0.000242,
      "loss": 7.0169,
      "mean_token_accuracy": 0.09246607050299645,
      "num_tokens": 845032.0,
      "step": 485
    },
    {
      "entropy": 7.4119359970092775,
      "epoch": 0.384012539184953,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002445,
      "loss": 7.0308,
      "mean_token_accuracy": 0.08805579245090485,
      "num_tokens": 853324.0,
      "step": 490
    },
    {
      "entropy": 7.404975366592407,
      "epoch": 0.3879310344827586,
      "grad_norm": 1.3203125,
      "learning_rate": 0.000247,
      "loss": 6.992,
      "mean_token_accuracy": 0.1035026639699936,
      "num_tokens": 861640.0,
      "step": 495
    },
    {
      "entropy": 7.385119247436523,
      "epoch": 0.39184952978056425,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002495,
      "loss": 7.1744,
      "mean_token_accuracy": 0.082430200278759,
      "num_tokens": 870758.0,
      "step": 500
    },
    {
      "epoch": 0.39184952978056425,
      "eval_entropy": 7.167502074278603,
      "eval_loss": 7.156619548797607,
      "eval_mean_token_accuracy": 0.08891707594152684,
      "eval_num_tokens": 870758.0,
      "eval_runtime": 2.8546,
      "eval_samples_per_second": 1444.004,
      "eval_steps_per_second": 180.763,
      "step": 500
    }
  ],
  "logging_steps": 5,
  "max_steps": 12750,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1156331556864000.0,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}