{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 1.0, "eval_steps": 500, "global_step": 188, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.005333333333333333, "grad_norm": 1.746924638748169, "learning_rate": 0.0, "loss": 0.8141, "step": 1 }, { "epoch": 0.010666666666666666, "grad_norm": 1.9308968782424927, "learning_rate": 3.3333333333333333e-06, "loss": 0.8447, "step": 2 }, { "epoch": 0.016, "grad_norm": 2.241525173187256, "learning_rate": 6.666666666666667e-06, "loss": 1.0083, "step": 3 }, { "epoch": 0.021333333333333333, "grad_norm": 1.841059684753418, "learning_rate": 1e-05, "loss": 0.7638, "step": 4 }, { "epoch": 0.02666666666666667, "grad_norm": 2.33056640625, "learning_rate": 1.3333333333333333e-05, "loss": 0.9904, "step": 5 }, { "epoch": 0.032, "grad_norm": 2.252580165863037, "learning_rate": 1.6666666666666667e-05, "loss": 1.0252, "step": 6 }, { "epoch": 0.037333333333333336, "grad_norm": 1.4516898393630981, "learning_rate": 2e-05, "loss": 0.6393, "step": 7 }, { "epoch": 0.042666666666666665, "grad_norm": 1.4791269302368164, "learning_rate": 2.3333333333333336e-05, "loss": 0.706, "step": 8 }, { "epoch": 0.048, "grad_norm": 1.1591944694519043, "learning_rate": 2.6666666666666667e-05, "loss": 0.6735, "step": 9 }, { "epoch": 0.05333333333333334, "grad_norm": 0.9729025959968567, "learning_rate": 3e-05, "loss": 0.6719, "step": 10 }, { "epoch": 0.058666666666666666, "grad_norm": 0.6450559496879578, "learning_rate": 3.3333333333333335e-05, "loss": 0.4736, "step": 11 }, { "epoch": 0.064, "grad_norm": 0.6503593921661377, "learning_rate": 3.6666666666666666e-05, "loss": 0.5247, "step": 12 }, { "epoch": 0.06933333333333333, "grad_norm": 0.5332368612289429, "learning_rate": 4e-05, "loss": 0.434, "step": 13 }, { "epoch": 0.07466666666666667, "grad_norm": 0.6222553253173828, "learning_rate": 4.3333333333333334e-05, "loss": 0.5687, "step": 14 }, { "epoch": 0.08, "grad_norm": 0.3672845959663391, "learning_rate": 4.666666666666667e-05, "loss": 0.4386, "step": 15 }, { "epoch": 0.08533333333333333, "grad_norm": 0.24374622106552124, "learning_rate": 5e-05, "loss": 0.3517, "step": 16 }, { "epoch": 0.09066666666666667, "grad_norm": 0.24802032113075256, "learning_rate": 5.333333333333333e-05, "loss": 0.3852, "step": 17 }, { "epoch": 0.096, "grad_norm": 0.17791776359081268, "learning_rate": 5.666666666666667e-05, "loss": 0.3418, "step": 18 }, { "epoch": 0.10133333333333333, "grad_norm": 0.18387196958065033, "learning_rate": 6e-05, "loss": 0.3156, "step": 19 }, { "epoch": 0.10666666666666667, "grad_norm": 0.1787329912185669, "learning_rate": 6.333333333333333e-05, "loss": 0.2458, "step": 20 }, { "epoch": 0.112, "grad_norm": 0.17297028005123138, "learning_rate": 6.666666666666667e-05, "loss": 0.2488, "step": 21 }, { "epoch": 0.11733333333333333, "grad_norm": 0.13506507873535156, "learning_rate": 7e-05, "loss": 0.2093, "step": 22 }, { "epoch": 0.12266666666666666, "grad_norm": 0.14805279672145844, "learning_rate": 7.333333333333333e-05, "loss": 0.2608, "step": 23 }, { "epoch": 0.128, "grad_norm": 0.19409948587417603, "learning_rate": 7.666666666666667e-05, "loss": 0.3446, "step": 24 }, { "epoch": 0.13333333333333333, "grad_norm": 0.1607305258512497, "learning_rate": 8e-05, "loss": 0.2051, "step": 25 }, { "epoch": 0.13866666666666666, "grad_norm": 0.16502907872200012, "learning_rate": 8.333333333333334e-05, "loss": 0.2917, "step": 26 }, { "epoch": 0.144, "grad_norm": 0.17512406408786774, "learning_rate": 8.666666666666667e-05, "loss": 0.3194, "step": 27 }, { "epoch": 0.14933333333333335, "grad_norm": 0.15871746838092804, "learning_rate": 9e-05, "loss": 0.2649, "step": 28 }, { "epoch": 0.15466666666666667, "grad_norm": 0.15295283496379852, "learning_rate": 9.333333333333334e-05, "loss": 0.229, "step": 29 }, { "epoch": 0.16, "grad_norm": 0.1826821267604828, "learning_rate": 9.666666666666667e-05, "loss": 0.279, "step": 30 }, { "epoch": 0.16533333333333333, "grad_norm": 0.15793408453464508, "learning_rate": 0.0001, "loss": 0.2379, "step": 31 }, { "epoch": 0.17066666666666666, "grad_norm": 0.19206447899341583, "learning_rate": 9.936708860759493e-05, "loss": 0.2642, "step": 32 }, { "epoch": 0.176, "grad_norm": 0.17058885097503662, "learning_rate": 9.873417721518988e-05, "loss": 0.2248, "step": 33 }, { "epoch": 0.18133333333333335, "grad_norm": 0.1335276961326599, "learning_rate": 9.810126582278482e-05, "loss": 0.1621, "step": 34 }, { "epoch": 0.18666666666666668, "grad_norm": 0.1617167443037033, "learning_rate": 9.746835443037975e-05, "loss": 0.1984, "step": 35 }, { "epoch": 0.192, "grad_norm": 0.17904643714427948, "learning_rate": 9.683544303797469e-05, "loss": 0.2454, "step": 36 }, { "epoch": 0.19733333333333333, "grad_norm": 0.15559159219264984, "learning_rate": 9.620253164556962e-05, "loss": 0.2341, "step": 37 }, { "epoch": 0.20266666666666666, "grad_norm": 0.14194993674755096, "learning_rate": 9.556962025316456e-05, "loss": 0.217, "step": 38 }, { "epoch": 0.208, "grad_norm": 0.15185421705245972, "learning_rate": 9.493670886075949e-05, "loss": 0.1662, "step": 39 }, { "epoch": 0.21333333333333335, "grad_norm": 0.13583584129810333, "learning_rate": 9.430379746835444e-05, "loss": 0.2149, "step": 40 }, { "epoch": 0.21866666666666668, "grad_norm": 0.1603499948978424, "learning_rate": 9.367088607594936e-05, "loss": 0.229, "step": 41 }, { "epoch": 0.224, "grad_norm": 0.1419871300458908, "learning_rate": 9.303797468354431e-05, "loss": 0.1616, "step": 42 }, { "epoch": 0.22933333333333333, "grad_norm": 0.1637117564678192, "learning_rate": 9.240506329113925e-05, "loss": 0.2522, "step": 43 }, { "epoch": 0.23466666666666666, "grad_norm": 0.13979066908359528, "learning_rate": 9.177215189873418e-05, "loss": 0.1829, "step": 44 }, { "epoch": 0.24, "grad_norm": 0.1488145887851715, "learning_rate": 9.113924050632912e-05, "loss": 0.191, "step": 45 }, { "epoch": 0.24533333333333332, "grad_norm": 0.16404511034488678, "learning_rate": 9.050632911392407e-05, "loss": 0.1956, "step": 46 }, { "epoch": 0.25066666666666665, "grad_norm": 0.11932151019573212, "learning_rate": 8.9873417721519e-05, "loss": 0.125, "step": 47 }, { "epoch": 0.256, "grad_norm": 0.18235373497009277, "learning_rate": 8.924050632911392e-05, "loss": 0.2195, "step": 48 }, { "epoch": 0.2613333333333333, "grad_norm": 0.16430987417697906, "learning_rate": 8.860759493670887e-05, "loss": 0.2063, "step": 49 }, { "epoch": 0.26666666666666666, "grad_norm": 0.15022100508213043, "learning_rate": 8.797468354430381e-05, "loss": 0.1953, "step": 50 }, { "epoch": 0.272, "grad_norm": 0.1551036387681961, "learning_rate": 8.734177215189874e-05, "loss": 0.2269, "step": 51 }, { "epoch": 0.2773333333333333, "grad_norm": 0.1697414368391037, "learning_rate": 8.670886075949367e-05, "loss": 0.2408, "step": 52 }, { "epoch": 0.2826666666666667, "grad_norm": 0.12897713482379913, "learning_rate": 8.607594936708861e-05, "loss": 0.1817, "step": 53 }, { "epoch": 0.288, "grad_norm": 0.1434086710214615, "learning_rate": 8.544303797468355e-05, "loss": 0.1614, "step": 54 }, { "epoch": 0.29333333333333333, "grad_norm": 0.12557050585746765, "learning_rate": 8.481012658227848e-05, "loss": 0.1688, "step": 55 }, { "epoch": 0.2986666666666667, "grad_norm": 0.15742561221122742, "learning_rate": 8.417721518987342e-05, "loss": 0.2325, "step": 56 }, { "epoch": 0.304, "grad_norm": 0.16152659058570862, "learning_rate": 8.354430379746835e-05, "loss": 0.2345, "step": 57 }, { "epoch": 0.30933333333333335, "grad_norm": 0.1614764928817749, "learning_rate": 8.29113924050633e-05, "loss": 0.274, "step": 58 }, { "epoch": 0.31466666666666665, "grad_norm": 0.16811072826385498, "learning_rate": 8.227848101265824e-05, "loss": 0.2989, "step": 59 }, { "epoch": 0.32, "grad_norm": 0.12028247863054276, "learning_rate": 8.164556962025317e-05, "loss": 0.159, "step": 60 }, { "epoch": 0.3253333333333333, "grad_norm": 0.1795029491186142, "learning_rate": 8.10126582278481e-05, "loss": 0.29, "step": 61 }, { "epoch": 0.33066666666666666, "grad_norm": 0.11937028169631958, "learning_rate": 8.037974683544304e-05, "loss": 0.1738, "step": 62 }, { "epoch": 0.336, "grad_norm": 0.1363399177789688, "learning_rate": 7.974683544303798e-05, "loss": 0.2296, "step": 63 }, { "epoch": 0.3413333333333333, "grad_norm": 0.14009876549243927, "learning_rate": 7.911392405063291e-05, "loss": 0.1906, "step": 64 }, { "epoch": 0.3466666666666667, "grad_norm": 0.13496369123458862, "learning_rate": 7.848101265822784e-05, "loss": 0.189, "step": 65 }, { "epoch": 0.352, "grad_norm": 0.13350044190883636, "learning_rate": 7.78481012658228e-05, "loss": 0.1932, "step": 66 }, { "epoch": 0.35733333333333334, "grad_norm": 0.20869667828083038, "learning_rate": 7.721518987341773e-05, "loss": 0.2261, "step": 67 }, { "epoch": 0.3626666666666667, "grad_norm": 0.14497730135917664, "learning_rate": 7.658227848101266e-05, "loss": 0.226, "step": 68 }, { "epoch": 0.368, "grad_norm": 0.11234032362699509, "learning_rate": 7.59493670886076e-05, "loss": 0.132, "step": 69 }, { "epoch": 0.37333333333333335, "grad_norm": 0.15158692002296448, "learning_rate": 7.531645569620254e-05, "loss": 0.215, "step": 70 }, { "epoch": 0.37866666666666665, "grad_norm": 0.14194871485233307, "learning_rate": 7.468354430379747e-05, "loss": 0.1803, "step": 71 }, { "epoch": 0.384, "grad_norm": 0.1524048149585724, "learning_rate": 7.40506329113924e-05, "loss": 0.1999, "step": 72 }, { "epoch": 0.3893333333333333, "grad_norm": 0.11127209663391113, "learning_rate": 7.341772151898734e-05, "loss": 0.0999, "step": 73 }, { "epoch": 0.39466666666666667, "grad_norm": 0.14734429121017456, "learning_rate": 7.278481012658229e-05, "loss": 0.2059, "step": 74 }, { "epoch": 0.4, "grad_norm": 0.17277581989765167, "learning_rate": 7.215189873417722e-05, "loss": 0.2607, "step": 75 }, { "epoch": 0.4053333333333333, "grad_norm": 0.13616883754730225, "learning_rate": 7.151898734177216e-05, "loss": 0.1766, "step": 76 }, { "epoch": 0.4106666666666667, "grad_norm": 0.14763596653938293, "learning_rate": 7.088607594936709e-05, "loss": 0.2121, "step": 77 }, { "epoch": 0.416, "grad_norm": 0.11276556551456451, "learning_rate": 7.025316455696203e-05, "loss": 0.1199, "step": 78 }, { "epoch": 0.42133333333333334, "grad_norm": 0.12745921313762665, "learning_rate": 6.962025316455697e-05, "loss": 0.1948, "step": 79 }, { "epoch": 0.4266666666666667, "grad_norm": 0.15664814412593842, "learning_rate": 6.89873417721519e-05, "loss": 0.1813, "step": 80 }, { "epoch": 0.432, "grad_norm": 0.15986552834510803, "learning_rate": 6.835443037974683e-05, "loss": 0.2115, "step": 81 }, { "epoch": 0.43733333333333335, "grad_norm": 0.12319787591695786, "learning_rate": 6.772151898734177e-05, "loss": 0.1684, "step": 82 }, { "epoch": 0.44266666666666665, "grad_norm": 0.13278864324092865, "learning_rate": 6.708860759493672e-05, "loss": 0.1493, "step": 83 }, { "epoch": 0.448, "grad_norm": 0.160485178232193, "learning_rate": 6.645569620253165e-05, "loss": 0.2157, "step": 84 }, { "epoch": 0.4533333333333333, "grad_norm": 0.1603892743587494, "learning_rate": 6.582278481012658e-05, "loss": 0.2417, "step": 85 }, { "epoch": 0.45866666666666667, "grad_norm": 0.12621915340423584, "learning_rate": 6.518987341772153e-05, "loss": 0.1886, "step": 86 }, { "epoch": 0.464, "grad_norm": 0.14578253030776978, "learning_rate": 6.455696202531646e-05, "loss": 0.1948, "step": 87 }, { "epoch": 0.4693333333333333, "grad_norm": 0.13876529037952423, "learning_rate": 6.392405063291139e-05, "loss": 0.1646, "step": 88 }, { "epoch": 0.4746666666666667, "grad_norm": 0.1616792380809784, "learning_rate": 6.329113924050633e-05, "loss": 0.1953, "step": 89 }, { "epoch": 0.48, "grad_norm": 0.12698979675769806, "learning_rate": 6.265822784810128e-05, "loss": 0.1601, "step": 90 }, { "epoch": 0.48533333333333334, "grad_norm": 0.1451568454504013, "learning_rate": 6.20253164556962e-05, "loss": 0.1826, "step": 91 }, { "epoch": 0.49066666666666664, "grad_norm": 0.1586282104253769, "learning_rate": 6.139240506329115e-05, "loss": 0.2058, "step": 92 }, { "epoch": 0.496, "grad_norm": 0.126449853181839, "learning_rate": 6.0759493670886084e-05, "loss": 0.1671, "step": 93 }, { "epoch": 0.5013333333333333, "grad_norm": 0.18127943575382233, "learning_rate": 6.012658227848101e-05, "loss": 0.2528, "step": 94 }, { "epoch": 0.5066666666666667, "grad_norm": 0.16556666791439056, "learning_rate": 5.949367088607595e-05, "loss": 0.2178, "step": 95 }, { "epoch": 0.512, "grad_norm": 0.10401889681816101, "learning_rate": 5.886075949367089e-05, "loss": 0.1278, "step": 96 }, { "epoch": 0.5173333333333333, "grad_norm": 0.12093523144721985, "learning_rate": 5.822784810126583e-05, "loss": 0.1512, "step": 97 }, { "epoch": 0.5226666666666666, "grad_norm": 0.12867151200771332, "learning_rate": 5.759493670886076e-05, "loss": 0.1642, "step": 98 }, { "epoch": 0.528, "grad_norm": 0.13769415020942688, "learning_rate": 5.69620253164557e-05, "loss": 0.1726, "step": 99 }, { "epoch": 0.5333333333333333, "grad_norm": 0.17420509457588196, "learning_rate": 5.6329113924050636e-05, "loss": 0.2393, "step": 100 }, { "epoch": 0.5386666666666666, "grad_norm": 0.1308838427066803, "learning_rate": 5.569620253164557e-05, "loss": 0.1723, "step": 101 }, { "epoch": 0.544, "grad_norm": 0.1321798712015152, "learning_rate": 5.5063291139240514e-05, "loss": 0.1587, "step": 102 }, { "epoch": 0.5493333333333333, "grad_norm": 0.15055890381336212, "learning_rate": 5.4430379746835444e-05, "loss": 0.1977, "step": 103 }, { "epoch": 0.5546666666666666, "grad_norm": 0.14256933331489563, "learning_rate": 5.379746835443038e-05, "loss": 0.1873, "step": 104 }, { "epoch": 0.56, "grad_norm": 0.1891760677099228, "learning_rate": 5.3164556962025316e-05, "loss": 0.1843, "step": 105 }, { "epoch": 0.5653333333333334, "grad_norm": 0.10690660029649734, "learning_rate": 5.253164556962026e-05, "loss": 0.1212, "step": 106 }, { "epoch": 0.5706666666666667, "grad_norm": 0.16488677263259888, "learning_rate": 5.1898734177215194e-05, "loss": 0.2054, "step": 107 }, { "epoch": 0.576, "grad_norm": 0.13484089076519012, "learning_rate": 5.1265822784810124e-05, "loss": 0.1829, "step": 108 }, { "epoch": 0.5813333333333334, "grad_norm": 0.1691252887248993, "learning_rate": 5.0632911392405066e-05, "loss": 0.1925, "step": 109 }, { "epoch": 0.5866666666666667, "grad_norm": 0.1696198731660843, "learning_rate": 5e-05, "loss": 0.2323, "step": 110 }, { "epoch": 0.592, "grad_norm": 0.1563945859670639, "learning_rate": 4.936708860759494e-05, "loss": 0.1679, "step": 111 }, { "epoch": 0.5973333333333334, "grad_norm": 0.13193953037261963, "learning_rate": 4.8734177215189874e-05, "loss": 0.1569, "step": 112 }, { "epoch": 0.6026666666666667, "grad_norm": 0.15868982672691345, "learning_rate": 4.810126582278481e-05, "loss": 0.239, "step": 113 }, { "epoch": 0.608, "grad_norm": 0.1480822116136551, "learning_rate": 4.7468354430379746e-05, "loss": 0.1984, "step": 114 }, { "epoch": 0.6133333333333333, "grad_norm": 0.16956281661987305, "learning_rate": 4.683544303797468e-05, "loss": 0.2323, "step": 115 }, { "epoch": 0.6186666666666667, "grad_norm": 0.12711571156978607, "learning_rate": 4.6202531645569625e-05, "loss": 0.1486, "step": 116 }, { "epoch": 0.624, "grad_norm": 0.11603932827711105, "learning_rate": 4.556962025316456e-05, "loss": 0.1547, "step": 117 }, { "epoch": 0.6293333333333333, "grad_norm": 0.11850297451019287, "learning_rate": 4.49367088607595e-05, "loss": 0.1356, "step": 118 }, { "epoch": 0.6346666666666667, "grad_norm": 0.16562144458293915, "learning_rate": 4.430379746835443e-05, "loss": 0.2406, "step": 119 }, { "epoch": 0.64, "grad_norm": 0.1265309900045395, "learning_rate": 4.367088607594937e-05, "loss": 0.1736, "step": 120 }, { "epoch": 0.6453333333333333, "grad_norm": 0.17079362273216248, "learning_rate": 4.3037974683544305e-05, "loss": 0.1937, "step": 121 }, { "epoch": 0.6506666666666666, "grad_norm": 0.1389741599559784, "learning_rate": 4.240506329113924e-05, "loss": 0.1974, "step": 122 }, { "epoch": 0.656, "grad_norm": 0.13425692915916443, "learning_rate": 4.177215189873418e-05, "loss": 0.1443, "step": 123 }, { "epoch": 0.6613333333333333, "grad_norm": 0.1376042515039444, "learning_rate": 4.113924050632912e-05, "loss": 0.1924, "step": 124 }, { "epoch": 0.6666666666666666, "grad_norm": 0.14821627736091614, "learning_rate": 4.050632911392405e-05, "loss": 0.2073, "step": 125 }, { "epoch": 0.672, "grad_norm": 0.12331584841012955, "learning_rate": 3.987341772151899e-05, "loss": 0.1482, "step": 126 }, { "epoch": 0.6773333333333333, "grad_norm": 0.15582060813903809, "learning_rate": 3.924050632911392e-05, "loss": 0.2212, "step": 127 }, { "epoch": 0.6826666666666666, "grad_norm": 0.16102227568626404, "learning_rate": 3.8607594936708864e-05, "loss": 0.1532, "step": 128 }, { "epoch": 0.688, "grad_norm": 0.1103634163737297, "learning_rate": 3.79746835443038e-05, "loss": 0.1181, "step": 129 }, { "epoch": 0.6933333333333334, "grad_norm": 0.16423048079013824, "learning_rate": 3.7341772151898736e-05, "loss": 0.2143, "step": 130 }, { "epoch": 0.6986666666666667, "grad_norm": 0.17057235538959503, "learning_rate": 3.670886075949367e-05, "loss": 0.2523, "step": 131 }, { "epoch": 0.704, "grad_norm": 0.15037867426872253, "learning_rate": 3.607594936708861e-05, "loss": 0.1923, "step": 132 }, { "epoch": 0.7093333333333334, "grad_norm": 0.1302623301744461, "learning_rate": 3.5443037974683544e-05, "loss": 0.1548, "step": 133 }, { "epoch": 0.7146666666666667, "grad_norm": 0.1799686998128891, "learning_rate": 3.4810126582278487e-05, "loss": 0.2213, "step": 134 }, { "epoch": 0.72, "grad_norm": 0.16243714094161987, "learning_rate": 3.4177215189873416e-05, "loss": 0.2271, "step": 135 }, { "epoch": 0.7253333333333334, "grad_norm": 0.15786361694335938, "learning_rate": 3.354430379746836e-05, "loss": 0.1929, "step": 136 }, { "epoch": 0.7306666666666667, "grad_norm": 0.1659296452999115, "learning_rate": 3.291139240506329e-05, "loss": 0.2012, "step": 137 }, { "epoch": 0.736, "grad_norm": 0.1669580638408661, "learning_rate": 3.227848101265823e-05, "loss": 0.2366, "step": 138 }, { "epoch": 0.7413333333333333, "grad_norm": 0.1677357405424118, "learning_rate": 3.1645569620253167e-05, "loss": 0.1356, "step": 139 }, { "epoch": 0.7466666666666667, "grad_norm": 0.1611364781856537, "learning_rate": 3.10126582278481e-05, "loss": 0.1834, "step": 140 }, { "epoch": 0.752, "grad_norm": 0.12342645227909088, "learning_rate": 3.0379746835443042e-05, "loss": 0.1512, "step": 141 }, { "epoch": 0.7573333333333333, "grad_norm": 0.16382642090320587, "learning_rate": 2.9746835443037974e-05, "loss": 0.1973, "step": 142 }, { "epoch": 0.7626666666666667, "grad_norm": 0.26784276962280273, "learning_rate": 2.9113924050632914e-05, "loss": 0.2039, "step": 143 }, { "epoch": 0.768, "grad_norm": 0.160665825009346, "learning_rate": 2.848101265822785e-05, "loss": 0.1771, "step": 144 }, { "epoch": 0.7733333333333333, "grad_norm": 0.13571235537528992, "learning_rate": 2.7848101265822786e-05, "loss": 0.1552, "step": 145 }, { "epoch": 0.7786666666666666, "grad_norm": 0.13227950036525726, "learning_rate": 2.7215189873417722e-05, "loss": 0.1445, "step": 146 }, { "epoch": 0.784, "grad_norm": 0.13377326726913452, "learning_rate": 2.6582278481012658e-05, "loss": 0.1363, "step": 147 }, { "epoch": 0.7893333333333333, "grad_norm": 0.12943589687347412, "learning_rate": 2.5949367088607597e-05, "loss": 0.1529, "step": 148 }, { "epoch": 0.7946666666666666, "grad_norm": 0.14642001688480377, "learning_rate": 2.5316455696202533e-05, "loss": 0.1671, "step": 149 }, { "epoch": 0.8, "grad_norm": 0.13453510403633118, "learning_rate": 2.468354430379747e-05, "loss": 0.1393, "step": 150 }, { "epoch": 0.8053333333333333, "grad_norm": 0.17854619026184082, "learning_rate": 2.4050632911392405e-05, "loss": 0.2249, "step": 151 }, { "epoch": 0.8106666666666666, "grad_norm": 0.15678606927394867, "learning_rate": 2.341772151898734e-05, "loss": 0.157, "step": 152 }, { "epoch": 0.816, "grad_norm": 0.14463680982589722, "learning_rate": 2.278481012658228e-05, "loss": 0.169, "step": 153 }, { "epoch": 0.8213333333333334, "grad_norm": 0.1475188136100769, "learning_rate": 2.2151898734177217e-05, "loss": 0.1793, "step": 154 }, { "epoch": 0.8266666666666667, "grad_norm": 0.15377303957939148, "learning_rate": 2.1518987341772153e-05, "loss": 0.1826, "step": 155 }, { "epoch": 0.832, "grad_norm": 0.16202978789806366, "learning_rate": 2.088607594936709e-05, "loss": 0.2161, "step": 156 }, { "epoch": 0.8373333333333334, "grad_norm": 0.15673409402370453, "learning_rate": 2.0253164556962025e-05, "loss": 0.2005, "step": 157 }, { "epoch": 0.8426666666666667, "grad_norm": 0.14116322994232178, "learning_rate": 1.962025316455696e-05, "loss": 0.1373, "step": 158 }, { "epoch": 0.848, "grad_norm": 0.1561654955148697, "learning_rate": 1.89873417721519e-05, "loss": 0.1734, "step": 159 }, { "epoch": 0.8533333333333334, "grad_norm": 0.18432879447937012, "learning_rate": 1.8354430379746836e-05, "loss": 0.2454, "step": 160 }, { "epoch": 0.8586666666666667, "grad_norm": 0.14886623620986938, "learning_rate": 1.7721518987341772e-05, "loss": 0.1513, "step": 161 }, { "epoch": 0.864, "grad_norm": 0.14145126938819885, "learning_rate": 1.7088607594936708e-05, "loss": 0.1657, "step": 162 }, { "epoch": 0.8693333333333333, "grad_norm": 0.19166818261146545, "learning_rate": 1.6455696202531644e-05, "loss": 0.1527, "step": 163 }, { "epoch": 0.8746666666666667, "grad_norm": 0.18148699402809143, "learning_rate": 1.5822784810126583e-05, "loss": 0.2148, "step": 164 }, { "epoch": 0.88, "grad_norm": 0.171259805560112, "learning_rate": 1.5189873417721521e-05, "loss": 0.1924, "step": 165 }, { "epoch": 0.8853333333333333, "grad_norm": 0.1299830675125122, "learning_rate": 1.4556962025316457e-05, "loss": 0.1242, "step": 166 }, { "epoch": 0.8906666666666667, "grad_norm": 0.1578158438205719, "learning_rate": 1.3924050632911393e-05, "loss": 0.1791, "step": 167 }, { "epoch": 0.896, "grad_norm": 0.1323413848876953, "learning_rate": 1.3291139240506329e-05, "loss": 0.1598, "step": 168 }, { "epoch": 0.9013333333333333, "grad_norm": 0.14472290873527527, "learning_rate": 1.2658227848101267e-05, "loss": 0.1456, "step": 169 }, { "epoch": 0.9066666666666666, "grad_norm": 0.17121444642543793, "learning_rate": 1.2025316455696203e-05, "loss": 0.215, "step": 170 }, { "epoch": 0.912, "grad_norm": 0.1742616444826126, "learning_rate": 1.139240506329114e-05, "loss": 0.2085, "step": 171 }, { "epoch": 0.9173333333333333, "grad_norm": 0.12103644013404846, "learning_rate": 1.0759493670886076e-05, "loss": 0.1306, "step": 172 }, { "epoch": 0.9226666666666666, "grad_norm": 0.144947811961174, "learning_rate": 1.0126582278481012e-05, "loss": 0.2029, "step": 173 }, { "epoch": 0.928, "grad_norm": 0.17523261904716492, "learning_rate": 9.49367088607595e-06, "loss": 0.2219, "step": 174 }, { "epoch": 0.9333333333333333, "grad_norm": 0.14600244164466858, "learning_rate": 8.860759493670886e-06, "loss": 0.1699, "step": 175 }, { "epoch": 0.9386666666666666, "grad_norm": 0.1734965592622757, "learning_rate": 8.227848101265822e-06, "loss": 0.1868, "step": 176 }, { "epoch": 0.944, "grad_norm": 0.1788223683834076, "learning_rate": 7.5949367088607605e-06, "loss": 0.1927, "step": 177 }, { "epoch": 0.9493333333333334, "grad_norm": 0.1603429764509201, "learning_rate": 6.9620253164556965e-06, "loss": 0.1962, "step": 178 }, { "epoch": 0.9546666666666667, "grad_norm": 0.15826277434825897, "learning_rate": 6.329113924050633e-06, "loss": 0.1816, "step": 179 }, { "epoch": 0.96, "grad_norm": 0.11322139203548431, "learning_rate": 5.69620253164557e-06, "loss": 0.1177, "step": 180 }, { "epoch": 0.9653333333333334, "grad_norm": 0.19492222368717194, "learning_rate": 5.063291139240506e-06, "loss": 0.2496, "step": 181 }, { "epoch": 0.9706666666666667, "grad_norm": 0.1443648338317871, "learning_rate": 4.430379746835443e-06, "loss": 0.126, "step": 182 }, { "epoch": 0.976, "grad_norm": 0.18191151320934296, "learning_rate": 3.7974683544303802e-06, "loss": 0.2361, "step": 183 }, { "epoch": 0.9813333333333333, "grad_norm": 0.12477072328329086, "learning_rate": 3.1645569620253167e-06, "loss": 0.1435, "step": 184 }, { "epoch": 0.9866666666666667, "grad_norm": 0.22925758361816406, "learning_rate": 2.531645569620253e-06, "loss": 0.2352, "step": 185 }, { "epoch": 0.992, "grad_norm": 0.11586166173219681, "learning_rate": 1.8987341772151901e-06, "loss": 0.1176, "step": 186 }, { "epoch": 0.9973333333333333, "grad_norm": 0.15345175564289093, "learning_rate": 1.2658227848101265e-06, "loss": 0.1516, "step": 187 }, { "epoch": 1.0, "grad_norm": 0.24706584215164185, "learning_rate": 6.329113924050633e-07, "loss": 0.2232, "step": 188 } ], "logging_steps": 1, "max_steps": 188, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 5000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 2.6526762869883494e+17, "train_batch_size": 1, "trial_name": null, "trial_params": null }