{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 1.0, "eval_steps": 500, "global_step": 188, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.005333333333333333, "grad_norm": 1.5244966745376587, "learning_rate": 0.0, "loss": 0.8747, "step": 1 }, { "epoch": 0.010666666666666666, "grad_norm": 1.6625869274139404, "learning_rate": 3.3333333333333333e-06, "loss": 0.7995, "step": 2 }, { "epoch": 0.016, "grad_norm": 2.075653076171875, "learning_rate": 6.666666666666667e-06, "loss": 1.0415, "step": 3 }, { "epoch": 0.021333333333333333, "grad_norm": 1.8500157594680786, "learning_rate": 1e-05, "loss": 0.8975, "step": 4 }, { "epoch": 0.02666666666666667, "grad_norm": 1.7503248453140259, "learning_rate": 1.3333333333333333e-05, "loss": 0.8734, "step": 5 }, { "epoch": 0.032, "grad_norm": 1.4209932088851929, "learning_rate": 1.6666666666666667e-05, "loss": 0.857, "step": 6 }, { "epoch": 0.037333333333333336, "grad_norm": 1.2780250310897827, "learning_rate": 2e-05, "loss": 0.6014, "step": 7 }, { "epoch": 0.042666666666666665, "grad_norm": 1.527902364730835, "learning_rate": 2.3333333333333336e-05, "loss": 0.7811, "step": 8 }, { "epoch": 0.048, "grad_norm": 1.2061984539031982, "learning_rate": 2.6666666666666667e-05, "loss": 0.6983, "step": 9 }, { "epoch": 0.05333333333333334, "grad_norm": 0.7721861004829407, "learning_rate": 3e-05, "loss": 0.5617, "step": 10 }, { "epoch": 0.058666666666666666, "grad_norm": 0.6221023201942444, "learning_rate": 3.3333333333333335e-05, "loss": 0.5044, "step": 11 }, { "epoch": 0.064, "grad_norm": 0.726941704750061, "learning_rate": 3.6666666666666666e-05, "loss": 0.5903, "step": 12 }, { "epoch": 0.06933333333333333, "grad_norm": 0.4955669343471527, "learning_rate": 4e-05, "loss": 0.3213, "step": 13 }, { "epoch": 0.07466666666666667, "grad_norm": 0.5396461486816406, "learning_rate": 4.3333333333333334e-05, "loss": 0.6034, "step": 14 }, { "epoch": 0.08, "grad_norm": 0.3335428833961487, "learning_rate": 4.666666666666667e-05, "loss": 0.4055, "step": 15 }, { "epoch": 0.08533333333333333, "grad_norm": 0.26744455099105835, "learning_rate": 5e-05, "loss": 0.3736, "step": 16 }, { "epoch": 0.09066666666666667, "grad_norm": 0.2570435702800751, "learning_rate": 5.333333333333333e-05, "loss": 0.3937, "step": 17 }, { "epoch": 0.096, "grad_norm": 0.18787628412246704, "learning_rate": 5.666666666666667e-05, "loss": 0.307, "step": 18 }, { "epoch": 0.10133333333333333, "grad_norm": 0.18758271634578705, "learning_rate": 6e-05, "loss": 0.3396, "step": 19 }, { "epoch": 0.10666666666666667, "grad_norm": 0.1243983581662178, "learning_rate": 6.333333333333333e-05, "loss": 0.2306, "step": 20 }, { "epoch": 0.112, "grad_norm": 0.10289949178695679, "learning_rate": 6.666666666666667e-05, "loss": 0.1719, "step": 21 }, { "epoch": 0.11733333333333333, "grad_norm": 0.15645940601825714, "learning_rate": 7e-05, "loss": 0.2331, "step": 22 }, { "epoch": 0.12266666666666666, "grad_norm": 0.14994366466999054, "learning_rate": 7.333333333333333e-05, "loss": 0.2899, "step": 23 }, { "epoch": 0.128, "grad_norm": 0.14424829185009003, "learning_rate": 7.666666666666667e-05, "loss": 0.2872, "step": 24 }, { "epoch": 0.13333333333333333, "grad_norm": 0.1719583123922348, "learning_rate": 8e-05, "loss": 0.3024, "step": 25 }, { "epoch": 0.13866666666666666, "grad_norm": 0.1683669090270996, "learning_rate": 8.333333333333334e-05, "loss": 0.3056, "step": 26 }, { "epoch": 0.144, "grad_norm": 0.16605232656002045, "learning_rate": 8.666666666666667e-05, "loss": 0.2812, "step": 27 }, { "epoch": 0.14933333333333335, "grad_norm": 0.14035698771476746, "learning_rate": 9e-05, "loss": 0.2623, "step": 28 }, { "epoch": 0.15466666666666667, "grad_norm": 0.15038567781448364, "learning_rate": 9.333333333333334e-05, "loss": 0.2398, "step": 29 }, { "epoch": 0.16, "grad_norm": 0.17879165709018707, "learning_rate": 9.666666666666667e-05, "loss": 0.3207, "step": 30 }, { "epoch": 0.16533333333333333, "grad_norm": 0.15830092132091522, "learning_rate": 0.0001, "loss": 0.2238, "step": 31 }, { "epoch": 0.17066666666666666, "grad_norm": 0.15147104859352112, "learning_rate": 9.936708860759493e-05, "loss": 0.2298, "step": 32 }, { "epoch": 0.176, "grad_norm": 0.1246795654296875, "learning_rate": 9.873417721518988e-05, "loss": 0.135, "step": 33 }, { "epoch": 0.18133333333333335, "grad_norm": 0.14666695892810822, "learning_rate": 9.810126582278482e-05, "loss": 0.181, "step": 34 }, { "epoch": 0.18666666666666668, "grad_norm": 0.14448311924934387, "learning_rate": 9.746835443037975e-05, "loss": 0.1517, "step": 35 }, { "epoch": 0.192, "grad_norm": 0.1554463803768158, "learning_rate": 9.683544303797469e-05, "loss": 0.2303, "step": 36 }, { "epoch": 0.19733333333333333, "grad_norm": 0.16792212426662445, "learning_rate": 9.620253164556962e-05, "loss": 0.1913, "step": 37 }, { "epoch": 0.20266666666666666, "grad_norm": 0.16655613481998444, "learning_rate": 9.556962025316456e-05, "loss": 0.2667, "step": 38 }, { "epoch": 0.208, "grad_norm": 0.14422154426574707, "learning_rate": 9.493670886075949e-05, "loss": 0.2027, "step": 39 }, { "epoch": 0.21333333333333335, "grad_norm": 0.15465523302555084, "learning_rate": 9.430379746835444e-05, "loss": 0.2198, "step": 40 }, { "epoch": 0.21866666666666668, "grad_norm": 0.1457090824842453, "learning_rate": 9.367088607594936e-05, "loss": 0.1846, "step": 41 }, { "epoch": 0.224, "grad_norm": 0.18521079421043396, "learning_rate": 9.303797468354431e-05, "loss": 0.2154, "step": 42 }, { "epoch": 0.22933333333333333, "grad_norm": 0.1954275220632553, "learning_rate": 9.240506329113925e-05, "loss": 0.2337, "step": 43 }, { "epoch": 0.23466666666666666, "grad_norm": 0.12071781605482101, "learning_rate": 9.177215189873418e-05, "loss": 0.1688, "step": 44 }, { "epoch": 0.24, "grad_norm": 0.14796920120716095, "learning_rate": 9.113924050632912e-05, "loss": 0.1987, "step": 45 }, { "epoch": 0.24533333333333332, "grad_norm": 0.16506852209568024, "learning_rate": 9.050632911392407e-05, "loss": 0.2192, "step": 46 }, { "epoch": 0.25066666666666665, "grad_norm": 0.13638021051883698, "learning_rate": 8.9873417721519e-05, "loss": 0.1904, "step": 47 }, { "epoch": 0.256, "grad_norm": 0.1311766654253006, "learning_rate": 8.924050632911392e-05, "loss": 0.177, "step": 48 }, { "epoch": 0.2613333333333333, "grad_norm": 0.1470109224319458, "learning_rate": 8.860759493670887e-05, "loss": 0.1856, "step": 49 }, { "epoch": 0.26666666666666666, "grad_norm": 0.12755663692951202, "learning_rate": 8.797468354430381e-05, "loss": 0.2054, "step": 50 }, { "epoch": 0.272, "grad_norm": 0.12156207859516144, "learning_rate": 8.734177215189874e-05, "loss": 0.202, "step": 51 }, { "epoch": 0.2773333333333333, "grad_norm": 0.12562747299671173, "learning_rate": 8.670886075949367e-05, "loss": 0.2154, "step": 52 }, { "epoch": 0.2826666666666667, "grad_norm": 0.1033131331205368, "learning_rate": 8.607594936708861e-05, "loss": 0.1287, "step": 53 }, { "epoch": 0.288, "grad_norm": 0.13858231902122498, "learning_rate": 8.544303797468355e-05, "loss": 0.1969, "step": 54 }, { "epoch": 0.29333333333333333, "grad_norm": 0.11134616285562515, "learning_rate": 8.481012658227848e-05, "loss": 0.1635, "step": 55 }, { "epoch": 0.2986666666666667, "grad_norm": 0.14637276530265808, "learning_rate": 8.417721518987342e-05, "loss": 0.2683, "step": 56 }, { "epoch": 0.304, "grad_norm": 0.11500333994626999, "learning_rate": 8.354430379746835e-05, "loss": 0.1493, "step": 57 }, { "epoch": 0.30933333333333335, "grad_norm": 0.12631365656852722, "learning_rate": 8.29113924050633e-05, "loss": 0.1952, "step": 58 }, { "epoch": 0.31466666666666665, "grad_norm": 0.17529994249343872, "learning_rate": 8.227848101265824e-05, "loss": 0.2563, "step": 59 }, { "epoch": 0.32, "grad_norm": 0.11608126759529114, "learning_rate": 8.164556962025317e-05, "loss": 0.1643, "step": 60 }, { "epoch": 0.3253333333333333, "grad_norm": 0.15890997648239136, "learning_rate": 8.10126582278481e-05, "loss": 0.2477, "step": 61 }, { "epoch": 0.33066666666666666, "grad_norm": 0.13691028952598572, "learning_rate": 8.037974683544304e-05, "loss": 0.181, "step": 62 }, { "epoch": 0.336, "grad_norm": 0.16794580221176147, "learning_rate": 7.974683544303798e-05, "loss": 0.2508, "step": 63 }, { "epoch": 0.3413333333333333, "grad_norm": 0.14038850367069244, "learning_rate": 7.911392405063291e-05, "loss": 0.1881, "step": 64 }, { "epoch": 0.3466666666666667, "grad_norm": 0.12197761982679367, "learning_rate": 7.848101265822784e-05, "loss": 0.2163, "step": 65 }, { "epoch": 0.352, "grad_norm": 0.12509499490261078, "learning_rate": 7.78481012658228e-05, "loss": 0.16, "step": 66 }, { "epoch": 0.35733333333333334, "grad_norm": 0.13360801339149475, "learning_rate": 7.721518987341773e-05, "loss": 0.1691, "step": 67 }, { "epoch": 0.3626666666666667, "grad_norm": 0.14919808506965637, "learning_rate": 7.658227848101266e-05, "loss": 0.2381, "step": 68 }, { "epoch": 0.368, "grad_norm": 0.13042998313903809, "learning_rate": 7.59493670886076e-05, "loss": 0.1638, "step": 69 }, { "epoch": 0.37333333333333335, "grad_norm": 0.16224266588687897, "learning_rate": 7.531645569620254e-05, "loss": 0.2437, "step": 70 }, { "epoch": 0.37866666666666665, "grad_norm": 0.11836297065019608, "learning_rate": 7.468354430379747e-05, "loss": 0.1454, "step": 71 }, { "epoch": 0.384, "grad_norm": 0.11804986745119095, "learning_rate": 7.40506329113924e-05, "loss": 0.1813, "step": 72 }, { "epoch": 0.3893333333333333, "grad_norm": 0.12146873772144318, "learning_rate": 7.341772151898734e-05, "loss": 0.1454, "step": 73 }, { "epoch": 0.39466666666666667, "grad_norm": 0.1420845240354538, "learning_rate": 7.278481012658229e-05, "loss": 0.1981, "step": 74 }, { "epoch": 0.4, "grad_norm": 0.19067393243312836, "learning_rate": 7.215189873417722e-05, "loss": 0.2599, "step": 75 }, { "epoch": 0.4053333333333333, "grad_norm": 0.11173677444458008, "learning_rate": 7.151898734177216e-05, "loss": 0.1282, "step": 76 }, { "epoch": 0.4106666666666667, "grad_norm": 0.12630920112133026, "learning_rate": 7.088607594936709e-05, "loss": 0.1744, "step": 77 }, { "epoch": 0.416, "grad_norm": 0.10535226762294769, "learning_rate": 7.025316455696203e-05, "loss": 0.1173, "step": 78 }, { "epoch": 0.42133333333333334, "grad_norm": 0.123932383954525, "learning_rate": 6.962025316455697e-05, "loss": 0.1753, "step": 79 }, { "epoch": 0.4266666666666667, "grad_norm": 0.10344599932432175, "learning_rate": 6.89873417721519e-05, "loss": 0.1209, "step": 80 }, { "epoch": 0.432, "grad_norm": 0.11588889360427856, "learning_rate": 6.835443037974683e-05, "loss": 0.1493, "step": 81 }, { "epoch": 0.43733333333333335, "grad_norm": 0.15627896785736084, "learning_rate": 6.772151898734177e-05, "loss": 0.1694, "step": 82 }, { "epoch": 0.44266666666666665, "grad_norm": 0.14579550921916962, "learning_rate": 6.708860759493672e-05, "loss": 0.174, "step": 83 }, { "epoch": 0.448, "grad_norm": 0.11701271682977676, "learning_rate": 6.645569620253165e-05, "loss": 0.1506, "step": 84 }, { "epoch": 0.4533333333333333, "grad_norm": 0.12071877717971802, "learning_rate": 6.582278481012658e-05, "loss": 0.1558, "step": 85 }, { "epoch": 0.45866666666666667, "grad_norm": 0.17169909179210663, "learning_rate": 6.518987341772153e-05, "loss": 0.2527, "step": 86 }, { "epoch": 0.464, "grad_norm": 0.1404753476381302, "learning_rate": 6.455696202531646e-05, "loss": 0.2124, "step": 87 }, { "epoch": 0.4693333333333333, "grad_norm": 0.12540891766548157, "learning_rate": 6.392405063291139e-05, "loss": 0.1328, "step": 88 }, { "epoch": 0.4746666666666667, "grad_norm": 0.16704794764518738, "learning_rate": 6.329113924050633e-05, "loss": 0.1899, "step": 89 }, { "epoch": 0.48, "grad_norm": 0.09160376340150833, "learning_rate": 6.265822784810128e-05, "loss": 0.0899, "step": 90 }, { "epoch": 0.48533333333333334, "grad_norm": 0.12481855601072311, "learning_rate": 6.20253164556962e-05, "loss": 0.2039, "step": 91 }, { "epoch": 0.49066666666666664, "grad_norm": 0.12187805771827698, "learning_rate": 6.139240506329115e-05, "loss": 0.1191, "step": 92 }, { "epoch": 0.496, "grad_norm": 0.12306909263134003, "learning_rate": 6.0759493670886084e-05, "loss": 0.1577, "step": 93 }, { "epoch": 0.5013333333333333, "grad_norm": 0.1517246514558792, "learning_rate": 6.012658227848101e-05, "loss": 0.1806, "step": 94 }, { "epoch": 0.5066666666666667, "grad_norm": 0.12421153485774994, "learning_rate": 5.949367088607595e-05, "loss": 0.1366, "step": 95 }, { "epoch": 0.512, "grad_norm": 0.11954925954341888, "learning_rate": 5.886075949367089e-05, "loss": 0.1342, "step": 96 }, { "epoch": 0.5173333333333333, "grad_norm": 0.14524592459201813, "learning_rate": 5.822784810126583e-05, "loss": 0.171, "step": 97 }, { "epoch": 0.5226666666666666, "grad_norm": 0.1605830192565918, "learning_rate": 5.759493670886076e-05, "loss": 0.1893, "step": 98 }, { "epoch": 0.528, "grad_norm": 0.15237444639205933, "learning_rate": 5.69620253164557e-05, "loss": 0.2264, "step": 99 }, { "epoch": 0.5333333333333333, "grad_norm": 0.13282237946987152, "learning_rate": 5.6329113924050636e-05, "loss": 0.1919, "step": 100 }, { "epoch": 0.5386666666666666, "grad_norm": 0.14186762273311615, "learning_rate": 5.569620253164557e-05, "loss": 0.1494, "step": 101 }, { "epoch": 0.544, "grad_norm": 0.1203412190079689, "learning_rate": 5.5063291139240514e-05, "loss": 0.1494, "step": 102 }, { "epoch": 0.5493333333333333, "grad_norm": 0.13143344223499298, "learning_rate": 5.4430379746835444e-05, "loss": 0.1719, "step": 103 }, { "epoch": 0.5546666666666666, "grad_norm": 0.12718938291072845, "learning_rate": 5.379746835443038e-05, "loss": 0.1983, "step": 104 }, { "epoch": 0.56, "grad_norm": 0.12441940605640411, "learning_rate": 5.3164556962025316e-05, "loss": 0.1595, "step": 105 }, { "epoch": 0.5653333333333334, "grad_norm": 0.13307397067546844, "learning_rate": 5.253164556962026e-05, "loss": 0.1913, "step": 106 }, { "epoch": 0.5706666666666667, "grad_norm": 0.14008662104606628, "learning_rate": 5.1898734177215194e-05, "loss": 0.1861, "step": 107 }, { "epoch": 0.576, "grad_norm": 0.1288226842880249, "learning_rate": 5.1265822784810124e-05, "loss": 0.1855, "step": 108 }, { "epoch": 0.5813333333333334, "grad_norm": 0.16353213787078857, "learning_rate": 5.0632911392405066e-05, "loss": 0.1612, "step": 109 }, { "epoch": 0.5866666666666667, "grad_norm": 0.1348782181739807, "learning_rate": 5e-05, "loss": 0.1956, "step": 110 }, { "epoch": 0.592, "grad_norm": 0.12835703790187836, "learning_rate": 4.936708860759494e-05, "loss": 0.1519, "step": 111 }, { "epoch": 0.5973333333333334, "grad_norm": 0.1121419295668602, "learning_rate": 4.8734177215189874e-05, "loss": 0.1658, "step": 112 }, { "epoch": 0.6026666666666667, "grad_norm": 0.12903057038784027, "learning_rate": 4.810126582278481e-05, "loss": 0.1995, "step": 113 }, { "epoch": 0.608, "grad_norm": 0.1511698216199875, "learning_rate": 4.7468354430379746e-05, "loss": 0.2288, "step": 114 }, { "epoch": 0.6133333333333333, "grad_norm": 0.12376526743173599, "learning_rate": 4.683544303797468e-05, "loss": 0.1506, "step": 115 }, { "epoch": 0.6186666666666667, "grad_norm": 0.11870298534631729, "learning_rate": 4.6202531645569625e-05, "loss": 0.1448, "step": 116 }, { "epoch": 0.624, "grad_norm": 0.1278562694787979, "learning_rate": 4.556962025316456e-05, "loss": 0.1693, "step": 117 }, { "epoch": 0.6293333333333333, "grad_norm": 0.13515332341194153, "learning_rate": 4.49367088607595e-05, "loss": 0.1437, "step": 118 }, { "epoch": 0.6346666666666667, "grad_norm": 0.13473452627658844, "learning_rate": 4.430379746835443e-05, "loss": 0.1733, "step": 119 }, { "epoch": 0.64, "grad_norm": 0.1502775102853775, "learning_rate": 4.367088607594937e-05, "loss": 0.1787, "step": 120 }, { "epoch": 0.6453333333333333, "grad_norm": 0.11747715622186661, "learning_rate": 4.3037974683544305e-05, "loss": 0.1386, "step": 121 }, { "epoch": 0.6506666666666666, "grad_norm": 0.15984907746315002, "learning_rate": 4.240506329113924e-05, "loss": 0.2061, "step": 122 }, { "epoch": 0.656, "grad_norm": 0.12643878161907196, "learning_rate": 4.177215189873418e-05, "loss": 0.1765, "step": 123 }, { "epoch": 0.6613333333333333, "grad_norm": 0.15259617567062378, "learning_rate": 4.113924050632912e-05, "loss": 0.2045, "step": 124 }, { "epoch": 0.6666666666666666, "grad_norm": 0.14971527457237244, "learning_rate": 4.050632911392405e-05, "loss": 0.1966, "step": 125 }, { "epoch": 0.672, "grad_norm": 0.13014906644821167, "learning_rate": 3.987341772151899e-05, "loss": 0.1811, "step": 126 }, { "epoch": 0.6773333333333333, "grad_norm": 0.11034119874238968, "learning_rate": 3.924050632911392e-05, "loss": 0.148, "step": 127 }, { "epoch": 0.6826666666666666, "grad_norm": 0.11799996346235275, "learning_rate": 3.8607594936708864e-05, "loss": 0.134, "step": 128 }, { "epoch": 0.688, "grad_norm": 0.1361047625541687, "learning_rate": 3.79746835443038e-05, "loss": 0.1852, "step": 129 }, { "epoch": 0.6933333333333334, "grad_norm": 0.14461413025856018, "learning_rate": 3.7341772151898736e-05, "loss": 0.1892, "step": 130 }, { "epoch": 0.6986666666666667, "grad_norm": 0.17837664484977722, "learning_rate": 3.670886075949367e-05, "loss": 0.2413, "step": 131 }, { "epoch": 0.704, "grad_norm": 0.14232684671878815, "learning_rate": 3.607594936708861e-05, "loss": 0.1918, "step": 132 }, { "epoch": 0.7093333333333334, "grad_norm": 0.12363053113222122, "learning_rate": 3.5443037974683544e-05, "loss": 0.1622, "step": 133 }, { "epoch": 0.7146666666666667, "grad_norm": 0.15146830677986145, "learning_rate": 3.4810126582278487e-05, "loss": 0.1945, "step": 134 }, { "epoch": 0.72, "grad_norm": 0.15759508311748505, "learning_rate": 3.4177215189873416e-05, "loss": 0.228, "step": 135 }, { "epoch": 0.7253333333333334, "grad_norm": 0.12694376707077026, "learning_rate": 3.354430379746836e-05, "loss": 0.1592, "step": 136 }, { "epoch": 0.7306666666666667, "grad_norm": 0.1292819231748581, "learning_rate": 3.291139240506329e-05, "loss": 0.1672, "step": 137 }, { "epoch": 0.736, "grad_norm": 0.15296748280525208, "learning_rate": 3.227848101265823e-05, "loss": 0.1865, "step": 138 }, { "epoch": 0.7413333333333333, "grad_norm": 0.15220022201538086, "learning_rate": 3.1645569620253167e-05, "loss": 0.174, "step": 139 }, { "epoch": 0.7466666666666667, "grad_norm": 0.1575816571712494, "learning_rate": 3.10126582278481e-05, "loss": 0.1954, "step": 140 }, { "epoch": 0.752, "grad_norm": 0.1149907112121582, "learning_rate": 3.0379746835443042e-05, "loss": 0.1074, "step": 141 }, { "epoch": 0.7573333333333333, "grad_norm": 0.13131798803806305, "learning_rate": 2.9746835443037974e-05, "loss": 0.1745, "step": 142 }, { "epoch": 0.7626666666666667, "grad_norm": 0.12564794719219208, "learning_rate": 2.9113924050632914e-05, "loss": 0.1479, "step": 143 }, { "epoch": 0.768, "grad_norm": 0.14792603254318237, "learning_rate": 2.848101265822785e-05, "loss": 0.1734, "step": 144 }, { "epoch": 0.7733333333333333, "grad_norm": 0.13111098110675812, "learning_rate": 2.7848101265822786e-05, "loss": 0.1583, "step": 145 }, { "epoch": 0.7786666666666666, "grad_norm": 0.11687033623456955, "learning_rate": 2.7215189873417722e-05, "loss": 0.1172, "step": 146 }, { "epoch": 0.784, "grad_norm": 0.12368358671665192, "learning_rate": 2.6582278481012658e-05, "loss": 0.1477, "step": 147 }, { "epoch": 0.7893333333333333, "grad_norm": 0.1336359828710556, "learning_rate": 2.5949367088607597e-05, "loss": 0.1893, "step": 148 }, { "epoch": 0.7946666666666666, "grad_norm": 0.1560533046722412, "learning_rate": 2.5316455696202533e-05, "loss": 0.1423, "step": 149 }, { "epoch": 0.8, "grad_norm": 0.15754039585590363, "learning_rate": 2.468354430379747e-05, "loss": 0.2148, "step": 150 }, { "epoch": 0.8053333333333333, "grad_norm": 0.13604387640953064, "learning_rate": 2.4050632911392405e-05, "loss": 0.1678, "step": 151 }, { "epoch": 0.8106666666666666, "grad_norm": 0.142144575715065, "learning_rate": 2.341772151898734e-05, "loss": 0.1611, "step": 152 }, { "epoch": 0.816, "grad_norm": 0.12983933091163635, "learning_rate": 2.278481012658228e-05, "loss": 0.172, "step": 153 }, { "epoch": 0.8213333333333334, "grad_norm": 0.16215431690216064, "learning_rate": 2.2151898734177217e-05, "loss": 0.211, "step": 154 }, { "epoch": 0.8266666666666667, "grad_norm": 0.1399165391921997, "learning_rate": 2.1518987341772153e-05, "loss": 0.1594, "step": 155 }, { "epoch": 0.832, "grad_norm": 0.11557877063751221, "learning_rate": 2.088607594936709e-05, "loss": 0.1288, "step": 156 }, { "epoch": 0.8373333333333334, "grad_norm": 0.1501612365245819, "learning_rate": 2.0253164556962025e-05, "loss": 0.1524, "step": 157 }, { "epoch": 0.8426666666666667, "grad_norm": 0.11090222746133804, "learning_rate": 1.962025316455696e-05, "loss": 0.1254, "step": 158 }, { "epoch": 0.848, "grad_norm": 0.13009053468704224, "learning_rate": 1.89873417721519e-05, "loss": 0.1489, "step": 159 }, { "epoch": 0.8533333333333334, "grad_norm": 0.15032489597797394, "learning_rate": 1.8354430379746836e-05, "loss": 0.2082, "step": 160 }, { "epoch": 0.8586666666666667, "grad_norm": 0.13270796835422516, "learning_rate": 1.7721518987341772e-05, "loss": 0.1993, "step": 161 }, { "epoch": 0.864, "grad_norm": 0.11936702579259872, "learning_rate": 1.7088607594936708e-05, "loss": 0.1335, "step": 162 }, { "epoch": 0.8693333333333333, "grad_norm": 0.1392815113067627, "learning_rate": 1.6455696202531644e-05, "loss": 0.1701, "step": 163 }, { "epoch": 0.8746666666666667, "grad_norm": 0.13193881511688232, "learning_rate": 1.5822784810126583e-05, "loss": 0.1643, "step": 164 }, { "epoch": 0.88, "grad_norm": 0.14312869310379028, "learning_rate": 1.5189873417721521e-05, "loss": 0.1478, "step": 165 }, { "epoch": 0.8853333333333333, "grad_norm": 0.09622722119092941, "learning_rate": 1.4556962025316457e-05, "loss": 0.0904, "step": 166 }, { "epoch": 0.8906666666666667, "grad_norm": 0.15038517117500305, "learning_rate": 1.3924050632911393e-05, "loss": 0.1749, "step": 167 }, { "epoch": 0.896, "grad_norm": 0.12532921135425568, "learning_rate": 1.3291139240506329e-05, "loss": 0.1204, "step": 168 }, { "epoch": 0.9013333333333333, "grad_norm": 0.11329808086156845, "learning_rate": 1.2658227848101267e-05, "loss": 0.1464, "step": 169 }, { "epoch": 0.9066666666666666, "grad_norm": 0.13774539530277252, "learning_rate": 1.2025316455696203e-05, "loss": 0.136, "step": 170 }, { "epoch": 0.912, "grad_norm": 0.1233089491724968, "learning_rate": 1.139240506329114e-05, "loss": 0.1487, "step": 171 }, { "epoch": 0.9173333333333333, "grad_norm": 0.11669178307056427, "learning_rate": 1.0759493670886076e-05, "loss": 0.1222, "step": 172 }, { "epoch": 0.9226666666666666, "grad_norm": 0.12583141028881073, "learning_rate": 1.0126582278481012e-05, "loss": 0.111, "step": 173 }, { "epoch": 0.928, "grad_norm": 0.14962823688983917, "learning_rate": 9.49367088607595e-06, "loss": 0.1857, "step": 174 }, { "epoch": 0.9333333333333333, "grad_norm": 0.1501280963420868, "learning_rate": 8.860759493670886e-06, "loss": 0.1674, "step": 175 }, { "epoch": 0.9386666666666666, "grad_norm": 0.16275645792484283, "learning_rate": 8.227848101265822e-06, "loss": 0.1724, "step": 176 }, { "epoch": 0.944, "grad_norm": 0.14533382654190063, "learning_rate": 7.5949367088607605e-06, "loss": 0.1921, "step": 177 }, { "epoch": 0.9493333333333334, "grad_norm": 0.14411696791648865, "learning_rate": 6.9620253164556965e-06, "loss": 0.1685, "step": 178 }, { "epoch": 0.9546666666666667, "grad_norm": 0.14665833115577698, "learning_rate": 6.329113924050633e-06, "loss": 0.1618, "step": 179 }, { "epoch": 0.96, "grad_norm": 0.13544632494449615, "learning_rate": 5.69620253164557e-06, "loss": 0.1234, "step": 180 }, { "epoch": 0.9653333333333334, "grad_norm": 0.1795777678489685, "learning_rate": 5.063291139240506e-06, "loss": 0.2454, "step": 181 }, { "epoch": 0.9706666666666667, "grad_norm": 0.16076916456222534, "learning_rate": 4.430379746835443e-06, "loss": 0.1905, "step": 182 }, { "epoch": 0.976, "grad_norm": 0.12892693281173706, "learning_rate": 3.7974683544303802e-06, "loss": 0.1773, "step": 183 }, { "epoch": 0.9813333333333333, "grad_norm": 0.1371075063943863, "learning_rate": 3.1645569620253167e-06, "loss": 0.1691, "step": 184 }, { "epoch": 0.9866666666666667, "grad_norm": 0.14730900526046753, "learning_rate": 2.531645569620253e-06, "loss": 0.1769, "step": 185 }, { "epoch": 0.992, "grad_norm": 0.1374824047088623, "learning_rate": 1.8987341772151901e-06, "loss": 0.1794, "step": 186 }, { "epoch": 0.9973333333333333, "grad_norm": 0.12439089268445969, "learning_rate": 1.2658227848101265e-06, "loss": 0.1553, "step": 187 }, { "epoch": 1.0, "grad_norm": 0.1619700938463211, "learning_rate": 6.329113924050633e-07, "loss": 0.146, "step": 188 } ], "logging_steps": 1, "max_steps": 188, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 5000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 2.724360878387712e+17, "train_batch_size": 1, "trial_name": null, "trial_params": null }