{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 1.0, "eval_steps": 500, "global_step": 375, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0026666666666666666, "grad_norm": 11.27696704864502, "learning_rate": 0.0, "loss": 1.2393, "step": 1 }, { "epoch": 0.005333333333333333, "grad_norm": 5.955239772796631, "learning_rate": 2.0000000000000003e-06, "loss": 0.7098, "step": 2 }, { "epoch": 0.008, "grad_norm": 5.517462253570557, "learning_rate": 4.000000000000001e-06, "loss": 0.8371, "step": 3 }, { "epoch": 0.010666666666666666, "grad_norm": 8.203292846679688, "learning_rate": 6e-06, "loss": 1.1206, "step": 4 }, { "epoch": 0.013333333333333334, "grad_norm": 5.866211414337158, "learning_rate": 8.000000000000001e-06, "loss": 0.9537, "step": 5 }, { "epoch": 0.016, "grad_norm": 3.6333134174346924, "learning_rate": 1e-05, "loss": 0.6682, "step": 6 }, { "epoch": 0.018666666666666668, "grad_norm": 3.7199132442474365, "learning_rate": 9.972972972972975e-06, "loss": 0.9834, "step": 7 }, { "epoch": 0.021333333333333333, "grad_norm": 3.1574361324310303, "learning_rate": 9.945945945945947e-06, "loss": 0.8251, "step": 8 }, { "epoch": 0.024, "grad_norm": 2.77718448638916, "learning_rate": 9.91891891891892e-06, "loss": 0.514, "step": 9 }, { "epoch": 0.02666666666666667, "grad_norm": 1.5715123414993286, "learning_rate": 9.891891891891893e-06, "loss": 0.3769, "step": 10 }, { "epoch": 0.029333333333333333, "grad_norm": 2.1984636783599854, "learning_rate": 9.864864864864865e-06, "loss": 0.4527, "step": 11 }, { "epoch": 0.032, "grad_norm": 1.036543369293213, "learning_rate": 9.83783783783784e-06, "loss": 0.2334, "step": 12 }, { "epoch": 0.034666666666666665, "grad_norm": 1.0480904579162598, "learning_rate": 9.810810810810811e-06, "loss": 0.2945, "step": 13 }, { "epoch": 0.037333333333333336, "grad_norm": 1.111269235610962, "learning_rate": 9.783783783783785e-06, "loss": 0.3737, "step": 14 }, { "epoch": 0.04, "grad_norm": 0.5105443596839905, "learning_rate": 9.756756756756758e-06, "loss": 0.1586, "step": 15 }, { "epoch": 0.042666666666666665, "grad_norm": 0.9583611488342285, "learning_rate": 9.729729729729732e-06, "loss": 0.3225, "step": 16 }, { "epoch": 0.04533333333333334, "grad_norm": 0.6201366782188416, "learning_rate": 9.702702702702704e-06, "loss": 0.2272, "step": 17 }, { "epoch": 0.048, "grad_norm": 0.6941121816635132, "learning_rate": 9.675675675675676e-06, "loss": 0.3594, "step": 18 }, { "epoch": 0.050666666666666665, "grad_norm": 0.8562238216400146, "learning_rate": 9.64864864864865e-06, "loss": 0.4363, "step": 19 }, { "epoch": 0.05333333333333334, "grad_norm": 0.8350486159324646, "learning_rate": 9.621621621621622e-06, "loss": 0.3314, "step": 20 }, { "epoch": 0.056, "grad_norm": 0.7807081341743469, "learning_rate": 9.594594594594594e-06, "loss": 0.3365, "step": 21 }, { "epoch": 0.058666666666666666, "grad_norm": 0.665194034576416, "learning_rate": 9.567567567567568e-06, "loss": 0.3016, "step": 22 }, { "epoch": 0.06133333333333333, "grad_norm": 0.5500015020370483, "learning_rate": 9.540540540540542e-06, "loss": 0.2407, "step": 23 }, { "epoch": 0.064, "grad_norm": 0.730048656463623, "learning_rate": 9.513513513513514e-06, "loss": 0.3417, "step": 24 }, { "epoch": 0.06666666666666667, "grad_norm": 0.6387158036231995, "learning_rate": 9.486486486486487e-06, "loss": 0.3311, "step": 25 }, { "epoch": 0.06933333333333333, "grad_norm": 0.6481963396072388, "learning_rate": 9.45945945945946e-06, "loss": 0.3512, "step": 26 }, { "epoch": 0.072, "grad_norm": 0.609284520149231, "learning_rate": 9.432432432432433e-06, "loss": 0.321, "step": 27 }, { "epoch": 0.07466666666666667, "grad_norm": 0.6246205568313599, "learning_rate": 9.405405405405407e-06, "loss": 0.357, "step": 28 }, { "epoch": 0.07733333333333334, "grad_norm": 0.6625375151634216, "learning_rate": 9.378378378378379e-06, "loss": 0.2799, "step": 29 }, { "epoch": 0.08, "grad_norm": 0.8258278965950012, "learning_rate": 9.351351351351353e-06, "loss": 0.4167, "step": 30 }, { "epoch": 0.08266666666666667, "grad_norm": 0.7330864071846008, "learning_rate": 9.324324324324325e-06, "loss": 0.233, "step": 31 }, { "epoch": 0.08533333333333333, "grad_norm": 0.4711756110191345, "learning_rate": 9.297297297297299e-06, "loss": 0.167, "step": 32 }, { "epoch": 0.088, "grad_norm": 0.6329399943351746, "learning_rate": 9.270270270270271e-06, "loss": 0.2119, "step": 33 }, { "epoch": 0.09066666666666667, "grad_norm": 0.5754268765449524, "learning_rate": 9.243243243243243e-06, "loss": 0.2068, "step": 34 }, { "epoch": 0.09333333333333334, "grad_norm": 0.47313305735588074, "learning_rate": 9.216216216216217e-06, "loss": 0.1954, "step": 35 }, { "epoch": 0.096, "grad_norm": 0.5095440149307251, "learning_rate": 9.189189189189191e-06, "loss": 0.1764, "step": 36 }, { "epoch": 0.09866666666666667, "grad_norm": 0.5206679105758667, "learning_rate": 9.162162162162162e-06, "loss": 0.214, "step": 37 }, { "epoch": 0.10133333333333333, "grad_norm": 0.3733843266963959, "learning_rate": 9.135135135135136e-06, "loss": 0.1492, "step": 38 }, { "epoch": 0.104, "grad_norm": 0.6110314726829529, "learning_rate": 9.10810810810811e-06, "loss": 0.2854, "step": 39 }, { "epoch": 0.10666666666666667, "grad_norm": 0.5232765078544617, "learning_rate": 9.081081081081082e-06, "loss": 0.1753, "step": 40 }, { "epoch": 0.10933333333333334, "grad_norm": 0.6863483190536499, "learning_rate": 9.054054054054054e-06, "loss": 0.2954, "step": 41 }, { "epoch": 0.112, "grad_norm": 0.5368908643722534, "learning_rate": 9.027027027027028e-06, "loss": 0.1941, "step": 42 }, { "epoch": 0.11466666666666667, "grad_norm": 0.6459236741065979, "learning_rate": 9e-06, "loss": 0.1937, "step": 43 }, { "epoch": 0.11733333333333333, "grad_norm": 0.49889075756073, "learning_rate": 8.972972972972974e-06, "loss": 0.1785, "step": 44 }, { "epoch": 0.12, "grad_norm": 0.6825981140136719, "learning_rate": 8.945945945945946e-06, "loss": 0.3115, "step": 45 }, { "epoch": 0.12266666666666666, "grad_norm": 0.6273817420005798, "learning_rate": 8.91891891891892e-06, "loss": 0.2018, "step": 46 }, { "epoch": 0.12533333333333332, "grad_norm": 0.7721640467643738, "learning_rate": 8.891891891891893e-06, "loss": 0.33, "step": 47 }, { "epoch": 0.128, "grad_norm": 0.6860324144363403, "learning_rate": 8.864864864864866e-06, "loss": 0.2703, "step": 48 }, { "epoch": 0.13066666666666665, "grad_norm": 0.7834133505821228, "learning_rate": 8.837837837837839e-06, "loss": 0.3348, "step": 49 }, { "epoch": 0.13333333333333333, "grad_norm": 0.6959682703018188, "learning_rate": 8.810810810810811e-06, "loss": 0.2181, "step": 50 }, { "epoch": 0.136, "grad_norm": 0.5302026271820068, "learning_rate": 8.783783783783785e-06, "loss": 0.1624, "step": 51 }, { "epoch": 0.13866666666666666, "grad_norm": 0.7896989583969116, "learning_rate": 8.756756756756759e-06, "loss": 0.3411, "step": 52 }, { "epoch": 0.14133333333333334, "grad_norm": 0.8183678984642029, "learning_rate": 8.72972972972973e-06, "loss": 0.2326, "step": 53 }, { "epoch": 0.144, "grad_norm": 0.7127137780189514, "learning_rate": 8.702702702702703e-06, "loss": 0.2208, "step": 54 }, { "epoch": 0.14666666666666667, "grad_norm": 0.7009977102279663, "learning_rate": 8.675675675675677e-06, "loss": 0.2412, "step": 55 }, { "epoch": 0.14933333333333335, "grad_norm": 0.6191402673721313, "learning_rate": 8.64864864864865e-06, "loss": 0.2615, "step": 56 }, { "epoch": 0.152, "grad_norm": 0.9098679423332214, "learning_rate": 8.621621621621622e-06, "loss": 0.3746, "step": 57 }, { "epoch": 0.15466666666666667, "grad_norm": 0.6640550494194031, "learning_rate": 8.594594594594595e-06, "loss": 0.2087, "step": 58 }, { "epoch": 0.15733333333333333, "grad_norm": 0.6540452837944031, "learning_rate": 8.567567567567568e-06, "loss": 0.2752, "step": 59 }, { "epoch": 0.16, "grad_norm": 0.47989338636398315, "learning_rate": 8.540540540540542e-06, "loss": 0.1868, "step": 60 }, { "epoch": 0.16266666666666665, "grad_norm": 0.5651258826255798, "learning_rate": 8.513513513513514e-06, "loss": 0.2188, "step": 61 }, { "epoch": 0.16533333333333333, "grad_norm": 0.6474478840827942, "learning_rate": 8.486486486486488e-06, "loss": 0.188, "step": 62 }, { "epoch": 0.168, "grad_norm": 0.6513784527778625, "learning_rate": 8.45945945945946e-06, "loss": 0.194, "step": 63 }, { "epoch": 0.17066666666666666, "grad_norm": 0.5466453433036804, "learning_rate": 8.432432432432434e-06, "loss": 0.1392, "step": 64 }, { "epoch": 0.17333333333333334, "grad_norm": 0.5382428169250488, "learning_rate": 8.405405405405406e-06, "loss": 0.1837, "step": 65 }, { "epoch": 0.176, "grad_norm": 0.6580228805541992, "learning_rate": 8.378378378378378e-06, "loss": 0.2499, "step": 66 }, { "epoch": 0.17866666666666667, "grad_norm": 0.5898648500442505, "learning_rate": 8.351351351351352e-06, "loss": 0.175, "step": 67 }, { "epoch": 0.18133333333333335, "grad_norm": 0.5937601327896118, "learning_rate": 8.324324324324326e-06, "loss": 0.2064, "step": 68 }, { "epoch": 0.184, "grad_norm": 0.6093276739120483, "learning_rate": 8.297297297297298e-06, "loss": 0.2042, "step": 69 }, { "epoch": 0.18666666666666668, "grad_norm": 0.7754217386245728, "learning_rate": 8.27027027027027e-06, "loss": 0.2894, "step": 70 }, { "epoch": 0.18933333333333333, "grad_norm": 0.5059306025505066, "learning_rate": 8.243243243243245e-06, "loss": 0.1471, "step": 71 }, { "epoch": 0.192, "grad_norm": 0.5113043189048767, "learning_rate": 8.216216216216217e-06, "loss": 0.1344, "step": 72 }, { "epoch": 0.19466666666666665, "grad_norm": 0.6358659267425537, "learning_rate": 8.189189189189189e-06, "loss": 0.1779, "step": 73 }, { "epoch": 0.19733333333333333, "grad_norm": 0.6872090101242065, "learning_rate": 8.162162162162163e-06, "loss": 0.2552, "step": 74 }, { "epoch": 0.2, "grad_norm": 0.6882363557815552, "learning_rate": 8.135135135135137e-06, "loss": 0.238, "step": 75 }, { "epoch": 0.20266666666666666, "grad_norm": 0.8398518562316895, "learning_rate": 8.108108108108109e-06, "loss": 0.1981, "step": 76 }, { "epoch": 0.20533333333333334, "grad_norm": 0.48457688093185425, "learning_rate": 8.081081081081081e-06, "loss": 0.1094, "step": 77 }, { "epoch": 0.208, "grad_norm": 0.7459130883216858, "learning_rate": 8.054054054054055e-06, "loss": 0.2289, "step": 78 }, { "epoch": 0.21066666666666667, "grad_norm": 0.6370989680290222, "learning_rate": 8.027027027027027e-06, "loss": 0.203, "step": 79 }, { "epoch": 0.21333333333333335, "grad_norm": 0.6673493385314941, "learning_rate": 8.000000000000001e-06, "loss": 0.1828, "step": 80 }, { "epoch": 0.216, "grad_norm": 0.8735662698745728, "learning_rate": 7.972972972972974e-06, "loss": 0.2632, "step": 81 }, { "epoch": 0.21866666666666668, "grad_norm": 0.6813445091247559, "learning_rate": 7.945945945945946e-06, "loss": 0.2557, "step": 82 }, { "epoch": 0.22133333333333333, "grad_norm": 0.6084133982658386, "learning_rate": 7.91891891891892e-06, "loss": 0.1847, "step": 83 }, { "epoch": 0.224, "grad_norm": 0.6819057464599609, "learning_rate": 7.891891891891894e-06, "loss": 0.2557, "step": 84 }, { "epoch": 0.22666666666666666, "grad_norm": 0.6722255945205688, "learning_rate": 7.864864864864866e-06, "loss": 0.1946, "step": 85 }, { "epoch": 0.22933333333333333, "grad_norm": 0.7635795474052429, "learning_rate": 7.837837837837838e-06, "loss": 0.2581, "step": 86 }, { "epoch": 0.232, "grad_norm": 0.711397111415863, "learning_rate": 7.810810810810812e-06, "loss": 0.1684, "step": 87 }, { "epoch": 0.23466666666666666, "grad_norm": 0.6429581642150879, "learning_rate": 7.783783783783784e-06, "loss": 0.225, "step": 88 }, { "epoch": 0.23733333333333334, "grad_norm": 0.8083949685096741, "learning_rate": 7.756756756756756e-06, "loss": 0.315, "step": 89 }, { "epoch": 0.24, "grad_norm": 0.6197084188461304, "learning_rate": 7.72972972972973e-06, "loss": 0.2319, "step": 90 }, { "epoch": 0.24266666666666667, "grad_norm": 0.47451671957969666, "learning_rate": 7.702702702702704e-06, "loss": 0.1545, "step": 91 }, { "epoch": 0.24533333333333332, "grad_norm": 0.6577697992324829, "learning_rate": 7.675675675675676e-06, "loss": 0.2175, "step": 92 }, { "epoch": 0.248, "grad_norm": 0.718208909034729, "learning_rate": 7.648648648648649e-06, "loss": 0.3262, "step": 93 }, { "epoch": 0.25066666666666665, "grad_norm": 0.5495963096618652, "learning_rate": 7.621621621621622e-06, "loss": 0.1209, "step": 94 }, { "epoch": 0.25333333333333335, "grad_norm": 0.5226097106933594, "learning_rate": 7.594594594594596e-06, "loss": 0.1895, "step": 95 }, { "epoch": 0.256, "grad_norm": 0.7196803092956543, "learning_rate": 7.567567567567569e-06, "loss": 0.2769, "step": 96 }, { "epoch": 0.25866666666666666, "grad_norm": 0.6840471625328064, "learning_rate": 7.540540540540541e-06, "loss": 0.1887, "step": 97 }, { "epoch": 0.2613333333333333, "grad_norm": 0.6588975191116333, "learning_rate": 7.513513513513514e-06, "loss": 0.1889, "step": 98 }, { "epoch": 0.264, "grad_norm": 0.5604864358901978, "learning_rate": 7.486486486486487e-06, "loss": 0.1599, "step": 99 }, { "epoch": 0.26666666666666666, "grad_norm": 0.599812388420105, "learning_rate": 7.45945945945946e-06, "loss": 0.2164, "step": 100 }, { "epoch": 0.2693333333333333, "grad_norm": 0.6351118087768555, "learning_rate": 7.4324324324324324e-06, "loss": 0.2394, "step": 101 }, { "epoch": 0.272, "grad_norm": 0.6878398656845093, "learning_rate": 7.4054054054054055e-06, "loss": 0.2379, "step": 102 }, { "epoch": 0.27466666666666667, "grad_norm": 0.7772271037101746, "learning_rate": 7.3783783783783794e-06, "loss": 0.2456, "step": 103 }, { "epoch": 0.2773333333333333, "grad_norm": 0.6959226727485657, "learning_rate": 7.3513513513513525e-06, "loss": 0.2388, "step": 104 }, { "epoch": 0.28, "grad_norm": 0.485323041677475, "learning_rate": 7.324324324324325e-06, "loss": 0.1212, "step": 105 }, { "epoch": 0.2826666666666667, "grad_norm": 0.5454851388931274, "learning_rate": 7.297297297297298e-06, "loss": 0.1349, "step": 106 }, { "epoch": 0.2853333333333333, "grad_norm": 0.5586794018745422, "learning_rate": 7.270270270270271e-06, "loss": 0.1729, "step": 107 }, { "epoch": 0.288, "grad_norm": 0.5587649345397949, "learning_rate": 7.243243243243244e-06, "loss": 0.1669, "step": 108 }, { "epoch": 0.2906666666666667, "grad_norm": 1.0756834745407104, "learning_rate": 7.216216216216216e-06, "loss": 0.386, "step": 109 }, { "epoch": 0.29333333333333333, "grad_norm": 0.5455247759819031, "learning_rate": 7.189189189189189e-06, "loss": 0.1701, "step": 110 }, { "epoch": 0.296, "grad_norm": 0.5945301055908203, "learning_rate": 7.162162162162163e-06, "loss": 0.1707, "step": 111 }, { "epoch": 0.2986666666666667, "grad_norm": 0.7163695693016052, "learning_rate": 7.135135135135136e-06, "loss": 0.303, "step": 112 }, { "epoch": 0.30133333333333334, "grad_norm": 0.5325851440429688, "learning_rate": 7.1081081081081085e-06, "loss": 0.1341, "step": 113 }, { "epoch": 0.304, "grad_norm": 0.7188174724578857, "learning_rate": 7.0810810810810815e-06, "loss": 0.2434, "step": 114 }, { "epoch": 0.30666666666666664, "grad_norm": 0.548499345779419, "learning_rate": 7.054054054054055e-06, "loss": 0.1386, "step": 115 }, { "epoch": 0.30933333333333335, "grad_norm": 0.4468616545200348, "learning_rate": 7.027027027027028e-06, "loss": 0.088, "step": 116 }, { "epoch": 0.312, "grad_norm": 0.85345059633255, "learning_rate": 7e-06, "loss": 0.2584, "step": 117 }, { "epoch": 0.31466666666666665, "grad_norm": 0.6732862591743469, "learning_rate": 6.972972972972973e-06, "loss": 0.2474, "step": 118 }, { "epoch": 0.31733333333333336, "grad_norm": 0.5225388407707214, "learning_rate": 6.945945945945947e-06, "loss": 0.1734, "step": 119 }, { "epoch": 0.32, "grad_norm": 0.5563561916351318, "learning_rate": 6.91891891891892e-06, "loss": 0.1969, "step": 120 }, { "epoch": 0.32266666666666666, "grad_norm": 0.8599696159362793, "learning_rate": 6.891891891891892e-06, "loss": 0.3896, "step": 121 }, { "epoch": 0.3253333333333333, "grad_norm": 0.559121310710907, "learning_rate": 6.864864864864865e-06, "loss": 0.1996, "step": 122 }, { "epoch": 0.328, "grad_norm": 0.6225456595420837, "learning_rate": 6.837837837837838e-06, "loss": 0.1923, "step": 123 }, { "epoch": 0.33066666666666666, "grad_norm": 0.8037304878234863, "learning_rate": 6.810810810810811e-06, "loss": 0.2718, "step": 124 }, { "epoch": 0.3333333333333333, "grad_norm": 0.5265872478485107, "learning_rate": 6.783783783783784e-06, "loss": 0.1627, "step": 125 }, { "epoch": 0.336, "grad_norm": 0.5451453924179077, "learning_rate": 6.7567567567567575e-06, "loss": 0.1999, "step": 126 }, { "epoch": 0.33866666666666667, "grad_norm": 0.6852355599403381, "learning_rate": 6.729729729729731e-06, "loss": 0.2784, "step": 127 }, { "epoch": 0.3413333333333333, "grad_norm": 0.6520775556564331, "learning_rate": 6.702702702702704e-06, "loss": 0.2891, "step": 128 }, { "epoch": 0.344, "grad_norm": 0.6576260924339294, "learning_rate": 6.675675675675676e-06, "loss": 0.2207, "step": 129 }, { "epoch": 0.3466666666666667, "grad_norm": 0.6398120522499084, "learning_rate": 6.648648648648649e-06, "loss": 0.245, "step": 130 }, { "epoch": 0.34933333333333333, "grad_norm": 0.6754013299942017, "learning_rate": 6.621621621621622e-06, "loss": 0.2522, "step": 131 }, { "epoch": 0.352, "grad_norm": 0.5662146210670471, "learning_rate": 6.594594594594595e-06, "loss": 0.1599, "step": 132 }, { "epoch": 0.3546666666666667, "grad_norm": 0.5392054915428162, "learning_rate": 6.567567567567567e-06, "loss": 0.1376, "step": 133 }, { "epoch": 0.35733333333333334, "grad_norm": 0.7294577956199646, "learning_rate": 6.540540540540541e-06, "loss": 0.1868, "step": 134 }, { "epoch": 0.36, "grad_norm": 0.5715875625610352, "learning_rate": 6.513513513513514e-06, "loss": 0.1856, "step": 135 }, { "epoch": 0.3626666666666667, "grad_norm": 0.6439377665519714, "learning_rate": 6.486486486486487e-06, "loss": 0.1806, "step": 136 }, { "epoch": 0.36533333333333334, "grad_norm": 0.8570373058319092, "learning_rate": 6.45945945945946e-06, "loss": 0.2954, "step": 137 }, { "epoch": 0.368, "grad_norm": 0.9064244627952576, "learning_rate": 6.432432432432433e-06, "loss": 0.2779, "step": 138 }, { "epoch": 0.37066666666666664, "grad_norm": 0.5841649770736694, "learning_rate": 6.405405405405406e-06, "loss": 0.1852, "step": 139 }, { "epoch": 0.37333333333333335, "grad_norm": 0.6789332032203674, "learning_rate": 6.378378378378379e-06, "loss": 0.2229, "step": 140 }, { "epoch": 0.376, "grad_norm": 0.6846999526023865, "learning_rate": 6.351351351351351e-06, "loss": 0.2503, "step": 141 }, { "epoch": 0.37866666666666665, "grad_norm": 0.6227567195892334, "learning_rate": 6.324324324324325e-06, "loss": 0.2471, "step": 142 }, { "epoch": 0.38133333333333336, "grad_norm": 0.5910747647285461, "learning_rate": 6.297297297297298e-06, "loss": 0.1454, "step": 143 }, { "epoch": 0.384, "grad_norm": 0.6015313267707825, "learning_rate": 6.270270270270271e-06, "loss": 0.2033, "step": 144 }, { "epoch": 0.38666666666666666, "grad_norm": 0.8044806122779846, "learning_rate": 6.243243243243243e-06, "loss": 0.257, "step": 145 }, { "epoch": 0.3893333333333333, "grad_norm": 0.4414699971675873, "learning_rate": 6.2162162162162164e-06, "loss": 0.1204, "step": 146 }, { "epoch": 0.392, "grad_norm": 0.3825218975543976, "learning_rate": 6.1891891891891895e-06, "loss": 0.0632, "step": 147 }, { "epoch": 0.39466666666666667, "grad_norm": 0.6659744381904602, "learning_rate": 6.162162162162163e-06, "loss": 0.2216, "step": 148 }, { "epoch": 0.3973333333333333, "grad_norm": 0.6320778131484985, "learning_rate": 6.135135135135135e-06, "loss": 0.2087, "step": 149 }, { "epoch": 0.4, "grad_norm": 0.790916919708252, "learning_rate": 6.108108108108109e-06, "loss": 0.2565, "step": 150 }, { "epoch": 0.4026666666666667, "grad_norm": 0.536102831363678, "learning_rate": 6.081081081081082e-06, "loss": 0.107, "step": 151 }, { "epoch": 0.4053333333333333, "grad_norm": 0.4944651424884796, "learning_rate": 6.054054054054055e-06, "loss": 0.1627, "step": 152 }, { "epoch": 0.408, "grad_norm": 0.4370385408401489, "learning_rate": 6.027027027027027e-06, "loss": 0.1183, "step": 153 }, { "epoch": 0.4106666666666667, "grad_norm": 0.6156406998634338, "learning_rate": 6e-06, "loss": 0.1699, "step": 154 }, { "epoch": 0.41333333333333333, "grad_norm": 0.6078500151634216, "learning_rate": 5.972972972972973e-06, "loss": 0.1906, "step": 155 }, { "epoch": 0.416, "grad_norm": 1.2300201654434204, "learning_rate": 5.945945945945947e-06, "loss": 0.1982, "step": 156 }, { "epoch": 0.4186666666666667, "grad_norm": 0.7389439940452576, "learning_rate": 5.9189189189189185e-06, "loss": 0.2282, "step": 157 }, { "epoch": 0.42133333333333334, "grad_norm": 0.763759195804596, "learning_rate": 5.8918918918918924e-06, "loss": 0.2622, "step": 158 }, { "epoch": 0.424, "grad_norm": 0.5539442896842957, "learning_rate": 5.8648648648648655e-06, "loss": 0.1474, "step": 159 }, { "epoch": 0.4266666666666667, "grad_norm": 0.7700057029724121, "learning_rate": 5.837837837837839e-06, "loss": 0.2865, "step": 160 }, { "epoch": 0.42933333333333334, "grad_norm": 0.7157185673713684, "learning_rate": 5.810810810810811e-06, "loss": 0.2427, "step": 161 }, { "epoch": 0.432, "grad_norm": 0.6205179691314697, "learning_rate": 5.783783783783784e-06, "loss": 0.1538, "step": 162 }, { "epoch": 0.43466666666666665, "grad_norm": 1.0188785791397095, "learning_rate": 5.756756756756757e-06, "loss": 0.3216, "step": 163 }, { "epoch": 0.43733333333333335, "grad_norm": 0.57860267162323, "learning_rate": 5.729729729729731e-06, "loss": 0.1753, "step": 164 }, { "epoch": 0.44, "grad_norm": 0.6151314973831177, "learning_rate": 5.702702702702702e-06, "loss": 0.1646, "step": 165 }, { "epoch": 0.44266666666666665, "grad_norm": 0.5574538111686707, "learning_rate": 5.675675675675676e-06, "loss": 0.1622, "step": 166 }, { "epoch": 0.44533333333333336, "grad_norm": 0.5877713561058044, "learning_rate": 5.648648648648649e-06, "loss": 0.1811, "step": 167 }, { "epoch": 0.448, "grad_norm": 0.6664063930511475, "learning_rate": 5.621621621621622e-06, "loss": 0.1846, "step": 168 }, { "epoch": 0.45066666666666666, "grad_norm": 0.8381854891777039, "learning_rate": 5.5945945945945945e-06, "loss": 0.2366, "step": 169 }, { "epoch": 0.4533333333333333, "grad_norm": 0.6716594696044922, "learning_rate": 5.567567567567568e-06, "loss": 0.1505, "step": 170 }, { "epoch": 0.456, "grad_norm": 0.7629430294036865, "learning_rate": 5.540540540540541e-06, "loss": 0.2743, "step": 171 }, { "epoch": 0.45866666666666667, "grad_norm": 0.5551477074623108, "learning_rate": 5.513513513513515e-06, "loss": 0.1598, "step": 172 }, { "epoch": 0.4613333333333333, "grad_norm": 0.4347976744174957, "learning_rate": 5.486486486486487e-06, "loss": 0.0911, "step": 173 }, { "epoch": 0.464, "grad_norm": 0.7412413358688354, "learning_rate": 5.45945945945946e-06, "loss": 0.233, "step": 174 }, { "epoch": 0.4666666666666667, "grad_norm": 0.813710629940033, "learning_rate": 5.432432432432433e-06, "loss": 0.3059, "step": 175 }, { "epoch": 0.4693333333333333, "grad_norm": 0.8188832402229309, "learning_rate": 5.405405405405406e-06, "loss": 0.2708, "step": 176 }, { "epoch": 0.472, "grad_norm": 1.0854490995407104, "learning_rate": 5.378378378378378e-06, "loss": 0.2455, "step": 177 }, { "epoch": 0.4746666666666667, "grad_norm": 0.5538136959075928, "learning_rate": 5.351351351351351e-06, "loss": 0.149, "step": 178 }, { "epoch": 0.47733333333333333, "grad_norm": 0.7784997820854187, "learning_rate": 5.324324324324324e-06, "loss": 0.2661, "step": 179 }, { "epoch": 0.48, "grad_norm": 0.6049314141273499, "learning_rate": 5.297297297297298e-06, "loss": 0.1428, "step": 180 }, { "epoch": 0.4826666666666667, "grad_norm": 0.6695799231529236, "learning_rate": 5.2702702702702705e-06, "loss": 0.223, "step": 181 }, { "epoch": 0.48533333333333334, "grad_norm": 0.5103655457496643, "learning_rate": 5.243243243243244e-06, "loss": 0.152, "step": 182 }, { "epoch": 0.488, "grad_norm": 0.813472330570221, "learning_rate": 5.216216216216217e-06, "loss": 0.218, "step": 183 }, { "epoch": 0.49066666666666664, "grad_norm": 0.7868819832801819, "learning_rate": 5.18918918918919e-06, "loss": 0.2152, "step": 184 }, { "epoch": 0.49333333333333335, "grad_norm": 0.6611355543136597, "learning_rate": 5.162162162162162e-06, "loss": 0.2011, "step": 185 }, { "epoch": 0.496, "grad_norm": 0.5784083008766174, "learning_rate": 5.135135135135135e-06, "loss": 0.1656, "step": 186 }, { "epoch": 0.49866666666666665, "grad_norm": 0.6778900027275085, "learning_rate": 5.108108108108108e-06, "loss": 0.2327, "step": 187 }, { "epoch": 0.5013333333333333, "grad_norm": 0.570643424987793, "learning_rate": 5.081081081081082e-06, "loss": 0.1061, "step": 188 }, { "epoch": 0.504, "grad_norm": 0.6347572803497314, "learning_rate": 5.054054054054054e-06, "loss": 0.185, "step": 189 }, { "epoch": 0.5066666666666667, "grad_norm": 0.9605282545089722, "learning_rate": 5.027027027027027e-06, "loss": 0.2742, "step": 190 }, { "epoch": 0.5093333333333333, "grad_norm": 0.6934553980827332, "learning_rate": 5e-06, "loss": 0.1953, "step": 191 }, { "epoch": 0.512, "grad_norm": 0.708090603351593, "learning_rate": 4.9729729729729735e-06, "loss": 0.2358, "step": 192 }, { "epoch": 0.5146666666666667, "grad_norm": 0.46897298097610474, "learning_rate": 4.9459459459459466e-06, "loss": 0.1359, "step": 193 }, { "epoch": 0.5173333333333333, "grad_norm": 0.5252346396446228, "learning_rate": 4.91891891891892e-06, "loss": 0.1371, "step": 194 }, { "epoch": 0.52, "grad_norm": 0.48569944500923157, "learning_rate": 4.891891891891893e-06, "loss": 0.1745, "step": 195 }, { "epoch": 0.5226666666666666, "grad_norm": 0.48111259937286377, "learning_rate": 4.864864864864866e-06, "loss": 0.1173, "step": 196 }, { "epoch": 0.5253333333333333, "grad_norm": 0.7366722822189331, "learning_rate": 4.837837837837838e-06, "loss": 0.179, "step": 197 }, { "epoch": 0.528, "grad_norm": 0.6267251372337341, "learning_rate": 4.810810810810811e-06, "loss": 0.1845, "step": 198 }, { "epoch": 0.5306666666666666, "grad_norm": 0.6829625368118286, "learning_rate": 4.783783783783784e-06, "loss": 0.1827, "step": 199 }, { "epoch": 0.5333333333333333, "grad_norm": 0.6211770176887512, "learning_rate": 4.756756756756757e-06, "loss": 0.13, "step": 200 }, { "epoch": 0.536, "grad_norm": 1.1047722101211548, "learning_rate": 4.72972972972973e-06, "loss": 0.2495, "step": 201 }, { "epoch": 0.5386666666666666, "grad_norm": 0.5142467617988586, "learning_rate": 4.702702702702703e-06, "loss": 0.1699, "step": 202 }, { "epoch": 0.5413333333333333, "grad_norm": 0.773326575756073, "learning_rate": 4.675675675675676e-06, "loss": 0.2565, "step": 203 }, { "epoch": 0.544, "grad_norm": 0.7507659792900085, "learning_rate": 4.6486486486486495e-06, "loss": 0.1712, "step": 204 }, { "epoch": 0.5466666666666666, "grad_norm": 0.727996289730072, "learning_rate": 4.621621621621622e-06, "loss": 0.2181, "step": 205 }, { "epoch": 0.5493333333333333, "grad_norm": 0.6142560243606567, "learning_rate": 4.594594594594596e-06, "loss": 0.1998, "step": 206 }, { "epoch": 0.552, "grad_norm": 0.5649769902229309, "learning_rate": 4.567567567567568e-06, "loss": 0.149, "step": 207 }, { "epoch": 0.5546666666666666, "grad_norm": 0.8020762801170349, "learning_rate": 4.540540540540541e-06, "loss": 0.2199, "step": 208 }, { "epoch": 0.5573333333333333, "grad_norm": 0.6906028389930725, "learning_rate": 4.513513513513514e-06, "loss": 0.2545, "step": 209 }, { "epoch": 0.56, "grad_norm": 0.5310454964637756, "learning_rate": 4.486486486486487e-06, "loss": 0.1296, "step": 210 }, { "epoch": 0.5626666666666666, "grad_norm": 0.5929126739501953, "learning_rate": 4.45945945945946e-06, "loss": 0.1612, "step": 211 }, { "epoch": 0.5653333333333334, "grad_norm": 0.6600434184074402, "learning_rate": 4.432432432432433e-06, "loss": 0.1297, "step": 212 }, { "epoch": 0.568, "grad_norm": 0.780139684677124, "learning_rate": 4.4054054054054054e-06, "loss": 0.2615, "step": 213 }, { "epoch": 0.5706666666666667, "grad_norm": 0.7482835650444031, "learning_rate": 4.378378378378379e-06, "loss": 0.2603, "step": 214 }, { "epoch": 0.5733333333333334, "grad_norm": 0.6610010862350464, "learning_rate": 4.351351351351352e-06, "loss": 0.2005, "step": 215 }, { "epoch": 0.576, "grad_norm": 0.5596050024032593, "learning_rate": 4.324324324324325e-06, "loss": 0.1836, "step": 216 }, { "epoch": 0.5786666666666667, "grad_norm": 0.5670168995857239, "learning_rate": 4.297297297297298e-06, "loss": 0.1425, "step": 217 }, { "epoch": 0.5813333333333334, "grad_norm": 0.7924901843070984, "learning_rate": 4.270270270270271e-06, "loss": 0.2453, "step": 218 }, { "epoch": 0.584, "grad_norm": 0.6086226105690002, "learning_rate": 4.243243243243244e-06, "loss": 0.1377, "step": 219 }, { "epoch": 0.5866666666666667, "grad_norm": 0.7282214164733887, "learning_rate": 4.216216216216217e-06, "loss": 0.2457, "step": 220 }, { "epoch": 0.5893333333333334, "grad_norm": 0.4617224633693695, "learning_rate": 4.189189189189189e-06, "loss": 0.113, "step": 221 }, { "epoch": 0.592, "grad_norm": 0.6779753565788269, "learning_rate": 4.162162162162163e-06, "loss": 0.1767, "step": 222 }, { "epoch": 0.5946666666666667, "grad_norm": 0.596565306186676, "learning_rate": 4.135135135135135e-06, "loss": 0.1679, "step": 223 }, { "epoch": 0.5973333333333334, "grad_norm": 0.48216086626052856, "learning_rate": 4.108108108108108e-06, "loss": 0.1185, "step": 224 }, { "epoch": 0.6, "grad_norm": 0.5772594213485718, "learning_rate": 4.0810810810810815e-06, "loss": 0.1377, "step": 225 }, { "epoch": 0.6026666666666667, "grad_norm": 0.5566317439079285, "learning_rate": 4.0540540540540545e-06, "loss": 0.1396, "step": 226 }, { "epoch": 0.6053333333333333, "grad_norm": 0.6380061507225037, "learning_rate": 4.027027027027028e-06, "loss": 0.1837, "step": 227 }, { "epoch": 0.608, "grad_norm": 0.7376194000244141, "learning_rate": 4.000000000000001e-06, "loss": 0.229, "step": 228 }, { "epoch": 0.6106666666666667, "grad_norm": 0.6296193599700928, "learning_rate": 3.972972972972973e-06, "loss": 0.1715, "step": 229 }, { "epoch": 0.6133333333333333, "grad_norm": 0.568450927734375, "learning_rate": 3.945945945945947e-06, "loss": 0.1345, "step": 230 }, { "epoch": 0.616, "grad_norm": 0.5919650793075562, "learning_rate": 3.918918918918919e-06, "loss": 0.1853, "step": 231 }, { "epoch": 0.6186666666666667, "grad_norm": 0.5901864767074585, "learning_rate": 3.891891891891892e-06, "loss": 0.1765, "step": 232 }, { "epoch": 0.6213333333333333, "grad_norm": 0.6295629143714905, "learning_rate": 3.864864864864865e-06, "loss": 0.1617, "step": 233 }, { "epoch": 0.624, "grad_norm": 0.6500459313392639, "learning_rate": 3.837837837837838e-06, "loss": 0.2035, "step": 234 }, { "epoch": 0.6266666666666667, "grad_norm": 0.581777036190033, "learning_rate": 3.810810810810811e-06, "loss": 0.1056, "step": 235 }, { "epoch": 0.6293333333333333, "grad_norm": 0.6335146427154541, "learning_rate": 3.7837837837837844e-06, "loss": 0.1709, "step": 236 }, { "epoch": 0.632, "grad_norm": 0.9207386374473572, "learning_rate": 3.756756756756757e-06, "loss": 0.2533, "step": 237 }, { "epoch": 0.6346666666666667, "grad_norm": 0.6363541483879089, "learning_rate": 3.72972972972973e-06, "loss": 0.1715, "step": 238 }, { "epoch": 0.6373333333333333, "grad_norm": 0.5972362160682678, "learning_rate": 3.7027027027027028e-06, "loss": 0.1687, "step": 239 }, { "epoch": 0.64, "grad_norm": 0.5836384296417236, "learning_rate": 3.6756756756756763e-06, "loss": 0.1381, "step": 240 }, { "epoch": 0.6426666666666667, "grad_norm": 0.6295225620269775, "learning_rate": 3.648648648648649e-06, "loss": 0.1395, "step": 241 }, { "epoch": 0.6453333333333333, "grad_norm": 0.6225628852844238, "learning_rate": 3.621621621621622e-06, "loss": 0.1915, "step": 242 }, { "epoch": 0.648, "grad_norm": 0.5212764143943787, "learning_rate": 3.5945945945945946e-06, "loss": 0.1061, "step": 243 }, { "epoch": 0.6506666666666666, "grad_norm": 0.6112397313117981, "learning_rate": 3.567567567567568e-06, "loss": 0.1796, "step": 244 }, { "epoch": 0.6533333333333333, "grad_norm": 0.677862286567688, "learning_rate": 3.5405405405405408e-06, "loss": 0.1758, "step": 245 }, { "epoch": 0.656, "grad_norm": 0.7376493215560913, "learning_rate": 3.513513513513514e-06, "loss": 0.1405, "step": 246 }, { "epoch": 0.6586666666666666, "grad_norm": 0.796800971031189, "learning_rate": 3.4864864864864865e-06, "loss": 0.2673, "step": 247 }, { "epoch": 0.6613333333333333, "grad_norm": 0.5394421219825745, "learning_rate": 3.45945945945946e-06, "loss": 0.1306, "step": 248 }, { "epoch": 0.664, "grad_norm": 0.72111576795578, "learning_rate": 3.4324324324324326e-06, "loss": 0.1884, "step": 249 }, { "epoch": 0.6666666666666666, "grad_norm": 0.610393226146698, "learning_rate": 3.4054054054054057e-06, "loss": 0.1638, "step": 250 }, { "epoch": 0.6693333333333333, "grad_norm": 0.5779626369476318, "learning_rate": 3.3783783783783788e-06, "loss": 0.1866, "step": 251 }, { "epoch": 0.672, "grad_norm": 0.738161563873291, "learning_rate": 3.351351351351352e-06, "loss": 0.2222, "step": 252 }, { "epoch": 0.6746666666666666, "grad_norm": 0.5546852350234985, "learning_rate": 3.3243243243243245e-06, "loss": 0.1872, "step": 253 }, { "epoch": 0.6773333333333333, "grad_norm": 0.5283682942390442, "learning_rate": 3.2972972972972976e-06, "loss": 0.1219, "step": 254 }, { "epoch": 0.68, "grad_norm": 0.5261179804801941, "learning_rate": 3.2702702702702706e-06, "loss": 0.1308, "step": 255 }, { "epoch": 0.6826666666666666, "grad_norm": 0.542107343673706, "learning_rate": 3.2432432432432437e-06, "loss": 0.1475, "step": 256 }, { "epoch": 0.6853333333333333, "grad_norm": 0.6292222738265991, "learning_rate": 3.2162162162162164e-06, "loss": 0.1808, "step": 257 }, { "epoch": 0.688, "grad_norm": 0.6876755356788635, "learning_rate": 3.1891891891891894e-06, "loss": 0.1867, "step": 258 }, { "epoch": 0.6906666666666667, "grad_norm": 0.7198378443717957, "learning_rate": 3.1621621621621625e-06, "loss": 0.2303, "step": 259 }, { "epoch": 0.6933333333333334, "grad_norm": 0.7376006245613098, "learning_rate": 3.1351351351351356e-06, "loss": 0.2427, "step": 260 }, { "epoch": 0.696, "grad_norm": 0.4985176622867584, "learning_rate": 3.1081081081081082e-06, "loss": 0.1403, "step": 261 }, { "epoch": 0.6986666666666667, "grad_norm": 0.8318588137626648, "learning_rate": 3.0810810810810817e-06, "loss": 0.2341, "step": 262 }, { "epoch": 0.7013333333333334, "grad_norm": 0.5068696141242981, "learning_rate": 3.0540540540540544e-06, "loss": 0.1303, "step": 263 }, { "epoch": 0.704, "grad_norm": 0.6681108474731445, "learning_rate": 3.0270270270270274e-06, "loss": 0.1519, "step": 264 }, { "epoch": 0.7066666666666667, "grad_norm": 0.914227306842804, "learning_rate": 3e-06, "loss": 0.1702, "step": 265 }, { "epoch": 0.7093333333333334, "grad_norm": 0.8891008496284485, "learning_rate": 2.9729729729729736e-06, "loss": 0.2504, "step": 266 }, { "epoch": 0.712, "grad_norm": 0.5998064279556274, "learning_rate": 2.9459459459459462e-06, "loss": 0.1619, "step": 267 }, { "epoch": 0.7146666666666667, "grad_norm": 0.4498307704925537, "learning_rate": 2.9189189189189193e-06, "loss": 0.1371, "step": 268 }, { "epoch": 0.7173333333333334, "grad_norm": 0.8718898892402649, "learning_rate": 2.891891891891892e-06, "loss": 0.2008, "step": 269 }, { "epoch": 0.72, "grad_norm": 0.693038284778595, "learning_rate": 2.8648648648648654e-06, "loss": 0.1775, "step": 270 }, { "epoch": 0.7226666666666667, "grad_norm": 0.505120038986206, "learning_rate": 2.837837837837838e-06, "loss": 0.0855, "step": 271 }, { "epoch": 0.7253333333333334, "grad_norm": 0.6572014689445496, "learning_rate": 2.810810810810811e-06, "loss": 0.1445, "step": 272 }, { "epoch": 0.728, "grad_norm": 0.5146646499633789, "learning_rate": 2.783783783783784e-06, "loss": 0.1424, "step": 273 }, { "epoch": 0.7306666666666667, "grad_norm": 0.6636260747909546, "learning_rate": 2.7567567567567573e-06, "loss": 0.1865, "step": 274 }, { "epoch": 0.7333333333333333, "grad_norm": 0.6801549792289734, "learning_rate": 2.72972972972973e-06, "loss": 0.207, "step": 275 }, { "epoch": 0.736, "grad_norm": 0.7226672768592834, "learning_rate": 2.702702702702703e-06, "loss": 0.1743, "step": 276 }, { "epoch": 0.7386666666666667, "grad_norm": 0.5998254418373108, "learning_rate": 2.6756756756756757e-06, "loss": 0.1684, "step": 277 }, { "epoch": 0.7413333333333333, "grad_norm": 0.6800865530967712, "learning_rate": 2.648648648648649e-06, "loss": 0.1699, "step": 278 }, { "epoch": 0.744, "grad_norm": 0.7659003138542175, "learning_rate": 2.621621621621622e-06, "loss": 0.2064, "step": 279 }, { "epoch": 0.7466666666666667, "grad_norm": 0.7691957950592041, "learning_rate": 2.594594594594595e-06, "loss": 0.2012, "step": 280 }, { "epoch": 0.7493333333333333, "grad_norm": 0.506563663482666, "learning_rate": 2.5675675675675675e-06, "loss": 0.1673, "step": 281 }, { "epoch": 0.752, "grad_norm": 0.6201961636543274, "learning_rate": 2.540540540540541e-06, "loss": 0.1388, "step": 282 }, { "epoch": 0.7546666666666667, "grad_norm": 0.8933998346328735, "learning_rate": 2.5135135135135137e-06, "loss": 0.2727, "step": 283 }, { "epoch": 0.7573333333333333, "grad_norm": 0.47412559390068054, "learning_rate": 2.4864864864864867e-06, "loss": 0.1263, "step": 284 }, { "epoch": 0.76, "grad_norm": 0.5057530999183655, "learning_rate": 2.45945945945946e-06, "loss": 0.1022, "step": 285 }, { "epoch": 0.7626666666666667, "grad_norm": 0.5722337961196899, "learning_rate": 2.432432432432433e-06, "loss": 0.1434, "step": 286 }, { "epoch": 0.7653333333333333, "grad_norm": 0.598971426486969, "learning_rate": 2.4054054054054055e-06, "loss": 0.1612, "step": 287 }, { "epoch": 0.768, "grad_norm": 0.657231867313385, "learning_rate": 2.3783783783783786e-06, "loss": 0.1807, "step": 288 }, { "epoch": 0.7706666666666667, "grad_norm": 0.6193355321884155, "learning_rate": 2.3513513513513517e-06, "loss": 0.1475, "step": 289 }, { "epoch": 0.7733333333333333, "grad_norm": 0.759707510471344, "learning_rate": 2.3243243243243247e-06, "loss": 0.2129, "step": 290 }, { "epoch": 0.776, "grad_norm": 0.7352281212806702, "learning_rate": 2.297297297297298e-06, "loss": 0.2235, "step": 291 }, { "epoch": 0.7786666666666666, "grad_norm": 0.8399860262870789, "learning_rate": 2.2702702702702705e-06, "loss": 0.2705, "step": 292 }, { "epoch": 0.7813333333333333, "grad_norm": 0.6437696814537048, "learning_rate": 2.2432432432432435e-06, "loss": 0.1945, "step": 293 }, { "epoch": 0.784, "grad_norm": 0.695044755935669, "learning_rate": 2.2162162162162166e-06, "loss": 0.1563, "step": 294 }, { "epoch": 0.7866666666666666, "grad_norm": 0.7957045435905457, "learning_rate": 2.1891891891891897e-06, "loss": 0.2012, "step": 295 }, { "epoch": 0.7893333333333333, "grad_norm": 0.6688436269760132, "learning_rate": 2.1621621621621623e-06, "loss": 0.1277, "step": 296 }, { "epoch": 0.792, "grad_norm": 0.6803908348083496, "learning_rate": 2.1351351351351354e-06, "loss": 0.1463, "step": 297 }, { "epoch": 0.7946666666666666, "grad_norm": 0.7668745517730713, "learning_rate": 2.1081081081081085e-06, "loss": 0.222, "step": 298 }, { "epoch": 0.7973333333333333, "grad_norm": 0.8657370209693909, "learning_rate": 2.0810810810810815e-06, "loss": 0.2236, "step": 299 }, { "epoch": 0.8, "grad_norm": 0.4982978105545044, "learning_rate": 2.054054054054054e-06, "loss": 0.1047, "step": 300 }, { "epoch": 0.8026666666666666, "grad_norm": 1.008243441581726, "learning_rate": 2.0270270270270273e-06, "loss": 0.2712, "step": 301 }, { "epoch": 0.8053333333333333, "grad_norm": 0.6465718746185303, "learning_rate": 2.0000000000000003e-06, "loss": 0.183, "step": 302 }, { "epoch": 0.808, "grad_norm": 0.7556140422821045, "learning_rate": 1.9729729729729734e-06, "loss": 0.2373, "step": 303 }, { "epoch": 0.8106666666666666, "grad_norm": 0.9192178249359131, "learning_rate": 1.945945945945946e-06, "loss": 0.2582, "step": 304 }, { "epoch": 0.8133333333333334, "grad_norm": 0.5809621810913086, "learning_rate": 1.918918918918919e-06, "loss": 0.1608, "step": 305 }, { "epoch": 0.816, "grad_norm": 0.7420186996459961, "learning_rate": 1.8918918918918922e-06, "loss": 0.2247, "step": 306 }, { "epoch": 0.8186666666666667, "grad_norm": 0.6600176692008972, "learning_rate": 1.864864864864865e-06, "loss": 0.1427, "step": 307 }, { "epoch": 0.8213333333333334, "grad_norm": 0.6174532771110535, "learning_rate": 1.8378378378378381e-06, "loss": 0.1741, "step": 308 }, { "epoch": 0.824, "grad_norm": 0.646851122379303, "learning_rate": 1.810810810810811e-06, "loss": 0.186, "step": 309 }, { "epoch": 0.8266666666666667, "grad_norm": 0.6165786981582642, "learning_rate": 1.783783783783784e-06, "loss": 0.1515, "step": 310 }, { "epoch": 0.8293333333333334, "grad_norm": 0.642686665058136, "learning_rate": 1.756756756756757e-06, "loss": 0.2009, "step": 311 }, { "epoch": 0.832, "grad_norm": 0.684529185295105, "learning_rate": 1.72972972972973e-06, "loss": 0.1888, "step": 312 }, { "epoch": 0.8346666666666667, "grad_norm": 0.7514453530311584, "learning_rate": 1.7027027027027028e-06, "loss": 0.2358, "step": 313 }, { "epoch": 0.8373333333333334, "grad_norm": 0.658891499042511, "learning_rate": 1.675675675675676e-06, "loss": 0.1613, "step": 314 }, { "epoch": 0.84, "grad_norm": 0.5634497404098511, "learning_rate": 1.6486486486486488e-06, "loss": 0.1813, "step": 315 }, { "epoch": 0.8426666666666667, "grad_norm": 0.6397603154182434, "learning_rate": 1.6216216216216219e-06, "loss": 0.1569, "step": 316 }, { "epoch": 0.8453333333333334, "grad_norm": 0.5364403128623962, "learning_rate": 1.5945945945945947e-06, "loss": 0.1524, "step": 317 }, { "epoch": 0.848, "grad_norm": 0.6723018288612366, "learning_rate": 1.5675675675675678e-06, "loss": 0.1518, "step": 318 }, { "epoch": 0.8506666666666667, "grad_norm": 0.5924685597419739, "learning_rate": 1.5405405405405409e-06, "loss": 0.1293, "step": 319 }, { "epoch": 0.8533333333333334, "grad_norm": 0.6047373414039612, "learning_rate": 1.5135135135135137e-06, "loss": 0.1755, "step": 320 }, { "epoch": 0.856, "grad_norm": 0.7350829243659973, "learning_rate": 1.4864864864864868e-06, "loss": 0.2148, "step": 321 }, { "epoch": 0.8586666666666667, "grad_norm": 0.5970800518989563, "learning_rate": 1.4594594594594596e-06, "loss": 0.1088, "step": 322 }, { "epoch": 0.8613333333333333, "grad_norm": 0.6480084657669067, "learning_rate": 1.4324324324324327e-06, "loss": 0.1751, "step": 323 }, { "epoch": 0.864, "grad_norm": 0.6453187465667725, "learning_rate": 1.4054054054054056e-06, "loss": 0.1577, "step": 324 }, { "epoch": 0.8666666666666667, "grad_norm": 0.5671096444129944, "learning_rate": 1.3783783783783786e-06, "loss": 0.1263, "step": 325 }, { "epoch": 0.8693333333333333, "grad_norm": 0.6587651371955872, "learning_rate": 1.3513513513513515e-06, "loss": 0.1517, "step": 326 }, { "epoch": 0.872, "grad_norm": 0.6195429563522339, "learning_rate": 1.3243243243243246e-06, "loss": 0.1351, "step": 327 }, { "epoch": 0.8746666666666667, "grad_norm": 0.6922061443328857, "learning_rate": 1.2972972972972974e-06, "loss": 0.2083, "step": 328 }, { "epoch": 0.8773333333333333, "grad_norm": 0.6278188824653625, "learning_rate": 1.2702702702702705e-06, "loss": 0.1798, "step": 329 }, { "epoch": 0.88, "grad_norm": 0.7087084054946899, "learning_rate": 1.2432432432432434e-06, "loss": 0.1778, "step": 330 }, { "epoch": 0.8826666666666667, "grad_norm": 0.6831982135772705, "learning_rate": 1.2162162162162164e-06, "loss": 0.1962, "step": 331 }, { "epoch": 0.8853333333333333, "grad_norm": 0.7166221737861633, "learning_rate": 1.1891891891891893e-06, "loss": 0.1854, "step": 332 }, { "epoch": 0.888, "grad_norm": 0.8986877202987671, "learning_rate": 1.1621621621621624e-06, "loss": 0.2427, "step": 333 }, { "epoch": 0.8906666666666667, "grad_norm": 0.6607679724693298, "learning_rate": 1.1351351351351352e-06, "loss": 0.1543, "step": 334 }, { "epoch": 0.8933333333333333, "grad_norm": 0.5490771532058716, "learning_rate": 1.1081081081081083e-06, "loss": 0.1395, "step": 335 }, { "epoch": 0.896, "grad_norm": 0.5502904057502747, "learning_rate": 1.0810810810810812e-06, "loss": 0.1115, "step": 336 }, { "epoch": 0.8986666666666666, "grad_norm": 0.7038357257843018, "learning_rate": 1.0540540540540542e-06, "loss": 0.1838, "step": 337 }, { "epoch": 0.9013333333333333, "grad_norm": 0.637759804725647, "learning_rate": 1.027027027027027e-06, "loss": 0.1458, "step": 338 }, { "epoch": 0.904, "grad_norm": 0.41699838638305664, "learning_rate": 1.0000000000000002e-06, "loss": 0.0636, "step": 339 }, { "epoch": 0.9066666666666666, "grad_norm": 0.6530246734619141, "learning_rate": 9.72972972972973e-07, "loss": 0.2018, "step": 340 }, { "epoch": 0.9093333333333333, "grad_norm": 0.60310298204422, "learning_rate": 9.459459459459461e-07, "loss": 0.1881, "step": 341 }, { "epoch": 0.912, "grad_norm": 0.7850892543792725, "learning_rate": 9.189189189189191e-07, "loss": 0.2068, "step": 342 }, { "epoch": 0.9146666666666666, "grad_norm": 0.6868510246276855, "learning_rate": 8.91891891891892e-07, "loss": 0.1771, "step": 343 }, { "epoch": 0.9173333333333333, "grad_norm": 0.9098823070526123, "learning_rate": 8.64864864864865e-07, "loss": 0.3305, "step": 344 }, { "epoch": 0.92, "grad_norm": 0.5945159792900085, "learning_rate": 8.37837837837838e-07, "loss": 0.1888, "step": 345 }, { "epoch": 0.9226666666666666, "grad_norm": 0.8558082580566406, "learning_rate": 8.108108108108109e-07, "loss": 0.2441, "step": 346 }, { "epoch": 0.9253333333333333, "grad_norm": 0.5650514960289001, "learning_rate": 7.837837837837839e-07, "loss": 0.1159, "step": 347 }, { "epoch": 0.928, "grad_norm": 0.7538920044898987, "learning_rate": 7.567567567567569e-07, "loss": 0.2237, "step": 348 }, { "epoch": 0.9306666666666666, "grad_norm": 0.7166353464126587, "learning_rate": 7.297297297297298e-07, "loss": 0.1995, "step": 349 }, { "epoch": 0.9333333333333333, "grad_norm": 0.6613370776176453, "learning_rate": 7.027027027027028e-07, "loss": 0.1983, "step": 350 }, { "epoch": 0.936, "grad_norm": 0.7816197276115417, "learning_rate": 6.756756756756758e-07, "loss": 0.2224, "step": 351 }, { "epoch": 0.9386666666666666, "grad_norm": 0.8152917623519897, "learning_rate": 6.486486486486487e-07, "loss": 0.2185, "step": 352 }, { "epoch": 0.9413333333333334, "grad_norm": 0.5740703344345093, "learning_rate": 6.216216216216217e-07, "loss": 0.1233, "step": 353 }, { "epoch": 0.944, "grad_norm": 0.8874627351760864, "learning_rate": 5.945945945945947e-07, "loss": 0.2933, "step": 354 }, { "epoch": 0.9466666666666667, "grad_norm": 0.7364516258239746, "learning_rate": 5.675675675675676e-07, "loss": 0.1977, "step": 355 }, { "epoch": 0.9493333333333334, "grad_norm": 0.5339112877845764, "learning_rate": 5.405405405405406e-07, "loss": 0.1234, "step": 356 }, { "epoch": 0.952, "grad_norm": 0.717179536819458, "learning_rate": 5.135135135135135e-07, "loss": 0.2112, "step": 357 }, { "epoch": 0.9546666666666667, "grad_norm": 0.49759364128112793, "learning_rate": 4.864864864864865e-07, "loss": 0.123, "step": 358 }, { "epoch": 0.9573333333333334, "grad_norm": 0.683788537979126, "learning_rate": 4.5945945945945953e-07, "loss": 0.1317, "step": 359 }, { "epoch": 0.96, "grad_norm": 0.8108550906181335, "learning_rate": 4.324324324324325e-07, "loss": 0.2541, "step": 360 }, { "epoch": 0.9626666666666667, "grad_norm": 0.6992772221565247, "learning_rate": 4.0540540540540546e-07, "loss": 0.1595, "step": 361 }, { "epoch": 0.9653333333333334, "grad_norm": 0.6799488663673401, "learning_rate": 3.7837837837837843e-07, "loss": 0.1389, "step": 362 }, { "epoch": 0.968, "grad_norm": 0.8049048185348511, "learning_rate": 3.513513513513514e-07, "loss": 0.2037, "step": 363 }, { "epoch": 0.9706666666666667, "grad_norm": 0.8890615701675415, "learning_rate": 3.2432432432432436e-07, "loss": 0.2564, "step": 364 }, { "epoch": 0.9733333333333334, "grad_norm": 0.7139678597450256, "learning_rate": 2.972972972972973e-07, "loss": 0.1785, "step": 365 }, { "epoch": 0.976, "grad_norm": 0.8582870364189148, "learning_rate": 2.702702702702703e-07, "loss": 0.2773, "step": 366 }, { "epoch": 0.9786666666666667, "grad_norm": 0.7711176872253418, "learning_rate": 2.4324324324324326e-07, "loss": 0.2672, "step": 367 }, { "epoch": 0.9813333333333333, "grad_norm": 0.8329382538795471, "learning_rate": 2.1621621621621625e-07, "loss": 0.2577, "step": 368 }, { "epoch": 0.984, "grad_norm": 0.7744131684303284, "learning_rate": 1.8918918918918921e-07, "loss": 0.2385, "step": 369 }, { "epoch": 0.9866666666666667, "grad_norm": 0.8693195581436157, "learning_rate": 1.6216216216216218e-07, "loss": 0.1542, "step": 370 }, { "epoch": 0.9893333333333333, "grad_norm": 0.6429604291915894, "learning_rate": 1.3513513513513515e-07, "loss": 0.1575, "step": 371 }, { "epoch": 0.992, "grad_norm": 0.5807231068611145, "learning_rate": 1.0810810810810812e-07, "loss": 0.1516, "step": 372 }, { "epoch": 0.9946666666666667, "grad_norm": 0.5631595253944397, "learning_rate": 8.108108108108109e-08, "loss": 0.1513, "step": 373 }, { "epoch": 0.9973333333333333, "grad_norm": 0.7601114511489868, "learning_rate": 5.405405405405406e-08, "loss": 0.1774, "step": 374 }, { "epoch": 1.0, "grad_norm": 0.6222306489944458, "learning_rate": 2.702702702702703e-08, "loss": 0.139, "step": 375 } ], "logging_steps": 1, "max_steps": 375, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 5000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 3.325234584919818e+17, "train_batch_size": 2, "trial_name": null, "trial_params": null }