{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 1.0, "eval_steps": 500, "global_step": 375, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0026666666666666666, "grad_norm": 0.5543326735496521, "learning_rate": 0.0, "loss": 0.6956, "step": 1 }, { "epoch": 0.005333333333333333, "grad_norm": 0.4797985851764679, "learning_rate": 2.0000000000000003e-06, "loss": 0.4872, "step": 2 }, { "epoch": 0.008, "grad_norm": 0.48911529779434204, "learning_rate": 4.000000000000001e-06, "loss": 0.5768, "step": 3 }, { "epoch": 0.010666666666666666, "grad_norm": 0.5587961077690125, "learning_rate": 6e-06, "loss": 0.747, "step": 4 }, { "epoch": 0.013333333333333334, "grad_norm": 0.5179899334907532, "learning_rate": 8.000000000000001e-06, "loss": 0.6733, "step": 5 }, { "epoch": 0.016, "grad_norm": 0.4987984597682953, "learning_rate": 1e-05, "loss": 0.5151, "step": 6 }, { "epoch": 0.018666666666666668, "grad_norm": 0.5047922134399414, "learning_rate": 9.972972972972975e-06, "loss": 0.7244, "step": 7 }, { "epoch": 0.021333333333333333, "grad_norm": 0.5605852603912354, "learning_rate": 9.945945945945947e-06, "loss": 0.809, "step": 8 }, { "epoch": 0.024, "grad_norm": 0.5104567408561707, "learning_rate": 9.91891891891892e-06, "loss": 0.5502, "step": 9 }, { "epoch": 0.02666666666666667, "grad_norm": 0.47620439529418945, "learning_rate": 9.891891891891893e-06, "loss": 0.4686, "step": 10 }, { "epoch": 0.029333333333333333, "grad_norm": 0.6194598078727722, "learning_rate": 9.864864864864865e-06, "loss": 0.6257, "step": 11 }, { "epoch": 0.032, "grad_norm": 0.5152365565299988, "learning_rate": 9.83783783783784e-06, "loss": 0.3789, "step": 12 }, { "epoch": 0.034666666666666665, "grad_norm": 0.3886977732181549, "learning_rate": 9.810810810810811e-06, "loss": 0.4055, "step": 13 }, { "epoch": 0.037333333333333336, "grad_norm": 0.5776229500770569, "learning_rate": 9.783783783783785e-06, "loss": 0.5677, "step": 14 }, { "epoch": 0.04, "grad_norm": 0.4035866856575012, "learning_rate": 9.756756756756758e-06, "loss": 0.3087, "step": 15 }, { "epoch": 0.042666666666666665, "grad_norm": 0.6218178868293762, "learning_rate": 9.729729729729732e-06, "loss": 0.5242, "step": 16 }, { "epoch": 0.04533333333333334, "grad_norm": 0.542084813117981, "learning_rate": 9.702702702702704e-06, "loss": 0.4171, "step": 17 }, { "epoch": 0.048, "grad_norm": 0.5141088366508484, "learning_rate": 9.675675675675676e-06, "loss": 0.5878, "step": 18 }, { "epoch": 0.050666666666666665, "grad_norm": 0.535948634147644, "learning_rate": 9.64864864864865e-06, "loss": 0.701, "step": 19 }, { "epoch": 0.05333333333333334, "grad_norm": 0.4928755760192871, "learning_rate": 9.621621621621622e-06, "loss": 0.5019, "step": 20 }, { "epoch": 0.056, "grad_norm": 0.6214717626571655, "learning_rate": 9.594594594594594e-06, "loss": 0.5896, "step": 21 }, { "epoch": 0.058666666666666666, "grad_norm": 0.45226436853408813, "learning_rate": 9.567567567567568e-06, "loss": 0.4881, "step": 22 }, { "epoch": 0.06133333333333333, "grad_norm": 0.42297041416168213, "learning_rate": 9.540540540540542e-06, "loss": 0.4543, "step": 23 }, { "epoch": 0.064, "grad_norm": 0.4443454146385193, "learning_rate": 9.513513513513514e-06, "loss": 0.5891, "step": 24 }, { "epoch": 0.06666666666666667, "grad_norm": 0.494447261095047, "learning_rate": 9.486486486486487e-06, "loss": 0.5523, "step": 25 }, { "epoch": 0.06933333333333333, "grad_norm": 0.46235889196395874, "learning_rate": 9.45945945945946e-06, "loss": 0.6031, "step": 26 }, { "epoch": 0.072, "grad_norm": 0.4294489324092865, "learning_rate": 9.432432432432433e-06, "loss": 0.5405, "step": 27 }, { "epoch": 0.07466666666666667, "grad_norm": 0.4877467453479767, "learning_rate": 9.405405405405407e-06, "loss": 0.6455, "step": 28 }, { "epoch": 0.07733333333333334, "grad_norm": 0.39220619201660156, "learning_rate": 9.378378378378379e-06, "loss": 0.5314, "step": 29 }, { "epoch": 0.08, "grad_norm": 0.47841790318489075, "learning_rate": 9.351351351351353e-06, "loss": 0.694, "step": 30 }, { "epoch": 0.08266666666666667, "grad_norm": 0.3639473617076874, "learning_rate": 9.324324324324325e-06, "loss": 0.4159, "step": 31 }, { "epoch": 0.08533333333333333, "grad_norm": 0.2741430997848511, "learning_rate": 9.297297297297299e-06, "loss": 0.3125, "step": 32 }, { "epoch": 0.088, "grad_norm": 0.322459876537323, "learning_rate": 9.270270270270271e-06, "loss": 0.3678, "step": 33 }, { "epoch": 0.09066666666666667, "grad_norm": 0.337561696767807, "learning_rate": 9.243243243243243e-06, "loss": 0.4006, "step": 34 }, { "epoch": 0.09333333333333334, "grad_norm": 0.2928447723388672, "learning_rate": 9.216216216216217e-06, "loss": 0.3721, "step": 35 }, { "epoch": 0.096, "grad_norm": 0.28887689113616943, "learning_rate": 9.189189189189191e-06, "loss": 0.3357, "step": 36 }, { "epoch": 0.09866666666666667, "grad_norm": 0.30098190903663635, "learning_rate": 9.162162162162162e-06, "loss": 0.3795, "step": 37 }, { "epoch": 0.10133333333333333, "grad_norm": 0.2573944628238678, "learning_rate": 9.135135135135136e-06, "loss": 0.2827, "step": 38 }, { "epoch": 0.104, "grad_norm": 0.34657958149909973, "learning_rate": 9.10810810810811e-06, "loss": 0.4863, "step": 39 }, { "epoch": 0.10666666666666667, "grad_norm": 0.33904358744621277, "learning_rate": 9.081081081081082e-06, "loss": 0.3657, "step": 40 }, { "epoch": 0.10933333333333334, "grad_norm": 0.34780725836753845, "learning_rate": 9.054054054054054e-06, "loss": 0.5071, "step": 41 }, { "epoch": 0.112, "grad_norm": 0.3733508288860321, "learning_rate": 9.027027027027028e-06, "loss": 0.398, "step": 42 }, { "epoch": 0.11466666666666667, "grad_norm": 0.3586997389793396, "learning_rate": 9e-06, "loss": 0.3597, "step": 43 }, { "epoch": 0.11733333333333333, "grad_norm": 0.2635090947151184, "learning_rate": 8.972972972972974e-06, "loss": 0.3313, "step": 44 }, { "epoch": 0.12, "grad_norm": 0.3568478226661682, "learning_rate": 8.945945945945946e-06, "loss": 0.5268, "step": 45 }, { "epoch": 0.12266666666666666, "grad_norm": 0.3590853214263916, "learning_rate": 8.91891891891892e-06, "loss": 0.4184, "step": 46 }, { "epoch": 0.12533333333333332, "grad_norm": 0.41594359278678894, "learning_rate": 8.891891891891893e-06, "loss": 0.5412, "step": 47 }, { "epoch": 0.128, "grad_norm": 0.35628384351730347, "learning_rate": 8.864864864864866e-06, "loss": 0.4746, "step": 48 }, { "epoch": 0.13066666666666665, "grad_norm": 0.39674803614616394, "learning_rate": 8.837837837837839e-06, "loss": 0.6083, "step": 49 }, { "epoch": 0.13333333333333333, "grad_norm": 0.34043654799461365, "learning_rate": 8.810810810810811e-06, "loss": 0.4301, "step": 50 }, { "epoch": 0.136, "grad_norm": 0.282921701669693, "learning_rate": 8.783783783783785e-06, "loss": 0.2986, "step": 51 }, { "epoch": 0.13866666666666666, "grad_norm": 0.3745182752609253, "learning_rate": 8.756756756756759e-06, "loss": 0.5282, "step": 52 }, { "epoch": 0.14133333333333334, "grad_norm": 0.35771623253822327, "learning_rate": 8.72972972972973e-06, "loss": 0.439, "step": 53 }, { "epoch": 0.144, "grad_norm": 0.341633141040802, "learning_rate": 8.702702702702703e-06, "loss": 0.4078, "step": 54 }, { "epoch": 0.14666666666666667, "grad_norm": 0.36740970611572266, "learning_rate": 8.675675675675677e-06, "loss": 0.451, "step": 55 }, { "epoch": 0.14933333333333335, "grad_norm": 0.3221670389175415, "learning_rate": 8.64864864864865e-06, "loss": 0.4683, "step": 56 }, { "epoch": 0.152, "grad_norm": 0.4730876386165619, "learning_rate": 8.621621621621622e-06, "loss": 0.6165, "step": 57 }, { "epoch": 0.15466666666666667, "grad_norm": 0.4205397665500641, "learning_rate": 8.594594594594595e-06, "loss": 0.4504, "step": 58 }, { "epoch": 0.15733333333333333, "grad_norm": 0.331021785736084, "learning_rate": 8.567567567567568e-06, "loss": 0.4651, "step": 59 }, { "epoch": 0.16, "grad_norm": 0.23827485740184784, "learning_rate": 8.540540540540542e-06, "loss": 0.2987, "step": 60 }, { "epoch": 0.16266666666666665, "grad_norm": 0.3104739487171173, "learning_rate": 8.513513513513514e-06, "loss": 0.3901, "step": 61 }, { "epoch": 0.16533333333333333, "grad_norm": 0.42158043384552, "learning_rate": 8.486486486486488e-06, "loss": 0.372, "step": 62 }, { "epoch": 0.168, "grad_norm": 0.37506619095802307, "learning_rate": 8.45945945945946e-06, "loss": 0.4102, "step": 63 }, { "epoch": 0.17066666666666666, "grad_norm": 0.26695767045021057, "learning_rate": 8.432432432432434e-06, "loss": 0.2591, "step": 64 }, { "epoch": 0.17333333333333334, "grad_norm": 0.3017287850379944, "learning_rate": 8.405405405405406e-06, "loss": 0.3498, "step": 65 }, { "epoch": 0.176, "grad_norm": 0.40047135949134827, "learning_rate": 8.378378378378378e-06, "loss": 0.4782, "step": 66 }, { "epoch": 0.17866666666666667, "grad_norm": 0.3512359857559204, "learning_rate": 8.351351351351352e-06, "loss": 0.3442, "step": 67 }, { "epoch": 0.18133333333333335, "grad_norm": 0.3808298707008362, "learning_rate": 8.324324324324326e-06, "loss": 0.4037, "step": 68 }, { "epoch": 0.184, "grad_norm": 0.2984209954738617, "learning_rate": 8.297297297297298e-06, "loss": 0.3603, "step": 69 }, { "epoch": 0.18666666666666668, "grad_norm": 0.3717655837535858, "learning_rate": 8.27027027027027e-06, "loss": 0.4912, "step": 70 }, { "epoch": 0.18933333333333333, "grad_norm": 0.3161354660987854, "learning_rate": 8.243243243243245e-06, "loss": 0.2771, "step": 71 }, { "epoch": 0.192, "grad_norm": 0.27775511145591736, "learning_rate": 8.216216216216217e-06, "loss": 0.2833, "step": 72 }, { "epoch": 0.19466666666666665, "grad_norm": 0.2867582142353058, "learning_rate": 8.189189189189189e-06, "loss": 0.3315, "step": 73 }, { "epoch": 0.19733333333333333, "grad_norm": 0.3157719373703003, "learning_rate": 8.162162162162163e-06, "loss": 0.4259, "step": 74 }, { "epoch": 0.2, "grad_norm": 0.30915310978889465, "learning_rate": 8.135135135135137e-06, "loss": 0.4142, "step": 75 }, { "epoch": 0.20266666666666666, "grad_norm": 0.38195255398750305, "learning_rate": 8.108108108108109e-06, "loss": 0.3481, "step": 76 }, { "epoch": 0.20533333333333334, "grad_norm": 0.2841779589653015, "learning_rate": 8.081081081081081e-06, "loss": 0.2446, "step": 77 }, { "epoch": 0.208, "grad_norm": 0.354647159576416, "learning_rate": 8.054054054054055e-06, "loss": 0.4167, "step": 78 }, { "epoch": 0.21066666666666667, "grad_norm": 0.3281633257865906, "learning_rate": 8.027027027027027e-06, "loss": 0.3556, "step": 79 }, { "epoch": 0.21333333333333335, "grad_norm": 0.3177337944507599, "learning_rate": 8.000000000000001e-06, "loss": 0.3752, "step": 80 }, { "epoch": 0.216, "grad_norm": 0.3311088979244232, "learning_rate": 7.972972972972974e-06, "loss": 0.426, "step": 81 }, { "epoch": 0.21866666666666668, "grad_norm": 0.3061436116695404, "learning_rate": 7.945945945945946e-06, "loss": 0.3974, "step": 82 }, { "epoch": 0.22133333333333333, "grad_norm": 0.30639269948005676, "learning_rate": 7.91891891891892e-06, "loss": 0.3498, "step": 83 }, { "epoch": 0.224, "grad_norm": 0.36717212200164795, "learning_rate": 7.891891891891894e-06, "loss": 0.4627, "step": 84 }, { "epoch": 0.22666666666666666, "grad_norm": 0.39034345746040344, "learning_rate": 7.864864864864866e-06, "loss": 0.42, "step": 85 }, { "epoch": 0.22933333333333333, "grad_norm": 0.4020478129386902, "learning_rate": 7.837837837837838e-06, "loss": 0.4868, "step": 86 }, { "epoch": 0.232, "grad_norm": 0.296819269657135, "learning_rate": 7.810810810810812e-06, "loss": 0.333, "step": 87 }, { "epoch": 0.23466666666666666, "grad_norm": 0.3502885699272156, "learning_rate": 7.783783783783784e-06, "loss": 0.3953, "step": 88 }, { "epoch": 0.23733333333333334, "grad_norm": 0.43262115120887756, "learning_rate": 7.756756756756756e-06, "loss": 0.5473, "step": 89 }, { "epoch": 0.24, "grad_norm": 0.304721474647522, "learning_rate": 7.72972972972973e-06, "loss": 0.4099, "step": 90 }, { "epoch": 0.24266666666666667, "grad_norm": 0.31378278136253357, "learning_rate": 7.702702702702704e-06, "loss": 0.3256, "step": 91 }, { "epoch": 0.24533333333333332, "grad_norm": 0.3648003339767456, "learning_rate": 7.675675675675676e-06, "loss": 0.4076, "step": 92 }, { "epoch": 0.248, "grad_norm": 0.3370632231235504, "learning_rate": 7.648648648648649e-06, "loss": 0.4735, "step": 93 }, { "epoch": 0.25066666666666665, "grad_norm": 0.2060670107603073, "learning_rate": 7.621621621621622e-06, "loss": 0.1949, "step": 94 }, { "epoch": 0.25333333333333335, "grad_norm": 0.29312825202941895, "learning_rate": 7.594594594594596e-06, "loss": 0.3223, "step": 95 }, { "epoch": 0.256, "grad_norm": 0.35278427600860596, "learning_rate": 7.567567567567569e-06, "loss": 0.4784, "step": 96 }, { "epoch": 0.25866666666666666, "grad_norm": 0.36198437213897705, "learning_rate": 7.540540540540541e-06, "loss": 0.3854, "step": 97 }, { "epoch": 0.2613333333333333, "grad_norm": 0.3577609658241272, "learning_rate": 7.513513513513514e-06, "loss": 0.3211, "step": 98 }, { "epoch": 0.264, "grad_norm": 0.2675321698188782, "learning_rate": 7.486486486486487e-06, "loss": 0.2654, "step": 99 }, { "epoch": 0.26666666666666666, "grad_norm": 0.3134882152080536, "learning_rate": 7.45945945945946e-06, "loss": 0.3489, "step": 100 }, { "epoch": 0.2693333333333333, "grad_norm": 0.3352510333061218, "learning_rate": 7.4324324324324324e-06, "loss": 0.426, "step": 101 }, { "epoch": 0.272, "grad_norm": 0.3078528940677643, "learning_rate": 7.4054054054054055e-06, "loss": 0.3351, "step": 102 }, { "epoch": 0.27466666666666667, "grad_norm": 0.3601507544517517, "learning_rate": 7.3783783783783794e-06, "loss": 0.4123, "step": 103 }, { "epoch": 0.2773333333333333, "grad_norm": 0.3368474245071411, "learning_rate": 7.3513513513513525e-06, "loss": 0.3567, "step": 104 }, { "epoch": 0.28, "grad_norm": 0.2661753296852112, "learning_rate": 7.324324324324325e-06, "loss": 0.2526, "step": 105 }, { "epoch": 0.2826666666666667, "grad_norm": 0.29493969678878784, "learning_rate": 7.297297297297298e-06, "loss": 0.2911, "step": 106 }, { "epoch": 0.2853333333333333, "grad_norm": 0.3015214502811432, "learning_rate": 7.270270270270271e-06, "loss": 0.3546, "step": 107 }, { "epoch": 0.288, "grad_norm": 0.31170281767845154, "learning_rate": 7.243243243243244e-06, "loss": 0.3428, "step": 108 }, { "epoch": 0.2906666666666667, "grad_norm": 0.4432995915412903, "learning_rate": 7.216216216216216e-06, "loss": 0.589, "step": 109 }, { "epoch": 0.29333333333333333, "grad_norm": 0.2930474579334259, "learning_rate": 7.189189189189189e-06, "loss": 0.2782, "step": 110 }, { "epoch": 0.296, "grad_norm": 0.32517051696777344, "learning_rate": 7.162162162162163e-06, "loss": 0.3201, "step": 111 }, { "epoch": 0.2986666666666667, "grad_norm": 0.3172248899936676, "learning_rate": 7.135135135135136e-06, "loss": 0.4059, "step": 112 }, { "epoch": 0.30133333333333334, "grad_norm": 0.2943588197231293, "learning_rate": 7.1081081081081085e-06, "loss": 0.3373, "step": 113 }, { "epoch": 0.304, "grad_norm": 0.3395790457725525, "learning_rate": 7.0810810810810815e-06, "loss": 0.372, "step": 114 }, { "epoch": 0.30666666666666664, "grad_norm": 0.2943841814994812, "learning_rate": 7.054054054054055e-06, "loss": 0.2726, "step": 115 }, { "epoch": 0.30933333333333335, "grad_norm": 0.1903059333562851, "learning_rate": 7.027027027027028e-06, "loss": 0.1651, "step": 116 }, { "epoch": 0.312, "grad_norm": 0.4145515263080597, "learning_rate": 7e-06, "loss": 0.3926, "step": 117 }, { "epoch": 0.31466666666666665, "grad_norm": 0.3131045699119568, "learning_rate": 6.972972972972973e-06, "loss": 0.3608, "step": 118 }, { "epoch": 0.31733333333333336, "grad_norm": 0.25495240092277527, "learning_rate": 6.945945945945947e-06, "loss": 0.3064, "step": 119 }, { "epoch": 0.32, "grad_norm": 0.2852689325809479, "learning_rate": 6.91891891891892e-06, "loss": 0.3309, "step": 120 }, { "epoch": 0.32266666666666666, "grad_norm": 0.4423224925994873, "learning_rate": 6.891891891891892e-06, "loss": 0.6404, "step": 121 }, { "epoch": 0.3253333333333333, "grad_norm": 0.3159885108470917, "learning_rate": 6.864864864864865e-06, "loss": 0.3469, "step": 122 }, { "epoch": 0.328, "grad_norm": 0.3023677468299866, "learning_rate": 6.837837837837838e-06, "loss": 0.332, "step": 123 }, { "epoch": 0.33066666666666666, "grad_norm": 0.38796430826187134, "learning_rate": 6.810810810810811e-06, "loss": 0.4318, "step": 124 }, { "epoch": 0.3333333333333333, "grad_norm": 0.3045628070831299, "learning_rate": 6.783783783783784e-06, "loss": 0.2817, "step": 125 }, { "epoch": 0.336, "grad_norm": 0.32890522480010986, "learning_rate": 6.7567567567567575e-06, "loss": 0.3199, "step": 126 }, { "epoch": 0.33866666666666667, "grad_norm": 0.3798869252204895, "learning_rate": 6.729729729729731e-06, "loss": 0.4673, "step": 127 }, { "epoch": 0.3413333333333333, "grad_norm": 0.3522266447544098, "learning_rate": 6.702702702702704e-06, "loss": 0.4753, "step": 128 }, { "epoch": 0.344, "grad_norm": 0.37341293692588806, "learning_rate": 6.675675675675676e-06, "loss": 0.409, "step": 129 }, { "epoch": 0.3466666666666667, "grad_norm": 0.3412911295890808, "learning_rate": 6.648648648648649e-06, "loss": 0.379, "step": 130 }, { "epoch": 0.34933333333333333, "grad_norm": 0.3088519871234894, "learning_rate": 6.621621621621622e-06, "loss": 0.3961, "step": 131 }, { "epoch": 0.352, "grad_norm": 0.30359944701194763, "learning_rate": 6.594594594594595e-06, "loss": 0.3044, "step": 132 }, { "epoch": 0.3546666666666667, "grad_norm": 0.28909173607826233, "learning_rate": 6.567567567567567e-06, "loss": 0.2544, "step": 133 }, { "epoch": 0.35733333333333334, "grad_norm": 0.3639468848705292, "learning_rate": 6.540540540540541e-06, "loss": 0.3669, "step": 134 }, { "epoch": 0.36, "grad_norm": 0.3212590515613556, "learning_rate": 6.513513513513514e-06, "loss": 0.3105, "step": 135 }, { "epoch": 0.3626666666666667, "grad_norm": 0.32586899399757385, "learning_rate": 6.486486486486487e-06, "loss": 0.2895, "step": 136 }, { "epoch": 0.36533333333333334, "grad_norm": 0.4099315106868744, "learning_rate": 6.45945945945946e-06, "loss": 0.4668, "step": 137 }, { "epoch": 0.368, "grad_norm": 0.38457584381103516, "learning_rate": 6.432432432432433e-06, "loss": 0.4084, "step": 138 }, { "epoch": 0.37066666666666664, "grad_norm": 0.3032227158546448, "learning_rate": 6.405405405405406e-06, "loss": 0.3217, "step": 139 }, { "epoch": 0.37333333333333335, "grad_norm": 0.3041359484195709, "learning_rate": 6.378378378378379e-06, "loss": 0.3851, "step": 140 }, { "epoch": 0.376, "grad_norm": 0.3315296769142151, "learning_rate": 6.351351351351351e-06, "loss": 0.4248, "step": 141 }, { "epoch": 0.37866666666666665, "grad_norm": 0.303970068693161, "learning_rate": 6.324324324324325e-06, "loss": 0.3885, "step": 142 }, { "epoch": 0.38133333333333336, "grad_norm": 0.34357282519340515, "learning_rate": 6.297297297297298e-06, "loss": 0.2876, "step": 143 }, { "epoch": 0.384, "grad_norm": 0.2901041805744171, "learning_rate": 6.270270270270271e-06, "loss": 0.2973, "step": 144 }, { "epoch": 0.38666666666666666, "grad_norm": 0.3165181279182434, "learning_rate": 6.243243243243243e-06, "loss": 0.3841, "step": 145 }, { "epoch": 0.3893333333333333, "grad_norm": 0.2310963273048401, "learning_rate": 6.2162162162162164e-06, "loss": 0.2286, "step": 146 }, { "epoch": 0.392, "grad_norm": 0.2447914183139801, "learning_rate": 6.1891891891891895e-06, "loss": 0.1429, "step": 147 }, { "epoch": 0.39466666666666667, "grad_norm": 0.3992317318916321, "learning_rate": 6.162162162162163e-06, "loss": 0.403, "step": 148 }, { "epoch": 0.3973333333333333, "grad_norm": 0.2959234416484833, "learning_rate": 6.135135135135135e-06, "loss": 0.3206, "step": 149 }, { "epoch": 0.4, "grad_norm": 0.3633984923362732, "learning_rate": 6.108108108108109e-06, "loss": 0.4131, "step": 150 }, { "epoch": 0.4026666666666667, "grad_norm": 0.27947551012039185, "learning_rate": 6.081081081081082e-06, "loss": 0.2148, "step": 151 }, { "epoch": 0.4053333333333333, "grad_norm": 0.27176031470298767, "learning_rate": 6.054054054054055e-06, "loss": 0.2658, "step": 152 }, { "epoch": 0.408, "grad_norm": 0.21890059113502502, "learning_rate": 6.027027027027027e-06, "loss": 0.2063, "step": 153 }, { "epoch": 0.4106666666666667, "grad_norm": 0.36990290880203247, "learning_rate": 6e-06, "loss": 0.3108, "step": 154 }, { "epoch": 0.41333333333333333, "grad_norm": 0.3169533908367157, "learning_rate": 5.972972972972973e-06, "loss": 0.3325, "step": 155 }, { "epoch": 0.416, "grad_norm": 0.33552664518356323, "learning_rate": 5.945945945945947e-06, "loss": 0.3589, "step": 156 }, { "epoch": 0.4186666666666667, "grad_norm": 0.33601251244544983, "learning_rate": 5.9189189189189185e-06, "loss": 0.3444, "step": 157 }, { "epoch": 0.42133333333333334, "grad_norm": 0.37620675563812256, "learning_rate": 5.8918918918918924e-06, "loss": 0.4049, "step": 158 }, { "epoch": 0.424, "grad_norm": 0.3032550513744354, "learning_rate": 5.8648648648648655e-06, "loss": 0.3118, "step": 159 }, { "epoch": 0.4266666666666667, "grad_norm": 0.40191274881362915, "learning_rate": 5.837837837837839e-06, "loss": 0.4275, "step": 160 }, { "epoch": 0.42933333333333334, "grad_norm": 0.3813474178314209, "learning_rate": 5.810810810810811e-06, "loss": 0.4268, "step": 161 }, { "epoch": 0.432, "grad_norm": 0.24699276685714722, "learning_rate": 5.783783783783784e-06, "loss": 0.2391, "step": 162 }, { "epoch": 0.43466666666666665, "grad_norm": 0.36394762992858887, "learning_rate": 5.756756756756757e-06, "loss": 0.4565, "step": 163 }, { "epoch": 0.43733333333333335, "grad_norm": 0.2819131016731262, "learning_rate": 5.729729729729731e-06, "loss": 0.2905, "step": 164 }, { "epoch": 0.44, "grad_norm": 0.3803357481956482, "learning_rate": 5.702702702702702e-06, "loss": 0.3327, "step": 165 }, { "epoch": 0.44266666666666665, "grad_norm": 0.29587841033935547, "learning_rate": 5.675675675675676e-06, "loss": 0.3043, "step": 166 }, { "epoch": 0.44533333333333336, "grad_norm": 0.3077935576438904, "learning_rate": 5.648648648648649e-06, "loss": 0.2851, "step": 167 }, { "epoch": 0.448, "grad_norm": 0.3655727207660675, "learning_rate": 5.621621621621622e-06, "loss": 0.3167, "step": 168 }, { "epoch": 0.45066666666666666, "grad_norm": 0.35974135994911194, "learning_rate": 5.5945945945945945e-06, "loss": 0.3813, "step": 169 }, { "epoch": 0.4533333333333333, "grad_norm": 0.33626919984817505, "learning_rate": 5.567567567567568e-06, "loss": 0.2613, "step": 170 }, { "epoch": 0.456, "grad_norm": 0.3979906737804413, "learning_rate": 5.540540540540541e-06, "loss": 0.4109, "step": 171 }, { "epoch": 0.45866666666666667, "grad_norm": 0.25267234444618225, "learning_rate": 5.513513513513515e-06, "loss": 0.2701, "step": 172 }, { "epoch": 0.4613333333333333, "grad_norm": 0.22866086661815643, "learning_rate": 5.486486486486487e-06, "loss": 0.1741, "step": 173 }, { "epoch": 0.464, "grad_norm": 0.4401591420173645, "learning_rate": 5.45945945945946e-06, "loss": 0.3929, "step": 174 }, { "epoch": 0.4666666666666667, "grad_norm": 0.3904745876789093, "learning_rate": 5.432432432432433e-06, "loss": 0.4772, "step": 175 }, { "epoch": 0.4693333333333333, "grad_norm": 0.432851105928421, "learning_rate": 5.405405405405406e-06, "loss": 0.4624, "step": 176 }, { "epoch": 0.472, "grad_norm": 0.4081991910934448, "learning_rate": 5.378378378378378e-06, "loss": 0.3851, "step": 177 }, { "epoch": 0.4746666666666667, "grad_norm": 0.3384975790977478, "learning_rate": 5.351351351351351e-06, "loss": 0.2801, "step": 178 }, { "epoch": 0.47733333333333333, "grad_norm": 0.4302685260772705, "learning_rate": 5.324324324324324e-06, "loss": 0.4144, "step": 179 }, { "epoch": 0.48, "grad_norm": 0.32512715458869934, "learning_rate": 5.297297297297298e-06, "loss": 0.2505, "step": 180 }, { "epoch": 0.4826666666666667, "grad_norm": 0.34773311018943787, "learning_rate": 5.2702702702702705e-06, "loss": 0.3358, "step": 181 }, { "epoch": 0.48533333333333334, "grad_norm": 0.30763885378837585, "learning_rate": 5.243243243243244e-06, "loss": 0.2721, "step": 182 }, { "epoch": 0.488, "grad_norm": 0.439249187707901, "learning_rate": 5.216216216216217e-06, "loss": 0.3921, "step": 183 }, { "epoch": 0.49066666666666664, "grad_norm": 0.43283864855766296, "learning_rate": 5.18918918918919e-06, "loss": 0.3795, "step": 184 }, { "epoch": 0.49333333333333335, "grad_norm": 0.3459068536758423, "learning_rate": 5.162162162162162e-06, "loss": 0.3303, "step": 185 }, { "epoch": 0.496, "grad_norm": 0.31420034170150757, "learning_rate": 5.135135135135135e-06, "loss": 0.2682, "step": 186 }, { "epoch": 0.49866666666666665, "grad_norm": 0.3572358787059784, "learning_rate": 5.108108108108108e-06, "loss": 0.4049, "step": 187 }, { "epoch": 0.5013333333333333, "grad_norm": 0.3104552924633026, "learning_rate": 5.081081081081082e-06, "loss": 0.2046, "step": 188 }, { "epoch": 0.504, "grad_norm": 0.3065375089645386, "learning_rate": 5.054054054054054e-06, "loss": 0.2973, "step": 189 }, { "epoch": 0.5066666666666667, "grad_norm": 0.3651704490184784, "learning_rate": 5.027027027027027e-06, "loss": 0.3574, "step": 190 }, { "epoch": 0.5093333333333333, "grad_norm": 0.3481694161891937, "learning_rate": 5e-06, "loss": 0.306, "step": 191 }, { "epoch": 0.512, "grad_norm": 0.3983936011791229, "learning_rate": 4.9729729729729735e-06, "loss": 0.399, "step": 192 }, { "epoch": 0.5146666666666667, "grad_norm": 0.2925852835178375, "learning_rate": 4.9459459459459466e-06, "loss": 0.2433, "step": 193 }, { "epoch": 0.5173333333333333, "grad_norm": 0.2713722586631775, "learning_rate": 4.91891891891892e-06, "loss": 0.2328, "step": 194 }, { "epoch": 0.52, "grad_norm": 0.2910085916519165, "learning_rate": 4.891891891891893e-06, "loss": 0.3107, "step": 195 }, { "epoch": 0.5226666666666666, "grad_norm": 0.2857808768749237, "learning_rate": 4.864864864864866e-06, "loss": 0.2631, "step": 196 }, { "epoch": 0.5253333333333333, "grad_norm": 0.43601498007774353, "learning_rate": 4.837837837837838e-06, "loss": 0.3705, "step": 197 }, { "epoch": 0.528, "grad_norm": 0.38336774706840515, "learning_rate": 4.810810810810811e-06, "loss": 0.3345, "step": 198 }, { "epoch": 0.5306666666666666, "grad_norm": 0.4071420729160309, "learning_rate": 4.783783783783784e-06, "loss": 0.3484, "step": 199 }, { "epoch": 0.5333333333333333, "grad_norm": 0.2940559983253479, "learning_rate": 4.756756756756757e-06, "loss": 0.2016, "step": 200 }, { "epoch": 0.536, "grad_norm": 0.4159807860851288, "learning_rate": 4.72972972972973e-06, "loss": 0.3413, "step": 201 }, { "epoch": 0.5386666666666666, "grad_norm": 0.31199994683265686, "learning_rate": 4.702702702702703e-06, "loss": 0.2842, "step": 202 }, { "epoch": 0.5413333333333333, "grad_norm": 0.38184690475463867, "learning_rate": 4.675675675675676e-06, "loss": 0.3452, "step": 203 }, { "epoch": 0.544, "grad_norm": 0.38543686270713806, "learning_rate": 4.6486486486486495e-06, "loss": 0.2921, "step": 204 }, { "epoch": 0.5466666666666666, "grad_norm": 0.4293280839920044, "learning_rate": 4.621621621621622e-06, "loss": 0.3633, "step": 205 }, { "epoch": 0.5493333333333333, "grad_norm": 0.2980861961841583, "learning_rate": 4.594594594594596e-06, "loss": 0.2961, "step": 206 }, { "epoch": 0.552, "grad_norm": 0.30945834517478943, "learning_rate": 4.567567567567568e-06, "loss": 0.2818, "step": 207 }, { "epoch": 0.5546666666666666, "grad_norm": 0.37931495904922485, "learning_rate": 4.540540540540541e-06, "loss": 0.3857, "step": 208 }, { "epoch": 0.5573333333333333, "grad_norm": 0.35123351216316223, "learning_rate": 4.513513513513514e-06, "loss": 0.408, "step": 209 }, { "epoch": 0.56, "grad_norm": 0.2804057002067566, "learning_rate": 4.486486486486487e-06, "loss": 0.2618, "step": 210 }, { "epoch": 0.5626666666666666, "grad_norm": 0.3479675054550171, "learning_rate": 4.45945945945946e-06, "loss": 0.267, "step": 211 }, { "epoch": 0.5653333333333334, "grad_norm": 0.36160293221473694, "learning_rate": 4.432432432432433e-06, "loss": 0.2505, "step": 212 }, { "epoch": 0.568, "grad_norm": 0.46441665291786194, "learning_rate": 4.4054054054054054e-06, "loss": 0.4244, "step": 213 }, { "epoch": 0.5706666666666667, "grad_norm": 0.39929330348968506, "learning_rate": 4.378378378378379e-06, "loss": 0.3994, "step": 214 }, { "epoch": 0.5733333333333334, "grad_norm": 0.41803714632987976, "learning_rate": 4.351351351351352e-06, "loss": 0.365, "step": 215 }, { "epoch": 0.576, "grad_norm": 0.3278641700744629, "learning_rate": 4.324324324324325e-06, "loss": 0.2969, "step": 216 }, { "epoch": 0.5786666666666667, "grad_norm": 0.35098132491111755, "learning_rate": 4.297297297297298e-06, "loss": 0.25, "step": 217 }, { "epoch": 0.5813333333333334, "grad_norm": 0.382811963558197, "learning_rate": 4.270270270270271e-06, "loss": 0.4022, "step": 218 }, { "epoch": 0.584, "grad_norm": 0.3137627840042114, "learning_rate": 4.243243243243244e-06, "loss": 0.2221, "step": 219 }, { "epoch": 0.5866666666666667, "grad_norm": 0.3829237222671509, "learning_rate": 4.216216216216217e-06, "loss": 0.3865, "step": 220 }, { "epoch": 0.5893333333333334, "grad_norm": 0.2855459153652191, "learning_rate": 4.189189189189189e-06, "loss": 0.2099, "step": 221 }, { "epoch": 0.592, "grad_norm": 0.4217367172241211, "learning_rate": 4.162162162162163e-06, "loss": 0.2955, "step": 222 }, { "epoch": 0.5946666666666667, "grad_norm": 0.34897539019584656, "learning_rate": 4.135135135135135e-06, "loss": 0.2907, "step": 223 }, { "epoch": 0.5973333333333334, "grad_norm": 0.3473462462425232, "learning_rate": 4.108108108108108e-06, "loss": 0.217, "step": 224 }, { "epoch": 0.6, "grad_norm": 0.2988053858280182, "learning_rate": 4.0810810810810815e-06, "loss": 0.2515, "step": 225 }, { "epoch": 0.6026666666666667, "grad_norm": 0.30404821038246155, "learning_rate": 4.0540540540540545e-06, "loss": 0.2521, "step": 226 }, { "epoch": 0.6053333333333333, "grad_norm": 0.4090055227279663, "learning_rate": 4.027027027027028e-06, "loss": 0.3145, "step": 227 }, { "epoch": 0.608, "grad_norm": 0.39826086163520813, "learning_rate": 4.000000000000001e-06, "loss": 0.3738, "step": 228 }, { "epoch": 0.6106666666666667, "grad_norm": 0.3401602804660797, "learning_rate": 3.972972972972973e-06, "loss": 0.2934, "step": 229 }, { "epoch": 0.6133333333333333, "grad_norm": 0.2691913843154907, "learning_rate": 3.945945945945947e-06, "loss": 0.2003, "step": 230 }, { "epoch": 0.616, "grad_norm": 0.33477792143821716, "learning_rate": 3.918918918918919e-06, "loss": 0.2781, "step": 231 }, { "epoch": 0.6186666666666667, "grad_norm": 0.34887659549713135, "learning_rate": 3.891891891891892e-06, "loss": 0.2968, "step": 232 }, { "epoch": 0.6213333333333333, "grad_norm": 0.37257885932922363, "learning_rate": 3.864864864864865e-06, "loss": 0.2721, "step": 233 }, { "epoch": 0.624, "grad_norm": 0.4132642447948456, "learning_rate": 3.837837837837838e-06, "loss": 0.367, "step": 234 }, { "epoch": 0.6266666666666667, "grad_norm": 0.34420615434646606, "learning_rate": 3.810810810810811e-06, "loss": 0.2108, "step": 235 }, { "epoch": 0.6293333333333333, "grad_norm": 0.3111736476421356, "learning_rate": 3.7837837837837844e-06, "loss": 0.2659, "step": 236 }, { "epoch": 0.632, "grad_norm": 0.43924304842948914, "learning_rate": 3.756756756756757e-06, "loss": 0.3809, "step": 237 }, { "epoch": 0.6346666666666667, "grad_norm": 0.36944520473480225, "learning_rate": 3.72972972972973e-06, "loss": 0.2917, "step": 238 }, { "epoch": 0.6373333333333333, "grad_norm": 0.2700068950653076, "learning_rate": 3.7027027027027028e-06, "loss": 0.2465, "step": 239 }, { "epoch": 0.64, "grad_norm": 0.3277302384376526, "learning_rate": 3.6756756756756763e-06, "loss": 0.2729, "step": 240 }, { "epoch": 0.6426666666666667, "grad_norm": 0.3427664339542389, "learning_rate": 3.648648648648649e-06, "loss": 0.2448, "step": 241 }, { "epoch": 0.6453333333333333, "grad_norm": 0.3337377905845642, "learning_rate": 3.621621621621622e-06, "loss": 0.3081, "step": 242 }, { "epoch": 0.648, "grad_norm": 0.3489575982093811, "learning_rate": 3.5945945945945946e-06, "loss": 0.2226, "step": 243 }, { "epoch": 0.6506666666666666, "grad_norm": 0.30923986434936523, "learning_rate": 3.567567567567568e-06, "loss": 0.265, "step": 244 }, { "epoch": 0.6533333333333333, "grad_norm": 0.3624332845211029, "learning_rate": 3.5405405405405408e-06, "loss": 0.3184, "step": 245 }, { "epoch": 0.656, "grad_norm": 0.41641637682914734, "learning_rate": 3.513513513513514e-06, "loss": 0.2641, "step": 246 }, { "epoch": 0.6586666666666666, "grad_norm": 0.41340944170951843, "learning_rate": 3.4864864864864865e-06, "loss": 0.4517, "step": 247 }, { "epoch": 0.6613333333333333, "grad_norm": 0.32282981276512146, "learning_rate": 3.45945945945946e-06, "loss": 0.2259, "step": 248 }, { "epoch": 0.664, "grad_norm": 0.30529171228408813, "learning_rate": 3.4324324324324326e-06, "loss": 0.2571, "step": 249 }, { "epoch": 0.6666666666666666, "grad_norm": 0.35596510767936707, "learning_rate": 3.4054054054054057e-06, "loss": 0.295, "step": 250 }, { "epoch": 0.6693333333333333, "grad_norm": 0.36369168758392334, "learning_rate": 3.3783783783783788e-06, "loss": 0.3128, "step": 251 }, { "epoch": 0.672, "grad_norm": 0.3960557281970978, "learning_rate": 3.351351351351352e-06, "loss": 0.3323, "step": 252 }, { "epoch": 0.6746666666666666, "grad_norm": 0.33096563816070557, "learning_rate": 3.3243243243243245e-06, "loss": 0.3233, "step": 253 }, { "epoch": 0.6773333333333333, "grad_norm": 0.33427736163139343, "learning_rate": 3.2972972972972976e-06, "loss": 0.2328, "step": 254 }, { "epoch": 0.68, "grad_norm": 0.3351435363292694, "learning_rate": 3.2702702702702706e-06, "loss": 0.2521, "step": 255 }, { "epoch": 0.6826666666666666, "grad_norm": 0.32389771938323975, "learning_rate": 3.2432432432432437e-06, "loss": 0.2511, "step": 256 }, { "epoch": 0.6853333333333333, "grad_norm": 0.35591626167297363, "learning_rate": 3.2162162162162164e-06, "loss": 0.2742, "step": 257 }, { "epoch": 0.688, "grad_norm": 0.3498152792453766, "learning_rate": 3.1891891891891894e-06, "loss": 0.2928, "step": 258 }, { "epoch": 0.6906666666666667, "grad_norm": 0.4030319154262543, "learning_rate": 3.1621621621621625e-06, "loss": 0.3687, "step": 259 }, { "epoch": 0.6933333333333334, "grad_norm": 0.44715437293052673, "learning_rate": 3.1351351351351356e-06, "loss": 0.3983, "step": 260 }, { "epoch": 0.696, "grad_norm": 0.2908027470111847, "learning_rate": 3.1081081081081082e-06, "loss": 0.2629, "step": 261 }, { "epoch": 0.6986666666666667, "grad_norm": 0.5021239519119263, "learning_rate": 3.0810810810810817e-06, "loss": 0.3994, "step": 262 }, { "epoch": 0.7013333333333334, "grad_norm": 0.290340781211853, "learning_rate": 3.0540540540540544e-06, "loss": 0.2263, "step": 263 }, { "epoch": 0.704, "grad_norm": 0.3487938344478607, "learning_rate": 3.0270270270270274e-06, "loss": 0.2638, "step": 264 }, { "epoch": 0.7066666666666667, "grad_norm": 0.3932484984397888, "learning_rate": 3e-06, "loss": 0.3097, "step": 265 }, { "epoch": 0.7093333333333334, "grad_norm": 0.5002031922340393, "learning_rate": 2.9729729729729736e-06, "loss": 0.4373, "step": 266 }, { "epoch": 0.712, "grad_norm": 0.36487922072410583, "learning_rate": 2.9459459459459462e-06, "loss": 0.2637, "step": 267 }, { "epoch": 0.7146666666666667, "grad_norm": 0.2596171498298645, "learning_rate": 2.9189189189189193e-06, "loss": 0.2038, "step": 268 }, { "epoch": 0.7173333333333334, "grad_norm": 0.39281710982322693, "learning_rate": 2.891891891891892e-06, "loss": 0.3409, "step": 269 }, { "epoch": 0.72, "grad_norm": 0.3259102702140808, "learning_rate": 2.8648648648648654e-06, "loss": 0.2503, "step": 270 }, { "epoch": 0.7226666666666667, "grad_norm": 0.2479904145002365, "learning_rate": 2.837837837837838e-06, "loss": 0.1462, "step": 271 }, { "epoch": 0.7253333333333334, "grad_norm": 0.3548821806907654, "learning_rate": 2.810810810810811e-06, "loss": 0.2581, "step": 272 }, { "epoch": 0.728, "grad_norm": 0.30984100699424744, "learning_rate": 2.783783783783784e-06, "loss": 0.2634, "step": 273 }, { "epoch": 0.7306666666666667, "grad_norm": 0.32336750626564026, "learning_rate": 2.7567567567567573e-06, "loss": 0.2717, "step": 274 }, { "epoch": 0.7333333333333333, "grad_norm": 0.41626253724098206, "learning_rate": 2.72972972972973e-06, "loss": 0.3692, "step": 275 }, { "epoch": 0.736, "grad_norm": 0.43731579184532166, "learning_rate": 2.702702702702703e-06, "loss": 0.2893, "step": 276 }, { "epoch": 0.7386666666666667, "grad_norm": 0.3316793739795685, "learning_rate": 2.6756756756756757e-06, "loss": 0.2933, "step": 277 }, { "epoch": 0.7413333333333333, "grad_norm": 0.34317371249198914, "learning_rate": 2.648648648648649e-06, "loss": 0.253, "step": 278 }, { "epoch": 0.744, "grad_norm": 0.4271750748157501, "learning_rate": 2.621621621621622e-06, "loss": 0.3828, "step": 279 }, { "epoch": 0.7466666666666667, "grad_norm": 0.40320831537246704, "learning_rate": 2.594594594594595e-06, "loss": 0.3426, "step": 280 }, { "epoch": 0.7493333333333333, "grad_norm": 0.3044051229953766, "learning_rate": 2.5675675675675675e-06, "loss": 0.2511, "step": 281 }, { "epoch": 0.752, "grad_norm": 0.3970816135406494, "learning_rate": 2.540540540540541e-06, "loss": 0.2573, "step": 282 }, { "epoch": 0.7546666666666667, "grad_norm": 0.4108094871044159, "learning_rate": 2.5135135135135137e-06, "loss": 0.3741, "step": 283 }, { "epoch": 0.7573333333333333, "grad_norm": 0.28992119431495667, "learning_rate": 2.4864864864864867e-06, "loss": 0.2164, "step": 284 }, { "epoch": 0.76, "grad_norm": 0.31842753291130066, "learning_rate": 2.45945945945946e-06, "loss": 0.2077, "step": 285 }, { "epoch": 0.7626666666666667, "grad_norm": 0.33158078789711, "learning_rate": 2.432432432432433e-06, "loss": 0.2589, "step": 286 }, { "epoch": 0.7653333333333333, "grad_norm": 0.3764644265174866, "learning_rate": 2.4054054054054055e-06, "loss": 0.2617, "step": 287 }, { "epoch": 0.768, "grad_norm": 0.4450628161430359, "learning_rate": 2.3783783783783786e-06, "loss": 0.3143, "step": 288 }, { "epoch": 0.7706666666666667, "grad_norm": 0.3775527775287628, "learning_rate": 2.3513513513513517e-06, "loss": 0.2598, "step": 289 }, { "epoch": 0.7733333333333333, "grad_norm": 0.45357051491737366, "learning_rate": 2.3243243243243247e-06, "loss": 0.3592, "step": 290 }, { "epoch": 0.776, "grad_norm": 0.3857765793800354, "learning_rate": 2.297297297297298e-06, "loss": 0.3438, "step": 291 }, { "epoch": 0.7786666666666666, "grad_norm": 0.43802541494369507, "learning_rate": 2.2702702702702705e-06, "loss": 0.4062, "step": 292 }, { "epoch": 0.7813333333333333, "grad_norm": 0.3732124865055084, "learning_rate": 2.2432432432432435e-06, "loss": 0.3048, "step": 293 }, { "epoch": 0.784, "grad_norm": 0.3807182013988495, "learning_rate": 2.2162162162162166e-06, "loss": 0.2663, "step": 294 }, { "epoch": 0.7866666666666666, "grad_norm": 0.4048035740852356, "learning_rate": 2.1891891891891897e-06, "loss": 0.3072, "step": 295 }, { "epoch": 0.7893333333333333, "grad_norm": 0.39922451972961426, "learning_rate": 2.1621621621621623e-06, "loss": 0.2339, "step": 296 }, { "epoch": 0.792, "grad_norm": 0.2846182584762573, "learning_rate": 2.1351351351351354e-06, "loss": 0.2155, "step": 297 }, { "epoch": 0.7946666666666666, "grad_norm": 0.41739848256111145, "learning_rate": 2.1081081081081085e-06, "loss": 0.3934, "step": 298 }, { "epoch": 0.7973333333333333, "grad_norm": 0.4416024386882782, "learning_rate": 2.0810810810810815e-06, "loss": 0.3662, "step": 299 }, { "epoch": 0.8, "grad_norm": 0.30463194847106934, "learning_rate": 2.054054054054054e-06, "loss": 0.1741, "step": 300 }, { "epoch": 0.8026666666666666, "grad_norm": 0.4621759057044983, "learning_rate": 2.0270270270270273e-06, "loss": 0.386, "step": 301 }, { "epoch": 0.8053333333333333, "grad_norm": 0.3465329110622406, "learning_rate": 2.0000000000000003e-06, "loss": 0.2907, "step": 302 }, { "epoch": 0.808, "grad_norm": 0.4569227993488312, "learning_rate": 1.9729729729729734e-06, "loss": 0.3812, "step": 303 }, { "epoch": 0.8106666666666666, "grad_norm": 0.5099005103111267, "learning_rate": 1.945945945945946e-06, "loss": 0.3752, "step": 304 }, { "epoch": 0.8133333333333334, "grad_norm": 0.3218974471092224, "learning_rate": 1.918918918918919e-06, "loss": 0.2583, "step": 305 }, { "epoch": 0.816, "grad_norm": 0.4221980571746826, "learning_rate": 1.8918918918918922e-06, "loss": 0.3704, "step": 306 }, { "epoch": 0.8186666666666667, "grad_norm": 0.343237966299057, "learning_rate": 1.864864864864865e-06, "loss": 0.2248, "step": 307 }, { "epoch": 0.8213333333333334, "grad_norm": 0.4055427014827728, "learning_rate": 1.8378378378378381e-06, "loss": 0.3173, "step": 308 }, { "epoch": 0.824, "grad_norm": 0.39990803599357605, "learning_rate": 1.810810810810811e-06, "loss": 0.3269, "step": 309 }, { "epoch": 0.8266666666666667, "grad_norm": 0.3207007944583893, "learning_rate": 1.783783783783784e-06, "loss": 0.2143, "step": 310 }, { "epoch": 0.8293333333333334, "grad_norm": 0.3382914662361145, "learning_rate": 1.756756756756757e-06, "loss": 0.3108, "step": 311 }, { "epoch": 0.832, "grad_norm": 0.43605750799179077, "learning_rate": 1.72972972972973e-06, "loss": 0.3095, "step": 312 }, { "epoch": 0.8346666666666667, "grad_norm": 0.35699039697647095, "learning_rate": 1.7027027027027028e-06, "loss": 0.3827, "step": 313 }, { "epoch": 0.8373333333333334, "grad_norm": 0.40352246165275574, "learning_rate": 1.675675675675676e-06, "loss": 0.2844, "step": 314 }, { "epoch": 0.84, "grad_norm": 0.3621034324169159, "learning_rate": 1.6486486486486488e-06, "loss": 0.3114, "step": 315 }, { "epoch": 0.8426666666666667, "grad_norm": 0.3875608742237091, "learning_rate": 1.6216216216216219e-06, "loss": 0.2788, "step": 316 }, { "epoch": 0.8453333333333334, "grad_norm": 0.3284818232059479, "learning_rate": 1.5945945945945947e-06, "loss": 0.2323, "step": 317 }, { "epoch": 0.848, "grad_norm": 0.3997751772403717, "learning_rate": 1.5675675675675678e-06, "loss": 0.2632, "step": 318 }, { "epoch": 0.8506666666666667, "grad_norm": 0.3715415298938751, "learning_rate": 1.5405405405405409e-06, "loss": 0.2535, "step": 319 }, { "epoch": 0.8533333333333334, "grad_norm": 0.3825894594192505, "learning_rate": 1.5135135135135137e-06, "loss": 0.2901, "step": 320 }, { "epoch": 0.856, "grad_norm": 0.37206536531448364, "learning_rate": 1.4864864864864868e-06, "loss": 0.3282, "step": 321 }, { "epoch": 0.8586666666666667, "grad_norm": 0.3316505253314972, "learning_rate": 1.4594594594594596e-06, "loss": 0.2124, "step": 322 }, { "epoch": 0.8613333333333333, "grad_norm": 0.3504232168197632, "learning_rate": 1.4324324324324327e-06, "loss": 0.2777, "step": 323 }, { "epoch": 0.864, "grad_norm": 0.36071428656578064, "learning_rate": 1.4054054054054056e-06, "loss": 0.2612, "step": 324 }, { "epoch": 0.8666666666666667, "grad_norm": 0.3016913831233978, "learning_rate": 1.3783783783783786e-06, "loss": 0.2098, "step": 325 }, { "epoch": 0.8693333333333333, "grad_norm": 0.41724303364753723, "learning_rate": 1.3513513513513515e-06, "loss": 0.2893, "step": 326 }, { "epoch": 0.872, "grad_norm": 0.36300426721572876, "learning_rate": 1.3243243243243246e-06, "loss": 0.2313, "step": 327 }, { "epoch": 0.8746666666666667, "grad_norm": 0.43667200207710266, "learning_rate": 1.2972972972972974e-06, "loss": 0.3249, "step": 328 }, { "epoch": 0.8773333333333333, "grad_norm": 0.364689439535141, "learning_rate": 1.2702702702702705e-06, "loss": 0.297, "step": 329 }, { "epoch": 0.88, "grad_norm": 0.4155840277671814, "learning_rate": 1.2432432432432434e-06, "loss": 0.3092, "step": 330 }, { "epoch": 0.8826666666666667, "grad_norm": 0.35489585995674133, "learning_rate": 1.2162162162162164e-06, "loss": 0.3007, "step": 331 }, { "epoch": 0.8853333333333333, "grad_norm": 0.3930169343948364, "learning_rate": 1.1891891891891893e-06, "loss": 0.3042, "step": 332 }, { "epoch": 0.888, "grad_norm": 0.507380485534668, "learning_rate": 1.1621621621621624e-06, "loss": 0.4284, "step": 333 }, { "epoch": 0.8906666666666667, "grad_norm": 0.43257761001586914, "learning_rate": 1.1351351351351352e-06, "loss": 0.2661, "step": 334 }, { "epoch": 0.8933333333333333, "grad_norm": 0.3422864079475403, "learning_rate": 1.1081081081081083e-06, "loss": 0.2505, "step": 335 }, { "epoch": 0.896, "grad_norm": 0.35226839780807495, "learning_rate": 1.0810810810810812e-06, "loss": 0.219, "step": 336 }, { "epoch": 0.8986666666666666, "grad_norm": 0.4419368505477905, "learning_rate": 1.0540540540540542e-06, "loss": 0.3242, "step": 337 }, { "epoch": 0.9013333333333333, "grad_norm": 0.3603654205799103, "learning_rate": 1.027027027027027e-06, "loss": 0.2457, "step": 338 }, { "epoch": 0.904, "grad_norm": 0.23355542123317719, "learning_rate": 1.0000000000000002e-06, "loss": 0.1069, "step": 339 }, { "epoch": 0.9066666666666666, "grad_norm": 0.3583284616470337, "learning_rate": 9.72972972972973e-07, "loss": 0.3046, "step": 340 }, { "epoch": 0.9093333333333333, "grad_norm": 0.4247784912586212, "learning_rate": 9.459459459459461e-07, "loss": 0.3131, "step": 341 }, { "epoch": 0.912, "grad_norm": 0.4089176058769226, "learning_rate": 9.189189189189191e-07, "loss": 0.2946, "step": 342 }, { "epoch": 0.9146666666666666, "grad_norm": 0.3539067804813385, "learning_rate": 8.91891891891892e-07, "loss": 0.2874, "step": 343 }, { "epoch": 0.9173333333333333, "grad_norm": 0.49719032645225525, "learning_rate": 8.64864864864865e-07, "loss": 0.5162, "step": 344 }, { "epoch": 0.92, "grad_norm": 0.3560430407524109, "learning_rate": 8.37837837837838e-07, "loss": 0.3009, "step": 345 }, { "epoch": 0.9226666666666666, "grad_norm": 0.49504554271698, "learning_rate": 8.108108108108109e-07, "loss": 0.3853, "step": 346 }, { "epoch": 0.9253333333333333, "grad_norm": 0.4062340557575226, "learning_rate": 7.837837837837839e-07, "loss": 0.2318, "step": 347 }, { "epoch": 0.928, "grad_norm": 0.39711132645606995, "learning_rate": 7.567567567567569e-07, "loss": 0.3441, "step": 348 }, { "epoch": 0.9306666666666666, "grad_norm": 0.42216071486473083, "learning_rate": 7.297297297297298e-07, "loss": 0.378, "step": 349 }, { "epoch": 0.9333333333333333, "grad_norm": 0.3861375153064728, "learning_rate": 7.027027027027028e-07, "loss": 0.3638, "step": 350 }, { "epoch": 0.936, "grad_norm": 0.5421589612960815, "learning_rate": 6.756756756756758e-07, "loss": 0.3744, "step": 351 }, { "epoch": 0.9386666666666666, "grad_norm": 0.43214794993400574, "learning_rate": 6.486486486486487e-07, "loss": 0.3312, "step": 352 }, { "epoch": 0.9413333333333334, "grad_norm": 0.3104563057422638, "learning_rate": 6.216216216216217e-07, "loss": 0.2097, "step": 353 }, { "epoch": 0.944, "grad_norm": 0.4928406774997711, "learning_rate": 5.945945945945947e-07, "loss": 0.4677, "step": 354 }, { "epoch": 0.9466666666666667, "grad_norm": 0.441724568605423, "learning_rate": 5.675675675675676e-07, "loss": 0.3546, "step": 355 }, { "epoch": 0.9493333333333334, "grad_norm": 0.33893322944641113, "learning_rate": 5.405405405405406e-07, "loss": 0.2484, "step": 356 }, { "epoch": 0.952, "grad_norm": 0.41612762212753296, "learning_rate": 5.135135135135135e-07, "loss": 0.3608, "step": 357 }, { "epoch": 0.9546666666666667, "grad_norm": 0.2958903908729553, "learning_rate": 4.864864864864865e-07, "loss": 0.2148, "step": 358 }, { "epoch": 0.9573333333333334, "grad_norm": 0.3755427896976471, "learning_rate": 4.5945945945945953e-07, "loss": 0.28, "step": 359 }, { "epoch": 0.96, "grad_norm": 0.4604218900203705, "learning_rate": 4.324324324324325e-07, "loss": 0.4067, "step": 360 }, { "epoch": 0.9626666666666667, "grad_norm": 0.388827919960022, "learning_rate": 4.0540540540540546e-07, "loss": 0.2744, "step": 361 }, { "epoch": 0.9653333333333334, "grad_norm": 0.38863062858581543, "learning_rate": 3.7837837837837843e-07, "loss": 0.2274, "step": 362 }, { "epoch": 0.968, "grad_norm": 0.4132128357887268, "learning_rate": 3.513513513513514e-07, "loss": 0.3047, "step": 363 }, { "epoch": 0.9706666666666667, "grad_norm": 0.40824928879737854, "learning_rate": 3.2432432432432436e-07, "loss": 0.3904, "step": 364 }, { "epoch": 0.9733333333333334, "grad_norm": 0.44959524273872375, "learning_rate": 2.972972972972973e-07, "loss": 0.3008, "step": 365 }, { "epoch": 0.976, "grad_norm": 0.47792452573776245, "learning_rate": 2.702702702702703e-07, "loss": 0.4352, "step": 366 }, { "epoch": 0.9786666666666667, "grad_norm": 0.477355420589447, "learning_rate": 2.4324324324324326e-07, "loss": 0.4255, "step": 367 }, { "epoch": 0.9813333333333333, "grad_norm": 0.47951552271842957, "learning_rate": 2.1621621621621625e-07, "loss": 0.3973, "step": 368 }, { "epoch": 0.984, "grad_norm": 0.3649778366088867, "learning_rate": 1.8918918918918921e-07, "loss": 0.3594, "step": 369 }, { "epoch": 0.9866666666666667, "grad_norm": 0.3684973120689392, "learning_rate": 1.6216216216216218e-07, "loss": 0.2628, "step": 370 }, { "epoch": 0.9893333333333333, "grad_norm": 0.31863442063331604, "learning_rate": 1.3513513513513515e-07, "loss": 0.2458, "step": 371 }, { "epoch": 0.992, "grad_norm": 0.3513255715370178, "learning_rate": 1.0810810810810812e-07, "loss": 0.2672, "step": 372 }, { "epoch": 0.9946666666666667, "grad_norm": 0.31979799270629883, "learning_rate": 8.108108108108109e-08, "loss": 0.2378, "step": 373 }, { "epoch": 0.9973333333333333, "grad_norm": 0.4553889334201813, "learning_rate": 5.405405405405406e-08, "loss": 0.3365, "step": 374 }, { "epoch": 1.0, "grad_norm": 0.4054870307445526, "learning_rate": 2.702702702702703e-08, "loss": 0.2587, "step": 375 } ], "logging_steps": 1, "max_steps": 375, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 5000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 2.96852882586624e+16, "train_batch_size": 2, "trial_name": null, "trial_params": null }