{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 1.0, "eval_steps": 500, "global_step": 300, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0033333333333333335, "grad_norm": 25.75, "learning_rate": 0.0, "loss": 3.7013, "step": 1 }, { "epoch": 0.006666666666666667, "grad_norm": 24.0, "learning_rate": 2.0000000000000003e-06, "loss": 3.7518, "step": 2 }, { "epoch": 0.01, "grad_norm": 24.5, "learning_rate": 4.000000000000001e-06, "loss": 3.7297, "step": 3 }, { "epoch": 0.013333333333333334, "grad_norm": 23.25, "learning_rate": 6e-06, "loss": 3.7034, "step": 4 }, { "epoch": 0.016666666666666666, "grad_norm": 22.0, "learning_rate": 8.000000000000001e-06, "loss": 3.4563, "step": 5 }, { "epoch": 0.02, "grad_norm": 18.0, "learning_rate": 1e-05, "loss": 3.2412, "step": 6 }, { "epoch": 0.023333333333333334, "grad_norm": 14.3125, "learning_rate": 9.966101694915256e-06, "loss": 2.9037, "step": 7 }, { "epoch": 0.02666666666666667, "grad_norm": 11.0, "learning_rate": 9.93220338983051e-06, "loss": 2.7721, "step": 8 }, { "epoch": 0.03, "grad_norm": 9.875, "learning_rate": 9.898305084745763e-06, "loss": 2.4879, "step": 9 }, { "epoch": 0.03333333333333333, "grad_norm": 8.125, "learning_rate": 9.864406779661017e-06, "loss": 2.3858, "step": 10 }, { "epoch": 0.03666666666666667, "grad_norm": 6.65625, "learning_rate": 9.830508474576272e-06, "loss": 2.2414, "step": 11 }, { "epoch": 0.04, "grad_norm": 6.5, "learning_rate": 9.796610169491526e-06, "loss": 2.3872, "step": 12 }, { "epoch": 0.043333333333333335, "grad_norm": 6.125, "learning_rate": 9.762711864406781e-06, "loss": 2.2477, "step": 13 }, { "epoch": 0.04666666666666667, "grad_norm": 5.90625, "learning_rate": 9.728813559322035e-06, "loss": 2.1758, "step": 14 }, { "epoch": 0.05, "grad_norm": 5.9375, "learning_rate": 9.69491525423729e-06, "loss": 2.2908, "step": 15 }, { "epoch": 0.05333333333333334, "grad_norm": 5.28125, "learning_rate": 9.661016949152544e-06, "loss": 2.0323, "step": 16 }, { "epoch": 0.056666666666666664, "grad_norm": 5.9375, "learning_rate": 9.627118644067797e-06, "loss": 1.9005, "step": 17 }, { "epoch": 0.06, "grad_norm": 5.78125, "learning_rate": 9.593220338983051e-06, "loss": 2.0051, "step": 18 }, { "epoch": 0.06333333333333334, "grad_norm": 6.1875, "learning_rate": 9.559322033898306e-06, "loss": 2.1265, "step": 19 }, { "epoch": 0.06666666666666667, "grad_norm": 5.09375, "learning_rate": 9.52542372881356e-06, "loss": 1.808, "step": 20 }, { "epoch": 0.07, "grad_norm": 4.875, "learning_rate": 9.491525423728815e-06, "loss": 1.8467, "step": 21 }, { "epoch": 0.07333333333333333, "grad_norm": 4.84375, "learning_rate": 9.457627118644069e-06, "loss": 1.7663, "step": 22 }, { "epoch": 0.07666666666666666, "grad_norm": 5.0625, "learning_rate": 9.423728813559322e-06, "loss": 1.8699, "step": 23 }, { "epoch": 0.08, "grad_norm": 5.03125, "learning_rate": 9.389830508474576e-06, "loss": 1.6716, "step": 24 }, { "epoch": 0.08333333333333333, "grad_norm": 4.84375, "learning_rate": 9.355932203389831e-06, "loss": 1.8555, "step": 25 }, { "epoch": 0.08666666666666667, "grad_norm": 4.46875, "learning_rate": 9.322033898305085e-06, "loss": 1.7117, "step": 26 }, { "epoch": 0.09, "grad_norm": 4.46875, "learning_rate": 9.28813559322034e-06, "loss": 1.5957, "step": 27 }, { "epoch": 0.09333333333333334, "grad_norm": 4.8125, "learning_rate": 9.254237288135594e-06, "loss": 1.775, "step": 28 }, { "epoch": 0.09666666666666666, "grad_norm": 4.65625, "learning_rate": 9.220338983050847e-06, "loss": 1.6635, "step": 29 }, { "epoch": 0.1, "grad_norm": 4.125, "learning_rate": 9.186440677966101e-06, "loss": 1.6127, "step": 30 }, { "epoch": 0.10333333333333333, "grad_norm": 4.21875, "learning_rate": 9.152542372881356e-06, "loss": 1.5322, "step": 31 }, { "epoch": 0.10666666666666667, "grad_norm": 4.78125, "learning_rate": 9.11864406779661e-06, "loss": 1.6173, "step": 32 }, { "epoch": 0.11, "grad_norm": 4.375, "learning_rate": 9.084745762711865e-06, "loss": 1.5398, "step": 33 }, { "epoch": 0.11333333333333333, "grad_norm": 4.6875, "learning_rate": 9.05084745762712e-06, "loss": 1.7419, "step": 34 }, { "epoch": 0.11666666666666667, "grad_norm": 4.46875, "learning_rate": 9.016949152542374e-06, "loss": 1.5714, "step": 35 }, { "epoch": 0.12, "grad_norm": 4.3125, "learning_rate": 8.983050847457628e-06, "loss": 1.5677, "step": 36 }, { "epoch": 0.12333333333333334, "grad_norm": 4.6875, "learning_rate": 8.949152542372881e-06, "loss": 1.6474, "step": 37 }, { "epoch": 0.12666666666666668, "grad_norm": 4.5625, "learning_rate": 8.915254237288137e-06, "loss": 1.4817, "step": 38 }, { "epoch": 0.13, "grad_norm": 4.1875, "learning_rate": 8.88135593220339e-06, "loss": 1.5256, "step": 39 }, { "epoch": 0.13333333333333333, "grad_norm": 4.28125, "learning_rate": 8.847457627118646e-06, "loss": 1.6416, "step": 40 }, { "epoch": 0.13666666666666666, "grad_norm": 5.15625, "learning_rate": 8.8135593220339e-06, "loss": 1.5624, "step": 41 }, { "epoch": 0.14, "grad_norm": 4.375, "learning_rate": 8.779661016949153e-06, "loss": 1.6411, "step": 42 }, { "epoch": 0.14333333333333334, "grad_norm": 4.625, "learning_rate": 8.745762711864407e-06, "loss": 1.5424, "step": 43 }, { "epoch": 0.14666666666666667, "grad_norm": 4.78125, "learning_rate": 8.711864406779662e-06, "loss": 1.5448, "step": 44 }, { "epoch": 0.15, "grad_norm": 3.84375, "learning_rate": 8.677966101694915e-06, "loss": 1.533, "step": 45 }, { "epoch": 0.15333333333333332, "grad_norm": 4.375, "learning_rate": 8.64406779661017e-06, "loss": 1.6341, "step": 46 }, { "epoch": 0.15666666666666668, "grad_norm": 4.375, "learning_rate": 8.610169491525424e-06, "loss": 1.6327, "step": 47 }, { "epoch": 0.16, "grad_norm": 5.125, "learning_rate": 8.57627118644068e-06, "loss": 1.6662, "step": 48 }, { "epoch": 0.16333333333333333, "grad_norm": 4.1875, "learning_rate": 8.542372881355933e-06, "loss": 1.4854, "step": 49 }, { "epoch": 0.16666666666666666, "grad_norm": 4.15625, "learning_rate": 8.508474576271187e-06, "loss": 1.5265, "step": 50 }, { "epoch": 0.17, "grad_norm": 4.1875, "learning_rate": 8.47457627118644e-06, "loss": 1.5067, "step": 51 }, { "epoch": 0.17333333333333334, "grad_norm": 4.375, "learning_rate": 8.440677966101696e-06, "loss": 1.592, "step": 52 }, { "epoch": 0.17666666666666667, "grad_norm": 4.1875, "learning_rate": 8.40677966101695e-06, "loss": 1.537, "step": 53 }, { "epoch": 0.18, "grad_norm": 3.953125, "learning_rate": 8.372881355932205e-06, "loss": 1.5813, "step": 54 }, { "epoch": 0.18333333333333332, "grad_norm": 4.34375, "learning_rate": 8.338983050847458e-06, "loss": 1.621, "step": 55 }, { "epoch": 0.18666666666666668, "grad_norm": 4.625, "learning_rate": 8.305084745762712e-06, "loss": 1.5233, "step": 56 }, { "epoch": 0.19, "grad_norm": 4.375, "learning_rate": 8.271186440677966e-06, "loss": 1.4137, "step": 57 }, { "epoch": 0.19333333333333333, "grad_norm": 4.1875, "learning_rate": 8.237288135593221e-06, "loss": 1.4854, "step": 58 }, { "epoch": 0.19666666666666666, "grad_norm": 4.4375, "learning_rate": 8.203389830508475e-06, "loss": 1.5583, "step": 59 }, { "epoch": 0.2, "grad_norm": 4.375, "learning_rate": 8.16949152542373e-06, "loss": 1.4982, "step": 60 }, { "epoch": 0.20333333333333334, "grad_norm": 4.0625, "learning_rate": 8.135593220338983e-06, "loss": 1.3701, "step": 61 }, { "epoch": 0.20666666666666667, "grad_norm": 4.25, "learning_rate": 8.101694915254237e-06, "loss": 1.6183, "step": 62 }, { "epoch": 0.21, "grad_norm": 4.84375, "learning_rate": 8.067796610169492e-06, "loss": 1.4979, "step": 63 }, { "epoch": 0.21333333333333335, "grad_norm": 4.5, "learning_rate": 8.033898305084746e-06, "loss": 1.5744, "step": 64 }, { "epoch": 0.21666666666666667, "grad_norm": 3.96875, "learning_rate": 8.000000000000001e-06, "loss": 1.6422, "step": 65 }, { "epoch": 0.22, "grad_norm": 3.9375, "learning_rate": 7.966101694915255e-06, "loss": 1.5238, "step": 66 }, { "epoch": 0.22333333333333333, "grad_norm": 4.25, "learning_rate": 7.93220338983051e-06, "loss": 1.6447, "step": 67 }, { "epoch": 0.22666666666666666, "grad_norm": 4.25, "learning_rate": 7.898305084745764e-06, "loss": 1.4478, "step": 68 }, { "epoch": 0.23, "grad_norm": 4.3125, "learning_rate": 7.864406779661017e-06, "loss": 1.6503, "step": 69 }, { "epoch": 0.23333333333333334, "grad_norm": 3.96875, "learning_rate": 7.830508474576271e-06, "loss": 1.5042, "step": 70 }, { "epoch": 0.23666666666666666, "grad_norm": 4.0625, "learning_rate": 7.796610169491526e-06, "loss": 1.5016, "step": 71 }, { "epoch": 0.24, "grad_norm": 3.875, "learning_rate": 7.76271186440678e-06, "loss": 1.4985, "step": 72 }, { "epoch": 0.24333333333333335, "grad_norm": 4.34375, "learning_rate": 7.728813559322035e-06, "loss": 1.5636, "step": 73 }, { "epoch": 0.24666666666666667, "grad_norm": 3.796875, "learning_rate": 7.694915254237289e-06, "loss": 1.3601, "step": 74 }, { "epoch": 0.25, "grad_norm": 4.09375, "learning_rate": 7.661016949152543e-06, "loss": 1.4946, "step": 75 }, { "epoch": 0.25333333333333335, "grad_norm": 4.65625, "learning_rate": 7.627118644067797e-06, "loss": 1.7191, "step": 76 }, { "epoch": 0.25666666666666665, "grad_norm": 4.21875, "learning_rate": 7.5932203389830515e-06, "loss": 1.5483, "step": 77 }, { "epoch": 0.26, "grad_norm": 4.28125, "learning_rate": 7.559322033898305e-06, "loss": 1.3494, "step": 78 }, { "epoch": 0.2633333333333333, "grad_norm": 3.921875, "learning_rate": 7.52542372881356e-06, "loss": 1.4155, "step": 79 }, { "epoch": 0.26666666666666666, "grad_norm": 4.4375, "learning_rate": 7.491525423728814e-06, "loss": 1.5193, "step": 80 }, { "epoch": 0.27, "grad_norm": 4.15625, "learning_rate": 7.4576271186440685e-06, "loss": 1.4973, "step": 81 }, { "epoch": 0.2733333333333333, "grad_norm": 4.0625, "learning_rate": 7.423728813559322e-06, "loss": 1.5075, "step": 82 }, { "epoch": 0.27666666666666667, "grad_norm": 4.25, "learning_rate": 7.3898305084745766e-06, "loss": 1.5202, "step": 83 }, { "epoch": 0.28, "grad_norm": 4.15625, "learning_rate": 7.355932203389831e-06, "loss": 1.4973, "step": 84 }, { "epoch": 0.2833333333333333, "grad_norm": 3.828125, "learning_rate": 7.3220338983050855e-06, "loss": 1.4074, "step": 85 }, { "epoch": 0.2866666666666667, "grad_norm": 4.4375, "learning_rate": 7.288135593220339e-06, "loss": 1.579, "step": 86 }, { "epoch": 0.29, "grad_norm": 3.9375, "learning_rate": 7.2542372881355936e-06, "loss": 1.4752, "step": 87 }, { "epoch": 0.29333333333333333, "grad_norm": 4.125, "learning_rate": 7.220338983050849e-06, "loss": 1.5104, "step": 88 }, { "epoch": 0.2966666666666667, "grad_norm": 4.375, "learning_rate": 7.1864406779661025e-06, "loss": 1.5197, "step": 89 }, { "epoch": 0.3, "grad_norm": 4.25, "learning_rate": 7.152542372881357e-06, "loss": 1.5693, "step": 90 }, { "epoch": 0.30333333333333334, "grad_norm": 4.0, "learning_rate": 7.1186440677966106e-06, "loss": 1.4537, "step": 91 }, { "epoch": 0.30666666666666664, "grad_norm": 4.6875, "learning_rate": 7.084745762711865e-06, "loss": 1.4927, "step": 92 }, { "epoch": 0.31, "grad_norm": 4.3125, "learning_rate": 7.0508474576271195e-06, "loss": 1.3798, "step": 93 }, { "epoch": 0.31333333333333335, "grad_norm": 4.1875, "learning_rate": 7.016949152542374e-06, "loss": 1.4719, "step": 94 }, { "epoch": 0.31666666666666665, "grad_norm": 4.125, "learning_rate": 6.9830508474576275e-06, "loss": 1.412, "step": 95 }, { "epoch": 0.32, "grad_norm": 4.0625, "learning_rate": 6.949152542372882e-06, "loss": 1.5033, "step": 96 }, { "epoch": 0.3233333333333333, "grad_norm": 3.8125, "learning_rate": 6.915254237288136e-06, "loss": 1.4595, "step": 97 }, { "epoch": 0.32666666666666666, "grad_norm": 4.09375, "learning_rate": 6.881355932203391e-06, "loss": 1.436, "step": 98 }, { "epoch": 0.33, "grad_norm": 4.1875, "learning_rate": 6.8474576271186445e-06, "loss": 1.4853, "step": 99 }, { "epoch": 0.3333333333333333, "grad_norm": 4.78125, "learning_rate": 6.813559322033899e-06, "loss": 1.5119, "step": 100 }, { "epoch": 0.33666666666666667, "grad_norm": 3.796875, "learning_rate": 6.779661016949153e-06, "loss": 1.2572, "step": 101 }, { "epoch": 0.34, "grad_norm": 4.1875, "learning_rate": 6.745762711864408e-06, "loss": 1.3549, "step": 102 }, { "epoch": 0.3433333333333333, "grad_norm": 4.40625, "learning_rate": 6.7118644067796615e-06, "loss": 1.5217, "step": 103 }, { "epoch": 0.3466666666666667, "grad_norm": 4.34375, "learning_rate": 6.677966101694916e-06, "loss": 1.4363, "step": 104 }, { "epoch": 0.35, "grad_norm": 4.25, "learning_rate": 6.64406779661017e-06, "loss": 1.5073, "step": 105 }, { "epoch": 0.35333333333333333, "grad_norm": 4.125, "learning_rate": 6.610169491525424e-06, "loss": 1.4746, "step": 106 }, { "epoch": 0.3566666666666667, "grad_norm": 4.46875, "learning_rate": 6.576271186440678e-06, "loss": 1.4716, "step": 107 }, { "epoch": 0.36, "grad_norm": 4.625, "learning_rate": 6.542372881355933e-06, "loss": 1.4342, "step": 108 }, { "epoch": 0.36333333333333334, "grad_norm": 4.15625, "learning_rate": 6.508474576271187e-06, "loss": 1.5372, "step": 109 }, { "epoch": 0.36666666666666664, "grad_norm": 4.40625, "learning_rate": 6.474576271186441e-06, "loss": 1.4643, "step": 110 }, { "epoch": 0.37, "grad_norm": 4.09375, "learning_rate": 6.440677966101695e-06, "loss": 1.4531, "step": 111 }, { "epoch": 0.37333333333333335, "grad_norm": 3.875, "learning_rate": 6.40677966101695e-06, "loss": 1.3822, "step": 112 }, { "epoch": 0.37666666666666665, "grad_norm": 4.21875, "learning_rate": 6.372881355932204e-06, "loss": 1.5035, "step": 113 }, { "epoch": 0.38, "grad_norm": 4.28125, "learning_rate": 6.338983050847458e-06, "loss": 1.4183, "step": 114 }, { "epoch": 0.38333333333333336, "grad_norm": 4.125, "learning_rate": 6.3050847457627125e-06, "loss": 1.5141, "step": 115 }, { "epoch": 0.38666666666666666, "grad_norm": 4.1875, "learning_rate": 6.271186440677966e-06, "loss": 1.4144, "step": 116 }, { "epoch": 0.39, "grad_norm": 4.15625, "learning_rate": 6.2372881355932215e-06, "loss": 1.5618, "step": 117 }, { "epoch": 0.3933333333333333, "grad_norm": 4.1875, "learning_rate": 6.203389830508475e-06, "loss": 1.4865, "step": 118 }, { "epoch": 0.39666666666666667, "grad_norm": 4.09375, "learning_rate": 6.1694915254237295e-06, "loss": 1.6013, "step": 119 }, { "epoch": 0.4, "grad_norm": 4.03125, "learning_rate": 6.135593220338983e-06, "loss": 1.4803, "step": 120 }, { "epoch": 0.4033333333333333, "grad_norm": 4.28125, "learning_rate": 6.1016949152542385e-06, "loss": 1.6285, "step": 121 }, { "epoch": 0.4066666666666667, "grad_norm": 3.9375, "learning_rate": 6.067796610169492e-06, "loss": 1.4371, "step": 122 }, { "epoch": 0.41, "grad_norm": 3.8125, "learning_rate": 6.0338983050847465e-06, "loss": 1.3438, "step": 123 }, { "epoch": 0.41333333333333333, "grad_norm": 3.890625, "learning_rate": 6e-06, "loss": 1.421, "step": 124 }, { "epoch": 0.4166666666666667, "grad_norm": 4.125, "learning_rate": 5.9661016949152555e-06, "loss": 1.6043, "step": 125 }, { "epoch": 0.42, "grad_norm": 3.8125, "learning_rate": 5.932203389830509e-06, "loss": 1.4764, "step": 126 }, { "epoch": 0.42333333333333334, "grad_norm": 3.90625, "learning_rate": 5.8983050847457635e-06, "loss": 1.4251, "step": 127 }, { "epoch": 0.4266666666666667, "grad_norm": 4.3125, "learning_rate": 5.864406779661017e-06, "loss": 1.5897, "step": 128 }, { "epoch": 0.43, "grad_norm": 4.375, "learning_rate": 5.830508474576272e-06, "loss": 1.5126, "step": 129 }, { "epoch": 0.43333333333333335, "grad_norm": 4.59375, "learning_rate": 5.796610169491525e-06, "loss": 1.5371, "step": 130 }, { "epoch": 0.43666666666666665, "grad_norm": 3.875, "learning_rate": 5.7627118644067805e-06, "loss": 1.495, "step": 131 }, { "epoch": 0.44, "grad_norm": 3.96875, "learning_rate": 5.728813559322034e-06, "loss": 1.4817, "step": 132 }, { "epoch": 0.44333333333333336, "grad_norm": 4.1875, "learning_rate": 5.694915254237289e-06, "loss": 1.4639, "step": 133 }, { "epoch": 0.44666666666666666, "grad_norm": 3.890625, "learning_rate": 5.661016949152542e-06, "loss": 1.4762, "step": 134 }, { "epoch": 0.45, "grad_norm": 3.875, "learning_rate": 5.6271186440677975e-06, "loss": 1.4693, "step": 135 }, { "epoch": 0.4533333333333333, "grad_norm": 4.40625, "learning_rate": 5.593220338983051e-06, "loss": 1.5129, "step": 136 }, { "epoch": 0.45666666666666667, "grad_norm": 3.859375, "learning_rate": 5.559322033898306e-06, "loss": 1.5252, "step": 137 }, { "epoch": 0.46, "grad_norm": 4.0625, "learning_rate": 5.525423728813559e-06, "loss": 1.4806, "step": 138 }, { "epoch": 0.4633333333333333, "grad_norm": 3.90625, "learning_rate": 5.491525423728814e-06, "loss": 1.4742, "step": 139 }, { "epoch": 0.4666666666666667, "grad_norm": 4.21875, "learning_rate": 5.457627118644067e-06, "loss": 1.4053, "step": 140 }, { "epoch": 0.47, "grad_norm": 4.46875, "learning_rate": 5.423728813559323e-06, "loss": 1.4313, "step": 141 }, { "epoch": 0.47333333333333333, "grad_norm": 3.765625, "learning_rate": 5.389830508474577e-06, "loss": 1.4895, "step": 142 }, { "epoch": 0.4766666666666667, "grad_norm": 3.90625, "learning_rate": 5.355932203389831e-06, "loss": 1.3679, "step": 143 }, { "epoch": 0.48, "grad_norm": 3.796875, "learning_rate": 5.322033898305086e-06, "loss": 1.5002, "step": 144 }, { "epoch": 0.48333333333333334, "grad_norm": 4.0625, "learning_rate": 5.28813559322034e-06, "loss": 1.4507, "step": 145 }, { "epoch": 0.4866666666666667, "grad_norm": 4.21875, "learning_rate": 5.254237288135594e-06, "loss": 1.4539, "step": 146 }, { "epoch": 0.49, "grad_norm": 4.0625, "learning_rate": 5.220338983050848e-06, "loss": 1.457, "step": 147 }, { "epoch": 0.49333333333333335, "grad_norm": 4.40625, "learning_rate": 5.186440677966102e-06, "loss": 1.5808, "step": 148 }, { "epoch": 0.49666666666666665, "grad_norm": 4.125, "learning_rate": 5.152542372881356e-06, "loss": 1.463, "step": 149 }, { "epoch": 0.5, "grad_norm": 4.25, "learning_rate": 5.118644067796611e-06, "loss": 1.5309, "step": 150 }, { "epoch": 0.5033333333333333, "grad_norm": 4.1875, "learning_rate": 5.084745762711865e-06, "loss": 1.4724, "step": 151 }, { "epoch": 0.5066666666666667, "grad_norm": 4.25, "learning_rate": 5.050847457627119e-06, "loss": 1.4349, "step": 152 }, { "epoch": 0.51, "grad_norm": 4.75, "learning_rate": 5.016949152542373e-06, "loss": 1.5545, "step": 153 }, { "epoch": 0.5133333333333333, "grad_norm": 3.90625, "learning_rate": 4.983050847457628e-06, "loss": 1.4974, "step": 154 }, { "epoch": 0.5166666666666667, "grad_norm": 3.890625, "learning_rate": 4.949152542372882e-06, "loss": 1.3883, "step": 155 }, { "epoch": 0.52, "grad_norm": 4.375, "learning_rate": 4.915254237288136e-06, "loss": 1.4869, "step": 156 }, { "epoch": 0.5233333333333333, "grad_norm": 4.15625, "learning_rate": 4.881355932203391e-06, "loss": 1.3436, "step": 157 }, { "epoch": 0.5266666666666666, "grad_norm": 4.4375, "learning_rate": 4.847457627118645e-06, "loss": 1.455, "step": 158 }, { "epoch": 0.53, "grad_norm": 4.09375, "learning_rate": 4.813559322033899e-06, "loss": 1.2667, "step": 159 }, { "epoch": 0.5333333333333333, "grad_norm": 3.96875, "learning_rate": 4.779661016949153e-06, "loss": 1.3545, "step": 160 }, { "epoch": 0.5366666666666666, "grad_norm": 4.1875, "learning_rate": 4.745762711864408e-06, "loss": 1.5189, "step": 161 }, { "epoch": 0.54, "grad_norm": 4.15625, "learning_rate": 4.711864406779661e-06, "loss": 1.4737, "step": 162 }, { "epoch": 0.5433333333333333, "grad_norm": 4.15625, "learning_rate": 4.677966101694916e-06, "loss": 1.4276, "step": 163 }, { "epoch": 0.5466666666666666, "grad_norm": 3.90625, "learning_rate": 4.64406779661017e-06, "loss": 1.3469, "step": 164 }, { "epoch": 0.55, "grad_norm": 4.40625, "learning_rate": 4.610169491525424e-06, "loss": 1.5089, "step": 165 }, { "epoch": 0.5533333333333333, "grad_norm": 4.03125, "learning_rate": 4.576271186440678e-06, "loss": 1.4037, "step": 166 }, { "epoch": 0.5566666666666666, "grad_norm": 4.21875, "learning_rate": 4.542372881355933e-06, "loss": 1.5043, "step": 167 }, { "epoch": 0.56, "grad_norm": 4.21875, "learning_rate": 4.508474576271187e-06, "loss": 1.4458, "step": 168 }, { "epoch": 0.5633333333333334, "grad_norm": 4.15625, "learning_rate": 4.474576271186441e-06, "loss": 1.4375, "step": 169 }, { "epoch": 0.5666666666666667, "grad_norm": 4.28125, "learning_rate": 4.440677966101695e-06, "loss": 1.5157, "step": 170 }, { "epoch": 0.57, "grad_norm": 4.84375, "learning_rate": 4.40677966101695e-06, "loss": 1.6873, "step": 171 }, { "epoch": 0.5733333333333334, "grad_norm": 3.90625, "learning_rate": 4.372881355932203e-06, "loss": 1.4512, "step": 172 }, { "epoch": 0.5766666666666667, "grad_norm": 3.796875, "learning_rate": 4.338983050847458e-06, "loss": 1.496, "step": 173 }, { "epoch": 0.58, "grad_norm": 4.21875, "learning_rate": 4.305084745762712e-06, "loss": 1.5529, "step": 174 }, { "epoch": 0.5833333333333334, "grad_norm": 4.03125, "learning_rate": 4.271186440677967e-06, "loss": 1.5254, "step": 175 }, { "epoch": 0.5866666666666667, "grad_norm": 4.0, "learning_rate": 4.23728813559322e-06, "loss": 1.4447, "step": 176 }, { "epoch": 0.59, "grad_norm": 4.3125, "learning_rate": 4.203389830508475e-06, "loss": 1.4786, "step": 177 }, { "epoch": 0.5933333333333334, "grad_norm": 3.84375, "learning_rate": 4.169491525423729e-06, "loss": 1.469, "step": 178 }, { "epoch": 0.5966666666666667, "grad_norm": 4.21875, "learning_rate": 4.135593220338983e-06, "loss": 1.4858, "step": 179 }, { "epoch": 0.6, "grad_norm": 4.21875, "learning_rate": 4.101694915254237e-06, "loss": 1.3881, "step": 180 }, { "epoch": 0.6033333333333334, "grad_norm": 4.96875, "learning_rate": 4.067796610169492e-06, "loss": 1.4489, "step": 181 }, { "epoch": 0.6066666666666667, "grad_norm": 4.03125, "learning_rate": 4.033898305084746e-06, "loss": 1.384, "step": 182 }, { "epoch": 0.61, "grad_norm": 4.09375, "learning_rate": 4.000000000000001e-06, "loss": 1.4689, "step": 183 }, { "epoch": 0.6133333333333333, "grad_norm": 3.8125, "learning_rate": 3.966101694915255e-06, "loss": 1.4409, "step": 184 }, { "epoch": 0.6166666666666667, "grad_norm": 3.9375, "learning_rate": 3.932203389830509e-06, "loss": 1.3626, "step": 185 }, { "epoch": 0.62, "grad_norm": 4.0625, "learning_rate": 3.898305084745763e-06, "loss": 1.3602, "step": 186 }, { "epoch": 0.6233333333333333, "grad_norm": 4.0625, "learning_rate": 3.864406779661018e-06, "loss": 1.4524, "step": 187 }, { "epoch": 0.6266666666666667, "grad_norm": 4.28125, "learning_rate": 3.830508474576271e-06, "loss": 1.4622, "step": 188 }, { "epoch": 0.63, "grad_norm": 4.25, "learning_rate": 3.7966101694915257e-06, "loss": 1.4153, "step": 189 }, { "epoch": 0.6333333333333333, "grad_norm": 4.1875, "learning_rate": 3.76271186440678e-06, "loss": 1.4726, "step": 190 }, { "epoch": 0.6366666666666667, "grad_norm": 4.09375, "learning_rate": 3.7288135593220342e-06, "loss": 1.4515, "step": 191 }, { "epoch": 0.64, "grad_norm": 4.21875, "learning_rate": 3.6949152542372883e-06, "loss": 1.4105, "step": 192 }, { "epoch": 0.6433333333333333, "grad_norm": 4.125, "learning_rate": 3.6610169491525427e-06, "loss": 1.4322, "step": 193 }, { "epoch": 0.6466666666666666, "grad_norm": 4.28125, "learning_rate": 3.6271186440677968e-06, "loss": 1.3477, "step": 194 }, { "epoch": 0.65, "grad_norm": 3.84375, "learning_rate": 3.5932203389830512e-06, "loss": 1.3881, "step": 195 }, { "epoch": 0.6533333333333333, "grad_norm": 4.15625, "learning_rate": 3.5593220338983053e-06, "loss": 1.4578, "step": 196 }, { "epoch": 0.6566666666666666, "grad_norm": 4.09375, "learning_rate": 3.5254237288135597e-06, "loss": 1.4672, "step": 197 }, { "epoch": 0.66, "grad_norm": 3.90625, "learning_rate": 3.4915254237288138e-06, "loss": 1.4233, "step": 198 }, { "epoch": 0.6633333333333333, "grad_norm": 4.09375, "learning_rate": 3.457627118644068e-06, "loss": 1.3637, "step": 199 }, { "epoch": 0.6666666666666666, "grad_norm": 4.625, "learning_rate": 3.4237288135593223e-06, "loss": 1.5333, "step": 200 }, { "epoch": 0.67, "grad_norm": 4.125, "learning_rate": 3.3898305084745763e-06, "loss": 1.362, "step": 201 }, { "epoch": 0.6733333333333333, "grad_norm": 4.34375, "learning_rate": 3.3559322033898308e-06, "loss": 1.5358, "step": 202 }, { "epoch": 0.6766666666666666, "grad_norm": 4.25, "learning_rate": 3.322033898305085e-06, "loss": 1.4072, "step": 203 }, { "epoch": 0.68, "grad_norm": 3.90625, "learning_rate": 3.288135593220339e-06, "loss": 1.3009, "step": 204 }, { "epoch": 0.6833333333333333, "grad_norm": 4.28125, "learning_rate": 3.2542372881355933e-06, "loss": 1.3679, "step": 205 }, { "epoch": 0.6866666666666666, "grad_norm": 4.40625, "learning_rate": 3.2203389830508473e-06, "loss": 1.3934, "step": 206 }, { "epoch": 0.69, "grad_norm": 4.40625, "learning_rate": 3.186440677966102e-06, "loss": 1.5645, "step": 207 }, { "epoch": 0.6933333333333334, "grad_norm": 4.03125, "learning_rate": 3.1525423728813563e-06, "loss": 1.4212, "step": 208 }, { "epoch": 0.6966666666666667, "grad_norm": 4.15625, "learning_rate": 3.1186440677966107e-06, "loss": 1.411, "step": 209 }, { "epoch": 0.7, "grad_norm": 4.40625, "learning_rate": 3.0847457627118648e-06, "loss": 1.4473, "step": 210 }, { "epoch": 0.7033333333333334, "grad_norm": 4.0625, "learning_rate": 3.0508474576271192e-06, "loss": 1.2711, "step": 211 }, { "epoch": 0.7066666666666667, "grad_norm": 3.875, "learning_rate": 3.0169491525423733e-06, "loss": 1.489, "step": 212 }, { "epoch": 0.71, "grad_norm": 4.0625, "learning_rate": 2.9830508474576277e-06, "loss": 1.4551, "step": 213 }, { "epoch": 0.7133333333333334, "grad_norm": 4.0625, "learning_rate": 2.9491525423728818e-06, "loss": 1.3449, "step": 214 }, { "epoch": 0.7166666666666667, "grad_norm": 4.15625, "learning_rate": 2.915254237288136e-06, "loss": 1.2706, "step": 215 }, { "epoch": 0.72, "grad_norm": 4.15625, "learning_rate": 2.8813559322033903e-06, "loss": 1.4557, "step": 216 }, { "epoch": 0.7233333333333334, "grad_norm": 4.375, "learning_rate": 2.8474576271186443e-06, "loss": 1.3188, "step": 217 }, { "epoch": 0.7266666666666667, "grad_norm": 4.03125, "learning_rate": 2.8135593220338988e-06, "loss": 1.2864, "step": 218 }, { "epoch": 0.73, "grad_norm": 3.96875, "learning_rate": 2.779661016949153e-06, "loss": 1.3907, "step": 219 }, { "epoch": 0.7333333333333333, "grad_norm": 3.875, "learning_rate": 2.745762711864407e-06, "loss": 1.37, "step": 220 }, { "epoch": 0.7366666666666667, "grad_norm": 4.21875, "learning_rate": 2.7118644067796613e-06, "loss": 1.4307, "step": 221 }, { "epoch": 0.74, "grad_norm": 4.0625, "learning_rate": 2.6779661016949153e-06, "loss": 1.3938, "step": 222 }, { "epoch": 0.7433333333333333, "grad_norm": 4.0, "learning_rate": 2.64406779661017e-06, "loss": 1.486, "step": 223 }, { "epoch": 0.7466666666666667, "grad_norm": 4.0, "learning_rate": 2.610169491525424e-06, "loss": 1.3494, "step": 224 }, { "epoch": 0.75, "grad_norm": 4.0625, "learning_rate": 2.576271186440678e-06, "loss": 1.408, "step": 225 }, { "epoch": 0.7533333333333333, "grad_norm": 3.828125, "learning_rate": 2.5423728813559323e-06, "loss": 1.4102, "step": 226 }, { "epoch": 0.7566666666666667, "grad_norm": 3.90625, "learning_rate": 2.5084745762711864e-06, "loss": 1.4117, "step": 227 }, { "epoch": 0.76, "grad_norm": 3.921875, "learning_rate": 2.474576271186441e-06, "loss": 1.3508, "step": 228 }, { "epoch": 0.7633333333333333, "grad_norm": 4.3125, "learning_rate": 2.4406779661016953e-06, "loss": 1.405, "step": 229 }, { "epoch": 0.7666666666666667, "grad_norm": 4.46875, "learning_rate": 2.4067796610169493e-06, "loss": 1.5566, "step": 230 }, { "epoch": 0.77, "grad_norm": 3.90625, "learning_rate": 2.372881355932204e-06, "loss": 1.4346, "step": 231 }, { "epoch": 0.7733333333333333, "grad_norm": 4.0, "learning_rate": 2.338983050847458e-06, "loss": 1.3959, "step": 232 }, { "epoch": 0.7766666666666666, "grad_norm": 4.8125, "learning_rate": 2.305084745762712e-06, "loss": 1.5955, "step": 233 }, { "epoch": 0.78, "grad_norm": 4.28125, "learning_rate": 2.2711864406779663e-06, "loss": 1.4623, "step": 234 }, { "epoch": 0.7833333333333333, "grad_norm": 3.90625, "learning_rate": 2.2372881355932204e-06, "loss": 1.3969, "step": 235 }, { "epoch": 0.7866666666666666, "grad_norm": 4.1875, "learning_rate": 2.203389830508475e-06, "loss": 1.5244, "step": 236 }, { "epoch": 0.79, "grad_norm": 4.03125, "learning_rate": 2.169491525423729e-06, "loss": 1.3434, "step": 237 }, { "epoch": 0.7933333333333333, "grad_norm": 4.15625, "learning_rate": 2.1355932203389833e-06, "loss": 1.405, "step": 238 }, { "epoch": 0.7966666666666666, "grad_norm": 4.40625, "learning_rate": 2.1016949152542374e-06, "loss": 1.4841, "step": 239 }, { "epoch": 0.8, "grad_norm": 3.9375, "learning_rate": 2.0677966101694914e-06, "loss": 1.3963, "step": 240 }, { "epoch": 0.8033333333333333, "grad_norm": 4.25, "learning_rate": 2.033898305084746e-06, "loss": 1.3759, "step": 241 }, { "epoch": 0.8066666666666666, "grad_norm": 4.25, "learning_rate": 2.0000000000000003e-06, "loss": 1.5666, "step": 242 }, { "epoch": 0.81, "grad_norm": 3.984375, "learning_rate": 1.9661016949152544e-06, "loss": 1.3935, "step": 243 }, { "epoch": 0.8133333333333334, "grad_norm": 3.90625, "learning_rate": 1.932203389830509e-06, "loss": 1.3719, "step": 244 }, { "epoch": 0.8166666666666667, "grad_norm": 3.9375, "learning_rate": 1.8983050847457629e-06, "loss": 1.3638, "step": 245 }, { "epoch": 0.82, "grad_norm": 3.875, "learning_rate": 1.8644067796610171e-06, "loss": 1.3744, "step": 246 }, { "epoch": 0.8233333333333334, "grad_norm": 4.375, "learning_rate": 1.8305084745762714e-06, "loss": 1.519, "step": 247 }, { "epoch": 0.8266666666666667, "grad_norm": 3.9375, "learning_rate": 1.7966101694915256e-06, "loss": 1.4056, "step": 248 }, { "epoch": 0.83, "grad_norm": 4.28125, "learning_rate": 1.7627118644067799e-06, "loss": 1.4425, "step": 249 }, { "epoch": 0.8333333333333334, "grad_norm": 3.921875, "learning_rate": 1.728813559322034e-06, "loss": 1.3869, "step": 250 }, { "epoch": 0.8366666666666667, "grad_norm": 4.09375, "learning_rate": 1.6949152542372882e-06, "loss": 1.4469, "step": 251 }, { "epoch": 0.84, "grad_norm": 4.25, "learning_rate": 1.6610169491525424e-06, "loss": 1.4746, "step": 252 }, { "epoch": 0.8433333333333334, "grad_norm": 4.09375, "learning_rate": 1.6271186440677967e-06, "loss": 1.3844, "step": 253 }, { "epoch": 0.8466666666666667, "grad_norm": 3.9375, "learning_rate": 1.593220338983051e-06, "loss": 1.3991, "step": 254 }, { "epoch": 0.85, "grad_norm": 3.90625, "learning_rate": 1.5593220338983054e-06, "loss": 1.311, "step": 255 }, { "epoch": 0.8533333333333334, "grad_norm": 4.25, "learning_rate": 1.5254237288135596e-06, "loss": 1.434, "step": 256 }, { "epoch": 0.8566666666666667, "grad_norm": 4.1875, "learning_rate": 1.4915254237288139e-06, "loss": 1.3533, "step": 257 }, { "epoch": 0.86, "grad_norm": 4.09375, "learning_rate": 1.457627118644068e-06, "loss": 1.4461, "step": 258 }, { "epoch": 0.8633333333333333, "grad_norm": 3.875, "learning_rate": 1.4237288135593222e-06, "loss": 1.3561, "step": 259 }, { "epoch": 0.8666666666666667, "grad_norm": 3.875, "learning_rate": 1.3898305084745764e-06, "loss": 1.3299, "step": 260 }, { "epoch": 0.87, "grad_norm": 3.90625, "learning_rate": 1.3559322033898307e-06, "loss": 1.4657, "step": 261 }, { "epoch": 0.8733333333333333, "grad_norm": 3.84375, "learning_rate": 1.322033898305085e-06, "loss": 1.3476, "step": 262 }, { "epoch": 0.8766666666666667, "grad_norm": 4.21875, "learning_rate": 1.288135593220339e-06, "loss": 1.3698, "step": 263 }, { "epoch": 0.88, "grad_norm": 4.3125, "learning_rate": 1.2542372881355932e-06, "loss": 1.4458, "step": 264 }, { "epoch": 0.8833333333333333, "grad_norm": 4.53125, "learning_rate": 1.2203389830508477e-06, "loss": 1.51, "step": 265 }, { "epoch": 0.8866666666666667, "grad_norm": 4.1875, "learning_rate": 1.186440677966102e-06, "loss": 1.4639, "step": 266 }, { "epoch": 0.89, "grad_norm": 4.28125, "learning_rate": 1.152542372881356e-06, "loss": 1.4103, "step": 267 }, { "epoch": 0.8933333333333333, "grad_norm": 4.125, "learning_rate": 1.1186440677966102e-06, "loss": 1.4097, "step": 268 }, { "epoch": 0.8966666666666666, "grad_norm": 4.09375, "learning_rate": 1.0847457627118644e-06, "loss": 1.3485, "step": 269 }, { "epoch": 0.9, "grad_norm": 4.21875, "learning_rate": 1.0508474576271187e-06, "loss": 1.356, "step": 270 }, { "epoch": 0.9033333333333333, "grad_norm": 4.25, "learning_rate": 1.016949152542373e-06, "loss": 1.5184, "step": 271 }, { "epoch": 0.9066666666666666, "grad_norm": 4.21875, "learning_rate": 9.830508474576272e-07, "loss": 1.463, "step": 272 }, { "epoch": 0.91, "grad_norm": 4.09375, "learning_rate": 9.491525423728814e-07, "loss": 1.4556, "step": 273 }, { "epoch": 0.9133333333333333, "grad_norm": 4.5625, "learning_rate": 9.152542372881357e-07, "loss": 1.5922, "step": 274 }, { "epoch": 0.9166666666666666, "grad_norm": 4.25, "learning_rate": 8.813559322033899e-07, "loss": 1.385, "step": 275 }, { "epoch": 0.92, "grad_norm": 3.78125, "learning_rate": 8.474576271186441e-07, "loss": 1.2688, "step": 276 }, { "epoch": 0.9233333333333333, "grad_norm": 3.9375, "learning_rate": 8.135593220338983e-07, "loss": 1.3548, "step": 277 }, { "epoch": 0.9266666666666666, "grad_norm": 4.09375, "learning_rate": 7.796610169491527e-07, "loss": 1.304, "step": 278 }, { "epoch": 0.93, "grad_norm": 4.4375, "learning_rate": 7.457627118644069e-07, "loss": 1.581, "step": 279 }, { "epoch": 0.9333333333333333, "grad_norm": 4.125, "learning_rate": 7.118644067796611e-07, "loss": 1.4101, "step": 280 }, { "epoch": 0.9366666666666666, "grad_norm": 4.375, "learning_rate": 6.779661016949153e-07, "loss": 1.4268, "step": 281 }, { "epoch": 0.94, "grad_norm": 4.0, "learning_rate": 6.440677966101695e-07, "loss": 1.3534, "step": 282 }, { "epoch": 0.9433333333333334, "grad_norm": 4.0, "learning_rate": 6.101694915254238e-07, "loss": 1.3912, "step": 283 }, { "epoch": 0.9466666666666667, "grad_norm": 4.3125, "learning_rate": 5.76271186440678e-07, "loss": 1.5671, "step": 284 }, { "epoch": 0.95, "grad_norm": 4.0625, "learning_rate": 5.423728813559322e-07, "loss": 1.4265, "step": 285 }, { "epoch": 0.9533333333333334, "grad_norm": 3.953125, "learning_rate": 5.084745762711865e-07, "loss": 1.3331, "step": 286 }, { "epoch": 0.9566666666666667, "grad_norm": 4.3125, "learning_rate": 4.745762711864407e-07, "loss": 1.5631, "step": 287 }, { "epoch": 0.96, "grad_norm": 4.46875, "learning_rate": 4.4067796610169497e-07, "loss": 1.5866, "step": 288 }, { "epoch": 0.9633333333333334, "grad_norm": 4.875, "learning_rate": 4.0677966101694916e-07, "loss": 1.5228, "step": 289 }, { "epoch": 0.9666666666666667, "grad_norm": 4.3125, "learning_rate": 3.7288135593220347e-07, "loss": 1.4163, "step": 290 }, { "epoch": 0.97, "grad_norm": 4.125, "learning_rate": 3.3898305084745766e-07, "loss": 1.418, "step": 291 }, { "epoch": 0.9733333333333334, "grad_norm": 4.1875, "learning_rate": 3.050847457627119e-07, "loss": 1.4504, "step": 292 }, { "epoch": 0.9766666666666667, "grad_norm": 3.96875, "learning_rate": 2.711864406779661e-07, "loss": 1.4671, "step": 293 }, { "epoch": 0.98, "grad_norm": 3.90625, "learning_rate": 2.3728813559322036e-07, "loss": 1.3604, "step": 294 }, { "epoch": 0.9833333333333333, "grad_norm": 4.0, "learning_rate": 2.0338983050847458e-07, "loss": 1.3756, "step": 295 }, { "epoch": 0.9866666666666667, "grad_norm": 4.28125, "learning_rate": 1.6949152542372883e-07, "loss": 1.4629, "step": 296 }, { "epoch": 0.99, "grad_norm": 4.1875, "learning_rate": 1.3559322033898305e-07, "loss": 1.4569, "step": 297 }, { "epoch": 0.9933333333333333, "grad_norm": 4.03125, "learning_rate": 1.0169491525423729e-07, "loss": 1.4611, "step": 298 }, { "epoch": 0.9966666666666667, "grad_norm": 4.625, "learning_rate": 6.779661016949153e-08, "loss": 1.3683, "step": 299 }, { "epoch": 1.0, "grad_norm": 3.96875, "learning_rate": 3.3898305084745764e-08, "loss": 1.3875, "step": 300 } ], "logging_steps": 1, "max_steps": 300, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 5000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 2.070387224827085e+16, "train_batch_size": 2, "trial_name": null, "trial_params": null }