Files
Qwen2.5-7B-Instruct-custom-…/checkpoint-300/trainer_state.json

2135 lines
46 KiB
JSON
Raw Normal View History

{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 1.0,
"eval_steps": 500,
"global_step": 300,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0033333333333333335,
"grad_norm": 25.75,
"learning_rate": 0.0,
"loss": 3.7013,
"step": 1
},
{
"epoch": 0.006666666666666667,
"grad_norm": 24.0,
"learning_rate": 2.0000000000000003e-06,
"loss": 3.7518,
"step": 2
},
{
"epoch": 0.01,
"grad_norm": 24.5,
"learning_rate": 4.000000000000001e-06,
"loss": 3.7297,
"step": 3
},
{
"epoch": 0.013333333333333334,
"grad_norm": 23.25,
"learning_rate": 6e-06,
"loss": 3.7034,
"step": 4
},
{
"epoch": 0.016666666666666666,
"grad_norm": 22.0,
"learning_rate": 8.000000000000001e-06,
"loss": 3.4563,
"step": 5
},
{
"epoch": 0.02,
"grad_norm": 18.0,
"learning_rate": 1e-05,
"loss": 3.2412,
"step": 6
},
{
"epoch": 0.023333333333333334,
"grad_norm": 14.3125,
"learning_rate": 9.966101694915256e-06,
"loss": 2.9037,
"step": 7
},
{
"epoch": 0.02666666666666667,
"grad_norm": 11.0,
"learning_rate": 9.93220338983051e-06,
"loss": 2.7721,
"step": 8
},
{
"epoch": 0.03,
"grad_norm": 9.875,
"learning_rate": 9.898305084745763e-06,
"loss": 2.4879,
"step": 9
},
{
"epoch": 0.03333333333333333,
"grad_norm": 8.125,
"learning_rate": 9.864406779661017e-06,
"loss": 2.3858,
"step": 10
},
{
"epoch": 0.03666666666666667,
"grad_norm": 6.65625,
"learning_rate": 9.830508474576272e-06,
"loss": 2.2414,
"step": 11
},
{
"epoch": 0.04,
"grad_norm": 6.5,
"learning_rate": 9.796610169491526e-06,
"loss": 2.3872,
"step": 12
},
{
"epoch": 0.043333333333333335,
"grad_norm": 6.125,
"learning_rate": 9.762711864406781e-06,
"loss": 2.2477,
"step": 13
},
{
"epoch": 0.04666666666666667,
"grad_norm": 5.90625,
"learning_rate": 9.728813559322035e-06,
"loss": 2.1758,
"step": 14
},
{
"epoch": 0.05,
"grad_norm": 5.9375,
"learning_rate": 9.69491525423729e-06,
"loss": 2.2908,
"step": 15
},
{
"epoch": 0.05333333333333334,
"grad_norm": 5.28125,
"learning_rate": 9.661016949152544e-06,
"loss": 2.0323,
"step": 16
},
{
"epoch": 0.056666666666666664,
"grad_norm": 5.9375,
"learning_rate": 9.627118644067797e-06,
"loss": 1.9005,
"step": 17
},
{
"epoch": 0.06,
"grad_norm": 5.78125,
"learning_rate": 9.593220338983051e-06,
"loss": 2.0051,
"step": 18
},
{
"epoch": 0.06333333333333334,
"grad_norm": 6.1875,
"learning_rate": 9.559322033898306e-06,
"loss": 2.1265,
"step": 19
},
{
"epoch": 0.06666666666666667,
"grad_norm": 5.09375,
"learning_rate": 9.52542372881356e-06,
"loss": 1.808,
"step": 20
},
{
"epoch": 0.07,
"grad_norm": 4.875,
"learning_rate": 9.491525423728815e-06,
"loss": 1.8467,
"step": 21
},
{
"epoch": 0.07333333333333333,
"grad_norm": 4.84375,
"learning_rate": 9.457627118644069e-06,
"loss": 1.7663,
"step": 22
},
{
"epoch": 0.07666666666666666,
"grad_norm": 5.0625,
"learning_rate": 9.423728813559322e-06,
"loss": 1.8699,
"step": 23
},
{
"epoch": 0.08,
"grad_norm": 5.03125,
"learning_rate": 9.389830508474576e-06,
"loss": 1.6716,
"step": 24
},
{
"epoch": 0.08333333333333333,
"grad_norm": 4.84375,
"learning_rate": 9.355932203389831e-06,
"loss": 1.8555,
"step": 25
},
{
"epoch": 0.08666666666666667,
"grad_norm": 4.46875,
"learning_rate": 9.322033898305085e-06,
"loss": 1.7117,
"step": 26
},
{
"epoch": 0.09,
"grad_norm": 4.46875,
"learning_rate": 9.28813559322034e-06,
"loss": 1.5957,
"step": 27
},
{
"epoch": 0.09333333333333334,
"grad_norm": 4.8125,
"learning_rate": 9.254237288135594e-06,
"loss": 1.775,
"step": 28
},
{
"epoch": 0.09666666666666666,
"grad_norm": 4.65625,
"learning_rate": 9.220338983050847e-06,
"loss": 1.6635,
"step": 29
},
{
"epoch": 0.1,
"grad_norm": 4.125,
"learning_rate": 9.186440677966101e-06,
"loss": 1.6127,
"step": 30
},
{
"epoch": 0.10333333333333333,
"grad_norm": 4.21875,
"learning_rate": 9.152542372881356e-06,
"loss": 1.5322,
"step": 31
},
{
"epoch": 0.10666666666666667,
"grad_norm": 4.78125,
"learning_rate": 9.11864406779661e-06,
"loss": 1.6173,
"step": 32
},
{
"epoch": 0.11,
"grad_norm": 4.375,
"learning_rate": 9.084745762711865e-06,
"loss": 1.5398,
"step": 33
},
{
"epoch": 0.11333333333333333,
"grad_norm": 4.6875,
"learning_rate": 9.05084745762712e-06,
"loss": 1.7419,
"step": 34
},
{
"epoch": 0.11666666666666667,
"grad_norm": 4.46875,
"learning_rate": 9.016949152542374e-06,
"loss": 1.5714,
"step": 35
},
{
"epoch": 0.12,
"grad_norm": 4.3125,
"learning_rate": 8.983050847457628e-06,
"loss": 1.5677,
"step": 36
},
{
"epoch": 0.12333333333333334,
"grad_norm": 4.6875,
"learning_rate": 8.949152542372881e-06,
"loss": 1.6474,
"step": 37
},
{
"epoch": 0.12666666666666668,
"grad_norm": 4.5625,
"learning_rate": 8.915254237288137e-06,
"loss": 1.4817,
"step": 38
},
{
"epoch": 0.13,
"grad_norm": 4.1875,
"learning_rate": 8.88135593220339e-06,
"loss": 1.5256,
"step": 39
},
{
"epoch": 0.13333333333333333,
"grad_norm": 4.28125,
"learning_rate": 8.847457627118646e-06,
"loss": 1.6416,
"step": 40
},
{
"epoch": 0.13666666666666666,
"grad_norm": 5.15625,
"learning_rate": 8.8135593220339e-06,
"loss": 1.5624,
"step": 41
},
{
"epoch": 0.14,
"grad_norm": 4.375,
"learning_rate": 8.779661016949153e-06,
"loss": 1.6411,
"step": 42
},
{
"epoch": 0.14333333333333334,
"grad_norm": 4.625,
"learning_rate": 8.745762711864407e-06,
"loss": 1.5424,
"step": 43
},
{
"epoch": 0.14666666666666667,
"grad_norm": 4.78125,
"learning_rate": 8.711864406779662e-06,
"loss": 1.5448,
"step": 44
},
{
"epoch": 0.15,
"grad_norm": 3.84375,
"learning_rate": 8.677966101694915e-06,
"loss": 1.533,
"step": 45
},
{
"epoch": 0.15333333333333332,
"grad_norm": 4.375,
"learning_rate": 8.64406779661017e-06,
"loss": 1.6341,
"step": 46
},
{
"epoch": 0.15666666666666668,
"grad_norm": 4.375,
"learning_rate": 8.610169491525424e-06,
"loss": 1.6327,
"step": 47
},
{
"epoch": 0.16,
"grad_norm": 5.125,
"learning_rate": 8.57627118644068e-06,
"loss": 1.6662,
"step": 48
},
{
"epoch": 0.16333333333333333,
"grad_norm": 4.1875,
"learning_rate": 8.542372881355933e-06,
"loss": 1.4854,
"step": 49
},
{
"epoch": 0.16666666666666666,
"grad_norm": 4.15625,
"learning_rate": 8.508474576271187e-06,
"loss": 1.5265,
"step": 50
},
{
"epoch": 0.17,
"grad_norm": 4.1875,
"learning_rate": 8.47457627118644e-06,
"loss": 1.5067,
"step": 51
},
{
"epoch": 0.17333333333333334,
"grad_norm": 4.375,
"learning_rate": 8.440677966101696e-06,
"loss": 1.592,
"step": 52
},
{
"epoch": 0.17666666666666667,
"grad_norm": 4.1875,
"learning_rate": 8.40677966101695e-06,
"loss": 1.537,
"step": 53
},
{
"epoch": 0.18,
"grad_norm": 3.953125,
"learning_rate": 8.372881355932205e-06,
"loss": 1.5813,
"step": 54
},
{
"epoch": 0.18333333333333332,
"grad_norm": 4.34375,
"learning_rate": 8.338983050847458e-06,
"loss": 1.621,
"step": 55
},
{
"epoch": 0.18666666666666668,
"grad_norm": 4.625,
"learning_rate": 8.305084745762712e-06,
"loss": 1.5233,
"step": 56
},
{
"epoch": 0.19,
"grad_norm": 4.375,
"learning_rate": 8.271186440677966e-06,
"loss": 1.4137,
"step": 57
},
{
"epoch": 0.19333333333333333,
"grad_norm": 4.1875,
"learning_rate": 8.237288135593221e-06,
"loss": 1.4854,
"step": 58
},
{
"epoch": 0.19666666666666666,
"grad_norm": 4.4375,
"learning_rate": 8.203389830508475e-06,
"loss": 1.5583,
"step": 59
},
{
"epoch": 0.2,
"grad_norm": 4.375,
"learning_rate": 8.16949152542373e-06,
"loss": 1.4982,
"step": 60
},
{
"epoch": 0.20333333333333334,
"grad_norm": 4.0625,
"learning_rate": 8.135593220338983e-06,
"loss": 1.3701,
"step": 61
},
{
"epoch": 0.20666666666666667,
"grad_norm": 4.25,
"learning_rate": 8.101694915254237e-06,
"loss": 1.6183,
"step": 62
},
{
"epoch": 0.21,
"grad_norm": 4.84375,
"learning_rate": 8.067796610169492e-06,
"loss": 1.4979,
"step": 63
},
{
"epoch": 0.21333333333333335,
"grad_norm": 4.5,
"learning_rate": 8.033898305084746e-06,
"loss": 1.5744,
"step": 64
},
{
"epoch": 0.21666666666666667,
"grad_norm": 3.96875,
"learning_rate": 8.000000000000001e-06,
"loss": 1.6422,
"step": 65
},
{
"epoch": 0.22,
"grad_norm": 3.9375,
"learning_rate": 7.966101694915255e-06,
"loss": 1.5238,
"step": 66
},
{
"epoch": 0.22333333333333333,
"grad_norm": 4.25,
"learning_rate": 7.93220338983051e-06,
"loss": 1.6447,
"step": 67
},
{
"epoch": 0.22666666666666666,
"grad_norm": 4.25,
"learning_rate": 7.898305084745764e-06,
"loss": 1.4478,
"step": 68
},
{
"epoch": 0.23,
"grad_norm": 4.3125,
"learning_rate": 7.864406779661017e-06,
"loss": 1.6503,
"step": 69
},
{
"epoch": 0.23333333333333334,
"grad_norm": 3.96875,
"learning_rate": 7.830508474576271e-06,
"loss": 1.5042,
"step": 70
},
{
"epoch": 0.23666666666666666,
"grad_norm": 4.0625,
"learning_rate": 7.796610169491526e-06,
"loss": 1.5016,
"step": 71
},
{
"epoch": 0.24,
"grad_norm": 3.875,
"learning_rate": 7.76271186440678e-06,
"loss": 1.4985,
"step": 72
},
{
"epoch": 0.24333333333333335,
"grad_norm": 4.34375,
"learning_rate": 7.728813559322035e-06,
"loss": 1.5636,
"step": 73
},
{
"epoch": 0.24666666666666667,
"grad_norm": 3.796875,
"learning_rate": 7.694915254237289e-06,
"loss": 1.3601,
"step": 74
},
{
"epoch": 0.25,
"grad_norm": 4.09375,
"learning_rate": 7.661016949152543e-06,
"loss": 1.4946,
"step": 75
},
{
"epoch": 0.25333333333333335,
"grad_norm": 4.65625,
"learning_rate": 7.627118644067797e-06,
"loss": 1.7191,
"step": 76
},
{
"epoch": 0.25666666666666665,
"grad_norm": 4.21875,
"learning_rate": 7.5932203389830515e-06,
"loss": 1.5483,
"step": 77
},
{
"epoch": 0.26,
"grad_norm": 4.28125,
"learning_rate": 7.559322033898305e-06,
"loss": 1.3494,
"step": 78
},
{
"epoch": 0.2633333333333333,
"grad_norm": 3.921875,
"learning_rate": 7.52542372881356e-06,
"loss": 1.4155,
"step": 79
},
{
"epoch": 0.26666666666666666,
"grad_norm": 4.4375,
"learning_rate": 7.491525423728814e-06,
"loss": 1.5193,
"step": 80
},
{
"epoch": 0.27,
"grad_norm": 4.15625,
"learning_rate": 7.4576271186440685e-06,
"loss": 1.4973,
"step": 81
},
{
"epoch": 0.2733333333333333,
"grad_norm": 4.0625,
"learning_rate": 7.423728813559322e-06,
"loss": 1.5075,
"step": 82
},
{
"epoch": 0.27666666666666667,
"grad_norm": 4.25,
"learning_rate": 7.3898305084745766e-06,
"loss": 1.5202,
"step": 83
},
{
"epoch": 0.28,
"grad_norm": 4.15625,
"learning_rate": 7.355932203389831e-06,
"loss": 1.4973,
"step": 84
},
{
"epoch": 0.2833333333333333,
"grad_norm": 3.828125,
"learning_rate": 7.3220338983050855e-06,
"loss": 1.4074,
"step": 85
},
{
"epoch": 0.2866666666666667,
"grad_norm": 4.4375,
"learning_rate": 7.288135593220339e-06,
"loss": 1.579,
"step": 86
},
{
"epoch": 0.29,
"grad_norm": 3.9375,
"learning_rate": 7.2542372881355936e-06,
"loss": 1.4752,
"step": 87
},
{
"epoch": 0.29333333333333333,
"grad_norm": 4.125,
"learning_rate": 7.220338983050849e-06,
"loss": 1.5104,
"step": 88
},
{
"epoch": 0.2966666666666667,
"grad_norm": 4.375,
"learning_rate": 7.1864406779661025e-06,
"loss": 1.5197,
"step": 89
},
{
"epoch": 0.3,
"grad_norm": 4.25,
"learning_rate": 7.152542372881357e-06,
"loss": 1.5693,
"step": 90
},
{
"epoch": 0.30333333333333334,
"grad_norm": 4.0,
"learning_rate": 7.1186440677966106e-06,
"loss": 1.4537,
"step": 91
},
{
"epoch": 0.30666666666666664,
"grad_norm": 4.6875,
"learning_rate": 7.084745762711865e-06,
"loss": 1.4927,
"step": 92
},
{
"epoch": 0.31,
"grad_norm": 4.3125,
"learning_rate": 7.0508474576271195e-06,
"loss": 1.3798,
"step": 93
},
{
"epoch": 0.31333333333333335,
"grad_norm": 4.1875,
"learning_rate": 7.016949152542374e-06,
"loss": 1.4719,
"step": 94
},
{
"epoch": 0.31666666666666665,
"grad_norm": 4.125,
"learning_rate": 6.9830508474576275e-06,
"loss": 1.412,
"step": 95
},
{
"epoch": 0.32,
"grad_norm": 4.0625,
"learning_rate": 6.949152542372882e-06,
"loss": 1.5033,
"step": 96
},
{
"epoch": 0.3233333333333333,
"grad_norm": 3.8125,
"learning_rate": 6.915254237288136e-06,
"loss": 1.4595,
"step": 97
},
{
"epoch": 0.32666666666666666,
"grad_norm": 4.09375,
"learning_rate": 6.881355932203391e-06,
"loss": 1.436,
"step": 98
},
{
"epoch": 0.33,
"grad_norm": 4.1875,
"learning_rate": 6.8474576271186445e-06,
"loss": 1.4853,
"step": 99
},
{
"epoch": 0.3333333333333333,
"grad_norm": 4.78125,
"learning_rate": 6.813559322033899e-06,
"loss": 1.5119,
"step": 100
},
{
"epoch": 0.33666666666666667,
"grad_norm": 3.796875,
"learning_rate": 6.779661016949153e-06,
"loss": 1.2572,
"step": 101
},
{
"epoch": 0.34,
"grad_norm": 4.1875,
"learning_rate": 6.745762711864408e-06,
"loss": 1.3549,
"step": 102
},
{
"epoch": 0.3433333333333333,
"grad_norm": 4.40625,
"learning_rate": 6.7118644067796615e-06,
"loss": 1.5217,
"step": 103
},
{
"epoch": 0.3466666666666667,
"grad_norm": 4.34375,
"learning_rate": 6.677966101694916e-06,
"loss": 1.4363,
"step": 104
},
{
"epoch": 0.35,
"grad_norm": 4.25,
"learning_rate": 6.64406779661017e-06,
"loss": 1.5073,
"step": 105
},
{
"epoch": 0.35333333333333333,
"grad_norm": 4.125,
"learning_rate": 6.610169491525424e-06,
"loss": 1.4746,
"step": 106
},
{
"epoch": 0.3566666666666667,
"grad_norm": 4.46875,
"learning_rate": 6.576271186440678e-06,
"loss": 1.4716,
"step": 107
},
{
"epoch": 0.36,
"grad_norm": 4.625,
"learning_rate": 6.542372881355933e-06,
"loss": 1.4342,
"step": 108
},
{
"epoch": 0.36333333333333334,
"grad_norm": 4.15625,
"learning_rate": 6.508474576271187e-06,
"loss": 1.5372,
"step": 109
},
{
"epoch": 0.36666666666666664,
"grad_norm": 4.40625,
"learning_rate": 6.474576271186441e-06,
"loss": 1.4643,
"step": 110
},
{
"epoch": 0.37,
"grad_norm": 4.09375,
"learning_rate": 6.440677966101695e-06,
"loss": 1.4531,
"step": 111
},
{
"epoch": 0.37333333333333335,
"grad_norm": 3.875,
"learning_rate": 6.40677966101695e-06,
"loss": 1.3822,
"step": 112
},
{
"epoch": 0.37666666666666665,
"grad_norm": 4.21875,
"learning_rate": 6.372881355932204e-06,
"loss": 1.5035,
"step": 113
},
{
"epoch": 0.38,
"grad_norm": 4.28125,
"learning_rate": 6.338983050847458e-06,
"loss": 1.4183,
"step": 114
},
{
"epoch": 0.38333333333333336,
"grad_norm": 4.125,
"learning_rate": 6.3050847457627125e-06,
"loss": 1.5141,
"step": 115
},
{
"epoch": 0.38666666666666666,
"grad_norm": 4.1875,
"learning_rate": 6.271186440677966e-06,
"loss": 1.4144,
"step": 116
},
{
"epoch": 0.39,
"grad_norm": 4.15625,
"learning_rate": 6.2372881355932215e-06,
"loss": 1.5618,
"step": 117
},
{
"epoch": 0.3933333333333333,
"grad_norm": 4.1875,
"learning_rate": 6.203389830508475e-06,
"loss": 1.4865,
"step": 118
},
{
"epoch": 0.39666666666666667,
"grad_norm": 4.09375,
"learning_rate": 6.1694915254237295e-06,
"loss": 1.6013,
"step": 119
},
{
"epoch": 0.4,
"grad_norm": 4.03125,
"learning_rate": 6.135593220338983e-06,
"loss": 1.4803,
"step": 120
},
{
"epoch": 0.4033333333333333,
"grad_norm": 4.28125,
"learning_rate": 6.1016949152542385e-06,
"loss": 1.6285,
"step": 121
},
{
"epoch": 0.4066666666666667,
"grad_norm": 3.9375,
"learning_rate": 6.067796610169492e-06,
"loss": 1.4371,
"step": 122
},
{
"epoch": 0.41,
"grad_norm": 3.8125,
"learning_rate": 6.0338983050847465e-06,
"loss": 1.3438,
"step": 123
},
{
"epoch": 0.41333333333333333,
"grad_norm": 3.890625,
"learning_rate": 6e-06,
"loss": 1.421,
"step": 124
},
{
"epoch": 0.4166666666666667,
"grad_norm": 4.125,
"learning_rate": 5.9661016949152555e-06,
"loss": 1.6043,
"step": 125
},
{
"epoch": 0.42,
"grad_norm": 3.8125,
"learning_rate": 5.932203389830509e-06,
"loss": 1.4764,
"step": 126
},
{
"epoch": 0.42333333333333334,
"grad_norm": 3.90625,
"learning_rate": 5.8983050847457635e-06,
"loss": 1.4251,
"step": 127
},
{
"epoch": 0.4266666666666667,
"grad_norm": 4.3125,
"learning_rate": 5.864406779661017e-06,
"loss": 1.5897,
"step": 128
},
{
"epoch": 0.43,
"grad_norm": 4.375,
"learning_rate": 5.830508474576272e-06,
"loss": 1.5126,
"step": 129
},
{
"epoch": 0.43333333333333335,
"grad_norm": 4.59375,
"learning_rate": 5.796610169491525e-06,
"loss": 1.5371,
"step": 130
},
{
"epoch": 0.43666666666666665,
"grad_norm": 3.875,
"learning_rate": 5.7627118644067805e-06,
"loss": 1.495,
"step": 131
},
{
"epoch": 0.44,
"grad_norm": 3.96875,
"learning_rate": 5.728813559322034e-06,
"loss": 1.4817,
"step": 132
},
{
"epoch": 0.44333333333333336,
"grad_norm": 4.1875,
"learning_rate": 5.694915254237289e-06,
"loss": 1.4639,
"step": 133
},
{
"epoch": 0.44666666666666666,
"grad_norm": 3.890625,
"learning_rate": 5.661016949152542e-06,
"loss": 1.4762,
"step": 134
},
{
"epoch": 0.45,
"grad_norm": 3.875,
"learning_rate": 5.6271186440677975e-06,
"loss": 1.4693,
"step": 135
},
{
"epoch": 0.4533333333333333,
"grad_norm": 4.40625,
"learning_rate": 5.593220338983051e-06,
"loss": 1.5129,
"step": 136
},
{
"epoch": 0.45666666666666667,
"grad_norm": 3.859375,
"learning_rate": 5.559322033898306e-06,
"loss": 1.5252,
"step": 137
},
{
"epoch": 0.46,
"grad_norm": 4.0625,
"learning_rate": 5.525423728813559e-06,
"loss": 1.4806,
"step": 138
},
{
"epoch": 0.4633333333333333,
"grad_norm": 3.90625,
"learning_rate": 5.491525423728814e-06,
"loss": 1.4742,
"step": 139
},
{
"epoch": 0.4666666666666667,
"grad_norm": 4.21875,
"learning_rate": 5.457627118644067e-06,
"loss": 1.4053,
"step": 140
},
{
"epoch": 0.47,
"grad_norm": 4.46875,
"learning_rate": 5.423728813559323e-06,
"loss": 1.4313,
"step": 141
},
{
"epoch": 0.47333333333333333,
"grad_norm": 3.765625,
"learning_rate": 5.389830508474577e-06,
"loss": 1.4895,
"step": 142
},
{
"epoch": 0.4766666666666667,
"grad_norm": 3.90625,
"learning_rate": 5.355932203389831e-06,
"loss": 1.3679,
"step": 143
},
{
"epoch": 0.48,
"grad_norm": 3.796875,
"learning_rate": 5.322033898305086e-06,
"loss": 1.5002,
"step": 144
},
{
"epoch": 0.48333333333333334,
"grad_norm": 4.0625,
"learning_rate": 5.28813559322034e-06,
"loss": 1.4507,
"step": 145
},
{
"epoch": 0.4866666666666667,
"grad_norm": 4.21875,
"learning_rate": 5.254237288135594e-06,
"loss": 1.4539,
"step": 146
},
{
"epoch": 0.49,
"grad_norm": 4.0625,
"learning_rate": 5.220338983050848e-06,
"loss": 1.457,
"step": 147
},
{
"epoch": 0.49333333333333335,
"grad_norm": 4.40625,
"learning_rate": 5.186440677966102e-06,
"loss": 1.5808,
"step": 148
},
{
"epoch": 0.49666666666666665,
"grad_norm": 4.125,
"learning_rate": 5.152542372881356e-06,
"loss": 1.463,
"step": 149
},
{
"epoch": 0.5,
"grad_norm": 4.25,
"learning_rate": 5.118644067796611e-06,
"loss": 1.5309,
"step": 150
},
{
"epoch": 0.5033333333333333,
"grad_norm": 4.1875,
"learning_rate": 5.084745762711865e-06,
"loss": 1.4724,
"step": 151
},
{
"epoch": 0.5066666666666667,
"grad_norm": 4.25,
"learning_rate": 5.050847457627119e-06,
"loss": 1.4349,
"step": 152
},
{
"epoch": 0.51,
"grad_norm": 4.75,
"learning_rate": 5.016949152542373e-06,
"loss": 1.5545,
"step": 153
},
{
"epoch": 0.5133333333333333,
"grad_norm": 3.90625,
"learning_rate": 4.983050847457628e-06,
"loss": 1.4974,
"step": 154
},
{
"epoch": 0.5166666666666667,
"grad_norm": 3.890625,
"learning_rate": 4.949152542372882e-06,
"loss": 1.3883,
"step": 155
},
{
"epoch": 0.52,
"grad_norm": 4.375,
"learning_rate": 4.915254237288136e-06,
"loss": 1.4869,
"step": 156
},
{
"epoch": 0.5233333333333333,
"grad_norm": 4.15625,
"learning_rate": 4.881355932203391e-06,
"loss": 1.3436,
"step": 157
},
{
"epoch": 0.5266666666666666,
"grad_norm": 4.4375,
"learning_rate": 4.847457627118645e-06,
"loss": 1.455,
"step": 158
},
{
"epoch": 0.53,
"grad_norm": 4.09375,
"learning_rate": 4.813559322033899e-06,
"loss": 1.2667,
"step": 159
},
{
"epoch": 0.5333333333333333,
"grad_norm": 3.96875,
"learning_rate": 4.779661016949153e-06,
"loss": 1.3545,
"step": 160
},
{
"epoch": 0.5366666666666666,
"grad_norm": 4.1875,
"learning_rate": 4.745762711864408e-06,
"loss": 1.5189,
"step": 161
},
{
"epoch": 0.54,
"grad_norm": 4.15625,
"learning_rate": 4.711864406779661e-06,
"loss": 1.4737,
"step": 162
},
{
"epoch": 0.5433333333333333,
"grad_norm": 4.15625,
"learning_rate": 4.677966101694916e-06,
"loss": 1.4276,
"step": 163
},
{
"epoch": 0.5466666666666666,
"grad_norm": 3.90625,
"learning_rate": 4.64406779661017e-06,
"loss": 1.3469,
"step": 164
},
{
"epoch": 0.55,
"grad_norm": 4.40625,
"learning_rate": 4.610169491525424e-06,
"loss": 1.5089,
"step": 165
},
{
"epoch": 0.5533333333333333,
"grad_norm": 4.03125,
"learning_rate": 4.576271186440678e-06,
"loss": 1.4037,
"step": 166
},
{
"epoch": 0.5566666666666666,
"grad_norm": 4.21875,
"learning_rate": 4.542372881355933e-06,
"loss": 1.5043,
"step": 167
},
{
"epoch": 0.56,
"grad_norm": 4.21875,
"learning_rate": 4.508474576271187e-06,
"loss": 1.4458,
"step": 168
},
{
"epoch": 0.5633333333333334,
"grad_norm": 4.15625,
"learning_rate": 4.474576271186441e-06,
"loss": 1.4375,
"step": 169
},
{
"epoch": 0.5666666666666667,
"grad_norm": 4.28125,
"learning_rate": 4.440677966101695e-06,
"loss": 1.5157,
"step": 170
},
{
"epoch": 0.57,
"grad_norm": 4.84375,
"learning_rate": 4.40677966101695e-06,
"loss": 1.6873,
"step": 171
},
{
"epoch": 0.5733333333333334,
"grad_norm": 3.90625,
"learning_rate": 4.372881355932203e-06,
"loss": 1.4512,
"step": 172
},
{
"epoch": 0.5766666666666667,
"grad_norm": 3.796875,
"learning_rate": 4.338983050847458e-06,
"loss": 1.496,
"step": 173
},
{
"epoch": 0.58,
"grad_norm": 4.21875,
"learning_rate": 4.305084745762712e-06,
"loss": 1.5529,
"step": 174
},
{
"epoch": 0.5833333333333334,
"grad_norm": 4.03125,
"learning_rate": 4.271186440677967e-06,
"loss": 1.5254,
"step": 175
},
{
"epoch": 0.5866666666666667,
"grad_norm": 4.0,
"learning_rate": 4.23728813559322e-06,
"loss": 1.4447,
"step": 176
},
{
"epoch": 0.59,
"grad_norm": 4.3125,
"learning_rate": 4.203389830508475e-06,
"loss": 1.4786,
"step": 177
},
{
"epoch": 0.5933333333333334,
"grad_norm": 3.84375,
"learning_rate": 4.169491525423729e-06,
"loss": 1.469,
"step": 178
},
{
"epoch": 0.5966666666666667,
"grad_norm": 4.21875,
"learning_rate": 4.135593220338983e-06,
"loss": 1.4858,
"step": 179
},
{
"epoch": 0.6,
"grad_norm": 4.21875,
"learning_rate": 4.101694915254237e-06,
"loss": 1.3881,
"step": 180
},
{
"epoch": 0.6033333333333334,
"grad_norm": 4.96875,
"learning_rate": 4.067796610169492e-06,
"loss": 1.4489,
"step": 181
},
{
"epoch": 0.6066666666666667,
"grad_norm": 4.03125,
"learning_rate": 4.033898305084746e-06,
"loss": 1.384,
"step": 182
},
{
"epoch": 0.61,
"grad_norm": 4.09375,
"learning_rate": 4.000000000000001e-06,
"loss": 1.4689,
"step": 183
},
{
"epoch": 0.6133333333333333,
"grad_norm": 3.8125,
"learning_rate": 3.966101694915255e-06,
"loss": 1.4409,
"step": 184
},
{
"epoch": 0.6166666666666667,
"grad_norm": 3.9375,
"learning_rate": 3.932203389830509e-06,
"loss": 1.3626,
"step": 185
},
{
"epoch": 0.62,
"grad_norm": 4.0625,
"learning_rate": 3.898305084745763e-06,
"loss": 1.3602,
"step": 186
},
{
"epoch": 0.6233333333333333,
"grad_norm": 4.0625,
"learning_rate": 3.864406779661018e-06,
"loss": 1.4524,
"step": 187
},
{
"epoch": 0.6266666666666667,
"grad_norm": 4.28125,
"learning_rate": 3.830508474576271e-06,
"loss": 1.4622,
"step": 188
},
{
"epoch": 0.63,
"grad_norm": 4.25,
"learning_rate": 3.7966101694915257e-06,
"loss": 1.4153,
"step": 189
},
{
"epoch": 0.6333333333333333,
"grad_norm": 4.1875,
"learning_rate": 3.76271186440678e-06,
"loss": 1.4726,
"step": 190
},
{
"epoch": 0.6366666666666667,
"grad_norm": 4.09375,
"learning_rate": 3.7288135593220342e-06,
"loss": 1.4515,
"step": 191
},
{
"epoch": 0.64,
"grad_norm": 4.21875,
"learning_rate": 3.6949152542372883e-06,
"loss": 1.4105,
"step": 192
},
{
"epoch": 0.6433333333333333,
"grad_norm": 4.125,
"learning_rate": 3.6610169491525427e-06,
"loss": 1.4322,
"step": 193
},
{
"epoch": 0.6466666666666666,
"grad_norm": 4.28125,
"learning_rate": 3.6271186440677968e-06,
"loss": 1.3477,
"step": 194
},
{
"epoch": 0.65,
"grad_norm": 3.84375,
"learning_rate": 3.5932203389830512e-06,
"loss": 1.3881,
"step": 195
},
{
"epoch": 0.6533333333333333,
"grad_norm": 4.15625,
"learning_rate": 3.5593220338983053e-06,
"loss": 1.4578,
"step": 196
},
{
"epoch": 0.6566666666666666,
"grad_norm": 4.09375,
"learning_rate": 3.5254237288135597e-06,
"loss": 1.4672,
"step": 197
},
{
"epoch": 0.66,
"grad_norm": 3.90625,
"learning_rate": 3.4915254237288138e-06,
"loss": 1.4233,
"step": 198
},
{
"epoch": 0.6633333333333333,
"grad_norm": 4.09375,
"learning_rate": 3.457627118644068e-06,
"loss": 1.3637,
"step": 199
},
{
"epoch": 0.6666666666666666,
"grad_norm": 4.625,
"learning_rate": 3.4237288135593223e-06,
"loss": 1.5333,
"step": 200
},
{
"epoch": 0.67,
"grad_norm": 4.125,
"learning_rate": 3.3898305084745763e-06,
"loss": 1.362,
"step": 201
},
{
"epoch": 0.6733333333333333,
"grad_norm": 4.34375,
"learning_rate": 3.3559322033898308e-06,
"loss": 1.5358,
"step": 202
},
{
"epoch": 0.6766666666666666,
"grad_norm": 4.25,
"learning_rate": 3.322033898305085e-06,
"loss": 1.4072,
"step": 203
},
{
"epoch": 0.68,
"grad_norm": 3.90625,
"learning_rate": 3.288135593220339e-06,
"loss": 1.3009,
"step": 204
},
{
"epoch": 0.6833333333333333,
"grad_norm": 4.28125,
"learning_rate": 3.2542372881355933e-06,
"loss": 1.3679,
"step": 205
},
{
"epoch": 0.6866666666666666,
"grad_norm": 4.40625,
"learning_rate": 3.2203389830508473e-06,
"loss": 1.3934,
"step": 206
},
{
"epoch": 0.69,
"grad_norm": 4.40625,
"learning_rate": 3.186440677966102e-06,
"loss": 1.5645,
"step": 207
},
{
"epoch": 0.6933333333333334,
"grad_norm": 4.03125,
"learning_rate": 3.1525423728813563e-06,
"loss": 1.4212,
"step": 208
},
{
"epoch": 0.6966666666666667,
"grad_norm": 4.15625,
"learning_rate": 3.1186440677966107e-06,
"loss": 1.411,
"step": 209
},
{
"epoch": 0.7,
"grad_norm": 4.40625,
"learning_rate": 3.0847457627118648e-06,
"loss": 1.4473,
"step": 210
},
{
"epoch": 0.7033333333333334,
"grad_norm": 4.0625,
"learning_rate": 3.0508474576271192e-06,
"loss": 1.2711,
"step": 211
},
{
"epoch": 0.7066666666666667,
"grad_norm": 3.875,
"learning_rate": 3.0169491525423733e-06,
"loss": 1.489,
"step": 212
},
{
"epoch": 0.71,
"grad_norm": 4.0625,
"learning_rate": 2.9830508474576277e-06,
"loss": 1.4551,
"step": 213
},
{
"epoch": 0.7133333333333334,
"grad_norm": 4.0625,
"learning_rate": 2.9491525423728818e-06,
"loss": 1.3449,
"step": 214
},
{
"epoch": 0.7166666666666667,
"grad_norm": 4.15625,
"learning_rate": 2.915254237288136e-06,
"loss": 1.2706,
"step": 215
},
{
"epoch": 0.72,
"grad_norm": 4.15625,
"learning_rate": 2.8813559322033903e-06,
"loss": 1.4557,
"step": 216
},
{
"epoch": 0.7233333333333334,
"grad_norm": 4.375,
"learning_rate": 2.8474576271186443e-06,
"loss": 1.3188,
"step": 217
},
{
"epoch": 0.7266666666666667,
"grad_norm": 4.03125,
"learning_rate": 2.8135593220338988e-06,
"loss": 1.2864,
"step": 218
},
{
"epoch": 0.73,
"grad_norm": 3.96875,
"learning_rate": 2.779661016949153e-06,
"loss": 1.3907,
"step": 219
},
{
"epoch": 0.7333333333333333,
"grad_norm": 3.875,
"learning_rate": 2.745762711864407e-06,
"loss": 1.37,
"step": 220
},
{
"epoch": 0.7366666666666667,
"grad_norm": 4.21875,
"learning_rate": 2.7118644067796613e-06,
"loss": 1.4307,
"step": 221
},
{
"epoch": 0.74,
"grad_norm": 4.0625,
"learning_rate": 2.6779661016949153e-06,
"loss": 1.3938,
"step": 222
},
{
"epoch": 0.7433333333333333,
"grad_norm": 4.0,
"learning_rate": 2.64406779661017e-06,
"loss": 1.486,
"step": 223
},
{
"epoch": 0.7466666666666667,
"grad_norm": 4.0,
"learning_rate": 2.610169491525424e-06,
"loss": 1.3494,
"step": 224
},
{
"epoch": 0.75,
"grad_norm": 4.0625,
"learning_rate": 2.576271186440678e-06,
"loss": 1.408,
"step": 225
},
{
"epoch": 0.7533333333333333,
"grad_norm": 3.828125,
"learning_rate": 2.5423728813559323e-06,
"loss": 1.4102,
"step": 226
},
{
"epoch": 0.7566666666666667,
"grad_norm": 3.90625,
"learning_rate": 2.5084745762711864e-06,
"loss": 1.4117,
"step": 227
},
{
"epoch": 0.76,
"grad_norm": 3.921875,
"learning_rate": 2.474576271186441e-06,
"loss": 1.3508,
"step": 228
},
{
"epoch": 0.7633333333333333,
"grad_norm": 4.3125,
"learning_rate": 2.4406779661016953e-06,
"loss": 1.405,
"step": 229
},
{
"epoch": 0.7666666666666667,
"grad_norm": 4.46875,
"learning_rate": 2.4067796610169493e-06,
"loss": 1.5566,
"step": 230
},
{
"epoch": 0.77,
"grad_norm": 3.90625,
"learning_rate": 2.372881355932204e-06,
"loss": 1.4346,
"step": 231
},
{
"epoch": 0.7733333333333333,
"grad_norm": 4.0,
"learning_rate": 2.338983050847458e-06,
"loss": 1.3959,
"step": 232
},
{
"epoch": 0.7766666666666666,
"grad_norm": 4.8125,
"learning_rate": 2.305084745762712e-06,
"loss": 1.5955,
"step": 233
},
{
"epoch": 0.78,
"grad_norm": 4.28125,
"learning_rate": 2.2711864406779663e-06,
"loss": 1.4623,
"step": 234
},
{
"epoch": 0.7833333333333333,
"grad_norm": 3.90625,
"learning_rate": 2.2372881355932204e-06,
"loss": 1.3969,
"step": 235
},
{
"epoch": 0.7866666666666666,
"grad_norm": 4.1875,
"learning_rate": 2.203389830508475e-06,
"loss": 1.5244,
"step": 236
},
{
"epoch": 0.79,
"grad_norm": 4.03125,
"learning_rate": 2.169491525423729e-06,
"loss": 1.3434,
"step": 237
},
{
"epoch": 0.7933333333333333,
"grad_norm": 4.15625,
"learning_rate": 2.1355932203389833e-06,
"loss": 1.405,
"step": 238
},
{
"epoch": 0.7966666666666666,
"grad_norm": 4.40625,
"learning_rate": 2.1016949152542374e-06,
"loss": 1.4841,
"step": 239
},
{
"epoch": 0.8,
"grad_norm": 3.9375,
"learning_rate": 2.0677966101694914e-06,
"loss": 1.3963,
"step": 240
},
{
"epoch": 0.8033333333333333,
"grad_norm": 4.25,
"learning_rate": 2.033898305084746e-06,
"loss": 1.3759,
"step": 241
},
{
"epoch": 0.8066666666666666,
"grad_norm": 4.25,
"learning_rate": 2.0000000000000003e-06,
"loss": 1.5666,
"step": 242
},
{
"epoch": 0.81,
"grad_norm": 3.984375,
"learning_rate": 1.9661016949152544e-06,
"loss": 1.3935,
"step": 243
},
{
"epoch": 0.8133333333333334,
"grad_norm": 3.90625,
"learning_rate": 1.932203389830509e-06,
"loss": 1.3719,
"step": 244
},
{
"epoch": 0.8166666666666667,
"grad_norm": 3.9375,
"learning_rate": 1.8983050847457629e-06,
"loss": 1.3638,
"step": 245
},
{
"epoch": 0.82,
"grad_norm": 3.875,
"learning_rate": 1.8644067796610171e-06,
"loss": 1.3744,
"step": 246
},
{
"epoch": 0.8233333333333334,
"grad_norm": 4.375,
"learning_rate": 1.8305084745762714e-06,
"loss": 1.519,
"step": 247
},
{
"epoch": 0.8266666666666667,
"grad_norm": 3.9375,
"learning_rate": 1.7966101694915256e-06,
"loss": 1.4056,
"step": 248
},
{
"epoch": 0.83,
"grad_norm": 4.28125,
"learning_rate": 1.7627118644067799e-06,
"loss": 1.4425,
"step": 249
},
{
"epoch": 0.8333333333333334,
"grad_norm": 3.921875,
"learning_rate": 1.728813559322034e-06,
"loss": 1.3869,
"step": 250
},
{
"epoch": 0.8366666666666667,
"grad_norm": 4.09375,
"learning_rate": 1.6949152542372882e-06,
"loss": 1.4469,
"step": 251
},
{
"epoch": 0.84,
"grad_norm": 4.25,
"learning_rate": 1.6610169491525424e-06,
"loss": 1.4746,
"step": 252
},
{
"epoch": 0.8433333333333334,
"grad_norm": 4.09375,
"learning_rate": 1.6271186440677967e-06,
"loss": 1.3844,
"step": 253
},
{
"epoch": 0.8466666666666667,
"grad_norm": 3.9375,
"learning_rate": 1.593220338983051e-06,
"loss": 1.3991,
"step": 254
},
{
"epoch": 0.85,
"grad_norm": 3.90625,
"learning_rate": 1.5593220338983054e-06,
"loss": 1.311,
"step": 255
},
{
"epoch": 0.8533333333333334,
"grad_norm": 4.25,
"learning_rate": 1.5254237288135596e-06,
"loss": 1.434,
"step": 256
},
{
"epoch": 0.8566666666666667,
"grad_norm": 4.1875,
"learning_rate": 1.4915254237288139e-06,
"loss": 1.3533,
"step": 257
},
{
"epoch": 0.86,
"grad_norm": 4.09375,
"learning_rate": 1.457627118644068e-06,
"loss": 1.4461,
"step": 258
},
{
"epoch": 0.8633333333333333,
"grad_norm": 3.875,
"learning_rate": 1.4237288135593222e-06,
"loss": 1.3561,
"step": 259
},
{
"epoch": 0.8666666666666667,
"grad_norm": 3.875,
"learning_rate": 1.3898305084745764e-06,
"loss": 1.3299,
"step": 260
},
{
"epoch": 0.87,
"grad_norm": 3.90625,
"learning_rate": 1.3559322033898307e-06,
"loss": 1.4657,
"step": 261
},
{
"epoch": 0.8733333333333333,
"grad_norm": 3.84375,
"learning_rate": 1.322033898305085e-06,
"loss": 1.3476,
"step": 262
},
{
"epoch": 0.8766666666666667,
"grad_norm": 4.21875,
"learning_rate": 1.288135593220339e-06,
"loss": 1.3698,
"step": 263
},
{
"epoch": 0.88,
"grad_norm": 4.3125,
"learning_rate": 1.2542372881355932e-06,
"loss": 1.4458,
"step": 264
},
{
"epoch": 0.8833333333333333,
"grad_norm": 4.53125,
"learning_rate": 1.2203389830508477e-06,
"loss": 1.51,
"step": 265
},
{
"epoch": 0.8866666666666667,
"grad_norm": 4.1875,
"learning_rate": 1.186440677966102e-06,
"loss": 1.4639,
"step": 266
},
{
"epoch": 0.89,
"grad_norm": 4.28125,
"learning_rate": 1.152542372881356e-06,
"loss": 1.4103,
"step": 267
},
{
"epoch": 0.8933333333333333,
"grad_norm": 4.125,
"learning_rate": 1.1186440677966102e-06,
"loss": 1.4097,
"step": 268
},
{
"epoch": 0.8966666666666666,
"grad_norm": 4.09375,
"learning_rate": 1.0847457627118644e-06,
"loss": 1.3485,
"step": 269
},
{
"epoch": 0.9,
"grad_norm": 4.21875,
"learning_rate": 1.0508474576271187e-06,
"loss": 1.356,
"step": 270
},
{
"epoch": 0.9033333333333333,
"grad_norm": 4.25,
"learning_rate": 1.016949152542373e-06,
"loss": 1.5184,
"step": 271
},
{
"epoch": 0.9066666666666666,
"grad_norm": 4.21875,
"learning_rate": 9.830508474576272e-07,
"loss": 1.463,
"step": 272
},
{
"epoch": 0.91,
"grad_norm": 4.09375,
"learning_rate": 9.491525423728814e-07,
"loss": 1.4556,
"step": 273
},
{
"epoch": 0.9133333333333333,
"grad_norm": 4.5625,
"learning_rate": 9.152542372881357e-07,
"loss": 1.5922,
"step": 274
},
{
"epoch": 0.9166666666666666,
"grad_norm": 4.25,
"learning_rate": 8.813559322033899e-07,
"loss": 1.385,
"step": 275
},
{
"epoch": 0.92,
"grad_norm": 3.78125,
"learning_rate": 8.474576271186441e-07,
"loss": 1.2688,
"step": 276
},
{
"epoch": 0.9233333333333333,
"grad_norm": 3.9375,
"learning_rate": 8.135593220338983e-07,
"loss": 1.3548,
"step": 277
},
{
"epoch": 0.9266666666666666,
"grad_norm": 4.09375,
"learning_rate": 7.796610169491527e-07,
"loss": 1.304,
"step": 278
},
{
"epoch": 0.93,
"grad_norm": 4.4375,
"learning_rate": 7.457627118644069e-07,
"loss": 1.581,
"step": 279
},
{
"epoch": 0.9333333333333333,
"grad_norm": 4.125,
"learning_rate": 7.118644067796611e-07,
"loss": 1.4101,
"step": 280
},
{
"epoch": 0.9366666666666666,
"grad_norm": 4.375,
"learning_rate": 6.779661016949153e-07,
"loss": 1.4268,
"step": 281
},
{
"epoch": 0.94,
"grad_norm": 4.0,
"learning_rate": 6.440677966101695e-07,
"loss": 1.3534,
"step": 282
},
{
"epoch": 0.9433333333333334,
"grad_norm": 4.0,
"learning_rate": 6.101694915254238e-07,
"loss": 1.3912,
"step": 283
},
{
"epoch": 0.9466666666666667,
"grad_norm": 4.3125,
"learning_rate": 5.76271186440678e-07,
"loss": 1.5671,
"step": 284
},
{
"epoch": 0.95,
"grad_norm": 4.0625,
"learning_rate": 5.423728813559322e-07,
"loss": 1.4265,
"step": 285
},
{
"epoch": 0.9533333333333334,
"grad_norm": 3.953125,
"learning_rate": 5.084745762711865e-07,
"loss": 1.3331,
"step": 286
},
{
"epoch": 0.9566666666666667,
"grad_norm": 4.3125,
"learning_rate": 4.745762711864407e-07,
"loss": 1.5631,
"step": 287
},
{
"epoch": 0.96,
"grad_norm": 4.46875,
"learning_rate": 4.4067796610169497e-07,
"loss": 1.5866,
"step": 288
},
{
"epoch": 0.9633333333333334,
"grad_norm": 4.875,
"learning_rate": 4.0677966101694916e-07,
"loss": 1.5228,
"step": 289
},
{
"epoch": 0.9666666666666667,
"grad_norm": 4.3125,
"learning_rate": 3.7288135593220347e-07,
"loss": 1.4163,
"step": 290
},
{
"epoch": 0.97,
"grad_norm": 4.125,
"learning_rate": 3.3898305084745766e-07,
"loss": 1.418,
"step": 291
},
{
"epoch": 0.9733333333333334,
"grad_norm": 4.1875,
"learning_rate": 3.050847457627119e-07,
"loss": 1.4504,
"step": 292
},
{
"epoch": 0.9766666666666667,
"grad_norm": 3.96875,
"learning_rate": 2.711864406779661e-07,
"loss": 1.4671,
"step": 293
},
{
"epoch": 0.98,
"grad_norm": 3.90625,
"learning_rate": 2.3728813559322036e-07,
"loss": 1.3604,
"step": 294
},
{
"epoch": 0.9833333333333333,
"grad_norm": 4.0,
"learning_rate": 2.0338983050847458e-07,
"loss": 1.3756,
"step": 295
},
{
"epoch": 0.9866666666666667,
"grad_norm": 4.28125,
"learning_rate": 1.6949152542372883e-07,
"loss": 1.4629,
"step": 296
},
{
"epoch": 0.99,
"grad_norm": 4.1875,
"learning_rate": 1.3559322033898305e-07,
"loss": 1.4569,
"step": 297
},
{
"epoch": 0.9933333333333333,
"grad_norm": 4.03125,
"learning_rate": 1.0169491525423729e-07,
"loss": 1.4611,
"step": 298
},
{
"epoch": 0.9966666666666667,
"grad_norm": 4.625,
"learning_rate": 6.779661016949153e-08,
"loss": 1.3683,
"step": 299
},
{
"epoch": 1.0,
"grad_norm": 3.96875,
"learning_rate": 3.3898305084745764e-08,
"loss": 1.3875,
"step": 300
}
],
"logging_steps": 1,
"max_steps": 300,
"num_input_tokens_seen": 0,
"num_train_epochs": 1,
"save_steps": 5000,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 2.070387224827085e+16,
"train_batch_size": 2,
"trial_name": null,
"trial_params": null
}