2135 lines
46 KiB
JSON
2135 lines
46 KiB
JSON
|
|
{
|
||
|
|
"best_global_step": null,
|
||
|
|
"best_metric": null,
|
||
|
|
"best_model_checkpoint": null,
|
||
|
|
"epoch": 1.0,
|
||
|
|
"eval_steps": 500,
|
||
|
|
"global_step": 300,
|
||
|
|
"is_hyper_param_search": false,
|
||
|
|
"is_local_process_zero": true,
|
||
|
|
"is_world_process_zero": true,
|
||
|
|
"log_history": [
|
||
|
|
{
|
||
|
|
"epoch": 0.0033333333333333335,
|
||
|
|
"grad_norm": 25.75,
|
||
|
|
"learning_rate": 0.0,
|
||
|
|
"loss": 3.7013,
|
||
|
|
"step": 1
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.006666666666666667,
|
||
|
|
"grad_norm": 24.0,
|
||
|
|
"learning_rate": 2.0000000000000003e-06,
|
||
|
|
"loss": 3.7518,
|
||
|
|
"step": 2
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.01,
|
||
|
|
"grad_norm": 24.5,
|
||
|
|
"learning_rate": 4.000000000000001e-06,
|
||
|
|
"loss": 3.7297,
|
||
|
|
"step": 3
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.013333333333333334,
|
||
|
|
"grad_norm": 23.25,
|
||
|
|
"learning_rate": 6e-06,
|
||
|
|
"loss": 3.7034,
|
||
|
|
"step": 4
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.016666666666666666,
|
||
|
|
"grad_norm": 22.0,
|
||
|
|
"learning_rate": 8.000000000000001e-06,
|
||
|
|
"loss": 3.4563,
|
||
|
|
"step": 5
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.02,
|
||
|
|
"grad_norm": 18.0,
|
||
|
|
"learning_rate": 1e-05,
|
||
|
|
"loss": 3.2412,
|
||
|
|
"step": 6
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.023333333333333334,
|
||
|
|
"grad_norm": 14.3125,
|
||
|
|
"learning_rate": 9.966101694915256e-06,
|
||
|
|
"loss": 2.9037,
|
||
|
|
"step": 7
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.02666666666666667,
|
||
|
|
"grad_norm": 11.0,
|
||
|
|
"learning_rate": 9.93220338983051e-06,
|
||
|
|
"loss": 2.7721,
|
||
|
|
"step": 8
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.03,
|
||
|
|
"grad_norm": 9.875,
|
||
|
|
"learning_rate": 9.898305084745763e-06,
|
||
|
|
"loss": 2.4879,
|
||
|
|
"step": 9
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.03333333333333333,
|
||
|
|
"grad_norm": 8.125,
|
||
|
|
"learning_rate": 9.864406779661017e-06,
|
||
|
|
"loss": 2.3858,
|
||
|
|
"step": 10
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.03666666666666667,
|
||
|
|
"grad_norm": 6.65625,
|
||
|
|
"learning_rate": 9.830508474576272e-06,
|
||
|
|
"loss": 2.2414,
|
||
|
|
"step": 11
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.04,
|
||
|
|
"grad_norm": 6.5,
|
||
|
|
"learning_rate": 9.796610169491526e-06,
|
||
|
|
"loss": 2.3872,
|
||
|
|
"step": 12
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.043333333333333335,
|
||
|
|
"grad_norm": 6.125,
|
||
|
|
"learning_rate": 9.762711864406781e-06,
|
||
|
|
"loss": 2.2477,
|
||
|
|
"step": 13
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.04666666666666667,
|
||
|
|
"grad_norm": 5.90625,
|
||
|
|
"learning_rate": 9.728813559322035e-06,
|
||
|
|
"loss": 2.1758,
|
||
|
|
"step": 14
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.05,
|
||
|
|
"grad_norm": 5.9375,
|
||
|
|
"learning_rate": 9.69491525423729e-06,
|
||
|
|
"loss": 2.2908,
|
||
|
|
"step": 15
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.05333333333333334,
|
||
|
|
"grad_norm": 5.28125,
|
||
|
|
"learning_rate": 9.661016949152544e-06,
|
||
|
|
"loss": 2.0323,
|
||
|
|
"step": 16
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.056666666666666664,
|
||
|
|
"grad_norm": 5.9375,
|
||
|
|
"learning_rate": 9.627118644067797e-06,
|
||
|
|
"loss": 1.9005,
|
||
|
|
"step": 17
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.06,
|
||
|
|
"grad_norm": 5.78125,
|
||
|
|
"learning_rate": 9.593220338983051e-06,
|
||
|
|
"loss": 2.0051,
|
||
|
|
"step": 18
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.06333333333333334,
|
||
|
|
"grad_norm": 6.1875,
|
||
|
|
"learning_rate": 9.559322033898306e-06,
|
||
|
|
"loss": 2.1265,
|
||
|
|
"step": 19
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.06666666666666667,
|
||
|
|
"grad_norm": 5.09375,
|
||
|
|
"learning_rate": 9.52542372881356e-06,
|
||
|
|
"loss": 1.808,
|
||
|
|
"step": 20
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.07,
|
||
|
|
"grad_norm": 4.875,
|
||
|
|
"learning_rate": 9.491525423728815e-06,
|
||
|
|
"loss": 1.8467,
|
||
|
|
"step": 21
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.07333333333333333,
|
||
|
|
"grad_norm": 4.84375,
|
||
|
|
"learning_rate": 9.457627118644069e-06,
|
||
|
|
"loss": 1.7663,
|
||
|
|
"step": 22
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.07666666666666666,
|
||
|
|
"grad_norm": 5.0625,
|
||
|
|
"learning_rate": 9.423728813559322e-06,
|
||
|
|
"loss": 1.8699,
|
||
|
|
"step": 23
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.08,
|
||
|
|
"grad_norm": 5.03125,
|
||
|
|
"learning_rate": 9.389830508474576e-06,
|
||
|
|
"loss": 1.6716,
|
||
|
|
"step": 24
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.08333333333333333,
|
||
|
|
"grad_norm": 4.84375,
|
||
|
|
"learning_rate": 9.355932203389831e-06,
|
||
|
|
"loss": 1.8555,
|
||
|
|
"step": 25
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.08666666666666667,
|
||
|
|
"grad_norm": 4.46875,
|
||
|
|
"learning_rate": 9.322033898305085e-06,
|
||
|
|
"loss": 1.7117,
|
||
|
|
"step": 26
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.09,
|
||
|
|
"grad_norm": 4.46875,
|
||
|
|
"learning_rate": 9.28813559322034e-06,
|
||
|
|
"loss": 1.5957,
|
||
|
|
"step": 27
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.09333333333333334,
|
||
|
|
"grad_norm": 4.8125,
|
||
|
|
"learning_rate": 9.254237288135594e-06,
|
||
|
|
"loss": 1.775,
|
||
|
|
"step": 28
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.09666666666666666,
|
||
|
|
"grad_norm": 4.65625,
|
||
|
|
"learning_rate": 9.220338983050847e-06,
|
||
|
|
"loss": 1.6635,
|
||
|
|
"step": 29
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.1,
|
||
|
|
"grad_norm": 4.125,
|
||
|
|
"learning_rate": 9.186440677966101e-06,
|
||
|
|
"loss": 1.6127,
|
||
|
|
"step": 30
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.10333333333333333,
|
||
|
|
"grad_norm": 4.21875,
|
||
|
|
"learning_rate": 9.152542372881356e-06,
|
||
|
|
"loss": 1.5322,
|
||
|
|
"step": 31
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.10666666666666667,
|
||
|
|
"grad_norm": 4.78125,
|
||
|
|
"learning_rate": 9.11864406779661e-06,
|
||
|
|
"loss": 1.6173,
|
||
|
|
"step": 32
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.11,
|
||
|
|
"grad_norm": 4.375,
|
||
|
|
"learning_rate": 9.084745762711865e-06,
|
||
|
|
"loss": 1.5398,
|
||
|
|
"step": 33
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.11333333333333333,
|
||
|
|
"grad_norm": 4.6875,
|
||
|
|
"learning_rate": 9.05084745762712e-06,
|
||
|
|
"loss": 1.7419,
|
||
|
|
"step": 34
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.11666666666666667,
|
||
|
|
"grad_norm": 4.46875,
|
||
|
|
"learning_rate": 9.016949152542374e-06,
|
||
|
|
"loss": 1.5714,
|
||
|
|
"step": 35
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.12,
|
||
|
|
"grad_norm": 4.3125,
|
||
|
|
"learning_rate": 8.983050847457628e-06,
|
||
|
|
"loss": 1.5677,
|
||
|
|
"step": 36
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.12333333333333334,
|
||
|
|
"grad_norm": 4.6875,
|
||
|
|
"learning_rate": 8.949152542372881e-06,
|
||
|
|
"loss": 1.6474,
|
||
|
|
"step": 37
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.12666666666666668,
|
||
|
|
"grad_norm": 4.5625,
|
||
|
|
"learning_rate": 8.915254237288137e-06,
|
||
|
|
"loss": 1.4817,
|
||
|
|
"step": 38
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.13,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 8.88135593220339e-06,
|
||
|
|
"loss": 1.5256,
|
||
|
|
"step": 39
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.13333333333333333,
|
||
|
|
"grad_norm": 4.28125,
|
||
|
|
"learning_rate": 8.847457627118646e-06,
|
||
|
|
"loss": 1.6416,
|
||
|
|
"step": 40
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.13666666666666666,
|
||
|
|
"grad_norm": 5.15625,
|
||
|
|
"learning_rate": 8.8135593220339e-06,
|
||
|
|
"loss": 1.5624,
|
||
|
|
"step": 41
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.14,
|
||
|
|
"grad_norm": 4.375,
|
||
|
|
"learning_rate": 8.779661016949153e-06,
|
||
|
|
"loss": 1.6411,
|
||
|
|
"step": 42
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.14333333333333334,
|
||
|
|
"grad_norm": 4.625,
|
||
|
|
"learning_rate": 8.745762711864407e-06,
|
||
|
|
"loss": 1.5424,
|
||
|
|
"step": 43
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.14666666666666667,
|
||
|
|
"grad_norm": 4.78125,
|
||
|
|
"learning_rate": 8.711864406779662e-06,
|
||
|
|
"loss": 1.5448,
|
||
|
|
"step": 44
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.15,
|
||
|
|
"grad_norm": 3.84375,
|
||
|
|
"learning_rate": 8.677966101694915e-06,
|
||
|
|
"loss": 1.533,
|
||
|
|
"step": 45
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.15333333333333332,
|
||
|
|
"grad_norm": 4.375,
|
||
|
|
"learning_rate": 8.64406779661017e-06,
|
||
|
|
"loss": 1.6341,
|
||
|
|
"step": 46
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.15666666666666668,
|
||
|
|
"grad_norm": 4.375,
|
||
|
|
"learning_rate": 8.610169491525424e-06,
|
||
|
|
"loss": 1.6327,
|
||
|
|
"step": 47
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.16,
|
||
|
|
"grad_norm": 5.125,
|
||
|
|
"learning_rate": 8.57627118644068e-06,
|
||
|
|
"loss": 1.6662,
|
||
|
|
"step": 48
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.16333333333333333,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 8.542372881355933e-06,
|
||
|
|
"loss": 1.4854,
|
||
|
|
"step": 49
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.16666666666666666,
|
||
|
|
"grad_norm": 4.15625,
|
||
|
|
"learning_rate": 8.508474576271187e-06,
|
||
|
|
"loss": 1.5265,
|
||
|
|
"step": 50
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.17,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 8.47457627118644e-06,
|
||
|
|
"loss": 1.5067,
|
||
|
|
"step": 51
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.17333333333333334,
|
||
|
|
"grad_norm": 4.375,
|
||
|
|
"learning_rate": 8.440677966101696e-06,
|
||
|
|
"loss": 1.592,
|
||
|
|
"step": 52
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.17666666666666667,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 8.40677966101695e-06,
|
||
|
|
"loss": 1.537,
|
||
|
|
"step": 53
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.18,
|
||
|
|
"grad_norm": 3.953125,
|
||
|
|
"learning_rate": 8.372881355932205e-06,
|
||
|
|
"loss": 1.5813,
|
||
|
|
"step": 54
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.18333333333333332,
|
||
|
|
"grad_norm": 4.34375,
|
||
|
|
"learning_rate": 8.338983050847458e-06,
|
||
|
|
"loss": 1.621,
|
||
|
|
"step": 55
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.18666666666666668,
|
||
|
|
"grad_norm": 4.625,
|
||
|
|
"learning_rate": 8.305084745762712e-06,
|
||
|
|
"loss": 1.5233,
|
||
|
|
"step": 56
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.19,
|
||
|
|
"grad_norm": 4.375,
|
||
|
|
"learning_rate": 8.271186440677966e-06,
|
||
|
|
"loss": 1.4137,
|
||
|
|
"step": 57
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.19333333333333333,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 8.237288135593221e-06,
|
||
|
|
"loss": 1.4854,
|
||
|
|
"step": 58
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.19666666666666666,
|
||
|
|
"grad_norm": 4.4375,
|
||
|
|
"learning_rate": 8.203389830508475e-06,
|
||
|
|
"loss": 1.5583,
|
||
|
|
"step": 59
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.2,
|
||
|
|
"grad_norm": 4.375,
|
||
|
|
"learning_rate": 8.16949152542373e-06,
|
||
|
|
"loss": 1.4982,
|
||
|
|
"step": 60
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.20333333333333334,
|
||
|
|
"grad_norm": 4.0625,
|
||
|
|
"learning_rate": 8.135593220338983e-06,
|
||
|
|
"loss": 1.3701,
|
||
|
|
"step": 61
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.20666666666666667,
|
||
|
|
"grad_norm": 4.25,
|
||
|
|
"learning_rate": 8.101694915254237e-06,
|
||
|
|
"loss": 1.6183,
|
||
|
|
"step": 62
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.21,
|
||
|
|
"grad_norm": 4.84375,
|
||
|
|
"learning_rate": 8.067796610169492e-06,
|
||
|
|
"loss": 1.4979,
|
||
|
|
"step": 63
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.21333333333333335,
|
||
|
|
"grad_norm": 4.5,
|
||
|
|
"learning_rate": 8.033898305084746e-06,
|
||
|
|
"loss": 1.5744,
|
||
|
|
"step": 64
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.21666666666666667,
|
||
|
|
"grad_norm": 3.96875,
|
||
|
|
"learning_rate": 8.000000000000001e-06,
|
||
|
|
"loss": 1.6422,
|
||
|
|
"step": 65
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.22,
|
||
|
|
"grad_norm": 3.9375,
|
||
|
|
"learning_rate": 7.966101694915255e-06,
|
||
|
|
"loss": 1.5238,
|
||
|
|
"step": 66
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.22333333333333333,
|
||
|
|
"grad_norm": 4.25,
|
||
|
|
"learning_rate": 7.93220338983051e-06,
|
||
|
|
"loss": 1.6447,
|
||
|
|
"step": 67
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.22666666666666666,
|
||
|
|
"grad_norm": 4.25,
|
||
|
|
"learning_rate": 7.898305084745764e-06,
|
||
|
|
"loss": 1.4478,
|
||
|
|
"step": 68
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.23,
|
||
|
|
"grad_norm": 4.3125,
|
||
|
|
"learning_rate": 7.864406779661017e-06,
|
||
|
|
"loss": 1.6503,
|
||
|
|
"step": 69
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.23333333333333334,
|
||
|
|
"grad_norm": 3.96875,
|
||
|
|
"learning_rate": 7.830508474576271e-06,
|
||
|
|
"loss": 1.5042,
|
||
|
|
"step": 70
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.23666666666666666,
|
||
|
|
"grad_norm": 4.0625,
|
||
|
|
"learning_rate": 7.796610169491526e-06,
|
||
|
|
"loss": 1.5016,
|
||
|
|
"step": 71
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.24,
|
||
|
|
"grad_norm": 3.875,
|
||
|
|
"learning_rate": 7.76271186440678e-06,
|
||
|
|
"loss": 1.4985,
|
||
|
|
"step": 72
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.24333333333333335,
|
||
|
|
"grad_norm": 4.34375,
|
||
|
|
"learning_rate": 7.728813559322035e-06,
|
||
|
|
"loss": 1.5636,
|
||
|
|
"step": 73
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.24666666666666667,
|
||
|
|
"grad_norm": 3.796875,
|
||
|
|
"learning_rate": 7.694915254237289e-06,
|
||
|
|
"loss": 1.3601,
|
||
|
|
"step": 74
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.25,
|
||
|
|
"grad_norm": 4.09375,
|
||
|
|
"learning_rate": 7.661016949152543e-06,
|
||
|
|
"loss": 1.4946,
|
||
|
|
"step": 75
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.25333333333333335,
|
||
|
|
"grad_norm": 4.65625,
|
||
|
|
"learning_rate": 7.627118644067797e-06,
|
||
|
|
"loss": 1.7191,
|
||
|
|
"step": 76
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.25666666666666665,
|
||
|
|
"grad_norm": 4.21875,
|
||
|
|
"learning_rate": 7.5932203389830515e-06,
|
||
|
|
"loss": 1.5483,
|
||
|
|
"step": 77
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.26,
|
||
|
|
"grad_norm": 4.28125,
|
||
|
|
"learning_rate": 7.559322033898305e-06,
|
||
|
|
"loss": 1.3494,
|
||
|
|
"step": 78
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.2633333333333333,
|
||
|
|
"grad_norm": 3.921875,
|
||
|
|
"learning_rate": 7.52542372881356e-06,
|
||
|
|
"loss": 1.4155,
|
||
|
|
"step": 79
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.26666666666666666,
|
||
|
|
"grad_norm": 4.4375,
|
||
|
|
"learning_rate": 7.491525423728814e-06,
|
||
|
|
"loss": 1.5193,
|
||
|
|
"step": 80
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.27,
|
||
|
|
"grad_norm": 4.15625,
|
||
|
|
"learning_rate": 7.4576271186440685e-06,
|
||
|
|
"loss": 1.4973,
|
||
|
|
"step": 81
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.2733333333333333,
|
||
|
|
"grad_norm": 4.0625,
|
||
|
|
"learning_rate": 7.423728813559322e-06,
|
||
|
|
"loss": 1.5075,
|
||
|
|
"step": 82
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.27666666666666667,
|
||
|
|
"grad_norm": 4.25,
|
||
|
|
"learning_rate": 7.3898305084745766e-06,
|
||
|
|
"loss": 1.5202,
|
||
|
|
"step": 83
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.28,
|
||
|
|
"grad_norm": 4.15625,
|
||
|
|
"learning_rate": 7.355932203389831e-06,
|
||
|
|
"loss": 1.4973,
|
||
|
|
"step": 84
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.2833333333333333,
|
||
|
|
"grad_norm": 3.828125,
|
||
|
|
"learning_rate": 7.3220338983050855e-06,
|
||
|
|
"loss": 1.4074,
|
||
|
|
"step": 85
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.2866666666666667,
|
||
|
|
"grad_norm": 4.4375,
|
||
|
|
"learning_rate": 7.288135593220339e-06,
|
||
|
|
"loss": 1.579,
|
||
|
|
"step": 86
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.29,
|
||
|
|
"grad_norm": 3.9375,
|
||
|
|
"learning_rate": 7.2542372881355936e-06,
|
||
|
|
"loss": 1.4752,
|
||
|
|
"step": 87
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.29333333333333333,
|
||
|
|
"grad_norm": 4.125,
|
||
|
|
"learning_rate": 7.220338983050849e-06,
|
||
|
|
"loss": 1.5104,
|
||
|
|
"step": 88
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.2966666666666667,
|
||
|
|
"grad_norm": 4.375,
|
||
|
|
"learning_rate": 7.1864406779661025e-06,
|
||
|
|
"loss": 1.5197,
|
||
|
|
"step": 89
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.3,
|
||
|
|
"grad_norm": 4.25,
|
||
|
|
"learning_rate": 7.152542372881357e-06,
|
||
|
|
"loss": 1.5693,
|
||
|
|
"step": 90
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.30333333333333334,
|
||
|
|
"grad_norm": 4.0,
|
||
|
|
"learning_rate": 7.1186440677966106e-06,
|
||
|
|
"loss": 1.4537,
|
||
|
|
"step": 91
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.30666666666666664,
|
||
|
|
"grad_norm": 4.6875,
|
||
|
|
"learning_rate": 7.084745762711865e-06,
|
||
|
|
"loss": 1.4927,
|
||
|
|
"step": 92
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.31,
|
||
|
|
"grad_norm": 4.3125,
|
||
|
|
"learning_rate": 7.0508474576271195e-06,
|
||
|
|
"loss": 1.3798,
|
||
|
|
"step": 93
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.31333333333333335,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 7.016949152542374e-06,
|
||
|
|
"loss": 1.4719,
|
||
|
|
"step": 94
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.31666666666666665,
|
||
|
|
"grad_norm": 4.125,
|
||
|
|
"learning_rate": 6.9830508474576275e-06,
|
||
|
|
"loss": 1.412,
|
||
|
|
"step": 95
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.32,
|
||
|
|
"grad_norm": 4.0625,
|
||
|
|
"learning_rate": 6.949152542372882e-06,
|
||
|
|
"loss": 1.5033,
|
||
|
|
"step": 96
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.3233333333333333,
|
||
|
|
"grad_norm": 3.8125,
|
||
|
|
"learning_rate": 6.915254237288136e-06,
|
||
|
|
"loss": 1.4595,
|
||
|
|
"step": 97
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.32666666666666666,
|
||
|
|
"grad_norm": 4.09375,
|
||
|
|
"learning_rate": 6.881355932203391e-06,
|
||
|
|
"loss": 1.436,
|
||
|
|
"step": 98
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.33,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 6.8474576271186445e-06,
|
||
|
|
"loss": 1.4853,
|
||
|
|
"step": 99
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.3333333333333333,
|
||
|
|
"grad_norm": 4.78125,
|
||
|
|
"learning_rate": 6.813559322033899e-06,
|
||
|
|
"loss": 1.5119,
|
||
|
|
"step": 100
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.33666666666666667,
|
||
|
|
"grad_norm": 3.796875,
|
||
|
|
"learning_rate": 6.779661016949153e-06,
|
||
|
|
"loss": 1.2572,
|
||
|
|
"step": 101
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.34,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 6.745762711864408e-06,
|
||
|
|
"loss": 1.3549,
|
||
|
|
"step": 102
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.3433333333333333,
|
||
|
|
"grad_norm": 4.40625,
|
||
|
|
"learning_rate": 6.7118644067796615e-06,
|
||
|
|
"loss": 1.5217,
|
||
|
|
"step": 103
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.3466666666666667,
|
||
|
|
"grad_norm": 4.34375,
|
||
|
|
"learning_rate": 6.677966101694916e-06,
|
||
|
|
"loss": 1.4363,
|
||
|
|
"step": 104
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.35,
|
||
|
|
"grad_norm": 4.25,
|
||
|
|
"learning_rate": 6.64406779661017e-06,
|
||
|
|
"loss": 1.5073,
|
||
|
|
"step": 105
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.35333333333333333,
|
||
|
|
"grad_norm": 4.125,
|
||
|
|
"learning_rate": 6.610169491525424e-06,
|
||
|
|
"loss": 1.4746,
|
||
|
|
"step": 106
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.3566666666666667,
|
||
|
|
"grad_norm": 4.46875,
|
||
|
|
"learning_rate": 6.576271186440678e-06,
|
||
|
|
"loss": 1.4716,
|
||
|
|
"step": 107
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.36,
|
||
|
|
"grad_norm": 4.625,
|
||
|
|
"learning_rate": 6.542372881355933e-06,
|
||
|
|
"loss": 1.4342,
|
||
|
|
"step": 108
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.36333333333333334,
|
||
|
|
"grad_norm": 4.15625,
|
||
|
|
"learning_rate": 6.508474576271187e-06,
|
||
|
|
"loss": 1.5372,
|
||
|
|
"step": 109
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.36666666666666664,
|
||
|
|
"grad_norm": 4.40625,
|
||
|
|
"learning_rate": 6.474576271186441e-06,
|
||
|
|
"loss": 1.4643,
|
||
|
|
"step": 110
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.37,
|
||
|
|
"grad_norm": 4.09375,
|
||
|
|
"learning_rate": 6.440677966101695e-06,
|
||
|
|
"loss": 1.4531,
|
||
|
|
"step": 111
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.37333333333333335,
|
||
|
|
"grad_norm": 3.875,
|
||
|
|
"learning_rate": 6.40677966101695e-06,
|
||
|
|
"loss": 1.3822,
|
||
|
|
"step": 112
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.37666666666666665,
|
||
|
|
"grad_norm": 4.21875,
|
||
|
|
"learning_rate": 6.372881355932204e-06,
|
||
|
|
"loss": 1.5035,
|
||
|
|
"step": 113
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.38,
|
||
|
|
"grad_norm": 4.28125,
|
||
|
|
"learning_rate": 6.338983050847458e-06,
|
||
|
|
"loss": 1.4183,
|
||
|
|
"step": 114
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.38333333333333336,
|
||
|
|
"grad_norm": 4.125,
|
||
|
|
"learning_rate": 6.3050847457627125e-06,
|
||
|
|
"loss": 1.5141,
|
||
|
|
"step": 115
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.38666666666666666,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 6.271186440677966e-06,
|
||
|
|
"loss": 1.4144,
|
||
|
|
"step": 116
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.39,
|
||
|
|
"grad_norm": 4.15625,
|
||
|
|
"learning_rate": 6.2372881355932215e-06,
|
||
|
|
"loss": 1.5618,
|
||
|
|
"step": 117
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.3933333333333333,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 6.203389830508475e-06,
|
||
|
|
"loss": 1.4865,
|
||
|
|
"step": 118
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.39666666666666667,
|
||
|
|
"grad_norm": 4.09375,
|
||
|
|
"learning_rate": 6.1694915254237295e-06,
|
||
|
|
"loss": 1.6013,
|
||
|
|
"step": 119
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.4,
|
||
|
|
"grad_norm": 4.03125,
|
||
|
|
"learning_rate": 6.135593220338983e-06,
|
||
|
|
"loss": 1.4803,
|
||
|
|
"step": 120
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.4033333333333333,
|
||
|
|
"grad_norm": 4.28125,
|
||
|
|
"learning_rate": 6.1016949152542385e-06,
|
||
|
|
"loss": 1.6285,
|
||
|
|
"step": 121
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.4066666666666667,
|
||
|
|
"grad_norm": 3.9375,
|
||
|
|
"learning_rate": 6.067796610169492e-06,
|
||
|
|
"loss": 1.4371,
|
||
|
|
"step": 122
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.41,
|
||
|
|
"grad_norm": 3.8125,
|
||
|
|
"learning_rate": 6.0338983050847465e-06,
|
||
|
|
"loss": 1.3438,
|
||
|
|
"step": 123
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.41333333333333333,
|
||
|
|
"grad_norm": 3.890625,
|
||
|
|
"learning_rate": 6e-06,
|
||
|
|
"loss": 1.421,
|
||
|
|
"step": 124
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.4166666666666667,
|
||
|
|
"grad_norm": 4.125,
|
||
|
|
"learning_rate": 5.9661016949152555e-06,
|
||
|
|
"loss": 1.6043,
|
||
|
|
"step": 125
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.42,
|
||
|
|
"grad_norm": 3.8125,
|
||
|
|
"learning_rate": 5.932203389830509e-06,
|
||
|
|
"loss": 1.4764,
|
||
|
|
"step": 126
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.42333333333333334,
|
||
|
|
"grad_norm": 3.90625,
|
||
|
|
"learning_rate": 5.8983050847457635e-06,
|
||
|
|
"loss": 1.4251,
|
||
|
|
"step": 127
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.4266666666666667,
|
||
|
|
"grad_norm": 4.3125,
|
||
|
|
"learning_rate": 5.864406779661017e-06,
|
||
|
|
"loss": 1.5897,
|
||
|
|
"step": 128
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.43,
|
||
|
|
"grad_norm": 4.375,
|
||
|
|
"learning_rate": 5.830508474576272e-06,
|
||
|
|
"loss": 1.5126,
|
||
|
|
"step": 129
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.43333333333333335,
|
||
|
|
"grad_norm": 4.59375,
|
||
|
|
"learning_rate": 5.796610169491525e-06,
|
||
|
|
"loss": 1.5371,
|
||
|
|
"step": 130
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.43666666666666665,
|
||
|
|
"grad_norm": 3.875,
|
||
|
|
"learning_rate": 5.7627118644067805e-06,
|
||
|
|
"loss": 1.495,
|
||
|
|
"step": 131
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.44,
|
||
|
|
"grad_norm": 3.96875,
|
||
|
|
"learning_rate": 5.728813559322034e-06,
|
||
|
|
"loss": 1.4817,
|
||
|
|
"step": 132
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.44333333333333336,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 5.694915254237289e-06,
|
||
|
|
"loss": 1.4639,
|
||
|
|
"step": 133
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.44666666666666666,
|
||
|
|
"grad_norm": 3.890625,
|
||
|
|
"learning_rate": 5.661016949152542e-06,
|
||
|
|
"loss": 1.4762,
|
||
|
|
"step": 134
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.45,
|
||
|
|
"grad_norm": 3.875,
|
||
|
|
"learning_rate": 5.6271186440677975e-06,
|
||
|
|
"loss": 1.4693,
|
||
|
|
"step": 135
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.4533333333333333,
|
||
|
|
"grad_norm": 4.40625,
|
||
|
|
"learning_rate": 5.593220338983051e-06,
|
||
|
|
"loss": 1.5129,
|
||
|
|
"step": 136
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.45666666666666667,
|
||
|
|
"grad_norm": 3.859375,
|
||
|
|
"learning_rate": 5.559322033898306e-06,
|
||
|
|
"loss": 1.5252,
|
||
|
|
"step": 137
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.46,
|
||
|
|
"grad_norm": 4.0625,
|
||
|
|
"learning_rate": 5.525423728813559e-06,
|
||
|
|
"loss": 1.4806,
|
||
|
|
"step": 138
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.4633333333333333,
|
||
|
|
"grad_norm": 3.90625,
|
||
|
|
"learning_rate": 5.491525423728814e-06,
|
||
|
|
"loss": 1.4742,
|
||
|
|
"step": 139
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.4666666666666667,
|
||
|
|
"grad_norm": 4.21875,
|
||
|
|
"learning_rate": 5.457627118644067e-06,
|
||
|
|
"loss": 1.4053,
|
||
|
|
"step": 140
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.47,
|
||
|
|
"grad_norm": 4.46875,
|
||
|
|
"learning_rate": 5.423728813559323e-06,
|
||
|
|
"loss": 1.4313,
|
||
|
|
"step": 141
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.47333333333333333,
|
||
|
|
"grad_norm": 3.765625,
|
||
|
|
"learning_rate": 5.389830508474577e-06,
|
||
|
|
"loss": 1.4895,
|
||
|
|
"step": 142
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.4766666666666667,
|
||
|
|
"grad_norm": 3.90625,
|
||
|
|
"learning_rate": 5.355932203389831e-06,
|
||
|
|
"loss": 1.3679,
|
||
|
|
"step": 143
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.48,
|
||
|
|
"grad_norm": 3.796875,
|
||
|
|
"learning_rate": 5.322033898305086e-06,
|
||
|
|
"loss": 1.5002,
|
||
|
|
"step": 144
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.48333333333333334,
|
||
|
|
"grad_norm": 4.0625,
|
||
|
|
"learning_rate": 5.28813559322034e-06,
|
||
|
|
"loss": 1.4507,
|
||
|
|
"step": 145
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.4866666666666667,
|
||
|
|
"grad_norm": 4.21875,
|
||
|
|
"learning_rate": 5.254237288135594e-06,
|
||
|
|
"loss": 1.4539,
|
||
|
|
"step": 146
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.49,
|
||
|
|
"grad_norm": 4.0625,
|
||
|
|
"learning_rate": 5.220338983050848e-06,
|
||
|
|
"loss": 1.457,
|
||
|
|
"step": 147
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.49333333333333335,
|
||
|
|
"grad_norm": 4.40625,
|
||
|
|
"learning_rate": 5.186440677966102e-06,
|
||
|
|
"loss": 1.5808,
|
||
|
|
"step": 148
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.49666666666666665,
|
||
|
|
"grad_norm": 4.125,
|
||
|
|
"learning_rate": 5.152542372881356e-06,
|
||
|
|
"loss": 1.463,
|
||
|
|
"step": 149
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5,
|
||
|
|
"grad_norm": 4.25,
|
||
|
|
"learning_rate": 5.118644067796611e-06,
|
||
|
|
"loss": 1.5309,
|
||
|
|
"step": 150
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5033333333333333,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 5.084745762711865e-06,
|
||
|
|
"loss": 1.4724,
|
||
|
|
"step": 151
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5066666666666667,
|
||
|
|
"grad_norm": 4.25,
|
||
|
|
"learning_rate": 5.050847457627119e-06,
|
||
|
|
"loss": 1.4349,
|
||
|
|
"step": 152
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.51,
|
||
|
|
"grad_norm": 4.75,
|
||
|
|
"learning_rate": 5.016949152542373e-06,
|
||
|
|
"loss": 1.5545,
|
||
|
|
"step": 153
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5133333333333333,
|
||
|
|
"grad_norm": 3.90625,
|
||
|
|
"learning_rate": 4.983050847457628e-06,
|
||
|
|
"loss": 1.4974,
|
||
|
|
"step": 154
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5166666666666667,
|
||
|
|
"grad_norm": 3.890625,
|
||
|
|
"learning_rate": 4.949152542372882e-06,
|
||
|
|
"loss": 1.3883,
|
||
|
|
"step": 155
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.52,
|
||
|
|
"grad_norm": 4.375,
|
||
|
|
"learning_rate": 4.915254237288136e-06,
|
||
|
|
"loss": 1.4869,
|
||
|
|
"step": 156
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5233333333333333,
|
||
|
|
"grad_norm": 4.15625,
|
||
|
|
"learning_rate": 4.881355932203391e-06,
|
||
|
|
"loss": 1.3436,
|
||
|
|
"step": 157
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5266666666666666,
|
||
|
|
"grad_norm": 4.4375,
|
||
|
|
"learning_rate": 4.847457627118645e-06,
|
||
|
|
"loss": 1.455,
|
||
|
|
"step": 158
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.53,
|
||
|
|
"grad_norm": 4.09375,
|
||
|
|
"learning_rate": 4.813559322033899e-06,
|
||
|
|
"loss": 1.2667,
|
||
|
|
"step": 159
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5333333333333333,
|
||
|
|
"grad_norm": 3.96875,
|
||
|
|
"learning_rate": 4.779661016949153e-06,
|
||
|
|
"loss": 1.3545,
|
||
|
|
"step": 160
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5366666666666666,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 4.745762711864408e-06,
|
||
|
|
"loss": 1.5189,
|
||
|
|
"step": 161
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.54,
|
||
|
|
"grad_norm": 4.15625,
|
||
|
|
"learning_rate": 4.711864406779661e-06,
|
||
|
|
"loss": 1.4737,
|
||
|
|
"step": 162
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5433333333333333,
|
||
|
|
"grad_norm": 4.15625,
|
||
|
|
"learning_rate": 4.677966101694916e-06,
|
||
|
|
"loss": 1.4276,
|
||
|
|
"step": 163
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5466666666666666,
|
||
|
|
"grad_norm": 3.90625,
|
||
|
|
"learning_rate": 4.64406779661017e-06,
|
||
|
|
"loss": 1.3469,
|
||
|
|
"step": 164
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.55,
|
||
|
|
"grad_norm": 4.40625,
|
||
|
|
"learning_rate": 4.610169491525424e-06,
|
||
|
|
"loss": 1.5089,
|
||
|
|
"step": 165
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5533333333333333,
|
||
|
|
"grad_norm": 4.03125,
|
||
|
|
"learning_rate": 4.576271186440678e-06,
|
||
|
|
"loss": 1.4037,
|
||
|
|
"step": 166
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5566666666666666,
|
||
|
|
"grad_norm": 4.21875,
|
||
|
|
"learning_rate": 4.542372881355933e-06,
|
||
|
|
"loss": 1.5043,
|
||
|
|
"step": 167
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.56,
|
||
|
|
"grad_norm": 4.21875,
|
||
|
|
"learning_rate": 4.508474576271187e-06,
|
||
|
|
"loss": 1.4458,
|
||
|
|
"step": 168
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5633333333333334,
|
||
|
|
"grad_norm": 4.15625,
|
||
|
|
"learning_rate": 4.474576271186441e-06,
|
||
|
|
"loss": 1.4375,
|
||
|
|
"step": 169
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5666666666666667,
|
||
|
|
"grad_norm": 4.28125,
|
||
|
|
"learning_rate": 4.440677966101695e-06,
|
||
|
|
"loss": 1.5157,
|
||
|
|
"step": 170
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.57,
|
||
|
|
"grad_norm": 4.84375,
|
||
|
|
"learning_rate": 4.40677966101695e-06,
|
||
|
|
"loss": 1.6873,
|
||
|
|
"step": 171
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5733333333333334,
|
||
|
|
"grad_norm": 3.90625,
|
||
|
|
"learning_rate": 4.372881355932203e-06,
|
||
|
|
"loss": 1.4512,
|
||
|
|
"step": 172
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5766666666666667,
|
||
|
|
"grad_norm": 3.796875,
|
||
|
|
"learning_rate": 4.338983050847458e-06,
|
||
|
|
"loss": 1.496,
|
||
|
|
"step": 173
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.58,
|
||
|
|
"grad_norm": 4.21875,
|
||
|
|
"learning_rate": 4.305084745762712e-06,
|
||
|
|
"loss": 1.5529,
|
||
|
|
"step": 174
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5833333333333334,
|
||
|
|
"grad_norm": 4.03125,
|
||
|
|
"learning_rate": 4.271186440677967e-06,
|
||
|
|
"loss": 1.5254,
|
||
|
|
"step": 175
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5866666666666667,
|
||
|
|
"grad_norm": 4.0,
|
||
|
|
"learning_rate": 4.23728813559322e-06,
|
||
|
|
"loss": 1.4447,
|
||
|
|
"step": 176
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.59,
|
||
|
|
"grad_norm": 4.3125,
|
||
|
|
"learning_rate": 4.203389830508475e-06,
|
||
|
|
"loss": 1.4786,
|
||
|
|
"step": 177
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5933333333333334,
|
||
|
|
"grad_norm": 3.84375,
|
||
|
|
"learning_rate": 4.169491525423729e-06,
|
||
|
|
"loss": 1.469,
|
||
|
|
"step": 178
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.5966666666666667,
|
||
|
|
"grad_norm": 4.21875,
|
||
|
|
"learning_rate": 4.135593220338983e-06,
|
||
|
|
"loss": 1.4858,
|
||
|
|
"step": 179
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6,
|
||
|
|
"grad_norm": 4.21875,
|
||
|
|
"learning_rate": 4.101694915254237e-06,
|
||
|
|
"loss": 1.3881,
|
||
|
|
"step": 180
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6033333333333334,
|
||
|
|
"grad_norm": 4.96875,
|
||
|
|
"learning_rate": 4.067796610169492e-06,
|
||
|
|
"loss": 1.4489,
|
||
|
|
"step": 181
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6066666666666667,
|
||
|
|
"grad_norm": 4.03125,
|
||
|
|
"learning_rate": 4.033898305084746e-06,
|
||
|
|
"loss": 1.384,
|
||
|
|
"step": 182
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.61,
|
||
|
|
"grad_norm": 4.09375,
|
||
|
|
"learning_rate": 4.000000000000001e-06,
|
||
|
|
"loss": 1.4689,
|
||
|
|
"step": 183
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6133333333333333,
|
||
|
|
"grad_norm": 3.8125,
|
||
|
|
"learning_rate": 3.966101694915255e-06,
|
||
|
|
"loss": 1.4409,
|
||
|
|
"step": 184
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6166666666666667,
|
||
|
|
"grad_norm": 3.9375,
|
||
|
|
"learning_rate": 3.932203389830509e-06,
|
||
|
|
"loss": 1.3626,
|
||
|
|
"step": 185
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.62,
|
||
|
|
"grad_norm": 4.0625,
|
||
|
|
"learning_rate": 3.898305084745763e-06,
|
||
|
|
"loss": 1.3602,
|
||
|
|
"step": 186
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6233333333333333,
|
||
|
|
"grad_norm": 4.0625,
|
||
|
|
"learning_rate": 3.864406779661018e-06,
|
||
|
|
"loss": 1.4524,
|
||
|
|
"step": 187
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6266666666666667,
|
||
|
|
"grad_norm": 4.28125,
|
||
|
|
"learning_rate": 3.830508474576271e-06,
|
||
|
|
"loss": 1.4622,
|
||
|
|
"step": 188
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.63,
|
||
|
|
"grad_norm": 4.25,
|
||
|
|
"learning_rate": 3.7966101694915257e-06,
|
||
|
|
"loss": 1.4153,
|
||
|
|
"step": 189
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6333333333333333,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 3.76271186440678e-06,
|
||
|
|
"loss": 1.4726,
|
||
|
|
"step": 190
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6366666666666667,
|
||
|
|
"grad_norm": 4.09375,
|
||
|
|
"learning_rate": 3.7288135593220342e-06,
|
||
|
|
"loss": 1.4515,
|
||
|
|
"step": 191
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.64,
|
||
|
|
"grad_norm": 4.21875,
|
||
|
|
"learning_rate": 3.6949152542372883e-06,
|
||
|
|
"loss": 1.4105,
|
||
|
|
"step": 192
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6433333333333333,
|
||
|
|
"grad_norm": 4.125,
|
||
|
|
"learning_rate": 3.6610169491525427e-06,
|
||
|
|
"loss": 1.4322,
|
||
|
|
"step": 193
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6466666666666666,
|
||
|
|
"grad_norm": 4.28125,
|
||
|
|
"learning_rate": 3.6271186440677968e-06,
|
||
|
|
"loss": 1.3477,
|
||
|
|
"step": 194
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.65,
|
||
|
|
"grad_norm": 3.84375,
|
||
|
|
"learning_rate": 3.5932203389830512e-06,
|
||
|
|
"loss": 1.3881,
|
||
|
|
"step": 195
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6533333333333333,
|
||
|
|
"grad_norm": 4.15625,
|
||
|
|
"learning_rate": 3.5593220338983053e-06,
|
||
|
|
"loss": 1.4578,
|
||
|
|
"step": 196
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6566666666666666,
|
||
|
|
"grad_norm": 4.09375,
|
||
|
|
"learning_rate": 3.5254237288135597e-06,
|
||
|
|
"loss": 1.4672,
|
||
|
|
"step": 197
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.66,
|
||
|
|
"grad_norm": 3.90625,
|
||
|
|
"learning_rate": 3.4915254237288138e-06,
|
||
|
|
"loss": 1.4233,
|
||
|
|
"step": 198
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6633333333333333,
|
||
|
|
"grad_norm": 4.09375,
|
||
|
|
"learning_rate": 3.457627118644068e-06,
|
||
|
|
"loss": 1.3637,
|
||
|
|
"step": 199
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6666666666666666,
|
||
|
|
"grad_norm": 4.625,
|
||
|
|
"learning_rate": 3.4237288135593223e-06,
|
||
|
|
"loss": 1.5333,
|
||
|
|
"step": 200
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.67,
|
||
|
|
"grad_norm": 4.125,
|
||
|
|
"learning_rate": 3.3898305084745763e-06,
|
||
|
|
"loss": 1.362,
|
||
|
|
"step": 201
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6733333333333333,
|
||
|
|
"grad_norm": 4.34375,
|
||
|
|
"learning_rate": 3.3559322033898308e-06,
|
||
|
|
"loss": 1.5358,
|
||
|
|
"step": 202
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6766666666666666,
|
||
|
|
"grad_norm": 4.25,
|
||
|
|
"learning_rate": 3.322033898305085e-06,
|
||
|
|
"loss": 1.4072,
|
||
|
|
"step": 203
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.68,
|
||
|
|
"grad_norm": 3.90625,
|
||
|
|
"learning_rate": 3.288135593220339e-06,
|
||
|
|
"loss": 1.3009,
|
||
|
|
"step": 204
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6833333333333333,
|
||
|
|
"grad_norm": 4.28125,
|
||
|
|
"learning_rate": 3.2542372881355933e-06,
|
||
|
|
"loss": 1.3679,
|
||
|
|
"step": 205
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6866666666666666,
|
||
|
|
"grad_norm": 4.40625,
|
||
|
|
"learning_rate": 3.2203389830508473e-06,
|
||
|
|
"loss": 1.3934,
|
||
|
|
"step": 206
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.69,
|
||
|
|
"grad_norm": 4.40625,
|
||
|
|
"learning_rate": 3.186440677966102e-06,
|
||
|
|
"loss": 1.5645,
|
||
|
|
"step": 207
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6933333333333334,
|
||
|
|
"grad_norm": 4.03125,
|
||
|
|
"learning_rate": 3.1525423728813563e-06,
|
||
|
|
"loss": 1.4212,
|
||
|
|
"step": 208
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.6966666666666667,
|
||
|
|
"grad_norm": 4.15625,
|
||
|
|
"learning_rate": 3.1186440677966107e-06,
|
||
|
|
"loss": 1.411,
|
||
|
|
"step": 209
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7,
|
||
|
|
"grad_norm": 4.40625,
|
||
|
|
"learning_rate": 3.0847457627118648e-06,
|
||
|
|
"loss": 1.4473,
|
||
|
|
"step": 210
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7033333333333334,
|
||
|
|
"grad_norm": 4.0625,
|
||
|
|
"learning_rate": 3.0508474576271192e-06,
|
||
|
|
"loss": 1.2711,
|
||
|
|
"step": 211
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7066666666666667,
|
||
|
|
"grad_norm": 3.875,
|
||
|
|
"learning_rate": 3.0169491525423733e-06,
|
||
|
|
"loss": 1.489,
|
||
|
|
"step": 212
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.71,
|
||
|
|
"grad_norm": 4.0625,
|
||
|
|
"learning_rate": 2.9830508474576277e-06,
|
||
|
|
"loss": 1.4551,
|
||
|
|
"step": 213
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7133333333333334,
|
||
|
|
"grad_norm": 4.0625,
|
||
|
|
"learning_rate": 2.9491525423728818e-06,
|
||
|
|
"loss": 1.3449,
|
||
|
|
"step": 214
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7166666666666667,
|
||
|
|
"grad_norm": 4.15625,
|
||
|
|
"learning_rate": 2.915254237288136e-06,
|
||
|
|
"loss": 1.2706,
|
||
|
|
"step": 215
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.72,
|
||
|
|
"grad_norm": 4.15625,
|
||
|
|
"learning_rate": 2.8813559322033903e-06,
|
||
|
|
"loss": 1.4557,
|
||
|
|
"step": 216
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7233333333333334,
|
||
|
|
"grad_norm": 4.375,
|
||
|
|
"learning_rate": 2.8474576271186443e-06,
|
||
|
|
"loss": 1.3188,
|
||
|
|
"step": 217
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7266666666666667,
|
||
|
|
"grad_norm": 4.03125,
|
||
|
|
"learning_rate": 2.8135593220338988e-06,
|
||
|
|
"loss": 1.2864,
|
||
|
|
"step": 218
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.73,
|
||
|
|
"grad_norm": 3.96875,
|
||
|
|
"learning_rate": 2.779661016949153e-06,
|
||
|
|
"loss": 1.3907,
|
||
|
|
"step": 219
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7333333333333333,
|
||
|
|
"grad_norm": 3.875,
|
||
|
|
"learning_rate": 2.745762711864407e-06,
|
||
|
|
"loss": 1.37,
|
||
|
|
"step": 220
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7366666666666667,
|
||
|
|
"grad_norm": 4.21875,
|
||
|
|
"learning_rate": 2.7118644067796613e-06,
|
||
|
|
"loss": 1.4307,
|
||
|
|
"step": 221
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.74,
|
||
|
|
"grad_norm": 4.0625,
|
||
|
|
"learning_rate": 2.6779661016949153e-06,
|
||
|
|
"loss": 1.3938,
|
||
|
|
"step": 222
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7433333333333333,
|
||
|
|
"grad_norm": 4.0,
|
||
|
|
"learning_rate": 2.64406779661017e-06,
|
||
|
|
"loss": 1.486,
|
||
|
|
"step": 223
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7466666666666667,
|
||
|
|
"grad_norm": 4.0,
|
||
|
|
"learning_rate": 2.610169491525424e-06,
|
||
|
|
"loss": 1.3494,
|
||
|
|
"step": 224
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.75,
|
||
|
|
"grad_norm": 4.0625,
|
||
|
|
"learning_rate": 2.576271186440678e-06,
|
||
|
|
"loss": 1.408,
|
||
|
|
"step": 225
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7533333333333333,
|
||
|
|
"grad_norm": 3.828125,
|
||
|
|
"learning_rate": 2.5423728813559323e-06,
|
||
|
|
"loss": 1.4102,
|
||
|
|
"step": 226
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7566666666666667,
|
||
|
|
"grad_norm": 3.90625,
|
||
|
|
"learning_rate": 2.5084745762711864e-06,
|
||
|
|
"loss": 1.4117,
|
||
|
|
"step": 227
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.76,
|
||
|
|
"grad_norm": 3.921875,
|
||
|
|
"learning_rate": 2.474576271186441e-06,
|
||
|
|
"loss": 1.3508,
|
||
|
|
"step": 228
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7633333333333333,
|
||
|
|
"grad_norm": 4.3125,
|
||
|
|
"learning_rate": 2.4406779661016953e-06,
|
||
|
|
"loss": 1.405,
|
||
|
|
"step": 229
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7666666666666667,
|
||
|
|
"grad_norm": 4.46875,
|
||
|
|
"learning_rate": 2.4067796610169493e-06,
|
||
|
|
"loss": 1.5566,
|
||
|
|
"step": 230
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.77,
|
||
|
|
"grad_norm": 3.90625,
|
||
|
|
"learning_rate": 2.372881355932204e-06,
|
||
|
|
"loss": 1.4346,
|
||
|
|
"step": 231
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7733333333333333,
|
||
|
|
"grad_norm": 4.0,
|
||
|
|
"learning_rate": 2.338983050847458e-06,
|
||
|
|
"loss": 1.3959,
|
||
|
|
"step": 232
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7766666666666666,
|
||
|
|
"grad_norm": 4.8125,
|
||
|
|
"learning_rate": 2.305084745762712e-06,
|
||
|
|
"loss": 1.5955,
|
||
|
|
"step": 233
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.78,
|
||
|
|
"grad_norm": 4.28125,
|
||
|
|
"learning_rate": 2.2711864406779663e-06,
|
||
|
|
"loss": 1.4623,
|
||
|
|
"step": 234
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7833333333333333,
|
||
|
|
"grad_norm": 3.90625,
|
||
|
|
"learning_rate": 2.2372881355932204e-06,
|
||
|
|
"loss": 1.3969,
|
||
|
|
"step": 235
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7866666666666666,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 2.203389830508475e-06,
|
||
|
|
"loss": 1.5244,
|
||
|
|
"step": 236
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.79,
|
||
|
|
"grad_norm": 4.03125,
|
||
|
|
"learning_rate": 2.169491525423729e-06,
|
||
|
|
"loss": 1.3434,
|
||
|
|
"step": 237
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7933333333333333,
|
||
|
|
"grad_norm": 4.15625,
|
||
|
|
"learning_rate": 2.1355932203389833e-06,
|
||
|
|
"loss": 1.405,
|
||
|
|
"step": 238
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.7966666666666666,
|
||
|
|
"grad_norm": 4.40625,
|
||
|
|
"learning_rate": 2.1016949152542374e-06,
|
||
|
|
"loss": 1.4841,
|
||
|
|
"step": 239
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8,
|
||
|
|
"grad_norm": 3.9375,
|
||
|
|
"learning_rate": 2.0677966101694914e-06,
|
||
|
|
"loss": 1.3963,
|
||
|
|
"step": 240
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8033333333333333,
|
||
|
|
"grad_norm": 4.25,
|
||
|
|
"learning_rate": 2.033898305084746e-06,
|
||
|
|
"loss": 1.3759,
|
||
|
|
"step": 241
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8066666666666666,
|
||
|
|
"grad_norm": 4.25,
|
||
|
|
"learning_rate": 2.0000000000000003e-06,
|
||
|
|
"loss": 1.5666,
|
||
|
|
"step": 242
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.81,
|
||
|
|
"grad_norm": 3.984375,
|
||
|
|
"learning_rate": 1.9661016949152544e-06,
|
||
|
|
"loss": 1.3935,
|
||
|
|
"step": 243
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8133333333333334,
|
||
|
|
"grad_norm": 3.90625,
|
||
|
|
"learning_rate": 1.932203389830509e-06,
|
||
|
|
"loss": 1.3719,
|
||
|
|
"step": 244
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8166666666666667,
|
||
|
|
"grad_norm": 3.9375,
|
||
|
|
"learning_rate": 1.8983050847457629e-06,
|
||
|
|
"loss": 1.3638,
|
||
|
|
"step": 245
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.82,
|
||
|
|
"grad_norm": 3.875,
|
||
|
|
"learning_rate": 1.8644067796610171e-06,
|
||
|
|
"loss": 1.3744,
|
||
|
|
"step": 246
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8233333333333334,
|
||
|
|
"grad_norm": 4.375,
|
||
|
|
"learning_rate": 1.8305084745762714e-06,
|
||
|
|
"loss": 1.519,
|
||
|
|
"step": 247
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8266666666666667,
|
||
|
|
"grad_norm": 3.9375,
|
||
|
|
"learning_rate": 1.7966101694915256e-06,
|
||
|
|
"loss": 1.4056,
|
||
|
|
"step": 248
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.83,
|
||
|
|
"grad_norm": 4.28125,
|
||
|
|
"learning_rate": 1.7627118644067799e-06,
|
||
|
|
"loss": 1.4425,
|
||
|
|
"step": 249
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8333333333333334,
|
||
|
|
"grad_norm": 3.921875,
|
||
|
|
"learning_rate": 1.728813559322034e-06,
|
||
|
|
"loss": 1.3869,
|
||
|
|
"step": 250
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8366666666666667,
|
||
|
|
"grad_norm": 4.09375,
|
||
|
|
"learning_rate": 1.6949152542372882e-06,
|
||
|
|
"loss": 1.4469,
|
||
|
|
"step": 251
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.84,
|
||
|
|
"grad_norm": 4.25,
|
||
|
|
"learning_rate": 1.6610169491525424e-06,
|
||
|
|
"loss": 1.4746,
|
||
|
|
"step": 252
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8433333333333334,
|
||
|
|
"grad_norm": 4.09375,
|
||
|
|
"learning_rate": 1.6271186440677967e-06,
|
||
|
|
"loss": 1.3844,
|
||
|
|
"step": 253
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8466666666666667,
|
||
|
|
"grad_norm": 3.9375,
|
||
|
|
"learning_rate": 1.593220338983051e-06,
|
||
|
|
"loss": 1.3991,
|
||
|
|
"step": 254
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.85,
|
||
|
|
"grad_norm": 3.90625,
|
||
|
|
"learning_rate": 1.5593220338983054e-06,
|
||
|
|
"loss": 1.311,
|
||
|
|
"step": 255
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8533333333333334,
|
||
|
|
"grad_norm": 4.25,
|
||
|
|
"learning_rate": 1.5254237288135596e-06,
|
||
|
|
"loss": 1.434,
|
||
|
|
"step": 256
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8566666666666667,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 1.4915254237288139e-06,
|
||
|
|
"loss": 1.3533,
|
||
|
|
"step": 257
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.86,
|
||
|
|
"grad_norm": 4.09375,
|
||
|
|
"learning_rate": 1.457627118644068e-06,
|
||
|
|
"loss": 1.4461,
|
||
|
|
"step": 258
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8633333333333333,
|
||
|
|
"grad_norm": 3.875,
|
||
|
|
"learning_rate": 1.4237288135593222e-06,
|
||
|
|
"loss": 1.3561,
|
||
|
|
"step": 259
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8666666666666667,
|
||
|
|
"grad_norm": 3.875,
|
||
|
|
"learning_rate": 1.3898305084745764e-06,
|
||
|
|
"loss": 1.3299,
|
||
|
|
"step": 260
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.87,
|
||
|
|
"grad_norm": 3.90625,
|
||
|
|
"learning_rate": 1.3559322033898307e-06,
|
||
|
|
"loss": 1.4657,
|
||
|
|
"step": 261
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8733333333333333,
|
||
|
|
"grad_norm": 3.84375,
|
||
|
|
"learning_rate": 1.322033898305085e-06,
|
||
|
|
"loss": 1.3476,
|
||
|
|
"step": 262
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8766666666666667,
|
||
|
|
"grad_norm": 4.21875,
|
||
|
|
"learning_rate": 1.288135593220339e-06,
|
||
|
|
"loss": 1.3698,
|
||
|
|
"step": 263
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.88,
|
||
|
|
"grad_norm": 4.3125,
|
||
|
|
"learning_rate": 1.2542372881355932e-06,
|
||
|
|
"loss": 1.4458,
|
||
|
|
"step": 264
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8833333333333333,
|
||
|
|
"grad_norm": 4.53125,
|
||
|
|
"learning_rate": 1.2203389830508477e-06,
|
||
|
|
"loss": 1.51,
|
||
|
|
"step": 265
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8866666666666667,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 1.186440677966102e-06,
|
||
|
|
"loss": 1.4639,
|
||
|
|
"step": 266
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.89,
|
||
|
|
"grad_norm": 4.28125,
|
||
|
|
"learning_rate": 1.152542372881356e-06,
|
||
|
|
"loss": 1.4103,
|
||
|
|
"step": 267
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8933333333333333,
|
||
|
|
"grad_norm": 4.125,
|
||
|
|
"learning_rate": 1.1186440677966102e-06,
|
||
|
|
"loss": 1.4097,
|
||
|
|
"step": 268
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.8966666666666666,
|
||
|
|
"grad_norm": 4.09375,
|
||
|
|
"learning_rate": 1.0847457627118644e-06,
|
||
|
|
"loss": 1.3485,
|
||
|
|
"step": 269
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9,
|
||
|
|
"grad_norm": 4.21875,
|
||
|
|
"learning_rate": 1.0508474576271187e-06,
|
||
|
|
"loss": 1.356,
|
||
|
|
"step": 270
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9033333333333333,
|
||
|
|
"grad_norm": 4.25,
|
||
|
|
"learning_rate": 1.016949152542373e-06,
|
||
|
|
"loss": 1.5184,
|
||
|
|
"step": 271
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9066666666666666,
|
||
|
|
"grad_norm": 4.21875,
|
||
|
|
"learning_rate": 9.830508474576272e-07,
|
||
|
|
"loss": 1.463,
|
||
|
|
"step": 272
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.91,
|
||
|
|
"grad_norm": 4.09375,
|
||
|
|
"learning_rate": 9.491525423728814e-07,
|
||
|
|
"loss": 1.4556,
|
||
|
|
"step": 273
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9133333333333333,
|
||
|
|
"grad_norm": 4.5625,
|
||
|
|
"learning_rate": 9.152542372881357e-07,
|
||
|
|
"loss": 1.5922,
|
||
|
|
"step": 274
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9166666666666666,
|
||
|
|
"grad_norm": 4.25,
|
||
|
|
"learning_rate": 8.813559322033899e-07,
|
||
|
|
"loss": 1.385,
|
||
|
|
"step": 275
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.92,
|
||
|
|
"grad_norm": 3.78125,
|
||
|
|
"learning_rate": 8.474576271186441e-07,
|
||
|
|
"loss": 1.2688,
|
||
|
|
"step": 276
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9233333333333333,
|
||
|
|
"grad_norm": 3.9375,
|
||
|
|
"learning_rate": 8.135593220338983e-07,
|
||
|
|
"loss": 1.3548,
|
||
|
|
"step": 277
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9266666666666666,
|
||
|
|
"grad_norm": 4.09375,
|
||
|
|
"learning_rate": 7.796610169491527e-07,
|
||
|
|
"loss": 1.304,
|
||
|
|
"step": 278
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.93,
|
||
|
|
"grad_norm": 4.4375,
|
||
|
|
"learning_rate": 7.457627118644069e-07,
|
||
|
|
"loss": 1.581,
|
||
|
|
"step": 279
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9333333333333333,
|
||
|
|
"grad_norm": 4.125,
|
||
|
|
"learning_rate": 7.118644067796611e-07,
|
||
|
|
"loss": 1.4101,
|
||
|
|
"step": 280
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9366666666666666,
|
||
|
|
"grad_norm": 4.375,
|
||
|
|
"learning_rate": 6.779661016949153e-07,
|
||
|
|
"loss": 1.4268,
|
||
|
|
"step": 281
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.94,
|
||
|
|
"grad_norm": 4.0,
|
||
|
|
"learning_rate": 6.440677966101695e-07,
|
||
|
|
"loss": 1.3534,
|
||
|
|
"step": 282
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9433333333333334,
|
||
|
|
"grad_norm": 4.0,
|
||
|
|
"learning_rate": 6.101694915254238e-07,
|
||
|
|
"loss": 1.3912,
|
||
|
|
"step": 283
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9466666666666667,
|
||
|
|
"grad_norm": 4.3125,
|
||
|
|
"learning_rate": 5.76271186440678e-07,
|
||
|
|
"loss": 1.5671,
|
||
|
|
"step": 284
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.95,
|
||
|
|
"grad_norm": 4.0625,
|
||
|
|
"learning_rate": 5.423728813559322e-07,
|
||
|
|
"loss": 1.4265,
|
||
|
|
"step": 285
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9533333333333334,
|
||
|
|
"grad_norm": 3.953125,
|
||
|
|
"learning_rate": 5.084745762711865e-07,
|
||
|
|
"loss": 1.3331,
|
||
|
|
"step": 286
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9566666666666667,
|
||
|
|
"grad_norm": 4.3125,
|
||
|
|
"learning_rate": 4.745762711864407e-07,
|
||
|
|
"loss": 1.5631,
|
||
|
|
"step": 287
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.96,
|
||
|
|
"grad_norm": 4.46875,
|
||
|
|
"learning_rate": 4.4067796610169497e-07,
|
||
|
|
"loss": 1.5866,
|
||
|
|
"step": 288
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9633333333333334,
|
||
|
|
"grad_norm": 4.875,
|
||
|
|
"learning_rate": 4.0677966101694916e-07,
|
||
|
|
"loss": 1.5228,
|
||
|
|
"step": 289
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9666666666666667,
|
||
|
|
"grad_norm": 4.3125,
|
||
|
|
"learning_rate": 3.7288135593220347e-07,
|
||
|
|
"loss": 1.4163,
|
||
|
|
"step": 290
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.97,
|
||
|
|
"grad_norm": 4.125,
|
||
|
|
"learning_rate": 3.3898305084745766e-07,
|
||
|
|
"loss": 1.418,
|
||
|
|
"step": 291
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9733333333333334,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 3.050847457627119e-07,
|
||
|
|
"loss": 1.4504,
|
||
|
|
"step": 292
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9766666666666667,
|
||
|
|
"grad_norm": 3.96875,
|
||
|
|
"learning_rate": 2.711864406779661e-07,
|
||
|
|
"loss": 1.4671,
|
||
|
|
"step": 293
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.98,
|
||
|
|
"grad_norm": 3.90625,
|
||
|
|
"learning_rate": 2.3728813559322036e-07,
|
||
|
|
"loss": 1.3604,
|
||
|
|
"step": 294
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9833333333333333,
|
||
|
|
"grad_norm": 4.0,
|
||
|
|
"learning_rate": 2.0338983050847458e-07,
|
||
|
|
"loss": 1.3756,
|
||
|
|
"step": 295
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9866666666666667,
|
||
|
|
"grad_norm": 4.28125,
|
||
|
|
"learning_rate": 1.6949152542372883e-07,
|
||
|
|
"loss": 1.4629,
|
||
|
|
"step": 296
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.99,
|
||
|
|
"grad_norm": 4.1875,
|
||
|
|
"learning_rate": 1.3559322033898305e-07,
|
||
|
|
"loss": 1.4569,
|
||
|
|
"step": 297
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9933333333333333,
|
||
|
|
"grad_norm": 4.03125,
|
||
|
|
"learning_rate": 1.0169491525423729e-07,
|
||
|
|
"loss": 1.4611,
|
||
|
|
"step": 298
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 0.9966666666666667,
|
||
|
|
"grad_norm": 4.625,
|
||
|
|
"learning_rate": 6.779661016949153e-08,
|
||
|
|
"loss": 1.3683,
|
||
|
|
"step": 299
|
||
|
|
},
|
||
|
|
{
|
||
|
|
"epoch": 1.0,
|
||
|
|
"grad_norm": 3.96875,
|
||
|
|
"learning_rate": 3.3898305084745764e-08,
|
||
|
|
"loss": 1.3875,
|
||
|
|
"step": 300
|
||
|
|
}
|
||
|
|
],
|
||
|
|
"logging_steps": 1,
|
||
|
|
"max_steps": 300,
|
||
|
|
"num_input_tokens_seen": 0,
|
||
|
|
"num_train_epochs": 1,
|
||
|
|
"save_steps": 5000,
|
||
|
|
"stateful_callbacks": {
|
||
|
|
"TrainerControl": {
|
||
|
|
"args": {
|
||
|
|
"should_epoch_stop": false,
|
||
|
|
"should_evaluate": false,
|
||
|
|
"should_log": false,
|
||
|
|
"should_save": true,
|
||
|
|
"should_training_stop": true
|
||
|
|
},
|
||
|
|
"attributes": {}
|
||
|
|
}
|
||
|
|
},
|
||
|
|
"total_flos": 2.070387224827085e+16,
|
||
|
|
"train_batch_size": 2,
|
||
|
|
"trial_name": null,
|
||
|
|
"trial_params": null
|
||
|
|
}
|