初始化项目,由ModelHub XC社区提供模型
Model: Leooyii/NTK_64k_Slimpajama_1B Source: Original Platform
This commit is contained in:
388
trainer_state.json
Normal file
388
trainer_state.json
Normal file
@@ -0,0 +1,388 @@
|
||||
{
|
||||
"best_metric": null,
|
||||
"best_model_checkpoint": null,
|
||||
"epoch": 0.997920997920998,
|
||||
"eval_steps": 500,
|
||||
"global_step": 60,
|
||||
"is_hyper_param_search": false,
|
||||
"is_local_process_zero": true,
|
||||
"is_world_process_zero": true,
|
||||
"log_history": [
|
||||
{
|
||||
"epoch": 0.02,
|
||||
"learning_rate": 0.0,
|
||||
"loss": 5.4047,
|
||||
"step": 1
|
||||
},
|
||||
{
|
||||
"epoch": 0.03,
|
||||
"learning_rate": 4.6275642631951835e-06,
|
||||
"loss": 4.4142,
|
||||
"step": 2
|
||||
},
|
||||
{
|
||||
"epoch": 0.05,
|
||||
"learning_rate": 7.3345158268416935e-06,
|
||||
"loss": 4.5149,
|
||||
"step": 3
|
||||
},
|
||||
{
|
||||
"epoch": 0.07,
|
||||
"learning_rate": 9.255128526390367e-06,
|
||||
"loss": 3.7716,
|
||||
"step": 4
|
||||
},
|
||||
{
|
||||
"epoch": 0.08,
|
||||
"learning_rate": 1.0744871473609633e-05,
|
||||
"loss": 3.3638,
|
||||
"step": 5
|
||||
},
|
||||
{
|
||||
"epoch": 0.1,
|
||||
"learning_rate": 1.1962080090036879e-05,
|
||||
"loss": 2.7725,
|
||||
"step": 6
|
||||
},
|
||||
{
|
||||
"epoch": 0.12,
|
||||
"learning_rate": 1.299121531141887e-05,
|
||||
"loss": 2.5599,
|
||||
"step": 7
|
||||
},
|
||||
{
|
||||
"epoch": 0.13,
|
||||
"learning_rate": 1.388269278958555e-05,
|
||||
"loss": 2.4306,
|
||||
"step": 8
|
||||
},
|
||||
{
|
||||
"epoch": 0.15,
|
||||
"learning_rate": 1.4669031653683387e-05,
|
||||
"loss": 2.1624,
|
||||
"step": 9
|
||||
},
|
||||
{
|
||||
"epoch": 0.17,
|
||||
"learning_rate": 1.537243573680482e-05,
|
||||
"loss": 2.0444,
|
||||
"step": 10
|
||||
},
|
||||
{
|
||||
"epoch": 0.18,
|
||||
"learning_rate": 1.600874212937343e-05,
|
||||
"loss": 1.9676,
|
||||
"step": 11
|
||||
},
|
||||
{
|
||||
"epoch": 0.2,
|
||||
"learning_rate": 1.6589644353232063e-05,
|
||||
"loss": 1.8458,
|
||||
"step": 12
|
||||
},
|
||||
{
|
||||
"epoch": 0.22,
|
||||
"learning_rate": 1.712402259777778e-05,
|
||||
"loss": 1.8314,
|
||||
"step": 13
|
||||
},
|
||||
{
|
||||
"epoch": 0.23,
|
||||
"learning_rate": 1.7618779574614054e-05,
|
||||
"loss": 1.8304,
|
||||
"step": 14
|
||||
},
|
||||
{
|
||||
"epoch": 0.25,
|
||||
"learning_rate": 1.8079387300451327e-05,
|
||||
"loss": 1.7738,
|
||||
"step": 15
|
||||
},
|
||||
{
|
||||
"epoch": 0.27,
|
||||
"learning_rate": 1.8510257052780734e-05,
|
||||
"loss": 1.7805,
|
||||
"step": 16
|
||||
},
|
||||
{
|
||||
"epoch": 0.28,
|
||||
"learning_rate": 1.891499697130832e-05,
|
||||
"loss": 1.751,
|
||||
"step": 17
|
||||
},
|
||||
{
|
||||
"epoch": 0.3,
|
||||
"learning_rate": 1.929659591687857e-05,
|
||||
"loss": 1.6917,
|
||||
"step": 18
|
||||
},
|
||||
{
|
||||
"epoch": 0.32,
|
||||
"learning_rate": 1.9657557553855117e-05,
|
||||
"loss": 1.7093,
|
||||
"step": 19
|
||||
},
|
||||
{
|
||||
"epoch": 0.33,
|
||||
"learning_rate": 2e-05,
|
||||
"loss": 1.7375,
|
||||
"step": 20
|
||||
},
|
||||
{
|
||||
"epoch": 0.35,
|
||||
"learning_rate": 2e-05,
|
||||
"loss": 1.6819,
|
||||
"step": 21
|
||||
},
|
||||
{
|
||||
"epoch": 0.37,
|
||||
"learning_rate": 1.95e-05,
|
||||
"loss": 1.709,
|
||||
"step": 22
|
||||
},
|
||||
{
|
||||
"epoch": 0.38,
|
||||
"learning_rate": 1.9e-05,
|
||||
"loss": 1.6692,
|
||||
"step": 23
|
||||
},
|
||||
{
|
||||
"epoch": 0.4,
|
||||
"learning_rate": 1.8500000000000002e-05,
|
||||
"loss": 1.7028,
|
||||
"step": 24
|
||||
},
|
||||
{
|
||||
"epoch": 0.42,
|
||||
"learning_rate": 1.8e-05,
|
||||
"loss": 1.7053,
|
||||
"step": 25
|
||||
},
|
||||
{
|
||||
"epoch": 0.43,
|
||||
"learning_rate": 1.7500000000000002e-05,
|
||||
"loss": 1.6622,
|
||||
"step": 26
|
||||
},
|
||||
{
|
||||
"epoch": 0.45,
|
||||
"learning_rate": 1.7e-05,
|
||||
"loss": 1.6586,
|
||||
"step": 27
|
||||
},
|
||||
{
|
||||
"epoch": 0.47,
|
||||
"learning_rate": 1.65e-05,
|
||||
"loss": 1.6884,
|
||||
"step": 28
|
||||
},
|
||||
{
|
||||
"epoch": 0.48,
|
||||
"learning_rate": 1.6000000000000003e-05,
|
||||
"loss": 1.6559,
|
||||
"step": 29
|
||||
},
|
||||
{
|
||||
"epoch": 0.5,
|
||||
"learning_rate": 1.55e-05,
|
||||
"loss": 1.6173,
|
||||
"step": 30
|
||||
},
|
||||
{
|
||||
"epoch": 0.52,
|
||||
"learning_rate": 1.5000000000000002e-05,
|
||||
"loss": 1.6468,
|
||||
"step": 31
|
||||
},
|
||||
{
|
||||
"epoch": 0.53,
|
||||
"learning_rate": 1.45e-05,
|
||||
"loss": 1.6495,
|
||||
"step": 32
|
||||
},
|
||||
{
|
||||
"epoch": 0.55,
|
||||
"learning_rate": 1.4e-05,
|
||||
"loss": 1.6518,
|
||||
"step": 33
|
||||
},
|
||||
{
|
||||
"epoch": 0.57,
|
||||
"learning_rate": 1.3500000000000001e-05,
|
||||
"loss": 1.638,
|
||||
"step": 34
|
||||
},
|
||||
{
|
||||
"epoch": 0.58,
|
||||
"learning_rate": 1.3000000000000001e-05,
|
||||
"loss": 1.6725,
|
||||
"step": 35
|
||||
},
|
||||
{
|
||||
"epoch": 0.6,
|
||||
"learning_rate": 1.25e-05,
|
||||
"loss": 1.6123,
|
||||
"step": 36
|
||||
},
|
||||
{
|
||||
"epoch": 0.62,
|
||||
"learning_rate": 1.2e-05,
|
||||
"loss": 1.6365,
|
||||
"step": 37
|
||||
},
|
||||
{
|
||||
"epoch": 0.63,
|
||||
"learning_rate": 1.15e-05,
|
||||
"loss": 1.6473,
|
||||
"step": 38
|
||||
},
|
||||
{
|
||||
"epoch": 0.65,
|
||||
"learning_rate": 1.1000000000000001e-05,
|
||||
"loss": 1.5988,
|
||||
"step": 39
|
||||
},
|
||||
{
|
||||
"epoch": 0.67,
|
||||
"learning_rate": 1.0500000000000001e-05,
|
||||
"loss": 1.6443,
|
||||
"step": 40
|
||||
},
|
||||
{
|
||||
"epoch": 0.68,
|
||||
"learning_rate": 1e-05,
|
||||
"loss": 1.6344,
|
||||
"step": 41
|
||||
},
|
||||
{
|
||||
"epoch": 0.7,
|
||||
"learning_rate": 9.5e-06,
|
||||
"loss": 1.6198,
|
||||
"step": 42
|
||||
},
|
||||
{
|
||||
"epoch": 0.72,
|
||||
"learning_rate": 9e-06,
|
||||
"loss": 1.6138,
|
||||
"step": 43
|
||||
},
|
||||
{
|
||||
"epoch": 0.73,
|
||||
"learning_rate": 8.5e-06,
|
||||
"loss": 1.6499,
|
||||
"step": 44
|
||||
},
|
||||
{
|
||||
"epoch": 0.75,
|
||||
"learning_rate": 8.000000000000001e-06,
|
||||
"loss": 1.6466,
|
||||
"step": 45
|
||||
},
|
||||
{
|
||||
"epoch": 0.77,
|
||||
"learning_rate": 7.500000000000001e-06,
|
||||
"loss": 1.6387,
|
||||
"step": 46
|
||||
},
|
||||
{
|
||||
"epoch": 0.78,
|
||||
"learning_rate": 7e-06,
|
||||
"loss": 1.6208,
|
||||
"step": 47
|
||||
},
|
||||
{
|
||||
"epoch": 0.8,
|
||||
"learning_rate": 6.5000000000000004e-06,
|
||||
"loss": 1.647,
|
||||
"step": 48
|
||||
},
|
||||
{
|
||||
"epoch": 0.81,
|
||||
"learning_rate": 6e-06,
|
||||
"loss": 1.6273,
|
||||
"step": 49
|
||||
},
|
||||
{
|
||||
"epoch": 0.83,
|
||||
"learning_rate": 5.500000000000001e-06,
|
||||
"loss": 1.6275,
|
||||
"step": 50
|
||||
},
|
||||
{
|
||||
"epoch": 0.85,
|
||||
"learning_rate": 5e-06,
|
||||
"loss": 1.598,
|
||||
"step": 51
|
||||
},
|
||||
{
|
||||
"epoch": 0.86,
|
||||
"learning_rate": 4.5e-06,
|
||||
"loss": 1.63,
|
||||
"step": 52
|
||||
},
|
||||
{
|
||||
"epoch": 0.88,
|
||||
"learning_rate": 4.000000000000001e-06,
|
||||
"loss": 1.6693,
|
||||
"step": 53
|
||||
},
|
||||
{
|
||||
"epoch": 0.9,
|
||||
"learning_rate": 3.5e-06,
|
||||
"loss": 1.6366,
|
||||
"step": 54
|
||||
},
|
||||
{
|
||||
"epoch": 0.91,
|
||||
"learning_rate": 3e-06,
|
||||
"loss": 1.5802,
|
||||
"step": 55
|
||||
},
|
||||
{
|
||||
"epoch": 0.93,
|
||||
"learning_rate": 2.5e-06,
|
||||
"loss": 1.6816,
|
||||
"step": 56
|
||||
},
|
||||
{
|
||||
"epoch": 0.95,
|
||||
"learning_rate": 2.0000000000000003e-06,
|
||||
"loss": 1.6158,
|
||||
"step": 57
|
||||
},
|
||||
{
|
||||
"epoch": 0.96,
|
||||
"learning_rate": 1.5e-06,
|
||||
"loss": 1.6564,
|
||||
"step": 58
|
||||
},
|
||||
{
|
||||
"epoch": 0.98,
|
||||
"learning_rate": 1.0000000000000002e-06,
|
||||
"loss": 1.6194,
|
||||
"step": 59
|
||||
},
|
||||
{
|
||||
"epoch": 1.0,
|
||||
"learning_rate": 5.000000000000001e-07,
|
||||
"loss": 1.6099,
|
||||
"step": 60
|
||||
},
|
||||
{
|
||||
"epoch": 1.0,
|
||||
"step": 60,
|
||||
"total_flos": 1607198236999680.0,
|
||||
"train_loss": 1.9521601617336273,
|
||||
"train_runtime": 86972.6725,
|
||||
"train_samples_per_second": 0.177,
|
||||
"train_steps_per_second": 0.001
|
||||
}
|
||||
],
|
||||
"logging_steps": 1.0,
|
||||
"max_steps": 60,
|
||||
"num_train_epochs": 1,
|
||||
"save_steps": 500,
|
||||
"total_flos": 1607198236999680.0,
|
||||
"trial_name": null,
|
||||
"trial_params": null
|
||||
}
|
||||
Reference in New Issue
Block a user