swesmith-unified-10000__Qwe…/trainer_state.json

{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 7.0,
  "eval_steps": 500,
  "global_step": 259,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.13513513513513514,
      "grad_norm": 5.259959182216627,
      "learning_rate": 6.153846153846155e-06,
      "loss": 0.3116,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.09571799635887146,
      "step": 5,
      "valid_targets_mean": 6433.7,
      "valid_targets_min": 577
    },
    {
      "epoch": 0.2702702702702703,
      "grad_norm": 1.3423309952029923,
      "learning_rate": 1.3846153846153847e-05,
      "loss": 0.2587,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.07112158834934235,
      "step": 10,
      "valid_targets_mean": 7327.8,
      "valid_targets_min": 413
    },
    {
      "epoch": 0.40540540540540543,
      "grad_norm": 0.503106602146357,
      "learning_rate": 2.153846153846154e-05,
      "loss": 0.2116,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.06387270987033844,
      "step": 15,
      "valid_targets_mean": 7716.1,
      "valid_targets_min": 701
    },
    {
      "epoch": 0.5405405405405406,
      "grad_norm": 0.43730375431686763,
      "learning_rate": 2.923076923076923e-05,
      "loss": 0.188,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.057055432349443436,
      "step": 20,
      "valid_targets_mean": 6165.1,
      "valid_targets_min": 2120
    },
    {
      "epoch": 0.6756756756756757,
      "grad_norm": 0.23457297766166457,
      "learning_rate": 3.692307692307693e-05,
      "loss": 0.1511,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.04511473327875137,
      "step": 25,
      "valid_targets_mean": 6698.5,
      "valid_targets_min": 579
    },
    {
      "epoch": 0.8108108108108109,
      "grad_norm": 0.22580079812560477,
      "learning_rate": 3.998364045590232e-05,
      "loss": 0.1382,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.04277999699115753,
      "step": 30,
      "valid_targets_mean": 5174.9,
      "valid_targets_min": 340
    },
    {
      "epoch": 0.9459459459459459,
      "grad_norm": 0.15302847392142027,
      "learning_rate": 3.988376236895231e-05,
      "loss": 0.1277,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.03875000774860382,
      "step": 35,
      "valid_targets_mean": 6631.1,
      "valid_targets_min": 431
    },
    {
      "epoch": 1.0810810810810811,
      "grad_norm": 0.14846277384715484,
      "learning_rate": 3.969354804762473e-05,
      "loss": 0.1171,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.035136736929416656,
      "step": 40,
      "valid_targets_mean": 5226.1,
      "valid_targets_min": 427
    },
    {
      "epoch": 1.2162162162162162,
      "grad_norm": 0.17362666626644624,
      "learning_rate": 3.9413861676735034e-05,
      "loss": 0.1152,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.035750940442085266,
      "step": 45,
      "valid_targets_mean": 6524.1,
      "valid_targets_min": 497
    },
    {
      "epoch": 1.3513513513513513,
      "grad_norm": 0.13178939301683926,
      "learning_rate": 3.9045973931977495e-05,
      "loss": 0.1102,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.036801472306251526,
      "step": 50,
      "valid_targets_mean": 6943.8,
      "valid_targets_min": 2015
    },
    {
      "epoch": 1.4864864864864864,
      "grad_norm": 0.18185896796674594,
      "learning_rate": 3.8591556206970594e-05,
      "loss": 0.106,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.03439167141914368,
      "step": 55,
      "valid_targets_mean": 5706.4,
      "valid_targets_min": 453
    },
    {
      "epoch": 1.6216216216216215,
      "grad_norm": 0.1385453505062919,
      "learning_rate": 3.805267301975424e-05,
      "loss": 0.1059,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.035251468420028687,
      "step": 60,
      "valid_targets_mean": 6418.2,
      "valid_targets_min": 1363
    },
    {
      "epoch": 1.7567567567567568,
      "grad_norm": 0.13076540307986736,
      "learning_rate": 3.743177263323758e-05,
      "loss": 0.1042,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.03142703324556351,
      "step": 65,
      "valid_targets_mean": 5221.7,
      "valid_targets_min": 577
    },
    {
      "epoch": 1.8918918918918919,
      "grad_norm": 0.13340506373409342,
      "learning_rate": 3.673167593221097e-05,
      "loss": 0.0995,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.034315336495637894,
      "step": 70,
      "valid_targets_mean": 6568.5,
      "valid_targets_min": 723
    },
    {
      "epoch": 2.027027027027027,
      "grad_norm": 0.1410479342684041,
      "learning_rate": 3.5955563607456025e-05,
      "loss": 0.0975,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.030078843235969543,
      "step": 75,
      "valid_targets_mean": 5617.2,
      "valid_targets_min": 387
    },
    {
      "epoch": 2.1621621621621623,
      "grad_norm": 0.14495862504665655,
      "learning_rate": 3.510696170517927e-05,
      "loss": 0.0949,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.028750576078891754,
      "step": 80,
      "valid_targets_mean": 5150.5,
      "valid_targets_min": 427
    },
    {
      "epoch": 2.2972972972972974,
      "grad_norm": 0.14212400520351012,
      "learning_rate": 3.418972560742133e-05,
      "loss": 0.0905,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.0317218042910099,
      "step": 85,
      "valid_targets_mean": 6628.6,
      "valid_targets_min": 883
    },
    {
      "epoch": 2.4324324324324325,
      "grad_norm": 0.1337772062885725,
      "learning_rate": 3.3208022516222195e-05,
      "loss": 0.091,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.0257179643958807,
      "step": 90,
      "valid_targets_mean": 6095.6,
      "valid_targets_min": 436
    },
    {
      "epoch": 2.5675675675675675,
      "grad_norm": 0.17276086488015027,
      "learning_rate": 3.2166312521120775e-05,
      "loss": 0.0876,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.030876662582159042,
      "step": 95,
      "valid_targets_mean": 6510.9,
      "valid_targets_min": 1635
    },
    {
      "epoch": 2.7027027027027026,
      "grad_norm": 0.1480157679597937,
      "learning_rate": 3.106932833600314e-05,
      "loss": 0.0865,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.02585354819893837,
      "step": 100,
      "valid_targets_mean": 6586.1,
      "valid_targets_min": 1657
    },
    {
      "epoch": 2.8378378378378377,
      "grad_norm": 0.15909100754186584,
      "learning_rate": 2.9922053797359406e-05,
      "loss": 0.0901,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.027233216911554337,
      "step": 105,
      "valid_targets_mean": 5279.3,
      "valid_targets_min": 393
    },
    {
      "epoch": 2.972972972972973,
      "grad_norm": 0.18306212162162813,
      "learning_rate": 2.8729701221636294e-05,
      "loss": 0.0865,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.02899256721138954,
      "step": 110,
      "valid_targets_mean": 5776.7,
      "valid_targets_min": 1181
    },
    {
      "epoch": 3.108108108108108,
      "grad_norm": 0.15654440385954815,
      "learning_rate": 2.74976877245558e-05,
      "loss": 0.0843,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.026833169162273407,
      "step": 115,
      "valid_targets_mean": 5595.8,
      "valid_targets_min": 395
    },
    {
      "epoch": 3.2432432432432434,
      "grad_norm": 0.13190386927690592,
      "learning_rate": 2.6231610609986442e-05,
      "loss": 0.0776,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.024204321205615997,
      "step": 120,
      "valid_targets_mean": 8543.6,
      "valid_targets_min": 1525
    },
    {
      "epoch": 3.3783783783783785,
      "grad_norm": 0.15764713783801354,
      "learning_rate": 2.493722194018082e-05,
      "loss": 0.0813,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.024981103837490082,
      "step": 125,
      "valid_targets_mean": 5946.0,
      "valid_targets_min": 1137
    },
    {
      "epoch": 3.5135135135135136,
      "grad_norm": 0.1529541859974241,
      "learning_rate": 2.362040240291227e-05,
      "loss": 0.0815,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.026058465242385864,
      "step": 130,
      "valid_targets_mean": 6072.2,
      "valid_targets_min": 802
    },
    {
      "epoch": 3.6486486486486487,
      "grad_norm": 0.33060538437630244,
      "learning_rate": 2.228713459423804e-05,
      "loss": 0.0778,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.02479572780430317,
      "step": 135,
      "valid_targets_mean": 5208.4,
      "valid_targets_min": 497
    },
    {
      "epoch": 3.7837837837837838,
      "grad_norm": 0.15640399728656484,
      "learning_rate": 2.094347583827102e-05,
      "loss": 0.0817,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.026677442714571953,
      "step": 140,
      "valid_targets_mean": 5517.4,
      "valid_targets_min": 393
    },
    {
      "epoch": 3.918918918918919,
      "grad_norm": 0.1517001071529229,
      "learning_rate": 1.9595530667445775e-05,
      "loss": 0.076,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.026775188744068146,
      "step": 145,
      "valid_targets_mean": 6216.9,
      "valid_targets_min": 820
    },
    {
      "epoch": 4.054054054054054,
      "grad_norm": 0.1520783489774219,
      "learning_rate": 1.824942308830696e-05,
      "loss": 0.0787,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.02473868615925312,
      "step": 150,
      "valid_targets_mean": 5801.8,
      "valid_targets_min": 692
    },
    {
      "epoch": 4.1891891891891895,
      "grad_norm": 0.14931092491442138,
      "learning_rate": 1.691126875882263e-05,
      "loss": 0.0752,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.021454155445098877,
      "step": 155,
      "valid_targets_mean": 6150.3,
      "valid_targets_min": 577
    },
    {
      "epoch": 4.324324324324325,
      "grad_norm": 0.15680952631799258,
      "learning_rate": 1.5587147203626934e-05,
      "loss": 0.0712,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.022702787071466446,
      "step": 160,
      "valid_targets_mean": 6739.9,
      "valid_targets_min": 1051
    },
    {
      "epoch": 4.45945945945946,
      "grad_norm": 0.15760466083796523,
      "learning_rate": 1.4283074193424379e-05,
      "loss": 0.0713,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.022617951035499573,
      "step": 165,
      "valid_targets_mean": 6288.2,
      "valid_targets_min": 579
    },
    {
      "epoch": 4.594594594594595,
      "grad_norm": 0.16238993129940618,
      "learning_rate": 1.3004974414041987e-05,
      "loss": 0.0738,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.02532375603914261,
      "step": 170,
      "valid_targets_mean": 5912.8,
      "valid_targets_min": 1757
    },
    {
      "epoch": 4.72972972972973,
      "grad_norm": 0.1636253567113291,
      "learning_rate": 1.1758654549299735e-05,
      "loss": 0.0711,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.022857841104269028,
      "step": 175,
      "valid_targets_mean": 5464.2,
      "valid_targets_min": 577
    },
    {
      "epoch": 4.864864864864865,
      "grad_norm": 0.18989576780948067,
      "learning_rate": 1.0549776899989686e-05,
      "loss": 0.0727,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.021705035120248795,
      "step": 180,
      "valid_targets_mean": 7371.7,
      "valid_targets_min": 355
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.17912554773879225,
      "learning_rate": 9.3838336588184e-06,
      "loss": 0.074,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.029517250135540962,
      "step": 185,
      "valid_targets_mean": 5847.1,
      "valid_targets_min": 342
    },
    {
      "epoch": 5.135135135135135,
      "grad_norm": 0.17463959150551875,
      "learning_rate": 8.266121958187246e-06,
      "loss": 0.0709,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.024629643186926842,
      "step": 190,
      "valid_targets_mean": 7010.6,
      "valid_targets_min": 1067
    },
    {
      "epoch": 5.27027027027027,
      "grad_norm": 0.16012384004377175,
      "learning_rate": 7.201719804173797e-06,
      "loss": 0.0683,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.02399550750851631,
      "step": 195,
      "valid_targets_mean": 6869.6,
      "valid_targets_min": 405
    },
    {
      "epoch": 5.405405405405405,
      "grad_norm": 0.27301642675588644,
      "learning_rate": 6.1954630060516005e-06,
      "loss": 0.0676,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.023653771728277206,
      "step": 200,
      "valid_targets_mean": 4831.9,
      "valid_targets_min": 1161
    },
    {
      "epoch": 5.54054054054054,
      "grad_norm": 0.1781041058075561,
      "learning_rate": 5.2519232061624255e-06,
      "loss": 0.0698,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.02264336310327053,
      "step": 205,
      "valid_targets_mean": 6068.0,
      "valid_targets_min": 467
    },
    {
      "epoch": 5.675675675675675,
      "grad_norm": 0.1623201456410524,
      "learning_rate": 4.375387109955953e-06,
      "loss": 0.0693,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.022714542225003242,
      "step": 210,
      "valid_targets_mean": 6206.7,
      "valid_targets_min": 1846
    },
    {
      "epoch": 5.8108108108108105,
      "grad_norm": 0.18485993941649267,
      "learning_rate": 3.569837010559505e-06,
      "loss": 0.0661,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.023270253092050552,
      "step": 215,
      "valid_targets_mean": 7176.0,
      "valid_targets_min": 372
    },
    {
      "epoch": 5.945945945945946,
      "grad_norm": 0.18961469137543394,
      "learning_rate": 2.838932696358798e-06,
      "loss": 0.0695,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.024968810379505157,
      "step": 220,
      "valid_targets_mean": 6053.5,
      "valid_targets_min": 427
    },
    {
      "epoch": 6.081081081081081,
      "grad_norm": 0.15015876207979317,
      "learning_rate": 2.1859948237874517e-06,
      "loss": 0.0681,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.01862494647502899,
      "step": 225,
      "valid_targets_mean": 5860.2,
      "valid_targets_min": 387
    },
    {
      "epoch": 6.216216216216216,
      "grad_norm": 0.15711014903589288,
      "learning_rate": 1.6139898308664093e-06,
      "loss": 0.0663,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.02179352566599846,
      "step": 230,
      "valid_targets_mean": 6635.5,
      "valid_targets_min": 2015
    },
    {
      "epoch": 6.351351351351352,
      "grad_norm": 0.19367059367410314,
      "learning_rate": 1.1255164600341816e-06,
      "loss": 0.0674,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.022510964423418045,
      "step": 235,
      "valid_targets_mean": 5707.8,
      "valid_targets_min": 445
    },
    {
      "epoch": 6.486486486486487,
      "grad_norm": 0.17844773460429106,
      "learning_rate": 7.227939514977422e-07,
      "loss": 0.0666,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.023919889703392982,
      "step": 240,
      "valid_targets_mean": 5842.8,
      "valid_targets_min": 453
    },
    {
      "epoch": 6.621621621621622,
      "grad_norm": 0.16782709344204977,
      "learning_rate": 4.0765196074406433e-07,
      "loss": 0.0697,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.01854727789759636,
      "step": 245,
      "valid_targets_mean": 5001.1,
      "valid_targets_min": 1381
    },
    {
      "epoch": 6.756756756756757,
      "grad_norm": 0.16683190263277645,
      "learning_rate": 1.8152224601943435e-07,
      "loss": 0.0666,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.02349766716361046,
      "step": 250,
      "valid_targets_mean": 7224.0,
      "valid_targets_min": 405
    },
    {
      "epoch": 6.891891891891892,
      "grad_norm": 0.165105262824618,
      "learning_rate": 4.5432163541960785e-08,
      "loss": 0.0668,
      "loss_nan_ranks": 0,
      "loss_rank_avg": 0.026979651302099228,
      "step": 255,
      "valid_targets_mean": 7160.0,
      "valid_targets_min": 434
    },
    {
      "epoch": 7.0,
      "step": 259,
      "total_flos": 1.36492518344124e+18,
      "train_loss": 0.0,
      "train_runtime": 1.313,
      "train_samples_per_second": 18873.051,
      "train_steps_per_second": 197.261
    }
  ],
  "logging_steps": 5,
  "max_steps": 259,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 7,
  "save_steps": 300,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.36492518344124e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}
初始化项目，由ModelHub XC社区提供模型 Model: laion/swesmith-unified-10000__Qwen3-8B Source: Original Platform 2026-05-28 09:32:21 +08:00			`{`
			`"best_global_step": null,`
			`"best_metric": null,`
			`"best_model_checkpoint": null,`
			`"epoch": 7.0,`
			`"eval_steps": 500,`
			`"global_step": 259,`
			`"is_hyper_param_search": false,`
			`"is_local_process_zero": true,`
			`"is_world_process_zero": true,`
			`"log_history": [`
			`{`
			`"epoch": 0.13513513513513514,`
			`"grad_norm": 5.259959182216627,`
			`"learning_rate": 6.153846153846155e-06,`
			`"loss": 0.3116,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.09571799635887146,`
			`"step": 5,`
			`"valid_targets_mean": 6433.7,`
			`"valid_targets_min": 577`
			`},`
			`{`
			`"epoch": 0.2702702702702703,`
			`"grad_norm": 1.3423309952029923,`
			`"learning_rate": 1.3846153846153847e-05,`
			`"loss": 0.2587,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.07112158834934235,`
			`"step": 10,`
			`"valid_targets_mean": 7327.8,`
			`"valid_targets_min": 413`
			`},`
			`{`
			`"epoch": 0.40540540540540543,`
			`"grad_norm": 0.503106602146357,`
			`"learning_rate": 2.153846153846154e-05,`
			`"loss": 0.2116,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.06387270987033844,`
			`"step": 15,`
			`"valid_targets_mean": 7716.1,`
			`"valid_targets_min": 701`
			`},`
			`{`
			`"epoch": 0.5405405405405406,`
			`"grad_norm": 0.43730375431686763,`
			`"learning_rate": 2.923076923076923e-05,`
			`"loss": 0.188,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.057055432349443436,`
			`"step": 20,`
			`"valid_targets_mean": 6165.1,`
			`"valid_targets_min": 2120`
			`},`
			`{`
			`"epoch": 0.6756756756756757,`
			`"grad_norm": 0.23457297766166457,`
			`"learning_rate": 3.692307692307693e-05,`
			`"loss": 0.1511,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.04511473327875137,`
			`"step": 25,`
			`"valid_targets_mean": 6698.5,`
			`"valid_targets_min": 579`
			`},`
			`{`
			`"epoch": 0.8108108108108109,`
			`"grad_norm": 0.22580079812560477,`
			`"learning_rate": 3.998364045590232e-05,`
			`"loss": 0.1382,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.04277999699115753,`
			`"step": 30,`
			`"valid_targets_mean": 5174.9,`
			`"valid_targets_min": 340`
			`},`
			`{`
			`"epoch": 0.9459459459459459,`
			`"grad_norm": 0.15302847392142027,`
			`"learning_rate": 3.988376236895231e-05,`
			`"loss": 0.1277,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.03875000774860382,`
			`"step": 35,`
			`"valid_targets_mean": 6631.1,`
			`"valid_targets_min": 431`
			`},`
			`{`
			`"epoch": 1.0810810810810811,`
			`"grad_norm": 0.14846277384715484,`
			`"learning_rate": 3.969354804762473e-05,`
			`"loss": 0.1171,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.035136736929416656,`
			`"step": 40,`
			`"valid_targets_mean": 5226.1,`
			`"valid_targets_min": 427`
			`},`
			`{`
			`"epoch": 1.2162162162162162,`
			`"grad_norm": 0.17362666626644624,`
			`"learning_rate": 3.9413861676735034e-05,`
			`"loss": 0.1152,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.035750940442085266,`
			`"step": 45,`
			`"valid_targets_mean": 6524.1,`
			`"valid_targets_min": 497`
			`},`
			`{`
			`"epoch": 1.3513513513513513,`
			`"grad_norm": 0.13178939301683926,`
			`"learning_rate": 3.9045973931977495e-05,`
			`"loss": 0.1102,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.036801472306251526,`
			`"step": 50,`
			`"valid_targets_mean": 6943.8,`
			`"valid_targets_min": 2015`
			`},`
			`{`
			`"epoch": 1.4864864864864864,`
			`"grad_norm": 0.18185896796674594,`
			`"learning_rate": 3.8591556206970594e-05,`
			`"loss": 0.106,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.03439167141914368,`
			`"step": 55,`
			`"valid_targets_mean": 5706.4,`
			`"valid_targets_min": 453`
			`},`
			`{`
			`"epoch": 1.6216216216216215,`
			`"grad_norm": 0.1385453505062919,`
			`"learning_rate": 3.805267301975424e-05,`
			`"loss": 0.1059,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.035251468420028687,`
			`"step": 60,`
			`"valid_targets_mean": 6418.2,`
			`"valid_targets_min": 1363`
			`},`
			`{`
			`"epoch": 1.7567567567567568,`
			`"grad_norm": 0.13076540307986736,`
			`"learning_rate": 3.743177263323758e-05,`
			`"loss": 0.1042,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.03142703324556351,`
			`"step": 65,`
			`"valid_targets_mean": 5221.7,`
			`"valid_targets_min": 577`
			`},`
			`{`
			`"epoch": 1.8918918918918919,`
			`"grad_norm": 0.13340506373409342,`
			`"learning_rate": 3.673167593221097e-05,`
			`"loss": 0.0995,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.034315336495637894,`
			`"step": 70,`
			`"valid_targets_mean": 6568.5,`
			`"valid_targets_min": 723`
			`},`
			`{`
			`"epoch": 2.027027027027027,`
			`"grad_norm": 0.1410479342684041,`
			`"learning_rate": 3.5955563607456025e-05,`
			`"loss": 0.0975,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.030078843235969543,`
			`"step": 75,`
			`"valid_targets_mean": 5617.2,`
			`"valid_targets_min": 387`
			`},`
			`{`
			`"epoch": 2.1621621621621623,`
			`"grad_norm": 0.14495862504665655,`
			`"learning_rate": 3.510696170517927e-05,`
			`"loss": 0.0949,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.028750576078891754,`
			`"step": 80,`
			`"valid_targets_mean": 5150.5,`
			`"valid_targets_min": 427`
			`},`
			`{`
			`"epoch": 2.2972972972972974,`
			`"grad_norm": 0.14212400520351012,`
			`"learning_rate": 3.418972560742133e-05,`
			`"loss": 0.0905,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.0317218042910099,`
			`"step": 85,`
			`"valid_targets_mean": 6628.6,`
			`"valid_targets_min": 883`
			`},`
			`{`
			`"epoch": 2.4324324324324325,`
			`"grad_norm": 0.1337772062885725,`
			`"learning_rate": 3.3208022516222195e-05,`
			`"loss": 0.091,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.0257179643958807,`
			`"step": 90,`
			`"valid_targets_mean": 6095.6,`
			`"valid_targets_min": 436`
			`},`
			`{`
			`"epoch": 2.5675675675675675,`
			`"grad_norm": 0.17276086488015027,`
			`"learning_rate": 3.2166312521120775e-05,`
			`"loss": 0.0876,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.030876662582159042,`
			`"step": 95,`
			`"valid_targets_mean": 6510.9,`
			`"valid_targets_min": 1635`
			`},`
			`{`
			`"epoch": 2.7027027027027026,`
			`"grad_norm": 0.1480157679597937,`
			`"learning_rate": 3.106932833600314e-05,`
			`"loss": 0.0865,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.02585354819893837,`
			`"step": 100,`
			`"valid_targets_mean": 6586.1,`
			`"valid_targets_min": 1657`
			`},`
			`{`
			`"epoch": 2.8378378378378377,`
			`"grad_norm": 0.15909100754186584,`
			`"learning_rate": 2.9922053797359406e-05,`
			`"loss": 0.0901,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.027233216911554337,`
			`"step": 105,`
			`"valid_targets_mean": 5279.3,`
			`"valid_targets_min": 393`
			`},`
			`{`
			`"epoch": 2.972972972972973,`
			`"grad_norm": 0.18306212162162813,`
			`"learning_rate": 2.8729701221636294e-05,`
			`"loss": 0.0865,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.02899256721138954,`
			`"step": 110,`
			`"valid_targets_mean": 5776.7,`
			`"valid_targets_min": 1181`
			`},`
			`{`
			`"epoch": 3.108108108108108,`
			`"grad_norm": 0.15654440385954815,`
			`"learning_rate": 2.74976877245558e-05,`
			`"loss": 0.0843,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.026833169162273407,`
			`"step": 115,`
			`"valid_targets_mean": 5595.8,`
			`"valid_targets_min": 395`
			`},`
			`{`
			`"epoch": 3.2432432432432434,`
			`"grad_norm": 0.13190386927690592,`
			`"learning_rate": 2.6231610609986442e-05,`
			`"loss": 0.0776,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.024204321205615997,`
			`"step": 120,`
			`"valid_targets_mean": 8543.6,`
			`"valid_targets_min": 1525`
			`},`
			`{`
			`"epoch": 3.3783783783783785,`
			`"grad_norm": 0.15764713783801354,`
			`"learning_rate": 2.493722194018082e-05,`
			`"loss": 0.0813,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.024981103837490082,`
			`"step": 125,`
			`"valid_targets_mean": 5946.0,`
			`"valid_targets_min": 1137`
			`},`
			`{`
			`"epoch": 3.5135135135135136,`
			`"grad_norm": 0.1529541859974241,`
			`"learning_rate": 2.362040240291227e-05,`
			`"loss": 0.0815,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.026058465242385864,`
			`"step": 130,`
			`"valid_targets_mean": 6072.2,`
			`"valid_targets_min": 802`
			`},`
			`{`
			`"epoch": 3.6486486486486487,`
			`"grad_norm": 0.33060538437630244,`
			`"learning_rate": 2.228713459423804e-05,`
			`"loss": 0.0778,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.02479572780430317,`
			`"step": 135,`
			`"valid_targets_mean": 5208.4,`
			`"valid_targets_min": 497`
			`},`
			`{`
			`"epoch": 3.7837837837837838,`
			`"grad_norm": 0.15640399728656484,`
			`"learning_rate": 2.094347583827102e-05,`
			`"loss": 0.0817,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.026677442714571953,`
			`"step": 140,`
			`"valid_targets_mean": 5517.4,`
			`"valid_targets_min": 393`
			`},`
			`{`
			`"epoch": 3.918918918918919,`
			`"grad_norm": 0.1517001071529229,`
			`"learning_rate": 1.9595530667445775e-05,`
			`"loss": 0.076,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.026775188744068146,`
			`"step": 145,`
			`"valid_targets_mean": 6216.9,`
			`"valid_targets_min": 820`
			`},`
			`{`
			`"epoch": 4.054054054054054,`
			`"grad_norm": 0.1520783489774219,`
			`"learning_rate": 1.824942308830696e-05,`
			`"loss": 0.0787,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.02473868615925312,`
			`"step": 150,`
			`"valid_targets_mean": 5801.8,`
			`"valid_targets_min": 692`
			`},`
			`{`
			`"epoch": 4.1891891891891895,`
			`"grad_norm": 0.14931092491442138,`
			`"learning_rate": 1.691126875882263e-05,`
			`"loss": 0.0752,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.021454155445098877,`
			`"step": 155,`
			`"valid_targets_mean": 6150.3,`
			`"valid_targets_min": 577`
			`},`
			`{`
			`"epoch": 4.324324324324325,`
			`"grad_norm": 0.15680952631799258,`
			`"learning_rate": 1.5587147203626934e-05,`
			`"loss": 0.0712,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.022702787071466446,`
			`"step": 160,`
			`"valid_targets_mean": 6739.9,`
			`"valid_targets_min": 1051`
			`},`
			`{`
			`"epoch": 4.45945945945946,`
			`"grad_norm": 0.15760466083796523,`
			`"learning_rate": 1.4283074193424379e-05,`
			`"loss": 0.0713,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.022617951035499573,`
			`"step": 165,`
			`"valid_targets_mean": 6288.2,`
			`"valid_targets_min": 579`
			`},`
			`{`
			`"epoch": 4.594594594594595,`
			`"grad_norm": 0.16238993129940618,`
			`"learning_rate": 1.3004974414041987e-05,`
			`"loss": 0.0738,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.02532375603914261,`
			`"step": 170,`
			`"valid_targets_mean": 5912.8,`
			`"valid_targets_min": 1757`
			`},`
			`{`
			`"epoch": 4.72972972972973,`
			`"grad_norm": 0.1636253567113291,`
			`"learning_rate": 1.1758654549299735e-05,`
			`"loss": 0.0711,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.022857841104269028,`
			`"step": 175,`
			`"valid_targets_mean": 5464.2,`
			`"valid_targets_min": 577`
			`},`
			`{`
			`"epoch": 4.864864864864865,`
			`"grad_norm": 0.18989576780948067,`
			`"learning_rate": 1.0549776899989686e-05,`
			`"loss": 0.0727,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.021705035120248795,`
			`"step": 180,`
			`"valid_targets_mean": 7371.7,`
			`"valid_targets_min": 355`
			`},`
			`{`
			`"epoch": 5.0,`
			`"grad_norm": 0.17912554773879225,`
			`"learning_rate": 9.3838336588184e-06,`
			`"loss": 0.074,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.029517250135540962,`
			`"step": 185,`
			`"valid_targets_mean": 5847.1,`
			`"valid_targets_min": 342`
			`},`
			`{`
			`"epoch": 5.135135135135135,`
			`"grad_norm": 0.17463959150551875,`
			`"learning_rate": 8.266121958187246e-06,`
			`"loss": 0.0709,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.024629643186926842,`
			`"step": 190,`
			`"valid_targets_mean": 7010.6,`
			`"valid_targets_min": 1067`
			`},`
			`{`
			`"epoch": 5.27027027027027,`
			`"grad_norm": 0.16012384004377175,`
			`"learning_rate": 7.201719804173797e-06,`
			`"loss": 0.0683,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.02399550750851631,`
			`"step": 195,`
			`"valid_targets_mean": 6869.6,`
			`"valid_targets_min": 405`
			`},`
			`{`
			`"epoch": 5.405405405405405,`
			`"grad_norm": 0.27301642675588644,`
			`"learning_rate": 6.1954630060516005e-06,`
			`"loss": 0.0676,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.023653771728277206,`
			`"step": 200,`
			`"valid_targets_mean": 4831.9,`
			`"valid_targets_min": 1161`
			`},`
			`{`
			`"epoch": 5.54054054054054,`
			`"grad_norm": 0.1781041058075561,`
			`"learning_rate": 5.2519232061624255e-06,`
			`"loss": 0.0698,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.02264336310327053,`
			`"step": 205,`
			`"valid_targets_mean": 6068.0,`
			`"valid_targets_min": 467`
			`},`
			`{`
			`"epoch": 5.675675675675675,`
			`"grad_norm": 0.1623201456410524,`
			`"learning_rate": 4.375387109955953e-06,`
			`"loss": 0.0693,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.022714542225003242,`
			`"step": 210,`
			`"valid_targets_mean": 6206.7,`
			`"valid_targets_min": 1846`
			`},`
			`{`
			`"epoch": 5.8108108108108105,`
			`"grad_norm": 0.18485993941649267,`
			`"learning_rate": 3.569837010559505e-06,`
			`"loss": 0.0661,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.023270253092050552,`
			`"step": 215,`
			`"valid_targets_mean": 7176.0,`
			`"valid_targets_min": 372`
			`},`
			`{`
			`"epoch": 5.945945945945946,`
			`"grad_norm": 0.18961469137543394,`
			`"learning_rate": 2.838932696358798e-06,`
			`"loss": 0.0695,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.024968810379505157,`
			`"step": 220,`
			`"valid_targets_mean": 6053.5,`
			`"valid_targets_min": 427`
			`},`
			`{`
			`"epoch": 6.081081081081081,`
			`"grad_norm": 0.15015876207979317,`
			`"learning_rate": 2.1859948237874517e-06,`
			`"loss": 0.0681,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.01862494647502899,`
			`"step": 225,`
			`"valid_targets_mean": 5860.2,`
			`"valid_targets_min": 387`
			`},`
			`{`
			`"epoch": 6.216216216216216,`
			`"grad_norm": 0.15711014903589288,`
			`"learning_rate": 1.6139898308664093e-06,`
			`"loss": 0.0663,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.02179352566599846,`
			`"step": 230,`
			`"valid_targets_mean": 6635.5,`
			`"valid_targets_min": 2015`
			`},`
			`{`
			`"epoch": 6.351351351351352,`
			`"grad_norm": 0.19367059367410314,`
			`"learning_rate": 1.1255164600341816e-06,`
			`"loss": 0.0674,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.022510964423418045,`
			`"step": 235,`
			`"valid_targets_mean": 5707.8,`
			`"valid_targets_min": 445`
			`},`
			`{`
			`"epoch": 6.486486486486487,`
			`"grad_norm": 0.17844773460429106,`
			`"learning_rate": 7.227939514977422e-07,`
			`"loss": 0.0666,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.023919889703392982,`
			`"step": 240,`
			`"valid_targets_mean": 5842.8,`
			`"valid_targets_min": 453`
			`},`
			`{`
			`"epoch": 6.621621621621622,`
			`"grad_norm": 0.16782709344204977,`
			`"learning_rate": 4.0765196074406433e-07,`
			`"loss": 0.0697,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.01854727789759636,`
			`"step": 245,`
			`"valid_targets_mean": 5001.1,`
			`"valid_targets_min": 1381`
			`},`
			`{`
			`"epoch": 6.756756756756757,`
			`"grad_norm": 0.16683190263277645,`
			`"learning_rate": 1.8152224601943435e-07,`
			`"loss": 0.0666,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.02349766716361046,`
			`"step": 250,`
			`"valid_targets_mean": 7224.0,`
			`"valid_targets_min": 405`
			`},`
			`{`
			`"epoch": 6.891891891891892,`
			`"grad_norm": 0.165105262824618,`
			`"learning_rate": 4.5432163541960785e-08,`
			`"loss": 0.0668,`
			`"loss_nan_ranks": 0,`
			`"loss_rank_avg": 0.026979651302099228,`
			`"step": 255,`
			`"valid_targets_mean": 7160.0,`
			`"valid_targets_min": 434`
			`},`
			`{`
			`"epoch": 7.0,`
			`"step": 259,`
			`"total_flos": 1.36492518344124e+18,`
			`"train_loss": 0.0,`
			`"train_runtime": 1.313,`
			`"train_samples_per_second": 18873.051,`
			`"train_steps_per_second": 197.261`
			`}`
			`],`
			`"logging_steps": 5,`
			`"max_steps": 259,`
			`"num_input_tokens_seen": 0,`
			`"num_train_epochs": 7,`
			`"save_steps": 300,`
			`"stateful_callbacks": {`
			`"TrainerControl": {`
			`"args": {`
			`"should_epoch_stop": false,`
			`"should_evaluate": false,`
			`"should_log": false,`
			`"should_save": true,`
			`"should_training_stop": true`
			`},`
			`"attributes": {}`
			`}`
			`},`
			`"total_flos": 1.36492518344124e+18,`
			`"train_batch_size": 1,`
			`"trial_name": null,`
			`"trial_params": null`
			`}`