candor_np_13/checkpoint-1500/trainer_state.json

{
  "best_global_step": 1266,
  "best_metric": 4.522061347961426,
  "best_model_checkpoint": null,
  "epoch": 3.5545023696682465,
  "eval_steps": 500,
  "global_step": 1500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.002369668246445498,
      "grad_norm": 20.34552001953125,
      "learning_rate": 0.0,
      "loss": 10.3309,
      "step": 1
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.0193040370941162,
      "learning_rate": 8.42e-05,
      "loss": 5.762,
      "step": 422
    },
    {
      "epoch": 1.0,
      "eval_loss": 4.781050205230713,
      "eval_runtime": 21.3156,
      "eval_samples_per_second": 1292.106,
      "eval_steps_per_second": 5.067,
      "step": 422
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6101345419883728,
      "learning_rate": 9.566919191919192e-05,
      "loss": 4.6298,
      "step": 844
    },
    {
      "epoch": 2.0,
      "eval_loss": 4.602915287017822,
      "eval_runtime": 22.4738,
      "eval_samples_per_second": 1225.514,
      "eval_steps_per_second": 4.806,
      "step": 844
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.5042136907577515,
      "learning_rate": 9.03409090909091e-05,
      "loss": 4.5095,
      "step": 1266
    },
    {
      "epoch": 3.0,
      "eval_loss": 4.522061347961426,
      "eval_runtime": 31.9704,
      "eval_samples_per_second": 861.483,
      "eval_steps_per_second": 3.378,
      "step": 1266
    }
  ],
  "logging_steps": 500,
  "max_steps": 8440,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 20,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.5082271350784e+16,
  "train_batch_size": 256,
  "trial_name": null,
  "trial_params": null
}
初始化项目，由ModelHub XC社区提供模型 Model: fpadovani/candor_np_13 Source: Original Platform 2026-06-04 10:48:18 +08:00			`{`
			`"best_global_step": 1266,`
			`"best_metric": 4.522061347961426,`
			`"best_model_checkpoint": null,`
			`"epoch": 3.5545023696682465,`
			`"eval_steps": 500,`
			`"global_step": 1500,`
			`"is_hyper_param_search": false,`
			`"is_local_process_zero": true,`
			`"is_world_process_zero": true,`
			`"log_history": [`
			`{`
			`"epoch": 0.002369668246445498,`
			`"grad_norm": 20.34552001953125,`
			`"learning_rate": 0.0,`
			`"loss": 10.3309,`
			`"step": 1`
			`},`
			`{`
			`"epoch": 1.0,`
			`"grad_norm": 1.0193040370941162,`
			`"learning_rate": 8.42e-05,`
			`"loss": 5.762,`
			`"step": 422`
			`},`
			`{`
			`"epoch": 1.0,`
			`"eval_loss": 4.781050205230713,`
			`"eval_runtime": 21.3156,`
			`"eval_samples_per_second": 1292.106,`
			`"eval_steps_per_second": 5.067,`
			`"step": 422`
			`},`
			`{`
			`"epoch": 2.0,`
			`"grad_norm": 0.6101345419883728,`
			`"learning_rate": 9.566919191919192e-05,`
			`"loss": 4.6298,`
			`"step": 844`
			`},`
			`{`
			`"epoch": 2.0,`
			`"eval_loss": 4.602915287017822,`
			`"eval_runtime": 22.4738,`
			`"eval_samples_per_second": 1225.514,`
			`"eval_steps_per_second": 4.806,`
			`"step": 844`
			`},`
			`{`
			`"epoch": 3.0,`
			`"grad_norm": 0.5042136907577515,`
			`"learning_rate": 9.03409090909091e-05,`
			`"loss": 4.5095,`
			`"step": 1266`
			`},`
			`{`
			`"epoch": 3.0,`
			`"eval_loss": 4.522061347961426,`
			`"eval_runtime": 31.9704,`
			`"eval_samples_per_second": 861.483,`
			`"eval_steps_per_second": 3.378,`
			`"step": 1266`
			`}`
			`],`
			`"logging_steps": 500,`
			`"max_steps": 8440,`
			`"num_input_tokens_seen": 0,`
			`"num_train_epochs": 20,`
			`"save_steps": 500,`
			`"stateful_callbacks": {`
			`"TrainerControl": {`
			`"args": {`
			`"should_epoch_stop": false,`
			`"should_evaluate": false,`
			`"should_log": false,`
			`"should_save": true,`
			`"should_training_stop": false`
			`},`
			`"attributes": {}`
			`}`
			`},`
			`"total_flos": 2.5082271350784e+16,`
			`"train_batch_size": 256,`
			`"trial_name": null,`
			`"trial_params": null`
			`}`