初始化项目，由ModelHub XC社区提供模型

Model: christinakopi/thinkprm-reproduced Source: Original Platform
2026-04-25 13:24:12 +08:00
commit 0952fa0201
27 changed files with 999 additions and 0 deletions
--- a/trainer_state.json
+++ b/trainer_state.json
@@ -0,0 +1,136 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 96,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "entropy": 0.4163570161908865,
+      "epoch": 0.32,
+      "grad_norm": 0.4453125,
+      "learning_rate": 6e-05,
+      "loss": 0.427,
+      "mean_token_accuracy": 0.879430927336216,
+      "num_tokens": 459017.0,
+      "step": 10
+    },
+    {
+      "entropy": 0.3372706573456526,
+      "epoch": 0.64,
+      "grad_norm": 0.447265625,
+      "learning_rate": 6e-05,
+      "loss": 0.3233,
+      "mean_token_accuracy": 0.9003406524658203,
+      "num_tokens": 912954.0,
+      "step": 20
+    },
+    {
+      "entropy": 0.32121987249702216,
+      "epoch": 0.96,
+      "grad_norm": 0.380859375,
+      "learning_rate": 6e-05,
+      "loss": 0.3098,
+      "mean_token_accuracy": 0.9014183498919011,
+      "num_tokens": 1368462.0,
+      "step": 30
+    },
+    {
+      "entropy": 0.27086804344041926,
+      "epoch": 1.256,
+      "grad_norm": 0.34375,
+      "learning_rate": 6e-05,
+      "loss": 0.2439,
+      "mean_token_accuracy": 0.9211577402578818,
+      "num_tokens": 1793628.0,
+      "step": 40
+    },
+    {
+      "entropy": 0.2517373651266098,
+      "epoch": 1.576,
+      "grad_norm": 0.302734375,
+      "learning_rate": 6e-05,
+      "loss": 0.2284,
+      "mean_token_accuracy": 0.9240875385701657,
+      "num_tokens": 2249448.0,
+      "step": 50
+    },
+    {
+      "entropy": 0.2411576334387064,
+      "epoch": 1.896,
+      "grad_norm": 0.310546875,
+      "learning_rate": 6e-05,
+      "loss": 0.2257,
+      "mean_token_accuracy": 0.9256131462752819,
+      "num_tokens": 2701085.0,
+      "step": 60
+    },
+    {
+      "entropy": 0.21875436301972415,
+      "epoch": 2.192,
+      "grad_norm": 0.310546875,
+      "learning_rate": 6e-05,
+      "loss": 0.1978,
+      "mean_token_accuracy": 0.9344683112324895,
+      "num_tokens": 3115785.0,
+      "step": 70
+    },
+    {
+      "entropy": 0.1890676412731409,
+      "epoch": 2.512,
+      "grad_norm": 0.271484375,
+      "learning_rate": 6e-05,
+      "loss": 0.1723,
+      "mean_token_accuracy": 0.9410219177603721,
+      "num_tokens": 3578352.0,
+      "step": 80
+    },
+    {
+      "entropy": 0.17951820120215417,
+      "epoch": 2.832,
+      "grad_norm": 0.291015625,
+      "learning_rate": 6e-05,
+      "loss": 0.166,
+      "mean_token_accuracy": 0.9436265029013157,
+      "num_tokens": 4034155.0,
+      "step": 90
+    },
+    {
+      "entropy": 0.19678397405715214,
+      "epoch": 3.0,
+      "mean_token_accuracy": 0.9377535567397163,
+      "num_tokens": 4276695.0,
+      "step": 96,
+      "total_flos": 3.961197133037568e+16,
+      "train_loss": 0.2508960850536823,
+      "train_runtime": 226.1489,
+      "train_samples_per_second": 13.266,
+      "train_steps_per_second": 0.424
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 96,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.961197133037568e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}