初始化项目，由ModelHub XC社区提供模型

Model: seopbo/sft-qwen2.5-1.5b Source: Original Platform
2026-06-13 17:41:06 +08:00
commit d765952c57
20 changed files with 151960 additions and 0 deletions
--- a/eval-results/gsm8k/metrics.json
+++ b/eval-results/gsm8k/metrics.json
@@ -0,0 +1,11 @@
+{
+  "gsm8k": {
+    "pass@1": {
+      "num_entries": 1319,
+      "avg_tokens": 322,
+      "gen_seconds": 43,
+      "symbolic_correct": 74.14708112206216,
+      "no_answer": 0.37907505686125853
+    }
+  }
+}
--- a/eval-results/hendrycks_math/metrics.json
+++ b/eval-results/hendrycks_math/metrics.json
@@ -0,0 +1,11 @@
+{
+  "hendrycks_math": {
+    "pass@1": {
+      "num_entries": 5000,
+      "avg_tokens": 638,
+      "gen_seconds": 129,
+      "symbolic_correct": 52.52,
+      "no_answer": 5.26
+    }
+  }
+}
--- a/eval-results/human-eval/metrics.json
+++ b/eval-results/human-eval/metrics.json
@@ -0,0 +1,11 @@
+{
+  "human-eval": {
+    "pass@1": {
+      "num_entries": 164,
+      "avg_tokens": 89,
+      "gen_seconds": 12,
+      "passing_base_tests": 50.0,
+      "passing_plus_tests": 43.90243902439025
+    }
+  }
+}
--- a/eval-results/ifbench/metrics.json
+++ b/eval-results/ifbench/metrics.json
@@ -0,0 +1,16 @@
+{
+  "ifbench": {
+    "pass@1": {
+      "num_prompts": 294,
+      "num_instructions": 335,
+      "average_score": 13.7447964260331,
+      "prompt_strict_accuracy": 10.54421768707483,
+      "instruction_strict_accuracy": 12.53731343283582,
+      "prompt_loose_accuracy": 14.285714285714285,
+      "instruction_loose_accuracy": 17.611940298507463,
+      "num_entries": 294,
+      "avg_tokens": 457,
+      "gen_seconds": 21
+    }
+  }
+}
--- a/eval-results/ifeval/metrics.json
+++ b/eval-results/ifeval/metrics.json
@@ -0,0 +1,16 @@
+{
+  "ifeval": {
+    "pass@1": {
+      "num_prompts": 541,
+      "num_instructions": 834,
+      "average_score": 53.74827679446092,
+      "prompt_strict_accuracy": 48.24399260628466,
+      "instruction_strict_accuracy": 57.31414868105516,
+      "prompt_loose_accuracy": 49.72273567467653,
+      "instruction_loose_accuracy": 59.71223021582733,
+      "num_entries": 541,
+      "avg_tokens": 466,
+      "gen_seconds": 27
+    }
+  }
+}
--- a/eval-results/mbpp/metrics.json
+++ b/eval-results/mbpp/metrics.json
@@ -0,0 +1,11 @@
+{
+  "mbpp": {
+    "pass@1": {
+      "num_entries": 378,
+      "avg_tokens": 66,
+      "gen_seconds": 20,
+      "passing_base_tests": 60.58201058201058,
+      "passing_plus_tests": 51.851851851851855
+    }
+  }
+}
--- a/eval-results/minerva_math/metrics.json
+++ b/eval-results/minerva_math/metrics.json
@@ -0,0 +1,11 @@
+{
+  "minerva_math": {
+    "pass@1": {
+      "num_entries": 272,
+      "avg_tokens": 632,
+      "gen_seconds": 29,
+      "symbolic_correct": 18.38235294117647,
+      "no_answer": 5.514705882352941
+    }
+  }
+}