初始化项目，由ModelHub XC社区提供模型

Model: seopbo/rlvrmulti-qwen2.5-1.5b Source: Original Platform
2026-05-06 01:42:50 +08:00
commit b54ecca3aa
20 changed files with 151970 additions and 0 deletions
--- a/eval-results/gsm8k/metrics.json
+++ b/eval-results/gsm8k/metrics.json
@@ -0,0 +1,11 @@
+{
+  "gsm8k": {
+    "pass@1": {
+      "num_entries": 1319,
+      "avg_tokens": 341,
+      "gen_seconds": 46,
+      "symbolic_correct": 78.01364670204701,
+      "no_answer": 1.288855193328279
+    }
+  }
+}
--- a/eval-results/hendrycks_math/metrics.json
+++ b/eval-results/hendrycks_math/metrics.json
@@ -0,0 +1,11 @@
+{
+  "hendrycks_math": {
+    "pass@1": {
+      "num_entries": 5000,
+      "avg_tokens": 634,
+      "gen_seconds": 125,
+      "symbolic_correct": 54.56,
+      "no_answer": 5.9
+    }
+  }
+}
--- a/eval-results/human-eval/metrics.json
+++ b/eval-results/human-eval/metrics.json
@@ -0,0 +1,11 @@
+{
+  "human-eval": {
+    "pass@1": {
+      "num_entries": 164,
+      "avg_tokens": 85,
+      "gen_seconds": 9,
+      "passing_base_tests": 53.048780487804876,
+      "passing_plus_tests": 46.34146341463415
+    }
+  }
+}
--- a/eval-results/ifbench/metrics.json
+++ b/eval-results/ifbench/metrics.json
@@ -0,0 +1,16 @@
+{
+  "ifbench": {
+    "pass@1": {
+      "num_prompts": 294,
+      "num_instructions": 335,
+      "average_score": 19.80150269062849,
+      "prompt_strict_accuracy": 16.666666666666664,
+      "instruction_strict_accuracy": 18.507462686567163,
+      "prompt_loose_accuracy": 20.74829931972789,
+      "instruction_loose_accuracy": 23.283582089552237,
+      "num_entries": 294,
+      "avg_tokens": 495,
+      "gen_seconds": 23
+    }
+  }
+}
--- a/eval-results/ifeval/metrics.json
+++ b/eval-results/ifeval/metrics.json
@@ -0,0 +1,16 @@
+{
+  "ifeval": {
+    "pass@1": {
+      "num_prompts": 541,
+      "num_instructions": 834,
+      "average_score": 69.8299955229901,
+      "prompt_strict_accuracy": 63.95563770794824,
+      "instruction_strict_accuracy": 72.78177458033574,
+      "prompt_loose_accuracy": 67.28280961182995,
+      "instruction_loose_accuracy": 75.29976019184652,
+      "num_entries": 541,
+      "avg_tokens": 492,
+      "gen_seconds": 26
+    }
+  }
+}
--- a/eval-results/mbpp/metrics.json
+++ b/eval-results/mbpp/metrics.json
@@ -0,0 +1,11 @@
+{
+  "mbpp": {
+    "pass@1": {
+      "num_entries": 378,
+      "avg_tokens": 65,
+      "gen_seconds": 21,
+      "passing_base_tests": 66.4021164021164,
+      "passing_plus_tests": 57.142857142857146
+    }
+  }
+}
--- a/eval-results/minerva_math/metrics.json
+++ b/eval-results/minerva_math/metrics.json
@@ -0,0 +1,11 @@
+{
+  "minerva_math": {
+    "pass@1": {
+      "num_entries": 272,
+      "avg_tokens": 657,
+      "gen_seconds": 25,
+      "symbolic_correct": 19.852941176470587,
+      "no_answer": 7.352941176470588
+    }
+  }
+}