初始化项目，由ModelHub XC社区提供模型

Model: seopbo/rlvrif-qwen2.5-1.5b Source: Original Platform
2026-04-26 02:45:05 +08:00
commit 7e3d8c8a66
20 changed files with 151970 additions and 0 deletions
--- a/eval-results/gsm8k/metrics.json
+++ b/eval-results/gsm8k/metrics.json
@@ -0,0 +1,11 @@
+{
+  "gsm8k": {
+    "pass@1": {
+      "num_entries": 1319,
+      "avg_tokens": 326,
+      "gen_seconds": 36,
+      "symbolic_correct": 73.54056103108415,
+      "no_answer": 0.7581501137225171
+    }
+  }
+}
--- a/eval-results/hendrycks_math/metrics.json
+++ b/eval-results/hendrycks_math/metrics.json
@@ -0,0 +1,11 @@
+{
+  "hendrycks_math": {
+    "pass@1": {
+      "num_entries": 5000,
+      "avg_tokens": 622,
+      "gen_seconds": 126,
+      "symbolic_correct": 52.5,
+      "no_answer": 5.1
+    }
+  }
+}
--- a/eval-results/human-eval/metrics.json
+++ b/eval-results/human-eval/metrics.json
@@ -0,0 +1,11 @@
+{
+  "human-eval": {
+    "pass@1": {
+      "num_entries": 164,
+      "avg_tokens": 98,
+      "gen_seconds": 20,
+      "passing_base_tests": 44.51219512195122,
+      "passing_plus_tests": 38.41463414634146
+    }
+  }
+}
--- a/eval-results/ifbench/metrics.json
+++ b/eval-results/ifbench/metrics.json
@@ -0,0 +1,16 @@
+{
+  "ifbench": {
+    "pass@1": {
+      "num_prompts": 294,
+      "num_instructions": 335,
+      "average_score": 18.918164280637626,
+      "prompt_strict_accuracy": 16.666666666666664,
+      "instruction_strict_accuracy": 18.507462686567163,
+      "prompt_loose_accuracy": 18.70748299319728,
+      "instruction_loose_accuracy": 21.791044776119403,
+      "num_entries": 294,
+      "avg_tokens": 507,
+      "gen_seconds": 23
+    }
+  }
+}
--- a/eval-results/ifeval/metrics.json
+++ b/eval-results/ifeval/metrics.json
@@ -0,0 +1,16 @@
+{
+  "ifeval": {
+    "pass@1": {
+      "num_prompts": 541,
+      "num_instructions": 834,
+      "average_score": 69.96364091721078,
+      "prompt_strict_accuracy": 64.14048059149722,
+      "instruction_strict_accuracy": 73.38129496402878,
+      "prompt_loose_accuracy": 66.91312384473198,
+      "instruction_loose_accuracy": 75.41966426858512,
+      "num_entries": 541,
+      "avg_tokens": 509,
+      "gen_seconds": 27
+    }
+  }
+}
--- a/eval-results/mbpp/metrics.json
+++ b/eval-results/mbpp/metrics.json
@@ -0,0 +1,11 @@
+{
+  "mbpp": {
+    "pass@1": {
+      "num_entries": 378,
+      "avg_tokens": 61,
+      "gen_seconds": 22,
+      "passing_base_tests": 60.317460317460316,
+      "passing_plus_tests": 51.58730158730159
+    }
+  }
+}
--- a/eval-results/minerva_math/metrics.json
+++ b/eval-results/minerva_math/metrics.json
@@ -0,0 +1,11 @@
+{
+  "minerva_math": {
+    "pass@1": {
+      "num_entries": 272,
+      "avg_tokens": 623,
+      "gen_seconds": 28,
+      "symbolic_correct": 19.485294117647058,
+      "no_answer": 4.411764705882353
+    }
+  }
+}