初始化项目，由ModelHub XC社区提供模型

Model: seopbo/rlvrcode-qwen2.5-1.5b Source: Original Platform
2026-06-13 17:39:22 +08:00
commit 85c0b4bffe
20 changed files with 151970 additions and 0 deletions
--- a/eval-results/gsm8k/metrics.json
+++ b/eval-results/gsm8k/metrics.json
@@ -0,0 +1,11 @@
+{
+  "gsm8k": {
+    "pass@1": {
+      "num_entries": 1319,
+      "avg_tokens": 327,
+      "gen_seconds": 46,
+      "symbolic_correct": 74.98104624715694,
+      "no_answer": 0.6823351023502654
+    }
+  }
+}
--- a/eval-results/hendrycks_math/metrics.json
+++ b/eval-results/hendrycks_math/metrics.json
@@ -0,0 +1,11 @@
+{
+  "hendrycks_math": {
+    "pass@1": {
+      "num_entries": 5000,
+      "avg_tokens": 627,
+      "gen_seconds": 126,
+      "symbolic_correct": 52.84,
+      "no_answer": 4.72
+    }
+  }
+}
--- a/eval-results/human-eval/metrics.json
+++ b/eval-results/human-eval/metrics.json
@@ -0,0 +1,11 @@
+{
+  "human-eval": {
+    "pass@1": {
+      "num_entries": 164,
+      "avg_tokens": 97,
+      "gen_seconds": 21,
+      "passing_base_tests": 51.829268292682926,
+      "passing_plus_tests": 45.73170731707317
+    }
+  }
+}
--- a/eval-results/ifbench/metrics.json
+++ b/eval-results/ifbench/metrics.json
@@ -0,0 +1,16 @@
+{
+  "ifbench": {
+    "pass@1": {
+      "num_prompts": 294,
+      "num_instructions": 335,
+      "average_score": 15.096710325921414,
+      "prompt_strict_accuracy": 12.244897959183673,
+      "instruction_strict_accuracy": 14.029850746268657,
+      "prompt_loose_accuracy": 15.306122448979592,
+      "instruction_loose_accuracy": 18.80597014925373,
+      "num_entries": 294,
+      "avg_tokens": 429,
+      "gen_seconds": 22
+    }
+  }
+}
--- a/eval-results/ifeval/metrics.json
+++ b/eval-results/ifeval/metrics.json
@@ -0,0 +1,16 @@
+{
+  "ifeval": {
+    "pass@1": {
+      "num_prompts": 541,
+      "num_instructions": 834,
+      "average_score": 53.42729513247074,
+      "prompt_strict_accuracy": 47.874306839186694,
+      "instruction_strict_accuracy": 57.31414868105516,
+      "prompt_loose_accuracy": 49.16820702402958,
+      "instruction_loose_accuracy": 59.352517985611506,
+      "num_entries": 541,
+      "avg_tokens": 494,
+      "gen_seconds": 26
+    }
+  }
+}
--- a/eval-results/mbpp/metrics.json
+++ b/eval-results/mbpp/metrics.json
@@ -0,0 +1,11 @@
+{
+  "mbpp": {
+    "pass@1": {
+      "num_entries": 378,
+      "avg_tokens": 62,
+      "gen_seconds": 21,
+      "passing_base_tests": 66.93121693121694,
+      "passing_plus_tests": 56.08465608465608
+    }
+  }
+}
--- a/eval-results/minerva_math/metrics.json
+++ b/eval-results/minerva_math/metrics.json
@@ -0,0 +1,11 @@
+{
+  "minerva_math": {
+    "pass@1": {
+      "num_entries": 272,
+      "avg_tokens": 636,
+      "gen_seconds": 33,
+      "symbolic_correct": 18.014705882352942,
+      "no_answer": 5.882352941176471
+    }
+  }
+}