counsel-env-qwen3-0.6b-grpo…/eval/trained_eval_summary.json

[
  {
    "agent": "keyword_spam",
    "avg_evidence_timing": 0,
    "avg_primary_reward": 0.0,
    "avg_reward": 0.07300000000000001,
    "avg_surface_rate": 0.0,
    "avg_trigger_rate": 0.6777777777777778,
    "avg_useless_ratio": 0.48000000000000004,
    "episodes": 30
  },
  {
    "agent": "present_all",
    "avg_evidence_timing": 0,
    "avg_primary_reward": 0.0,
    "avg_reward": 0.0,
    "avg_surface_rate": 0.0,
    "avg_trigger_rate": 0.0,
    "avg_useless_ratio": 0.0,
    "episodes": 30
  },
  {
    "agent": "random",
    "avg_evidence_timing": 0,
    "avg_primary_reward": 0.0,
    "avg_reward": 0.0,
    "avg_surface_rate": 0.0,
    "avg_trigger_rate": 0.0,
    "avg_useless_ratio": 1.0,
    "episodes": 30
  },
  {
    "agent": "scripted_oracle",
    "avg_evidence_timing": 1.9,
    "avg_primary_reward": 0.95,
    "avg_reward": 0.9023333333333334,
    "avg_surface_rate": 0.95,
    "avg_trigger_rate": 0.95,
    "avg_useless_ratio": 0.0,
    "episodes": 30
  },
  {
    "agent": "trained_sft_grpo_run2",
    "avg_evidence_timing": 0.8,
    "avg_primary_reward": 0.4611111111111111,
    "avg_reward": 0.3868888888888889,
    "avg_surface_rate": 0.4611111111111111,
    "avg_trigger_rate": 0.5888888888888889,
    "avg_useless_ratio": 0.8285714285714285,
    "episodes": 30
  }
]