brainrl-grpo-single-m/brainrl_training_metadata.json

{
  "model_name": "Qwen/Qwen2.5-0.5B-Instruct",
  "condition": "single_m",
  "participant_info": "/tmp/brainrl-data/configs/participant_run_info.json",
  "train_subjects": "sub-01:sub-20",
  "test_subjects": "sub-21:sub-26",
  "exclude_subjects": "sub-03,sub-18",
  "seed": 42,
  "max_steps": 600,
  "num_prompts": 128,
  "train_prompt_top_k": 16,
  "per_device_train_batch_size": 8,
  "num_generations": 8,
  "reward_delta_scale": 5.0,
  "duplicate_action_penalty": 0.1,
  "data_repo": "Mohith202/brainrl-config-data",
  "data_revision": "main",
  "env_url": null,
  "config_dir": "/tmp/brainrl-data/configs",
  "parcel_manifest": "/tmp/brainrl-data/configs/parcel_candidates.json",
  "parcel_manifest_sha256": "d68a07e049750636e52727ed23cfc717500835ec2cc301102e29163495bbe77b",
  "sequential_state_fraction": 0.5,
  "sequential_state_min_prefix": 1,
  "sequential_state_max_prefix": 10,
  "sequential_state_exploration_eps": 0.25
}
初始化项目，由ModelHub XC社区提供模型 Model: Mohith202/brainrl-grpo-single-m Source: Original Platform 2026-04-29 19:17:17 +08:00			`{`
			`"model_name": "Qwen/Qwen2.5-0.5B-Instruct",`
			`"condition": "single_m",`
			`"participant_info": "/tmp/brainrl-data/configs/participant_run_info.json",`
			`"train_subjects": "sub-01:sub-20",`
			`"test_subjects": "sub-21:sub-26",`
			`"exclude_subjects": "sub-03,sub-18",`
			`"seed": 42,`
			`"max_steps": 600,`
			`"num_prompts": 128,`
			`"train_prompt_top_k": 16,`
			`"per_device_train_batch_size": 8,`
			`"num_generations": 8,`
			`"reward_delta_scale": 5.0,`
			`"duplicate_action_penalty": 0.1,`
			`"data_repo": "Mohith202/brainrl-config-data",`
			`"data_revision": "main",`
			`"env_url": null,`
			`"config_dir": "/tmp/brainrl-data/configs",`
			`"parcel_manifest": "/tmp/brainrl-data/configs/parcel_candidates.json",`
			`"parcel_manifest_sha256": "d68a07e049750636e52727ed23cfc717500835ec2cc301102e29163495bbe77b",`
			`"sequential_state_fraction": 0.5,`
			`"sequential_state_min_prefix": 1,`
			`"sequential_state_max_prefix": 10,`
			`"sequential_state_exploration_eps": 0.25`
			`}`