Qwen3-8B-GRPO

Go to file

ModelHub XC 82cd1a8b35 初始化项目，由ModelHub XC社区提供模型

Model: jadohu/Qwen3-8B-GRPO
Source: Original Platform

2026-04-20 13:15:48 +08:00

.gitattributes

初始化项目，由ModelHub XC社区提供模型

2026-04-20 13:15:48 +08:00

added_tokens.json

初始化项目，由ModelHub XC社区提供模型

2026-04-20 13:15:48 +08:00

chat_template.jinja

初始化项目，由ModelHub XC社区提供模型

2026-04-20 13:15:48 +08:00

config.json

初始化项目，由ModelHub XC社区提供模型

2026-04-20 13:15:48 +08:00

generation_config.json

初始化项目，由ModelHub XC社区提供模型

2026-04-20 13:15:48 +08:00

merges.txt

初始化项目，由ModelHub XC社区提供模型

2026-04-20 13:15:48 +08:00

model-00001-of-00004.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-04-20 13:15:48 +08:00

model-00002-of-00004.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-04-20 13:15:48 +08:00

model-00003-of-00004.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-04-20 13:15:48 +08:00

model-00004-of-00004.safetensors

初始化项目，由ModelHub XC社区提供模型

2026-04-20 13:15:48 +08:00

model.safetensors.index.json

初始化项目，由ModelHub XC社区提供模型

2026-04-20 13:15:48 +08:00

README.md

初始化项目，由ModelHub XC社区提供模型

2026-04-20 13:15:48 +08:00

special_tokens_map.json

初始化项目，由ModelHub XC社区提供模型

2026-04-20 13:15:48 +08:00

tokenizer_config.json

初始化项目，由ModelHub XC社区提供模型

2026-04-20 13:15:48 +08:00

tokenizer.json

初始化项目，由ModelHub XC社区提供模型

2026-04-20 13:15:48 +08:00

vocab.json

初始化项目，由ModelHub XC社区提供模型

2026-04-20 13:15:48 +08:00

README.md

license, datasets, language, base_model, pipeline_tag

license

datasets

language

base_model

pipeline_tag

apache-2.0

agentica-org/DeepScaleR-Preview-Dataset

Qwen/Qwen3-8B-Base

reinforcement-learning

Description

This repository contains the model for Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning.

Official Implementation

https://github.com/akatigre/MASA-RL

Citation

@article{kim2025meta,
  title={Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning},
  author={Kim, Yoonjeon and Jang, Doohyuk and Yang, Eunho},
  journal={arXiv preprint arXiv:2510.03259},
  year={2025}
}