ModelHub XC c8c8843908 初始化项目,由ModelHub XC社区提供模型
Model: Jason-hu/Qwen2.5-3B-GSM8K-GRPO-H200
Source: Original Platform
2026-05-10 05:35:47 +08:00

license, datasets, language, base_model, pipeline_tag, library_name, tags
license datasets language base_model pipeline_tag library_name tags
apache-2.0
openai/gsm8k
zh
en
Qwen/Qwen2.5-3B-Instruct text-generation transformers
gsm8k
sft
verl

Qwen2.5-3B-GSM8K-SFT

这是一个基于 Qwen2.5-3B-Instruct 构建的数学微调模型,使用了 verl 框架在 GSM8K 数据集上进行了 LoRA SFT。

Description
Model synced from source: Jason-hu/Qwen2.5-3B-GSM8K-GRPO-H200
Readme 2 MiB
Languages
Jinja 100%