Model: Jason-hu/Qwen2.5-3B-GSM8K-GRPO-H200 Source: Original Platform
license, datasets, language, base_model, pipeline_tag, library_name, tags
| license | datasets | language | base_model | pipeline_tag | library_name | tags | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| apache-2.0 |
|
|
Qwen/Qwen2.5-3B-Instruct | text-generation | transformers |
|
Qwen2.5-3B-GSM8K-SFT
这是一个基于 Qwen2.5-3B-Instruct 构建的数学微调模型,使用了 verl 框架在 GSM8K 数据集上进行了 LoRA SFT。
Description
Languages
Jinja
100%