Files
ModelHub XC 069169a9ed 初始化项目,由ModelHub XC社区提供模型
Model: kmno4zx/Qwen2.5-3B-Instruction-IQEQ-Distill
Source: Original Platform
2026-05-06 12:22:47 +08:00

79 lines
4.1 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
frameworks:
- Pytorch
license: MIT License
tasks:
- text-generation
---
# IQ-EQ Qwen2.5-3B-Distill 技术报告
- 团队名称:不要葱姜蒜
## 1. 摘要
本次比赛我们选择了 推理领域/IQ-EQ任务 作为微调的目标领域。微调后的模型具备基本的推理能力,且可以对智商/情商问题进行回答,可以应用于智商/情商测试、教育辅助等场景。我们采用了 Qwen2.5-3B 模型作为基础模型,通过微调和蒸馏技术,成功提升了模型的效率和性能。
## 2. 方法
### 2.1 数据集选择
我们使用了以下开源数据集或 AI 合成数据:
- **Chinese-DeepSeek-R1-Distill-data-110k**中文基于满血DeepSeek-R1蒸馏数据集我们对数据进行了清洗和格式转换并在110k数据中挑选了有关长思维链推理的 800 条数据作为我们的一部分微调数据。
- **AI-ModelScope/IQuiz**智商测试收集自网络公开的面试题、脑筋急转弯、弱智吧、模型陷阱题等目前一共40道题目分成了level 123level 1 是基础题level 2 是中等难度level 3 是高难度分别有131314道题目。使用该数据集通过DeepSeek-R1蒸馏生成了 118 条数据作为我们的一部分微调数据。
- **数据预处理**:我们对数据进行了 数据清洗、格式转换等等。
### 2.2 模型选择及微调策略
我们采用了以下微调策略:
- **模型架构**:基于 Qwen 模型的 Qwen2.5-3B-Instruction 模型作为基础模型。
- **微调技术**:使用了 PEFT 中的 Lora 策略进行微调。
- **训练设置**:训练超参数设置如下:
- 学习率:`1e-4`- 批量大小:`4`- 训练轮数:`3`
## 3. 蒸馏方法
为了进一步提升模型的效率和性能,我们采用了以下蒸馏技术:
- **蒸馏目标**:将 DeepSeek-R1-671B 模型的推理能力迁移到 Qwen2.5-3B-Instruction 模型当中,例如更小的模型或特定任务模型。
- **蒸馏方法**:使用了 任务蒸馏、特征蒸馏 的方法。
- **蒸馏效果**:蒸馏后的模型在 EQ Score 上提升了 22.5%,同时模型学会了推理能力。
## 3. 实验结果
### 3.1 评估指标
我们使用 Evalscope 对模型进行评估,主要评估指标如下:
- **任务**IQ-EQ 任务。
- **准确性**:模型回答的正确率。
- **EQ Score**:模型在 EQ 任务上的得分。
- **IQ Score**:模型在 IQ 任务上的得分。
### 3.2 实验结果
| Model | IQ | EQ | Score |
|-------------------------------|----------|----------|------------------|
| Qwen2.5-3B-Instruct | 0.45 | 0.3625 | 0.3917 |
| Qwen2.5-7B-Instruct | 0.50 | 0.6125 | 0.575 |
| Qwen2.5-14B-Instruct | 0.525 | 0.750 | 0.6750 |
| Qwen2.5-32B-Instruct | 0.650 | 0.7875 | 0.7417 |
| Qwen2.5-72B-Instruct | 0.775 | 0.825 | 0.8083 |
| DeepSeek-R1-Distill-Qwen-7B | 0.675 | 0.30 | 0.425 |
| DeepSeek-R1-Distill-Qwen-14B | 0.625 | 0.725 | 0.6917 |
| DeepSeek-R1-671B | 0.90 | 0.947 | 0.915 |
| Qwen2.5-3B-Distill (ours) | 0.275 | 0.5875 | 0.4313 |
| Model | IQ | EQ | Score |
|-------------------------------|----------|----------|------------------|
| Qwen2.5-3B-Instruct | 0.45 | 0.3625 | 0.3917 |
| Qwen2.5-3B-Distill (ours) | 0.275 | 0.5875 | 0.4313 |
## 4. 总结
本次比赛中,我们通过对 Qwen2.5-3B-Instruction 模型的微调和蒸馏,成功实现让小模型具备推理的能力。我们的方法在 技术实现难度、模型表现效果、实际使用价值 等方面展现了独特的优势。未来,我们将继续优化模型,探索更多应用场景。
## 5. 参考链接
- **代码仓库**[魔搭社区代码链接]
- **SwanLab日志**[SwanLab 日志链接]
- **开源模型权重**[魔搭社区模型权重链接]
- **Demo体验**[魔搭社区 Demo 链接]