79 lines
4.1 KiB
Markdown
79 lines
4.1 KiB
Markdown
---
|
||
frameworks:
|
||
- Pytorch
|
||
license: MIT License
|
||
tasks:
|
||
- text-generation
|
||
---
|
||
|
||
|
||
# IQ-EQ Qwen2.5-3B-Distill 技术报告
|
||
|
||
- 团队名称:不要葱姜蒜
|
||
|
||
## 1. 摘要
|
||
本次比赛我们选择了 推理领域/IQ-EQ任务 作为微调的目标领域。微调后的模型具备基本的推理能力,且可以对智商/情商问题进行回答,可以应用于智商/情商测试、教育辅助等场景。我们采用了 Qwen2.5-3B 模型作为基础模型,通过微调和蒸馏技术,成功提升了模型的效率和性能。
|
||
|
||
## 2. 方法
|
||
|
||
### 2.1 数据集选择
|
||
|
||
我们使用了以下开源数据集或 AI 合成数据:
|
||
|
||
- **Chinese-DeepSeek-R1-Distill-data-110k**:中文基于满血DeepSeek-R1蒸馏数据集,我们对数据进行了清洗和格式转换,并在110k数据中挑选了有关长思维链推理的 800 条数据作为我们的一部分微调数据。
|
||
- **AI-ModelScope/IQuiz**:智商测试:收集自网络公开的面试题、脑筋急转弯、弱智吧、模型陷阱题等,目前一共40道题目,分成了level 1,2,3(level 1 是基础题,level 2 是中等难度,level 3 是高难度),分别有13,13,14道题目。使用该数据集通过DeepSeek-R1蒸馏生成了 118 条数据作为我们的一部分微调数据。
|
||
- **数据预处理**:我们对数据进行了 数据清洗、格式转换等等。
|
||
|
||
### 2.2 模型选择及微调策略
|
||
我们采用了以下微调策略:
|
||
- **模型架构**:基于 Qwen 模型的 Qwen2.5-3B-Instruction 模型作为基础模型。
|
||
- **微调技术**:使用了 PEFT 中的 Lora 策略进行微调。
|
||
- **训练设置**:训练超参数设置如下:
|
||
- 学习率:`1e-4`- 批量大小:`4`- 训练轮数:`3`
|
||
|
||
## 3. 蒸馏方法
|
||
为了进一步提升模型的效率和性能,我们采用了以下蒸馏技术:
|
||
- **蒸馏目标**:将 DeepSeek-R1-671B 模型的推理能力迁移到 Qwen2.5-3B-Instruction 模型当中,例如更小的模型或特定任务模型。
|
||
- **蒸馏方法**:使用了 任务蒸馏、特征蒸馏 的方法。
|
||
- **蒸馏效果**:蒸馏后的模型在 EQ Score 上提升了 22.5%,同时模型学会了推理能力。
|
||
|
||
## 3. 实验结果
|
||
|
||
### 3.1 评估指标
|
||
|
||
我们使用 Evalscope 对模型进行评估,主要评估指标如下:
|
||
|
||
- **任务**:IQ-EQ 任务。
|
||
- **准确性**:模型回答的正确率。
|
||
- **EQ Score**:模型在 EQ 任务上的得分。
|
||
- **IQ Score**:模型在 IQ 任务上的得分。
|
||
|
||
### 3.2 实验结果
|
||
|
||
| Model | IQ | EQ | Score |
|
||
|-------------------------------|----------|----------|------------------|
|
||
| Qwen2.5-3B-Instruct | 0.45 | 0.3625 | 0.3917 |
|
||
| Qwen2.5-7B-Instruct | 0.50 | 0.6125 | 0.575 |
|
||
| Qwen2.5-14B-Instruct | 0.525 | 0.750 | 0.6750 |
|
||
| Qwen2.5-32B-Instruct | 0.650 | 0.7875 | 0.7417 |
|
||
| Qwen2.5-72B-Instruct | 0.775 | 0.825 | 0.8083 |
|
||
| DeepSeek-R1-Distill-Qwen-7B | 0.675 | 0.30 | 0.425 |
|
||
| DeepSeek-R1-Distill-Qwen-14B | 0.625 | 0.725 | 0.6917 |
|
||
| DeepSeek-R1-671B | 0.90 | 0.947 | 0.915 |
|
||
| Qwen2.5-3B-Distill (ours) | 0.275 | 0.5875 | 0.4313 |
|
||
|
||
| Model | IQ | EQ | Score |
|
||
|-------------------------------|----------|----------|------------------|
|
||
| Qwen2.5-3B-Instruct | 0.45 | 0.3625 | 0.3917 |
|
||
| Qwen2.5-3B-Distill (ours) | 0.275 | 0.5875 | 0.4313 |
|
||
|
||
|
||
## 4. 总结
|
||
本次比赛中,我们通过对 Qwen2.5-3B-Instruction 模型的微调和蒸馏,成功实现让小模型具备推理的能力。我们的方法在 技术实现难度、模型表现效果、实际使用价值 等方面展现了独特的优势。未来,我们将继续优化模型,探索更多应用场景。
|
||
|
||
## 5. 参考链接
|
||
|
||
- **代码仓库**:[魔搭社区代码链接]
|
||
- **SwanLab日志**:[SwanLab 日志链接]
|
||
- **开源模型权重**:[魔搭社区模型权重链接]
|
||
- **Demo体验**:[魔搭社区 Demo 链接] |