ModelHub XC 1500eca9f0 初始化项目,由ModelHub XC社区提供模型
Model: QuantFactory/llama-3.1-chinese-8b-it-dpo-GGUF
Source: Original Platform
2026-06-16 03:22:13 +08:00


pipeline_tag: text-generation base_model: llama-3.1-chinese-8b-it-dpo library_name: transformers


QuantFactory/llama-3.1-chinese-8b-it-dpo-GGUF

This is quantized version of jiangfb/llama-3.1-chinese-8b-it-dpo created using llama.cpp

Original Model Card

llama-3.1-8b-chinese-instruct with SFT and DPO

项目简介

LLAMA-3.1系列模型于2024年7月24日发布是Meta公司迄今为止规模最大、质量最高的开源模型。Meta评估了超150个基准数据集的性能Llama-3.1系列模型在常识、可操作性、数学、工具使用和多语言翻译等一系列任务中可与GPT-4o、Claude 3.5 Sonnet和Gemini Ultra相媲美。其中LLAMA-3.1-8B-Instruct模型以其庞大的参数规模、强大的上下文理解能力和灵活的指令遵循能力在全球范围内赢得了广泛的关注与赞誉。该模型在多种自然语言处理任务上展现出卓越的性能包括但不限于文本生成、问答系统、文本摘要等为人工智能领域的研究与应用提供了强大的技术支持。

然而尽管LLAMA-3.1-8B-Instruct模型在多种语言环境下均表现出色但在中文这一特定语境下其性能却存在一定的局限性。为了弥补这一不足本项目旨在通过针对中文语境的深入优化提升LLAMA 3.1-8B-Instruct模型在中文处理上的能力。

本项目基于llama-3.1-8b-instruct模型与当前相关工作不同的是我们采用了指令微调Instruction Fine-tuning和直接偏好对齐Direct Preference Optimization, DPO二阶段的学习方法使用近30w条中文数据进行有监督指令微调然后应用5000条对齐指令进行直接偏好对齐旨在进一步提升模型在中文语境下的理解和生成能力。在两个权威的中文评测基准下C-Eval提升了83.34%的性能CMMLU提升了83.95%的性能。我们公开了该项目所有的模型权重和训练数据集,欢迎大家一起学习和探讨。

模型特点

基础模型基于开源的llama3.1-8b-instruct这是一个经过指令微调的大型语言基础模型。

指令微调:通过大量高质量中文数据集进行指令微调,提升模型在中文处理上的表现。

DPO对齐采用直接偏好对齐技术进一步优化模型在特定任务上的性能。

安装与加载

克隆本项目到本地:https://huggingface.co/jiangfb/llama-3.1-chinese-8b-it-dpo

git clone

cd llama-3.1-chinese-8b-it-dpo

模型测评

Ceval

C-Eval 是一个全面的中文基础模型评估套件。它包含了大量的多项选择题涵盖了人文、社科、理工以及其他专业四个大方向包括52个不同的学科和四个难度级别。

C-Eval Average Average(hard) STEM Social Sciences Humanities Other
原生LLaMA3.1模型 24.1 23.5 23.9 25.3 24.6 22.7
我们的LLaMA3.1模型 44.7 32.9 41.8 52.7 42.0 44.5

Cmmlu

CMMLU是一个综合性的中文评估基准专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括需要计算和推理的自然科学需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。

CMMLU Average STEM Social Sciences Humanities Other
原生LLaMA3.1模型 25.3 26.04 25.19 25.79 25.26
我们的LLaMA3.1模型 46.54 39.31 47.21 47.41 51.34

数据集

SFT数据集

中文微调数据集 https://modelscope.cn/datasets/zhuangxialie/Llama3-Chinese-Dataset/files
train_1M_CN https://huggingface.co/datasets/BelleGroup/train_1M_CN
chinese_modern_poetry https://huggingface.co/datasets/Iess/chinese_modern_poetry
code https://huggingface.co/datasets/iamtarun/python_code_instructions_18k_alpaca
mathglm https://cloud.tsinghua.edu.cn/d/8d9ee3e52bb54afd9c16/

DPO数据集

DPO-En-Zh-20k https://huggingface.co/datasets/hiyouga/DPO-En-Zh-20k
orca_dpo_pairs https://huggingface.co/datasets/Intel/orca_dpo_pairs
Chinese-dpo-pairs https://huggingface.co/datasets/wenbopan/Chinese-dpo-pairs
DPO-zh-en-emoji https://huggingface.co/datasets/shareAI/DPO-zh-en-emoji
Description
Model synced from source: QuantFactory/llama-3.1-chinese-8b-it-dpo-GGUF
Readme 28 KiB