DistilQwen2.5-DS3-0324发布：知识蒸馏+快思考=更高效解决推理难题

作者：蔡文睿（清素）、汪诚愚（熊兮）、严俊冰（玖烛）、黄俊（临在）

引言

在大语言模型领域的快速发展中，如何有效平衡高效推理和模型思维能力之间的矛盾一直是学术界和工业界关注的重点。DeepSeekV3-0324 默认没有采用深度思考的模式，使得模型推理速度更快，兼顾了快速推理和复杂任务处理之间的平衡。

DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列，包括DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。在此次工作中，我们将 DeepSeekV3-0324 基于快思考的推理能力成功迁移到更轻量的小模型中，全新推出 DistilQwen2.5-DS3-0324 。在继承了原始模型思维链蒸馏的精华的同时，引入了快思考策略，显著提升了推理速度，使得在资源受限的设备和边缘计算场景中，模型能够高效执行复杂任务。

实验显示，DistilQwen2.5-DS3-0324 系列模型在多个基准测试中表现突出，其 32B 模型效果甚至接近参数量接近其10倍的闭源大模型。在复杂问题解决方面，也大幅降低了思维链的长度，展示了卓越的效率。DistilQwen2.5-DS3-0324 系列的发布，助力"大模型+快思考"的新模式，逐步成为解决推理难题的标准配置。

为方便开发者和企业在实际应用中使用 DistilQwen2.5-DS3-0324 系列模型，已将所有的 Checkpoint 在 Hugging Face 和 Model Scope 开源社区中公开。本文将深入阐述 DistilQwen2.5-DS3-0324 的蒸馏算法、性能评估，并且提供在阿里云人工智能平台 PAI 上的使用指南及相关下载教程。

DistilQwen2.5-DS3-0324中的蒸馏技术

本节中，我们主要描述DistilQwen2.5-DS3-0324系列模型训练中使用的数据增强与知识蒸馏技术。

推理模型通过深度思考可以解决复杂的推理任务，但这种深度思考也带来了大规模的计算资源需求。模型思考的过程中一般都有反思机制的参与，其会反复推敲模型已有的推理步骤，确保每个步骤都正确推进。这种反思机制在提高推理准确率的同时，也会不可避免地带来一些重复冗余的部分，导致推理模型所需的计算资源居高不下。因此，取得模型深度思考和快速回答间的平衡显得格外重要。

此外，蒸馏模型的参数量普遍较小。而由于自身参数量的显著差异，大模型与小模型的认知与推理轨迹有时并不完全一致。以数学问题为例：小模型由于自身参数量的限制，会倾向于使用更基础的方法去解决问题。而大模型基于其强大的推理能力，会采用较为高阶的方法。正是由于大小模型的认知轨迹偏差，小模型有时无法有效理解大模型的思维链。如果直接将大模型的思维链全部蒸馏到小模型中，往往无法达到最优效果。

针对这些问题，我们设计了一种小型推理模型蒸馏框架，主要包含2个阶段：快思考CoT数据收集，CoT轨迹认知对齐。该框架可以让模型在快速思考的同时，消除认知轨迹偏差带来的负面影响。我们通过第一阶段收集大模型的快思考数据，在第二阶段对快思考数据进行与小模型的认知能力对齐，最终使用对齐后的快思考CoT对Qwen2.5系列基座小模型进行监督微调（SFT），得到DistilQwen2.5-DS3-0324系列模型。

快思考CoT数据收集

正如上文中提到的，模型深度思考和快速回答间的平衡显得格外重要。如果模型的中间思考步骤出现错误，此时的反思机制可以有效帮助模型自查纠错。但如果模型输出的是正确的思考步骤，此时反复的自查思考反而会导致不必要的资源浪费。因此，我们需要一种快思考CoT，其保留了必要的推理和自查纠错步骤，同时去除了不必要的重复冗余部分。这种快思考CoT大幅缩减了推理长度，可以帮助模型进行快速思考和快速回复，在资源受限场景中高效完成任务。我们的快思考CoT数据主要来源于：

推理大模型CoT数据的Long To Short思维链改写。基于DeepSeek-R1的推理数据，我们从中提炼关键步骤，生成更高效、简洁的推理路径。
快思考大模型蒸馏。我们认为DeepSeek-V3-0324的输出具备快思考的特点，我们从中蒸馏出一些推理轨迹，涵盖数学、代码和科学问题等多个领域。

特别的，针对推理大模型产生的思维链过于冗长的问题，我们进一步使用QwQ-32B对思维链进行改写，其功能在于精简思维链长度，降低蒸馏模型的输出token数量，同时，保证思维链的正确性，避免错误传播到蒸馏模型中。使用大模型进行Long To Short思维链改写的Prompt如下所示：

plain 复制代码

You are a helpful assistant who is highly skilled at simplifying reasoning processes.
Given a problem, its answer and its reasoning process, your task is to simplify the reasoning process so that a small language model (e.g., a 7B model) can reliably follow the steps to solve the problem. \\
If the original reasoning process is divided into multiple steps separated by two newline characters, your output must preserve this formatting. \\
You must output ONLY the simplified reasoning process with no additional explanation or commentary.

CoT轨迹认知对齐

正如上文中提到的，大小模型间的认知推理轨迹有时存在显著偏差。因此，对于待蒸馏的大模型快思考CoT数据集，小模型可能无法有效理解全部内容。举例来说，对于计算直角边分别为3和4的三角形面积，大模型可能使用线性代数进行求解：

这种方式对小模型而言比较难以学会，其一般采用简单的算术方法求解：

因此，直接将大模型的输出蒸馏到小模型容易造成小模型难以拟合的问题。

我们采用了LLM-as-a-Judge的范式，对大模型的推理过程进行评价并改进。给定问题、大模型的推理过程和问题的答案，我们使用模型判断这个推理过程是简单、中等还是困难。难度等级的核心标准是小模型是否能够遵循给定的推理过程得到问题的答案。以下是思维链的难度等级及定义：

中等：小模型可以遵循该推理过程得到问题的答案。
简单：给定的推理过程过于简单，缺少小模型所需的必要步骤，导致大模型可以依赖其强大的推理能力解决问题，但小模型无法遵循该过程得到答案。
困难：给定的推理过程过于复杂或过于困难，导致小模型无法遵循该过程得到答案。

其中，我们使用如下Prompt调用QwQ-32B模型进行思维链难度的估计：

plain 复制代码

You are a highly capable evaluator.
Your task is to assess the given reasoning process from the perspective of a small language model (e.g., 7B). 
Specifically, determine whether the reasoning process provides sufficient detail for a small model to solve the problem, or whether it is too simplistic (i.e., lacking critical details) or too complex (i.e., containing unnecessary or confusing steps). 

Difficulty Definitions (from the perspective of a small model): 
- Easy: The reasoning process is overly simplistic relative to the problem's difficulty; it omits essential details that a small model needs to solve the problem.
- Medium: The reasoning process is appropriately balanced, offering enough detailed guidance.
- Hard: The reasoning process is overly complex, with extraneous or convoluted steps that could hinder a small model's ability to follow it. 

Output Format:
You must output exactly one word: easy, medium, or hard. Do NOT provide any additional text, explanation.

基于一个大模型的问题与思维链集合，我们可以将其分为简单、中等和困难三类。对于评级为中等的部分，我们予以保留。对于被评为简单和困难的数据，我们使用模型对思维链进行改进。具体来说：对于简单部分，我们扩展其推理过程，直至小模型可以遵循扩展的过程得到答案。对于评级为困难的部分，我们精简其推理过程，直至小模型可以遵循精简的过程得到答案。精简思维链的过程可以参考Long To Short的Prompt示例。扩展思维链的过程与Long To Short相反，其Prompt模版如下所示：

plain 复制代码

You are a helpful assistant who is highly skilled at extending reasoning processes.
Given a problem, its answer and its reasoning process, your task is to extend the reasoning process by adding necessary details and intermediate steps so that a small language model (e.g., a 7B model) can follow the extended reasoning process to solve the problem. \\
If the original reasoning process is divided into multiple steps separated by two newline characters, your output must preserve this formatting. \\
You must output ONLY the extended reasoning process with no additional explanation or commentary.

我们之后对改进结果进行进一步验证，包括：对改进后的思维链再次评价难度等级，检测其是否被归类为中等难度。如果改进后的思维链通过验证，说明改进有效，该数据可以被小模型有效理解，我们将其保留。如果验证不通过，说明改进无效，我们将返回到改进步骤，重新进行改进，直至通过验证。最终，我们获取了优化后的思维链数据集，其组成部分如下：

初始难度评级为中等的数据。
初始难度评级为简单，经过改进扩展后评为中等并通过验证的数据。
初始难度评级为困难，经过改进精简后评为中等并通过验证的数据。

此时，数据集内所有思维链的最终难度评级均为中等，意味着小模型可以有效理解数据集内的所有思维链，并能遵循这些思维链解决相应推理问题。上文提到的大小模型认知轨迹偏差问题在改进后的数据集中得到妥善解决，其可能带来的负面影响也被消除。相关流程如下所示：

相关工作参考论文Training Small Reasoning LLMs with Cognitive Preference Alignment. arXiv。

我们在第二阶段使用这种CoT轨迹认知对齐机制对得到的快思考CoT数据进行优化，最终使用优化后的数据集对Qwen2.5系列基座模型进行监督微调（SFT），得到DistilQwen2.5-DS3-0324系列模型。

DistilQwen2.5-DS3-0324模型效果评测

在本节中，我们从多个角度评测DistilQwen2.5-DS3-0324系列蒸馏小模型在推理任务上的实际效果；同时，我们将通过统计数据印证DistilQwen2.5-DS3-0324系列模型推理的快速性和高效性。

模型综合能力评测

我们在多个模型推理能力评测基准上测试了DistilQwen2.5-DS3-0324系列模型的能力，涵盖数学、代码和科学问题三个主流推理领域。

数学领域：采用AIME2024和MATH-500两个基准。AIME2024为美国数学邀请赛的2024年测试集，含30道高难题，聚焦代数与几何等复杂推理能力；MATH-500涵盖500道题，旨在全面考察模型在数学解题上的能力。
代码领域：使用LiveCodeBench V2，其包含2023年5月-2024年5月的511个代码问题，测试模型在高难度编码、自我修复和执行测试等方面的综合能力。
科学问题领域：使用GPQA-Diamond和MMLU-PRO。前者为高质量专家级科学问题集（共198题），后者涵盖12,000+道题，强调模型的复杂推理能力而非仅靠知识检索，精准追踪大模型在推理任务上的进步和不足。

如下图所示，DistilQwen2.5-DS3-0324系列模型在7B、14B和32B四个参数量级的模型中，与原始Qwen2.5模型的效果进行了对比。可以看出，DistilQwen2.5-DS3-0324系列模型的推理能力在多个评测基准上取得了一致而明显的效果提升。

7B量级
14B量级
32B量级

我们还将DistilQwen2.5-DS3-0324-32B与当前主流的非推理大模型作了比较，结果如下图所示。

可以看出，尽管这些大模型的参数量是自己的数十倍，DistilQwen2.5-DS3-0324-32B依旧在这些推理基准上取得了相对不错的结果。其中，DistilQwen2.5-DS3-0324-32B在AIME2024和MATH-500两个基准上高于多个闭源大模型（例如Qwen-Max和Claude-Sonnet-3.7），在LiveCodeBench超过了其他所有大模型，包括其教师模型DeepSeek-V3-0324。

平衡精度和输出Token数量

为展示DistilQwen2.5-DS3-0324系列模型高效推理效果，以32B模型为例，我们分别统计了DistilQwen2.5-DS3-0324模型和DistilQwen2.5-R1系列模型在各个推理benchmark上输出的平均token数。可以看出，相较于采用深度思考进行推理的模型，DistilQwen2.5-DS3-0324系列模型推理输出的token数量大幅降低，与DeepSeek-V3-0324（teacher model）的输出Token数相当，兼顾了快速推理和复杂任务处理。这种快思考的特点使得DistilQwen2.5-DS3-0324系列模型在资源受限的设备和边缘计算场景中依旧能高效解决复杂推理任务。

模型	MMLU_PRO	AIME2024	MATH500	GPQA Diamond
慢思考模型
DistilQwen2.5-R1-32B	4198.45	12178.73	3872.89	6674.12
快思考模型
DeepSeek-V3-0324（教师模型）	592.43	2484.12	1177.09	1137.25
DistilQwen2.5-DS3-0324-32B（学生模型）	689.77	4176.83	1273.57	1099.10

模型输出案例

我们在此列举一些有趣的小例子，以体现DistilQwen2.5-DS3-0324系列模型强大的代码能力。以下case均为DistilQwen2.5-DS3-0324-32B输出结果。为便于复现，我们还提供了不同case对应的prompt。将prompt对应的模型输出代码保存到本地html文件中，使用浏览器打开html文件即可复现类似结果。

示例一：前端网页生成：

Prompt：Create a detailed web page for a new SAAS with all the necessary information images and pricing and all, give me the code so that I can test locally using vscode.

示例二：贪吃蛇游戏

Prompt: Develop an interactive version of the classic Snake game in a single HTML file using HTML, inline CSS, and inline JavaScript. The game must include responsive controls, dynamic score tracking, and a game-over screen with a restart option. Use proper image assets for the snake and food items (no placeholders) so that the entire game is self-contained.

模型下载和使用

DistilQwen2.5-DS3-0324在阿里云人工智能平台PAI上的实践

以下HuggingFace transformers库为例，简要介绍如何在PAI-DSW上使用DistilQwen2.5-DS3-0324模型。首先需要保证PAI-DSW镜像内transformers版本大于等于4.37.0，否则会在加载模型时报错：

python 复制代码

KeyError: 'qwen2'

以DistilQwen2.5-DS3-0324-7B为例，我们可以使用如下代码调用模型：

python 复制代码

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "alibaba-pai/DistilQwen2.5-DS3-0324-7B"

model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "xxxxx"
messages=[
    {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant. You should think step-by-step."},
    {"role": "user", "content": prompt},
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=2048
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

DistilQwen2.5-DS3-0324在开源社区的下载

我们在Hugging Face和Model Scope上开源了我们蒸馏后的模型，分别为DistilQwen2.5-DS3-0324-7B、DistilQwen2.5-DS3-0324-14B、DistilQwen2.5-DS3-0324-32B。以Hugging Face为例，用户可以使用如下代码下载这两个模型：

python 复制代码

from huggingface_hub import snapshot_download

model_name = "alibaba-pai/DistilQwen2.5-DS3-0324-7B"
snapshot_download(repo_id=model_name, cache_dir="./DistilQwen2.5-DS3-0324-7B/")

model_name = "alibaba-pai/DistilQwen2.5-DS3-0324-14B"
snapshot_download(repo_id=model_name, cache_dir="./DistilQwen2.5-DS3-0324-14B/")

model_name = "alibaba-pai/DistilQwen2.5-DS3-0324-32B"
snapshot_download(repo_id=model_name, cache_dir="./DistilQwen2.5-DS3-0324-32B/")

小结与未来工作

综上所述，DistilQwen2.5-DS3-0324系列模型通过知识蒸馏快思考策略，实现了在资源受限环境中的高效推理，兼顾了快速推理和处理复杂任务的需求。这一系列模型在多个基准测试中表现优异，证明了其卓越的推理能力和实际应用价值。作为"大模型+快思考"新模式的经典案例，DistilQwen2.5-DS3-0324系列为小模型的广泛应用提供了巨大的空间。未来，我们将继续优化和提升DistilQwen系列模型的蒸馏技术，以进一步增强小模型的智能水平和推理效率，推广更多高效、轻量化的语言模型，支持开发者和企业在实际应用中的广泛采用。

DistilQwen2.5-DS3-0324发布：知识蒸馏+快思考=更高效解决推理难题

引言

DistilQwen2.5-DS3-0324中的蒸馏技术

快思考CoT数据收集

CoT轨迹认知对齐

DistilQwen2.5-DS3-0324模型效果评测

模型综合能力评测

平衡精度和输出Token数量

模型输出案例

模型下载和使用

DistilQwen2.5-DS3-0324在阿里云人工智能平台PAI上的实践

DistilQwen2.5-DS3-0324在开源社区的下载

小结与未来工作

参考资料

技术交流答疑群