【AI学习】DeepSeek-R1-Distill的意义和影响

在写完上一篇文章《DeepSeek为什么这么火爆？解密梁文锋的深谋远虑》后，又想到了一个新的问题。

在DeepSeek R1的技术报告中，还有这样一个技术：蒸馏赋予小模型推理能力。这项技术的意义和影响是什么？

先看看这个技术，摘录其中的章节如下：

2.4 蒸馏：赋予小模型推理能力

为了给更高效的小型模型配备DeepSeek-R1等推理能力，我们使用DeepSeek-R1策划的80万个样

本直接微调了Qwen（Qwen，2024 b）和Llama（AI@Meta，2024）等开源模型。我们的研究结果表明，这种简单的蒸馏方法显著增强了较小模型的推理能力。我们在这里使用的基本模型是Qwen 2.5-Math-1.5B、Qwen 2.5-Math-7 B、Qwen 2.5 - 14 B、Qwen 2.5 - 32 B、Llama-3.1-8B和Llama-3.3- 70 B-Direct。我们选择Llama-3.3是因为它的推理能力略好于Llama 3.1。对于蒸馏模型，我们仅应用SFT，不包括RL阶段，尽管结合RL可以大幅提高模型性能。我们的主要目标是证明蒸馏技术的有效性，将RL阶段的探索留给更广泛的研究界。

然后在讨论章节，报告给出了技术的评估结果。

4.1.蒸馏与s.强化学习

在3.2节中，我们可以看到，通过蒸馏DeepSeek-R1，小模型可以取得令人印象深刻的结果。然而，仍然剩下一个问题：该模型能否通过论文中讨论的大规模RL训练而不经过蒸馏而获得相当的性能？

为了回答这个问题，我们使用数学、代码和STEM数据在Qwen-32 B-Base上进行大规模RL训练，训练超过10000个步骤，从而产生DeepSeek-R1-Zero-Qwen-32 B。实验结果如表6所示，表明32 B基础模型在大规模化后RL训练，性能与QwQ-32 B-Preview相当。然而，从DeepSeek-R1提炼出来的DeepSeek-R1- Distill Qwen-32 B在所有基准测试中的表现明显优于DeepSeek-R1-Zero-Qwen-32 B。

因此，我们可以得出两个结论：首先，将更强大的模型蒸馏成更小的模型会产生出色的结果，而依赖本文提到的大规模RL的较小模型需要巨大的计算能力，甚至可能无法达到蒸馏的性能。其次，虽然蒸馏策略既经济又有效，但超越智能边界可能仍然需要更强大的基础模型和更大规模的强化学习。

这里的DeepSeek-R1-Distill就是上图的第三步：用前述训练过程中的 SFT 数据来微调 Qwen 和 Llama 等较小模型，以提升这些模型的推理能力。虽然把这个过程称为"蒸馏"，但并不是传统意义上的知识蒸馏，更像是用大模型的输出数据去监督微调（SFT）小模型（包括 Llama 8B 和 70B，以及 Qwen 1.5B--30B）。

DeepSeek-R1-Distill的意义和影响

DeepSeek-R1-Distill的意义，更小的模型更高效，推理成本更低，也更容易部署在普通硬件上，如果能够通过蒸馏技术提升性能，对于研究者或爱好者而言很有吸引力。

那影响呢？我有点不确定。后续业界是否还有开发小模型的动力？或者说基于小模型去做领域模型？如果这样做了，将来更大的模型有了领域能力，通过蒸馏技术简单的就能超越你的的小模型。这是否意味着，小模型也将被具有更大模型能力的厂家所垄断？