DeepSeek摸石头过河式的链式思维能超越人类思考？

DeepSeek-R1-Zero：用更少的参数创造更强大的推理能力？

DeepSeek-R1-Zero以惊人的表现证明了AI领域的一个真理：有时候，简单也能带来颠覆性的改变。

在参数量只有GPT-4o一小部分、训练成本低至可以忽略不计的情况下，DeepSeek-R1-Zero却展现出了令人惊叹的推理能力。这不禁让人思考：为什么我们总是追求更大的模型？也许答案就藏在这小小的参数之中。

最近，我做了一个有趣的实验------用"薛定谔的猫"这个经典哲学问题来测试不同模型的表现。当我把这个问题抛给GPT-4o时，它给出了一个令人哭笑不得的回答：

而当同样的问题被用来测试DeepSeek-R1时，结果却完全不同。它像一位严谨的逻辑学家，一步步分析、推理，最终得出了一个令人信服的答案：

震惊！GPT-4居然比3岁小孩还笨？原来这些LLM的"秘密"你绝对想不到...

在深入了解后，我决定一探究竟：DeepSeek模型推理能力提升的背后到底有什么玄机？

所有训练方法的基础：预训练阶段

无论采用何种训练方式，一切都要从最初的预训练阶段说起。这个阶段会生成一个未经任何监督微调的"基础模型"。

这些基础模型就像是刚刚完成"开卷考试"的学生：

他们已经掌握了语言的基本结构（语法、常用词汇等）
虽然能写出通顺的句子，但提供的回答可能并不准确或相关
在某些情况下，甚至可能会输出令人不安的内容

预训练过程解析

预训练就像是给AI进行一次大规模的"知识储备"：

这个阶段的特点可以简单概括为：

语言结构理解：能够根据输入生成语法正确的句子
潜在危害：可能输出不适当或有害的内容

基础模型的双刃剑特性

最终的基础模型具备以下特点：

掌握了语言的基本结构，能生成通顺的回答
可能会提供看似合理但完全错误的信息
在面对不当请求时无法有效拒绝（例如："如何破解他人邮箱"）

这个阶段就像是一个未经雕琢的璞玉，虽然具备基础能力，但还需要进一步的打磨和引导。

大多数基础模型都在HuggingFace上公开可用，你可以在这些平台上亲自尝试它们。但需要注意的是，这些模型通常不适合直接用于生产环境，因为缺少关键的后续处理步骤来提升其实际应用能力。

DeepSeek的技术突破

DeepSeek-R1的核心创新在于引入了一个独特的"自驱动"强化学习（RL）阶段，这与现有的RLHF技术有着本质区别。这种创新使得模型在面对复杂任务时展现出更强的适应性和决策能力。

强化学习入门：从老鼠找食物说起

让我们用一个简单的例子来理解强化学习的基本概念：

假设一只小鼠需要学会寻找食物。最初，它会"随机探索"各种路径，尝试不同的动作组合。

随着时间推移，某些特定的动作序列会让它获得奖励（比如找到食物），于是它开始记住这些有效的行为模式，并逐渐减少无效路径的尝试。这时，它就进入了"策略优化"阶段，优先选择已知的高回报行为。

这是一个经典的GridWorld问题。小鼠需要通过不断尝试不同的动作组合来最大化自己的奖励值。（图片来自作者）

在强化学习中，有三个关键要素：状态（state）、动作（action）和奖励（reward）。给定一个具体的状态，模型需要"学习策略"------即决定在该状态下采取什么行动才能获得最大的奖励。

策略函数决定了小鼠在当前状态下应该移动的方向。（图片来自作者）

那么，DeepSeek具体是如何将强化学习应用到模型训练中的呢？

DeepSeek-R1-Zero的RL策略解析

让我们先从DeepSeek-R1-Zero版本开始了解。

在2023年，DeepSeek团队发布了一篇名为《DeepSeekMath》的论文，首次提出了这一独特的强化学习策略。这是他们第二次公开分享这一技术成果。

接下来我们将详细介绍这个创新性的训练方法如何帮助模型实现更高效的决策和推理能力。

让我们用一个更直观的方式来看待这个过程：大语言模型是如何通过强化学习提升自己的输出质量的？

在这个过程中，模型扮演了一个"RL Agent"的角色：

动作（Action）：就是它每一步生成的新token
状态（State）：是已经生成的所有token组成的序列
奖励（Reward）：由一个特别设计的函数给出，用来评判输出的好坏

举个简单的例子：当模型回答了一个数学问题并正确地将答案放在一个框里时，它会立即获得10分的正向反馈。这就像在玩一个游戏，模型通过不断尝试不同的"动作"（token组合）来探索最优的解答路径。

这个过程与传统的RLHF（基于人类反馈的强化学习）有所不同：我们不再依赖于人工标注的反馈，而是设计了一个自动化的评分系统，让模型自己从数据中学习如何生成更高质量的内容。

这个评分系统主要关注两个核心指标：

答案正确性：给定一个数学问题，模型需要在最后给出一个明确的答案（通常用\boxed{}框起来）。如果它的答案是正确的，就会获得奖励。通过这种方式，模型会不断优化自己的解题过程，就像学生通过做大量练习来提高成绩一样。
代码输出正确性：对于编程相关的问题，模型生成的代码会被自动编译并运行测试用例（类似于LeetCode的模式）。只有当代码能够通过所有预设的测试用例时，才会获得奖励。这相当于让模型在虚拟环境中反复"实操演练"，直到它能写出稳定可靠的代码。

这种基于自动化评估的强化学习方法，不仅提高了训练效率，还让模型能够更专注于生成高质量、符合预期的内容。

奖励思考过程：深度求索模型的"秘密武器"

在人工智能领域，奖励机制 是提升模型能力的关键。而深度求索（DeepSeek）团队找到了一个独特的解决方案------通过奖励LLM生成的思考令牌来优化模型表现。

这个方法的核心在于让模型在输出答案之前必须经历"思考过程"。就像人类遇到问题时会先理清思路一样，这种机制迫使LLM进行推理和分析。简单来说，就是给模型戴上了一副"思考眼镜"，让它在回答前必须先"想清楚"。

图1：模型因生成思考令牌而获得奖励

这种设计有几个显著优势：

大规模训练更高效

通过强化学习（RL），我们可以用海量高质量的数据来训练模型。虽然人类反馈数据可能存在噪声，但这种基于目标的奖励机制确保了数据的"纯净度"，让模型能够专注于优化正确答案的输出。
推理能力显著提升

如图2所示，在AIME数学竞赛基准测试中，随着训练轮次增加，模型准确率稳步上升。值得注意的是，16个模型的"共识预测"（取多数投票结果）表现与单模型预测几乎持平，这表明模型间的协作并未明显削弱整体性能。

图2：模型准确率随训练轮次提升

Deepseek R1：更"善解人意"的AI

尽管最初的DeepSeek-R1-Zero在推理能力上表现出色，但它有一个致命缺陷------输出结果难以理解。为了解决这个问题，团队在以下几个方面进行了优化：

监督微调

通过大量人工标注数据的训练，让模型学会以更清晰、易懂的方式表达答案。
强化学习新策略

在奖励机制中加入对可读性（readability）的考量。这意味着模型不仅要输出正确的答案，还要确保思考过程和最终结果都符合人类的认知习惯。

图3：深度求索模型的训练流程

总结

通过这种独特的奖励机制和多阶段优化，深度求索团队成功打造了一个既擅长推理又具备优秀表达能力的AI模型。这种方法不仅提升了模型的实际应用价值，也为大语言模型的发展提供了新的思路。

如果你对这个话题感兴趣，不妨深入阅读相关论文（[DeepSeek-R1 Paper](#DeepSeek-R1 Paper "#")），相信会对你的技术视野有所帮助！

让我们用一个简单的方式理解冷启动（Cold-start）：

首先，DeepSeek-R1-Zero通过"摸石头过河"的方式学会了如何思考（Reasoning），也就是通过不断尝试和错误。
接着，DeepSeek-R1-Zero将这些宝贵经验以高质量的案例形式传授给DeepSeek-R1。这样可以让后者在更少的训练轮次中取得更大的进步。

这个过程就是冷启动：利用DeepSeek-R1-Zero生成的链式思维推理（Chain-of-Thought）实例，经过清洗、优化和整理后，用于对DeepSeek-R1进行微调。

冷启动帮助跳过了强化学习训练中不稳定的部分（图片来自作者）

在完成冷启动后，DeepSeek-R1会进入和之前相同的强化学习流程：它已经从R1-Zero那里学到了很多东西，但现在可以继续独立优化自己的推理能力。

简单来说，冷启动就像给AI模型一个"开挂"的起点------通过预训练的经验让它少走弯路，直接进入状态。

结语：当AI开始"反思"，我们准备好了吗？

这次关于强化学习的新尝试，让LLM的推理能力迈上了一个新台阶。但这真的是终点了吗？答案显然是否定的。

想象一下，如果我们给一个孩子一支笔，却不教他画画的方法，会发生什么？他会通过不断试错，在墙上画出歪歪扭扭的线条，然后逐渐掌握控制笔的方向和力度。这个过程看似简单，却蕴含着无限可能。现在的LLM就是这样：当我们设计了一个"指挥棒"（即奖励函数），它就能像好奇的孩子一样，在数据的海洋中不断探索，最终找到正确的答案。

更有趣的是，这种训练方式让AI展现出了许多令人惊叹的"智能行为"。比如，当被问到一个复杂的问题时，它会不慌不忙地"重新审视"问题本身，权衡各种可能性，并反复检查自己的推理过程。这些行为并不是工程师们硬编码进去的，而是完全由奖励机制驱动下自然"进化"而来的。

最近有个热门话题：GPT-4的表现真的比一个3岁的孩子还要差吗？答案竟然是肯定的。这让我们不得不反思：AI虽然强大，但依然存在明显的局限性。就像一个未经训练的孩子，他可能对世界充满好奇，却无法准确理解复杂的概念。

那么问题来了：当我们将"指挥棒"交到AI手中，它真的能像人类一样甚至超越人类地思考吗？答案或许是肯定的。毕竟，我们已经看到了一些令人震撼的例子：比如DeepSeek-R1-Zero通过独特的RL策略，在复杂任务中展现出了惊人的推理能力。

但这也带来了新的问题：当AI开始"反思"，我们是否真的准备好迎接一个可能比我们更聪明的物种了？毕竟，AGI（通用人工智能）的目标，或许就藏在这些简单的奖励函数背后。