在 DeepSeek-R1 之后，一座研究的金矿正等待被发掘。

GPT-4o生成

我非常喜欢开放的 LLM 研究。

开放研究最棒的地方在于，它允许人们在某家公司尝试过的想法基础上进行扩展，并进一步改进它。

最近，DeepSeek 发表了一篇论文，介绍了他们用于训练一个强大推理模型的 RL 训练过程，该模型在能力上可与 OpenAI 的 o1 模型媲美。

更棒的是：DeepSeek 的 RL 理念适用于许多不同的场景。

如果你不相信，我会说服你。

强化学习的热潮

强化学习（RL）现在已经成为 LLM 微调的新标准。

直到 2025 年，强化学习才真正成为一种流行的微调方法，而 DeepSeek 的论文让其惊人的潜力变得清晰可见。

我希望你大致了解 RL 是什么，但这里可以给你一个简短的介绍。RL 通常出现在机器人技术和游戏 AI 代理的应用中。

一张 RL 代表性的示意图。（图片由作者提供）

但 RL 直到最近才真正进入 LLM 领域。

让我们看看具体发生了什么。

（需要注意的是，我们主要讨论的是开源模型；像 OpenAI 这样的公司总是想保持领先，所以他们不会分享他们的训练流程。）

以下是 2024 年 LLM 训练流程的样子：

典型 LLM 训练的不同阶段。（图片由作者提供）

而这则是 DeepSeek 的训练流程：

DeepSeek 模型训练的不同阶段。（图片由作者提供）

LLM 训练中的 RL vs SFT

RL 和 SFT 的区别在于，SFT 使用标注的训练数据来引导 LLM，而 RL 允许 LLM 独立运作，并通过奖励"良好"行为的方式进行训练。

SFT 和 RL 的视觉对比。（图片由作者提供）

但为什么 RL 更胜一筹？

• RL 具有泛化能力。无论你提供何种数据，它都倾向于生成帮助代理学习通用概念的策略，而不是简单地记住训练数据。

• SFT 依赖记忆。传统的方法，比如 SFT，往往会记住训练数据，导致模型无法回答超出特定训练数据范围的问题。

我会给你两个例子，说明 RL 是如何泛化得如此出色的。

通过编码和数学难题进行训练

假设你有一堆编码和数学难题，你的目标是训练一个 LLM 具备推理能力。

你会首先在 LLM 上实现一个 RL 训练循环，然后提供这些数学和编码问题。

你会等待 LLM 生成答案，并对"正确"的答案给予奖励：

• 对于数学问题，"正确"的答案是最终结果与给定答案匹配的答案。

最终的框选答案可以与计算器进行比对。

• 对于编码问题，"正确"的答案是能够成功通过所有预定测试用例的代码。

我们根据一份预定的测试用例列表来测试最终的代码，就像 LeetCode 那样。（图片由作者提供）

LLM 然后使用这些奖励来更新其策略，以优化其长期奖励 ------ 进而在隐性层面上鼓励 LLM 提高其推理能力。

这正是 DeepSeek 所做的事情。

通过骑士与恶棍谜题进行训练

如果我们换一组不同的谜题，而不是数学和编码谜题，会发生什么？以下是我们如何设置新的谜题：

想象你身处一个神秘的岛屿上，岛上只有两种人------骑士和恶棍。

• 骑士：他们总是说实话。

• 恶棍：他们总是撒谎。

假设岛上有两个人：爱丽丝和鲍勃。你的任务是确定谁是骑士，谁是恶棍。

你可能会听到爱丽丝说："我们两个都是恶棍。"

（图片由作者提供）

你需要判断谁是骑士，谁是恶棍。

我们可以考虑两种情况：

爱丽丝是骑士。如果这是真的，那么她说"我们两个都是恶棍"就是谎言。但骑士不能撒谎，这样就产生了矛盾。
爱丽丝是恶棍。如果这是真的，那么她说"我们两个都是恶棍"一定是谎言，因为恶棍总是撒谎。如果她是恶棍，那么她的这句话是谎言的前提是鲍勃是骑士。

因此，答案是：爱丽丝是恶棍，鲍勃是骑士。

同样地，你可以增加人物数量，让每个角色说出一堆陈述，而谜题的核心就在于弄清楚谁是骑士，谁是恶棍。

试试这个：

一个骑士与恶棍谜题的示例。（图片由作者提供）

最终答案：亚历克斯（骑士），贝拉（恶棍），查理（骑士），戴安娜（恶棍）。

我们向 LLM 提供类似的谜题，让它进行推理并得出答案。

有一个布尔代数算法可以解决这类问题，因此如果 LLM 最终的答案与该算法的预期答案匹配，我们就会奖励它。

奖励如何确定的概览。一个黑箱算法输入问题并确定答案。（图片由作者提供）

结果

• 使用 RL，LLM 无论使用什么数据都能学会推理能力，并且在这个过程中提高其数学基准测试成绩。这证明了 RL 具有泛化能力。

• 如果使用 SFT，它可能只会提升 LLM 在特定数据集上的表现，而不会真正提高 LLM 的推理能力。因此，SFT 只是记忆训练数据。

进一步提高 RL 训练效果的一些方法

课程学习（Curriculum Learning）

课程学习是一种最近被研究并证明可以显著提高 RL 训练效果的技术。

但它究竟是什么？

想象你是一名老师，正在教一群学生某个数学概念。

你可能会先从简单的例子开始，让学生自己解决问题，然后逐渐增加难度。这样可以让学生学会独立解决问题，并最终攻克更难的题目。

随着训练的进行，我们逐渐向 LLM 提供难度增加的问题。（图片由作者提供）

研究表明，这种方法在使用 RL 训练 LLM 时也能提高效果。

例如，如果我们使用骑士与恶棍谜题进行训练，我们会先给 LLM 提供只有两个角色的简单问题，随着训练的进行，逐步增加角色数量。

研究人员发现，这种方法的效果确实比随机提供问题要好。

冷启动（Cold Start）

为了更好地理解这个概念，我们先看看没有冷启动的训练过程。请看下图中的红色曲线：

没有冷启动的 RL 训练。（图片由作者提供）

观察红色曲线。在最初阶段，RL 算法的表现完全没有提升，因为 LLM 需要尝试许多无效的组合，直到最终迎来"顿悟时刻"，才开始提高推理能力。

冷启动可以帮助我们跳过这个初期的低效阶段。

对比有无冷启动的训练过程。（图片由作者提供）

冷启动相当于在 RL 之前先用标注数据进行监督微调（SFT），给予 LLM 一定的初始指导，确保它朝正确方向前进，从而跳过训练初期的低效探索阶段。

请看上图中的蓝色曲线。我们首先进行 SFT 冷启动，使推理能力略有提高，这样 LLM 就能跳过初始的低效阶段，直接进入自主推理的过程。

主要结论

冷启动的主要目标是跳过初期的低效阶段，使整个训练过程更快。然而，关于冷启动是否真正能提升最终的整体性能，仍然存在争议。

结论

总结来说，DeepSeek 的方法比你想象的还要有用。

RL 已被证明具有泛化能力，也就是说，即便模型仅在特定问题上接受训练，它仍然能够学习元技能。

我们讨论了 RL 的泛化能力，以及可以结合 RL 训练以提高 LLM 推理能力的多种数据集示例。我们还介绍了一些能进一步提高 RL 训练效果的技术。

使用 RL 训练 LLM 仍然是一个新兴领域，存在大量可探索的研究方向，充满潜力。

我个人今年也打算进入这个领域，如果你对此感兴趣，我强烈推荐你去探索它。

这是一款我最近发现的库，它能让使用 RL 训练 LLM 变得更加简单。如果你对这个方向感兴趣，不妨试试看 :)