在 DeepSeek-R1 之后,一座研究的金矿正等待被发掘。

GPT-4o生成

我非常喜欢开放的 LLM 研究。

开放研究最棒的地方在于,它允许人们在某家公司尝试过的想法基础上进行扩展,并进一步改进它。

最近,DeepSeek 发表了一篇论文,介绍了他们用于训练一个强大推理模型的 RL 训练过程,该模型在能力上可与 OpenAI 的 o1 模型媲美。

更棒的是:DeepSeek 的 RL 理念适用于许多不同的场景。

如果你不相信,我会说服你。

强化学习的热潮

强化学习(RL)现在已经成为 LLM 微调的新标准。

直到 2025 年,强化学习才真正成为一种流行的微调方法,而 DeepSeek 的论文让其惊人的潜力变得清晰可见。

我希望你大致了解 RL 是什么,但这里可以给你一个简短的介绍。RL 通常出现在机器人技术和游戏 AI 代理的应用中。

一张 RL 代表性的示意图。(图片由作者提供)

但 RL 直到最近才真正进入 LLM 领域。

让我们看看具体发生了什么。

(需要注意的是,我们主要讨论的是开源模型;像 OpenAI 这样的公司总是想保持领先,所以他们不会分享他们的训练流程。)

以下是 2024 年 LLM 训练流程的样子:

典型 LLM 训练的不同阶段。(图片由作者提供)

而这则是 DeepSeek 的训练流程:

DeepSeek 模型训练的不同阶段。(图片由作者提供)

LLM 训练中的 RL vs SFT

RL 和 SFT 的区别在于,SFT 使用标注的训练数据来引导 LLM,而 RL 允许 LLM 独立运作,并通过奖励"良好"行为的方式进行训练。

SFT 和 RL 的视觉对比。(图片由作者提供)

但为什么 RL 更胜一筹?

• RL 具有泛化能力。 无论你提供何种数据,它都倾向于生成帮助代理学习通用概念的策略,而不是简单地记住训练数据。

• SFT 依赖记忆。 传统的方法,比如 SFT,往往会记住训练数据,导致模型无法回答超出特定训练数据范围的问题。

我会给你两个例子,说明 RL 是如何泛化得如此出色的。

  1. 通过编码和数学难题进行训练

假设你有一堆编码和数学难题,你的目标是训练一个 LLM 具备推理能力。

你会首先在 LLM 上实现一个 RL 训练循环,然后提供这些数学和编码问题。

你会等待 LLM 生成答案,并对"正确"的答案给予奖励:

• 对于数学问题,"正确"的答案是最终结果与给定答案匹配的答案。

最终的框选答案可以与计算器进行比对。

• 对于编码问题,"正确"的答案是能够成功通过所有预定测试用例的代码。

我们根据一份预定的测试用例列表来测试最终的代码,就像 LeetCode 那样。(图片由作者提供)

LLM 然后使用这些奖励来更新其策略,以优化其长期奖励 ------ 进而在隐性层面上鼓励 LLM 提高其推理能力。

这正是 DeepSeek 所做的事情。

  1. 通过骑士与恶棍谜题进行训练

如果我们换一组不同的谜题,而不是数学和编码谜题,会发生什么?以下是我们如何设置新的谜题:

想象你身处一个神秘的岛屿上,岛上只有两种人------骑士和恶棍。

• 骑士: 他们总是说实话。

• 恶棍: 他们总是撒谎。

假设岛上有两个人:爱丽丝和鲍勃。你的任务是确定谁是骑士,谁是恶棍。

你可能会听到爱丽丝说:"我们两个都是恶棍。"

(图片由作者提供)

你需要判断谁是骑士,谁是恶棍。

我们可以考虑两种情况:

  1. 爱丽丝是骑士。 如果这是真的,那么她说"我们两个都是恶棍"就是谎言。但骑士不能撒谎,这样就产生了矛盾。

  2. 爱丽丝是恶棍。 如果这是真的,那么她说"我们两个都是恶棍"一定是谎言,因为恶棍总是撒谎。如果她是恶棍,那么她的这句话是谎言的前提是鲍勃是骑士。

因此,答案是:爱丽丝是恶棍,鲍勃是骑士。

同样地,你可以增加人物数量,让每个角色说出一堆陈述,而谜题的核心就在于弄清楚谁是骑士,谁是恶棍。

试试这个:

一个骑士与恶棍谜题的示例。(图片由作者提供)

最终答案:亚历克斯(骑士),贝拉(恶棍),查理(骑士),戴安娜(恶棍)。

我们向 LLM 提供类似的谜题,让它进行推理并得出答案。

有一个布尔代数算法可以解决这类问题,因此如果 LLM 最终的答案与该算法的预期答案匹配,我们就会奖励它。

奖励如何确定的概览。一个黑箱算法输入问题并确定答案。(图片由作者提供)

结果

• 使用 RL,LLM 无论使用什么数据都能学会推理能力,并且在这个过程中提高其数学基准测试成绩。这证明了 RL 具有泛化能力。

• 如果使用 SFT,它可能只会提升 LLM 在特定数据集上的表现,而不会真正提高 LLM 的推理能力。因此,SFT 只是记忆训练数据。

进一步提高 RL 训练效果的一些方法

  1. 课程学习(Curriculum Learning)

课程学习是一种最近被研究并证明可以显著提高 RL 训练效果的技术。

但它究竟是什么?

想象你是一名老师,正在教一群学生某个数学概念。

你可能会先从简单的例子开始,让学生自己解决问题,然后逐渐增加难度。这样可以让学生学会独立解决问题,并最终攻克更难的题目。

随着训练的进行,我们逐渐向 LLM 提供难度增加的问题。(图片由作者提供)

研究表明,这种方法在使用 RL 训练 LLM 时也能提高效果。

例如,如果我们使用骑士与恶棍谜题进行训练,我们会先给 LLM 提供只有两个角色的简单问题,随着训练的进行,逐步增加角色数量。

研究人员发现,这种方法的效果确实比随机提供问题要好。

  1. 冷启动(Cold Start)

为了更好地理解这个概念,我们先看看没有冷启动的训练过程。请看下图中的红色曲线:

没有冷启动的 RL 训练。(图片由作者提供)

观察红色曲线。在最初阶段,RL 算法的表现完全没有提升,因为 LLM 需要尝试许多无效的组合,直到最终迎来"顿悟时刻",才开始提高推理能力。

冷启动可以帮助我们跳过这个初期的低效阶段。

对比有无冷启动的训练过程。(图片由作者提供)

冷启动相当于在 RL 之前先用标注数据进行监督微调(SFT),给予 LLM 一定的初始指导,确保它朝正确方向前进,从而跳过训练初期的低效探索阶段。

请看上图中的蓝色曲线。我们首先进行 SFT 冷启动,使推理能力略有提高,这样 LLM 就能跳过初始的低效阶段,直接进入自主推理的过程。

主要结论

冷启动的主要目标是跳过初期的低效阶段,使整个训练过程更快。然而,关于冷启动是否真正能提升最终的整体性能,仍然存在争议。

结论

总结来说,DeepSeek 的方法比你想象的还要有用。

RL 已被证明具有泛化能力,也就是说,即便模型仅在特定问题上接受训练,它仍然能够学习元技能。

我们讨论了 RL 的泛化能力,以及可以结合 RL 训练以提高 LLM 推理能力的多种数据集示例。我们还介绍了一些能进一步提高 RL 训练效果的技术。

使用 RL 训练 LLM 仍然是一个新兴领域,存在大量可探索的研究方向,充满潜力。

我个人今年也打算进入这个领域,如果你对此感兴趣,我强烈推荐你去探索它。

这是一款我最近发现的库,它能让使用 RL 训练 LLM 变得更加简单。如果你对这个方向感兴趣,不妨试试看 :)

相关推荐
量子位10 分钟前
老黄发布新核弹 B300,英伟达:B200 已破 DeepSeek-R1 推理世界纪录
人工智能·deepseek
沈二到不行10 分钟前
PyTorch 中的激活函数
人工智能
fbbmore1 小时前
亲测Cherry-Studio的MCP功能
人工智能
赛逸展张胜1 小时前
2025国际数字能源展全球招商开启,助力数字能源产业新发展
人工智能·能源
newsxun1 小时前
非洲能源商会:架起中非能源合作的桥梁
大数据·人工智能
Phodal1 小时前
AutoDev Planner:推理模型规划编码任务,DeepSeek R1 延伸 Vibe Coding 可能性
人工智能·ai 编程
趣味科技v1 小时前
科技引领品质生活:三星生活家电用AI开启衣物洗护新纪元
大数据·人工智能·科技·生活
QQ2960787361 小时前
科技资讯杂志科技资讯编辑部科技资讯杂志社2025年第2期目录
人工智能
RamendeusStudio1 小时前
AI教我做事之RAG开发-21 RAGFlow深度研究
人工智能·ai·aigc·stablediffusion·controlnet·rag·ragflow
Phodal1 小时前
AI 编码 2.0 分析、思考与探索实践:从 Cursor Composer 到 AutoDev Sketch
人工智能·ai 编程