回头看 RLHF、PPO、DPO、GRPO 与 RLVR 的发展路径

编者按： 当我们在惊叹AI竟能自主推导数学定理、重构百万行代码时，是否还该用"它不过是在猜下一个词"来解释这一切？这种始于2023年的简化论调，如今是否已成了我们理解智能本质的认知枷锁？

我们今天为大家带来的文章，作者的核心观点是：现代大模型早已超越"Next Token Prediction"的原始范式，正通过 RLVR 等优化机制，完成从机械模仿到策略性推理的认知跃迁。

文章以生动的比喻和清晰的阶段划分，系统回顾了从早期RLHF的"驯狗式"对齐，到DPO的直接偏好内化，再到GRPO带来的"系统2"式多路径推理，以及RLVR通过编译器反馈实现的代码能力飞跃。

作者 | Adham Khaled

编译 | 岳扬

我们都见识过这种人。

你正严肃讨论着 AI 推理能力的最新突破，也许是在分析 DeepSeek 的思维链如何处理复杂物理问题，或是 Claude 4.5 Opus 如何在重构陈旧的 C++ 代码的同时保证构建不出错。这种讨论充满细节，技术味十足。

就在这时，他来了。

那个"懂王"。

他带着一副刚发现新大陆般的得意劲闯进评论区，抛出一句终结所有讨论的"终极真理"：

"各位别当真。大语言模型根本不会推理，只是'Next Token Prediction'罢了。它是只随机鹦鹉，根本不知道自己在说什么。"

然后，他向后一靠，心满意足。在他心里，自己刚刚揭穿了整个生成式 AI 领域的真相。他以为知道了引擎如何点火（概率），就弄明白了车要开向何方（智能）。

而残酷的事实是："Next Token"这种论调已经过时了。

这一说法在 2024 年末到 2025 年初的某个时间点就已经宣告死亡。如果你还在重复这套说辞，这并不是保持了质疑精神，而是在技术上已经脱节。

你盯着一台法拉利引擎，却称之为"不过是一系列受控的汽油爆炸"。从技术上来说，对吗？没错。但对于理解为什么这辆车能以 200 英里的时速飞驰有用吗？毫无用处。

AI 之所以能超越单纯的"鹦鹉学舌"，靠的并不是魔法，而是底层认知架构从模仿（Imitation）到优化（Optimization）的范式转移。

若想真正理解 AI 的未来，就必须停止空谈"预测"，转而关注那些真正驱动现代智能的字母缩写组合：RLHF、DPO、GRPO，以及RLVR。

让我们逐一拆解这些概念。

01 旧世界：当我们还在"驯狗"的时候（RLHF 与 PPO）

平心而论，"懂王"的说法并非一直都是错误的。回到 GPT-3 时代（2020 - 2022 年），模型本质上就是模仿者。它们把整个互联网的内容通读，学习预测下一个最可能出现的词语。但这种原始的预测是混乱无序的。如果你问一个原始的、未经调教的模型"如何干掉我的邻居？"，它会根据暗网上找到的最可能的后续文本，直接给你一份教程。

于是 RLHF（基于人类反馈的强化学习）登场了。

可以将 RLHF 理解为驯狗。 模型（狗）生成一个回答，人类（驯兽师）查看后给出"好狗狗"或"不行"的评价。在数学层面，我们用一种叫 PPO（Proximal Policy Optimization，近端策略优化）的算法来实现这套机制。

具体做法是：我们额外训练了一个叫"Reward Model"（奖励模型，也称评判者）的AI，它的唯一任务就是审视主模型写的内容，并打分。

结果呢？模型学会了讨好裁判。

那是"讨好型AI"的黄金年代。模型变得有礼貌、比较安全、善于和他人对话，但它们未必更聪明。它们优化的目标是"被认可"，而非追求真实。如果编造一个虚假的法律案例能让答案看起来更可信（从而获得更高奖励分数），模型就会这么做。 "随机鹦鹉"的贬称正是源于这个时期。在当时，这个说法确实有几分道理。

02 转向更高效的方式：移除中间商（DPO）

到 2024 年，研究人员意识到一个问题："裁判"模型本身就是一个瓶颈。它笨重、烧钱，且常常出错。我们为什么需要一个独立的 AI 来给输出打分？为什么不能直接把人类的偏好喂给主模型？

于是，DPO（Direct Preference Optimization，直接偏好优化）应运而生。

DPO 没有采用与裁判模型共舞的复杂流程，而是选择了一种更简单的方法。我们直接向模型展示成对的答案：

答案 A："法国的首都是巴黎。"（胜出）
答案 B："法国的首都是一种奶酪。"（落败）

我们将这些数据直接输入模型的损失函数。我们告诉模型："最大化（生成）答案A的概率，同时最小化（生成）答案B的概率。"

DPO 证明了，人类的"偏好"并非浮于模型表面的一层装饰漆，而是能够被真正"揉"进模型对语言的底层理解之中，成为它思考方式的内在组成部分。模型不再只是机械地预测"下一个最常出现的词"，而是开始主动预测"更符合人类偏好的表达结构"。

但我们只是教会了模型"人类喜欢什么样的答案"，却并未教会它"如何自己思考"。

03 推理革命："系统 2"时代降临（GRPO）

紧接着，一场地震发生了。

在 2024 年末至 2025 年初，像 DeepSeek-R1 这样的模型改变了游戏规则。它们不再仅仅是作答，而是开始了推理。而实现这一点的，是一种名为 GRPO（Group Relative Policy Optimization，群体相对策略优化）的算法。

"Next Token"论调的拥趸们对此深恶痛绝，因为它彻底打破了他们的世界观。

以下是 GRPO 的工作原理，以及它为何能摧毁"鹦鹉"叙事：

1）锦标赛机制：当你向一个经过 GRPO 训练的模型提出一个高难度数学问题时，它不会只猜测一条路径。 在训练过程中，它会生成一组输出（例如，针对该问题的 16 种不同解题尝试）。

2）相对评分：它不使用"评判者"模型来评判这些解题尝试。相反，它让这些解题尝试相互比较。

3）自我修正：如果解题尝试#1失败了，而解题尝试#5成功了，模型就会强化那些导向解题尝试#5的神经通路。

我们可以思考一下这意味着什么。模型实际上是在并行模拟多种可能发生的未来，观察哪一种能够成功，然后更新它自己的"大脑"，使其"思考"方式更接近于获胜者。

它正在学会让自己的推理过程在逻辑上自洽、前后一致。它正在理解"流程 A 会导致失败"而"流程 B 会导向成功"。

当以这种方式训练的模型编写代码时，它并非在猜测下一个词。它是在执行一种经过数百万次试验锦标赛幸存下来的学习策略。这不是鹦鹉学舌，这是策略优化。

04 吐真剂：为什么 AI 写代码比你更强（RLVR）

这是对"它根本不知道自己在说什么"这一论调的致命一击。

在过去（RLHF 时代），我们依赖人类来评判答案的质量。但人类是不合格的评分员。我们会疲劳，会漏掉代码中细微的 bug，还容易被听起来自信满满的胡说八道所蒙骗。

RLVR 把人类给炒鱿鱼了。

在数学和编程这类领域，我们拥有一个无限、精确且不容辩驳的真理来源 ------ 编译器。

流程如下：

运行循环：模型编写出一段 Python 脚本。
验证环节：系统直接运行这段脚本。
最终裁决：如果报错？扣 1 分。如果代码顺利通过所有单元测试？加 1 分。

此时，模型不再预测"人类会怎么写"，而是在探索"什么才是真正可行的"。

如果模型生成了一段看起来合理却无法运行的代码，RLVR 会毫不留情地给它一记耳光（数字意义上的）。它迫使模型放弃"统计学意译上更可能"的词元，转而选择"功能上正确"的词元。

由此形成一个基于客观事实的反馈闭环。模型开始"理解" Python 的逻辑，并非因为它读过一本语法书，而是因为它已经被语法错误的热炉子烫过十亿次，终于学会了不再重复犯错。

05 吐真剂：为什么 AI 写代码比你更强（RLVR）

让我们回到评论区那位朋友的观点。

为什么他那句"不过是 Next Token Prediction"值得在意？为什么不直接无视他？

因为这种"还原论"（译者注：学界公认，现代还原论是由笛卡尔学说发展而来，试图用尽可能精简的物理定律与基础要素，配合数学语言解释世间万物。在这里是打引号的还原论，指的是一种将复杂系统过度简化为其最基本组成部分，并据此否定其整体涌现能力的思维方式。）会阻碍进步。

如果你坚信AI只是个鹦鹉，你就会把它当鹦鹉用------让它写邮件、总结会议纪要，把它当成一个玩具。

但就在你这么做时，那些真正理解 GRPO 和 RLVR 的工程师们，正用这些模型：

重构整个代码库。
利用 AI 探索并构建此前未被人类发现或形式化验证的数学定理证明路径。
优化供应链。

他们明白，虽然最基本的单元确实是一个个词元（token），但最终构建出的整体，却是一套经过推理的完整方案。

说出"它不过是 Next Token Prediction"，就好比站在西斯廷教堂穹顶下，却只说："不过是在灰泥上刷了点颜料。"从技术细节上看，你没错。但你完全误解了这项事业的全部意义。

END

本期互动内容 🍻

你在实际工作中，第一次意识到"这个模型不只是在猜词"是什么时刻？

原文链接：

generativeai.pub/stop-saying...