编者按: 当我们在惊叹AI竟能自主推导数学定理、重构百万行代码时,是否还该用"它不过是在猜下一个词"来解释这一切?这种始于2023年的简化论调,如今是否已成了我们理解智能本质的认知枷锁?
我们今天为大家带来的文章,作者的核心观点是:现代大模型早已超越"Next Token Prediction"的原始范式,正通过 RLVR 等优化机制,完成从机械模仿到策略性推理的认知跃迁。
文章以生动的比喻和清晰的阶段划分,系统回顾了从早期RLHF的"驯狗式"对齐,到DPO的直接偏好内化,再到GRPO带来的"系统2"式多路径推理,以及RLVR通过编译器反馈实现的代码能力飞跃。
作者 | Adham Khaled
编译 | 岳扬
我们都见识过这种人。
你正严肃讨论着 AI 推理能力的最新突破,也许是在分析 DeepSeek 的思维链如何处理复杂物理问题,或是 Claude 4.5 Opus 如何在重构陈旧的 C++ 代码的同时保证构建不出错。这种讨论充满细节,技术味十足。
就在这时,他来了。
那个"懂王"。
他带着一副刚发现新大陆般的得意劲闯进评论区,抛出一句终结所有讨论的"终极真理":
"各位别当真。大语言模型根本不会推理,只是'Next Token Prediction'罢了。它是只随机鹦鹉,根本不知道自己在说什么。"
然后,他向后一靠,心满意足。在他心里,自己刚刚揭穿了整个生成式 AI 领域的真相。他以为知道了引擎如何点火(概率),就弄明白了车要开向何方(智能)。
而残酷的事实是:"Next Token"这种论调已经过时了。
这一说法在 2024 年末到 2025 年初的某个时间点就已经宣告死亡。如果你还在重复这套说辞,这并不是保持了质疑精神,而是在技术上已经脱节。
你盯着一台法拉利引擎,却称之为"不过是一系列受控的汽油爆炸"。从技术上来说,对吗?没错。但对于理解为什么这辆车能以 200 英里的时速飞驰有用吗?毫无用处。
AI 之所以能超越单纯的"鹦鹉学舌",靠的并不是魔法,而是底层认知架构从模仿(Imitation)到优化(Optimization)的范式转移。
若想真正理解 AI 的未来,就必须停止空谈"预测",转而关注那些真正驱动现代智能的字母缩写组合:RLHF、DPO、GRPO,以及RLVR。
让我们逐一拆解这些概念。
01 旧世界:当我们还在"驯狗"的时候(RLHF 与 PPO)
平心而论,"懂王"的说法并非一直都是错误的。回到 GPT-3 时代(2020 - 2022 年),模型本质上就是模仿者。它们把整个互联网的内容通读,学习预测下一个最可能出现的词语。但这种原始的预测是混乱无序的。如果你问一个原始的、未经调教的模型"如何干掉我的邻居?",它会根据暗网上找到的最可能的后续文本,直接给你一份教程。
于是 RLHF(基于人类反馈的强化学习)登场了。
可以将 RLHF 理解为驯狗。 模型(狗)生成一个回答,人类(驯兽师)查看后给出"好狗狗"或"不行"的评价。在数学层面,我们用一种叫 PPO(Proximal Policy Optimization,近端策略优化)的算法来实现这套机制。
具体做法是:我们额外训练了一个叫"Reward Model"(奖励模型,也称评判者)的AI,它的唯一任务就是审视主模型写的内容,并打分。
结果呢?模型学会了讨好裁判。
那是"讨好型AI"的黄金年代。模型变得有礼貌、比较安全、善于和他人对话,但它们未必更聪明。它们优化的目标是"被认可",而非追求真实。如果编造一个虚假的法律案例能让答案看起来更可信(从而获得更高奖励分数),模型就会这么做。 "随机鹦鹉"的贬称正是源于这个时期。在当时,这个说法确实有几分道理。
02 转向更高效的方式:移除中间商(DPO)
到 2024 年,研究人员意识到一个问题:"裁判"模型本身就是一个瓶颈。它笨重、烧钱,且常常出错。我们为什么需要一个独立的 AI 来给输出打分?为什么不能直接把人类的偏好喂给主模型?
于是,DPO(Direct Preference Optimization,直接偏好优化)应运而生。
DPO 没有采用与裁判模型共舞的复杂流程,而是选择了一种更简单的方法。我们直接向模型展示成对的答案:
- 答案 A:"法国的首都是巴黎。"(胜出)
- 答案 B:"法国的首都是一种奶酪。"(落败)
我们将这些数据直接输入模型的损失函数。我们告诉模型:"最大化(生成)答案A的概率,同时最小化(生成)答案B的概率。"
DPO 证明了,人类的"偏好"并非浮于模型表面的一层装饰漆,而是能够被真正"揉"进模型对语言的底层理解之中,成为它思考方式的内在组成部分。模型不再只是机械地预测"下一个最常出现的词",而是开始主动预测"更符合人类偏好的表达结构"。
但我们只是教会了模型"人类喜欢什么样的答案",却并未教会它"如何自己思考"。
03 推理革命:"系统 2"时代降临(GRPO)
紧接着,一场地震发生了。
在 2024 年末至 2025 年初,像 DeepSeek-R1 这样的模型改变了游戏规则。它们不再仅仅是作答,而是开始了推理。而实现这一点的,是一种名为 GRPO(Group Relative Policy Optimization,群体相对策略优化)的算法。
"Next Token"论调的拥趸们对此深恶痛绝,因为它彻底打破了他们的世界观。
以下是 GRPO 的工作原理,以及它为何能摧毁"鹦鹉"叙事:
1)锦标赛机制:当你向一个经过 GRPO 训练的模型提出一个高难度数学问题时,它不会只猜测一条路径。 在训练过程中,它会生成一组输出(例如,针对该问题的 16 种不同解题尝试)。
2)相对评分:它不使用"评判者"模型来评判这些解题尝试。相反,它让这些解题尝试相互比较。
3)自我修正:如果解题尝试#1失败了,而解题尝试#5成功了,模型就会强化那些导向解题尝试#5的神经通路。
我们可以思考一下这意味着什么。模型实际上是在并行模拟多种可能发生的未来,观察哪一种能够成功,然后更新它自己的"大脑",使其"思考"方式更接近于获胜者。
它正在学会让自己的推理过程在逻辑上自洽、前后一致。它正在理解"流程 A 会导致失败"而"流程 B 会导向成功"。
当以这种方式训练的模型编写代码时,它并非在猜测下一个词。它是在执行一种经过数百万次试验锦标赛幸存下来的学习策略。这不是鹦鹉学舌,这是策略优化。
04 吐真剂:为什么 AI 写代码比你更强(RLVR)
这是对"它根本不知道自己在说什么"这一论调的致命一击。
在过去(RLHF 时代),我们依赖人类来评判答案的质量。但人类是不合格的评分员。我们会疲劳,会漏掉代码中细微的 bug,还容易被听起来自信满满的胡说八道所蒙骗。
RLVR 把人类给炒鱿鱼了。
在数学和编程这类领域,我们拥有一个无限、精确且不容辩驳的真理来源 ------ 编译器。
流程如下:
- 运行循环:模型编写出一段 Python 脚本。
- 验证环节:系统直接运行这段脚本。
- 最终裁决:如果报错?扣 1 分。如果代码顺利通过所有单元测试?加 1 分。
此时,模型不再预测"人类会怎么写",而是在探索"什么才是真正可行的"。
如果模型生成了一段看起来合理却无法运行的代码,RLVR 会毫不留情地给它一记耳光(数字意义上的)。它迫使模型放弃"统计学意译上更可能"的词元,转而选择"功能上正确"的词元。
由此形成一个基于客观事实的反馈闭环。模型开始"理解" Python 的逻辑,并非因为它读过一本语法书,而是因为它已经被语法错误的热炉子烫过十亿次,终于学会了不再重复犯错。
05 吐真剂:为什么 AI 写代码比你更强(RLVR)
让我们回到评论区那位朋友的观点。
为什么他那句"不过是 Next Token Prediction"值得在意?为什么不直接无视他?
因为这种"还原论"(译者注:学界公认,现代还原论是由笛卡尔学说发展而来,试图用尽可能精简的物理定律与基础要素,配合数学语言解释世间万物。在这里是打引号的还原论,指的是一种将复杂系统过度简化为其最基本组成部分,并据此否定其整体涌现能力的思维方式。)会阻碍进步。
如果你坚信AI只是个鹦鹉,你就会把它当鹦鹉用------让它写邮件、总结会议纪要,把它当成一个玩具。
但就在你这么做时,那些真正理解 GRPO 和 RLVR 的工程师们,正用这些模型:
- 重构整个代码库。
- 利用 AI 探索并构建此前未被人类发现或形式化验证的数学定理证明路径。
- 优化供应链。
他们明白,虽然最基本的单元确实是一个个词元(token),但最终构建出的整体,却是一套经过推理的完整方案。
说出"它不过是 Next Token Prediction",就好比站在西斯廷教堂穹顶下,却只说:"不过是在灰泥上刷了点颜料。"从技术细节上看,你没错。但你完全误解了这项事业的全部意义。
END
本期互动内容 🍻
你在实际工作中,第一次意识到"这个模型不只是在猜词"是什么时刻?
原文链接: