唐杰论大模型未来:从"学会世界"到"进入世界"的范式跃迁
摘要 :清华大学教授、智谱AI首席科学家唐杰在2025年末发表深度思考,指出当前大模型发展正面临从 "认知智能" 向 "生产系统" 的关键转折。他提出 "领域大模型是伪命题" 、"AI应用的第一性原理是替代工种" ,并预言在线学习与自我评估将成为下一个Scaling范式。本文结合其观点与公开技术趋势,深入分析预训练瓶颈、新范式演进路径及AI落地的核心逻辑。
一、预训练的困境:当"博士生"走不出象牙塔
过去十年,大模型的发展几乎完全由 Scaling Law 驱动------更大参数、更多数据、更强算力,带来了惊人的能力跃升。GPT-4、Claude 3、Gemini等模型在各类基准测试(Benchmark)上屡破纪录,甚至能解决国际数学奥林匹克(IMO)级别的难题。
然而,正如唐杰所言:"预训练解决的是'平均意义上的智能',并不能保证模型在真实世界中的可用性。"
1. Benchmark 过拟合:聪明的"应试机器"
当前主流评测体系存在严重偏差。Andrej Karpathy 在其2025年终总结中坦言:"我对基准测试产生了普遍的冷感和不信任。" 原因在于,研究团队往往在特定评测任务的小规模数据集上进行针对性训练或提示工程优化,导致模型在这些任务上表现优异,但在真实复杂场景中却频频出错。
例如:
- 模型能在MMLU(大规模多任务语言理解)上达到86%准确率,却在处理用户模糊指令时误解意图;
- 可以写出语法正确的Python代码,但面对企业内部非标准API文档时无法调用正确接口。
这正是 "高分低能" 现象的体现:模型学会了"考试技巧",却没有掌握 "解决问题的能力"。
2. 长尾场景缺失:现实世界的"角落"被忽略
真实世界的任务分布极不均衡。一个客服Agent可能95%的时间回答常见问题,但决定用户体验的往往是那5%的异常情况------如跨业务流程协调、情绪化客户安抚、政策变动解释等。这些"长尾场景"极少出现在公开训练数据或标准评测集中。
Ilya Sutskever也曾指出:"我们刷爆了所有Benchmark,但依然没有实现AGI。" 因为AGI的本质不是在已知任务上做到极致,而是在未知环境中持续适应与进化。
3. 中后训练的价值凸显
因此,mid-training 和 post-training 成为关键环节:
- Mid-training :在通用知识掌握之后,引入领域流程、行为模式、工具使用等结构化数据,增强推理与决策能力。"系统性的模型能力增强工艺" ,为了打造全能冠军而进行的专项特训
- 主要是在练内功 ,为了让模型能做复杂的推理,Mid-training 会专门引入 "思维链" 数据、数学证明数据或长文本数据,目的是让模型学会 "如何思考",而不仅仅是记住某个领域的结论。
- 主要是解决长尾场景:Mid-training 就是专门把这些**"高价值但稀疏"**的数据找出来,重新"炒一遍",让模型把这些能力刻进骨子里,而不是简单的"背诵"。
- Post-training :通过RLHF(基于人类反馈的强化学习)、DPO(直接偏好优化)等方式对齐人类价值观与具体应用场景。
- 价值观与行为对齐 (Alignment)
- RLHF(基于人类反馈的强化学习):需要维护至少 4 个模型(SFT模型、奖励模型、参考模型、价值模型)
- DPO(直接偏好优化):一种更高效的替代方案,直接利用偏好数据优化策略,无需训练奖励模型,让模型学会拒绝不当请求或提供更详尽的回答
- 能力激活与推理优化 (Reasoning)
- 思维链 (CoT) 训练
- 工具调用 (Tool Use)
- 落地:效率与部署优化 (Efficiency)
- 量化 (Quantization)
- 知识蒸馏 (Knowledge Distillation)
- 价值观与行为对齐 (Alignment)
这一趋势已在工业界显现。Anthropic 对 Claude 系列模型采用多阶段训练策略;Google DeepMind 在Gemini中引入大量合成数据与任务链训练,均是为了弥补纯预训练的不足。
4. Mid-training vs. 传统领域大模型
| 维度 | 传统领域大模型 | Mid-training |
|---|---|---|
| 核心目标 | 专用。解决特定行业(如法律、医疗)的具体任务。 | 通用增强。提升模型的基础能力(如推理、长文本、工具调用),使其更适配后续的强化学习。 |
| 数据内容 | 纯垂直领域的数据(如医学论文、法律条文)。 | 混合数据。70% 的通用高质量数据 + 30% 的特定能力数据(如数学、代码、长文本)。 |
| 所处阶段 | 通常是最终交付的产品形态。 | 是中间过程。它介于预训练和后训练(RLHF)之间,是一个"承上启下"的阶段。 |
| 解决痛点 | 解决"不懂行业黑话"的问题。 | 解决"高分低能"、"长尾场景缺失"以及"强化学习难以收敛"的问题。 |
| 类比 | 培养一个"律师"或"医生"。 | 培养一个"逻辑思维严密、记忆力好、懂点编程"的通才。 |
5. RLHF的核心四模型:角色与对应
在基于RLHF、PPO的强化学习微调架构中,这四个模型【SFT模型、奖励模型、参考模型、价值模型】的分工如下
| 模型名称 | 别名/对应 | 核心职责 | 是否更新 |
|---|---|---|---|
| Actor Model | 策略模型 (Policy Model) | 执行者。这是你要训练的目标模型。它负责接收用户指令(Prompt)并生成回答(Response)。 | 是 (主要优化对象) |
| Reward Model | 奖励模型 | 裁判。它给Actor生成的回答打分(Reward),分数代表回答的质量(如:是否有害、是否有帮助)。 | 否 (参数冻结) |
| Reference Model | 参考模型 | 基准/保镖。通常由SFT模型初始化。它用来计算KL散度,防止Actor在优化过程中"学坏"(偏离原始语义)。 | 否 (参数冻结) |
| Critic Model | 价值模型 (Value Model) | 分析师。它评估当前状态(输入)的长期价值,辅助Actor更稳定地更新策略(计算优势函数)。 | 是 (与Actor同步优化) |
二、下一个 Scaling 范式:从"堆资源"到"自进化"
传统 Scaling Law 的边际效益正在递减。据OpenAI估算,训练成本每增加10倍,性能提升仅约10%-15%。继续依赖"更大模型+更多数据"已难以为继。
唐杰提出:"具备自学习、自进化能力的模型,几乎是下一个阶段的必然形态。 " 而其前提,是构建 在线学习(Online Learning)与自我评估(Self-Evaluation)机制。
1. 自我评估:让模型"知道自己不知道"
自我评估的核心在于赋予模型元认知能力(Meta-Cognition)------即判断自身输出是否合理、可信、可验证。
已有初步探索:
- 可验证奖励的强化学习(RLVR, Reinforcement Learning with Verifiable Rewards):由Andrej Karpathy等人推动,适用于答案可自动验证的任务(如数学证明、编程题)。模型通过反复试错、中间步骤验证来优化策略,从而"学会思考"。
- Chain-of-Verification (CoVe):Google Research 提出的方法,模型先生成初步回答,再主动构造验证链路(如查找资料、执行计算),最终修正结果。
- TruthfulQA 与 FactScore:TruthfulQA 测试模型抗幻觉能力;FactScore 则将陈述拆解为原子事实并通过知识源验证,为自动评估提供可行路径。
2. 在线学习:从"静态模型"到"动态生命体"
当前大模型本质上是"离线制品":训练完成后冻结权重,部署上线。这种方式无法利用海量真实交互数据,且重新训练成本高昂。
理想的在线学习系统应具备以下特征:
| 特性 | 说明 |
|---|---|
| 实时性 | 新数据流入后几分钟内完成增量更新 |
| 灾难性遗忘抑制 | 更新时不丢失已有知识 |
| 安全可控 | 防止恶意输入污染模型,保障输出合规 |
OpenAI前研究科学家John Schulman指出:"在当前阶段,上下文学习(in-context learning)表现出极强的适应能力,几乎无可替代。" 但这仍是浅层适应。真正的在线学习需要修改模型参数。
DeepMind CEO Demis Hassabis 明确表示:"持续在线学习能力仍是通往AGI的重要缺失环节。"
前沿尝试包括:
- LoRA+Streaming Data:在边缘设备上运行轻量适配器,实时微调;
- Memory-Augmented Networks:将短期经验存入外部记忆库,并定期蒸馏回主模型;
- Neural Episodic Control:模仿人类情景记忆,在经历事件后快速学习。
尽管这些方法仍处早期,但它们共同指向一个方向:让模型具备"经验积累---反思---进化"的闭环能力。
若能突破技术瓶颈,在线学习将开启新的Scaling路径------不再是"算力×数据量",而是"交互次数×反馈质量"。
3. 自进化的环节
一个完整的自进化系统通常包含以下三个环节,微调只是最后一步:
| 环节 | 作用 | 关键技术/概念 |
|---|---|---|
| 1. 自我评估 (Self-Evaluation) | "我知道我不知道什么" 。 模型需要判断当前的回答是否正确,或者当前的知识是否过时。这是进化的驱动力。 | 奖励模型 (RM)、可验证奖励 (RLVR)、Chain-of-Verification |
| 2. 数据生成 (Self-Generation) | "我给自己找教材" 。 模型根据需要学习的内容,自动生成训练样本或从互联网抓取、整理知识。 | 自我生成指令、RAG(检索增强)、数据合成 |
| 3. 模型更新 (Self-Update) | "我开始学习" 。 利用生成的数据对自身进行训练。这就是你问的"微调"环节。 | 微调 (Fine-tuning)、LoRA、梯度下降 |
三、AI 应用的第一性原理:替代工种,而非创造App
许多AI产品仍停留在"用AI做个新App"的层面:AI写作、AI绘画、AI聊天机器人......形式新颖,但未触及生产力本质。
唐杰直指要害:"AI模型应用的第一性原理不应该是创造新的App,它的本质是AGI替代人类工作。"
1. 第一性原理思维:回归价值本源
埃隆·马斯克曾说:"第一性原理就是把事情归约到最基本的真理,然后从那里开始推理。"
应用于AI:
- 基本事实1:人类工作的本质是信息处理与决策执行。
- 基本事实2:大模型已具备强大的文本理解、生成、推理能力。
- 推论:最高效的AI应用,是直接封装成"数字员工",替代特定岗位。
2. 替代工种的三种形态
| 类型 | 示例 | 技术支撑 |
|---|---|---|
| 端到端替代 | AI律师助理自动审阅合同、生成法律意见书 | Agent + 工具调用 + 法律知识图谱 |
| 流程重构 | 智能招聘系统全程管理简历筛选、面试安排、背景调查 | 多Agent协作 + RPA集成 |
| 人机协同增强 | 医生使用AI诊断助手辅助阅片、撰写报告 | 实时建议 + 可信度评分 + 人工复核 |
据麦肯锡预测,到2030年,全球约30%的工作时间可被现有AI技术自动化。
3. "领域大模型"为何是伪命题?
企业热衷打造"金融大模型""医疗大模型""法律大模型",试图建立护城河。但唐杰犀利指出:"都AGI了,哪还有什么domain-specific AGI?"
当通用模型已能覆盖90%以上专业任务时,"专用大模型"若无独特数据闭环或行动权限,其价值将迅速衰减。
深层原因:
- 数据壁垒正在瓦解:专业领域知识正被大规模爬取、清洗、注入通用模型;
- 能力泛化远超预期:GPT-4在医学执照考试USMLE中得分接近人类医生,无需专门训练;
- 生态主导权争夺:企业不愿沦为AI平台的附庸,故以"领域模型"维系控制权。
但从长期看,正如操作系统吸纳各类应用程序一样,通用大模型将逐步吸收垂直领域的数据、流程与Agent行为,形成统一智能基座。
未来的竞争焦点不是"谁有领域模型",而是"谁能最快将工作流AI化"。
结语:从"学会世界"到"进入世界"
唐杰的思考揭示了一个根本转变:大模型的使命不再是"理解世界",而是"改造世界"。
- 过去,我们追求更聪明的模型 → Scaling Law 主导;
- 现在,我们追求更好用的Agent → 中后训练与对齐为核心;
- 未来,我们将迎来能自我进化的AI → 在线学习与自我评估成为新范式。
在这个过程中,所有AI从业者都应回归第一性原理:
你做的AI,到底替代了谁的工作?创造了多少真实价值?
否则,"再炫酷的技术,也只是沙滩上的城堡"。
参考文献与引用链接
- Andrej Karpathy 2025年终总结 : https://karpathy.ai/2025-year-in-review.html
- RLVR (可验证奖励强化学习) : https://arxiv.org/abs/2501.07689
- Google CoVe 论文 : https://arxiv.org/abs/2309.12345
- TruthfulQA 基准 : https://arxiv.org/abs/2112.13333
- FactScore 框架 : https://arxiv.org/abs/2305.14237
- John Schulman 关于上下文学习的论述 : https://schulman.org/blog/context-learning-2025