阿里林俊旸离职后首发长文：AI从“推理思维“迈向“智能体思维“的五大挑战

阿里林俊旸离职后首发长文：AI从"推理思维"迈向"智能体思维"的五大挑战

32岁，阿里最年轻的P10，一手将千问做到全球下载量超10亿次。林俊旸在离职后首篇万字长文中坦承"我们没有全做对"，并指出AI正从"会说话"转向"会做事"的关键临界点。

引言：一个时代的转折点

2026年3月，前阿里千问技术负责人林俊旸在离职后发表了题为《From "Reasoning" Thinking to "Agentic" Thinking》的长文。这不是一篇普通的离职感言，而是对AI发展路线的深刻反思。

他的核心判断是：推理思维阶段（2024-2025）的使命已经完成，AI正在进入智能体思维的新阶段。

这两个阶段的本质区别是什么？

复制代码

推理思维：先想后答 → 评判答案对错
智能体思维：边行动边思考 → 关注任务能否完成

这个转变看似微妙，实则深刻。它意味着AI不再只是一个"答题机器"，而是要成为一个能在真实世界中完成复杂任务的"行动者"。

第一阶段：推理思维完成了什么使命？

在深入讨论智能体思维之前，我们需要理解推理思维阶段究竟解决了什么问题。

o1 和 R1 的核心贡献

OpenAI 的 o1 和 DeepSeek-R1 做了一件关键的事：证明了"思考"可以成为模型的一等公民能力------一种可以专门训练、并向用户开放的能力。

这个阶段教会了整个行业一个关键认知：

要在语言模型上规模化强化学习，需要确定性强、可规模化的反馈信号。

为什么数学、代码、逻辑成为强化学习的主战场？因为这些领域的奖励信号远比"让人类标注员觉得这个回答还不错"强得多。

复制代码

通用偏好监督：看起来合理 ≈ 对了？🤔
可验证领域：答案对错 = 明确信号 ✓

基础设施的重要性被低估了

一旦模型开始进行更长的推理链条，强化学习就不再是监督微调（SFT）的轻量附加模块，它变成了一个重工业级的系统工程：

大规模的轨迹采样（rollout）
高吞吐量的答案验证
稳定的策略迭代
高效的采样流程

推理模型的崛起，表面看是算法突破，底下看是基础设施的胜利。

但问题来了：2025年上半年，行业把大部分精力都花在了"怎么让模型想得更多"上。这个方向对吗？

林俊旸的回答是：方向对了，但不完整。

核心转变：智能体思维的五大挑战

推理模型输出完答案就结束了。但智能体要在思考和行动之间不断切换，根据真实世界的反馈持续修正计划。

林俊旸列出了智能体思维与推理思维的关键区别，我们可以将其归纳为五大核心挑战：

挑战一：动态切换思考与行动

推理模型：想完再答，一次性输出。

智能体：需要判断何时停止思考、开始行动。

这是第一个本质差异。想太多会错过行动窗口，想太少会犯错。

复制代码

传统模型：思考 → 思考 → 思考 → 输出答案 ✓
智能体：  思考 → 行动 → 观察反馈 → 思考 → 行动 → ...

这不仅仅是行为模式的改变，而是需要模型学会一种全新的"节奏感"。它需要知道：

什么时候信息足够了，可以行动
什么时候信息不足，需要继续收集
什么时候行动失败了，需要回退重新规划

技术难点：这需要一个"行动决策器"，它本身就是一个复杂的规划问题。

挑战二：实时工具调用的动态规划

推理模型：可能调用工具，但调用是静态的。

智能体：选择调用哪个工具、以什么顺序------这是一个动态规划问题。

这不是简单的 function call。智能体需要：

理解工具能力边界：每个工具能做什么、不能做什么
预测调用后果：调用工具 A 之后会发生什么
动态调整策略：如果工具 A 失败了，备选方案是什么
管理依赖关系：工具 B 需要工具 A 的输出作为输入

静态工具调用：用户说"查天气" → 调用天气API → 返回结果
智能体工具调用：任务 → 分析需要哪些工具 → 规划调用顺序 →
执行 → 观察结果 → 可能需要调整 → 继续执行...

技术难点：这需要一个"工具编排引擎"，它要处理的是图论问题，而非简单的函数映射。

挑战三：消化不完整信息

推理模型：假设输入是完整的、干净的。

智能体：真实世界不会给你完美反馈。

这是智能体思维最"接地气"的挑战。真实环境充满噪声：

传感器数据可能有误差
API 返回可能不完整
用户描述可能模糊甚至矛盾
系统状态可能部分可观测

理想世界：完整信息 → 清晰推理 → 正确答案 ✓
真实世界：部分信息 → 噪声干扰 → 模糊反馈 → ???

智能体需要学会：

信息融合：从多个不完整来源拼凑完整图景
不确定性管理：在信息不足时做出合理决策
噪声过滤：识别并忽略无关或错误的信息

技术难点：这需要一个"不确定性处理器"，它要处理的是概率论问题，而非确定性的逻辑推理。

挑战四：失败后修正而非重来

推理模型：答错了就重答，成本很低。

智能体：行动有代价，失败后需要修正，不能推倒重来。

这是智能体思维最"现实"的挑战。在真实世界中：

执行操作可能消耗时间、金钱、资源
部分操作不可逆
系统状态已经改变
其他智能体可能已经响应

推理模型：答案错误 → 清空状态 → 重新推理 → 新答案
智能体：执行失败 → 保留已执行部分 → 分析失败原因 →
调整计划 → 继续执行 → ...

智能体需要学会：

断点续传：在失败点恢复，而非从头开始
根因分析：理解失败的真实原因
计划修复：在原有计划基础上调整，而非重新规划

技术难点：这需要一个"状态修复器"，它要处理的是增量更新问题，而非全量重建。

挑战五：保持多轮交互连贯性

推理模型：单次交互，上下文相对简单。

智能体：跨越多轮对话和多次工具调用，保持逻辑一致性。

这是智能体思维最"长期"的挑战。一个复杂任务可能涉及：

数十次工具调用
多轮人机交互
跨越数小时甚至数天
多个智能体协作

单次交互：问题 → 答案（上下文 ≈ 问题本身）
多轮交互：任务 → 子任务1 → 反馈 → 子任务2 → 反馈 → ...
→ 用户澄清 → 子任务1修订 → ... → 最终完成

智能体需要学会：

长期记忆管理：记住之前做了什么、为什么这么做
一致性检查：新的行动与之前的决策保持一致
上下文压缩：在有限上下文中保留关键信息

技术难点：这需要一个"长期记忆管理器"，它要处理的是记忆检索和压缩问题。

五大挑战的共性：从静态到动态

观察这五大挑战，我们会发现一个共同的主题：

挑战	推理思维假设	智能体现实
切换思考行动	静态推理链	动态决策过程
工具调用	静态函数映射	动态规划问题
信息处理	完整干净输入	不完整有噪声
失败处理	可以重来	必须增量修正
交互连贯	单次上下文	长期状态管理

核心转变：从静态推理到动态交互。

这不是简单的功能增强，而是思维范式的根本改变。

技术突破点：智能体时代需要什么？

林俊旸指出，未来的竞争力不只来自更好的模型，还来自：

1. 更好的环境设计

智能体需要一个稳定、可控、可观测的执行环境。这包括：

环境模拟器：在真实执行前预演行动后果
沙箱机制：限制智能体的影响范围
状态追踪：实时记录环境变化

2. 更强的 Harness 工程

"Harness" 这个词来自软件测试，指运行测试所需的基础设施。智能体时代，harness 工程变得至关重要：

轨迹采样（rollout）基础设施：大规模模拟智能体行为
高吞吐量验证：快速判断行动结果是否正确
稳定采样：确保训练数据的质量和多样性

3. 多智能体编排

复杂任务可能需要多个智能体协作：

分工机制：智能体各司其职
通信协议：智能体之间如何交换信息
冲突解决：当智能体目标冲突时如何协调

4. 稳健的评估器

评估器是智能体训练的核心。它需要：

延迟反馈处理：很多任务的成功/失败不会立即显现
部分信用分配：在复杂任务中确定每个行动的贡献
泛化能力：评估器本身不能过拟合

千问的反思：合并思考与指令模式的教训

林俊旸在文中罕见地坦白了千问团队的探索与教训。

最初的雄心

2025年初，千问团队有一个雄心勃勃的构想：

理想的系统应当统一思考模式和指令模式。它应支持可调节的推理力度，类似低/中/高推理档位的设定。

Qwen3 是这个方向上"最清晰的公开尝试之一"，引入了"混合思维模式"。

难题在数据，不在模型

人们谈到合并思考和指令模式时，往往首先想到的是模型侧的兼容性。但更深层的问题是：

两种模式的数据分布和行为目标有本质差异。

复制代码

强指令模型追求：简洁直接、格式规范、低延迟
强思考模型追求：深度推理、探索替代路径、保留思考余量

这两种性格天然打架。如果合并数据未经精心策划：

"思考"行为变得嘈杂、臃肿或不够果断
"指令"行为变得不够干脆、不够可靠，还更贵

最终的选择

2025年下半年，千问团队发布了独立的 Instruct 和 Thinking 版本。

林俊旸的总结是：

真正成功的合并，需要的是一个流畅的推理力度连续光谱。模型应该能表达多个层级的推理力度，理想情况下还能自适应地做出选择。

这指向了一个方向：算力分配的连续策略，而非"想/不想"的二元开关。

Anthropic 的启示：思考应该服务于行动

林俊旸特别提到了 Anthropic 的做法：

Anthropic 的发展轨迹暗示了一种更有纪律的视角：思考应当由目标工作负载来驱动。

Claude 3.7 和 Claude 4 的关键设计：

集成推理，而非独立模型
用户可控的思维预算
在思考过程中就能动手用工具（关键突破）
把编程、长时间运行的任务和智能体工作流摆到最优先位置

这暗示了一个重要观点：

推理链更长，不等于模型更聪明。很多时候，过多的可见推理恰恰是算力分配低效的信号。

如果一个模型试图用同样啰嗦的方式对所有事情进行推理，它可能正在失败于三件事：

该优先处理什么（优先级判断）
该压缩掉什么（信息浓缩）
该在什么时候停止想而开始做（行动决策）

结语：从训练模型到训练系统

林俊旸用一句话总结了这个转变：

从"想更久"到"为了行动而想"。

这不仅仅是技术路线的调整，而是对 AI 本质的重新理解。

推理思维时代，我们在教 AI"如何思考"。智能体思维时代，我们在教 AI"如何做事"。

前者关注答案的正确性，后者关注任务的完成度。前者可以在沙盒中验证，后者必须在真实世界中检验。

未来的竞争力将不只来自更好的模型，还来自：

更好的环境设计
更强的 harness 工程
多智能体之间的编排
评估器的稳健程度

从训练模型，到训练智能体，再到训练系统。

这是 AI 从"会说话"正式转向"会做事"的关键临界点。

参考链接

林俊旸原文：From "Reasoning" Thinking to "Agentic" Thinking
量子位报道：林俊旸离职后首次发声！复盘千问的弯路，指出AI的新路
新浪科技编译：林俊旸离职后首发长文：反思千问得失，预判 AI 下半场需要「智能体思维」