阿里林俊旸离职后首发长文:AI从“推理思维“迈向“智能体思维“的五大挑战

阿里林俊旸离职后首发长文:AI从"推理思维"迈向"智能体思维"的五大挑战

32岁,阿里最年轻的P10,一手将千问做到全球下载量超10亿次。林俊旸在离职后首篇万字长文中坦承"我们没有全做对",并指出AI正从"会说话"转向"会做事"的关键临界点。

引言:一个时代的转折点

2026年3月,前阿里千问技术负责人林俊旸在离职后发表了题为《From "Reasoning" Thinking to "Agentic" Thinking》的长文。这不是一篇普通的离职感言,而是对AI发展路线的深刻反思。

他的核心判断是:推理思维阶段(2024-2025)的使命已经完成,AI正在进入智能体思维的新阶段

这两个阶段的本质区别是什么?

复制代码
推理思维:先想后答 → 评判答案对错
智能体思维:边行动边思考 → 关注任务能否完成

这个转变看似微妙,实则深刻。它意味着AI不再只是一个"答题机器",而是要成为一个能在真实世界中完成复杂任务的"行动者"。

第一阶段:推理思维完成了什么使命?

在深入讨论智能体思维之前,我们需要理解推理思维阶段究竟解决了什么问题。

o1 和 R1 的核心贡献

OpenAI 的 o1 和 DeepSeek-R1 做了一件关键的事:证明了"思考"可以成为模型的一等公民能力------一种可以专门训练、并向用户开放的能力。

这个阶段教会了整个行业一个关键认知:

要在语言模型上规模化强化学习,需要确定性强、可规模化的反馈信号。

为什么数学、代码、逻辑成为强化学习的主战场?因为这些领域的奖励信号远比"让人类标注员觉得这个回答还不错"强得多。

复制代码
通用偏好监督:看起来合理 ≈ 对了?🤔
可验证领域:答案对错 = 明确信号 ✓

基础设施的重要性被低估了

一旦模型开始进行更长的推理链条,强化学习就不再是监督微调(SFT)的轻量附加模块,它变成了一个重工业级的系统工程

  • 大规模的轨迹采样(rollout)
  • 高吞吐量的答案验证
  • 稳定的策略迭代
  • 高效的采样流程

推理模型的崛起,表面看是算法突破,底下看是基础设施的胜利

但问题来了:2025年上半年,行业把大部分精力都花在了"怎么让模型想得更多"上。这个方向对吗?

林俊旸的回答是:方向对了,但不完整。

核心转变:智能体思维的五大挑战

推理模型输出完答案就结束了。但智能体要在思考和行动之间不断切换,根据真实世界的反馈持续修正计划。

林俊旸列出了智能体思维与推理思维的关键区别,我们可以将其归纳为五大核心挑战

挑战一:动态切换思考与行动

推理模型:想完再答,一次性输出。

智能体:需要判断何时停止思考、开始行动。

这是第一个本质差异。想太多会错过行动窗口,想太少会犯错。

复制代码
传统模型:思考 → 思考 → 思考 → 输出答案 ✓
智能体:  思考 → 行动 → 观察反馈 → 思考 → 行动 → ...

这不仅仅是行为模式的改变,而是需要模型学会一种全新的"节奏感"。它需要知道:

  • 什么时候信息足够了,可以行动
  • 什么时候信息不足,需要继续收集
  • 什么时候行动失败了,需要回退重新规划

技术难点:这需要一个"行动决策器",它本身就是一个复杂的规划问题。

挑战二:实时工具调用的动态规划

推理模型:可能调用工具,但调用是静态的。

智能体:选择调用哪个工具、以什么顺序------这是一个动态规划问题。

这不是简单的 function call。智能体需要:

  1. 理解工具能力边界:每个工具能做什么、不能做什么

  2. 预测调用后果:调用工具 A 之后会发生什么

  3. 动态调整策略:如果工具 A 失败了,备选方案是什么

  4. 管理依赖关系:工具 B 需要工具 A 的输出作为输入

    静态工具调用:用户说"查天气" → 调用天气API → 返回结果
    智能体工具调用:任务 → 分析需要哪些工具 → 规划调用顺序 →
    执行 → 观察结果 → 可能需要调整 → 继续执行...

技术难点:这需要一个"工具编排引擎",它要处理的是图论问题,而非简单的函数映射。

挑战三:消化不完整信息

推理模型:假设输入是完整的、干净的。

智能体:真实世界不会给你完美反馈。

这是智能体思维最"接地气"的挑战。真实环境充满噪声:

  • 传感器数据可能有误差

  • API 返回可能不完整

  • 用户描述可能模糊甚至矛盾

  • 系统状态可能部分可观测

    理想世界:完整信息 → 清晰推理 → 正确答案 ✓
    真实世界:部分信息 → 噪声干扰 → 模糊反馈 → ???

智能体需要学会:

  • 信息融合:从多个不完整来源拼凑完整图景
  • 不确定性管理:在信息不足时做出合理决策
  • 噪声过滤:识别并忽略无关或错误的信息

技术难点:这需要一个"不确定性处理器",它要处理的是概率论问题,而非确定性的逻辑推理。

挑战四:失败后修正而非重来

推理模型:答错了就重答,成本很低。

智能体:行动有代价,失败后需要修正,不能推倒重来。

这是智能体思维最"现实"的挑战。在真实世界中:

  • 执行操作可能消耗时间、金钱、资源

  • 部分操作不可逆

  • 系统状态已经改变

  • 其他智能体可能已经响应

    推理模型:答案错误 → 清空状态 → 重新推理 → 新答案
    智能体: 执行失败 → 保留已执行部分 → 分析失败原因 →
    调整计划 → 继续执行 → ...

智能体需要学会:

  • 断点续传:在失败点恢复,而非从头开始
  • 根因分析:理解失败的真实原因
  • 计划修复:在原有计划基础上调整,而非重新规划

技术难点:这需要一个"状态修复器",它要处理的是增量更新问题,而非全量重建。

挑战五:保持多轮交互连贯性

推理模型:单次交互,上下文相对简单。

智能体:跨越多轮对话和多次工具调用,保持逻辑一致性。

这是智能体思维最"长期"的挑战。一个复杂任务可能涉及:

  • 数十次工具调用

  • 多轮人机交互

  • 跨越数小时甚至数天

  • 多个智能体协作

    单次交互:问题 → 答案(上下文 ≈ 问题本身)
    多轮交互:任务 → 子任务1 → 反馈 → 子任务2 → 反馈 → ...
    → 用户澄清 → 子任务1修订 → ... → 最终完成

智能体需要学会:

  • 长期记忆管理:记住之前做了什么、为什么这么做
  • 一致性检查:新的行动与之前的决策保持一致
  • 上下文压缩:在有限上下文中保留关键信息

技术难点:这需要一个"长期记忆管理器",它要处理的是记忆检索和压缩问题。

五大挑战的共性:从静态到动态

观察这五大挑战,我们会发现一个共同的主题:

挑战 推理思维假设 智能体现实
切换思考行动 静态推理链 动态决策过程
工具调用 静态函数映射 动态规划问题
信息处理 完整干净输入 不完整有噪声
失败处理 可以重来 必须增量修正
交互连贯 单次上下文 长期状态管理

核心转变:从静态推理到动态交互。

这不是简单的功能增强,而是思维范式的根本改变

技术突破点:智能体时代需要什么?

林俊旸指出,未来的竞争力不只来自更好的模型,还来自:

1. 更好的环境设计

智能体需要一个稳定、可控、可观测的执行环境。这包括:

  • 环境模拟器:在真实执行前预演行动后果
  • 沙箱机制:限制智能体的影响范围
  • 状态追踪:实时记录环境变化

2. 更强的 Harness 工程

"Harness" 这个词来自软件测试,指运行测试所需的基础设施。智能体时代,harness 工程变得至关重要:

  • 轨迹采样(rollout)基础设施:大规模模拟智能体行为
  • 高吞吐量验证:快速判断行动结果是否正确
  • 稳定采样:确保训练数据的质量和多样性

3. 多智能体编排

复杂任务可能需要多个智能体协作:

  • 分工机制:智能体各司其职
  • 通信协议:智能体之间如何交换信息
  • 冲突解决:当智能体目标冲突时如何协调

4. 稳健的评估器

评估器是智能体训练的核心。它需要:

  • 延迟反馈处理:很多任务的成功/失败不会立即显现
  • 部分信用分配:在复杂任务中确定每个行动的贡献
  • 泛化能力:评估器本身不能过拟合

千问的反思:合并思考与指令模式的教训

林俊旸在文中罕见地坦白了千问团队的探索与教训。

最初的雄心

2025年初,千问团队有一个雄心勃勃的构想:

理想的系统应当统一思考模式和指令模式。它应支持可调节的推理力度,类似低/中/高推理档位的设定。

Qwen3 是这个方向上"最清晰的公开尝试之一",引入了"混合思维模式"。

难题在数据,不在模型

人们谈到合并思考和指令模式时,往往首先想到的是模型侧的兼容性。但更深层的问题是:

两种模式的数据分布和行为目标有本质差异。

复制代码
强指令模型追求:简洁直接、格式规范、低延迟
强思考模型追求:深度推理、探索替代路径、保留思考余量

这两种性格天然打架。如果合并数据未经精心策划:

  • "思考"行为变得嘈杂、臃肿或不够果断
  • "指令"行为变得不够干脆、不够可靠,还更贵

最终的选择

2025年下半年,千问团队发布了独立的 Instruct 和 Thinking 版本。

林俊旸的总结是:

真正成功的合并,需要的是一个流畅的推理力度连续光谱。模型应该能表达多个层级的推理力度,理想情况下还能自适应地做出选择。

这指向了一个方向:算力分配的连续策略,而非"想/不想"的二元开关

Anthropic 的启示:思考应该服务于行动

林俊旸特别提到了 Anthropic 的做法:

Anthropic 的发展轨迹暗示了一种更有纪律的视角:思考应当由目标工作负载来驱动。

Claude 3.7 和 Claude 4 的关键设计:

  • 集成推理,而非独立模型
  • 用户可控的思维预算
  • 在思考过程中就能动手用工具(关键突破)
  • 把编程、长时间运行的任务和智能体工作流摆到最优先位置

这暗示了一个重要观点:

推理链更长,不等于模型更聪明。很多时候,过多的可见推理恰恰是算力分配低效的信号。

如果一个模型试图用同样啰嗦的方式对所有事情进行推理,它可能正在失败于三件事:

  1. 该优先处理什么(优先级判断)
  2. 该压缩掉什么(信息浓缩)
  3. 该在什么时候停止想而开始做(行动决策)

结语:从训练模型到训练系统

林俊旸用一句话总结了这个转变:

从"想更久"到"为了行动而想"。

这不仅仅是技术路线的调整,而是对 AI 本质的重新理解。

推理思维时代,我们在教 AI"如何思考"。智能体思维时代,我们在教 AI"如何做事"。

前者关注答案的正确性,后者关注任务的完成度。前者可以在沙盒中验证,后者必须在真实世界中检验。

未来的竞争力将不只来自更好的模型,还来自:

  • 更好的环境设计
  • 更强的 harness 工程
  • 多智能体之间的编排
  • 评估器的稳健程度

从训练模型,到训练智能体,再到训练系统。

这是 AI 从"会说话"正式转向"会做事"的关键临界点。


参考链接

相关推荐
秋名山码民2 小时前
2026 年生成式优化引擎新范式:陕西灵怡秦智科技灵怡云系统深度解析 —— 从流量争夺到语义共鸣的营销变革
人工智能·科技
Yao.Li2 小时前
Dify Workflow 硬核解读(万字长文)
人工智能·python
艾莉丝努力练剑2 小时前
【QT】QT快捷键整理
linux·运维·服务器·开发语言·图像处理·人工智能·qt
2601_955363152 小时前
B端拓客号码核验:行业困局拆解与技术升级的理性思考氪迹科技法人号码核验系统、阶梯式价格
大数据·人工智能
一次旅行2 小时前
飞书接入龙虾后失联解决方法
前端·人工智能·chrome·飞书
2601_955363152 小时前
技术赋能B端拓客:号码核验行业的破局之路与价值深耕,氪迹科技法人,股东号码核验系统
大数据·人工智能
Th13360702 小时前
技术赋能B端拓客:号码核验行业的困局突破与发展新路径,氪迹科技股东号码筛选系统,阶梯式价格
大数据·人工智能
硅基流动2 小时前
硅基流动 × DeepStudent:内置 10+ 项技能,开源 AI 学习智能体
人工智能·学习