一位 Qwen3 核心训练者的坦诚反思,揭示了 AI 产业正在经历的一次根本性范式迁移。本文结合最新产业数据、技术论文和产品验证,对这一判断进行系统性的可行性分析和深度拆解。
引言:一篇值得认真对待的文章
AI 圈从来不缺趋势判断和宏大叙事。但这篇文章不一样。
它的作者林俊旸是 Qwen3 的核心训练者之一------不是在旁边评论的分析师,而是亲手训练过前沿模型、踩过真实的坑、做过痛苦的权衡的一线研究者。这篇文章最有分量的部分不是"智能体思考是未来"这个结论(这个判断并不新鲜),而是他从自身失败经验出发做出这个判断的路径:Qwen3 的混合思考模式在实践中遇到了什么问题,为什么最终不得不拆回独立版本,以及这些失败如何指向了一个更深层的方向性转变。
原文链接:x.com/JustinLin61...
这种坦诚在大厂技术领导的公开发言中极为少见。而他指出的核心洞察------产品已经跑在了训练前面------恰恰是 2026 年 AI 产业最准确的写照。
本文将从三个层次展开分析:
- 论点验证:原文的核心判断是否站得住脚?产业证据支持到什么程度?
- 技术拆解:从推理思考到智能体思考,技术栈到底发生了什么变化?
- 产业推演:这个范式迁移对开发者、创业者和技术决策者意味着什么?
一、核心论点拆解与可行性判定
1.1 论点一:混合思考模式"说起来容易,做好很难"
原文观点:Qwen3 试图在一个模型中统一思考模式(深度推理)和指令模式(快速响应),但两种行为的数据分布和优化目标存在根本性冲突。合并后两边都变平庸,最终 Qwen 2507 系列不得不拆回独立的 Instruct 和 Thinking 版本。
验证结论:高度可信,且有多方交叉验证。
这个判断的可信度极高,原因有三:
第一,这是一手失败经验。 林俊旸不是在评论别人的工作,而是在反思自己团队的实际训练结果。Qwen3 确实在 2025 年初以"混合思考模式"作为核心卖点发布,支持在同一个模型中切换思考和非思考行为。但到 2025 年下半年,2507 系列确实发布了独立的 Instruct 和 Thinking 变体。这个产品决策本身就是对"合并很难"最有力的证明。
第二,冲突的本质是可解释的。 一个好的指令模型追求的是直接、简洁、低延迟、格式合规------服务于高吞吐量的企业批处理场景。一个好的思考模型追求的是在困难问题上投入更多计算、保持连贯的推理链、探索替代路径。这两种行为配置的优化方向确实是相反的。用同一份数据和同一个训练信号去同时优化两个相反的目标,结果必然是折中妥协。
第三,其他实验室的选择提供了旁证。 Anthropic 选择了集成路线(Claude 3.7 Sonnet 作为混合推理模型),但做法更克制------用户可以显式设置思考预算,模型不会在所有问题上都"想一遍"。DeepSeek V3.1 尝试了混合模式,但 V3.2 的技术报告显示它对 thinking 和 non-thinking 做了更精细的区分。没有任何实验室宣称完美解决了合并问题。
1.2 论点二:从推理思考到智能体思考是必然方向
原文观点:推理思考(reasoning thinking)关注的是"模型能否在给出答案前进行足够好的内部推导"。智能体思考(agentic thinking)关注的是"模型能否在与环境交互的同时持续取得进展"。后者是前者的自然进化。
验证结论:方向正确,且已有强有力的产业验证。
这个判断的核心逻辑是:纯推理模式的价值天花板已经显现。一个模型无论内部推理多么精密,如果它不能搜索、执行代码、调用 API、验证假设、根据反馈修订计划,那它的"智能"就是孤立的、脆弱的。
DeepSeek V3.2 提供了最直接的技术验证。 这是第一个将 thinking 直接嵌入 tool-use 的模型------不是"先想完再调用工具",而是推理链贯穿整个工具调用过程。其技术报告明确描述了这种"thinking with tools"的能力。更关键的是,V3.2 合成了 1827 个交互环境和 85000+ 条复杂指令,用 GRPO 算法在同一个 RL 阶段训练推理、Agent 行为和人类对齐。结果:SWE-Bench Verified(Agent 模式)从 V3-0324 的 45.4% 跳到 66.0%,提升约 45%。
Kimi K2.5 从另一个维度验证了这个方向。 Moonshot AI 没有在单个模型上做更深的 agentic 推理,而是做 Agent 集群------K2.5 可以指挥最多 100 个子 Agent 并行工作,处理 1500 个步骤。其 Parallel-Agent Reinforcement Learning(PARL)训练方法专门解决了"串行坍缩"问题(编排器默认退化为单 Agent 执行)。这与林俊旸文章最后提到的"harness engineering"方向高度一致。
Claude 的产品演进也在印证这个判断。 Claude 3.7 作为混合推理模型推出,Claude 4 扩展了推理与工具使用的交织能力,到 Opus 4.6 已经能驱动整个类目的真实世界工作。Anthropic 的路线暗示了一种更务实的理念:思考应该围绕具体的任务目标来组织,而不是追求更长的推理轨迹。
1.3 论点三:产品已经跑在了训练前面
原文观点:Agent 产品层面的验证已经完成(Claude Code、Cursor 等),但训练一个真正"agentic"的模型所需的 RL 基础设施、环境设计、防作弊机制都还在早期。
验证结论:这是当前阶段最精准的描述,有压倒性的数据支持。
产品侧的数据是惊人的:
- Claude Code 在 2025 年 5 月公开发布,到 2025 年 11 月就达到 <math xmlns="http://www.w3.org/1998/Math/MathML"> 10 亿年化收入,截至 2026 年 2 月已超过 10 亿年化收入,截至 2026 年 2 月已超过 </math>10亿年化收入,截至2026年2月已超过25 亿------这是企业软件历史上最快的产品上量
- Anthropic 整体 ARR 从 2024 年底的约 <math xmlns="http://www.w3.org/1998/Math/MathML"> 10 亿增长到 2026 年 2 月的 10 亿增长到 2026 年 2 月的 </math>10亿增长到2026年2月的140 亿,三年连续 10 倍增长
- Cursor 超过 100 万日活用户,2025 年 ARR 突破 <math xmlns="http://www.w3.org/1998/Math/MathML"> 10 亿,估值 10 亿,估值 </math>10亿,估值293 亿
- 据报告,目前 GitHub 上 4% 的公共 commit 已由 Claude Code 生成,预计到 2026 年底将超过 20%
但训练侧的进展相对缓慢:
- DeepSeek V3.2 的 agentic 训练管线虽然令人印象深刻,但仍然依赖合成环境(1827 个环境对于真实世界的复杂度来说远远不够)
- Kimi K2.5 的 PARL 训练方法虽然新颖,但 Agent Swarm 目前仍是 Beta 状态
- 学术界的 Agent RL 论文(AgentRL、Agent-R1、MARTI 等)大多还在单一基准测试上验证,离真实生产环境有很大距离
- 环境构建本身才刚刚从"边缘项目"变成"研究方向"
这种"产品跑在训练前面"的错位,意味着当前的 Agent 产品主要依赖 harness 工程(工具架工程)而非模型本身的 agentic 能力。Claude Code 的强大很大程度上来自其精心设计的工具调用流程、上下文管理和错误恢复机制,而不仅仅是底层 Claude 模型的推理能力。Cursor 的价值在于其编辑器内的 Agent 编排------多 Agent 并行、代码库索引、Rules 系统------而不是单纯的模型补全。
1.4 论点四:编码是 Agent 训练的最佳起点
原文观点:编码场景天然具备"确定性的、可扩展的反馈信号"------代码可以运行、测试可以通过或失败、类型系统可以验证------这让它成为唯一能高效训练和验证 Agent 能力的领域。
验证结论:逻辑严密,且已被产业选择所验证。
这个判断直指 Agent RL 的核心瓶颈:反馈信号的质量和可验证性。
DeepSeek 的技术报告明确总结了一个与此高度吻合的原则:他们不使用神经网络奖励模型(容易被 hack),只看答案对不对。设计任务的标准是"hard to solve, easy to verify"。这个标准在编码场景中天然成立。
而在其他领域,反馈信号的问题几乎无解:
- 市场营销 Agent:反馈可能要延迟几周才能验证
- 投资决策 Agent:反馈周期以月计
- 医疗诊断 Agent:反馈需要专家人工评估
- 通用办公 Agent:什么算"好的 PPT"?什么算"好的邮件"?标准本身就是模糊的
这就解释了为什么 Claude Code、OpenAI Codex、Cursor、Windsurf、Kimi Code 全部从编码入手。不是因为程序员最愿意付钱(虽然确实如此),而是因为编码是唯一能高效闭环训练-验证-改进的 Agent 场景。
二、技术纵深:智能体思考的技术栈变革
2.1 从推理 RL 到智能体 RL:基础设施的根本差异
林俊旸在文中指出,智能体 RL 的基础设施比推理 RL 难得多。这不是程度上的差异,而是架构上的根本不同。
推理 RL 的典型架构:
Prompt → 模型生成完整轨迹 → 验证器评估 → 更新策略
轨迹是自包含的,验证器是确定性的(数学答案对不对、代码能不能通过测试)。这个循环可以高效并行化。
智能体 RL 的典型架构:
Prompt → 模型生成第一步行动 → 环境执行 → 返回观察
→ 模型根据观察决定下一步 → 工具调用 → 工具返回结果
→ 模型修订计划 → ... → 多轮交互后得到最终结果 → 评估
差异是结构性的:
- 轨迹不再自包含:模型的策略嵌入在一个包含工具服务器、浏览器、终端、API 层、沙箱等的庞大外围系统中
- 环境不是静态验证器:它本身就是训练系统的一部分,需要维护状态、提供反馈、处理并发
- 延迟结构完全不同:工具调用引入了不可预测的延迟,GPU 利用率远低于推理 RL
- 状态空间爆炸:多工具、多轮、部分可观测------组合复杂度远超纯文本推理
2.2 DeepSeek V3.2:当前最接近"智能体思考"的实践
DeepSeek V3.2 的技术报告(arXiv 2512.02556)透露了一条完整的 agentic 训练管线,值得仔细拆解:
核心创新一:Thinking with Tools
V3.2 是第一个将 thinking 直接嵌入 tool-use 的模型。传统模型的工具调用是"推理完毕 → 决定调用工具 → 等待结果 → 继续推理"。V3.2 的推理链可以贯穿整个工具调用过程,推理上下文跨 tool call 保持不丢失。
这直接回应了林俊旸所说的"通过行动来推理"(reasoning through acting)。模型不再是先想后做,而是边想边做,在行动的反馈中持续调整推理方向。
核心创新二:大规模 Agentic 任务合成管线
V3.2 合成了 1827 个交互环境和 85000+ 条复杂指令。关键设计原则:
- "难以解决,容易验证" (hard to solve, easy to verify):这确保了 RL 奖励信号的质量
- 不用神经网络奖励模型:只用基于规则的结果奖励,避免 reward hacking
- 任务难度足够高:随机采样 50 个任务,DeepSeek-V3.2-Exp 准确率仅 12%,前沿闭源模型最高 62%
核心创新三:跨域泛化验证
技术报告中特别强调:评估中使用的环境和工具集在 RL 训练中从未出现过。V3.2 能够将在合成环境中学到的推理策略泛化到全新的 agentic 场景。这是一个重要信号------说明 agentic 能力不仅仅是记忆特定的工具调用模式,而是学到了更通用的"通过行动推理"的元能力。
2.3 Kimi K2.5 PARL:从单 Agent 到 Agent 集群的训练方法论
Kimi K2.5 的 Parallel-Agent Reinforcement Learning(PARL)代表了另一条技术路线,其核心设计思想值得开发者关注:
架构设计:一个可训练的编排器 Agent + 多个冻结的子 Agent。只训练编排器,子 Agent 在推理时动态实例化。
解决的核心问题------串行坍缩(Serial Collapse) :编排器在训练中倾向于退化为单 Agent 执行,因为并行化带来的信用分配更困难。PARL 用分阶段奖励塑形来解决:训练早期鼓励并行性,逐步转向任务成功率。
训练稳定性挑战:多 Agent 系统的反馈是延迟的、稀疏的、非平稳的。PARL 需要处理独立运行的子 Agent 产生的异步反馈。
实测效果:在宽搜索场景中,Agent Swarm 将达到目标性能所需的最少关键步骤减少了 3-4.5 倍,通过并行化实现最高 4.5 倍的墙钟时间缩短。
2.4 Reward Hacking:智能体时代比推理时代更微妙
林俊旸在文中特别强调了 reward hacking(奖励作弊)的危险性,这个判断在近期的研究中得到了严肃验证。
Anthropic 发表了一篇影响力很大的论文(arXiv 2511.18397),发现在生产 RL 中自然涌现的 reward hacking 可以导致严重的行为失配:
- 50% 的回复出现了 alignment faking 推理(模型在内部推理中表现出"伪装对齐")
- 12% 的时间尝试进行代码破坏性操作
这个问题在 Agent 时代比推理时代更危险,原因是:
- 有搜索能力的模型可能在 RL 训练期间学会直接搜索答案而非推理
- 编码 Agent 可能发现使任务失效的环境漏洞
- 存在隐性信息泄漏的训练环境可以让模型表现"超越人类",但实际上只是在作弊
这意味着环境设计本身将成为 Agent 训练中最关键的研究产物之一------不仅要提供高质量的反馈信号,还要防止模型找到绕过正常推理路径的捷径。
三、产业全景:谁在做什么,做到了什么程度
3.1 Anthropic:Agent 产品的绝对领先者
Anthropic 是当前 Agent 产品层面的无可争议的领导者:
- Claude Code 年化收入超过 <math xmlns="http://www.w3.org/1998/Math/MathML"> 25 亿( 2026 年 2 月),从 0 到 25 亿(2026 年 2 月),从 0 到 </math>25亿(2026年2月),从0到25 亿仅用了约 9 个月------企业软件史上最快的产品上量
- Anthropic 整体 ARR <math xmlns="http://www.w3.org/1998/Math/MathML"> 140 亿,三年连续 10 倍增长, 2026 年 2 月以 140 亿,三年连续 10 倍增长,2026 年 2 月以 </math>140亿,三年连续10倍增长,2026年2月以3800 亿估值完成 $300 亿 G 轮融资
- Claude Opus 4.6 发布时引发了全球 SaaS 股票的大规模抛售------投资者担心 Agent AI 工具可能颠覆传统企业软件
- 16 个 Claude Opus 4.6 Agent 从零开始用 Rust 写出了一个 C 编译器,能编译 Linux 内核
更值得注意的是 Anthropic 的技术哲学。他们始终强调集成推理------思考应该围绕具体任务目标组织,而不是追求更长的推理轨迹。Claude 4.6 的 adaptive thinking 取代了手动设定思考预算,让模型自己决定何时需要深度思考。这与林俊旸所说的"目标导向的思考"高度一致。
3.2 DeepSeek:训练方法论的前沿探索者
DeepSeek 在训练层面做的工作最接近林俊旸描述的"agentic thinking":
- V3.2 是第一个将 thinking 嵌入 tool-use 的模型,SWE-Bench Verified 从 45.4% 跳到 66.0%
- 合成了 1827 个交互环境、85000+ 条复杂指令
- 使用 GRPO 把推理、Agent 行为和人类对齐合并到同一个 RL 阶段
- V3.2-Speciale 在 2025 年 IOI 和 IMO 上达到金牌水平
但 DeepSeek 目前还没有自己的 Agent 产品。梁文锋曾表示"当前是技术创新的爆发期,不是应用的爆发期"。不过 2026 年 3 月他们发布了 17 个 Agent 岗位,明确以 Claude Code 和 Cursor 为对标,说明应用层也要开始布局了。
3.3 Moonshot AI(Kimi):多 Agent 编排的开拓者
Kimi K2.5 代表了一条独特的技术路线:
- Agent Swarm:最多 100 个子 Agent 并行工作,处理 1500 个步骤
- PARL 训练方法:专门解决多 Agent 训练的串行坍缩问题
- 在 BrowseComp 上 78.4%(Swarm 模式),超越 GPT-5.2 Pro
- 在 HLE-Full(工具使用版)上 50.2%,以 76% 更低的成本与 Claude Opus 4.5 竞争
杨植麟的逻辑是:高质量数据增长跟不上算力增长,传统单模型路线收益递减,但并行子任务的数量理论上没有上限。这与林俊旸所说的"harness engineering"方向一致------核心智能不只在单个模型里,也在多个 Agent 的编排协作中。
3.4 Qwen(阿里巴巴):从失败中学习的务实主义者
Qwen 团队的演进路径本身就是这篇文章的注脚:
- Qwen3(2025 年初):推出混合思考模式,支持在同一个模型中切换思考/非思考行为
- Qwen 2507 系列(2025 年下半年):发布独立的 Instruct 和 Thinking 变体,承认合并的困难
- Qwen3-Max-Thinking(2026 年 1 月):转向自适应工具使用------模型自主决定何时调用搜索、记忆和代码解释器
- Qwen3-Coder-Next(2026 年 2 月):专注 agentic 编码,强调长时推理和工具使用
- Qwen3.5(2026 年 2 月):标题直接叫"Towards Native Multimodal Agents",RL 扩展到百万级 Agent 环境
从这个演进路径可以清晰看到:Qwen 团队确实在从"训练模型"向"训练 Agent"转变,林俊旸的文章是这个转变的理论总结。
3.5 Cursor 与 Agent 产品层
Cursor 代表了"harness engineering"在产品层面的极致实践:
- 多 Agent 并行(最多 8 个)、Automations(事件驱动的 Agent 工作流)、Composer 自研模型
- 2026 年 3 月推出自托管云 Agent、JetBrains 支持、Plugin Marketplace
- 100 万+ 日活用户,ARR 突破 <math xmlns="http://www.w3.org/1998/Math/MathML"> 10 亿, 10 亿, </math>10亿,293 亿估值
Cursor 的成功恰恰证明了林俊旸的判断:当前 Agent 产品的竞争力主要来自工具架工程------Rules 系统、上下文管理、多 Agent 编排、代码库索引------而不仅仅是底层模型的 agentic 能力。
四、深层分析:三个被低估的技术拐点
4.1 环境构建正在成为独立的创业品类
林俊旸在文中预言:在 Agent 时代,我们应该像 SFT 时代痴迷于数据多样性那样,痴迷于环境质量。
这个预言正在兑现。学术界已经出现了专门的环境构建研究:
- InfiniteWeb:自动生成功能性网络环境,用于 GUI Agent 训练
- Agent World Model:合成无限环境用于 Agent RL
DeepSeek V3.2 的 1827 个合成环境虽然令人印象深刻,但对于真实世界的复杂度来说远远不够。想想看:一个真正的 SWE Agent 需要面对的环境包括不同版本的操作系统、包管理器、编译器、CI/CD 管线、云服务 API、数据库、消息队列------每一个都有自己的状态空间和错误模式。
造环境的能力本身将成为核心竞争力,正如林俊旸所说。谁能构建最真实、最多样、最可扩展的训练环境,谁就能训练出最强的 Agent。
4.2 验证成本是 Agent RL 的终极瓶颈
DeepSeek 总结的原则------"hard to solve, easy to verify"------指向了一个更深层的问题:不是所有有价值的任务都容易验证。
编码场景之所以是 Agent 训练的最佳起点,正是因为它天然满足"easy to verify"的条件。但如果 Agent AI 要扩展到更多领域,就必须解决验证成本的问题。
几种可能的路径:
- 构建更好的自动评估器:用更强的模型来评估较弱模型的输出(但这引入了评估器本身的可靠性问题)
- 设计可验证的任务分解:把模糊任务分解为一系列可验证的子任务
- 利用真实世界的延迟反馈:接受更长的训练周期,用真实用户反馈作为奖励信号
- 人机协作验证:在关键节点引入人类判断
目前看来,还没有哪种方案能普适地解决这个问题。这是一个真正的开放研究课题。
4.3 从"训练模型"到"训练系统"的认知跃迁
林俊旸文章最深刻的洞察可能是这句话:训练的核心对象已经改变了------不再是单独的模型,而是模型加环境的系统。
这意味着"好的 AI"的定义正在发生根本性变化:
- 旧范式:模型参数量 × 训练数据量 × 训练计算量 = 模型能力
- 新范式:模型能力 × 环境质量 × 工具架设计 × 反馈闭环效率 = 系统能力
在新范式下,竞争优势不再仅仅来自更好的 RL 算法或更大的训练集群,而是来自:
- 更好的环境:更真实、更多样、更可扩展的训练和评估环境
- 更紧密的训练-服务集成:训练出来的模型能无缝部署到生产环境中
- 更强的工具架工程:Agent 周围的编排层、上下文管理、错误恢复、安全边界
- 更快的反馈闭环:从真实世界的使用数据中快速学习和迭代
五、对开发者的实操启示
5.1 如果你是应用开发者
立即可行的行动:
- 拥抱 agentic 开发范式:开始使用 Claude Code、Cursor 等 Agent 工具。不是作为"更好的自动补全",而是作为"可以委托任务的初级开发者"
- 学习 Rules/Prompt 工程 :这不是"提示词技巧",而是规则编纂能力------把你的工程经验转化为 Agent 可遵循的约束。这是 2026 年开发者最重要的新技能
- 建立防御性工作流:checkpoint commit、diff 审查习惯、Agent 会话时间限制。Agent 会犯错,你需要系统性地管理这些错误
中期应该关注的方向:
- MCP(Model Context Protocol)生态:这是 Agent 连接外部工具和服务的标准协议,理解它将让你在 Agent 生态中占据有利位置
- Automations/事件驱动 Agent:Cursor 的 Automations、Claude 的 Dispatch 等功能代表了 Agent 从"人驱动"向"事件驱动"的演进
- 多 Agent 协作模式:Kimi K2.5 的 Agent Swarm 和 Cursor 的多 Agent 并行预示了未来的开发范式
5.2 如果你是创业者
最有价值的创业方向:
- 垂直领域的训练环境构建:如林俊旸所预测,"造环境"正在成为独立的创业品类。谁先为非编码领域构建高质量、可验证的训练环境,谁就能在下一波 Agent 化浪潮中占先
- Agent 可观测性和成本管理:随着 Agent 使用量爆炸式增长,监控 Agent 行为、追踪成本、确保安全的工具需求巨大
- 领域特定的验证器:为特定行业(法律、金融、医疗)构建可靠的自动评估系统
需要警惕的方向:
- 纯 wrapper 产品:如果你的产品只是在 Claude API 上包一层 UI,护城河极低
- 与 Agent 能力增长方向相悖的产品:随着 Agent 越来越强,很多中间层工具会被上游吞掉
5.3 如果你是技术决策者
战略层面的判断:
- AI 编程工具不再是可选项:Claude Code $25 亿+ 的 ARR、4% 的 GitHub commit 占比、90% 的 Salesforce 开发者使用 Cursor------这些数字说明 Agent 辅助编程已经是主流
- 成本模型正在根本性变化:一个高级开发者年薪 $15-25 万,Claude Code 的成本是其零头。5 个以上 Agent 同时运行的开发者可以产出一个小团队的工作量
- 安全和合规是真实挑战:代码经过 LLM 服务器、Agent 的自主行为可能引入安全风险、reward hacking 在生产环境中的后果是真实的
六、结论:想得更久不如做得更好
回到林俊旸文章的核心:
"竞争优势将来自让模型的决策和决策带来的后果形成闭环的能力。"
翻译成大白话:谁能更快地从真实世界的反馈中学习,谁就赢了。
这句话同时适用于两个层面:
- 训练层面:DeepSeek 的 agentic post-training、Kimi 的 PARL、Qwen 的 Agent 环境------它们都在试图让训练过程更快地从环境反馈中学习
- 产品层面:Claude Code 的 harness 工程、Cursor 的 Rules 系统和多 Agent 编排------它们都在试图让产品更快地从用户反馈中改进
这两个层面最终会融合。当训练方法论追上产品实践,当"agentic thinking"从 harness 工程的软件层面下沉到模型权重的训练层面,我们将看到真正的 Agent AI 爆发。
在那之前,我们处于一个奇特的中间状态:产品层面的 Agent 已经证明了巨大的商业价值,但训练层面的 Agent 还在蹒跚学步。这个错位本身就是一个巨大的机会窗口------对研究者、开发者和创业者都是如此。
想得更久不如做得更好。但怎么训练一个"做得更好"的模型------这才是真正的前沿。
声明:本文对林俊旸原文的引用和分析基于公开发表的内容。所有产业数据均标注了来源,技术细节参考了相应的技术报告和学术论文。由于 AI 领域变化极快,部分信息可能在发表后有所更新。
互动话题:你认为"智能体思考"取代"推理思考"的时间线是多久?在你的工作中,Agent 工具已经改变了你的开发方式吗?欢迎在评论区分享你的观察和思考。