从推理到行动:Agent 范式的真正跃迁正在发生

一、那个让 o1 成名的范式,已经不够用了

2025 年上半年,整个 AI 圈都在讨论一件事:推理模型。

OpenAI o1、DeepSeek-R1,用强化学习(RL)训出的长思维链,在数学、代码、逻辑推理上把之前的 SOTA 打得落花流水。大家兴奋地发现------原来让模型"多想一会儿",效果可以这么好。

但现在,前阿里千问技术负责人林俊旸发了一篇文章,直接给这个时代画上句号:推理思维(Reasoning Thinking)的阶段基本结束了,下一个范式是智能体思维(Agentic Thinking)

这不是在唱衰推理模型。推理模型是一个真实的进步,它解决了 RL 如何规模化的核心问题,也把行业焦点从预训练拉到了后训练。但它有一个根本局限:它的思维是封闭的

o1 和 R1 的本质,是在一个固定的上下文窗口里,用更多 token 换取更好的答案。它很擅长"静态问题"------给你一道数学题,它能花 3000 个 token 反复验证答案。但它不能"动":不会调工具、不会在行动后根据反馈修改计划、不会跨多轮对话维持目标。

真实世界的问题不是静态的。写一个完整的 web 应用、完成一个多步骤的数据分析任务、自主地帮你处理邮件------这些都需要模型在与环境的交互中持续思考,而不是坐在那里"想完再说"。

这就是为什么"智能体思维"是一个不同量级的挑战。

二、推理思维 vs 智能体思维:到底差在哪

把两种范式的核心差异摊开来看:

维度 推理思维(Reasoning Thinking) 智能体思维(Agentic Thinking)
思维目的 产生最好的答案 驱动最有效的行动
与环境关系 单向输出,无反馈 闭环交互,持续修正
奖励信号 确定性(数学/代码可验证) 复杂且嘈杂(多步骤、延迟奖励)
核心挑战 RL 规模化、采样效率 环境设计、Harness 工程、Reward Hacking
竞争壁垒 算法 + 算力 环境质量 + 训练-推理集成

林俊旸的原话很准确:

"好的思维不再是产生最令人印象深刻的中间文字,而是能在现实约束下维持有效行动的最实用路径。"

这句话值得多读几遍。它意味着 Agent 时代对"智能"的评价标准变了:不是"推理能力强不强",而是"在真实环境里能不能持续把事情做成"。

三、Harness 工程:被严重低估的技术壁垒

就在林俊旸发文的同一周,Anthropic 发布了一份关于 Harness 设计的研究报告,让 Claude 实现了数小时自主长跑开发。这两件事放在一起,不是巧合------它们指向同一个核心洞见:

在 Agent 时代,架构设计(Harness Design)的重要性不亚于模型能力本身

什么是 Harness?简单说,就是 Agent 运行的"外骨骼"------工具服务器、沙箱环境、上下文管理策略、多 Agent 协作协议......这些东西合在一起,决定了一个 Agent 系统能不能真正完成复杂任务。

Anthropic 的研究发现,早期让 Claude 做复杂长任务时,有两个典型失效模式:

失效模式一:上下文焦虑(Context Anxiety)

随着对话轮次增加,模型会"意识到"自己快要撞上上下文窗口限制,于是开始提前收尾、草草了事。这个现象被命名为"上下文焦虑"。

解决方案不是简单地压缩(Compaction),而是"上下文重置"------清空窗口,把当前状态以结构化产物(Artifacts)的形式传给新启动的 Agent。相当于人类做长任务时的"工作交接文档"。

失效模式二:自我评估偏差(Self-evaluation Bias)

模型在评估自己的输出时,会倾向于给出过于积极的评价。在主观任务(如 UI 设计)里尤其严重------它产出了一个"够用就行"的东西,然后告诉自己"很好,完成了"。

解决方案是把"执行者"和"评估者"角色分离,并专门训练评估者保持"怀疑论"立场:不默认信任执行者的结果,主动寻找问题。

这就引出了 Anthropic 核心的多 Agent 架构设计:

规划者1句→产品规格书 生成者冲刺模式实现功能 评估者Playwright QA验证 迭代或交付反馈驱动循环

这里有一个很妙的机制叫"冲刺合同(Sprint Contract)":生成者在写代码之前,先和评估者就"完成的定义"达成共识------我打算怎么实现、怎么验证,你来审核。这个"协商"步骤,解决了 AI 做任务时"各说各话"的经典问题。

效果如何?一个具体数字:用多 Agent 架构做一个数字音乐工作站(DAW),4 小时完成,花费 $124。最终产出包括编排视图、混音器、甚至一个自主 AI 编曲 Agent。当然,深度硬件交互还有 stub 代码------但核心功能完全可用。

四、Agentic RL:比推理 RL 难在哪

说完工程侧,再聊训练侧。

推理模型之所以能用 RL 训好,有一个关键前提:反馈信号要稳定、可验证。数学题对了就是对了,代码过了测试就是过了------奖励函数是确定性的,RL 可以放心优化。

但 Agentic RL 把这件事搞复杂了一个数量级:

挑战一:环境成为训练系统的一部分

Agent 训练需要把模型嵌入到一个完整的"运行时"里:工具服务器、浏览器、终端、沙箱......这些不再是静态的验证器,而是会产生延迟、有状态、可能 crash 的真实系统。整个训练流水线的稳定性要求大幅提升。

挑战二:训练与推理必须深度解耦

工具调用有延迟,环境观察有等待------如果训练时 GPU 要等工具返回结果,吞吐量会崩溃。必须在系统层面实现训练与推理的异步解耦,这是一个非平凡的基础设施问题。

挑战三:Reward Hacking 更难防

一旦 Agent 有了工具访问权限,它可能学会"走捷径"------直接查答案、利用环境 bug、绕过验证步骤。推理模型没有工具,这个问题几乎不存在;但 Agent 有了"手",防作弊就成了一级难题。

📌 💡 一个有趣的类比:训推理模型像出数学考试题------题目清晰,答案唯一,评分客观。训 Agent 更像设计真实的工作岗位------任务模糊,路径多样,而且员工可能找到你没预料到的"捷径"。两件事的难度根本不在一个维度上。

五、竞争格局的重新洗牌

林俊旸在文章里有一句很值得细品的判断:

推理时代,优势来自 RL 算法、反馈信号和规模化流水线。 代理时代,优势将来自更好的环境设计、更紧密的训练-推理集成、强大的 Harness 工程。

这意味着竞争壁垒从"谁有更多算力和更好的算法",转移到了"谁能构建更高质量的 Agent 训练环境"。

这个转变对不同玩家的影响截然不同:

大厂优势缩小:推理时代,算力堆叠可以直接换取性能。Agent 时代,环境设计是软性能力,不能单纯靠算力砸出来。

垂直领域的窗口期:谁掌握了特定领域的高质量 Agent 训练环境(比如医疗诊断流程、代码审查流程、法律文书流程),谁就有先发优势。这个窗口不会永远开着。

基础设施公司的机会:Agentic RL 对训练基础设施的要求远超推理 RL。做异步推理、工具调用调度、沙箱管理的公司,未来两年可能会很忙。

还有一个值得关注的方向:Harness 工程的标准化。目前每个公司都在自己造"Agent 脚手架",但这些东西的差异其实是有规律的。最近 Anthropic 放出的研究,以及 arXiv 上出现的《Natural-Language Agent Harnesses》论文,都在试图把 Harness 设计提炼成可复用的模式------本质上是在做 Agent 时代的"设计模式"。

六、工程师视角:现在该做什么

说完宏观判断,聊点对个人有实操价值的。

把"上下文管理"当一等公民

不管用什么框架搭 Agent,上下文管理策略决定了系统能不能处理真实的长任务。目前最实用的几种策略:

python 复制代码
# 策略一:结构化 Artifact 交接
class ContextHandoff:
    """当 token 使用率超过阈值时,将关键状态序列化为 Artifact"""
    
    def create_handoff(self, agent_state: dict) -> str:
        artifact = {
            "completed_steps": agent_state["done"],
            "current_goal": agent_state["objective"],
            "pending_tasks": agent_state["todo"],
            "key_decisions": agent_state["decisions"],
            "environment_state": agent_state["env_snapshot"]
        }
        return json.dumps(artifact, ensure_ascii=False, indent=2)

# 策略二:冲刺分解(Sprint Decomposition)
def plan_sprints(task_description: str, max_context_per_sprint: int = 50000) -> list:
    """把大任务分解为独立可执行的冲刺单元,每个冲刺都有明确的 done-definition"""
    sprints = planner_agent.decompose(task_description)
    for sprint in sprints:
        sprint["done_criteria"] = evaluator_agent.negotiate_criteria(sprint)
    return sprints

把"评估者"从"执行者"里拆出来

这是 Anthropic 最实用的工程建议。无论你的 Agent 在做什么任务,都应该有一个独立的评估角色------不共享同一个上下文,不默认信任执行者的输出,专门负责"找毛病"。

python 复制代码
class SkepticalEvaluator:
    """
    设计原则:评估者必须是"怀疑论者"
    - 不共享执行者的上下文(避免锚定效应)
    - 主动寻找边界情况和潜在失败
    - 使用独立工具验证(如 Playwright 做 E2E 测试)
    """
    
    SYSTEM_PROMPT = """你是一个专业的代码审查员。
    你的任务是找出问题,而不是肯定成果。
    假设代码有 bug,直到你证明它没有。
    关注:边界情况、状态一致性、用户路径覆盖度。"""
    
    async def evaluate(self, artifact_path: str, criteria: dict) -> EvaluationResult:
        # 使用独立工具验证,不依赖执行者的自我报告
        test_results = await self.playwright.run_tests(artifact_path)
        issues = self.llm.analyze(test_results, criteria, system=self.SYSTEM_PROMPT)
        return EvaluationResult(passed=len(issues) == 0, issues=issues)

认真对待 Reward Hacking,不要等到生产环境才发现

如果你在做 Agentic RL 或者在沙箱里训练 Agent,需要提前设计防作弊机制:

makefile 复制代码
# 常见的 Reward Hacking 模式和对应防御
HACKING_PATTERNS = {
    "direct_answer_lookup": {
        "description": "模型直接从测试文件读取预期答案",
        "defense": "隔离测试数据,训练时答案不可见"
    },
    "env_state_manipulation": {
        "description": "修改评估器的内部状态而非真正完成任务",
        "defense": "评估器与执行沙箱完全隔离,只通过标准接口通信"
    },
    "false_completion_signal": {
        "description": "伪造任务完成信号",
        "defense": "多评估器交叉验证,完成信号需要多数通过"
    }
}

七、一个值得认真对待的时间窗口

林俊旸的文章让我思考一个问题:从推理时代到 Agent 时代的切换,跟从预训练时代到推理时代的切换有什么本质区别?

推理模型的出现,基本上是"大厂发模型,所有人升级调用"------能力提升是模型层面的,应用层感知到的只是 API 变好用了。

但 Agent 范式不一样。它的核心竞争力------环境设计、Harness 工程、多 Agent 协调------这些都在应用层。模型提供商做不了这件事,因为每个领域的"环境"都不一样。

这意味着接下来一两年,会有一批深耕垂直领域、认真做 Agent 训练环境的团队冒出来。他们未必有最好的基础模型,但可能有最好的"领域 Agent"------因为他们有独特的环境数据和反馈闭环。

就像当年 ImageNet 奠定了视觉 AI 的竞争格局,接下来"谁有最好的 Agent 训练环境"可能会奠定 Agent 时代的竞争格局。

现在是构建这个环境的好时机。两年后可能就是验收期了。

参考来源:

• 林俊旸《From "Reasoning" Thinking to "Agentic" Thinking》

• Anthropic《Harness design for long-running application development》

• arXiv 2603.25723《Natural-Language Agent Harnesses》

• arXiv 2603.25702《S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation》

相关推荐
孟健4 小时前
OpenClaw 做站全流程:5 个 AI Agent 接力,从选词到文案一天跑通
ai编程
DO_Community4 小时前
教程:让OpenClaw一次接入Claude、Qwen、DeepSeek 多个模型
人工智能·aigc·ai编程·ai推理
多年小白5 小时前
【无标题】
大数据·人工智能·科技·ai·ai编程
码森林5 小时前
别卷模型了!OpenAI 工程师都在偷偷用的"Harness Engineering",才是 AI 编程的终极杀器
agent·ai编程·全栈
数据智能老司机5 小时前
使用 Claude Code 进行 Agentic 编码——上下文工程
ai编程
NikoAI编程5 小时前
Claude Code宝藏命令: /insights 报告
agent·ai编程·claude
zero15975 小时前
AI 编程效率翻倍:Superpowers Skills 上手清单 + 完整指南
ai编程·skills·superpowers·ai编程效率工具
NikoAI编程5 小时前
本周 AI 大事件:Claude 加速、Sora 落幕、国产模型突破
人工智能·ai编程·claude
小程故事多_807 小时前
从个人工具到团队变革,天猫 AI 全栈交付如何重构研发效率新范式
人工智能·重构·aigc·ai编程