Agent Loop 深度调研:把决定权交给模型的一次换代,为什么发生在现在
涂阿燃 · tuaran 前端 / AI Agent / 政企方案
在 2aran.com 写技术调研、AI 工程实践与独立开发笔记。关于站长 →
写在前面:本文是概念与生态层调研,基于 Anthropic / LangChain / METR 等官方文档、论文与公开报道整理,属外部观察;涉及厂商动机与市场规模的部分均标注为研判或未验证,不构成选型承诺。
一、先给结论
Agent loop 改的是控制权:LLM 应用六年来第一次把「下一步做什么、什么时候算完成」的判定权从开发者代码交到模型手里。 此前的每一代技术------prompt 工程、RAG、chain 编排------都在替模型铺路,但方向盘始终握在开发者手里:问什么、查什么、走哪条分支,全由代码预先写死。Agent loop 换的是握方向盘的人,其余生态名词的位置变化都是这次移交的连锁反应。
要点:
- LLM 应用开发六年换了三代组织范式:Prompt 时代(一次调用怎么问)→ RAG / 框架时代(怎么给调用喂知识、怎么把调用串成管道)→ Agent loop 时代(把「下一步做什么」的决定权交给模型)。每一代都有一个组织中心,其余技术围绕它站位。
- 换代的通用规律:上一代的主角不会死,会降级成新范式里的组件。 prompt 工程转型为 system prompt 与工具描述设计;RAG 从默认架构降为 loop 里的一个检索工具;LangChain 自己把 1.0 版核心重构成 agent loop。向量库、function calling、LlamaIndex、Dify......全部生态名词都能用「它在哪一代当过主角、现在在 loop 里当什么组件」这一个问题定位。
- Agent loop 结构本身是旧的。学术源头 ReAct 发表于 2022 年 10 月,AutoGPT 2023 年春就把循环跑给所有人看过,然后失败了------当时模型的单步准确率撑不起多步循环。
- 这轮火起来靠三件事同时到位:模型能力过阈值(METR 测得可完成任务时长的翻倍周期从 7 个月加速到约 4 个月)、工具接口标准化(MCP 从 2024-11 发布到 2026-03 月下载量近亿)、编码场景先完成商业验证(Claude Code、Cursor 类产品)。
- 对个人开发者的判断放在第四节:概念和最小实现值得立刻掌握(几十行代码的事),框架观望,multi-agent 大多数人不需要。
二、事实层
2.1 Agent loop 是什么:最小形态
Anthropic 在 Building Effective Agents(2024-12)里给了目前引用最多的区分:
- Workflow:LLM 和工具按开发者预先写好的代码路径执行,分支由代码控制;
- Agent:LLM 自己决定调用什么工具、走什么路径、什么时候停。
Agent loop 就是后者的运行时形态,伪代码只有几行:
ini
messages = [user_task]
while True:
reply = model(messages, tools)
if reply.没有工具调用:
return reply # 模型自己判定任务完成
result = 执行(reply.工具调用)
messages.append(reply, result)
三个要素:一组工具定义、一个循环、一个停止条件(模型不再调工具,或步数/预算上限兜底)。代码量小,难点全在别处:任务边界怎么划、失败时如何诊断是第几步偏航、副作用如何兜底。站内 从 chat 任务到 agent loop:Anthropic 一线工程实践 专门写过这条升级路径,本文不重复。
2.2 三代范式:每个生态名词都有自己的年代
外部能观察到的换代线索(代表技术只是样本,同代还有很多):
| 代 | 大致年份 | 组织中心的问题 | 当过主角的技术(举例) | 换代后的去向 |
|---|---|---|---|---|
| 第一代:Prompt | 2020-2022 | 一次调用里怎么问,才能榨出模型能力 | prompt 工程、few-shot、chain-of-thought | 转型为 system prompt / 工具描述设计,仍是质量第一决定因素 |
| 第二代:RAG + 框架管道 | 2022-2024 | 模型知识不够、单次调用不够,怎么喂知识、怎么串管道 | RAG、向量库(Pinecone/Milvus...)、embedding、LangChain 的 chain、LlamaIndex、Dify 类低代码编排 | 检索降为 loop 里的一个工具;管道编排退守「路径可预知」的场景;框架换核(见 2.5) |
| 第三代:Agent loop | 2024- | 谁决定下一步------把路径决策权交给模型 | tool use / function calling、ReAct 循环、MCP、编码代理、computer use、multi-agent | 现在进行时 |
三点补充,防止把表读死:
- 换代不等于淘汰。生产系统里三代并存:客服首响用第一代的单次调用最便宜,文档问答用第二代的预检索管道最稳,只有路径无法预知的任务才值得上第三代。Anthropic 官方建议本身就是「能简单别复杂」。
- 每一代的主角在下一代都变成了组件。这是给生态名词定位的最快办法:见到一个名词,先问它在哪一代当过组织中心、现在在 loop 里承担什么角色,位置就清楚了。
- function calling 是横跨二三代的枢纽。2023-06 OpenAI 把工具调用做成 API 原生能力时,多数人拿它做第二代的管道增强;它真正的作用是给第三代备好了地基------没有可靠的结构化工具调用,loop 转不起来。
2.3 时间线:这个循环被发明过两次半
| 时间 | 事件 | 意义 |
|---|---|---|
| 2020-05 | RAG 论文(Lewis et al., Facebook AI) | 检索增强生成成为「给模型喂外部知识」的标准答案 |
| 2022-10 | ReAct 论文(Yao et al.) | Reason + Act 交替循环首次成文,agent loop 的学术源头 |
| 2022-10 | LangChain 开源 | 把 prompt / 检索 / chain 封装成框架,成为第二代的默认脚手架 |
| 2023 春 | AutoGPT、BabyAGI 爆红后退潮 | 第一次大众化的 agent loop 尝试;GPT-4 撑不住多步循环,跑偏、死循环、烧 token |
| 2023-06 | OpenAI function calling 上线 | 工具调用从「prompt 里求模型输出 JSON」变成 API 原生能力 |
| 2024-11 | Anthropic 发布 MCP | 模型连外部工具/数据的开放标准,工具接入从定制开发变成装插件 |
| 2024-12 | Building Effective Agents | workflow / agent 的官方区分 + 「能简单别复杂」的工程共识 |
| 2025 前半 | Claude Code 正式发布、编码代理集中上量;OpenAI 于 2025-03 采用 MCP | agent loop 第一次有了规模化付费场景 |
| 2025-10 | LangChain / LangGraph 1.0 | LangChain 把框架核心重构为 agent loop(create_agent,ReAct 范式跑在 LangGraph 运行时上) |
| 2025-12 | Anthropic 把 MCP 捐给 Linux 基金会旗下 Agentic AI Foundation,Anthropic / Block / OpenAI 共同发起 | 工具接口层进入中立治理,Google / Microsoft / AWS / Cloudflare 站台 |
| 2026-03 | MCP 月 SDK 下载量约 97M(第三方统计,见「未能验证」) | 从 2024-11 发布时约 2M 涨了近 50 倍 |
说「两次半」:ReAct 是学术上的第一次,AutoGPT 是大众化的半次(结构对了、模型不行),2024 年底至今是第二次------这次模型、接口、场景三样都在。
2.4 换代规律的三个样本
用三个最出名的名词各验证一遍「主角降级为组件」。同样的分析套在向量库、LlamaIndex、Dify 或任何生态词上都成立,这里不穷举。
样本一:prompt 工程------工作对象换了,技能没作废。
单次 prompt 的天花板是结构性的:无反馈(模型看不到自己输出的执行结果,错了没机会纠)、无中间状态(多步任务靠开发者手动粘结果)、上下文一次性塞满(所有资料预先塞进去,塞多了淹没重点)。Agent loop 把三条都翻过来:工具结果自动回喂、messages 数组就是状态、模型按需调工具取资料。
但 prompt 技能直接迁移到了三个新对象上:system prompt(agent 的行为边界与偏好)、工具描述(模型靠它决定调不调、怎么调,一句含糊的工具描述能让整个 loop 报废)、错误信息的回喂格式(决定模型能否自我纠偏)。Anthropic 官方把这块叫 tool 设计,文档篇幅比传统 prompt 技巧还多。
样本二:RAG------从默认架构降为一个检索工具。
2023-2024 年「LLM 应用」四个字接近等于 RAG:切块、向量化、检索、拼 prompt,管道由开发者写死,检索发生在模型开口前。Agent loop 改变了检索发生的位置:检索变成 loop 里的一个工具(search / read_file / query_db),什么时候查、查什么、查几轮由模型决定,查一次不够可以换关键词再查------这个模式被叫做 agentic retrieval。外部可观察的例子:Claude Code 这类编码代理没有向量库,靠 grep + 读文件的多轮循环做代码检索;LangChain 1.0 文档也把「retrieval as a tool」列为推荐模式。RAG 没死:延迟敏感(客服首响)、语料固定(文档问答)的场景,预检索管道仍然更便宜更稳。
样本三:LangChain------框架自己换了核,比任何布道文都能说明风向。
LangChain 两代都做过主角:2022-2024 核心抽象是 chain,开发者预先把「prompt 模板 → 模型 → 解析器 → 下一步」串成固定管道,这是第二代思路;2025-10 的 1.0 版官方博客明确写「refocus on the core agent loop」,核心 API 换成 create_agent------传 model、tools、system_prompt 三个参数,返回一个跑在 LangGraph 运行时上的 ReAct 循环,原来那堆 chain 抽象大量废弃。一个靠 chain 起家的框架把 1.0 押在 agent loop 上,生态共识走到哪不言自明。四个主流框架的横评站内已有单独一篇,此处不展开。
三、结构分析:为什么火在 2024-2026,而不是 2023
结构 2022 年就有,AutoGPT 2023 年就试过,所以「为什么现在」的答案只能在结构之外找。外部能确认的因素有三个,按重要性排序。
3.1 模型单步准确率过了阈值------loop 的数学决定了这是突变不是渐变
Loop 的整体成功率约等于单步成功率的幂。单步 90% 时,20 步任务的完成率是 0.9^20 ≈ 12%,不可用;单步 99% 时是 82%,可用。单步能力的线性提升,会在某个点上让多步任务的可用性发生跳变------这解释了为什么 agent loop 给人的体感是「突然能用了」。
有第三方测量支撑这个跳变:METR 的 time horizon 研究用「模型以 50% 成功率能完成的人类任务时长」度量能力,2025-03 的原始报告测得 2019-2025 年该时长每约 7 个月翻倍;2026-01 的 1.1 版更新显示 2024-2025 年翻倍周期缩短到约 4 个月,最新旗舰模型的 50% 时长已到小时级甚至半天级(置信区间很宽,见「未能验证」)。2023 年的模型在「分钟级任务」区间,撑不起 AutoGPT 想做的事;现在的模型在「小时级」区间,一个几十步的编码任务落在能力范围内了。
3.2 工具接入成本坍缩------MCP 把集成从 N×M 变成 N+M
Loop 的价值随可用工具数增长,而 2024 年前每个工具都要为每个模型单独写集成。MCP(2024-11)把这变成标准件:工具方实现一次 MCP server,任何支持 MCP 的模型/客户端都能用。采用曲线见 2.3 时间线:OpenAI 2025-03 跟进,2025-12 进入 Linux 基金会中立治理,ChatGPT / Cursor / Gemini / Copilot / VS Code 均已接入。工具生态从「大厂专属」变成「个人开发者周末能写一个」,loop 里可调用的东西多了两个数量级。
3.3 编码场景先完成商业验证------反馈可自动核验的任务先跑通
Agent loop 需要「模型能自己判断这步做对没有」,编码天然满足:编译器、测试、类型检查提供免费且客观的反馈信号。所以编码代理(Claude Code、Cursor 等)成为第一个规模化付费场景并不意外------loop 在这里的每一步都有裁判。其他领域(客服、办公自动化)反馈信号模糊,落地明显更慢。
一条标注为外部观察的补充:agent loop 单任务的 token 消耗是单次 chat 的几十到几百倍,模型厂商按 token 计费,推广 agent 与其收入结构一致。这只说明厂商有动力宣传,不能推出「火是营销吹出来的」------上面两条硬性条件(能力、接口)是 2023 年那轮炒作里不存在的实物差异。
3.4 一个反向事实,防止把故事讲太顺
Anthropic 自己在 Building Effective Agents 里的头号建议仍然是「找最简单的方案,只在需要时增加复杂度」,且明确说多数成功案例用的是简单可组合的模式而非框架。行业热词是 agent,一线工程建议却是「能 workflow 别 agent」------热度和最佳实践之间有真实落差,「agent washing」(把写死的自动化包装成 agent 卖)在 2025-2026 的企业软件营销里被多家媒体点名。看到「我们上了 agent」时,先问循环里的决定权真在模型手里吗。
四、外部研判
以下为个人判断,标注置信度。
总判断:跟进,高置信;但分层跟进,不是全栈跟进。

| 层 | 判断 | 理由 |
|---|---|---|
| 概念 + 最小实现 | 立刻跟进 | 几十行代码,一个下午的事;这是理解 2026 年所有 AI 产品形态的钥匙 |
| Tool / system prompt 设计 | 跟进 | prompt 工程的存量技能直接迁移,且是 loop 质量的第一决定因素 |
| LangChain / LangGraph 等框架 | 观望,按需 | 框架 API 仍在快速换代(1.0 才半年多);先裸写 loop 理解机制,需要持久化/中断恢复时再上 |
| Multi-agent | 多数人不跟 | 触发条件是长时任务 + 高侵入操作,个人项目很少满足;结论沿用站内前文 |
对本站的下一步(可复盘项):
- 在 Cloudflare Edge 环境裸写一个最小 agent loop demo(模型 + 2-3 个工具 + while 循环),与站内已有的 edge agents 实践衔接;
- 观察指标:METR 下一次 time horizon 更新(翻倍周期是否维持 4 个月)、MCP 官方 registry 的 server 数量走势;
- 最大反证:如果 2026 下半年出现「长上下文 + 单次调用」方案在编码任务上追平 agent loop 的公开评测,第三节 3.1 的阈值论需要重写。
风险提示:loop 的失败诊断是新工种(错在第几步、为什么没纠偏);token 成本随步数线性甚至超线性增长;模型在循环里拥有真实副作用(写文件、发请求),权限与沙箱不是可选项。
五、未能验证
- MCP「97M 月下载」:来自第三方博客(AI2Work)转述,未在 Anthropic 或 Linux 基金会官方口径中找到原始数据;量级可信(多来源交叉),精确数字存疑。
- 「AI agent 市场 2025 年 $7.6B」:媒体引用的市场规模数字,未找到可核验的统计口径,仅作氛围参考,正文未采用。
- METR 最新单点(旗舰模型 50% 时长约 12 小时):METR 自己标注置信区间横跨 5-65 小时,说明测量工具在长时长端接近失效;本文只采用「翻倍周期加速」的趋势结论,不采用单点数字下判断。
- 各编码代理的具体收入:Claude Code / Cursor 的营收数字均无官方完整披露,正文只写「规模化付费场景」这一可观察事实。
- 「三代范式」的分期:年份边界是外部归纳,行业无统一分期口径;生产系统三代并存,分期只用于定位概念,不用于判断某项技术「过时」。
六、信息来源
官方 / 一手
- Building Effective Agents --- Anthropic(2024-12)
- Model Context Protocol 发布公告 --- Anthropic(2024-11)
- MCP 捐赠与 Agentic AI Foundation 成立 --- Anthropic(2025-12)
- Writing tools for agents --- Anthropic Engineering
- LangChain & LangGraph 1.0 发布博客(2025-10)
- LangChain Agents 文档(create_agent)
- ReAct: Synergizing Reasoning and Acting in Language Models(Yao et al., 2022)
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(Lewis et al., 2020)
- Task-Completion Time Horizons --- METR 及 Time Horizon 1.1 更新(2026-01)

行业 / 二手
- AI agents arrived in 2025 --- The Conversation
- MCP Hits 97M Installs as Linux Foundation Takes Over --- AI2Work(数字未独立核验)
- Was 2025 really the year of the AI agent? --- SDxCentral
站内交叉