AI Agent 框架演进
📍 导航指南
AI Agent 的发展速度极快,架构模式层出不穷。根据你的背景,选择合适的阅读路径:
- 🎓 入门者? → 第一阶段:单体工具时代 - 了解 Agent 的基本原理 (ReAct)。
- 🛠️ 实践者? → 第三阶段:群体智能时代 - 学习如何让多个 Agent 协作。
- 🏗️ 架构师? → 第四阶段:认知架构与图时代 - 掌握生产级 Agent 的状态机设计。
- 🚀 前沿探索? → 第五阶段:自主开发者时代 - 看看未来的 Agent 是如何自己写代码的。
- 🔮 未来学家? → 第六阶段:分布式联邦智能系统 - 探索 Agent 架构的终极形态。
目录
第一部分:起源与探索 🌟
- [第一阶段:单体工具时代 (ReAct)](#第一阶段:单体工具时代 (ReAct) "#stage-1")
- [核心逻辑:Reason + Act](#核心逻辑:Reason + Act "#react-logic")
- 局限性与痛点
- [第二阶段:自主循环时代 (Autonomous Loops)](#第二阶段:自主循环时代 (Autonomous Loops) "#stage-2")
- [AutoGPT 的疯狂实验](#AutoGPT 的疯狂实验 "#autogpt-experiment")
- 失控的循环
第二部分:协作与秩序 🤝
- [第三阶段:群体智能时代 (Multi-Agent)](#第三阶段:群体智能时代 (Multi-Agent) "#stage-3")
- [SOP 与角色扮演](#SOP 与角色扮演 "#sop-roleplay")
- 代表框架对比
- [第四阶段:认知架构与图时代 (Graph & State)](#第四阶段:认知架构与图时代 (Graph & State) "#stage-4")
- [从 DAG 到 Cyclic Graph](#从 DAG 到 Cyclic Graph "#graph-theory")
- 状态机与持久化
第三部分:终极形态 🤖
- [第五阶段:自主开发者时代 (Deep Agents)](#第五阶段:自主开发者时代 (Deep Agents) "#stage-5")
- [Computer Use 与全栈能力](#Computer Use 与全栈能力 "#computer-use")
- [Sandbox 沙箱的重要性](#Sandbox 沙箱的重要性 "#sandbox")
第四部分:未来展望 🚀
- [第六阶段:分布式联邦智能系统 (Future)](#第六阶段:分布式联邦智能系统 (Future) "#stage-6")
- [核心架构:Agentic C/S](#核心架构:Agentic C/S "#agentic-cs")
- [通信机制:A2A 协议](#通信机制:A2A 协议 "#a2a-protocol")
- 执行逻辑:技能化驱动
附录
- 总结与选型建议
- [常见问题 FAQ](#常见问题 FAQ "#faq")
引言
从大模型 (LLM) 诞生至今,AI Agent 的架构经历了一个从"简单工具调用"到"拟人化自主开发者"的完整进化过程。这不仅仅是技术的迭代,更是我们对"智能体"认知深度的提升。
我们可以将其清晰地划分为以下六个阶段(其中第六阶段为个人未来畅想):
- ReAct (单体工具)
- Autonomous Loops (自主循环)
- Multi-Agent (群体协作)
- Graph & State (图与状态)
- Deep Agents (自主开发者)
- Sovereign Swarm Network (分布式主权群智,未来畅想)
第一阶段:单体工具时代 (ReAct)
背景:早期的 LLM 只是一个聊天机器人,被困在文本框里,无法感知和影响外部世界。
核心逻辑:Reason + Act
这一阶段的突破点在于 ReAct (Reason + Act) 模式的提出。这是 "System 2"(慢思考) 在 LLM 上的首次工程化尝试。它打破了 LLM 只能"预测下一个字"的魔咒,让模型学会了**"停下来想一想"**。
模型不再只是说话,而是遵循一个严格的循环: 观察 (Observe) -> 思考 (Thought) -> 行动 (Act)
它开始能够调用 API(如搜索、计算器、天气接口)来辅助回答。
伪代码模式:
python
while not done:
observation = env.observe()
thought = llm.think(observation)
action = llm.decide_action(thought)
result = env.execute(action)
if is_final_answer(result):
done = True
示意图:

代表项目:
- LangChain (早期版本): 定义了 Tool 和 Agent 的基本抽象。
- ToolFormer: 证明了模型可以自我学习使用工具。
局限性与痛点
- 严重的"幻觉累积":这是最大的痛点。如果推理(Reason)阶段错了,后续的行动(Act)就会南辕北辙,且模型往往无法自我修正,导致错误在多步操作中不断放大。
- 单步思维:很难处理长链条的任务。
- 上下文限制:所有历史都在一个 Prompt 里,容易撑爆 Context Window。
第二阶段:自主循环时代 (Autonomous Loops)
背景:ReAct 只能解决单步任务,人们开始思考:如果给 Agent 一个终极目标,让它自己去拆解和执行,会发生什么?
AutoGPT 的疯狂实验
这一阶段的标志是 AutoGPT 和 BabyAGI 的爆火。这一时期的核心贡献是引入了 "目标导向(Goal-oriented)"。Agent 开始有了"使命感",即使任务很长,它也会尝试递归地拆解子任务。
核心逻辑: 给定一个终极目标(例如"帮我调研市场并写一份报告"),Agent 会自动:
- Task Creation: 拆解出子任务列表。
- Task Prioritization: 对任务排序。
- Execution: 执行任务。
- Loop: 根据结果产生新任务,无限循环,直到目标完成。
示意图:

失控的循环
虽然概念很迷人,但在实际应用中,这一阶段的 Agent 表现出了极大的不稳定性,最大的问题是 "Token 燃烧弹"。
- 无限死循环:由于缺乏明确的终止条件和高精度的反馈,Agent 经常陷入死循环,在两个步骤之间反复横跳。
- 成本失控:用户往往一觉醒来发现账户欠费了 $50,但任务不仅没做完,甚至还在原地打转。
- 发散:做着做着就跑题了,去研究不相关的东西。
结论:纯粹的自主循环在当时(GPT-3.5/4 早期)在实践中常常不可控,易出现成本和循环失控。
第三阶段:群体智能时代 (Multi-Agent)
背景:单个 Agent 能力有限,且容易犯错。人类社会是如何解决复杂问题的?答案是:组织分工。
SOP 与角色扮演
这一阶段引入了 多智能体协作 (Multi-Agent Collaboration) 。这里的本质是 "减熵" 。单个 Agent 处理复杂任务时,系统熵值太高容易崩溃,通过 SOP(标准作业程序) 将压力分散到不同角色(Coder, Reviewer, Manager),大幅提升了成功率。
代表逻辑 :并不是模型变强了,而是 组织架构 优化了生产力。
工作流示例:
- User 提出需求。
- PM Agent 分析需求,写出 PRD。
- Coder Agent 根据 PRD 写代码。
- Reviewer Agent 审查代码,提出修改意见。
- Coder Agent 修改代码。
示意图: 
代表框架对比
| 框架 | 特点 | 适用场景 |
|---|---|---|
| AutoGen (Microsoft) | 极其灵活,Agent 之间可以自由对话。支持 Human-in-the-loop。 | 探索性任务,复杂对话流。 |
| CrewAI | 结构化,基于角色和任务的顺序/层级执行。 | 明确的生产流,如生成内容、报告。 |
| MetaGPT | 强调 SOP,将标准流程硬编码进 Prompt。 | 软件开发,有着严格流程的任务。 |
第四阶段:认知架构与图时代 (Graph & State)
背景:多 Agent 虽然强大,但如果让它们自由对话,很容易变成"无休止的开会"。我们需要更精细的控制。
从 DAG 到 Cyclic Graph
这一阶段被认为是 "工程化" 的巅峰。LangGraph 等框架的出现,标志着开发者不再相信 Agent 的"随性",而是通过 有向有环图 (Cyclic Graph) 强制规定了逻辑边界。
- 早期的 Chain:是线性的(DAG),Step 1 -> Step 2 -> Step 3。
- 现在的 Graph:允许循环(Cycles)和条件分支。
状态机与持久化
LangGraph 是这一阶段的集大成者。它将 Agent 的运行建模为一个图:
- Nodes (节点):执行具体工作的函数或 Agent。
- Edges (边):控制流转的逻辑(条件跳转)。
- State (状态):在节点之间传递的共享记忆。
示意图:
核心价值 : 实现了 "断点续传" (Persistence)。这是生产环境的关键特性。如果 Agent 执行一半断网了,或者需要等待用户审批,没关系,状态都保存在数据库里,连上后可以接着跑,而不需要重头开始。
代表项目:LangGraph, LATS (Language Agent Tree Search)。
第五阶段:自主开发者时代 (Deep Agents)
背景:随着推理模型(如 DeepSeek R1, o1)和 Computer Use 能力的提升,Agent 开始追求全栈能力。
Computer Use 与全栈能力
这一阶段的本质是 "接口的消失"。以前 Agent 需要开发者封装好的 API,现在 Agent 直接像人一样用鼠标和键盘操作计算机。
- 直接操作终端 (Shell) :执行
git,grep,npm install。 - 文件系统操作:创建、读取、修改任意文件。
- 浏览器操作:像人一样点击网页,获取信息。
核心逻辑: Agent 拥有深度规划 (Planning) 能力。面对一个模糊的需求,它能探索环境、建立心理模型、制定计划并执行。
Sandbox 沙箱的重要性
能力越强,风险越大。但 Sandbox (沙箱) 的意义不再仅仅是为了安全,更是为了 "试错成本最小化"。
Agent 可以在沙箱里失败一万次,只要最后一次成功并提交结果即可。这种环境让 Agent 敢于尝试和自我修正,而不会破坏真实环境。
- 隔离:Agent 在 Docker 容器或轻量级 VM 中运行。
- 权限控制:限制网络访问,限制文件读写范围。
- 快照恢复:搞砸了可以一键回滚。
示意图:
代表项目:
- Claude Code: Anthropic 官方推出的 CLI 工具。
- Manus: 引起轰动的自主通用 Agent。
- DeepAgent: 结合强化学习的深度推理 Agent。
第六阶段:主权集群网络 (Sovereign Swarm Network,未来畅想)
提示:本阶段为个人对未来的设想,尚未大规模验证,更多是架构思路与推演。
畅想 :未来的 Agent 架构将不再是单体或简单的集群,而是一个分布式的联邦系统。我们将其定义为 "分布式主权智能体架构 (Distributed Sovereign Agent Architecture)" 。核心逻辑在于将 "决策/隐私" 与 "执行/计算" 彻底解耦。
1. 核心架构:C/S 联邦制
不同于目前的单体对话框,我们提出一种双层治理结构:
🏛️ 客户端:本地核心 (The Sovereign Leader)
- 定位:用户的数字代理人、系统的"CEO"。
- 核心组件 :
- 本地 MCP Client:挂载本地受信任的 Skills(如家庭相册、私人日程、本地文件)。
- 隐私过滤器 (Privacy Shield):对发往沙盒的数据进行自动化脱敏处理。
- A2A 调度引擎:负责任务拆解,并向沙盒下达"雇佣"指令。
- 功能:掌握用户偏好,处理最高优先级决策,验收沙盒成果。
🏭 服务端:沙盒原生 OS (The Agentic Sandbox OS)
- 定位:隔离的"数字工厂"、系统的"执行员工"。
- 形态:一个为 Agent 协作定制的微型 OS(Agentic OS)。
- 内部环境 :
- 多 Agent 协同 (Swarm):多个垂直领域的专家 Agent 在此共事。
- MCP 神经总线:OS 内核负责连接所有工具(Excel、Word、浏览器、代码环境)。
- 工具即 Skills:软件不再是 GUI,而是通过 MCP 暴露给 Agent 的标准化能力。
2. 通信层:A2A (Agent-to-Agent) 协议
这是系统的"指挥链",基于 MCP 协议封装。
- 不仅仅是传话 :它传递的是权限凭证 (Permission Card)、任务上下文、SOP(标准作业程序)和结果期望。
- 语义对齐:实现了异构模型(如本地运行的小型 Llama 与云端强大的 Claude)之间的无缝协作。
3. 技术栈:MCP + Skills
在这种架构下,MCP (Model Context Protocol) 扮演了至关重要的角色:
- 本地侧 MCP:解决 Agent 与用户"私域数据"的连接问题。
- 沙盒侧 MCP:解决 Agent 与"生产力工具"的控制问题。
- Skill 的含义:Skill 可以理解为长期实践中沉淀的、可重复调用的 SOP/工作流封装,把一次次成功经验抽象为标准接口。
- 未来趋势:更强的 Agent 会在执行中自我总结高频流程,并自动固化为新的 Skill,形成"用-学-固化-再用"的正反馈。
- Skills 封装示例 :
- Excel Skill:提供数据透视、自动化计算、高级制表。
- Browser Skill:提供受控的互联网访问、模拟点击、内容提取。
- App Runtime Skill:提供代码运行环境,处理逻辑复杂的计算任务。
4. 任务全生命周期流程
从用户下达指令到结果返回,整个流程闭环如下:
| 阶段 | 动作 | 说明 | 关键点 |
|---|---|---|---|
| 1. 意图拆解 | 本地 Leader 接收指令 | 调用本地 MCP 检索必要私密背景。 | 隐私不离本地 |
| 2. 指令下达 | 通过 A2A 协议发送任务 | 向沙盒发送任务包,并按需开启虚拟 OS 实例。 | 按需冷启动 |
| 3. 工具挂载 | 沙盒 OS 启动 | 启动 Excel/Word/浏览器等 MCP Server,供员工 Agent 使用。 | Skills 实例化 |
| 4. 闭环协作 | 员工 Agent 群协同 | 在沙盒 OS 内协同:抓取数据 -> 填表计算 -> 编写文档。 | 内部 MCP 总线 |
| 5. 验收销毁 | 成果回传至本地 | Leader 验收,沙盒 OS 及其所有中间缓存彻底抹除。 | 物理安全隔离 |
示意图:

5. 核心价值 (Conclusion)
- 🛡️ 数据主权:所有的私密记忆和原始数据都在本地,沙盒只看到"加工后"的信息,降低隐私风险。
- ⚡ 安全执行:Agent 操作浏览器或运行代码时,破坏性行为被限制在即用即弃的沙盒 OS 内,不影响物理主机。
- ♾️ 可扩展:新的 MCP Server(技能包)即插即用,系统具备较强的生命力。
- 🤝 社会化分工:"领导-员工"模型模拟真实协作,提升多步骤、长链路任务的成功率。
- ⚠️ 落地挑战:需要严格的权限隔离、审计、资源配额和合规审查,跨域 A2A 协议也要求稳定的身份与密钥管理。
总结与选型建议
| 阶段 | 核心关键词 | 适合场景 | 复杂度 |
|---|---|---|---|
| Stage 1: ReAct | 工具调用 | 简单的问答助手,查询天气/数据库。 | ⭐ |
| Stage 2: Loops | 自动循环 | (实验性) 简单的自动化脚本。 | ⭐⭐ |
| Stage 3: Multi-Agent | 角色分工 | 内容生成、简单的软件开发流水线。 | ⭐⭐⭐ |
| Stage 4: Graph | 状态机、控制流 | 生产级应用。需要高可靠性、人工介入的业务流。 | ⭐⭐⭐⭐ |
| Stage 5: Deep Agents | 计算机操作、沙箱 | 辅助编程、运维自动化、复杂的数据分析。 | ⭐⭐⭐⭐⭐ |
| Stage 6: Sovereign Swarm | 联邦协同、数据主权(未来畅想) | 高安全、跨域协作、隐私敏感的企业/政府场景。 | ⭐⭐⭐⭐⭐⭐(实验/探索) |
给开发者的建议:
- 如果你在构建企业级应用,LangGraph (Stage 4) 在可控性与生产特性上相对成熟,可优先选型。
- 如果你想体验 AI 帮你写代码,尝试 Claude Code (Stage 5)。
- 不要盲目追求 Multi-Agent,很多时候一个精心设计的 ReAct Loop 或者 State Machine 就够了。
常见问题 FAQ
Q: LangGraph 和 Multi-Agent 冲突吗? A: 不冲突。LangGraph 是底层架构,你可以在 LangGraph 的节点里运行 Multi-Agent 系统。LangGraph 为多智能体协作提供了更严谨的状态管理和控制流。
Q: DeepSeek R1 这种推理模型对 Agent 有什么影响? A: 推理模型极大地增强了 Agent 的 "Planning" 能力。在 Stage 2 和 Stage 3,Agent 经常因为规划能力不足而死循环。有了强推理模型,Agent 能够进行更深度的思考(Chain of Thought),从而大大提高了复杂任务的成功率。
Q: 为什么现在大家都在谈论 "Computer Use"? A: 因为 API 是有限的,而 GUI/CLI 是无限的。让 Agent 学会使用计算机(看屏幕、敲键盘),意味着它可以使用人类现有的所有软件工具,而不需要等待开发者为每个软件开发 API。这是通向 AGI 的重要一步。
Q: Stage 6 落地的主要风险是什么? A: 关键挑战在于跨域身份与密钥管理、细粒度权限控制、合规审计,以及沙盒资源隔离/成本控制。这些基础设施不到位时,建议先在 Stage 4/5 的可控范围迭代。