Agent 通用架构入门学习

1. 先建立一个直觉：什么是 Agent

如果用最朴素的话来讲，Agent 不是"会聊天的模型"，而是"能围绕目标持续行动的系统"。

它通常不只做一次问答，而是会围绕一个目标不断循环：

理解目标
判断下一步做什么
调用工具或执行动作
观察结果
根据结果继续调整
直到完成、失败、超时，或者请求人工介入

所以，很多人会把 Agent 简化理解为：

`Agent = LLM + Planning + Memory + Tools + Control Loop`

这也是目前学习 Agent 最常见、最容易入门的一条主线。

2. Agent 和普通 Workflow 的区别

这两个概念很容易混。

Workflow

Workflow 更像"提前写好流程图"的系统。

例如：

第一步先检索知识库
第二步把结果交给模型总结
第三步输出答案

路径是开发者预先定义好的，模型只在局部参与。

Agent

Agent 更像"带一定自主性的执行系统"。

例如：

模型先判断要不要查资料
再决定调用哪个工具
发现工具结果不够，再继续追问或换一个工具
最后再组织答案

也就是说，**是否行动、调用什么、何时停止**，更多由模型在运行过程中决定。

一句话记忆：

Workflow：代码决定主流程
Agent：模型参与决定主流程

3. Agent 的通用架构

一个比较通用、也比较适合初学者理解的架构如下：

```text

用户目标 / 外部任务

任务理解与状态初始化

推理 / 规划模块

+------> 记忆系统 <------+

| |

v |

工具选择 / 动作决策 |

| |

v |

执行器 / 工具调用 / 环境交互 ----+

观察结果 / 状态更新

终止判断 / 继续循环 / 人工介入

最终输出

```

你可以把它理解成 8 个核心层。

3.1 目标层

这里负责回答两个问题：

用户到底要什么
任务完成的标准是什么

如果这个层没有定义清楚，后面就容易出现"模型一直做事，但做偏了"的问题。

初学时一定要养成一个意识：Agent 不只是接收 prompt，它还需要明确的目标、边界和停止条件。

3.2 状态层

状态是 Agent 运行的"上下文快照"。

常见状态包括：

当前任务描述
历史对话
已完成的子任务
工具调用结果
中间草稿
错误信息
当前轮次计数

很多 Agent 系统是否稳定，关键不在模型多强，而在状态设计是否清晰。

3.3 推理 / 规划层

这是 Agent 的"大脑工作区"。

常见能力有：

任务拆解
选择下一步
判断是否需要工具
判断结果是否可信
失败后重试或改路

这层不一定非要做"长规划"。很多实用 Agent 只做"局部一步规划"。

初学建议先理解两种方式：

单步决策：每轮只决定下一步做什么
先规划后执行：先列子任务，再逐步执行

3.4 记忆层

记忆一般分两类。

短期记忆

也就是当前任务上下文内的信息，例如：

当前对话
最近几轮工具调用
当前草稿

它帮助 Agent 在这一次任务里保持连贯。

长期记忆

也就是跨任务保留的信息，例如：

用户偏好
过去结论
领域知识摘要
可复用经验

长期记忆通常不会直接塞进每次 prompt，而是通过检索后按需注入。

3.5 工具层

工具层是 Agent 能"真正做事"的关键。

常见工具有：

搜索
检索知识库
调数据库
调业务 API
执行代码
读写文件
操作浏览器
调用其他 Agent

LLM 本身更像决策器，工具层才是执行能力的扩展器。

3.6 执行层

执行层负责把模型决定的动作真的跑起来。

例如：

参数校验
调用函数
处理异常
收集返回值
标准化结果格式

很多系统不是输在"不会规划"，而是输在执行层太脆弱，例如：

工具报错没有重试
参数不合法直接崩
返回结果格式不统一

3.7 观察与反馈层

Agent 不是调用完工具就结束，而是要把结果重新喂回系统。

典型反馈包括：

工具是否成功
返回了什么数据
数据质量如何
是否已经足够回答问题
是否需要进一步行动

这一步构成了 Agent 的闭环。

3.8 治理层

这层是从"能跑"走向"可上线"的关键。

通常包括：

权限控制
敏感操作审批
人工介入
日志与追踪
成本控制
超时控制
评测与回放

一个真正可用的 Agent，往往不是比谁更聪明，而是比谁更可控。

4. 单 Agent 的最小运行闭环

从工程角度看，一个最小单 Agent 往往就是下面这条循环：

```text

接收任务

-> 读取当前状态

-> 模型决定下一步

-> 如需工具则调用工具

-> 写回观察结果

-> 判断是否结束

-> 未结束则继续下一轮

```

如果你刚入门，可以把 Agent 先理解为"带工具调用能力的循环系统"。

先把这个闭环吃透，再看复杂架构会轻松很多。

5. 常见 Agent 架构模式

实际系统中，"Agent"不是只有一种长相。下面这些模式非常常见。

5.1 Router 路由型

模型先判断请求属于哪一类，再把任务送到不同处理分支。

适合场景：

客服分流
意图识别
问题类型路由

优点：

简单
稳定
成本低

缺点：

自主性较弱
更像"智能路由器"

5.2 ReAct 工具调用型

最经典的 Agent 形态之一。

模式通常是：

`Thought -> Action -> Observation -> Thought -> ... -> Final Answer`

适合场景：

搜索问答
工具组合调用
轻量任务执行

这是初学者最值得先掌握的一类。

5.3 Planner-Executor 规划执行型

先让一个模块做计划，再由另一个模块逐步执行。

常见拆法：

Planner：负责把任务拆成步骤
Executor：负责逐项执行
Replanner：执行失败时调整计划

适合场景：

研究型任务
多步骤业务流程
代码生成或文档生成

5.4 Reflection / Critic 反思校验型

执行完一轮后，再由"审查角色"判断：

结果够不够好
是否有遗漏
要不要重试

适合场景：

高质量写作
代码修复
复杂问答

本质上是用额外推理换更高质量。

5.5 Supervisor 多 Agent 调度型

上层有一个主管 Agent，负责把任务分给不同角色。

例如：

研究员 Agent 负责搜集信息
分析员 Agent 负责整理结构
写作 Agent 负责成稿
主管 Agent 负责调度和汇总

适合场景：

复杂任务分工
团队协作模拟
多角色系统

5.6 Handoff / Swarm 协作移交型

任务在多个 Agent 之间转移，谁更适合谁接手。

适合场景：

多技能协作
长流程任务
客服与专家混合场景

这种模式比"主管统一调度"更灵活，但也更难控。

6. 多 Agent 架构怎么理解

多 Agent 不一定更高级，只是把一个大问题拆给多个角色处理。

最常见的三种拓扑如下。

6.1 Supervisor 模式

```text

Supervisor

/ | \

v v v

Agent A Agent B Agent C

```

特点：

中心化调度
好管控
好加审批

适合初学者先学。

6.2 Network 模式

```text

Agent A <--> Agent B

^ |

| v

Agent D <--> Agent C

```

特点：

各 Agent 可以互相交流
更灵活
但更容易失控

6.3 Pipeline 模式

```text

研究 -> 分析 -> 写作 -> 审核

```

特点：

最接近传统生产线
好理解
工程上很常用

严格来说，这种模式有时更像"多节点工作流"，不一定是强 Agent。

7. 初学者特别容易混淆的几个点

7.1 Agent 不等于聊天机器人

聊天机器人可能只是一轮输入输出。

Agent 强调的是：

面向目标
可循环执行
能调用外部能力
能根据反馈调整行为

7.2 工具多，不代表 Agent 强

真正决定效果的往往是：

状态设计
工具选择逻辑
错误处理
停止条件

不是堆更多工具就会更好。

7.3 多 Agent 不一定优于单 Agent

多 Agent 会带来：

更多提示词维护成本
更多上下文开销
更多通信误差
更复杂的调试难度

很多任务其实单 Agent + 清晰工具链就够了。

7.4 好的 Agent 首先要可控

真实项目里最重要的不是"看起来像人"，而是：

能复现
能追踪
能评估
能限权
能失败后恢复

8. 入门学习顺序建议

如果你现在是刚接触 Agent，我建议按这个顺序学：

先理解 Agent 的基本闭环：目标、状态、工具、观察、继续/停止
再学最经典的 ReAct 模式
再看 Planner-Executor 这类两阶段架构
然后再学习记忆、长期状态和人机协同
最后再学多 Agent 拓扑，如 Supervisor、Handoff、Network

这样学不容易乱。

9. 一个适合初学者记忆的"万能模板"

以后你看到任何 Agent 框架，都可以先问这 7 个问题：

目标怎么定义
状态存在哪里
下一步由谁决定
工具怎么注册和调用
观察结果怎么回写
何时停止或升级人工
如何监控、评测和复盘

只要你能回答这 7 个问题，基本就能把一个 Agent 系统看明白八成。

10. 中文优先延伸阅读

下面这些链接我优先按"适合入门"和"中文可读性"来选。

1) 宝玉翻译：基于大语言模型的智能代理 $译$

链接：

$https://baoyu.io/translations/ai-agent/llm-powered-autonomous-agents$ (https://baoyu.io/translations/ai-agent/llm-powered-autonomous-agents)

推荐理由：

这是 Agent 入门非常经典的一篇
把 Agent 拆成 Planning、Memory、Tools 三大块，非常适合建立总框架
中文翻译质量较高，适合第一次系统阅读

2) LangChain 中文教程：Agent 架构

链接：

$https://github.langchain.ac.cn/langgraph/concepts/agentic_concepts/$ (https://github.langchain.ac.cn/langgraph/concepts/agentic_concepts/)

推荐理由：

讲清楚"让 LLM 决定控制流"是什么意思
覆盖路由、工具调用、规划、并行、人机协同等常见模式
很适合把"概念"和"架构模式"串起来

3) LangChain 中文教程：工作流和智能体

链接：

$https://github.langchain.ac.cn/langgraph/tutorials/workflows/$ (https://github.langchain.ac.cn/langgraph/tutorials/workflows/)

推荐理由：

非常适合拿来理解 Workflow 和 Agent 的边界
对初学者最容易混的概念有帮助
读完会更容易判断"什么时候该做 Agent，什么时候只是工作流"

4) LangChain 中文教程：多智能体概述

链接：

$https://github.langchain.ac.cn/langgraph/concepts/multi_agent/$ (https://github.langchain.ac.cn/langgraph/concepts/multi_agent/)

推荐理由：

适合在单 Agent 入门后继续看
对 Supervisor、Network 等多 Agent 结构有比较直观的介绍

5) Jimmy Song：使用 LangChain 构建智能体

链接：

$https://jimmysong.io/zh/book/ai-handbook/agent/langchain/$ (https://jimmysong.io/zh/book/ai-handbook/agent/langchain/)

推荐理由：

中文写作风格比较友好
把 LangGraph、Agent、状态图这些概念串得比较顺
适合已经有一点代码基础、想把概念落到框架层的人

6) Hugging Face 中文：LangGraph 的构建块

链接：

$https://hugging-face.cn/learn/agents-course/unit2/langgraph/building_blocks$ (https://hugging-face.cn/learn/agents-course/unit2/langgraph/building_blocks)

推荐理由：

偏教程风格
对状态、节点、边这些"图式 Agent"概念讲得比较清楚
如果你后面要学 LangGraph，这篇很适合补基础

11. 英文原版但非常值得收藏

如果你后面愿意顺手读英文，这几篇很值得作为"原始资料"。

1) Lilian Weng: LLM Powered Autonomous Agents

链接：

$https://lilianweng.github.io/posts/2023-06-23-agent/$ (https://lilianweng.github.io/posts/2023-06-23-agent/)

价值：

这是很多 Agent 讨论的源头文章之一
看原文有助于建立更稳的术语理解

2) AutoGen 官方文档

链接：

$https://microsoft.github.io/autogen/stable/$ (https://microsoft.github.io/autogen/stable/)

价值：

如果你对多 Agent 编排感兴趣，这套文档很有参考价值
尤其适合看多 Agent 设计模式、事件驱动、消息通信这些工程问题

12. 给你的一个实际学习路线

如果你接下来 3 到 5 天想系统入门，可以这样安排：

第 1 天

读本文件第 1 到第 5 节
再读宝玉翻译那篇

目标：

先把 Agent 的三大件和闭环建立起来

第 2 天

读 LangChain 中文教程里的"Agent 架构"
顺带看"工作流和智能体"

目标：

搞清楚 Agent 和 Workflow、Router、ReAct 之间的区别

第 3 天

读 Hugging Face 中文 LangGraph 构建块
配合 Jimmy Song 那篇文章看状态、节点、边

目标：

开始建立"图式编排"的理解

第 4 到 5 天

看多智能体概述
看 AutoGen 官方文档中的多 Agent 设计模式

目标：

理解 Supervisor、Handoff、Network 这些模式各自适合什么问题

13. 最后给初学者的结论

你可以先不要把 Agent 想得太神秘。

对入门者来说，最实用的理解方式就是：

**Agent 是一个以 LLM 为决策核心、以状态为上下文载体、以工具为执行手段、通过循环反馈逐步完成目标的系统。**

如果你先掌握下面这 4 个关键词，后续学习会顺很多：

状态
工具
控制流
反馈闭环

当你开始能用这四个词去分析一个框架时，你就已经真正进入 Agent 学习状态了。

Agent 通用架构入门学习

1. 先建立一个直觉：什么是 Agent

2. Agent 和普通 Workflow 的区别

Workflow

Agent

3. Agent 的通用架构

3.1 目标层

3.2 状态层

3.3 推理 / 规划层

3.4 记忆层

短期记忆

长期记忆

3.5 工具层

3.6 执行层

3.7 观察与反馈层

3.8 治理层

4. 单 Agent 的最小运行闭环

5. 常见 Agent 架构模式

5.1 Router 路由型

5.2 ReAct 工具调用型

5.3 Planner-Executor 规划执行型

5.4 Reflection / Critic 反思校验型

5.5 Supervisor 多 Agent 调度型

5.6 Handoff / Swarm 协作移交型

6. 多 Agent 架构怎么理解

6.1 Supervisor 模式

6.2 Network 模式

6.3 Pipeline 模式

7. 初学者特别容易混淆的几个点

7.1 Agent 不等于聊天机器人

7.2 工具多，不代表 Agent 强

7.3 多 Agent 不一定优于单 Agent

7.4 好的 Agent 首先要可控

8. 入门学习顺序建议

9. 一个适合初学者记忆的"万能模板"

10. 中文优先延伸阅读

1) 宝玉翻译：基于大语言模型的智能代理译

2) LangChain 中文教程：Agent 架构

3) LangChain 中文教程：工作流和智能体

4) LangChain 中文教程：多智能体概述

5) Jimmy Song：使用 LangChain 构建智能体

6) Hugging Face 中文：LangGraph 的构建块

11. 英文原版但非常值得收藏

1) Lilian Weng: LLM Powered Autonomous Agents

2) AutoGen 官方文档

12. 给你的一个实际学习路线

第 1 天

第 2 天

第 3 天

第 4 到 5 天

13. 最后给初学者的结论

1) 宝玉翻译：基于大语言模型的智能代理 $译$