1. 先建立一个直觉:什么是 Agent
如果用最朴素的话来讲,Agent 不是"会聊天的模型",而是"能围绕目标持续行动的系统"。
它通常不只做一次问答,而是会围绕一个目标不断循环:
-
理解目标
-
判断下一步做什么
-
调用工具或执行动作
-
观察结果
-
根据结果继续调整
-
直到完成、失败、超时,或者请求人工介入
所以,很多人会把 Agent 简化理解为:
`Agent = LLM + Planning + Memory + Tools + Control Loop`
这也是目前学习 Agent 最常见、最容易入门的一条主线。
2. Agent 和普通 Workflow 的区别
这两个概念很容易混。
Workflow
Workflow 更像"提前写好流程图"的系统。
例如:
-
第一步先检索知识库
-
第二步把结果交给模型总结
-
第三步输出答案
路径是开发者预先定义好的,模型只在局部参与。
Agent
Agent 更像"带一定自主性的执行系统"。
例如:
-
模型先判断要不要查资料
-
再决定调用哪个工具
-
发现工具结果不够,再继续追问或换一个工具
-
最后再组织答案
也就是说,**是否行动、调用什么、何时停止**,更多由模型在运行过程中决定。
一句话记忆:
-
Workflow:代码决定主流程
-
Agent:模型参与决定主流程
3. Agent 的通用架构
一个比较通用、也比较适合初学者理解的架构如下:
```text
用户目标 / 外部任务
|
v
任务理解与状态初始化
|
v
推理 / 规划模块
|
+------> 记忆系统 <------+
| |
v |
工具选择 / 动作决策 |
| |
v |
执行器 / 工具调用 / 环境交互 ----+
|
v
观察结果 / 状态更新
|
v
终止判断 / 继续循环 / 人工介入
|
v
最终输出
```
你可以把它理解成 8 个核心层。
3.1 目标层
这里负责回答两个问题:
-
用户到底要什么
-
任务完成的标准是什么
如果这个层没有定义清楚,后面就容易出现"模型一直做事,但做偏了"的问题。
初学时一定要养成一个意识:Agent 不只是接收 prompt,它还需要明确的目标、边界和停止条件。
3.2 状态层
状态是 Agent 运行的"上下文快照"。
常见状态包括:
-
当前任务描述
-
历史对话
-
已完成的子任务
-
工具调用结果
-
中间草稿
-
错误信息
-
当前轮次计数
很多 Agent 系统是否稳定,关键不在模型多强,而在状态设计是否清晰。
3.3 推理 / 规划层
这是 Agent 的"大脑工作区"。
常见能力有:
-
任务拆解
-
选择下一步
-
判断是否需要工具
-
判断结果是否可信
-
失败后重试或改路
这层不一定非要做"长规划"。很多实用 Agent 只做"局部一步规划"。
初学建议先理解两种方式:
-
单步决策:每轮只决定下一步做什么
-
先规划后执行:先列子任务,再逐步执行
3.4 记忆层
记忆一般分两类。
短期记忆
也就是当前任务上下文内的信息,例如:
-
当前对话
-
最近几轮工具调用
-
当前草稿
它帮助 Agent 在这一次任务里保持连贯。
长期记忆
也就是跨任务保留的信息,例如:
-
用户偏好
-
过去结论
-
领域知识摘要
-
可复用经验
长期记忆通常不会直接塞进每次 prompt,而是通过检索后按需注入。
3.5 工具层
工具层是 Agent 能"真正做事"的关键。
常见工具有:
-
搜索
-
检索知识库
-
调数据库
-
调业务 API
-
执行代码
-
读写文件
-
操作浏览器
-
调用其他 Agent
LLM 本身更像决策器,工具层才是执行能力的扩展器。
3.6 执行层
执行层负责把模型决定的动作真的跑起来。
例如:
-
参数校验
-
调用函数
-
处理异常
-
收集返回值
-
标准化结果格式
很多系统不是输在"不会规划",而是输在执行层太脆弱,例如:
-
工具报错没有重试
-
参数不合法直接崩
-
返回结果格式不统一
3.7 观察与反馈层
Agent 不是调用完工具就结束,而是要把结果重新喂回系统。
典型反馈包括:
-
工具是否成功
-
返回了什么数据
-
数据质量如何
-
是否已经足够回答问题
-
是否需要进一步行动
这一步构成了 Agent 的闭环。
3.8 治理层
这层是从"能跑"走向"可上线"的关键。
通常包括:
-
权限控制
-
敏感操作审批
-
人工介入
-
日志与追踪
-
成本控制
-
超时控制
-
评测与回放
一个真正可用的 Agent,往往不是比谁更聪明,而是比谁更可控。
4. 单 Agent 的最小运行闭环
从工程角度看,一个最小单 Agent 往往就是下面这条循环:
```text
接收任务
-> 读取当前状态
-> 模型决定下一步
-> 如需工具则调用工具
-> 写回观察结果
-> 判断是否结束
-> 未结束则继续下一轮
```
如果你刚入门,可以把 Agent 先理解为"带工具调用能力的循环系统"。
先把这个闭环吃透,再看复杂架构会轻松很多。
5. 常见 Agent 架构模式
实际系统中,"Agent"不是只有一种长相。下面这些模式非常常见。
5.1 Router 路由型
模型先判断请求属于哪一类,再把任务送到不同处理分支。
适合场景:
-
客服分流
-
意图识别
-
问题类型路由
优点:
-
简单
-
稳定
-
成本低
缺点:
-
自主性较弱
-
更像"智能路由器"
5.2 ReAct 工具调用型
最经典的 Agent 形态之一。
模式通常是:
`Thought -> Action -> Observation -> Thought -> ... -> Final Answer`
适合场景:
-
搜索问答
-
工具组合调用
-
轻量任务执行
这是初学者最值得先掌握的一类。
5.3 Planner-Executor 规划执行型
先让一个模块做计划,再由另一个模块逐步执行。
常见拆法:
-
Planner:负责把任务拆成步骤
-
Executor:负责逐项执行
-
Replanner:执行失败时调整计划
适合场景:
-
研究型任务
-
多步骤业务流程
-
代码生成或文档生成
5.4 Reflection / Critic 反思校验型
执行完一轮后,再由"审查角色"判断:
-
结果够不够好
-
是否有遗漏
-
要不要重试
适合场景:
-
高质量写作
-
代码修复
-
复杂问答
本质上是用额外推理换更高质量。
5.5 Supervisor 多 Agent 调度型
上层有一个主管 Agent,负责把任务分给不同角色。
例如:
-
研究员 Agent 负责搜集信息
-
分析员 Agent 负责整理结构
-
写作 Agent 负责成稿
-
主管 Agent 负责调度和汇总
适合场景:
-
复杂任务分工
-
团队协作模拟
-
多角色系统
5.6 Handoff / Swarm 协作移交型
任务在多个 Agent 之间转移,谁更适合谁接手。
适合场景:
-
多技能协作
-
长流程任务
-
客服与专家混合场景
这种模式比"主管统一调度"更灵活,但也更难控。
6. 多 Agent 架构怎么理解
多 Agent 不一定更高级,只是把一个大问题拆给多个角色处理。
最常见的三种拓扑如下。
6.1 Supervisor 模式
```text
Supervisor
/ | \
v v v
Agent A Agent B Agent C
```
特点:
-
中心化调度
-
好管控
-
好加审批
适合初学者先学。
6.2 Network 模式
```text
Agent A <--> Agent B
^ |
| v
Agent D <--> Agent C
```
特点:
-
各 Agent 可以互相交流
-
更灵活
-
但更容易失控
6.3 Pipeline 模式
```text
研究 -> 分析 -> 写作 -> 审核
```
特点:
-
最接近传统生产线
-
好理解
-
工程上很常用
严格来说,这种模式有时更像"多节点工作流",不一定是强 Agent。
7. 初学者特别容易混淆的几个点
7.1 Agent 不等于聊天机器人
聊天机器人可能只是一轮输入输出。
Agent 强调的是:
-
面向目标
-
可循环执行
-
能调用外部能力
-
能根据反馈调整行为
7.2 工具多,不代表 Agent 强
真正决定效果的往往是:
-
状态设计
-
工具选择逻辑
-
错误处理
-
停止条件
不是堆更多工具就会更好。
7.3 多 Agent 不一定优于单 Agent
多 Agent 会带来:
-
更多提示词维护成本
-
更多上下文开销
-
更多通信误差
-
更复杂的调试难度
很多任务其实单 Agent + 清晰工具链就够了。
7.4 好的 Agent 首先要可控
真实项目里最重要的不是"看起来像人",而是:
-
能复现
-
能追踪
-
能评估
-
能限权
-
能失败后恢复
8. 入门学习顺序建议
如果你现在是刚接触 Agent,我建议按这个顺序学:
-
先理解 Agent 的基本闭环:目标、状态、工具、观察、继续/停止
-
再学最经典的 ReAct 模式
-
再看 Planner-Executor 这类两阶段架构
-
然后再学习记忆、长期状态和人机协同
-
最后再学多 Agent 拓扑,如 Supervisor、Handoff、Network
这样学不容易乱。
9. 一个适合初学者记忆的"万能模板"
以后你看到任何 Agent 框架,都可以先问这 7 个问题:
-
目标怎么定义
-
状态存在哪里
-
下一步由谁决定
-
工具怎么注册和调用
-
观察结果怎么回写
-
何时停止或升级人工
-
如何监控、评测和复盘
只要你能回答这 7 个问题,基本就能把一个 Agent 系统看明白八成。
10. 中文优先延伸阅读
下面这些链接我优先按"适合入门"和"中文可读性"来选。
1) 宝玉翻译:基于大语言模型的智能代理[译]
链接:
https://baoyu.io/translations/ai-agent/llm-powered-autonomous-agents\](https://baoyu.io/translations/ai-agent/llm-powered-autonomous-agents) 推荐理由: - 这是 Agent 入门非常经典的一篇 - 把 Agent 拆成 Planning、Memory、Tools 三大块,非常适合建立总框架 - 中文翻译质量较高,适合第一次系统阅读 ### 2) LangChain 中文教程:Agent 架构 链接: \[https://github.langchain.ac.cn/langgraph/concepts/agentic_concepts/\](https://github.langchain.ac.cn/langgraph/concepts/agentic_concepts/) 推荐理由: - 讲清楚"让 LLM 决定控制流"是什么意思 - 覆盖路由、工具调用、规划、并行、人机协同等常见模式 - 很适合把"概念"和"架构模式"串起来 ### 3) LangChain 中文教程:工作流和智能体 链接: \[https://github.langchain.ac.cn/langgraph/tutorials/workflows/\](https://github.langchain.ac.cn/langgraph/tutorials/workflows/) 推荐理由: - 非常适合拿来理解 Workflow 和 Agent 的边界 - 对初学者最容易混的概念有帮助 - 读完会更容易判断"什么时候该做 Agent,什么时候只是工作流" ### 4) LangChain 中文教程:多智能体概述 链接: \[https://github.langchain.ac.cn/langgraph/concepts/multi_agent/\](https://github.langchain.ac.cn/langgraph/concepts/multi_agent/) 推荐理由: - 适合在单 Agent 入门后继续看 - 对 Supervisor、Network 等多 Agent 结构有比较直观的介绍 ### 5) Jimmy Song:使用 LangChain 构建智能体 链接: \[https://jimmysong.io/zh/book/ai-handbook/agent/langchain/\](https://jimmysong.io/zh/book/ai-handbook/agent/langchain/) 推荐理由: - 中文写作风格比较友好 - 把 LangGraph、Agent、状态图这些概念串得比较顺 - 适合已经有一点代码基础、想把概念落到框架层的人 ### 6) Hugging Face 中文:LangGraph 的构建块 链接: \[https://hugging-face.cn/learn/agents-course/unit2/langgraph/building_blocks\](https://hugging-face.cn/learn/agents-course/unit2/langgraph/building_blocks) 推荐理由: - 偏教程风格 - 对状态、节点、边这些"图式 Agent"概念讲得比较清楚 - 如果你后面要学 LangGraph,这篇很适合补基础 ## 11. 英文原版但非常值得收藏 如果你后面愿意顺手读英文,这几篇很值得作为"原始资料"。 ### 1) Lilian Weng: LLM Powered Autonomous Agents 链接: \[https://lilianweng.github.io/posts/2023-06-23-agent/\](https://lilianweng.github.io/posts/2023-06-23-agent/) 价值: - 这是很多 Agent 讨论的源头文章之一 - 看原文有助于建立更稳的术语理解 ### 2) AutoGen 官方文档 链接: \[https://microsoft.github.io/autogen/stable/\](https://microsoft.github.io/autogen/stable/) 价值: - 如果你对多 Agent 编排感兴趣,这套文档很有参考价值 - 尤其适合看多 Agent 设计模式、事件驱动、消息通信这些工程问题 ## 12. 给你的一个实际学习路线 如果你接下来 3 到 5 天想系统入门,可以这样安排: ### 第 1 天 - 读本文件第 1 到第 5 节 - 再读宝玉翻译那篇 目标: 先把 Agent 的三大件和闭环建立起来 ### 第 2 天 - 读 LangChain 中文教程里的"Agent 架构" - 顺带看"工作流和智能体" 目标: 搞清楚 Agent 和 Workflow、Router、ReAct 之间的区别 ### 第 3 天 - 读 Hugging Face 中文 LangGraph 构建块 - 配合 Jimmy Song 那篇文章看状态、节点、边 目标: 开始建立"图式编排"的理解 ### 第 4 到 5 天 - 看多智能体概述 - 看 AutoGen 官方文档中的多 Agent 设计模式 目标: 理解 Supervisor、Handoff、Network 这些模式各自适合什么问题 ## 13. 最后给初学者的结论 你可以先不要把 Agent 想得太神秘。 对入门者来说,最实用的理解方式就是: \*\*Agent 是一个以 LLM 为决策核心、以状态为上下文载体、以工具为执行手段、通过循环反馈逐步完成目标的系统。\*\* 如果你先掌握下面这 4 个关键词,后续学习会顺很多: - 状态 - 工具 - 控制流 - 反馈闭环 当你开始能用这四个词去分析一个框架时,你就已经真正进入 Agent 学习状态了。