Agent 通用架构入门学习

1. 先建立一个直觉:什么是 Agent

如果用最朴素的话来讲,Agent 不是"会聊天的模型",而是"能围绕目标持续行动的系统"。

它通常不只做一次问答,而是会围绕一个目标不断循环:

  1. 理解目标

  2. 判断下一步做什么

  3. 调用工具或执行动作

  4. 观察结果

  5. 根据结果继续调整

  6. 直到完成、失败、超时,或者请求人工介入

所以,很多人会把 Agent 简化理解为:

`Agent = LLM + Planning + Memory + Tools + Control Loop`

这也是目前学习 Agent 最常见、最容易入门的一条主线。

2. Agent 和普通 Workflow 的区别

这两个概念很容易混。

Workflow

Workflow 更像"提前写好流程图"的系统。

例如:

  • 第一步先检索知识库

  • 第二步把结果交给模型总结

  • 第三步输出答案

路径是开发者预先定义好的,模型只在局部参与。

Agent

Agent 更像"带一定自主性的执行系统"。

例如:

  • 模型先判断要不要查资料

  • 再决定调用哪个工具

  • 发现工具结果不够,再继续追问或换一个工具

  • 最后再组织答案

也就是说,**是否行动、调用什么、何时停止**,更多由模型在运行过程中决定。

一句话记忆:

  • Workflow:代码决定主流程

  • Agent:模型参与决定主流程

3. Agent 的通用架构

一个比较通用、也比较适合初学者理解的架构如下:

```text

用户目标 / 外部任务

|

v

任务理解与状态初始化

|

v

推理 / 规划模块

|

+------> 记忆系统 <------+

| |

v |

工具选择 / 动作决策 |

| |

v |

执行器 / 工具调用 / 环境交互 ----+

|

v

观察结果 / 状态更新

|

v

终止判断 / 继续循环 / 人工介入

|

v

最终输出

```

你可以把它理解成 8 个核心层。

3.1 目标层

这里负责回答两个问题:

  • 用户到底要什么

  • 任务完成的标准是什么

如果这个层没有定义清楚,后面就容易出现"模型一直做事,但做偏了"的问题。

初学时一定要养成一个意识:Agent 不只是接收 prompt,它还需要明确的目标、边界和停止条件。

3.2 状态层

状态是 Agent 运行的"上下文快照"。

常见状态包括:

  • 当前任务描述

  • 历史对话

  • 已完成的子任务

  • 工具调用结果

  • 中间草稿

  • 错误信息

  • 当前轮次计数

很多 Agent 系统是否稳定,关键不在模型多强,而在状态设计是否清晰。

3.3 推理 / 规划层

这是 Agent 的"大脑工作区"。

常见能力有:

  • 任务拆解

  • 选择下一步

  • 判断是否需要工具

  • 判断结果是否可信

  • 失败后重试或改路

这层不一定非要做"长规划"。很多实用 Agent 只做"局部一步规划"。

初学建议先理解两种方式:

  • 单步决策:每轮只决定下一步做什么

  • 先规划后执行:先列子任务,再逐步执行

3.4 记忆层

记忆一般分两类。

短期记忆

也就是当前任务上下文内的信息,例如:

  • 当前对话

  • 最近几轮工具调用

  • 当前草稿

它帮助 Agent 在这一次任务里保持连贯。

长期记忆

也就是跨任务保留的信息,例如:

  • 用户偏好

  • 过去结论

  • 领域知识摘要

  • 可复用经验

长期记忆通常不会直接塞进每次 prompt,而是通过检索后按需注入。

3.5 工具层

工具层是 Agent 能"真正做事"的关键。

常见工具有:

  • 搜索

  • 检索知识库

  • 调数据库

  • 调业务 API

  • 执行代码

  • 读写文件

  • 操作浏览器

  • 调用其他 Agent

LLM 本身更像决策器,工具层才是执行能力的扩展器。

3.6 执行层

执行层负责把模型决定的动作真的跑起来。

例如:

  • 参数校验

  • 调用函数

  • 处理异常

  • 收集返回值

  • 标准化结果格式

很多系统不是输在"不会规划",而是输在执行层太脆弱,例如:

  • 工具报错没有重试

  • 参数不合法直接崩

  • 返回结果格式不统一

3.7 观察与反馈层

Agent 不是调用完工具就结束,而是要把结果重新喂回系统。

典型反馈包括:

  • 工具是否成功

  • 返回了什么数据

  • 数据质量如何

  • 是否已经足够回答问题

  • 是否需要进一步行动

这一步构成了 Agent 的闭环。

3.8 治理层

这层是从"能跑"走向"可上线"的关键。

通常包括:

  • 权限控制

  • 敏感操作审批

  • 人工介入

  • 日志与追踪

  • 成本控制

  • 超时控制

  • 评测与回放

一个真正可用的 Agent,往往不是比谁更聪明,而是比谁更可控。

4. 单 Agent 的最小运行闭环

从工程角度看,一个最小单 Agent 往往就是下面这条循环:

```text

接收任务

-> 读取当前状态

-> 模型决定下一步

-> 如需工具则调用工具

-> 写回观察结果

-> 判断是否结束

-> 未结束则继续下一轮

```

如果你刚入门,可以把 Agent 先理解为"带工具调用能力的循环系统"。

先把这个闭环吃透,再看复杂架构会轻松很多。

5. 常见 Agent 架构模式

实际系统中,"Agent"不是只有一种长相。下面这些模式非常常见。

5.1 Router 路由型

模型先判断请求属于哪一类,再把任务送到不同处理分支。

适合场景:

  • 客服分流

  • 意图识别

  • 问题类型路由

优点:

  • 简单

  • 稳定

  • 成本低

缺点:

  • 自主性较弱

  • 更像"智能路由器"

5.2 ReAct 工具调用型

最经典的 Agent 形态之一。

模式通常是:

`Thought -> Action -> Observation -> Thought -> ... -> Final Answer`

适合场景:

  • 搜索问答

  • 工具组合调用

  • 轻量任务执行

这是初学者最值得先掌握的一类。

5.3 Planner-Executor 规划执行型

先让一个模块做计划,再由另一个模块逐步执行。

常见拆法:

  • Planner:负责把任务拆成步骤

  • Executor:负责逐项执行

  • Replanner:执行失败时调整计划

适合场景:

  • 研究型任务

  • 多步骤业务流程

  • 代码生成或文档生成

5.4 Reflection / Critic 反思校验型

执行完一轮后,再由"审查角色"判断:

  • 结果够不够好

  • 是否有遗漏

  • 要不要重试

适合场景:

  • 高质量写作

  • 代码修复

  • 复杂问答

本质上是用额外推理换更高质量。

5.5 Supervisor 多 Agent 调度型

上层有一个主管 Agent,负责把任务分给不同角色。

例如:

  • 研究员 Agent 负责搜集信息

  • 分析员 Agent 负责整理结构

  • 写作 Agent 负责成稿

  • 主管 Agent 负责调度和汇总

适合场景:

  • 复杂任务分工

  • 团队协作模拟

  • 多角色系统

5.6 Handoff / Swarm 协作移交型

任务在多个 Agent 之间转移,谁更适合谁接手。

适合场景:

  • 多技能协作

  • 长流程任务

  • 客服与专家混合场景

这种模式比"主管统一调度"更灵活,但也更难控。

6. 多 Agent 架构怎么理解

多 Agent 不一定更高级,只是把一个大问题拆给多个角色处理。

最常见的三种拓扑如下。

6.1 Supervisor 模式

```text

Supervisor

/ | \

v v v

Agent A Agent B Agent C

```

特点:

  • 中心化调度

  • 好管控

  • 好加审批

适合初学者先学。

6.2 Network 模式

```text

Agent A <--> Agent B

^ |

| v

Agent D <--> Agent C

```

特点:

  • 各 Agent 可以互相交流

  • 更灵活

  • 但更容易失控

6.3 Pipeline 模式

```text

研究 -> 分析 -> 写作 -> 审核

```

特点:

  • 最接近传统生产线

  • 好理解

  • 工程上很常用

严格来说,这种模式有时更像"多节点工作流",不一定是强 Agent。

7. 初学者特别容易混淆的几个点

7.1 Agent 不等于聊天机器人

聊天机器人可能只是一轮输入输出。

Agent 强调的是:

  • 面向目标

  • 可循环执行

  • 能调用外部能力

  • 能根据反馈调整行为

7.2 工具多,不代表 Agent 强

真正决定效果的往往是:

  • 状态设计

  • 工具选择逻辑

  • 错误处理

  • 停止条件

不是堆更多工具就会更好。

7.3 多 Agent 不一定优于单 Agent

多 Agent 会带来:

  • 更多提示词维护成本

  • 更多上下文开销

  • 更多通信误差

  • 更复杂的调试难度

很多任务其实单 Agent + 清晰工具链就够了。

7.4 好的 Agent 首先要可控

真实项目里最重要的不是"看起来像人",而是:

  • 能复现

  • 能追踪

  • 能评估

  • 能限权

  • 能失败后恢复

8. 入门学习顺序建议

如果你现在是刚接触 Agent,我建议按这个顺序学:

  1. 先理解 Agent 的基本闭环:目标、状态、工具、观察、继续/停止

  2. 再学最经典的 ReAct 模式

  3. 再看 Planner-Executor 这类两阶段架构

  4. 然后再学习记忆、长期状态和人机协同

  5. 最后再学多 Agent 拓扑,如 Supervisor、Handoff、Network

这样学不容易乱。

9. 一个适合初学者记忆的"万能模板"

以后你看到任何 Agent 框架,都可以先问这 7 个问题:

  1. 目标怎么定义

  2. 状态存在哪里

  3. 下一步由谁决定

  4. 工具怎么注册和调用

  5. 观察结果怎么回写

  6. 何时停止或升级人工

  7. 如何监控、评测和复盘

只要你能回答这 7 个问题,基本就能把一个 Agent 系统看明白八成。

10. 中文优先延伸阅读

下面这些链接我优先按"适合入门"和"中文可读性"来选。

1) 宝玉翻译:基于大语言模型的智能代理

链接:

https://baoyu.io/translations/ai-agent/llm-powered-autonomous-agents(https://baoyu.io/translations/ai-agent/llm-powered-autonomous-agents)

推荐理由:

  • 这是 Agent 入门非常经典的一篇

  • 把 Agent 拆成 Planning、Memory、Tools 三大块,非常适合建立总框架

  • 中文翻译质量较高,适合第一次系统阅读

2) LangChain 中文教程:Agent 架构

链接:

https://github.langchain.ac.cn/langgraph/concepts/agentic_concepts/(https://github.langchain.ac.cn/langgraph/concepts/agentic_concepts/)

推荐理由:

  • 讲清楚"让 LLM 决定控制流"是什么意思

  • 覆盖路由、工具调用、规划、并行、人机协同等常见模式

  • 很适合把"概念"和"架构模式"串起来

3) LangChain 中文教程:工作流和智能体

链接:

https://github.langchain.ac.cn/langgraph/tutorials/workflows/(https://github.langchain.ac.cn/langgraph/tutorials/workflows/)

推荐理由:

  • 非常适合拿来理解 Workflow 和 Agent 的边界

  • 对初学者最容易混的概念有帮助

  • 读完会更容易判断"什么时候该做 Agent,什么时候只是工作流"

4) LangChain 中文教程:多智能体概述

链接:

https://github.langchain.ac.cn/langgraph/concepts/multi_agent/(https://github.langchain.ac.cn/langgraph/concepts/multi_agent/)

推荐理由:

  • 适合在单 Agent 入门后继续看

  • 对 Supervisor、Network 等多 Agent 结构有比较直观的介绍

5) Jimmy Song:使用 LangChain 构建智能体

链接:

https://jimmysong.io/zh/book/ai-handbook/agent/langchain/(https://jimmysong.io/zh/book/ai-handbook/agent/langchain/)

推荐理由:

  • 中文写作风格比较友好

  • 把 LangGraph、Agent、状态图这些概念串得比较顺

  • 适合已经有一点代码基础、想把概念落到框架层的人

6) Hugging Face 中文:LangGraph 的构建块

链接:

https://hugging-face.cn/learn/agents-course/unit2/langgraph/building_blocks(https://hugging-face.cn/learn/agents-course/unit2/langgraph/building_blocks)

推荐理由:

  • 偏教程风格

  • 对状态、节点、边这些"图式 Agent"概念讲得比较清楚

  • 如果你后面要学 LangGraph,这篇很适合补基础

11. 英文原版但非常值得收藏

如果你后面愿意顺手读英文,这几篇很值得作为"原始资料"。

1) Lilian Weng: LLM Powered Autonomous Agents

链接:

https://lilianweng.github.io/posts/2023-06-23-agent/(https://lilianweng.github.io/posts/2023-06-23-agent/)

价值:

  • 这是很多 Agent 讨论的源头文章之一

  • 看原文有助于建立更稳的术语理解

2) AutoGen 官方文档

链接:

https://microsoft.github.io/autogen/stable/(https://microsoft.github.io/autogen/stable/)

价值:

  • 如果你对多 Agent 编排感兴趣,这套文档很有参考价值

  • 尤其适合看多 Agent 设计模式、事件驱动、消息通信这些工程问题

12. 给你的一个实际学习路线

如果你接下来 3 到 5 天想系统入门,可以这样安排:

第 1 天

  • 读本文件第 1 到第 5 节

  • 再读宝玉翻译那篇

目标:

先把 Agent 的三大件和闭环建立起来

第 2 天

  • 读 LangChain 中文教程里的"Agent 架构"

  • 顺带看"工作流和智能体"

目标:

搞清楚 Agent 和 Workflow、Router、ReAct 之间的区别

第 3 天

  • 读 Hugging Face 中文 LangGraph 构建块

  • 配合 Jimmy Song 那篇文章看状态、节点、边

目标:

开始建立"图式编排"的理解

第 4 到 5 天

  • 看多智能体概述

  • 看 AutoGen 官方文档中的多 Agent 设计模式

目标:

理解 Supervisor、Handoff、Network 这些模式各自适合什么问题

13. 最后给初学者的结论

你可以先不要把 Agent 想得太神秘。

对入门者来说,最实用的理解方式就是:

**Agent 是一个以 LLM 为决策核心、以状态为上下文载体、以工具为执行手段、通过循环反馈逐步完成目标的系统。**

如果你先掌握下面这 4 个关键词,后续学习会顺很多:

  • 状态

  • 工具

  • 控制流

  • 反馈闭环

当你开始能用这四个词去分析一个框架时,你就已经真正进入 Agent 学习状态了。

相关推荐
土拨鼠烧电路14 小时前
第4章:寄生虫时代——当AI学会呼吸
人工智能·microsoft
bylander14 小时前
【技术调研】华为《智能世界2035》白皮书调研报告
人工智能·华为
jimmyleeee14 小时前
人工智能基础知识笔记四十一:Claude 成本节约完全指南:从计费机制到工具实战
人工智能·笔记
周杰伦fans14 小时前
CSDN AI 数字营销全流程体验记录
人工智能
探物 AI14 小时前
Mamba 会替代 Transformer 成为 AI 的下一代底层模型吗?
人工智能·深度学习·transformer
Wonderful U14 小时前
AI智能日志异常检测告警平台:告别人工排查,秒级定位线上故障
数据库·人工智能·python·django
Deepoch14 小时前
Deepoc数学大模型:驱动发动机行业数智化转型的底层解
人工智能·算法·deepoc·数学大模型
MY_TEUCK14 小时前
【MYTRUCK - AI 应用】MetaGPT 0.8.2 安装与排错完整实录(Python 3.10 + 虚拟环境)
开发语言·人工智能·python·ai
圣殿骑士-Khtangc14 小时前
2026年5月大模型选型指南:15+主流模型全维度对比(含最新Gemini 3.5 & Qwen3.7)
人工智能
my烂笔头14 小时前
cursor添加deepseek模型
人工智能·ai