Agent 通用架构入门学习

1. 先建立一个直觉:什么是 Agent

如果用最朴素的话来讲,Agent 不是"会聊天的模型",而是"能围绕目标持续行动的系统"。

它通常不只做一次问答,而是会围绕一个目标不断循环:

  1. 理解目标

  2. 判断下一步做什么

  3. 调用工具或执行动作

  4. 观察结果

  5. 根据结果继续调整

  6. 直到完成、失败、超时,或者请求人工介入

所以,很多人会把 Agent 简化理解为:

`Agent = LLM + Planning + Memory + Tools + Control Loop`

这也是目前学习 Agent 最常见、最容易入门的一条主线。

2. Agent 和普通 Workflow 的区别

这两个概念很容易混。

Workflow

Workflow 更像"提前写好流程图"的系统。

例如:

  • 第一步先检索知识库

  • 第二步把结果交给模型总结

  • 第三步输出答案

路径是开发者预先定义好的,模型只在局部参与。

Agent

Agent 更像"带一定自主性的执行系统"。

例如:

  • 模型先判断要不要查资料

  • 再决定调用哪个工具

  • 发现工具结果不够,再继续追问或换一个工具

  • 最后再组织答案

也就是说,**是否行动、调用什么、何时停止**,更多由模型在运行过程中决定。

一句话记忆:

  • Workflow:代码决定主流程

  • Agent:模型参与决定主流程

3. Agent 的通用架构

一个比较通用、也比较适合初学者理解的架构如下:

```text

用户目标 / 外部任务

|

v

任务理解与状态初始化

|

v

推理 / 规划模块

|

+------> 记忆系统 <------+

| |

v |

工具选择 / 动作决策 |

| |

v |

执行器 / 工具调用 / 环境交互 ----+

|

v

观察结果 / 状态更新

|

v

终止判断 / 继续循环 / 人工介入

|

v

最终输出

```

你可以把它理解成 8 个核心层。

3.1 目标层

这里负责回答两个问题:

  • 用户到底要什么

  • 任务完成的标准是什么

如果这个层没有定义清楚,后面就容易出现"模型一直做事,但做偏了"的问题。

初学时一定要养成一个意识:Agent 不只是接收 prompt,它还需要明确的目标、边界和停止条件。

3.2 状态层

状态是 Agent 运行的"上下文快照"。

常见状态包括:

  • 当前任务描述

  • 历史对话

  • 已完成的子任务

  • 工具调用结果

  • 中间草稿

  • 错误信息

  • 当前轮次计数

很多 Agent 系统是否稳定,关键不在模型多强,而在状态设计是否清晰。

3.3 推理 / 规划层

这是 Agent 的"大脑工作区"。

常见能力有:

  • 任务拆解

  • 选择下一步

  • 判断是否需要工具

  • 判断结果是否可信

  • 失败后重试或改路

这层不一定非要做"长规划"。很多实用 Agent 只做"局部一步规划"。

初学建议先理解两种方式:

  • 单步决策:每轮只决定下一步做什么

  • 先规划后执行:先列子任务,再逐步执行

3.4 记忆层

记忆一般分两类。

短期记忆

也就是当前任务上下文内的信息,例如:

  • 当前对话

  • 最近几轮工具调用

  • 当前草稿

它帮助 Agent 在这一次任务里保持连贯。

长期记忆

也就是跨任务保留的信息,例如:

  • 用户偏好

  • 过去结论

  • 领域知识摘要

  • 可复用经验

长期记忆通常不会直接塞进每次 prompt,而是通过检索后按需注入。

3.5 工具层

工具层是 Agent 能"真正做事"的关键。

常见工具有:

  • 搜索

  • 检索知识库

  • 调数据库

  • 调业务 API

  • 执行代码

  • 读写文件

  • 操作浏览器

  • 调用其他 Agent

LLM 本身更像决策器,工具层才是执行能力的扩展器。

3.6 执行层

执行层负责把模型决定的动作真的跑起来。

例如:

  • 参数校验

  • 调用函数

  • 处理异常

  • 收集返回值

  • 标准化结果格式

很多系统不是输在"不会规划",而是输在执行层太脆弱,例如:

  • 工具报错没有重试

  • 参数不合法直接崩

  • 返回结果格式不统一

3.7 观察与反馈层

Agent 不是调用完工具就结束,而是要把结果重新喂回系统。

典型反馈包括:

  • 工具是否成功

  • 返回了什么数据

  • 数据质量如何

  • 是否已经足够回答问题

  • 是否需要进一步行动

这一步构成了 Agent 的闭环。

3.8 治理层

这层是从"能跑"走向"可上线"的关键。

通常包括:

  • 权限控制

  • 敏感操作审批

  • 人工介入

  • 日志与追踪

  • 成本控制

  • 超时控制

  • 评测与回放

一个真正可用的 Agent,往往不是比谁更聪明,而是比谁更可控。

4. 单 Agent 的最小运行闭环

从工程角度看,一个最小单 Agent 往往就是下面这条循环:

```text

接收任务

-> 读取当前状态

-> 模型决定下一步

-> 如需工具则调用工具

-> 写回观察结果

-> 判断是否结束

-> 未结束则继续下一轮

```

如果你刚入门,可以把 Agent 先理解为"带工具调用能力的循环系统"。

先把这个闭环吃透,再看复杂架构会轻松很多。

5. 常见 Agent 架构模式

实际系统中,"Agent"不是只有一种长相。下面这些模式非常常见。

5.1 Router 路由型

模型先判断请求属于哪一类,再把任务送到不同处理分支。

适合场景:

  • 客服分流

  • 意图识别

  • 问题类型路由

优点:

  • 简单

  • 稳定

  • 成本低

缺点:

  • 自主性较弱

  • 更像"智能路由器"

5.2 ReAct 工具调用型

最经典的 Agent 形态之一。

模式通常是:

`Thought -> Action -> Observation -> Thought -> ... -> Final Answer`

适合场景:

  • 搜索问答

  • 工具组合调用

  • 轻量任务执行

这是初学者最值得先掌握的一类。

5.3 Planner-Executor 规划执行型

先让一个模块做计划,再由另一个模块逐步执行。

常见拆法:

  • Planner:负责把任务拆成步骤

  • Executor:负责逐项执行

  • Replanner:执行失败时调整计划

适合场景:

  • 研究型任务

  • 多步骤业务流程

  • 代码生成或文档生成

5.4 Reflection / Critic 反思校验型

执行完一轮后,再由"审查角色"判断:

  • 结果够不够好

  • 是否有遗漏

  • 要不要重试

适合场景:

  • 高质量写作

  • 代码修复

  • 复杂问答

本质上是用额外推理换更高质量。

5.5 Supervisor 多 Agent 调度型

上层有一个主管 Agent,负责把任务分给不同角色。

例如:

  • 研究员 Agent 负责搜集信息

  • 分析员 Agent 负责整理结构

  • 写作 Agent 负责成稿

  • 主管 Agent 负责调度和汇总

适合场景:

  • 复杂任务分工

  • 团队协作模拟

  • 多角色系统

5.6 Handoff / Swarm 协作移交型

任务在多个 Agent 之间转移,谁更适合谁接手。

适合场景:

  • 多技能协作

  • 长流程任务

  • 客服与专家混合场景

这种模式比"主管统一调度"更灵活,但也更难控。

6. 多 Agent 架构怎么理解

多 Agent 不一定更高级,只是把一个大问题拆给多个角色处理。

最常见的三种拓扑如下。

6.1 Supervisor 模式

```text

Supervisor

/ | \

v v v

Agent A Agent B Agent C

```

特点:

  • 中心化调度

  • 好管控

  • 好加审批

适合初学者先学。

6.2 Network 模式

```text

Agent A <--> Agent B

^ |

| v

Agent D <--> Agent C

```

特点:

  • 各 Agent 可以互相交流

  • 更灵活

  • 但更容易失控

6.3 Pipeline 模式

```text

研究 -> 分析 -> 写作 -> 审核

```

特点:

  • 最接近传统生产线

  • 好理解

  • 工程上很常用

严格来说,这种模式有时更像"多节点工作流",不一定是强 Agent。

7. 初学者特别容易混淆的几个点

7.1 Agent 不等于聊天机器人

聊天机器人可能只是一轮输入输出。

Agent 强调的是:

  • 面向目标

  • 可循环执行

  • 能调用外部能力

  • 能根据反馈调整行为

7.2 工具多,不代表 Agent 强

真正决定效果的往往是:

  • 状态设计

  • 工具选择逻辑

  • 错误处理

  • 停止条件

不是堆更多工具就会更好。

7.3 多 Agent 不一定优于单 Agent

多 Agent 会带来:

  • 更多提示词维护成本

  • 更多上下文开销

  • 更多通信误差

  • 更复杂的调试难度

很多任务其实单 Agent + 清晰工具链就够了。

7.4 好的 Agent 首先要可控

真实项目里最重要的不是"看起来像人",而是:

  • 能复现

  • 能追踪

  • 能评估

  • 能限权

  • 能失败后恢复

8. 入门学习顺序建议

如果你现在是刚接触 Agent,我建议按这个顺序学:

  1. 先理解 Agent 的基本闭环:目标、状态、工具、观察、继续/停止

  2. 再学最经典的 ReAct 模式

  3. 再看 Planner-Executor 这类两阶段架构

  4. 然后再学习记忆、长期状态和人机协同

  5. 最后再学多 Agent 拓扑,如 Supervisor、Handoff、Network

这样学不容易乱。

9. 一个适合初学者记忆的"万能模板"

以后你看到任何 Agent 框架,都可以先问这 7 个问题:

  1. 目标怎么定义

  2. 状态存在哪里

  3. 下一步由谁决定

  4. 工具怎么注册和调用

  5. 观察结果怎么回写

  6. 何时停止或升级人工

  7. 如何监控、评测和复盘

只要你能回答这 7 个问题,基本就能把一个 Agent 系统看明白八成。

10. 中文优先延伸阅读

下面这些链接我优先按"适合入门"和"中文可读性"来选。

1) 宝玉翻译:基于大语言模型的智能代理[译]

链接:

https://baoyu.io/translations/ai-agent/llm-powered-autonomous-agents\](https://baoyu.io/translations/ai-agent/llm-powered-autonomous-agents) 推荐理由: - 这是 Agent 入门非常经典的一篇 - 把 Agent 拆成 Planning、Memory、Tools 三大块,非常适合建立总框架 - 中文翻译质量较高,适合第一次系统阅读 ### 2) LangChain 中文教程:Agent 架构 链接: \[https://github.langchain.ac.cn/langgraph/concepts/agentic_concepts/\](https://github.langchain.ac.cn/langgraph/concepts/agentic_concepts/) 推荐理由: - 讲清楚"让 LLM 决定控制流"是什么意思 - 覆盖路由、工具调用、规划、并行、人机协同等常见模式 - 很适合把"概念"和"架构模式"串起来 ### 3) LangChain 中文教程:工作流和智能体 链接: \[https://github.langchain.ac.cn/langgraph/tutorials/workflows/\](https://github.langchain.ac.cn/langgraph/tutorials/workflows/) 推荐理由: - 非常适合拿来理解 Workflow 和 Agent 的边界 - 对初学者最容易混的概念有帮助 - 读完会更容易判断"什么时候该做 Agent,什么时候只是工作流" ### 4) LangChain 中文教程:多智能体概述 链接: \[https://github.langchain.ac.cn/langgraph/concepts/multi_agent/\](https://github.langchain.ac.cn/langgraph/concepts/multi_agent/) 推荐理由: - 适合在单 Agent 入门后继续看 - 对 Supervisor、Network 等多 Agent 结构有比较直观的介绍 ### 5) Jimmy Song:使用 LangChain 构建智能体 链接: \[https://jimmysong.io/zh/book/ai-handbook/agent/langchain/\](https://jimmysong.io/zh/book/ai-handbook/agent/langchain/) 推荐理由: - 中文写作风格比较友好 - 把 LangGraph、Agent、状态图这些概念串得比较顺 - 适合已经有一点代码基础、想把概念落到框架层的人 ### 6) Hugging Face 中文:LangGraph 的构建块 链接: \[https://hugging-face.cn/learn/agents-course/unit2/langgraph/building_blocks\](https://hugging-face.cn/learn/agents-course/unit2/langgraph/building_blocks) 推荐理由: - 偏教程风格 - 对状态、节点、边这些"图式 Agent"概念讲得比较清楚 - 如果你后面要学 LangGraph,这篇很适合补基础 ## 11. 英文原版但非常值得收藏 如果你后面愿意顺手读英文,这几篇很值得作为"原始资料"。 ### 1) Lilian Weng: LLM Powered Autonomous Agents 链接: \[https://lilianweng.github.io/posts/2023-06-23-agent/\](https://lilianweng.github.io/posts/2023-06-23-agent/) 价值: - 这是很多 Agent 讨论的源头文章之一 - 看原文有助于建立更稳的术语理解 ### 2) AutoGen 官方文档 链接: \[https://microsoft.github.io/autogen/stable/\](https://microsoft.github.io/autogen/stable/) 价值: - 如果你对多 Agent 编排感兴趣,这套文档很有参考价值 - 尤其适合看多 Agent 设计模式、事件驱动、消息通信这些工程问题 ## 12. 给你的一个实际学习路线 如果你接下来 3 到 5 天想系统入门,可以这样安排: ### 第 1 天 - 读本文件第 1 到第 5 节 - 再读宝玉翻译那篇 目标: 先把 Agent 的三大件和闭环建立起来 ### 第 2 天 - 读 LangChain 中文教程里的"Agent 架构" - 顺带看"工作流和智能体" 目标: 搞清楚 Agent 和 Workflow、Router、ReAct 之间的区别 ### 第 3 天 - 读 Hugging Face 中文 LangGraph 构建块 - 配合 Jimmy Song 那篇文章看状态、节点、边 目标: 开始建立"图式编排"的理解 ### 第 4 到 5 天 - 看多智能体概述 - 看 AutoGen 官方文档中的多 Agent 设计模式 目标: 理解 Supervisor、Handoff、Network 这些模式各自适合什么问题 ## 13. 最后给初学者的结论 你可以先不要把 Agent 想得太神秘。 对入门者来说,最实用的理解方式就是: \*\*Agent 是一个以 LLM 为决策核心、以状态为上下文载体、以工具为执行手段、通过循环反馈逐步完成目标的系统。\*\* 如果你先掌握下面这 4 个关键词,后续学习会顺很多: - 状态 - 工具 - 控制流 - 反馈闭环 当你开始能用这四个词去分析一个框架时,你就已经真正进入 Agent 学习状态了。

相关推荐
格林威2 小时前
Baumer相机锂电池极片裁切毛刺检测:防止内部短路的 5 个核心方法,附 OpenCV+Halcon 实战代码!
开发语言·人工智能·数码相机·opencv·计算机视觉·c#·视觉检测
codeの诱惑2 小时前
推荐算法(三):余弦定理和余弦相似度的关系及公式推导
人工智能·机器学习·推荐算法
三枪一个麻辣烫2 小时前
gemini Adobe Illustrator visio draw.io画图
图像处理·人工智能·甘特图
HIT_Weston2 小时前
32、【Agent】【OpenCode】模型配置(配置 Qwen 模型)
人工智能·agent·opencode
丝斯20112 小时前
AI学习笔记整理(79)——Python学习8
人工智能·笔记·学习
鹧鸪云光伏2 小时前
微电网设计系统及经济收益计算
大数据·人工智能·光伏·储能设计方案
飞哥数智坊2 小时前
地铁上的30分钟,我用龙虾搞定了一份PPT
人工智能
A小码哥2 小时前
Harness Engineering:用规则约束AI的方向
人工智能·ai·学习方法
胖祥2 小时前
onnx之优化器
人工智能·深度学习