智能体技术架构:从分类、选型到落地

本文从技术架构 出发,建立智能体架构的认知框架与分类体系,说明各架构的设计动机、适用场景与取舍,并在文末对应到可运行的代码示例,并会持续更新

代码仓库https://github.com/WenSongWang/AgenticArchitectures --- 后续会继续补充、优化,欢迎 Star / Watch 以便获取更新。


目录

  • [架构总览(当前仓库 01--14)](#架构总览(当前仓库 01–14))
  • 学习路径导览(按主题分组)
  • 各架构流程示意
  • 一、智能体架构在解决什么问题
  • 二、控制流:线性、循环与条件分支
    • [2.1 线性流水线](#2.1 线性流水线)
    • [2.2 循环:直到满足终止条件](#2.2 循环:直到满足终止条件)
    • [2.3 条件分支与路由](#2.3 条件分支与路由)
  • [三、规划与执行:先规划 vs 边想边做 vs 带验证的闭环](#三、规划与执行:先规划 vs 边想边做 vs 带验证的闭环)
    • [3.1 先规划再执行(Plan-then-Execute)](#3.1 先规划再执行(Plan-then-Execute))
    • [3.2 边想边做(ReAct)](#3.2 边想边做(ReAct))
    • [3.3 规划---执行---验证闭环](#3.3 规划—执行—验证闭环)
  • [四、多智能体协调:固定顺序 vs 动态调度](#四、多智能体协调:固定顺序 vs 动态调度)
    • [4.1 固定顺序多角色(流水线式协作)](#4.1 固定顺序多角色(流水线式协作))
    • [4.2 黑板 + 动态控制器(机会主义激活)](#4.2 黑板 + 动态控制器(机会主义激活))
    • [4.3 元控制器(入口路由,专家并行可选)](#4.3 元控制器(入口路由,专家并行可选))
  • 五、记忆与状态:从无状态到长期记忆
    • [5.1 无状态 / 仅会话内状态](#5.1 无状态 / 仅会话内状态)
    • [5.2 情景记忆 + 语义记忆](#5.2 情景记忆 + 语义记忆)
  • [六、推理与搜索策略:单路径 vs 多路径 vs 先模拟后执行](#六、推理与搜索策略:单路径 vs 多路径 vs 先模拟后执行)
    • [6.1 单路径(链式思考)](#6.1 单路径(链式思考))
    • [6.2 思维树(多路径探索与剪枝)](#6.2 思维树(多路径探索与剪枝))
    • [6.3 思维模型循环(先模拟后执行)](#6.3 思维模型循环(先模拟后执行))
  • 七、架构选型与对比小结
  • 八、在本项目中的代码对应关系
  • 技术栈与环境(当前仓库)
  • 九、总结与后续更新

架构总览(当前仓库 01--14)

当前仓库已实现 14 种架构(GitHub 已更新至 14),覆盖线性/循环/条件路由、规划与验证、多智能体、记忆与推理、试跑外壳等。

# 架构 核心思想 / TL;DR 典型场景 文件
01 Reflection(反思) 由单次生成升级为多步推理,通过自我批判与改写提升质量 高质量代码生成、复杂摘要 01_reflection.py
02 Tool Use(工具使用) 通过外部 API/函数扩展认知与行动力 实时研究助理、企业机器人 02_tool_use.py
03 ReAct 将「推理」与「动作」交替迭代,适应多步复杂任务 多跳问答、Web 导航与研究 03_react.py
04 Planning(规划) 先出详尽计划再执行,保障流程可追踪与稳定 报告生成、项目管理 04_planning.py
05 Multi-Agent(多智能体) 专家团队协作,分工提升深度与结构化品质 软件流水线、创意头脑风暴 05_multi_agent.py
06 PEV(计划-执行-验证) 引入验证器逐步校验结果,容错并动态恢复 高风险自动化、金融、易错工具 06_planner_executor_verifier.py
07 Blackboard(黑板系统) 共享中央记忆与机会式协作,由控制器动态调度 复杂诊断、动态意义建构 07_blackboard.py
08 Episodic + Semantic Memory 向量检索的会话记忆 + 图谱/结构存储的事实 长期个人助理、个性化导师 08_episodic_with_semantic_cn.py
09 Tree of Thoughts(思维树) 以树探索多条推理路径,评估与剪枝以求最优 逻辑谜题、受约束规划 09_tree_of_thoughts_cn.py
10 Mental Loop(内部模拟器) 在内在模型中试运行动作,预判风险与效果 机器人、量化交易、安全关键系统 10_mental_loop_cn.py
11 Meta-Controller(元控制器) 任务分析并路由到最合适的专家子智能体 多服务平台、可适应助理 11_meta_controller_cn.py
12 Graph(图/世界模型记忆) 文本→知识图谱抽取→Cypher 查询→多跳推理与合成答案 知识库问答、关系推理 12_graph_cn.py
13 Ensemble(并行探索+集成决策) 多路分析师并行分析,聚合者(如 CIO)综合结论 复杂推理、事实核查、高 stakes 决策 13_ensemble_cn.py
14 Dry-Run Harness(试跑外壳) 拟稿→试跑预览→人工审核(approve/reject)→执行或取消 发帖/发邮件/改库等不可逆操作的前置校验 14_dry_run_cn.py

学习路径导览(按主题分组)

  • 基础模式(01--04):Reflection 提升输出质量 → Tool Use 赋能外部工具 → ReAct 推理与行动交替 → Planning 先规划后执行。
  • 多智能体协作(05, 07, 11, 13):Multi-Agent 固定顺序协作 → Blackboard 共享黑板与动态调度 → Meta-Controller 入口路由到最佳专家 → Ensemble 多路并行分析+聚合决策。
  • 记忆与推理(08, 09, 12):Episodic + Semantic Memory 双记忆系统 → Tree of Thoughts 多路径探索与剪枝 → Graph 知识图谱与 Text-to-Cypher 多跳问答。
  • 安全与可靠(06, 10, 14):PEV 自动验证与恢复 → Mental Loop 先模拟后执行 → Dry-Run 试跑+人工审核再执行。

各架构流程示意

以下为 14 种架构的流程示意(Mermaid),便于对照理解控制流与节点关系。

01 反思(Reflection)

用户请求
生成初稿
评审
改写
最终输出

02 工具使用(Tool Use)

用户请求
规划
执行工具
汇总
最终输出

03 ReAct



思考
行动
观察
任务完成?
最终输出

04 规划(Planning)

用户请求
规划器
执行器
合成器
最终输出

05 多智能体(Multi-Agent)

输入
角色 A
角色 B
角色 C
最终输出

06 计划-执行-验证(PEV)



规划
执行
验证
通过?
最终输出

07 黑板系统(Blackboard)



控制器
选下一专家
专家 A
专家 B
专家 C
黑板
完成?
最终输出

08 情景记忆 + 语义记忆(Episodic + Semantic Memory)

检索
用户输入
情景向量检索
语义图查询
增强生成
响应
记忆写入
情景存储
语义图

09 思维树(Tree of Thoughts)



根状态
扩展路径 1
扩展路径 2
扩展路径 3
评估/剪枝
保留最优
收敛?
合成解

10 思维模型循环(Mental Loop)

观察环境
提议策略
模拟执行
评估风险
真实执行
最终输出

11 元控制器(Meta-Controller)

用户请求
Meta-Controller
通用智能体
研究智能体
编码智能体
最终响应

12 图/世界模型记忆(Graph)

文本
知识图谱抽取
图存储
自然语言问题
Text-to-Cypher
执行查询
合成答案

13 并行探索+集成决策(Ensemble)

用户问题
分析师 1
分析师 2
分析师 3
CIO 综合
最终建议

14 可观测与试跑外壳(Dry-Run Harness)

approve
reject
用户请求
拟稿
试跑预览
人工审核
正式执行
取消
最终状态


一、智能体架构在解决什么问题

单轮「提问---回答」的 LLM 调用存在明显边界:无法多步推理、无法可靠调用工具、无法在多次对话间保持状态、无法在多个角色间协调。智能体架构 要解决的是:在保留 LLM 生成能力的前提下,通过控制流、状态、记忆与多角色协作,把「一次生成」升级为「可规划、可执行、可验证、可迭代」的系统。

因此,讨论架构时至少要区分四个维度:

  1. 控制流:线性流水线、循环(直到满足条件)、条件分支与路由。
  2. 规划与执行:先规划再执行、边想边做(ReAct)、规划---执行---验证闭环。
  3. 记忆与状态:无状态、会话内状态、长期情景记忆、语义/知识记忆。
  4. 多角色协调:单智能体、固定流水线多角色、动态调度(黑板、元控制器)。

下面按这四个维度展开,再归纳选型思路,最后对应到本项目中的实现文件。


二、控制流:线性、循环与条件分支

2.1 线性流水线

设计动机:任务可拆成固定顺序的若干阶段,每阶段输入明确、输出交给下一阶段,无需根据中间结果「改道」。

典型形态:阶段 A → 阶段 B → 阶段 C → 结束。例如:生成 → 评审 → 改写(反思);规划 → 执行 → 汇总(工具使用);规划 → 执行 → 合成(规划架构)。

特点:实现简单、行为可预期、易于调试;不适合需要「根据结果再决定下一步」的场景。

在本项目中

  • 反思(Reflection):生成 → 评审 → 改写,对应 01_reflection.py
  • 工具使用(Tool Use):规划 → 执行 → 汇总,对应 02_tool_use.py
  • 规划(Planning):规划 → 执行 → 合成,对应 04_planning.py

2.2 循环:直到满足终止条件

设计动机 :下一步依赖上一步的观察结果,无法事先固定步骤数,需要「执行---观察---再决策」的循环。

典型形态:思考 → 行动 → 观察 →(若未完成)再思考 → 行动 → ... → 结束。步数由数据与模型决策共同决定,通常配合最大步数防止死循环。

特点:灵活、适合探索型任务与工具调用;代价是调用次数与延迟不确定,需要设计好终止条件与步数上限。

在本项目中 :ReAct(Reasoning + Acting),对应 03_react.py

2.3 条件分支与路由

设计动机 :不同请求应走不同处理路径(不同子图或不同专家),需要在运行时根据请求内容做路由

典型形态:入口节点(如「元控制器」)分析输入 → 根据决策将请求路由到专家 A / B / C,各专家内部可以是线性或带循环的子图。

特点:单一入口、多路分发,便于扩展新专家;路由质量成为系统瓶颈,需要精心设计路由提示与评估。

在本项目中 :元控制器(Meta-Controller),对应 11_meta_controller_cn.py


三、规划与执行:先规划 vs 边想边做 vs 带验证的闭环

3.1 先规划再执行(Plan-then-Execute)

设计动机:先把「做什么」想清楚,再严格按步骤执行,减少执行阶段的随意性与工具误用。

典型形态:规划器输出结构化步骤(如步骤列表、工具调用计划)→ 执行器按序执行并收集结果 → 汇总/合成最终答案。规划与执行分离,规划阶段不调用外部工具。

特点:步骤可解释、易做合规与审计;规划一旦偏差,执行阶段无法自行纠偏。

在本项目中 :工具使用(02_tool_use.py)、规划(04_planning.py)均属此类;差异在于规划粒度与是否强调「工具调用计划」。

3.2 边想边做(ReAct)

设计动机 :规划与执行交织,根据实时观察决定下一步,适合环境反馈敏感、难以一次性规划完整的任务。

典型形态:每轮「思考---选工具---执行---观察」,循环直到模型认为任务完成或达到步数上限。

特点:适应性强,能根据工具返回动态调整;单轮推理成本与步数不可控,需设上限与超时。

在本项目中 :ReAct,对应 03_react.py

3.3 规划---执行---验证闭环(Planner--Executor--Verifier)

设计动机 :执行结果可能不符合预期(错误、不完整),需要验证环节,不通过则回到规划或执行,形成闭环。

典型形态:规划 → 执行 → 验证 →(若失败)重新规划或重试执行 → 直至通过或达到最大迭代次数。

特点:具备自纠错能力,适合对正确性要求高的任务;迭代次数与延迟增加,验证标准需要明确定义。

在本项目中 :规划→执行→验证,对应 06_planner_executor_verifier.py


四、多智能体协调:固定顺序 vs 动态调度

4.1 固定顺序多角色(流水线式协作)

设计动机:多个「专家」按固定顺序依次贡献,例如先研究员、再分析师、再撰写员,角色顺序在图中写死。

典型形态:节点 1(角色 A)→ 节点 2(角色 B)→ 节点 3(角色 C)→ 结束。状态在节点间传递,无动态选人。

特点:实现简单、行为稳定;无法根据中间结果「换人」或跳过某角色。

在本项目中 :多智能体(Multi-Agent)示例,对应 05_multi_agent.py(可对比黑板与元控制器的「动态」调度)。

4.2 黑板 + 动态控制器(机会主义激活)

设计动机 :多个专家共享一块「黑板」(共享状态),由动态控制器 根据当前黑板内容决定下一步由谁写,谁「有机会」谁上,而非固定顺序。

典型形态:控制器观察黑板 → 选择下一个专家 → 该专家读黑板、执行、写回黑板 → 再交给控制器,循环直到满足结束条件。

特点:灵活、适合问题分解不唯一、需多轮协作求解的场景;控制器设计难度高,黑板结构需要约定好。

在本项目中 :黑板系统(Blackboard),对应 07_blackboard.py

4.3 元控制器(入口路由,专家并行可选)

设计动机 :请求先进「元控制器」,由它一次性决定把请求交给哪一个专家(或哪条子流水线),专家之间通常不串行协作,而是各管一类请求。

典型形态:元控制器(LLM)分析请求 → 路由到专家 A / B / C 之一 → 该专家独立完成并返回;下次请求再次从元控制器进入。

特点:单一入口、易扩展新专家、职责清晰;不适合「一个请求需要多个专家轮流贡献」的深度协作,那种更接近黑板。

在本项目中 :元控制器(Meta-Controller),对应 11_meta_controller_cn.py

元控制器流程示意 (与 11_meta_controller_cn.py 对应):
Analyzes Request
User Request
Meta-Controller
Routes to Specialist
Generalist Agent
Research Agent
Coding Agent
Final Response


五、记忆与状态:从无状态到长期记忆

5.1 无状态 / 仅会话内状态

设计动机:每次请求独立处理,或仅在当前会话的「状态图」内传递变量,不跨会话持久化。

典型形态:LangGraph 的 state 在单次 invoke 内流动,不写外部存储。大多数单次任务、工具调用、规划---执行类示例都属于此类。

在本项目中:01--07、09--11 的默认行为均为会话内状态;是否持久化由是否接入外部存储决定。

5.2 情景记忆 + 语义记忆(长期个性化)

设计动机:需要跨会话记住「发生过什么」(情景)和「提炼出的知识」(语义),以支持长期助手、个性化推荐等。

典型形态

  • 情景记忆:按时间/事件存储交互摘要,用向量检索「与当前查询相似」的过去片段,注入上下文。
  • 语义记忆:从交互中抽取实体与关系,写入图或结构化存储,查询时做关系推理。
  • 检索到的情景 + 语义一起参与当前轮生成;生成后再做「记忆写入」(摘要 + 抽取)。

特点:真正跨会话的个性化;实现复杂,需考虑记忆膨胀、修剪与一致性。

在本项目中 :情景记忆 + 语义记忆栈,对应 08_episodic_with_semantic_cn.py(含向量库与 Mock 图库);图/世界模型记忆(Text-to-Cypher 多跳问答)对应 12_graph_cn.py


六、推理与搜索策略:单路径 vs 多路径 vs 先模拟后执行

6.1 单路径(链式思考)

设计动机:一次生成或一条主推理链到底,成本低、延迟小,适合简单、低风险任务。

典型形态:单次或线性多步调用,无分支探索、无显式剪枝。

在本项目中:多数架构的「默认推理」即单路径;反思、规划---执行等是在「步骤」上线性推进,推理本身仍可视为单路径。

6.2 思维树(多路径探索与剪枝)

设计动机 :对复杂推理或搜索问题,单一路径容易陷入局部;显式维护多条候选路径,定期评估、剪枝,最后从存活路径中合成解。

典型形态:并行或顺序扩展多个「思路」→ 对每条路径打分/评估 → 剪掉差路径 → 继续扩展或收敛到最优路径并输出。

特点:提高复杂问题的求解稳健性;计算与调用次数显著增加。

在本项目中 :思维树(Tree-of-Thoughts),对应 09_tree_of_thoughts_cn.py

6.3 思维模型循环(先模拟后执行)

设计动机 :在真实环境执行前,先在沙盒/模拟器里跑一跑策略,根据模拟结果评估风险与收益,再决定真实执行什么,降低「试错成本」。

典型形态:观察真实状态 → 提出策略 → 在模拟环境中运行策略 → 评估模拟结果 → 修正决策 → 在真实环境中执行(或放弃)。

特点:适合高风险决策(金融、控制、机器人);依赖可信的模拟器与评估指标。

在本项目中 :思维模型循环(Mental-Model-in-the-Loop),对应 10_mental_loop_cn.py。与 ReAct 的对比:ReAct 是「边在真实环境行动边观察」;思维模型循环是「先在模拟里试,再在真实环境执行一次」。多路径并行+聚合 :Ensemble(13)多路分析师并行分析后由 CIO 综合;试跑+人审:Dry-Run Harness(14)拟稿→试跑→approve/reject→执行或取消。


七、架构选型与对比小结

关注点 可选架构 简要说明
提升单次输出质量 反思(Reflection) 生成→评审→改写,线性三步,适合代码/文案打磨
多步工具调用、步骤可解释 工具使用、规划 先规划再执行,步骤结构化;要自纠错选规划---执行---验证
环境依赖强、需边做边看 ReAct 思考---行动---观察 循环,步数由条件与上限控制
多角色固定顺序协作 多智能体(流水线) 角色顺序固定,状态顺序传递
多角色动态协作、共享黑板 黑板系统 控制器按黑板状态选下一个专家,机会主义激活
单入口、按请求类型路由 元控制器 元控制器路由到某一专家,专家独立完成任务
多路并行+聚合决策 并行探索+集成(Ensemble) 多路分析师并行分析,聚合者综合结论,适合复杂推理与高 stakes
长期个性化、跨会话记忆 情景+语义记忆 向量情景 + 图/结构语义,检索后增强生成
知识图谱与多跳问答 图/世界模型记忆(Graph) 文本→图谱抽取→Cypher 查询→合成答案
复杂推理/搜索、要稳健解 思维树 多路径探索与剪枝,合成最优
高风险决策、先试再干 思维模型循环 模拟→评估→再真实执行
不可逆操作前先预览与人审 试跑外壳(Dry-Run) 试跑→人工 approve/reject→再执行或取消
  • 控制流:线性(01、02、04)→ 循环(03)→ 条件路由(11)→ 扇出/扇入(13)。
  • 规划:先规划(02、04)→ 边想边做(03)→ 带验证闭环(06)→ 试跑后人审(14)。
  • 多智能体:固定顺序(05)→ 动态黑板(07)→ 入口路由(11)→ 并行+聚合(13)。
  • 记忆:无/会话内(多数)→ 长期情景+语义(08)→ 知识图谱(12)。
  • 推理:单路径(默认)→ 多路径思维树(09)→ 先模拟后执行(10)。

八、在本项目中的代码对应关系

仓库地址https://github.com/WenSongWang/AgenticArchitectures

以下仅作「架构 → 实现文件」的索引,便于按架构查代码;克隆后每个 py 均可一键运行,具体命令与环境配置见仓库 README 与各文件头部注释。

架构 文件 架构要点在代码中的体现
反思(Reflection) 01_reflection.py StateGraph 线性三节点:generator → critic → refiner;Pydantic 约束 Draft/Critique/Refined
工具使用(Tool Use) 02_tool_use.py 规划器输出 ToolPlan,执行器按序执行并支持变量引用,汇总层产出最终答案
ReAct 03_react.py 思考---行动---观察 循环,条件边控制是否继续
规划(Planning) 04_planning.py 规划→执行→合成 线性三阶段
多智能体 05_multi_agent.py 多节点固定顺序协作,状态在节点间传递
规划---执行---验证 06_planner_executor_verifier.py 验证失败时回到规划/执行,条件边实现迭代
黑板系统 07_blackboard.py 共享状态(黑板)+ 动态控制器选择下一专家
情景+语义记忆 08_episodic_with_semantic_cn.py 向量检索情景、图/结构存储语义,检索增强生成与记忆写入
思维树 09_tree_of_thoughts_cn.py 多路径状态、评估与剪枝、最优路径合成
思维模型循环 10_mental_loop_cn.py 策略→模拟→评估→真实执行 四阶段
元控制器 11_meta_controller_cn.py 元控制器节点 + 条件边按决策路由到各专家节点
图/世界模型记忆 12_graph_cn.py 文本摄入→实体关系抽取→图存储;问题→Text-to-Cypher→执行→合成答案
并行探索+集成决策 13_ensemble_cn.py 多路分析师节点(可并行或顺序)→ CIO 综合节点,结构化最终建议
试跑外壳 14_dry_run_cn.py 拟稿→试跑(dry_run=True)→人工审核→条件边执行或拒绝

项目还提供 agentic_architecture_visualizer.py(Streamlit)用于查看各架构的图结构(含 01--14),便于与上述分类对照理解。


技术栈与环境(当前仓库)

组件 用途
Python 3.10+ 项目基础语言
LangGraph 编排复杂、具状态与回环的工作流
LangChain 1.0 LLM/工具交互的组件
ModelScope API 大模型推理(OpenAI 兼容接口),当前仓库仅使用主模型
Pydantic v2 结构化数据建模与 LLM 输出约束
Rich 终端美化输出
Tavily Search 研究型智能体的搜索工具(部分示例)
Streamlit 架构可视化

配置 .env 中的 MODELSCOPE_API_KEYMODELSCOPE_BASE_URLMODELSCOPE_MODEL_ID 等即可运行;详见仓库 README。


九、总结与后续更新

智能体架构的「章法」可以归纳为:先按控制流、规划策略、多智能体协调、记忆与推理方式四个维度分类 ,再根据业务需求(质量、可解释性、灵活性、风险、个性化等)做选型,最后在具体实现中体现为「图结构、节点职责与状态形状」。本文建立了这一框架,并将 AgenticArchitectures14 个可一键运行的 py 示例(01--14)分别归入对应架构,便于做系统性的技术分享与二次设计;代码细节以仓库内 README 与各 py 文件为准。后续会继续补充更多架构(如自改进循环、细胞自动机、反思式元认知等),欢迎 Star / Watch 获取更新。

相关推荐
HelloWorld__来都来了3 小时前
2026.1.30 本周学术科研热点TOP5
人工智能·科研
aihuangwu3 小时前
豆包图表怎么导出
人工智能·ai·deepseek·ds随心转
YMWM_3 小时前
深度学习中模型的推理和训练
人工智能·深度学习
中二病码农不会遇见C++学姐4 小时前
文明6-mod制作-游戏素材AI生成记录
人工智能·游戏
九尾狐ai4 小时前
从九尾狐AI案例拆解企业AI培训的技术实现与降本增效架构
人工智能
2501_948120154 小时前
基于RFID技术的固定资产管理软件系统的设计与开发
人工智能·区块链
(; ̄ェ ̄)。4 小时前
机器学习入门(十五)集成学习,Bagging,Boosting,Voting,Stacking,随机森林,Adaboost
人工智能·机器学习·集成学习
杀生丸学AI4 小时前
【物理重建】PPISP :辐射场重建中光度变化的物理合理补偿与控制
人工智能·大模型·aigc·三维重建·世界模型·逆渲染
vlln4 小时前
【论文速读】递归语言模型 (Recursive Language Models): 将上下文作为环境的推理范式
人工智能·语言模型·自然语言处理