AI Agent 组成:像人一样思考的智能体

AI Agent 组成:像人一样思考的智能体

© 2026 by ethan.tan(谭明)· All Rights Reserved · 图解第一版 · 2026.07.02
一句话定位 :AI Agent 的目标,是让 AI 像人一样感知、思考、记忆、行动,自主解决我们的各种问题。
时代判断 :MLLM(多模态大模型)已足够强大,某些领域可达专业级别。结论很朴素------拥抱 AI、拥抱变化

全局架构图

在展开各层之前,先给出一张全局架构总览------以 MLLM 为中心,把感知、大脑、思考方式、记忆、动作、能力协作、Skill 全部画在一张图上,看清它们如何连接成一个像人一样思考的智能体:

读图指引(从左上到右下、由内到外):

  • 中心是大脑:MLLM 作为"CPU",承担推理与规划,是一切的中枢。

  • 认知闭环:外部世界 → 感知 → 大脑 → 动作 → 影响世界,动作结果再沉淀进记忆,记忆又反哺大脑------构成持续循环。

  • 大脑的两个支撑:一靠"模型基座"提供算力,二靠"思考方式"组织推理与行动的逻辑,CoT 是二者共同的底层基石。

  • 记忆横贯:短期↔长期互通,供大脑读写;RAG 解决"知识装不下"。

  • 能力协作外接:Tools/MCP/A2A 让大脑能动手、能联网、能与其他 Agent 协同。

  • Skill 注入:把可复用经验固化成技能包,随时注入大脑复用。

  • 编排框架托底:LangGraph→LangChain→Deep Agents 三层把上述理念工程化落地。

这张图是全文的"地图"------后面每一章都是对图中某一块的展开拆解。建议先看懂这张总图,再深入各层细节。


目录


引言:新计算机组成原理

AI Agent 的目标,是让 AI 像人一样感知、思考、记忆、行动 。普通 LLM 是"问一句答一句"的被动工具;Agent 是能自主规划、调用工具、持续记忆、动态调整的主动执行者。差别在于它有"手脚"(动作/工具)、有"记性"(记忆)、有"章法"(思考方式)。

理解 Agent 最好的方式,是把它看成一台**"新计算机"**,同时对照两个参照系:人(模仿对象)和传统计算机(工程载体)。

传统计算机 AI Agent 本质
眼 / 耳(感官) 输入设备(键盘/鼠标) 感知层(NLP/CV/ASR) 接收外部信息
手 / 口(肢体与语言) 输出设备(显示器/打印机) 动作层(虚拟输出/设备/机器人) 作用于外部世界
大脑 CPU 聪明的大脑(LLM/MLLM) 核心计算与推理
思维方式 / 方法论 控制器 / 程序 思考方式 组织推理与行动的逻辑
记忆(短期/长期) 内存 / 硬盘 记忆层 状态与知识存储
工具 / 工具箱 外设 / 总线 MCP / Tools 连接外部工具与系统
语言 / 协作 网络协议 A2A(Agent to Agent) 智能体间通信
专业技能 / 经验 软件库 / 经验 Skill 经验复用

这张表是全文的钥匙:Agent 的每一层都能在人身上找到对应。后面每一章都会回到"人 vs Agent"这条主线。

四模块认知循环:业界主流的理论框架

上述映射有学界与业界的理论背书。主流 LLM Agent 架构综述与"感知-大脑-行动-记忆"四模块框架一脉相承,本文以此为骨架,把"思考方式"独立成章、"动作"并入感知层,扩展为完整结构:

复制代码
感知环境 → 进行思考 → 采取行动 → 形成记忆 →(利用记忆指导下一轮思考与行动)→ 循环
  • 感知(Perception) ------Agent 的"五官":从用户指令、文件、数据库、API 返回结果,甚至摄像头/麦克风的原始数据中捕获信息,转化为大脑可理解的结构化信息。

  • 大脑(Brain) ------Agent 的"中枢神经系统",核心是 LLM:负责推理(Reasoning)与规划(Planning),理解用户最终意图,将复杂任务分解为可执行子任务。

  • 行动(Action) ------Agent 的"手脚":通过调用工具(Tools)与外部世界交互(搜索、计算、代码执行、机器人控制等)。

  • 记忆(Memory) ------Agent 学习与进化的关键:短期记忆存当前任务上下文,长期记忆存跨任务的知识、经验与用户偏好。

四模块构成一个持续循环的认知闭环,这也是 Agent 区别于"一次性问答"的根本所在:

架构演进的本质 :Agent 架构已从"单一模型封装"演进为一套模块化的系统 ,核心思想是借鉴人类认知模式,将能力解耦为既独立又协同的模块。下面以 MLLM 为中心逐层拆解。


一、感知与动作:输入与输出层

人要做事,先要能"感知"环境(看、听、读),再能"动作"产生结果(说、写、操作)。这两层构成 Agent 与世界的交互边界。

1. 感知层(输入)

感知是 Agent 接收外部信息的入口。三类输入模态,正是人的三类感官的机器化:

人的感官 Agent 感知 能力
眼睛看 视觉(图像/图片输入) 图像理解、OCR 文档识别
耳朵听 听觉(语音音频输入) ASR 语音转文字
读文字/说话 NLP(自然语言输入) 文本意图解析,当前最成熟的通道

多模态信息的统一表征------感知模块的首要任务,是把异构数据源统一为大脑可处理的形式:

  • 信息来源:文本(指令/网页/文档/代码)、图像(图表/照片/UI 截图)、音频(语音/环境声)、视频(图像+音频动态流)、结构化数据(API 的 JSON、数据库表格)。

  • 统一编码 :各模态通过专属编码器转换为统一的高维向量(Embeddings),文本用 Transformer、图像用 ViT、音频用 Whisper 等。统一向量让大脑能在同一语义空间中综合理解不同模态。

关键技术与对应

技术 对应感官 作用
NLP 读/说 意图识别、实体提取、情感分析、长文本理解
CV UI 操作 Agent 定位按钮/输入框;机器人识别障碍物
ASR 语音交互,智能客服/智能家居的关键
多模态融合 综合 通过交叉注意力(Cross-Attention)实现跨模态深层关联,产生"1+1>2"效果

趋势:多模态融合。一个 MLLM 同时吃下文本、图像、语音,避免多模型拼接的信息损耗。人不会把"看"和"听"拆成两个独立系统,Agent 也不该。
人 vs Agent:人的感官天然融合且带常识;Agent 的多模态仍需刻意拼接,易丢失跨模态关联。

2. 动作层(输出)

Agent 要能"动手做事",按作用对象分三类,能力从虚拟走向实体:

人的行动 Agent 动作 能力
写字 / 画画 / 用电脑 虚拟输出 内容生成(文本/图片/视频/文件)、浏览器自动化
用手机 / 开关电器 设备操作 手机/电脑控制、智能家居等硬件操控
身体劳作 / 操作机械 机器人 软硬件协同执行实体动作(具身智能)

三类动作递进展开

  • 虚拟输出:内容生成、浏览器自动化。

  • 设备操作:手机/电脑控制、智能家居等硬件操控。

  • 机器人:软硬件协同执行实体动作(具身智能)。

工具(Tool):能力的无限扩展

动作层落地为工具调用。通过组合工具,Agent 突破 LLM 自身限制完成多步骤任务。常见工具类型:

工具类型 例子
信息获取 搜索引擎、数据库查询、天气/股票/新闻 API
计算与分析 计算器、代码解释器、数据分析库
内容生成 图像生成、语音合成
应用控制 发邮件、创建日历事件、操作 CRM
物理世界交互 控制机器人、无人机、智能家居

三类动作从数字世界逐步延伸到物理世界。具身智能是 Agent 的终极形态------让 AI 不仅"在线上思考",更能"在线下行动"。
人 vs Agent:人在物理世界的精细操作远超当前 Agent,但 Agent 在虚拟输出和跨设备并行操控上已占优势。


二、聪明的大脑:计算与模型基座

大脑是 Agent 的核心计算单元。这一层分两部分:算力类型模型基座

1. 三类算力:从判断到多模态的演进

"大脑"经历了一条清晰的演进路径------分类器 → LLM → MLLM。每一次跃迁都突破上一阶段的瓶颈。

演进三阶段

阶段一·分类器------传统机器学习,解决边界明确的分类问题。轻量、确定、成本低,但每个任务都需专门数据训练,不会生成与推理。

阶段二·LLM------通用推理与生成引擎,是 Agent 的"主脑"。一个模型应对万千任务,但只懂文本,无法感知多模态信息。

阶段三·MLLM------在 LLM 基础上统一处理文本、图像、语音等多种模态,是"全能大脑"的演进方向,也是本文架构的中心。

演进对照表

阶段 代表 大致时间 突破 局限
分类器 传统 ML 1950s--2010s 学会分门别类 专用、需重训、不会生成
LLM 大语言模型 2018--2022 通用、能理解意图 只懂文本、无感知
MLLM 多模态大模型 2023--今 看听说想统一 当下中心节点,持续演进

修正说明:LLM 时代起点以 2018 年 GPT-1、BERT 为标志;2017 年是 Transformer 论文发表年份,是地基而非时代本身。CoT 论文发表于 2022 年 1 月。

大脑演进链可视化

关键里程碑

  • 2012:AlexNet 打破分类器时代性能天花板。

  • 2017:Transformer 论文发表,成为大模型底层架构。

  • 2018:BERT / GPT-1 确立预训练范式。

  • 2020:GPT-3 验证"规模即能力"。

  • 2022.01:CoT 提出,是第三章所有思考方式的底层基石。

  • 2022.11:ChatGPT 让 LLM 走向大众。

  • 2023:GPT-4 / Gemini 引入多模态,MLLM 元年。

  • 2024--今:MLLM 趋于成熟,催生 Agent 全面落地。

分类器解决"是什么",LLM 解决"怎么办",MLLM 解决"全能感知与决策"。三者是能力跃迁的演进链。
人 vs Agent:人的大脑靠直觉与常识,能耗低、能举一反三;Agent 靠统计模式,强在广度与速度,弱在因果理解和物理常识。

底层基石:思维链(CoT)

在进入具体思考方式之前,先理解它们共同的底层技术------思维链(CoT) 。由 Google 研究人员于 2022 年 1 月提出,核心是引导 LLM 在回答前先生成一步步推理过程,提升多步逻辑问题的准确性。

Zero-shot CoT 示例

Q:一个篮子里有 5 个苹果,小明拿走 2 个,又放回 1 个,现在有几个?

A:Let's think step by step.

一开始 5 个 → 拿走 2 个剩 3 个 → 放回 1 个剩 4 个 → Final Answer: 4

CoT 为 Agent 的思考提供了结构化表达,是后续复杂思考方式的基础。

2. 模型基座与延伸阅读:《从零构建大模型》

模型能力来自两类基座:

  • 通用大模型基座:ChatGPT / DeepSeek / GLM / Kimi / 豆包 等------开箱即用的通用能力。

  • 专有模型 :在通用基座之上做预训练 + 监督微调(SFT) ,注入行业知识,适合通用模型覆盖不到的专业领域。

选型逻辑:能用通用基座就用;垂直领域精度不够时,才上专有微调。

想真正读懂"分类器 → LLM → MLLM"的演进链,以及模型基座背后的内部结构,推荐延伸阅读《从零构建大模型》------它从准备数据、架构设计、预训练、微调到指令对齐,逐步拆解大模型是如何被"垒"起来的。我们把书中的核心脉络画成两张流程图:第一张讲清"输入到输出"的主链路,第二张讲清"能力如何扩展"

图 1:大模型核心工作链路

读图要点:大模型本质是"把文字切成 token,把 token 转成向量,再靠自回归一个 token 一个 token 地预测出来"。


三、思考方式:控制流

这是 Agent 区别于普通 LLM 的灵魂。

普通 LLM 是"一次性问答"。Agent 是循环式的"推理 → 行动 → 观察" ,能根据中间结果动态调整。决定"怎么循环"的逻辑,就是思考方式。

四种思考方式各有清晰边界:

① ReAct

机制Thought → Action → Observation 循环,每走一步根据观察决定下一步。由普林斯顿大学与 Google 共同提出,是目前应用最广泛的 Agent 思考方式,核心是把 CoT 与工具调用结合。

关键约束 :必须提前确定退出条件,否则会陷入无限循环。

优势:动态适应、可解释可控、强纠错能力。某步失败时,Agent 能在下一轮补救(换关键词重搜、换 API)。

挑战:需多次与 LLM 和工具交互,延迟与成本较高。

适用:探索性强、不确定性高的任务(开放研究、信息检索、调试排查)。

流程图 ------Thought → Action → Observation 循环,靠"退出条件"收敛:

② Plan-and-Execute

机制:先做全局规划,把任务拆解为有序步骤,再逐步执行。

特点:全局性好;任务明确时效率高、成本低。

与 ReAct 的权衡 :ReAct 局部灵活但可能偏离全局;PlanExe 全局清晰但灵活性差,执行中环境变化时计划可能需调整。成熟实现通常带 replan(重规划) 机制。

适用:流程相对标准、步骤可预见的任务。

流程图------先规划后执行的两阶段,带 replan 修正回路:

③ Reflection

机制 :生成初版 → 识别缺陷 → 改进优化,迭代提升。以 ReflexionLATS 为代表。

特点:先有再优------先解决"有没有",再解决"好不好"。

适用:质量导向、可迭代打磨的任务(代码生成、文案写作、方案设计)。

流程图------"生成 → 反思 → 改进"的自我迭代循环:

④ Multi-Agent

机制 :一个编排 Agent(主/Orchestrator) 调度多个各司其职的从 Agent ,本质是多智能体系统(MAS)

为何需要 MAS:① 专业化分工;② 任务可并行;③ 可扩展、单个 Agent 失败不致系统崩溃;④ 可模拟复杂系统。

流程图------编排 Agent 拆解分派、从 Agent 各司其职、结果汇总收口:

四种方式的对比与选型

思考方式 核心逻辑 全局性 优势 劣势 适用场景 类比
ReAct 走一步看一步 弱(局部) 动态适应、可解释、强纠错 成本高、延迟大 探索性、不确定任务 职业规划走一步看一步
PlanExe 先规划再执行 强(全局) 结构化、任务明确时效率高 灵活性差、难应对意外 标准流程、可预见任务 先拆解再行动
Reflection 先有再优 中(迭代) 自我学习迭代、输出质量高 进一步增加成本延迟 质量导向、可打磨任务 敏捷开发迭代
Multi-Agent 各司其职 强(分工) 专业分工、并行、可扩展 协调复杂 复杂、跨领域任务 团队专业分工

选型原则:任务越不确定 → 越偏 ReAct;任务越标准 → 越偏 PlanExe;质量要求越高 → 叠加 Reflection;复杂度越高 → 走 Multi-Agent。
实践中组合使用:复杂系统可先用 PlanExe 制定宏观计划,每个宏步骤用 ReAct 处理细节,关键节点后引入 Reflection 检查。
人 vs Agent:这四种方式把人无意识的思维习惯显式化。人擅长"元认知",知道自己在用什么方式想问题;Agent 的思考方式仍是预设的,需要人选择。


四、记忆层:存储与检索

记忆是 Agent 的状态存储。没有记忆,Agent 每次对话都从零开始,无法学习、无法理解用户偏好。按作用范围分两层:短期记忆和长期记忆。

1. 按作用范围分两级

① 会话级记忆

短期记忆存当前任务上下文,随任务结束而消失,主要形式是对话历史

实现方式:直接利用 LLM 的上下文窗口。当对话过长时需压缩:

  • 滑动窗口:只保留最近 N 轮。

  • 摘要:周期性总结对话,用摘要替代冗长历史。

② 跨会话 / 持久记忆

长期记忆存跨任务、跨会话的信息,核心技术是 RAG。按部署形态分三种:

  • 个人多端迁移:个人记忆 + Markdown 文件 + 记忆衰退机制。

  • 本地隐私部署SQLite + 向量检索

  • 生产级分布式:保证分布式环境下的记忆一致性。

RAG(检索增强生成)

LLM 上下文窗口有限,装不下所有知识。RAG 的解决思路是为 LLM 外挂一个知识库:生成前先从外部数据库检索最相关信息,作为额外上下文喂给 LLM。机制是"按需取用",而非"全量塞进大脑"。

RAG 四步机制(以"用户喜欢喝拿铁"为例):

步骤 动作 示例
① 存储 把长期记忆经嵌入模型转为高维向量,存入向量数据库 "我喜欢喝拿铁" → 向量入库
② 检索 后续对话出现相关线索时,把问题同样转为向量做相似度搜索 "帮我推荐咖啡" → 召回"喜欢拿铁"
③ 增强 把检索到的记忆作为上下文,连同问题一起发给 LLM 已知信息:用户喜欢喝拿铁
④ 生成 LLM 基于增强后的上下文生成个性化回答 "或许一杯经典拿铁是不错的选择"

RAG 四步机制流程图

2. 存储底座

  • 传统存储:Markdown 文档;数据库 ES / Redis / PostgreSQL 等。

  • RAG 向量库:向量数据库,用于语义检索。

主流向量数据库对比(2026)

数据库 类型 核心优势 主要应用场景
Pinecone 商业云服务 全托管,开箱即用,性能稳定 快速原型验证、中小企业应用
Milvus 开源 分布式架构,高可扩展性,功能丰富 大规模生产环境、高扩展性要求场景
Weaviate 开源 多模态支持,内置多种 Embedding 模型,GraphQL 接口 复杂数据类型、多模态检索应用
ChromaDB 开源 轻量级,Python 原生,开发友好 本地开发、数据科学实验、小型应用
Redis 开源/商业 内存数据库,延迟极低,功能多样(结合 RediSearch) 实时性要求极高的场景、已有 Redis 系统

实战中常混合检索(向量 + 关键词)以兼顾语义和精确匹配。
人 vs Agent:人的记忆有情感加权和联想触发,且会主动遗忘无关细节;Agent 的记忆靠显式存储与召回,精确无损但缺乏情感与情境联想。

记忆维度 Agent 对比要点
短期 工作记忆(约 7±2 项) 会话级记忆(上下文窗口) Agent 容量更大但易溢出丢失
长期 经验、技能、情感记忆 持久记忆(MD/SQLite/向量库) Agent 精确无损,人靠联想重构
检索 联想 + 情感触发 RAG 向量/关键词检索 Agent 可全量召回,人召回率低但相关性高
遗忘 主动遗忘 需设计衰退机制 遗忘是人的降噪优势
跨端 无法迁移 多端同步 Agent 可迁移

记忆层是 Agent 结构性超越人类的领域------精确、无损、跨端、可迁移。代价是需要主动设计衰退机制,否则"记得太多"反而稀释相关性。


五、能力、协作与连接:外设与总线

感知让 Agent 能"输入",大脑让 Agent 能"想",动作让 Agent 能"输出"。连接外部工具、与其他 Agent 协作,还需要连接层。

三层演进总览------从"单体能力"走向"协同网络",三类基础设施逐级放大 Agent 的边界:

连接层 类比 作用 范围 代表
Tools 手 / 单个外设 可调用函数,执行查询、计算等原子动作,无统一标准 单体能力 Function Calling
MCP USB 接口 / 总线 工具方按协议实现一次,所有 Agent 复用,统一发现与管理 工具生态标准化 stdio / SSE
A2A 网络协议 / 互联网 Agent Card 支撑发现、互信与跨 Agent 协作 协同网络 Agent Card

1. Tools

Agent 可调用的具体函数,执行查询、计算、外部操作等原子动作。没有统一标准时,每个 Agent 各自对接,接入成本随工具数线性增长。

2. MCP

MCP(Model Context Protocol)由 Anthropic 于 2024 年开源发布,把"工具"变成"即插即用的外设"。工具方实现一次 MCP Server,任意支持 MCP 的 Agent 即可接入。

MCP 核心三要素

要素 作用
Resources 向 Agent 暴露的可读数据
Tools 可执行函数,Agent 主动调用
Prompts 预设提示模板,标准化交互

边界补充:MCP Prompts 是工具方向外暴露的"可复用交互模板";第六章的 Skill 是 Agent 内部沉淀的"工作流提示词 + 领域知识"。

3. A2A

A2A(Agent2Agent Protocol)由 Google 提出,让不同厂商、框架的 Agent 能彼此发现、协商、委派任务,构建"智能体互联网"。

Agent Card:每个 Agent 发布标准化名片,声明能力、端点、认证方式、支持的输入输出。

协作四步:发现 → 协商 → 委派 → 回传。

MCP vs A2A:MCP 解决"Agent 如何用工具"(纵向接入),A2A 解决"Agent 如何找 Agent"(横向协作)。

Multi-Agent 系统的架构模式

三种架构模式的核心差异,可以概括为**"谁说了算""Agent 之间怎么通信"**。下图把三种常见模式并列展示:

读图指引

  • 层级式:一个管理者 Agent 居中,负责任务拆解与结果汇总;结构清晰、最易落地,类似传统管理架构。

  • 平等式:Agent 之间没有固定中心,彼此直接协商;灵活但一致性难保证,适合需要频繁对齐的开放协作。

  • 混合式:宏观上用层级把控方向,局部让工作者 Agent 平等协作;大型复杂系统常用这种"分形"结构。

架构模式 结构 特点 典型代表
层级式 管理者 Agent 分解任务并分派给工作者 Agent,结果汇总上报 类公司管理结构,最常见 AutoGen
平等式 所有 Agent 地位平等,直接通信协商 去中心化、灵活 CrewAI
混合式 宏观层级式管理,局部平等协作 兼取两者优点 ---

三者关系:Tools 是手,MCP 是接口标准,A2A 是网络协议。从单体能力走向协同网络。

5. 共识:Agent 协作的语义基础

协议(A2A)解决了 Agent "能通信",但没解决"能对齐"------同一件事,不同 Agent 的理解可能完全不一样。这就是共识要解决的问题。

什么是共识?

在没有全局指令的情况下,多个实体对同一件事形成一致判断的能力。人靠语言、历史、文化、默契来达成;Agent 则需要显式的对齐机制。

共识在 AI Agent 中的三个层次:

层次 场景 核心机制 当前成熟度

| 单 Agent 内部 | 跨对话保持一致的判断标准 | Skill 固化逻辑、记忆保留历史参照 | ✅ 相对成熟 |

| 多 Agent 之间 | 不同角色 Agent 对目标和标准对齐 | 编排 Agent 强制分配;或平等式共享上下文的共识协商 | ⚠️ 层级式成熟,平等式仍早期 |

| 人与 Agent 之间 | 人的需求被 Agent 正确理解,Agent 输出被人认可 | Human-in-the-loop 介入修正 + 共同对齐的判断基准 | ⚠️ 兜底方案成熟,深度对齐仍瓶颈 |

共识是 Agent 从"能用"走向"可靠"的一道坎。

单 Agent 靠 Skill 和记忆能稳定输出,相对容易。但多 Agent 在没有统一大脑时如何自协商达成一致、以及人与 Agent 之间在语义层面的深度对齐,是当前工程化的核心瓶颈。

从本质上看,人机协作中"人负责的事"就是不断与 AI 达成共识的过程------人把需求澄清给 Agent,Agent 把产出解释给人,每一轮交互都是在缩小共识缺口。当共识断裂时,人工兜底(第八章)就是最后的对齐机制。

这正是"成为驾驭 AI 的人"的含义------不是把任务丢给 Agent 就结束,而是在每一轮对齐中持续校准共识。


六、Skill:经验的复用

把可复用能力封装成 Skill,避免每次从零开始。

1. Skill 的结构

一个标准的 Skill 通常包含三部分:

组成部分 内容 作用
元数据 name、description、tags、version、author 让 Agent 发现和判断是否激活
指令 角色设定、工作流步骤、约束条件、输出规范 指导 Agent 如何执行任务
资源 模板文件、参考文档、示例代码、数据源 为执行提供素材

2. Skill 解决的问题

问题一:重复劳动

每次对话 Agent 都从零理解任务,同样的流程反复消耗 token。Skill 把"怎么做"固化下来,一次封装、多次复用。

问题二:质量不稳定

不同场景下 Agent 的输出质量高度依赖 prompt 质量,Skill 把最佳实践标准化,保证稳定输出。

问题三:经验难沉淀

人的经验随对话消失,团队的最佳实践无法传承。Skill 让经验从隐性变为显性,成为可积累的资产。

问题四:跨工具迁移难

不同平台(Claude Code、Cursor、DeepSeek)的交互方式不同,Skill 通过统一规范让知识跨工具流转。

与记忆的区别:记忆存"发生过什么" (如用户偏好、历史记录),Skill 存"该怎么做" (如代码审查流程、数据分析框架)。


七、编排框架落地:从思维到工程

思考方式是"思维",编排框架是"工具"。本节以 LangChain 官方的 Deep Agents 为主线,把"思考方式 / 记忆 / Skill / 能力协作"逐一对到工程组件上。

1. 三层架构

层级 代表 核心能力 解决什么
Runtime LangGraph 图编排、持久化、状态管理、流式输出、人机回路 复杂流程控制与执行引擎
Framework LangChain 模型抽象、create_agent(ReAct 循环 + 工具调用)、工具接口、中间件 单 Agent 基础能力标准化
Harness Deep Agents 规划、虚拟文件系统、子智能体、记忆、技能 端到端复杂任务的可靠性

三层的关系可以理解为"底座 → 中间件 → 应用套件":LangGraph 负责状态流转与图编排,LangChain 负责把 LLM + 工具封装成标准 Agent,Deep Agents 则在前两层之上提供长任务、记忆、文件系统、子智能体等开箱即用的复杂任务能力。

读图指引

  • 最底层 LangGraph:提供图编排、状态管理、持久化、流式输出、人机回路------是所有 Agent 运行的"操作系统"级引擎。

  • 中间层 LangChain :把 LLM、工具、Prompt 打包成标准化 Agent(主要是 create_agent 的 ReAct 循环),让单一 Agent 能力可复用。

  • 最上层 Deep Agents:面向端到端复杂任务,提供规划、子智能体、虚拟文件系统、长期记忆、Skill、人工兜底等高级能力。

  • 依赖方向:Deep Agents 的组件向下调用 LangChain 的 Agent / 工具 / Prompt 能力;LangChain 的 Agent 又跑在 LangGraph 的状态图与持久化机制之上。

Deep Agents 不是 LangGraph 的替代品,而是架在 LangGraph runtime + LangChain framework 之上的"应用套件"。简单任务用 LangChain 单层即可,端到端复杂任务才需要 Deep Agents。

LangGraph 如何构建一张图

LangChain create_agent 的核心能力

LangChain 的 create_agent 系列函数(create_react_agentcreate_tool_calling_agent 等)是把"一个 LLM + 一组工具"封装成可运行 Agent 的工厂函数,核心职责是:

  1. 绑定工具(Tools):把函数/封装好的工具注入到 LLM 可调用的作用域里。

  2. 构造提示模板(Prompt):把系统提示词、角色设定、工具描述按固定格式拼好喂给模型。

  3. 实现 ReAct 循环 :让模型在每一轮先输出 Thought,再决定调用哪个工具的 Action,拿到 Observation 后再进入下一轮------也就是第三章讲的 Thought → Action → Observation

  4. 状态流转:维护多轮对话状态,把每次工具返回结果重新塞进上下文,直到满足退出条件给出最终答案。

一句话概括:create_agent 不是某一种思考方式,而是把 ReAct 思考方式 + 工具调用 + 状态维护 打包成一行代码即可启动的"标准 Agent 启动器"。它吃的是模型和工具,吐出的是一个能循环推理-行动的 Agent。LangGraph 则再往上走一层:把这条循环链路变成可视化的状态图节点,支持分支、并发、持久化和人机回路。

2. Deep Agents 四大能力支柱

能力支柱 关键组件 对应本文原理
执行环境 虚拟文件系统、Tools/MCP、代码沙箱、流式输出 动作层、能力协作
上下文管理 技能、长期记忆、摘要与上下文卸载、提示缓存 记忆、Skill
委派 write_todostask PlanExe、Multi-Agent
控制 interrupt_on、文件系统权限 人工兜底

3. 虚拟文件系统

传统 Agent 把大段信息塞进 prompt,导致上下文膨胀。Deep Agents 用文件系统做 Context Engineering:让 Agent 按需读取、分门别类存储,而非把所有资料同时摊在桌上。

目前文档内提到三类机制:

  1. 六大文件操作lsread_filewrite_fileedit_fileglobgrep ------ 这是 Agent 与虚拟文件系统交互的原子命令。

  2. 大结果自动卸载:工具调用返回的内容超过 token 阈值时,完整内容写入文件系统,对话历史只保留文件路径 + 内容预览,避免 prompt 暴涨。

  3. 历史自动总结:当上下文达到窗口上限且没有可卸载的内容时,生成摘要替代原始对话,并把原始对话写入文件系统留存。

安全隔离:文件系统之上的执行沙箱

虚拟文件系统解决"上下文怎么管",但 Agent 经常要执行代码、调用命令行或访问网络,必须解决"执行是否安全"的问题。工程上通常按隔离强度分层选择沙箱:

选型思路:虚拟文件系统是 Agent 的"工作桌面",沙箱隔离是"工作台四周的防护罩"。二者互补------文件系统负责上下文组织,沙箱负责执行安全。普通文档处理可不用沙箱;一旦 Agent 需要执行用户提交的代码、访问外部网络或操作敏感数据,就必须把运行环境放进沙箱。
虚拟文件系统是上下文管理的基础设施,是 Deep Agents 相对普通 ReAct 循环最本质的升级。

4. 任务规划write_todos:Plan-and-Execute 的工程化

机制 :调用 create_deep_agent() 时自动注入 write_todos 工具,无需手动配置。每个任务含 subject(标题)、description(描述)、status(状态)三字段,状态线性流转:pendingin_progresscompleted

执行三阶段:制定计划(全 pending)→ 逐步执行(标记状态)→ 动态调整(执行中发现新需求可新增/调整任务)。

对应第三章的思考方式 :本质是 Plan-and-Execute(PlanExe) ,但不是严格两阶段分离------Agent 可在执行中修改计划,是"带动态调整能力的 PlanExe"(呼应前文提到的 replan 机制)。

关键设计 :任务清单持久化在 Agent State 中,而非对话历史。这意味着即使对话历史被总结压缩,清单依然完整------它充当 Agent 的"北极星",解决长任务"做着做着忘了目标"的问题。

5. 子智能体task:用隔离上下文解决膨胀

机制 :内置 task 工具,主智能体派发子任务给专门的子智能体执行。

解决的核心问题上下文窗口膨胀 。子智能体拥有独立的 context window ,自主执行后只把单一最终报告返回主智能体------中间的所有搜索、文件读取、试错过程都被隔离在子智能体自己的上下文里,不污染主智能体。

对应第三章的思考方式:Multi-Agent(各司其职)。主智能体负责编排,子智能体负责专职执行,上下文天然隔离。

洞察 :这是"分而治之"在 Agent 上的实现------主智能体的上下文保持精炼(只装规划和结果摘要),繁重探索丢给子智能体。子智能体是上下文管理的另一把利器,与文件系统卸载互补:文件系统卸"数据",子智能体卸"过程"。 教程中还有"异步子智能体"(async subagents)进一步实现并行化。

6. 技能 Skills:渐进式披露 + 跨工具标准

规范 :Deep Agents 的 Skill 格式正朝着开放规范演进(如 SKILL.md 约定:YAML frontmatter 元数据 + Markdown 指令正文)。该理念与 Claude Code、OpenAI Codex、Cursor 等工具中的 skills / instructions 文件相似,但生态仍在演化,实际跨工具迁移时应核对各平台的具体 schema。

渐进式披露(Progressive Disclosure)三级加载------这是 Skill 最核心的设计决策:

级别 加载内容 时机 成本
L1 Metadata 仅 frontmatter(name + description) 启动时注入系统提示词 20 个 Skill 约几百 token
L2 Instructions 完整 SKILL.md 正文 Agent 按 description 判断匹配后才加载 按需
L3 Resources references/、assets/ 下文件 指令引用时由 LLM 自行决定读取 按需

关键点description 是 Agent 决定是否激活 Skill 的唯一依据------Agent 不会提前读正文来匹配。这保证了 Skill 数量增长时启动开销仅线性增加,可"无限扩展"。
类比:教程原文------"Skills 之于 AI Agent,就像 npm 包之于 Node.js"。工具(Tools)是原子操作(搜一次、读一个文件);Skill 是"多步骤工作流 + 领域知识 + 模板资源"的打包复用。这正是第六章"经验复用"的工程落地。

7. 长期记忆:memory.md + LangGraph Store

机制 :通过 memory= 参数声明记忆文件路径(如 memory.mdpreferences.md),Agent 启动时自动加载到系统提示词。记忆写入 /memories/ 路径,经 StoreBackend 持久化到 LangGraph Store(开发用 InMemoryStore,生产用 PostgresStore),跨会话保留。

命名说明 :Deep Agents 文档示例中可能使用 AGENTS.md 作为记忆/偏好文件。为避免与"AGENTS.md 全局 Agent 配置协议"混淆,本文示例改用 memory.md。若你所在项目的 Deep Agents 模板确实使用 AGENTS.md,请将其视为该框架下的持久化记忆文件约定,与全局配置协议不是一回事。

自我更新 :Agent 在对话中学到新信息时,用内置 edit_file 更新记忆文件,变更持久化到下次对话------Agent 能"自我进化",发展出自己的专业能力

隔离 :通过 namespace 按 assistant_id(Agent 级)、user_id(用户级)、org_id(组织级)隔离,支持多用户隔离与组织级共享。

三者关系(共用同一套文件操作接口,靠路径前缀和后端区分)

维度 虚拟文件系统 workspace 技能 Skills 长期记忆 Memory
存储后端 StateBackend StoreBackend StoreBackend
生命周期 单次对话内 跨对话持久 跨对话持久
内容性质 临时工作文件 程序性记忆(怎么做) 语义记忆(知道什么)

洞察 :记忆、技能、文件系统共用同一套 read/write/edit 接口,只是存储后端和路径前缀不同。这套统一抽象是 Deep Agents 设计的精妙之处------第四章讲"记忆"、第六章讲"Skill",在工程上其实是同一个文件系统的三种用法。

8. 编排框架全景与选型

除 LangChain/LangGraph/Deep Agents 这条官方主线外,生态中还有更多编排框架:

框架 定位 适合谁
LangGraph 运行时引擎,图编排 需要极致可控性的开发者
LangChain 框架积木,单 Agent 能力 构建自定义 Agent 的开发者
Deep Agents 应用套件,开箱即用 需要可靠落地复杂任务的团队
Dify 低代码可视化编排 快速搭建、业务验证
AutoGen Studio / Flowise 等 低代码 / 可视化平台 少写代码、快速原型验证
Claude Desktop / Claude Code 开箱即用 Agent 体验 直接使用 Agent 的终端用户

框架选型同样问题驱动:要极致灵活可控 → LangChain/LangGraph;要快速落地降门槛 → Dify;要开箱即用 → 平台型产品。三层不是越多越好------简单任务用 LangChain 单层即可,端到端复杂任务才需要 Deep Agents 这类 Harness,盲目上高层架构只引入不必要复杂度。
回到"人 vs Agent" :Deep Agents 的每一项能力都是在补人类认知的短板------write_todos 补"长任务易跑偏"、子智能体补"注意力有限"、虚拟文件系统补"工作记忆容量小"、Skill 补"经验难传承"。工程上,这些就是"把人脑的好习惯外化成机器不会忘的机制"。

9. 延伸:OpenViking------字节开源的 Agent 上下文数据库

火山引擎(字节跳动)开源的 OpenViking 与 Deep Agents 思路高度一致:它不是向量数据库,而是面向 AI Agent 的上下文数据库,解决 Agent 上下文"怎么统一组织、按需加载、自我迭代"的问题。

核心差异一句话说清楚

向量数据库(如 Milvus、Pinecone、VikingDB)解决"向量怎么存、怎么检索快";OpenViking 解决的是更上层的问题------Agent 的上下文怎么像文件系统一样被管理。二者是"文件系统"与"硬盘"的关系。

五个核心特性(与 Deep Agents 几乎同款思路的另一种工业实现):

核心特性 说明 对应 Deep Agents 机制
📁 文件系统管理范式 将记忆、资源、技能统一映射至 viking:// 虚拟目录,通过 ls / find 进行标准化定位与管理。 虚拟文件系统 (VFS)
🧠 分层上下文加载 (L0/L1/L2) 采用预生成分级摘要策略:从概览 (L0) 到详情 (L2) 按需加载,显著降低 Token 消耗。 Skill 渐进式披露 (L1/L2/L3)
🔍 目录递归检索 遵循"意图分析 → 目录定位 → 向量检索 → 子目录下钻 → 结果聚合"的高精度检索链路。 上下文卸载 + RAG
👁️ 可视化检索轨迹 完整记录并展示目录浏览与文件定位路径,实现检索过程的可观测性与可调试性。 文件系统天然路径追踪
🔄 自动会话管理与自迭代 会话结束后异步分析执行结果与用户反馈,自动更新用户画像 (memory.md) 及 Agent 经验库。 长期记忆存储 (LangGraph Store)

与 VikingDB 的关系 :VikingDB 是字节云端的向量数据库服务,OpenViking 可把它作为存储底座------开源版可本地跑,商业版借 VikingDB 实现大规模存储与高性能检索。这再次印证:向量库是基础设施,上下文数据库是更上层的 Agent 基建

背书与表现(据火山引擎官方资料,早期数据仅供参考):开源了 VLDB 2026 论文《VikingMem: A Memory Base Management System for Stateful LLM-based Applications》的核心能力子集;官方称在 LoCoMo 用户记忆基准上准确率从 57.21% 提升到 80.32%,Token 消耗减少 63.2%。

一句话收口 :OpenViking 与 Deep Agents 殊途同归------都在用"文件系统范式 + 分层按需加载 + 记忆自迭代"回答同一个问题:长跑的 Agent,上下文该怎么管? Deep Agents 是 LangChain 官方套件(深度集成 LangGraph runtime),OpenViking 是字节独立开源实现(多模型 Provider、本地可跑、学术有据)。两条路线验证了同一件事:上下文工程正在成为 Agent 时代的新基础设施。

Deep Agents vs OpenViking 对照图------两套实现,同一套上下文工程理念:


八、落地场景:赋能替代,人工兜底

核心判断:有需要"人"和"流程"的地方,都可以用 MLLM 赋能、替代。

分工边界:Agent 赋能替代,人工负责兜底。

这是整套架构落地时的关键设计------Agent 可以自主完成大量执行工作,但在"做什么"和"对不对"的层面,人仍是不可替代的决策者:

  • Agent 负责:执行、生成、初筛、流转。

  • 人负责:需求的生产与澄清、审核与校验、决策与兜底。

为什么人工兜底不可替代?

因为每个人都是独一无二的。每个人的认知、经历、价值观各不相同,这些差异塑造了各自的需求判断和价值取向。Agent 可以高效地执行"怎么做",但无法替代人决定"做什么"以及"做得好不好"------后者需要人对自身处境的独特理解和对质量的独立判断。

人工兜底不是技术上的妥协,而是对"人的不可替代性"的确认。这与第五章"共识"的讨论一脉相承------人与 Agent 在协作中持续对齐理解,最终由人把握方向和质量。
工程实现 :LangGraph 提供 interrupt / interrupt_on,Deep Agents 提供文件系统权限与人工介入点。建议在高风险环节(转账、发布、删除、对外承诺)显式设置 Human-in-the-loop,而不是仅在策略层强调"人工兜底"。


结束语

1. 在这个新的航海时代,成为驾驭 AI 的人(人机协调),而不是被替代的人。

AI Agent 的本质是"像人一样思考的智能体",但它终究是工具。真正决定价值的,是能否把 Agent 用好------人机协调,而非人机对抗。

2. 每一轮的技术变更,都会带来新的生产力,也带来新的机会和岗位。

从分类器到 LLM,从单 Agent 到 Multi-Agent,每一次范式迁移都淘汰了一批旧岗位,也诞生了一批新岗位(Prompt 工程师、Agent 编排师、Skill 设计师......)。趋势不可逆,但趋势中永远有机会------关键不是抗拒变化,而是站在变化的有利一侧。

3. 未来已来:四大演进方向

站在 2026 年回望与前瞻,AI Agent 的技术架构正朝以下方向持续演进:

  • 更强的自主学习能力:未来 Agent 不仅使用预定义工具,还能自主发现和学习新工具------通过阅读 API 文档自动学会调用新服务,甚至通过观察人类操作自我泛化出新技能。

  • 从数字世界到物理世界:随着具身智能发展,Agent 的"行动"将不局限于调用 API 和操作软件,而是能控制机器人、无人机等物理实体在现实中完成任务,成为连接数字智能与物理现实的关键桥梁。

  • 边缘化与去中心化:为保护隐私、降低延迟,越来越多轻量级 Agent 将部署在边缘设备(手机、汽车、智能眼镜);同时基于 A2A 等开放协议的"智能体互联网"逐渐形成,海量去中心化 Agent 彼此发现、协商、协作,构成前所未有的全球智能网络。

  • 人机协同的深度融合:未来架构更注重"人在环路(Human-in-the-loop)"设计------Agent 不再完全取代人类,而是作为人类的"超级助理"或"认知外骨骼",在人类监督引导下工作,可随时介入、修正行为,形成无缝的人机协同工作流。

相关推荐
冬奇Lab1 小时前
Workflow 系列(05):评测体系——三层测试结构与 Trace 追踪
人工智能·工作流引擎
ethantan2 小时前
一篇讲解AI Agent 组成:像人一样思考的智能体
人工智能·后端·程序员
Cosolar4 小时前
vLLM 生产级部署完全指南
人工智能·后端·架构
CodePlayer竟然被占用了4 小时前
被美国政府封杀18天,Claude Fable 5 回来了——但代价是什么?
人工智能
IT_陈寒4 小时前
垃圾回收器选错了,我的Java服务内存炸了
前端·人工智能·后端
刻意思考5 小时前
Alpha系列
程序员
smartpi5 小时前
SmartPi GPIO 脉冲与回复语执行时序指南
人工智能
阿里云大数据AI技术5 小时前
PAI支持一键部署GLM-5.2,Coding能力比肩Claude Opus 4.8
人工智能
吾鳴5 小时前
腾讯版贾维斯(Marvis),用过就回不去了
人工智能