在本书的第一部分,我们为理解生成式AI奠定了基础,并描述了它向更复杂、更分布式的AI形态演进,以及向更自主系统发展的路径。我们探讨了GenAI在企业中的变革性潜力,借助"智能体式AI成熟度模型(Agentic AI Maturity Model)"勾勒出能力不断提升的演进路线,随后聚焦于LLM作为认知引擎在驱动这些智能系统中的关键作用。
第2章与第3章详细讨论了选择、部署、优化与适配LLM时的关键考量,并介绍了从RAG到微调等一系列技术,以确保它们真正"智能体就绪(agent-ready)"。我们也明确了:为智能体任务准备LLM当然包含提示工程,但远不止于此。还需要定义模型如何解释用户意图、如何通过函数调用与工具(API)交互;智能体必须经过细致准备,才能在更大的运营体系中充当可靠的推理核心。
在为智能体的认知核心奠定基础之后,本章将把焦点转向:开发健壮且有效的智能体式AI系统所必需的实践架构。
我们将从审视智能体式AI的基础架构开始,聚焦于核心组件、职责,以及使智能体区别于更简单AI交互方式的关键能力。在前几章中,我们已经确立了LLM作为推理引擎的重要性------它能够适应来自其上下文环境的输入,并相应修正行动计划。
接着,我们将转换视角:无论LLM多么强大,它都不是最终成品,而是更广泛、分布式运营构造中的一个关键组件。这标志着一个关键的设计范式转变:从单体系统走向由具备角色分工的智能体组成的动态智能生态系统。
随后,我们将剖析智能体的"解剖结构",考察其关键构建模块------从它如何接收目标、感知环境,到它如何对环境采取行动。我们将探讨数据存储与环境上下文在支撑智能体智能行为方面的关键作用。最后,我们将介绍多种智能体交互模型,以及定义这些系统如何运行与协作的关键特征。理解该架构,是在第二部分进一步设计与实现我们将要讨论的强大智能体模式的第一步。
本章将涵盖以下主题:
- 定义智能体:核心概念与能力
- 智能体的解剖结构
- 智能体所依赖的数据存储与环境上下文
- 智能体交互模型与关键特征
- 智能体架构的技术考量
让我们先从清晰定义"AI智能体"开始。
定义智能体:核心概念与能力
在第1章中,我们引入了智能体式AI系统的概念。此处关键在于巩固我们对AI智能体的定义。
AI智能体可以被理解为一种系统,通常由LLM驱动,被设计用来感知其环境、做出决策,并采取行动以实现特定目标。这个定义描述的是一种更自主的实体:它具有持续性的目标,并且其运作不止于"对提示做出响应"。
以下若干关键特征,将真正的AI智能体与更基础的LLM交互区分开来:
- 自主性(Autonomy): 智能体具备一定程度的自我治理能力,使其能够在无需持续、直接人工干预的情况下独立运作以实现目标。一旦目标被设定,智能体可以自行确定到达目标所需的步骤。
- 反应性(或感知能力,Reactivity / sensing): 智能体能够感知其运行环境,并对其中的变化或事件做出响应。这种"感知"是智能体行为的关键方面。
- 主动性(或目标导向,Proactivity / goal-orientation): 智能体不仅仅是被动反应;它会主动采取行动,并以目标为导向。它努力达成既定目标,这可能涉及随时间展开的复杂规划与任务执行。
- 社会能力(可选但常见,尤其在多智能体系统中,Social ability): 许多智能体,尤其是多智能体系统中的智能体,能够与其他智能体及人类交互与沟通。它们使用约定的语言与协议进行协作、谈判或行动协调。
必须清楚地区分智能体式AI、简单LLM交互以及传统自动化工作流。尽管三者------LLM、自动化工作流与AI智能体------都在现代系统中扮演角色,但它们代表了根本不同的能力与自主层级,如下述层级结构所示。

图4.1 -- 自主性层级
LLM
LLM充当智能体的基础推理核心或"脑":它是驱动理解、规划与内容生成的引擎。为了本书讨论的目的,我们将LLM与多模态模型(MMM)视为同义使用,尽管从技术上二者的区分很重要。
多模态模型(MMM)代表了这一层的重大演进。不同于早期仅在文本上训练的模型,现代MMM(例如Google Gemini 3)在包含文本、代码、图像、音频与视频的海量数据集上训练。这使它们能够把不同模态投射到共享语义空间,从而原生地跨模态推理。例如,一个MMM可以分析仪表盘截图来诊断系统错误,或聆听音频文件提取情绪,而无需依赖分离且割裂的翻译模型。
然而,MMM并不是智能体。尽管具备先进的感知能力,模型本身仍然是无状态且被动的:它处理输入并预测输出,但不会主动发起行动、不会凭自身意愿维持长期记忆,也不会独立追求目标。它只在被提示时才响应。
这与由协作运行的分布式智能体系统形成对比:后者以群体(swarms)、联盟(coalitions)或社会(societies)的方式运作。模型提供原始智能,但正是外围的智能体架构将这种被动潜力转化为主动的、目标驱动的行为。
自动化工作流
自动化工作流(或AI编排)是一个任务序列,其中部分任务是预先确定且确定性的,另一些可能是非确定性的,依赖意图解释与函数调用。
你可以把它理解为一个脚本:执行一系列"如果这样就那样(if-this-then-that)"的步骤。它虽然会执行动作,但整体是确定且僵硬的,沿着固定路径运行;它缺乏推理能力,无法动态规划,也无法对未预见情境自适应调整行为。
AI智能体
AI智能体是三者中最复杂的一类。它是一个完整系统,使用LLM作为其"脑"来自主达成目标。智能体是目标导向、有状态且可适应的。不同于简单工作流,智能体能够对环境进行推理、创建动态计划、使用工具执行计划,并从结果中学习以改进未来表现。
例如:当被提示时,LLM可以起草一封邮件;一个自动化工作流可能会在每周一上午9点发送一封预写邮件;而AI智能体则可能被赋予"管理整个收件箱"的任务,能够主动分类邮件,使用工具根据邮件内容安排会议,并提醒用户紧急事项,同时还能随着时间推移学习用户偏好。
为进一步澄清差异,下表给出直接对比:
| 特征 | LLM | 自动化工作流 | AI智能体 |
|---|---|---|---|
| 核心功能 | 基于提示生成文本、回答问题、综合信息。 | 执行预定义、静态的任务序列。 | 自主达成特定目标。 |
| 决策方式 | 模式匹配与概率式文本生成;不做决策。 | 基于硬编码的"if-this-then-that"逻辑;不推理。 | 推理、规划并做出动态决策以应对复杂问题。 |
| 状态与记忆 | 无状态:每次交互都是新的(尽管可传入上下文)。 | 通常无状态;不记住历史执行。 | 有状态:维护短期与长期记忆以学习与适应。 |
| 适应性 | 除非微调或通过新提示技术支持,否则不适应。 | 僵硬:流程变化需要重新编排/重写。 | 高度适应:从经验学习并对环境变化做反应。 |
| 交互模型 | 接收提示,返回响应。 | 被事件触发,执行固定脚本。 | 在持续的"感知-推理-规划-行动"循环中追求目标。 |
| 失败处理 | 被动/无:可能产生看似合理但错误的信息(幻觉)且不自知。 | 僵硬/脆弱:规则被触发时直接失败或进入预置异常路径(如"停止并告警管理员")。 | 有韧性/可自我纠正:能检测错误、反思原因,并用不同策略或工具自主重试。 |
表4.1 -- 对比LLM、自动化工作流与AI智能体
本质上,智能体是一种把前两者能力整合并"抬升"的系统:它利用LLM的推理能力,但将其置于一种结构之中,使其能够以静态工作流无法实现的方式,自主、目标驱动地执行任务。
在这些基础概念与区分明确之后,我们接下来将审视:究竟是什么样的内部结构,把这些强大的智能体特性真正落地为可运行的系统。
智能体的解剖结构(The anatomy of an agent)
如前所述,AI智能体的功能可以通过其核心组件来理解。尽管我们之前的讨论提供了一个高层概览,本节将从架构视角重新审视这一"解剖结构"。
我们现在将这些组件不再仅仅视为概念,而是视为支撑智能体持续运行闭环的功能性构建模块:感知环境、推理形成计划、并采取行动以实现目标。理解这一结构,对于实现后续将介绍的设计模式至关重要。
每个单独的智能体都具备一套内部结构,由以下构建模块组成。下表总结了这些模块及其在架构中的角色:
| 组件 | 核心功能(回顾) | 架构角色与实现方式 |
|---|---|---|
| 目标(Goals)(通过指令指定) | 智能体试图实现的目标或期望结果。 | 定义智能体的目标函数,并指导其高层规划。通常实现为配置参数,或可被更新的动态状态。 |
| 感知(Sense / Perception) | 从环境(数字或物理)中收集信息与数据。 | 作为输入层。可通过API监听器、数据流处理器,或诸如模型上下文协议(Model Context Protocol,MCP)等标准化协议实现。 |
| 推理(Reason / Cognition) | 对感知到的信息进行分析与解释的核心处理单元。 | 认知核心:在此集成"智能体就绪"的LLM。它解释输入,将其与目标进行对照评估,并形成高层策略。 |
| 规划(Plan) | 基于推理洞见设计一系列行动,以实现目标。 | 战术层,同样由LLM驱动。将Reason组件输出的高层策略拆解为具体、按序排列、可执行的步骤或工具调用。 |
| 行动(Act / Action) | 使用可用工具对环境执行计划中的行动。 | 作为输出层。通过调用工具实现:调用外部API、执行代码、向执行器发送指令,或生成响应。 |
| 记忆(Memory) | 存储智能体的知识、经验与状态,为决策提供上下文。 | 负责状态管理。可用当前任务的短期变量实现,并结合长期持久化存储(如用于RAG的向量数据库,或用户偏好存储)。 |
| 协调(Coordinate) | 与其他智能体交互以对齐行动,并朝共同目标协作(主要用于多智能体系统)。 | 智能体间通信层。该组件管理任务全生命周期,跟踪标准化的A2A状态(如submitted、working、input-required、completed)。可通过诸如Agent2Agent(A2A)协议实现,使智能体能够跨分布式边界确定性地委派工作并同步状态。 |
表4.2 -- 智能体组件的架构角色
这些构建模块并非静态存在;它们在一个持续循环中运行。智能体感知环境,在目标与记忆的上下文中对新信息进行推理,制定计划,然后对环境采取行动。
行动结果会在下一轮迭代中被再次感知,从而形成一个强大的反馈环路,使智能体能够随时间学习并调整其行为。正是这种动态运行闭环(建立在这些架构组件之上),构成了我们在本书其余部分将探讨的更复杂行为与设计模式的基础。
为了将这些架构概念从理论过渡到实践,我们接下来将考察两个不同的案例研究。这些示例特意被选取,用以展示智能体解剖结构在不同复杂度尺度下的运作方式。
首先,我们将研究一个旅行规划智能体(Travel Planning Agent) ------一个贴近现实的单智能体系统,它清晰展示了核心构建模块(目标、感知、推理、规划、行动与记忆)如何协同工作,从头到尾完成用户请求。
然后,我们将分析一个智能体式贷款处理系统(Agentic Loan Processing System) ,该案例展示更复杂的多智能体架构。这个企业级示例将突出多个专门化智能体如何协作、协调并共享上下文,以管理一个复杂的端到端业务工作流。
这两个案例合起来,将提供一个实用视角,帮助我们同时理解单智能体的基本组件,以及多智能体系统在实际运行中的架构原则。
案例研究:旅行规划智能体(Travel Planning Agent)
为了更好说明这些构建模块如何协同工作,我们来看一个实际例子:一个自治的旅行规划智能体。该智能体的主要目标是根据用户的自然语言请求,预订一套完整行程,并与各种外部系统交互以完成任务。
下表在该案例语境下拆解智能体解剖结构的各个组件:
| 解剖组件 | 旅行规划智能体示例 |
|---|---|
| 目标(Goals) | 智能体的主要目标是满足用户请求:"下个月订一张往返巴黎的机票,并订一家4星酒店住5晚,总费用控制在2500美元以内。"该目标是动态的:若用户改变主意或提供新约束,它可以被更新。 |
| 感知(Sense / Perception) | 智能体通过处理用户的自然语言请求来获取初始信息。它还会持续"感知"外部系统返回的数据,例如航空公司API返回的可选航班列表,或酒店预订服务返回的价格信息。 |
| 推理(Reason / Cognition) | LLM核心分析用户的显式偏好("巴黎""4星""5晚")以及隐含意图。它解释航班与酒店搜索得到的结构化数据,将选项与预算约束对比,并进行复杂推断以确定最优行程。 |
| 规划(Plan) | 基于推理结果,智能体制定步骤序列:1)将用户请求拆分为子任务(订机票、订酒店);2)执行航班搜索;3)执行酒店搜索;4)分析结果,找出满足全部约束的组合;5)把最终行程呈现给用户确认;6)执行最终预订动作。 |
| 行动(Act / Action) | 智能体通过可用工具执行计划:调用航班搜索API(如search_flights(destination="CDG", month="next"))与酒店API(如find_hotels(city="Paris", rating=4, nights=5))。在用户确认后,再调用预订函数、生成最终确认信息,并更新用户长期画像以便未来交互更个性化。 |
| 记忆(Memory) | 智能体用短期记忆保存用户偏好、找到的航班与酒店选项,以及当前任务的对话历史。它也可能用长期记忆回忆用户过去偏好的航司或酒店品牌,从而在后续建议中实现个性化。 |
| 协调(Coordinate) | 若这是多智能体系统,旅行智能体可能与其他专门化智能体协调。例如,在订好主行程后,它可向"游览项目智能体(Excursion Agent)"委派任务,发送诸如"查找并预订卢浮宫门票"的消息,以协作实现"规划完整旅行"的共同目标。 |
表4.3 -- 用例中的智能体组件
这个例子展示了:智能体解剖结构中的抽象组件如何落地为具体操作。持续的闭环------感知用户需求、对选项推理、规划步骤、并通过工具执行行动------使智能体能够从一个简单请求出发,走向复杂且成功完成的目标。
案例研究:智能体式贷款处理系统(Case study: Agentic Loan Processing System)
下面给出将图1.1"智能体解剖结构"应用到贷款处理场景的一个案例研究:我们使用你所描述的智能体架构中的每个组件,把理论映射到实践,并展示智能体系统如何在一个端到端、全栈式的多智能体贷款审批工作流中运作。
一家金融机构部署了一个多智能体系统,用于自动化并优化其贷款申请流程。该工作流从最初的客户交互一直延伸到最终放款,涵盖数据核验、信用评估、风险评分、合规检查与最终审批等环节。每个智能体专注于流水线中的一个明确阶段,并使用A2A协议进行通信与任务协调,同时访问共享记忆层以保持上下文一致。

图4.2 -- 用例示例:智能体式贷款处理
组件映射(智能体解剖结构在贷款处理中的落地)
| 组件 | 贷款处理智能体示例 |
|---|---|
| 目标(Goals) | 每个智能体都有与其角色对齐的专门化目标:受理智能体(Intake Agent) :收集完整的申请人数据。信用核查智能体(Credit Check Agent) :验证信用历史并标记异常。风险评估智能体(Risk Assessment Agent) :为申请人风险画像打分。合规智能体(Compliance Agent) :验证是否遵循监管规则。审批智能体(Approval Agent) :基于整体输入做出最终贷款决策。 |
| 感知(Sense / Perception) | 智能体通过以下方式收集数据:申请受理表单(自然语言、结构化数据)对征信机构的API调用内部CRM与KYC数据库文档OCR实时市场数据流(用于浮动利率贷款)每个智能体使用MCP,以一致的方式在上下文中访问结构化与非结构化数据。 |
| 推理(Reason / Cognition) | 在LLM驱动下,智能体对以下内容进行推理:金融文档语义(如工资单、银行流水)政策规则与风险指引从申请人问题中推断的意图数据矛盾(如收入不匹配)认知核心会将输入与智能体目标进行对照评估。 |
| 规划(Plan) | 规划是"因智能体而异"的:受理智能体规划补齐缺失信息的追问。信用核查智能体规划要查询哪些征信机构(如Equifax、TransUnion)以及查询顺序,并定义应对API失败或数据不一致的策略。风险智能体根据贷款类型选择评分模型。合规智能体根据司法辖区选择所需的检查项。审批智能体构建决策树,整合来自其他智能体的输出。 |
| 行动(Act / Action) | 智能体通过以下方式行动:发送核验邮件更新CRM中的贷款状态调用API读取或写入数据生成合规审计轨迹(audit trails)在任务完成后触发下游智能体 |
| 记忆(Memory) | 两层结构:短期记忆 :申请人会话级记忆长期记忆:聚合的欺诈模式、历史决策、监管变化记忆支持基于学习的改进(例如针对新的风险指标进行校正)。 |
| 协调(Coordinate) | 协调由A2A协议(Google的Agent2Agent互操作协议)提供支持,作为通信层:提供安全且标准的通道,使智能体能够委派任务并交换信息。允许智能体向委派方回报任务状态(如working、completed、failed)。支持互操作性,使基于不同平台构建的智能体无需共享内部记忆或逻辑,也能协作。 |
表4.4 -- 贷款处理中的智能体解剖结构组件
示意流程:贷款申请生命周期(Illustrative flow: loan application lifecycle)
- 客户提交贷款申请 → 受理智能体解析并写入共享记忆。
- 触发信用核查智能体 → 通过API获取FICO与信用历史。
- 风险智能体对信用 + 收入 + 贷款金额进行推理 → 给出风险评分。
- 合规智能体检查KYC、AML、GDPR与本地银行规则。
- 审批智能体整合输入、对冲突点进行推理,并作出审批决策。
- 若被拒绝,申诉智能体(Appeals Agent) 可提供替代产品(例如担保贷款)。
- 放款智能体(Disbursement Agent) 执行资金发放并更新后端系统。
通过A2A进行多智能体协作(Multi-agent coordination via A2A)
智能体通过诸如A2A这样的既定协议,以结构化任务的形式相互发送消息来协作。这是一种直接通信:发送方智能体把工作明确委派给某个具体的接收方智能体。
例如,编排智能体不会把评分发布到一个通用消息总线上;它会先向风险智能体 发送一个任务。收到结果后,再向审批智能体发送新任务,并将风险评分作为payload的一部分。这就形成了一条清晰、可审计的委派链路。
争议或边界情形(例如临界信用分)可以触发一个"审议循环(deliberation loop)"。这通过一系列A2A消息来实现:智能体可以交换提议、反提议,或把任务升级给另一个智能体或人工人员以完成裁决。
将智能体解剖结构用于贷款处理的收益
将智能体解剖结构应用到贷款处理,带来的收益包括:
- 响应性(Responsiveness): 智能体能对实时数据变化做出反应(例如信用分波动)。
- 设计即合规(Compliance by design): 规则以模块化形式嵌入智能体与共享策略层。
- 透明性(Transparency): 记忆日志与推理轨迹有助于审计与监管检查。
- 适应性(Adaptability): 智能体可以独立演进;例如可用更新的LLM模型替换风险智能体。
这些收益表明:智能体的内部结构如何支撑智能且具韧性的行为。然而,这种智能并不只来源于内部设计;它在关键程度上依赖于智能体能够从环境中访问到的数据的丰富性与相关性。接下来,我们将考察智能体在感知、推理与行动时所依赖的各类数据存储与上下文来源。
智能体的数据存储与环境上下文(Data stores and environment context for agents)
正如我们在第1章强调的那样,上下文为王(context is king) ;而对必须做出明智决策并采取恰当行动的智能体系统而言,这一原则尤为成立。智能体在感知、推理与行动时高度依赖来自其周边的各种数据存储与上下文信息,才能有效地运作。
下图展示了这种高风险的动态:它对比了两类情况------一类是上下文丰富、锚定良好的健康工作流,能够支撑准确推理;另一类是一些特定失败模式,例如记忆陈旧或检索失败,导致错误行动。

图4.3 -- 上下文输入与锚定失败对比(Contextual inputs versus grounding failures)
智能体的环境上下文大体可以分为如下两类:
数字化业务上下文(Digital business context)
这涵盖了智能体在企业或在线环境中可能交互或获取信息的全部相关数字数据源。关键类型包括:
- 非结构化数据(Unstructured data):
包括大量存在于文本文档(报告、邮件、文章)、图像、音频与视频文件中的信息。LLM尤其擅长处理与理解非结构化文本。 - 向量存储(Vector stores):
这类专用数据库对在embedding上进行高效相似度搜索至关重要。当智能体需要查找与查询在语义上相近的信息时,向量存储允许基于"含义"而非仅关键词进行快速检索。这是许多RAG系统的核心组件。实现通常分为两类:
1)用于本地或自托管控制的开源库与数据库(如FAISS、Weaviate、Chroma);
2)用于可扩展性与易管理性的商业托管服务(如Pinecone、Google Vertex AI Vector Search)。 - 结构化数据(Structured data):
指通常存在于关系型数据库或电子表格中的组织化数据,提供定义明确的数据点,智能体可以查询以完成特定任务,例如检索客户记录或产品信息。 - 知识图谱(Knowledge graphs):
将信息表示为实体及其关系的网络,提供对领域的结构化语义理解。知识图谱对需要围绕互相关联概念进行复杂推理的智能体尤其有用。
物理环境上下文(Physical environment context)
针对需要与真实世界交互的智能体(如机器人或IoT驱动系统),该上下文包括:
- 传感器(Sensors):
摄像头、麦克风、温度传感器、GPS定位器等设备提供关于物理环境的数据。 - 执行器(Actuators):
机械臂、电机、开关等组件允许智能体执行物理动作或操纵环境中的对象。
有效的智能体往往需要整合来自多种数据存储的信息,并能够对这些不同上下文进行综合,以构建对其所处情境的全面理解。
为使这些概念更具体,我们考虑一个供应链管理智能体(Supply Chain Management agent) :其任务是实时监控并优化公司的库存与物流。该智能体必须处理来自多个数字系统的信息,并可能与实体仓库组件交互,以应对中断事件。
下表展示了该智能体如何与不同数据存储与环境上下文交互以履行职责。
| 上下文 / 数据存储 | 供应链管理智能体示例 |
|---|---|
| 数字化业务上下文 | 智能体运行的数字世界,包含公司的全部运营数据。 |
| 非结构化数据 | 智能体处理运输清单(PDF)、供应商延迟通知邮件,以及关于港口罢工或极端天气的新闻文章,以理解潜在中断。 |
| 向量存储 | 当检测到新的地缘政治事件时,智能体使用向量存储进行语义检索,查找内部白皮书中"类似历史事件如何影响航运通道"的内容,并检索最相关的历史上下文。 |
| 结构化数据 | 智能体查询关系型数据库以获取特定SKU的当前库存水平,检查预计交付日期,并拉取仓库容量信息。 |
| 知识图谱 | 智能体利用知识图谱理解供应商、制造工厂、配送中心与最终零售目的地之间复杂的多层级关系,从而推理出:某个组件供应商的延迟会影响三个特定产品线。 |
| 物理环境上下文 | 智能体可感知并可作用的现实世界要素,通常通过IoT设备实现。 |
| 传感器 | 智能体接收来自卡车GPS追踪器的连续数据流、冷藏集装箱的温度传感器数据(用于确保产品完好性),以及仓库装卸口RFID扫描器的到货确认数据。 |
| 执行器 | 若智能体预测主线路将发生重大中断,它可以在智能仓库中自动触发执行器(如传送带或机械臂),把受影响托盘改道到另一个装卸口,以走备用运输线路。 |
表4.5 -- 数据存储与环境上下文示例
这个供应链案例强调:一个有效的智能体必须能够流畅地整合来自广泛来源的信息------从结构化库存数据库,到非结构化新闻流,再到真实世界的传感器数据。正是这种跨上下文的感知与推理能力,使其具备智能且主动的行为。
在探讨了智能体的内部解剖结构及其所依赖的外部数据之后,接下来我们将考察:这些组件在架构上能够支持哪些特性,以及智能体之间是如何交互的。
智能体交互模型与关键特性(Agent interaction models and key features)
前文讨论的架构组件与上下文感知能力,会在设计良好的智能体系统中自然"涌现"出一系列强大的特性。这些特性定义了智能体如何运行、如何被组织结构化,以及它们如何彼此交互并与环境互动。理解这些特征,是认识基于智能体方法所带来优势的关键。
为了更细致地展开这些优势,本节将深入两个重点领域:我们将先考察由智能体设计所带来的内在架构特性(例如模块化、可扩展性与可适应性),随后转向更实践层面的智能体交互模型,讨论智能体如何直接与间接通信,并介绍支撑这种协作的新兴技术栈。
架构特性(Architectural features)
如我们之前简要勾勒的那样,一个设计良好的智能体架构会产生若干强大的特性,从而提升系统的灵活性、鲁棒性与智能性。为避免重复,本节不再重新定义这些概念,而是将继续以贯穿的供应链管理智能体系统作为一致示例,说明这些特性如何转化为实际收益。
下表展示了每项关键架构特性在实践中的应用方式:
| 架构特性 | 供应链管理系统中的示例 |
|---|---|
| 模块化(Modularity) | 供应链系统需要为运输发票引入更强的欺诈检测能力。无需重建既有的InventoryAgent,只需开发并接入一个新的专门化InvoiceFraudAgent加入工作流。若欺诈检测模型需要更新,也只影响该特定智能体。 |
| 可扩展性(Scalability) | 在节假日运输高峰期,系统需要处理来自配送卡车的GPS数据激增,于是动态并行部署多个LogisticsAgent实例。负载均衡器将路径优化任务分发到这些实例上,确保系统保持响应。 |
| 可适应性(Adaptability) | SupplierCommsAgent观察到:来自"Supplier-X"的邮件中出现"production delay"短语,往往会在随后引发关键库存短缺。基于这一学习到的关联关系,智能体调整其行为:未来任何包含这些关键词的邮件自动升级为"urgent",并立即告警InventoryAgent。 |
| 多模态交互(Multimodal interaction) | 在仓库中,ReceivingDockAgent先处理文本形式的运输清单(PDF),再用摄像头对到货托盘进行目视检查以识别破损箱体(图像数据)。它基于组合信息采取行动:仅当视觉检查与清单描述一致时,才更新库存系统。 |
| 协作(Collaboration) | DisruptionMonitoringAgent从新闻流中检测到港口关闭,并在共享数据库中更新状态。InventoryAgent感知到该变化后,向LogisticsAgent发送直接消息请求替代运输线路,从而触发两名智能体之间的协同处置。 |
表4.6 -- 供应链管理智能体的架构特性
该表展示了这些内在特性如何在实际应用中体现。接下来,我们将从这些高层属性切换到:支配智能体彼此交互方式的具体模型。
智能体交互模型(Agent interaction models)
当多个智能体在同一环境中运行时,它们的交互方式就成为系统设计的关键部分。所选择的模型将决定智能体如何协调、如何共享信息,以及如何共同达成集体目标。
为实现这种协调,智能体系统通常采用两种基本交互模型,它们的差异在于信息交换方式:
直接通信(Direct communication)
在该模型中,智能体使用共同语言与协议,显式向彼此发送消息。
示例: InventoryAgent检测到库存不足,向ProcurementAgent发送直接消息:
{"task": "reorder_part", "part_id": "XYZ-123", "quantity": 500}
间接通信(Stigmergy,迹象通信)
智能体也可以通过观察并修改共享环境(例如数据库)来间接交互。
示例: ManufacturingAgent在共享数据库中把记录更新为{"status": "complete"}。监控该数据库的LogisticsAgent看到状态变化后,启动发货流程。

图4.4 -- 智能体交互模型
上述模型描述的是"概念层"的通信方式,而在实践中,交互的落地依赖一个正在形成的新兴技术栈。正如我们之前介绍的,这个技术栈由互补的多层构成,支撑不同形式的交互。这里我们重新回顾这些层,并说明它们如何在实践中促进"智能体-工具"和"智能体-智能体"的通信:
新兴技术栈分层(Emerging technology stack)
第1层:函数调用(Function calling)
这是最基础的交互层:智能体的LLM触发本地工具调用。它让模型能够在单一应用运行时内,智能判断"用什么工具、何时调用、带什么参数"。这是让LLM不再只是文本生成器、而能采取行动的第一大步。其主要限制在于:开发者需要负责在同一环境中托管、运行并保护该工具。
示例: LogisticsAgent的LLM判断需要找到最高效的配送路径,于是生成对其内部calculate_optimal_route()函数的调用。
第2层:工具协议(Tool protocols)
该层提供一种标准化方式,让智能体以"可互操作服务"的形式发现并使用外部工具。诸如Anthropic的模型上下文协议(MCP)等协议,将工具的托管与执行从智能体自身解耦。相比之下,诸如LangChain的ToolExecutor或LangGraph路由器等框架内方案,通常在特定应用运行时内管理执行(往往要求共享依赖)。而MCP这类协议允许通过schema定义工具并独立托管,使任何符合协议的系统都能跨进程或跨网络边界发现与调用它们------等价于把工具变成"可移植服务",类似REST API。
示例: 为考虑天气因素,LogisticsAgent通过工具协议发现并连接第三方天气服务API,将实时风暴数据拉入路径计算,而无需与该API实现强绑定。
第3层:智能体到智能体协议(Agent-to-agent protocols)
这是最高层,聚焦于独立智能体之间的协作,这些智能体可能运行在不同框架上,甚至属于不同企业。尽管存在私有或框架特定的委派方式,诸如A2A(agent-to-agent)这样的协议关注"通用标准"的智能体协作:它为结构化任务委派、异步工作流管理与复杂多智能体协同提供标准,充当一种通用翻译器,甚至可被视为"AI智能体的SMTP"。
示例: LogisticsAgent算出线路后需要预订海运,于是通过A2A协议向完全独立的FreightForwarderAgent发送结构化任务;该智能体由第三方物流公司运营。

图4.5 -- 新兴智能体技术栈
许多成熟系统会采用混合方式:内部动作使用函数调用,而跨系统/跨组织的外部协作则使用更高层协议。
智能体架构的技术考量(Technical considerations for agentic architectures)
要构建本章所架构的那种健壮且有效的智能体系统,在技术上是一项要求很高的任务。正如我们在对生产级挑战的高层概览中最先识别到的那样,要成功部署这些智能体,必须跨越若干关键技术门槛。
本节不再重复罗列那些挑战,而是把它们直接锚定到我们刚刚详细拆解的智能体解剖结构上。下表将关键技术考量映射到它们最主要影响的架构组件,从而更清晰地指出:这些挑战在你的设计中会"落到哪里"。
| 技术考量 | 主要受影响的架构组件 |
|---|---|
| 数据处理与集成(Data processing and integration) | 感知(Sense)、记忆(Memory) |
| 知识表示(Knowledge representation) | 推理(Reason)、记忆(Memory) |
| LLM集成与编排(LLM integration and orchestration) | 推理(Reason)、规划(Plan)、协调(Coordinate) |
| 可靠的工具使用机制(Reliable tool use mechanisms) | 行动(Act) |
| 状态管理与记忆(State management and memory) | 记忆(Memory) |
| 智能体群体的可扩展性(Scalability of agent populations) | 协调(Coordinate)、整体系统架构(Overall system architecture) |
| 智能体间通信效率(Inter-agent communication efficiency) | 协调(Coordinate) |
| 安全与治理(Security and governance) | 推理(Reason:提示注入 Prompt Injection)、行动(Act:沙箱 Sandboxing)、记忆(Memory:隐私 Privacy)、协调(Coordinate:认证/授权 AuthN/AuthZ) |
表4.7 -- 将技术挑战映射到智能体组件
要成功应对这些技术考量,意味着需要沿着一条逐步精炼这些能力的路径前进------而这条路径与**第1章的GenAI成熟度模型(GenAI Maturity Model)**各阶段是对齐的。
本章对智能体解剖结构、对数据的依赖、以及交互模型的探讨,为理解更复杂的智能体行为奠定了基础。在接下来的章节中,我们将基于这一架构底座,进一步考察一系列具体设计模式:它们利用这些组件来解决构建高级AI系统时常见的挑战。
总结(Summary)
本章在第一部分(Part 1)的基础概念之上,提供了一份由LLM驱动的智能体系统的详细架构蓝图。我们从理论走向结构:定义了什么使一个系统具备"智能体性(agentic)",拆解了支撑智能行为的核心组件,并把关键技术挑战直接映射到这一新的架构框架之中。
关键要点如下:
- 智能体不只是LLM: AI智能体是一个完整系统,其特征在于自主性(autonomy)、目标导向(goal-orientation),以及感知、推理与行动的能力。它以LLM作为认知核心,但不同于简单的、无状态的LLM交互。
- 智能体的解剖结构: 我们从架构角色角度框定了关键构件------目标(Goals)、感知(Sense)、推理(Reason)、规划(Plan)、行动(Act)、记忆(Memory)与协调(Coordination)------并置于一个持续运行闭环中,展示智能体如何从感知走向目标导向的行动。
- 上下文对智能至关重要: 智能体的有效性在关键程度上依赖其环境。它必须从丰富的数字化数据存储(如数据库与知识图谱)中汲取上下文,且在需要时也可能依赖物理数据源(如传感器)来做出明智决策。
- 交互定义系统形态: 智能体系统以模块化与可扩展性等特征为标志。智能体通过直接与间接通信模型进行交互,而这类交互越来越多地由一套实践性的协议栈所支撑:函数调用、工具协议与智能体到智能体协作。
- 架构是模式的基础: 理解本章给出的核心架构,是设计与实现可复用的智能体模式(用于解决真实业务问题)的必要前提------这些模式将贯穿本书后续内容。
在本章中,我们已经建立了单个智能体的架构蓝图 。现在我们准备进一步探索:如何将这些智能体组织成强大的协作系统。在下一章,我们将深入第一组至关重要的设计模式------多智能体协调模式(multi-agent coordination patterns) 。
这些模式提供了管理多智能体交互、共享信息与协同工作的策略与解决方案,使系统能够处理任何单一智能体都难以独立完成的复杂挑战。