google11月agent发展白皮书

智能体及智能体架构简介

智能体是语言模型的自然演进，在软件领域实现了实用化落地。

从预测性人工智能到自主智能体

人工智能正在发生变革。多年来，行业焦点一直集中在擅长被动、离散任务的模型上：回答问题、翻译文本或根据提示生成图像。这种模式虽功能强大，但每一步都需要人类持续指导。如今，我们正见证一场范式转移------从仅能预测或生成内容的人工智能，迈向具备自主问题解决与任务执行能力的新型软件。

这一新前沿围绕人工智能智能体展开。智能体并非静态工作流中的单纯人工智能模型，而是能够制定计划、采取行动以实现目标的完整应用。它融合了语言模型（LM）的推理能力与实际行动能力，能够处理单一模型无法完成的复杂、多步骤任务。其核心优势在于可自主工作，无需人类步步引导，就能自主规划达成目标所需的后续步骤。

本文是五部分系列文档的第一篇，为正从概念验证向稳健、生产级智能体系统转型的开发者、架构师和产品负责人提供正式指南。构建简单原型虽轻而易举，但确保系统的安全性、质量与可靠性则极具挑战。本文提供了全面的基础知识框架：

核心构成：将智能体拆解为三大关键组件------推理模型（Model）、可执行工具（Tools）与控制编排层（Orchestration Layer）。
能力分类法：将智能体从简单的联网问题解决者，划分为复杂的协作式多智能体系统等不同级别。
架构设计：深入探讨各组件的实际设计考量，从模型选择到工具实现。
面向生产环境构建：建立智能体运维（Agent Ops）规范，实现智能体系统从单个实例到企业级集群的评估、调试、安全防护与规模化扩展，并纳入企业治理体系。

本文基于此前发布的《智能体白皮书》¹ 与《智能体配套指南》² 编写，提供了构建、部署和管理新一代智能应用所需的基础概念与战略框架------这类应用能够通过推理、行动和观察来达成目标³。

用语言描述人类与人工智能的互动方式存在局限性。我们倾向于将其拟人化，使用"思考""推理""知晓"等人类专属词汇。目前，我们尚无专门术语区分"基于语义的知晓"与"基于奖励函数最大化概率的知晓"------这是两种不同类型的认知，但99.X%的情况下会产生相同结果。

智能体简介

简而言之，人工智能智能体可定义为模型、工具、编排层与运行时服务的组合，通过语言模型的循环调用实现目标。这四大要素构成了任何自主系统的核心架构：

模型（"大脑"）：作为智能体核心推理引擎的语言模型（LM）或基础模型，负责处理信息、评估选项并做出决策。模型类型（通用型、微调型或多模态型）决定了智能体的认知能力。智能体系统是语言模型输入上下文窗口的终极管理者。
工具（"双手"）：将智能体的推理能力与外部世界连接的机制，使其能够超越文本生成开展行动。包括API扩展、代码函数和数据存储（如数据库或向量数据库），用于获取实时、真实的信息。智能体系统允许语言模型规划工具使用方案、执行工具调用，并将工具返回结果纳入下一次语言模型调用的输入上下文窗口。
编排层（"神经系统"）：管理智能体运行循环的控制流程，负责规划、记忆（状态）与推理策略执行。该层借助提示框架和推理技术（如思维链⁴ 或反应式推理⁵），将复杂目标拆解为步骤，并决定何时进行推理、何时使用工具。此外，编排层还负责为智能体提供"记忆"能力。
部署（"身体与四肢"）：在笔记本电脑上构建智能体适用于原型开发，而生产级部署是使其成为可靠、可访问服务的关键。这包括将智能体部署在安全、可扩展的服务器上，并集成监控、日志记录和管理等核心生产服务。部署完成后，用户可通过图形界面访问智能体，其他智能体也可通过智能体间（A2A）API以编程方式调用。

归根结底，构建生成式人工智能智能体是一种解决任务的新型方案开发方式。传统开发者如同"砖瓦匠"，需精确定义每一个逻辑步骤；而智能体开发者更像"导演"------无需为每个动作编写明确代码，而是搭建场景（提供指导指令和提示）、挑选"演员"（工具和API）并提供必要背景（数据）。其核心任务是引导这个自主"演员"呈现预期效果。

你很快会发现，语言模型最大的优势------极强的灵活性，也可能成为最大的痛点。大型语言模型的"全能性"使其难以始终可靠、完美地完成某一特定任务。我们过去称之为"提示工程"、如今称为"上下文工程"的技术，正是为了引导语言模型生成预期输出。每次调用语言模型时，我们都会输入指令、事实、可用工具、示例、会话历史、用户画像等信息，为上下文窗口填充恰好所需的内容，以获取理想输出。智能体正是通过管理语言模型的输入来完成工作的软件。

当出现问题时，调试至关重要。"智能体运维（Agent Ops）"本质上重新定义了熟悉的"衡量-分析-系统优化"循环。通过追踪和日志，你可以监控智能体的"思考过程"，识别偏离预期执行路径的情况。随着模型演进和框架升级，开发者的职责是提供关键组件：领域专业知识、明确的角色设定，以及与实际任务完成所需工具的无缝集成。需谨记，全面的评估与验证往往比初始提示的影响更为重要。

当智能体配置了清晰的指令、可靠的工具、集成上下文（作为记忆）、优质的用户界面，具备规划与问题解决能力及通用世界知识时，它将超越"工作流自动化"的范畴，成为协作实体------高效、适应性强且能力卓越的团队新成员。

本质上，智能体是专注于上下文窗口管理的系统。它通过持续循环实现目标：整合上下文、提示模型、观察结果，再为下一步整合新的上下文。上下文可能包括系统指令、用户输入、会话历史、长期记忆、来自权威来源的事实依据、可用工具列表及已调用工具的结果。这种对模型注意力的精细化管理，使其推理能力能够应对新场景、达成目标。

智能体问题解决流程

我们将人工智能智能体定义为整合推理模型、可执行工具与控制编排层的完整、目标导向型应用，简而言之是"通过工具循环调用语言模型实现目标"。

但这个系统实际如何运作？从接收请求到交付结果，智能体经历了哪些过程？

智能体的核心运作机制是通过持续的循环流程实现目标。尽管这个循环可能极为复杂，但如《智能体系统设计》一书⁶ 详细阐述的，可拆解为五个基本步骤：

明确任务（Get the Mission）：流程由具体的高阶目标启动。该任务可由用户发起（例如，"为团队即将参加的会议安排行程"），也可由自动触发器触发（例如，"收到新的高优先级客户工单"）。
环境扫描（Scan the Scene）：智能体感知环境以收集上下文信息。编排层会调用可用资源："用户请求包含哪些内容？""我的短期记忆中有哪些信息？我是否已尝试执行该任务？用户上周是否提供过相关指导？""通过日历、数据库或API等工具，我能获取哪些信息？"
思考规划（Think It Through）：这是智能体由推理模型驱动的核心"思考"循环。智能体结合任务（步骤1）与环境信息（步骤2）制定计划，通常涉及一系列推理过程："要预订行程，首先需确认团队成员名单，我将使用获取团队名单工具；之后通过日历API查询他们的可用时间。"
执行动作（Take Action）：编排层执行计划的首个具体步骤，选择并调用相应工具------调用API、运行代码函数或查询数据库。这是智能体作用于自身内部推理之外世界的关键环节。
观察迭代（Observe and Iterate）：智能体观察动作执行结果（例如，获取团队名单工具返回5个成员姓名），并将新信息添加到上下文或"记忆"中。随后循环返回步骤3："既然已获取成员名单，下一步需通过日历API查询这5人的可用时间。"

这种"思考-行动-观察"循环在编排层的管理、模型的推理与工具的执行下持续进行，直至智能体完成内部计划并达成初始任务目标。

图1：智能体问题解决流程

以下以客户支持智能体为例，说明其如何遵循这五个步骤运作：

假设用户询问："我的订单#12345在哪里？"

智能体不会立即行动，而是先进入"思考规划"阶段制定完整策略，推理过程如下：

"用户需要配送状态。要提供完整答案，需执行多步骤计划：

确认订单：首先在内部数据库中查找该订单，核实其存在性并获取详情。
追踪物流：从订单详情中提取快递公司追踪号，通过外部快递公司API查询实时状态。
反馈结果：将收集到的信息整合为清晰、实用的回复反馈给用户。"

制定完多步骤计划后，智能体开始执行：

首次"执行动作"阶段：调用find_order("12345")工具（计划第一步），观察结果------获取包含追踪号"ZYX987"的完整订单记录。
编排层识别到计划第一步完成，立即推进至第二步：调用get_shipping_status("ZYX987")工具，观察新结果------"正在配送中"。
完成数据收集后，智能体进入"反馈结果"步骤：确认已获取所有必要信息，规划最终回复并生成内容："您的订单#12345正在配送中！"

智能体系统分类法

理解五步骤运行循环是基础，其次需认识到该循环的复杂度可逐步提升，进而形成不同类别的智能体。对于架构师或产品负责人而言，首要决策是明确需构建的智能体类型。

我们可将智能体系统划分为多个级别，每个级别均基于前一级别的能力构建：

图2：智能体系统五级分类

第0级：核心推理系统

构建智能体的基础是最简化的"大脑"------推理引擎本身。在这一级别，语言模型（LM）独立运行，仅基于其庞大的预训练知识响应请求，无任何工具、记忆或与实时环境的交互能力。

其优势在于丰富的训练数据，能够深入解释已确立的概念并规划问题解决路径；但缺点是完全缺乏实时感知能力，对训练数据之外的事件和事实"视而不见"。

例如，它可以解释职业棒球规则和纽约洋基队的完整历史，但如果询问"昨晚洋基队比赛的最终比分是多少？"，则无法给出答案------该比赛是训练数据收集后发生的具体现实事件，相关信息并未存储在模型中。

第1级：联网问题解决者

这一级别的推理引擎通过连接并使用外部工具（架构中的"双手"组件），成为具备实际功能的智能体。其问题解决能力不再局限于静态的预训练知识。

借助五步骤循环，智能体可回答前文提出的问题。给定任务"昨晚洋基队比赛的最终比分是多少？"，其"思考"步骤识别到需要实时数据，"执行动作"步骤调用工具（如带日期和搜索词的谷歌搜索API），"观察"搜索结果（例如"洋基队5-3获胜"），并将该事实整合为最终答案。

这种与世界交互的核心能力------无论是通过搜索工具获取比分、通过金融API获取实时股价，还是通过检索增强生成（RAG）查询数据库------是第1级智能体的关键特征。

第2级：策略性问题解决者

第2级智能体的能力实现重大扩展，从执行简单任务升级为策略性规划复杂、多部分目标。其核心新增技能是上下文工程：智能体能够主动选择、整合并管理每个步骤所需的最相关信息。

智能体的准确性依赖于聚焦、高质量的上下文。上下文工程通过优化模型的有限注意力，避免信息过载，确保高效运行。

例如，给定任务"在我位于山景城圆形剧场公园大道1600号的办公室，与客户位于旧金山市场街1号的办公室之间，找一家优质咖啡店"，第2级智能体将制定如下计划：

思考："首先需确定中点位置。"
1. 行动：调用地图工具，输入两个地址。
2. 观察："中点位于加利福尼亚州米尔布雷市。"
思考："现在需查找米尔布雷市的咖啡店。用户要求'优质'，因此筛选评分4星及以上的店铺。"
1. 行动：调用谷歌地图位置工具，查询条件为"加利福尼亚州米尔布雷市咖啡店"，最低评分4.0（这是上下文工程的体现------根据上一步结果自动生成聚焦的新搜索查询）。
2. 观察："搜索结果返回'米尔布雷咖啡店'和'每日研磨咖啡店'。"
思考："整合结果并反馈给用户。"

这种策略性规划还支持主动协助，例如智能体读取冗长的航班确认邮件后，提取关键上下文（航班号、日期）并自动添加到用户日历中。

第3级：协作式多智能体系统

这一级别实现了范式的彻底转变：不再构建单一、全能的"超级智能体"，而是打造"专家团队"协同工作------这一模式与人类组织架构高度契合。系统的整体优势源于分工协作。

在此模式中，智能体将其他智能体视为工具。例如，"项目经理"智能体收到任务"推出新款'Solaris'耳机"，不会独自完成所有工作，而是像现实工作场景中那样，为专业智能体团队分配新任务：

委派给市场研究智能体："分析降噪耳机的竞争对手定价，明日前提交摘要文档。"
委派给营销智能体："以'Solaris'产品规格说明书为上下文，起草三份新闻稿。"
委派给网页开发智能体："根据附加的设计原型，生成新产品页面的HTML代码。"

尽管目前受限于现有语言模型的推理能力，但这种协作模式代表了端到端自动化复杂业务流程的前沿方向。

第4级：自进化系统

第4级智能体实现了从"委派任务"到"自主创造与适应"的飞跃。这一级别的智能体系统能够识别自身能力缺口，并动态创建新工具甚至新智能体来填补这些缺口------从使用固定资源升级为主动扩展资源。

延续前文示例，负责"Solaris"耳机推出任务的"项目经理"智能体若意识到需要监控社交媒体舆情，但团队中无相关工具或智能体，将采取以下行动：

思考（元推理）："需追踪'Solaris'的社交媒体讨论，但缺乏相关能力。"
行动（自主创建）：调用高阶智能体创建工具（AgentCreator），发起新任务："构建一个新智能体，监控包含'Solaris耳机'关键词的社交媒体内容，执行情感分析，并每日提交摘要报告。"
观察：新的专业情感分析智能体被实时创建、测试并加入团队，随时为初始任务提供支持。

这种能够动态扩展自身能力的自主性，使智能体团队成为真正具备学习和进化能力的组织。

智能体核心架构：模型、工具与编排

我们已了解智能体的功能与规模化路径，但如何实际构建？从概念到代码的落地，关键在于三大核心组件的具体架构设计。

模型：智能体的"大脑"

语言模型是智能体的推理核心，其选择是决定智能体认知能力、运行成本和速度的关键架构决策。但将选择标准简化为"挑选基准测试得分最高的模型"，往往会导致失败。在生产环境中，智能体的成功很少由通用学术基准决定。

实际场景的成功需要模型在智能体核心能力上表现卓越：具备应对复杂多步骤问题的出色推理能力，以及与世界交互的可靠工具使用能力⁷。

要实现这一点，首先需明确业务问题，然后基于与业务结果直接相关的指标测试模型。例如，若智能体需编写代码，需在私有代码库上测试；若处理保险理赔，需评估其从特定文档格式中提取信息的能力。此外，还需综合考量成本和延迟等实际因素。"最佳"模型是在特定任务中，质量、速度和价格达到最优平衡的模型⁸。

你也可以选择多个模型组成"专家团队"------无需用大锤敲坚果。稳健的智能体架构可能采用前沿模型（如Gemini 2.5 Pro）处理初始规划和复杂推理等核心工作，同时将用户意图分类、文本摘要等简单高量任务，智能路由至更快、更经济的模型（如Gemini 2.5 Flash）。模型路由可自动执行或硬编码，是优化性能与成本的关键策略⁹。

处理多种数据类型时同理：虽然Gemini实时模式¹⁰等原生多模态模型提供了处理图像和音频的简化路径，但也可选择Cloud Vision API¹¹或语音转文字API¹²等专业工具------先将多模态信息转换为文本，再传递给纯语言模型进行推理。这种模式增加了灵活性，可整合各领域最优组件，但也带来了显著的复杂度。

最后需注意，人工智能领域正处于快速迭代阶段，当前选择的模型可能在六个月后被超越。"一劳永逸"的思维不可持续。应对这一现实，需构建灵活的运行框架------即"智能体运维（Agent Ops）"规范¹³。通过强大的CI/CD流水线，持续基于关键业务指标评估新模型，可降低升级风险、加速迭代，确保智能体始终采用最优模型，且无需彻底重构架构。

工具：智能体的"双手"

如果说模型是智能体的大脑，工具就是连接推理与现实的双手。它们使智能体能够突破静态训练数据的限制，获取实时信息并采取实际行动。稳健的工具接口包含三个环节：定义工具功能、调用工具、观察结果。

以下是智能体开发者常用的主要工具类型（更多细节详见本系列中聚焦工具的白皮书）：

获取信息：扎根现实

最基础的工具是获取最新信息的能力。检索增强生成（RAG）为智能体提供了查询外部知识的"图书馆借阅证"------外部知识通常存储在向量数据库或知识图谱中，涵盖企业内部文档到谷歌搜索获取的网络知识。对于结构化数据，自然语言转SQL（NL2SQL）工具允许智能体查询数据库，解答"上季度最畅销产品是什么？"等分析类问题。通过在输出前查询文档或数据库，智能体能够基于事实进行回应，大幅减少幻觉现象。

执行动作：改变世界

智能体的真正力量在从"读取信息"转向"主动行动"时释放。通过将现有API和代码函数封装为工具，智能体可发送邮件、安排会议或更新ServiceNow中的客户记录。对于更动态的任务，智能体还能实时编写并执行代码：在安全沙箱中生成SQL查询或Python脚本，解决复杂问题或执行计算，从"知识助手"转变为"自主行动者"¹⁴。

这还包括人类交互工具：智能体可通过人机协同（HITL）工具暂停工作流，请求确认（如ask_for_confirmation()）或从用户界面获取特定信息（如ask_for_date_input()），确保关键决策有人类参与。人机协同可通过短信和数据库任务实现。

函数调用：连接智能体与工具

智能体要可靠地实现"函数调用"和工具使用，需要清晰的指令、安全的连接和编排能力¹⁵。OpenAPI规范等成熟标准提供了结构化契约，描述工具的用途、必填参数和预期响应，使模型能够每次生成正确的函数调用并解析API返回结果。对于工具的简化发现与连接，模型上下文协议（MCP）等开放标准因其便捷性而广受青睐¹⁶。此外，部分模型内置原生工具，例如Gemini集成的谷歌搜索功能，函数调用可直接作为语言模型调用的一部分完成¹⁷。

编排层

如果说模型是大脑、工具是双手，编排层就是连接二者的中枢神经系统。它是运行"思考-行动-观察"循环的引擎，是控制智能体行为的状态机，也是开发者精心设计的逻辑落地之处。编排层并非简单的"管道"，而是整个智能体系统的"指挥家"------决定模型何时推理、工具何时行动，以及行动结果如何指导下一步流程。

核心设计选择

首要架构决策是确定智能体的自主程度，这一选择呈连续光谱：一端是确定性、可预测的工作流，将语言模型作为特定任务的工具，通过少量人工智能增强现有流程；另一端是语言模型主导，动态适应、规划并执行任务以达成目标。

并行的设计选择是实现方式：无代码构建工具注重速度和易用性，助力业务用户快速自动化结构化任务、构建简单智能体；对于更复杂、关键任务系统，代码优先框架（如谷歌智能体开发工具包ADK¹⁸）提供工程师所需的深度控制、定制化和集成能力。

无论采用哪种方式，生产级框架都需满足以下要求：

开放性：支持接入任意模型或工具，避免供应商锁定；
精确控制：支持混合模式，通过硬编码业务规则约束语言模型的非确定性推理；
可观测性：当智能体行为异常时，无法直接在模型"思考过程"中设置断点，因此框架需生成详细追踪和日志，暴露完整推理轨迹------包括模型内部思考过程、选择的工具、生成的参数和观察到的结果。

注入领域知识与角色设定

在该框架中，开发者最强大的工具是为智能体注入领域知识和明确角色，这通过系统提示或核心指令实现。这并非简单的命令，而是智能体的"行为准则"------例如，"你是Acme公司的客户支持智能体......"，同时明确约束条件、预期输出格式、交互规则、语气风格，以及使用工具的时机和原因。在指令中加入示例场景通常能显著提升效果。

补充上下文信息

智能体的"记忆"在运行时被整合到语言模型的上下文窗口中（更多细节详见本系列中聚焦记忆的白皮书）。

短期记忆是智能体的实时"草稿本"，记录当前会话的运行历史，追踪循环中的（动作、观察）对序列，为模型提供决策所需的即时上下文。可通过状态、工件、会话或线程等抽象概念实现。

长期记忆支持跨会话持久化，在架构上通常作为专用工具实现------连接向量数据库或搜索引擎的检索增强生成（RAG）系统。编排层使智能体能够预加载并主动查询自身历史，"记住"用户偏好或数周前类似任务的结果，提供个性化、连续性的体验¹⁹。

多智能体系统与设计模式

随着任务复杂度提升，构建单一全能"超级智能体"的效率会降低。更有效的方案是采用"专家团队"模式------与人类组织架构一致。这是多智能体系统的核心：将复杂流程拆分为独立子任务，分配给专门的专业人工智能智能体。这种分工使每个智能体更简单、聚焦，更易于构建、测试和维护，适用于动态或长期运行的业务流程。

架构师可采用成熟的智能体设计模式（尽管智能体能力及相关模式仍在快速演进）²⁰：

协调者模式（Coordinator Pattern）：适用于动态或非线性任务。引入"管理者"智能体分析复杂请求、拆分主任务，并将子任务智能路由至相应专业智能体（如研究员、撰稿人或程序员），最后整合所有专业智能体的响应，形成完整最终答案。
序列模式（Sequential Pattern）：适用于线性工作流，类似数字装配线，前一个智能体的输出直接作为下一个智能体的输入。
迭代优化模式（Iterative Refinement Pattern）：聚焦质量与安全性，通过反馈循环实现------生成器智能体创建内容，评估器智能体根据质量标准进行评估。
人机协同模式（Human-in-the-Loop Pattern）：适用于高风险任务，在工作流中设置明确暂停点，需人类批准后智能体才能执行重要行动。

图3："迭代优化"模式（来源： https://cloud.google.com/architecture/choose-design-pattern-agentic-ai-system ）

智能体部署与服务

在本地构建智能体后，需将其部署到服务器，确保全天候运行并供他人或其他智能体访问。延续前文类比，部署与服务相当于智能体的"身体与四肢"。智能体需多种服务支持才能有效运行，包括会话历史存储、记忆持久化等。作为智能体开发者，你还需决定日志记录内容、数据隐私安全措施，以及如何遵守数据驻留和监管要求------这些均属于智能体生产部署的范畴。

幸运的是，智能体开发者可借助数十年积累的应用托管基础设施。智能体本质上是新型软件，许多传统原则依然适用：

可采用专为智能体设计的部署方案（如Vertex AI Agent Engine），在单一平台整合运行时及其他所需服务²¹；
若软件开发者希望更直接地控制应用栈，或在现有DevOps基础设施中部署智能体，可将智能体及大部分智能体服务封装为Docker容器，部署到Cloud Run或GKE等行业标准运行时环境²²。

图4：Vertex AI智能体构建工具

若你并非软件开发者或DevOps专家，首次部署智能体可能颇具挑战。许多智能体框架提供"部署"命令或专用部署平台，便于初期探索和上手。而搭建安全、生产级环境通常需要更多时间投入和最佳实践应用，包括智能体的CI/CD和自动化测试²³。

智能体运维（Agent Ops）：应对不确定性的结构化方法

构建首个智能体时，你需要反复手动测试其行为：添加新功能后是否正常工作？修复漏洞后是否引入新问题？测试是软件开发的常规环节，但在生成式人工智能中，测试方式有所不同。

从传统确定性软件向随机智能体系统的转型，需要新的运行理念。传统软件单元测试可直接断言"输出==预期结果"，但智能体的响应本质上具有概率性，这种测试方式不再适用；此外，语言的复杂性意味着通常需要语言模型评估"质量"------即智能体的响应是否全面、无冗余且语气恰当。

图5：DevOps、MLOps与GenAIOps的运行领域关系（来源： https://medium.com/@sokratis.kartakis/genai-in-production-mlops-or-genaiops-25691c9becd0 ）

复制代码

智能体运维（Agent Ops）是管理这一新型现实的规范、结构化方法。它是DevOps和MLOps的自然演进，专为人工智能智能体的构建、部署和治理挑战量身定制，将不确定性从劣势转化为可管理、可量化、可靠的特性²⁴（更多细节详见本系列中聚焦质量的白皮书）。

衡量关键指标：以A/B测试思维量化成功

要优化智能体，首先需明确业务场景中"更好"的定义。将可观测性策略设计为A/B测试，思考：哪些关键绩效指标（KPI）能证明智能体的价值？这些指标应超越技术正确性，衡量实际业务影响，包括目标完成率、用户满意度、任务延迟、每次交互的运营成本，以及最重要的------对收入、转化率或客户留存等业务目标的影响。这种自上而下的视角将指导后续测试，推动数据驱动开发，并帮助计算投资回报率。

聚焦质量而非非黑即白：借助语言模型评估器

业务指标无法直接反映智能体行为的正确性。由于无法简单用"通过/失败"评判，我们转向"语言模型评估器"进行质量评估------使用强大的模型，根据预定义标准评估智能体输出：答案是否正确？是否基于事实？是否遵循指令？通过在"黄金数据集"（包含标准提示）上运行自动化评估，可获得一致的质量衡量标准。

创建评估数据集（包含理想问题和正确响应）可能较为繁琐，需从智能体现有生产或开发交互中抽样场景，覆盖所有预期用户使用场景及部分意外场景。尽管评估工作的投入能快速见效，但评估结果仍需领域专家审核后才能确认有效。如今，在领域专家支持下，产品经理正逐渐承担起评估数据集的整理和维护核心职责。

数据驱动开发：部署决策的"通行证"

当你完成数十个自动化评估场景并建立可信质量分数后，即可自信地测试开发环境中智能体的变更：将新版本在完整评估数据集上运行，直接与现有生产版本的分数对比。这一稳健系统消除了主观判断，确保每次部署都有可靠依据。需注意，除自动化评估外，延迟、成本和任务成功率等因素也至关重要。为最大限度保障安全，可采用A/B部署方式逐步推出新版本，同时对比模拟分数与实际生产指标。

利用OpenTelemetry追踪调试：解答"为何出错"

当指标下降或用户反馈漏洞时，需明确"出错原因"。OpenTelemetry追踪是智能体完整执行路径的高保真分步记录，可帮助调试智能体的每一步操作²⁵。通过追踪，你能查看发送给模型的精确提示、模型内部推理过程（若可获取）、选择的工具、生成的工具参数，以及返回的原始观察数据。初次查看追踪数据可能较为复杂，但它能提供诊断和修复根本问题所需的详细信息。追踪数据中的关键信息可转化为指标，但查看追踪的主要目的是调试，而非性能概览。追踪数据可无缝收集到Google Cloud Trace等平台，通过可视化和海量数据搜索，简化根本原因分析。

重视人类反馈：引导自动化优化

人类反馈并非需要处理的麻烦，而是优化智能体最宝贵、数据最丰富的资源。当用户提交漏洞报告或点击"差评"按钮时，相当于提供了一份礼物------自动化评估场景中遗漏的真实边缘案例。收集和汇总这些数据至关重要：当类似报告或指标下降达到统计显著水平时，需将其与分析平台关联，生成洞察并触发运营问题警报。有效的智能体运维流程通过"闭环管理"实现优化：捕获反馈、复现问题，并将该场景转化为评估数据集的永久测试用例。这不仅能修复当前漏洞，还能预防同类错误再次发生。

智能体互操作性

构建高质量智能体后，需实现其与用户及其他智能体的互联互通。延续前文身体部位类比，这相当于智能体的"面孔"。需注意，智能体与数据/API的连接，与智能体之间的连接存在本质区别------智能体并非工具²⁶。假设你已为智能体配置好工具，接下来将探讨如何将智能体融入更广泛的生态系统。

智能体与人类

智能体与人类最常见的交互方式是通过用户界面。最简单的形式是聊天机器人：用户输入请求，作为后端服务的智能体处理后返回文本。更高级的智能体可提供JSON等结构化数据，支持丰富、动态的前端体验。人机协同（HITL）交互模式包括意图细化、目标扩展、确认和澄清请求等。

"计算机使用"是一类特殊工具，语言模型可控制用户界面，通常需人类交互和监督。支持计算机使用的智能体可自主判断下一步最佳行动，例如导航至新页面、高亮特定按钮，或预填充相关信息到表单中²⁷。

除了智能体代用户操作界面，语言模型还能根据实时需求调整界面------可通过控制界面的工具（MCP UI）²⁸、同步客户端与智能体状态的专用界面消息系统（AG UI）²⁹，甚至生成定制界面的协议（A2UI）³⁰实现。

当然，人类交互并非局限于屏幕和键盘。高级智能体正突破文本限制，通过"实时模式"实现多模态实时通信，建立更自然的类人连接。Gemini Live API³¹等技术支持双向流式传输，用户可与智能体语音对话并随时打断，如同真实交流一般。

这一能力从根本上改变了智能体与人类的协作模式。通过访问设备的摄像头和麦克风，智能体可"看到"用户所见、"听到"用户所说，并以接近人类对话的延迟生成语音响应。这催生了众多文本交互无法实现的应用场景：技术人员维修设备时获得免手持指导、购物者获取实时穿搭建议等，使智能体成为更直观、易用的合作伙伴。

智能体与智能体

正如智能体需与人类连接，智能体之间也需互联互通。随着企业规模化应用人工智能，不同团队会构建各自的专业智能体。若无通用标准，连接这些智能体需构建复杂、脆弱的定制API集成，难以维护。核心挑战主要有两点：发现（智能体如何找到其他智能体并了解其功能？）与通信（如何确保智能体"语言互通"？）。

智能体间（A2A）协议是解决这一问题的开放标准，堪称智能体生态的"通用握手协议"。A2A允许任何智能体发布数字"名片"（Agent Card）------这一简单JSON文件包含智能体的功能、网络端点和交互所需的安全凭证，使发现过程标准化、简化。与聚焦事务性请求的MCP不同，智能体间通信通常用于协作解决复杂问题。

发现对方后，智能体通过任务导向架构进行通信：不同于简单的请求-响应模式，交互以异步"任务"形式呈现。客户端智能体向服务器智能体发送任务请求，服务器智能体可通过长连接实时流式更新任务进展。这一稳健、标准化的通信协议，为实现第3级协作式多智能体系统（自动化前沿）提供了关键支撑，将分散的智能体转化为真正可互操作的生态系统。

智能体与货币交易

随着人工智能智能体承担更多任务，部分任务涉及购买、销售、谈判或交易促成。当前网络基于人类点击"购买"按钮设计，责任由人类承担；而若自主智能体点击"购买"，则会引发信任危机------若出现问题，责任归属谁？这涉及授权、真实性和问责制等复杂问题。要构建真正的智能体经济，需制定新标准，允许智能体代表用户安全、可靠地进行交易。

这一新兴领域尚未成熟，但两大核心协议正奠定基础：

智能体支付协议（AP2）：专为智能体商业交易设计的开放协议，通过引入加密签名的数字"授权书"扩展A2A等协议。这些授权书作为用户意图的可验证证明，为每笔交易创建不可否认的审计轨迹，使智能体能够基于用户委托权限，在全球范围内安全浏览、谈判和交易。
x402协议：利用HTTP 402"需要支付"状态码的开放互联网支付协议，支持无摩擦的机器对机器小额支付，使智能体能够按使用量支付API访问或数字内容等服务费用，无需复杂账户或订阅流程。

这两大协议共同构建了智能体网络的信任基础。

单个智能体的安全保障：信任权衡

创建首个人工智能智能体时，你会立即面临一个核心矛盾：实用性与安全性的权衡。要让智能体发挥作用，需赋予其权力------自主决策的能力，以及发送邮件、查询数据库等行动工具。但每一份权力都伴随着相应风险，主要安全隐患包括恶意行为（非预期或有害操作）和敏感数据泄露。你需要为智能体提供足够的"活动空间"以完成任务，同时确保其不会"闯祸"------尤其是涉及不可逆转操作或企业敏感数据的场景³²。

要应对这一挑战，不能仅依赖人工智能模型的判断（可能被提示注入³³等技术操纵），最佳实践是采用混合式深度防御策略³⁴：

第一层：传统确定性防护栏------硬编码规则构成模型推理之外的安全关卡。例如，策略引擎可禁止超过100美元的采购，或要求智能体与外部API交互前需用户明确确认。这一层为智能体的权力设置了可预测、可审计的硬性限制。
第二层：推理式防御------利用人工智能保障人工智能安全。包括训练模型增强抗攻击能力（对抗性训练），以及部署小型专用"防护模型"（类似安全分析师）。这些模型可在智能体执行计划前进行审查，标记潜在风险或违反策略的步骤供人工复核。

这种结合代码刚性约束与人工智能上下文感知能力的混合模型，为单个智能体构建了稳健的安全态势，确保其权力始终与目标一致。

智能体身份：一类新型主体

在传统安全模型中，人类用户通过OAuth或SSO认证，服务通过IAM或服务账户授权。智能体的出现新增了第三类主体：智能体并非单纯的代码，而是自主行动者，需要专属的可验证身份。如同员工获得工牌，平台上的每个智能体都应获得安全、可验证的"数字护照"。这种智能体身份独立于调用它的用户和构建它的开发者，标志着企业身份与访问管理（IAM）的根本性转变。

每个身份的验证及访问控制，是智能体安全的基石。为智能体分配加密可验证身份（通常采用SPIFFE³⁵等标准）后，可授予其最小权限：销售智能体获得CRM的读写权限，而人力资源入职智能体则被明确拒绝。这种精细化控制至关重要------即使单个智能体被入侵或行为异常，也能控制风险影响范围。若无智能体身份机制，智能体将无法以有限委托权限代表人类执行任务。

|-----------|-------------|----------------------------|
| 主体实体 | 认证/验证方式 | 说明 |
| 用户 | OAuth或SSO认证 | 具备完全自主能力，对自身行为承担全部责任的人类行动者 |
| 智能体（新型主体） | SPIFFE验证 | 拥有委托权限，代表用户执行行动的主体 |
| 服务账户 | IAM集成授权 | 完全确定性的应用程序和容器，不对行为承担责任 |

表1：不同主体类别的认证方式示例（非详尽）

访问约束策略

策略是授权（AuthZ）的一种形式，区别于认证（AuthN）。通常，策略限制主体的能力，例如"营销部门用户仅可访问这27个API端点，且不能执行DELETE命令"。开发智能体时，需对智能体、工具、内部其他智能体、可共享上下文及外部智能体设置权限。可这样理解：当你为系统添加所有API、数据、工具和智能体后，需将访问权限限制在完成任务必需的最小范围内------这是推荐做法，即遵循最小权限原则并保持上下文相关性³⁶。

ADK智能体的安全防护

确立身份和策略核心原则后，基于智能体开发工具包（ADK）构建的智能体安全防护，可通过代码和配置落地这些概念³⁷：

明确身份定义：用户账户（如OAuth）、服务账户（运行代码）、智能体身份（使用委托权限）；
认证处理完成后，通过API治理层（及支持MCP和A2A服务的治理机制）建立策略，约束服务访问；
在工具、模型和子智能体中嵌入防护栏以执行策略------无论语言模型如何推理或恶意提示如何诱导，工具自身逻辑都会拒绝执行不安全或违反策略的操作。这一方式提供了可预测、可审计的安全基准，将抽象安全策略转化为具体、可靠的代码³⁸；
为实现适应智能体运行时行为的动态安全，ADK提供回调（Callbacks）和插件（Plugins）：
1. before_tool_callback：工具调用前检查参数，结合智能体当前状态验证，防止不一致行动；
2. 插件：可构建可复用策略，常见模式是"Gemini评估器"³⁹------使用Gemini Flash-Lite等快速经济模型或自定义微调的Gemma模型，实时筛查用户输入和智能体输出，防范提示注入或有害内容；
若企业偏好全托管企业级动态安全检测方案，可集成Model Armor作为可选服务。Model Armor作为专用安全层，筛查提示和响应中的各类威胁，包括提示注入、越狱攻击、敏感数据（PII）泄露和恶意URL⁴⁰。将复杂安全任务交由专用服务处理，开发者无需自行构建和维护防护栏，即可获得一致、稳健的安全保障。

ADK的这种混合安全方案------结合强身份认证、工具内确定性逻辑、动态人工智能防护栏，以及Model Armor等可选托管服务------能够构建既强大又可信的单个智能体。

图6：智能体安全架构（来源： https://saif.google/focus-on-agents ）

从单个智能体到企业级集群的规模化扩展

单个人工智能智能体的生产级成功是一项成就，而扩展至数百个智能体集群则是架构层面的挑战。构建1-2个智能体时，核心关注点是安全；而构建多个智能体时，需设计更复杂的系统。与API无序扩张类似，当智能体和工具在企业内部扩散时，会形成复杂的交互网络、数据流和潜在安全漏洞。管理这种复杂性需要更高层级的治理层，整合所有身份和策略，并通过中央控制平面实现统一管控。

安全与隐私：加固智能体前沿防线

企业级平台必须应对生成式人工智能固有的独特安全和隐私挑战------即使仅运行单个智能体。智能体本身可能成为新的攻击向量：恶意攻击者可能尝试通过提示注入劫持智能体指令，或通过数据投毒破坏其训练或检索增强生成（RAG）所依赖的信息；此外，约束不当的智能体可能在响应中意外泄露敏感客户数据或专有信息。

稳健的平台通过深度防御策略缓解这些风险：

数据安全：确保企业专有信息不会用于基础模型训练，并通过VPC服务控制等机制提供保护；
输入输出过滤：如同提示和响应的防火墙，防范恶意内容；
合同保障：为训练数据和生成输出提供知识产权保障，使企业在部署智能体时获得法律和技术双重信心。

智能体治理：以控制平面替代无序扩张

随着智能体及其工具在企业内部扩散，会形成复杂的交互网络和潜在漏洞------这一挑战被称为"智能体无序扩张"。管理这一问题需超越单个智能体安全，采用更高层级的架构方案：建立作为所有智能体活动控制平面的中央网关。

可将其类比为拥有数千辆自动驾驶汽车（用户、智能体、工具）的繁忙大都市------若无交通灯、车牌和中央控制系统，将陷入混乱。网关方案构建了这样的控制系统，为所有智能体流量设立强制入口，包括用户与智能体的提示/界面交互、智能体与工具的调用（通过MCP）、智能体间协作（通过A2A），以及对语言模型的直接推理请求。通过掌控这一关键节点，企业可监控、路由、管理和审计每一次交互。

该控制平面主要承担两大相互关联的功能：

运行时策略执行：作为落实安全策略的架构关卡，处理认证（"我是否认识该行动者？"）和授权（"他们是否有权执行该操作？"）。集中式执行提供了"单一视图"可观测性，为所有交易生成统一日志、指标和追踪数据，将分散的智能体和工作流转化为透明、可审计的系统。
集中式治理：要有效执行策略，网关需要单一事实来源------即作为智能体和工具企业应用商店的中央注册表。该注册表支持开发者发现和复用现有资产，避免重复工作；同时为管理员提供完整资产清单，更重要的是，为智能体和工具建立正式生命周期，支持发布前安全审查、版本控制，以及制定细粒度策略（明确哪些业务部门可访问哪些智能体）。

通过结合运行时网关与中央治理注册表，企业可将智能体无序扩张的风险，转化为可管理、安全、高效的生态系统。

成本与可靠性：基础设施基石

最终，企业级智能体必须兼具可靠性和成本效益。频繁故障或响应缓慢的智能体投资回报率为负；反之，成本过高的智能体无法规模化满足业务需求。底层基础设施需设计为在保障安全、遵守监管要求和数据主权的前提下，平衡可靠性与成本。

针对特定智能体或子功能的不规则流量，可采用"零扩展"（scale-to-zero）特性；对于关键任务、低延迟工作负载，平台需提供专用保障容量，例如语言模型服务的预置吞吐量⁴¹，或Cloud Run等运行时的99.9%服务等级协议（SLA）⁴²。这确保了最重要的智能体即使在高负载下也能保持稳定响应。通过提供多样化基础设施选项，并结合成本和性能综合监控，可为智能体从创新原型向企业核心可靠组件的规模化扩展，奠定最终关键基础。

智能体的进化与学习机制

部署在现实世界的智能体，运行环境中的政策、技术和数据格式不断变化。若无适应能力，智能体的性能会随时间退化（这一过程称为"老化"），导致实用性和可信度下降。手动更新大规模智能体集群以跟上变化，既不经济也效率低下。更具规模化的解决方案是设计具备自主学习和进化能力的智能体，在实际工作中持续优化质量，同时最大限度减少工程投入⁴³。

智能体如何学习与自进化

与人类类似，智能体通过经验和外部信号学习。学习过程由多种信息源驱动：

运行时经验：智能体从会话日志、追踪数据和记忆等运行时产物中学习，这些数据记录了成功案例、失败经历、工具交互和决策轨迹。其中，人机协同（HITL）反馈尤为重要，提供了权威的修正和指导。
外部信号：新的外部文档（如更新后的企业政策、公共监管指南）或其他智能体的评估意见，也会驱动智能体学习。

这些信息被用于优化智能体的未来行为。先进系统并非简单总结过往交互，而是创建可泛化的产物指导未来任务。最成功的适应技术主要分为两类：

增强上下文工程：系统持续优化提示、少量示例和从记忆中检索的信息，通过为每个任务优化语言模型的输入上下文，提高成功概率。
工具优化与创建：智能体通过推理识别自身能力缺口，并采取行动填补------包括获取新工具、实时创建新工具（如Python脚本），或修改现有工具（如更新API架构）。

其他优化技术（如动态重新配置多智能体设计模式、基于人类反馈的强化学习RLHF）仍处于活跃研究阶段。

示例：学习新合规指南

以金融或生命科学等高度监管行业的企业智能体为例，其任务是生成符合隐私和监管规则（如GDPR）的报告。这可通过多智能体工作流实现：

查询智能体：响应用户请求，检索原始数据；
报告智能体：将数据整合为报告草稿；
评估智能体：基于已知合规指南审核报告，若存在歧义或需要最终审批，则上报给人类领域专家；
学习智能体：观察整个交互过程，重点关注人类专家的修正反馈，将其泛化为可复用的新指南（如更新评估智能体的规则，或优化报告智能体的上下文）。

图7：合规指南多智能体工作流示例

复制代码

例如，若人类专家指出某些家庭统计数据必须匿名化，学习智能体将记录这一修正。下次生成类似报告时，评估智能体将自动应用该新规则，减少人类干预需求。这种"评估-人类反馈-泛化"循环，使系统能够自主适应不断变化的合规要求⁴⁴。

模拟环境与智能体训练平台（Agent Gym）：下一个前沿领域

前文介绍的设计模式可归类为"在线学习"------智能体利用自身资源和设计模式进行学习。目前，更先进的研究方向是构建专用平台，通过离线流程优化多智能体系统，配备智能体运行时环境中不具备的高级工具和能力。这类智能体训练平台（Agent Gym）⁴⁵的核心特征包括：

独立于执行路径：作为独立的非生产环境平台，可接入任意语言模型、离线工具和云应用；
模拟环境：智能体可在新数据上"练习"和学习，支持多优化路径的"试错"；
高级合成数据生成：引导模拟环境尽可能贴近现实，对智能体进行压力测试（包括红队测试、动态评估、评估智能体集群等高级技术）；
优化工具库动态扩展：可通过MCP或A2A等开放协议接入新工具，或在更高级场景中学习新概念并围绕其构建工具；
人类专家协作：针对企业"隐性知识"等平台难以解决的边缘案例，智能体训练平台可连接领域专家网络，咨询确定最优结果，指导后续优化。

高级智能体案例

谷歌协同科学家（Google Co-Scientist）

协同科学家是一款高级人工智能智能体，作为虚拟研究合作伙伴，通过系统性探索复杂问题空间，加速科学发现。研究人员可定义目标、为智能体提供指定的公共和专有知识源，智能体则生成并评估一系列新颖假设。

为实现这一目标，协同科学家会构建完整的智能体生态系统，通过协作完成任务。

图8：人工智能协同科学家设计系统

复制代码

可将该系统视为研究项目经理：人工智能首先将宽泛的研究目标转化为详细项目计划，"主管"智能体担任管理者角色，为专业智能体团队分配任务、分配计算资源等。这一架构确保项目可轻松扩展，且团队方法会在向最终目标推进过程中持续优化。

图9：协同科学家多智能体工作流

复制代码

各类智能体持续工作数小时甚至数天，不断优化生成的假设，通过循环和元循环提升想法质量，同时改进评估和创建新想法的方法。

阿尔法进化智能体（AlphaEvolve Agent）

另一款高级智能体系统是阿尔法进化（AlphaEvolve），其核心功能是为数学和计算机科学中的复杂问题发现并优化算法。

阿尔法进化通过融合Gemini语言模型的创造性代码生成能力与自动化评估系统实现：人工智能生成潜在解决方案，评估器为其打分，最有前景的想法将作为下一代代码的灵感来源------这一进化过程已取得多项重大突破：

提升谷歌数据中心、芯片设计和人工智能训练的效率；
发现更快的矩阵乘法算法；
为开放数学问题找到新解决方案。

阿尔法进化特别擅长"验证解决方案质量易、发现解决方案难"的问题。

图10：阿尔法进化设计系统

复制代码

阿尔法进化的设计理念是实现人类与人工智能的深度迭代协作，主要通过两种方式实现：

透明解决方案：人工智能以人类可读代码形式生成解决方案，便于用户理解逻辑、获取洞察、信任结果，并根据需求直接修改代码；
专家指导：人类专业知识对问题定义至关重要。用户通过优化评估指标、引导探索方向提供指导，避免系统利用问题定义中的非预期漏洞。这种交互循环确保最终解决方案既强大又实用。

智能体的最终输出是持续优化的代码，不断提升人类设定的指标。

图11：算法进化过程

复制代码

结论

生成式人工智能智能体标志着人工智能的关键演进------从被动的内容生成工具，转变为主动、自主的问题解决合作伙伴。本文提供了理解和构建这类系统的正式框架，帮助开发者从原型开发迈向可靠的生产级架构。

我们将智能体拆解为三大核心组件：推理模型（"大脑"）、可执行工具（"双手"）与控制编排层（"神经系统"）。正是这三部分的无缝集成，通过"思考-行动-观察"的持续循环，释放了智能体的真正潜力。通过智能体系统分类（从第1级联网问题解决者到第3级协作式多智能体系统），架构师和产品负责人可根据任务复杂度，战略性地设定目标。

核心挑战与机遇在于新的开发者范式：我们不再是定义明确逻辑的"砖瓦匠"，而是引导、约束和调试自主实体的"架构师"和"导演"。语言模型的灵活性既是其强大之处，也是不可靠性的根源。因此，成功不仅取决于初始提示，更在于对整个系统的工程严谨性------包括稳健的工具契约、弹性错误处理、复杂上下文管理和全面评估。

本文概述的原则和架构模式构成了基础蓝图，为探索这一软件新前沿提供了指引。它们帮助我们构建的不仅是"工作流自动化工具"，更是真正协作、高效、适应性强的团队新成员。随着技术成熟，这种严谨的架构方法将成为充分发挥智能体人工智能全部潜力的关键。

尾注

朱莉娅·维辛格（Julia Wiesinger）、帕特里克·马洛（Patrick Marlow）等，2024年，《智能体》（Agents），详见：https://www.kaggle.com/whitepaper-agents。
安东尼奥·古利（Antonio Gulli）、拉维·尼甘姆（Lavi Nigam）等，2025年，《智能体配套指南》（Agents Companion），详见：https://www.kaggle.com/whitepaper-agent-companion。
姚顺宇（Shunyu Yao）等，2022年，《反应式推理：语言模型中推理与行动的协同》（ReAct: Synergizing Reasoning and Acting in Language Models），详见：https://arxiv.org/abs/2210.03629。
魏杰（J. Wei）、王旭（X. Wang）等，2023年，《思维链提示：激发大型语言模型的推理能力》（Chain-of-Thought Prompting Elicits Reasoning in Large Language Models），详见：https://arxiv.org/pdf/2201.11903.pdf。
姚顺宇（Shunyu Yao）等，2022年，《反应式推理：语言模型中推理与行动的协同》（ReAct: Synergizing Reasoning and Acting in Language Models），详见：https://arxiv.org/abs/2210.03629。
详见：https://www.amazon.com/Agentic-Design-Patterns-Hands-Intelligent/dp/3032014018。
姚顺宇（Shunyu Yao）等，2024年，《τ基准测试：现实世界领域中工具-智能体-用户交互基准》（τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains），详见：https://arxiv.org/abs/2406.12045。
详见：https://artificialanalysis.ai/guide。
详见：https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/vertex-ai-model-optimizer。
详见：https://gemini.google/overview/gemini-live/。
详见：https://cloud.google.com/vision?e=48754805&hl=en。
详见：https://cloud.google.com/speech-to-text?e=48754805&hl=en。
详见：https://medium.com/google-cloud/genaiops-operationalize-generative-ai-a-practical-guide-d5bedaa59d78。
详见：https://cloud.google.com/vertex-ai/generative-ai/docs/agent-engine/code-execution/overview。
详见：https://ai.google.dev/gemini-api/docs/function-calling。
详见：https://github.com/modelcontextprotocol/。
详见：https://ai.google.dev/gemini-api/docs/google-search。
详见：https://google.github.io/adk-docs/。
详见：https://google.github.io/adk-docs/sessions/memory/。
详见：https://cloud.google.com/architecture/choose-design-pattern-agentic-ai-system。
详见：https://cloud.google.com/vertex-ai/generative-ai/docs/agent-engine/overview。
详见：https://cloud.google.com/kubernetes-engine/docs/concepts/gke-and-cloud-run。
详见：https://github.com/GoogleCloudPlatform/agent-starter-pack。
索克拉蒂斯·卡尔塔基斯（Sokratis Kartakis），2024年，《生产环境中的生成式人工智能：MLOps还是GenAIOps？》（GenAI in Production: MLOps or GenAIOps?），详见：https://medium.com/google-cloud/genai-in-production-mlops-or-genaiops-25691c9becd0。
刘光亚（Guangya Liu）、苏杰·所罗门（Sujay Solomon），2025年3月，《人工智能智能体可观测性------演进中的标准与最佳实践》（AI Agent Observability - Evolving Standards and Best Practice），详见：https://opentelemetry.io/blog/2025/ai-agent-observability/。
详见：https://discuss.google.dev/t/agents-are-not-tools/192812。
达米安·马松（Damien Masson）等，2024年，《DirectGPT：与大型语言模型交互的直接操作界面》（DirectGPT: A Direct Manipulation Interface to Interact with Large Language Models），详见：https://arxiv.org/abs/2310.03691。
MCP UI是通过MCP工具控制界面的系统，详见：https://mcpui.dev/。
AG UI是通过事件传递（可选共享状态）控制界面的协议，详见：https://ag-ui.com/。
A2UI是通过结构化输出和A2A消息传递生成界面的协议，详见：https://github.com/google/A2UI。
详见：https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api。
详见：https://saif.google/focus-on-agents。
详见：https://simonwillison.net/series/prompt-injection/。
详见：https://storage.googleapis.com/gweb-research2023-media/pubtools/1018686.pdf。
详见：https://spiffe.io/。
详见：https://openreview.net/pdf?id=l9rATNBB8Y。
详见：https://google.github.io/adk-docs/safety/。
详见：https://google.github.io/adk-docs/callbacks/design-patterns-and-best-practices/#guardrails-policy-enforcement。
待补充（TKTK）。
详见：https://cloud.google.com/security-command-center/docs/model-armor-overview。
详见：https://cloud.google.com/vertex-ai/generative-ai/docs/provisioned-throughput/overview。
详见：https://cloud.google.com/run/sla。
详见：https://github.com/CharlesQ9/Self-Evolving-Agents。
尤拉伊·戈特魏斯（Juraj Gottweis）等，2025年，《借助人工智能协同科学家加速科学突破》（Accelerating scientific breakthroughs with an AI co-scientist），详见：https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/。
迪帕克·纳塔尼（Deepak Nathani）等，2025年，《MLGym：推进人工智能研究智能体的新框架与基准》（MLGym: A New Framework and Benchmark for Advancing AI Research Agents），详见：https://arxiv.org/abs/2502.14499。