Google Agent白皮书：深度解析生成式AI Agent

在人工智能飞速发展的今天，我们已经习惯了与各种AI模型互动。但你是否想过，如果AI不仅仅是生成文本或图片，还能像人类一样，根据目标自主思考、规划，并调用各种"工具"来与真实世界互动，那会是怎样一番景象？

这，就是我们今天要深入探讨的------生成式AI Agent！

什么是AI Agent？它为何如此强大？

想象一下，人类在解决复杂问题时，常常会借助外部工具，如书籍、搜索引擎或计算机，来补充知识或执行操作。生成式AI模型也类似，它们可以被训练来使用工具，以获取实时信息或执行真实世界的动作。

AI Agent，本质上是一个超越独立生成式AI模型能力的应用程序。 它就像一个拥有"推理"、"逻辑"和"连接外部信息"能力的AI大脑。

用最核心的定义来说：一个生成式AI Agent是一种尝试通过观察世界并利用其可用的工具来采取行动以实现目标的应用程序。 它们是自主的，可以在没有人为干预的情况下独立行动，尤其是在提供了适当的目标或目的时。即使没有明确的指令， Agent也能推断下一步该做什么以实现其最终目标。

Agent的核心组成部分：AI的"认知架构"

要理解 Agent如何工作，我们需要了解驱动其行为、行动和决策的三个基本组成部分，它们共同构成了 Agent的"认知架构"：

1. 模型（The Model）

• 这是Agent的"中央决策者"。通常是一个或多个大语言模型（LLM），它们能够遵循基于指令的推理和逻辑框架，如ReAct、Chain-of-Thought（CoT）或Tree-of-Thoughts（ToT）。

2. 工具（The Tools）

• 工具是连接基础模型与外部世界的桥梁。尽管基础模型在文本和图像生成方面令人印象深刻，但它们无法直接与外部世界互动。工具弥补了这一差距，使 Agent能够访问外部数据和服务，并执行超越底层模型自身能力的更广泛的动作。
• 工具的形式和复杂性各异，但通常与常见的Web API方法（如GET、POST、PATCH、DELETE）对齐。例如，工具可以更新数据库中的客户信息或获取天气数据。
• 通过工具， Agent能够访问和处理真实世界的信息，从而支持更专业的系统，如检索增强生成（RAG）。

3. 编排层（The Orchestration Layer）

• 编排层描述了一个循环过程，它管理Agent如何获取信息、执行内部推理，并利用这些推理来指导其下一步行动或决策。
• 这个循环会一直持续，直到Agent达到目标或停止点。它的复杂性因Agent和任务的不同而异，可以包含简单的计算规则，也可以涉及链式逻辑、额外的机器学习算法或概率推理技术。
• 在Agent的认知架构核心中，编排层负责维护记忆、状态、推理和规划。它利用快速发展的提示工程及其相关框架来指导推理和规划，使Agent能够更有效地与环境互动并完成任务。

Agent与模型的区别

为了更清晰地理解，我们可以对比一下Agent和模型：

Agent如何运作：像大厨一样思考和行动

想象一位忙碌的厨房大厨。他们的目标是为顾客制作美味菜肴，这涉及规划、执行和调整的循环。

• 1、大厨收集信息（顾客订单、食材库存）。
• 2、他们进行内部推理（根据现有信息能做什么菜）。
• 3、他们采取行动（切菜、调料、烹饪）。

在这个过程中，大厨会根据需要进行调整，根据食材消耗或顾客反馈不断完善计划。

AI Agent也正是如此，它们通过迭代处理信息、做出明智决策并根据先前输出优化后续行动，从而实现最终目标。

常见的推理框架包括：

• ReAct：一种提示工程框架，提供给语言模型"思考并行动"的策略，可以不带上下文示例。它在指导模型选择下一步行动和工具方面非常有效。
• Chain-of-Thought (CoT)：通过中间步骤实现推理能力。
• Tree-of-Thoughts (ToT)：适用于探索性或策略性前瞻任务，它推广了CoT提示，允许模型探索各种思想链作为问题解决的中间步骤。

深入了解AI Agent的"工具箱"

目前，Google模型主要能与三种类型的工具互动：Extensions（扩展）、Functions（函数）和Data Stores（数据存储）。

1. Extensions（扩展）

• 作用：将API与 Agent以标准化方式连接起来，让 Agent能够无缝执行API调用，而无需自定义代码处理输入解析和错误处理。
• 工作方式：通过示例教导 Agent如何使用API端点以及调用API所需的参数。 Agent在运行时根据模型和示例动态选择最合适的扩展。
• 执行位置： Agent端执行。这意味着 Agent直接控制与API端点的交互。
• 用例：需要 Agent控制API交互。

2. Functions（函数）

• 作用：模型输出一个函数及其参数，但不直接进行实时的API调用。实际的API调用逻辑和执行被分流到客户端应用程序。
• 工作方式：模型根据其规范，决定何时使用哪个函数以及该函数需要哪些参数。这种方式为开发者提供了对数据流的更细粒度控制。
• 执行位置：客户端执行。
• 用例：API调用需要在应用堆栈的其他层进行（如中间件、前端框架）、安全或认证限制阻止 Agent直接调用API、时间或操作顺序限制（如批量操作、人工审查）、API响应需要额外的数据转换逻辑、或开发者希望在不部署额外基础设施的情况下进行 Agent开发。例如，模型可以生成一个结构化的JSON负载，客户端使用这些参数调用API并处理返回的数据。

3. Data Stores（数据存储）

• 作用：为 Agent提供访问动态且最新信息的能力，解决了语言模型知识静态化的挑战。
• 工作方式：允许开发者以原始格式（如PDF、Word文档、CSV、电子表格、HTML、TXT、网站内容等）提供额外数据，而无需耗时的数据转换或模型重新训练。数据存储将文档转换为向量数据库嵌入， Agent可以从中提取所需信息。
• 典型应用：在检索增强生成（RAG） 应用中，用户查询被转换为嵌入，与向量数据库中的内容匹配，然后检索到的内容连同原始查询一起发送给 Agent，以形成更准确的响应。
• 执行位置： Agent端执行。
• 用例：开发者希望实现RAG，使用网站内容、结构化数据、非结构化数据或各种数据库。

通过定向学习提升模型性能

为了让模型更好地选择和使用工具，有几种"定向学习"方法：

• 上下文学习（In-context learning）：在推理时，向通用模型提供提示、工具和少量示例，使其"即时"学习如何及何时使用这些工具。ReAct框架就是一个很好的例子。
• 基于检索的上下文学习（Retrieval-based in-context learning）：通过从外部记忆中检索最相关的信息、工具和相关示例，动态填充模型提示。例如Vertex AI扩展中的"Example Store"或前面提到的RAG架构。
• 基于微调的学习（Fine-tuning based learning）：在推理之前，使用大量特定示例数据集来训练模型。这帮助模型在接收任何用户查询之前，就能理解何时以及如何应用某些工具。

这些方法各有优劣，但通过在Agent框架中结合使用，可以发挥各自的优势，最大限度地减少劣势，从而提供更强大和适应性强的解决方案。

总结

生成式AI Agent通过利用工具扩展了语言模型的能力，使其能够访问实时信息、建议实际操作，并自主规划和执行复杂任务。Agent的核心是编排层，这是一个构建推理、规划、决策和指导行动的认知架构。ReAct、Chain-of-Thought和Tree-of-Thoughts等推理技术为编排层提供了框架，使其能够获取信息、进行内部推理并生成明智的决策或响应。

工具------如Extensions（扩展）、Functions（函数）和Data Stores（数据存储）------是Agent连接外部世界的关键，使它们能够与外部系统交互并访问其训练数据之外的知识。

AI Agent的未来充满令人兴奋的进步。随着工具变得更复杂，推理能力得到增强，Agent将有能力解决日益复杂的问题。此外，"Agent链"的战略方法将继续获得发展势头，通过结合专业Agent，我们可以创建"Agent专家混合体"方法，在各个行业和问题领域提供卓越的结果。

构建复杂的Agent架构需要迭代方法。实验和完善是找到特定业务场景和组织需求的解决方案的关键。通过利用这些基础组件的优势，我们可以创建有影响力的应用程序，扩展语言模型的能力并实现实际价值。

最后需要Google Agents.pdf白皮书的，欢迎关注公众号&加微信，免费发你！

历史大模型系列文章：