-
理解智能体
- 什么是智能体,它是如何工作的?
- 智能体如何利用推理和规划做出决策?
-
大型语言模型(LLM)在智能体中的作用
- LLM 如何作为智能体背后的"大脑"。
- LLM 如何通过消息系统组织对话。
-
工具与行动
- 智能体如何使用外部工具与环境互动。
- 如何为您的智能体构建和集成工具。
-
智能体工作流
- 思考 → 行动 → 观察。
Agent
Agent 是一个利用 AI 模型与环境交互以实现用户定义目标的系统。它结合了推理、规划和行动的执行(通常通过外部工具)来完成任务。
将 Agent 视为包含两个主要部分:
- 大脑(AI 模型)
这里是所有思考发生的地方。AI 模型 处理推理和规划 。它根据情况 决定采取哪些行动。
- 身体(能力和工具)
这部分代表 Agent 能够执行的一切。
可能行动的范围 取决于 Agent 配备了什么 。例如,因为人类没有翅膀,他们不能执行"飞"这个 行动 ,但他们可以执行"走"、"跑"、"跳"、"抓"等 行动。
Agent 中最常见的 AI 模型是 LLM(大型语言模型),它以 文本 作为输入并输出 文本。
LLM 是很棒的模型,但 它们只能生成文本。
Agent 可以通过 工具(tool) 执行我们实现的任何任务来完成 行动(action)。
LLM
LLM 是一种擅长理解和生成人类语言的 AI 模型。它们在大量文本数据上进行训练,从而能够学习语言中的模式、结构甚至细微差别。这些模型通常由数百万个参数组成。
现在大多数 LLM 都基于 Transformer 架构构建------这是一种基于"注意力"算法的深度学习架构,自 Google 于 2018 年发布 BERT 以来,受到了广泛关注。
工具
工具是赋予 LLM 的一个函数 。此函数应实现一个明确的目标。
以下是 AI Agent 中一些常用的工具:
| 工具 | 描述 |
|---|---|
| 网页搜索 | 允许 Agent 从互联网获取最新信息。 |
| 图像生成 | 根据文本描述创建图像。 |
| 检索 | 从外部来源检索信息。 |
| API 接口 | 与外部 API(GitHub、YouTube、Spotify 等)交互。 |
请注意函数定义前的 `@tool` 装饰器。我们将能够通过装饰器提供的 `to_string()` 函数从源代码中自动检索
通过"思想-行动-观察"循环理解AI Agent
Agent的工作是一个持续的循环:**思考(Thought)→行动(Act)→观察(Observe)**。
让我们一起分解这些行动
- **思想**:Agent的LLM部分决定下一步应该是什么。
- **行动**:Agent通过调用工具并附带相关参数来执行行动。
- **观察**:模型反思工具的响应。
"思想-行动-观察"循环
这三个组件在一个连续的循环中协同工作。用编程的类比来说,Agent使用了一个**while循环**:循环持续进行,直到Agent的目标实现为止。
思考:内部推理和 ReAct 方法
思维链 (CoT)
思维链 (CoT) 是一种提示技术,引导模型在生成最终答案之前逐步思考问题。
它通常以
"让我们一步一步地思考。"
这种方法有助于模型内部推理 ,尤其是对于逻辑或数学任务,而无需与外部工具交互。
ReAct:推理 + 行动
一个关键方法是 ReAct 方法,它结合了"推理"(思考)和"行动"(行动)。
ReAct 是一种提示技术,鼓励模型逐步思考,并在推理步骤之间穿插行动(例如使用工具)。
这使得智能体能够通过交替进行以下操作来解决复杂的、多步骤的任务:
- 思考:内部推理
- 行动:工具使用
- 观察:接收工具输出
🔁 比较:ReAct 与 CoT
| 特性 | 思维链 (CoT) | ReAct |
|---|---|---|
| 逐步逻辑 | ✅ 是 | ✅ 是 |
| 外部工具 | ❌ 否 | ✅ 是(行动 + 观察) |
| 最适合 | 逻辑、数学、内部任务 | 信息搜寻、动态多步骤任务 |