AI大模型学习总结（二）AI Agent

摘要

AI Agent 是具备自主感知、规划、决策与执行能力的智能软件系统，其核心价值在于从"回答问题"升级为"主动做事"。本文深入解析 Agent 的四大关键组件------规划（任务分解与思维树）、记忆（短期与长期）、工具使用（外部 API 调用）与执行，并结合 ReAct 框架说明推理与行动协同增强 LLM 能力的原理，帮助读者系统理解 AI Agent 的架构与工作机制。

文章目录

- 摘要
- [1. 核心定义](#1. 核心定义)
- [2. Agents 是什么？](#2. Agents 是什么？)
- [3. Agents 各个模块：](#3. Agents 各个模块：)
- - [3.1. 规划（Planning）：](#3.1. 规划（Planning）：)
  - [3.2. 记忆（Memory）](#3.2. 记忆（Memory）)
  - [3.3. 工具使用（Tools/Toolkits）](#3.3. 工具使用（Tools/Toolkits）)

1. 核心定义

AI Agent（人工智能代理）是一种能够自主感知环境、进行思考、做出决策并执行任务的智能软件系统。与聊天机器人不同，AI Agent 的核心在于具备"代理权"（Agency），能主动地"做事"，而不仅仅是"回答问题"。

2. Agents 是什么？

大语言模型可以接收输入，进行分析与推理，并输出文字、代码、媒体。然而，它无法像人类一样拥有规划思考能力、运用各种工具与物理世界互动，也不具备人类的记忆能力。

AI Agent 是基于 LLM 的、能够自主理解、自主规划决策、执行复杂任务的智能体。

Agent 的设计目的是为了处理那些简单的语言模型可能无法直接解决的问题，尤其是当这些任务涉及多个步骤或者需要外部数据源的情况。

LLM：接受输入、思考、输出
人类：LLM（接受输入、思考、输出）+ 记忆 + 工具 + 规划 → Agent

3. Agents 各个模块：

规划（Planning）：智能体会把大型任务'分解为子任务'，并规划执行任务的流程；智能体会对任务执行的过程进行'思考和反思'，从而决定是继续执行任务，或是判断任务完结并终止运行。

记忆（Memory）：短期记忆，是指在执行任务的过程中的上下文，会在子任务的执行过程中产生和暂存，在任务完结后被清空。长期记忆是产期保留的信息，一般是指外部知识库，通常用向量数据库来存储和检索。

工具使用（Tools）：为执行天配备工具API，比如：计算器、搜索工具、代码执行器、数据库查询工具等。有了这些工具API，智能就可以是物理世界交互，解决实际的问题。

执行（Action）：根据规划和记忆试试具体行动，这可能会涉及到与外部世界的互动或者通过工具来完成任务。

3.1. 规划（Planning）：

规划，可以理解为'观察和思考'。如果用人类比，当我们接到一个任务，我们的思维模式可能会像下面这样：

1、首先思考怎么完成这个任务。

2、然后审视手头上所拥有的工具，以及如何使用这些工具高效地达成目的。

3、再会把任务拆分成子任务。（就像咱们做思维导图一样）

4、在执行任务的时候，我们会对执行过程进行反思和完善，吸取教训以完善未来的步骤。

5、执行过程中思考何时可以终止。

这是'人类的规划能力'，我们希望智能体也拥有这样的思维模式，因此可以通过LLM提示词工程，为智能体赋予这样的思维模式。在智能体中，最重要的是让LLM具备以下两个能力：

子任务分解

通过LLM是的智能体可以把大型任务分解为更小的、更可控制的子任务，从而能够有效完成复杂的任务。

思维树（Tree-of-thought，ToT）

对CoT的进一步扩展，在思维链的每一步推理出多个分支，括扑展开成一棵思维树，是用启发式方法评估每个推理分支对问题解决的贡献。选择搜索算法没使用广度优先搜索（BFS）或深度优先搜索（DFS）等算法来探索思维树，并进行前瞻和回溯。

ReAct框架

标准（Standard）：
直接给出错误答案-xx。没有提供任何推理过程或外部交互，直接给出答案。
仅推理（Reason only）：
尝试通过逐步推理来解决问题，但没有与外部环境交互来验证信息。错误地推断出答案是-xxx。
仅行动（Act only）：
通过与外部环境（如维基百科）的一系列交互来获取信息，尝试多次搜索，但缺乏推理支持，未能综合这些观察结果后得出正确答案。认为需要结束搜索，错误的决策：结束搜索。
ReAct：
组合推理和行动。首先通过推理确定搜索AA，并从外部环境中观察结果。随着推理的深入，识别出需要搜索的BB。在几轮交互后，通过进一步推理，准确的出答案'CC'

为什么结合推理和行动，就会有效增强LLM完成任务的能力？

仅推理（Reason only）：LLM仅仅基于已有的知识进行推理，生成答案回答这个问题。很显然，如果LLM本身不具备这些知识，可能会出现幻觉，胡乱回答一遍。
仅行动（Act only）：大模型不加以推理，仅使用工具（比如搜索引擎）搜索这个问题，得出来的将会是海量的资料，不能直接回答这个问题。
推理+行动（Reasoning And Action）：LLM首先会给予已有知识，并审视拥有工具。当发现已有知识不足以回答这个问题，则会调用工具，比如：搜索工具、生成报告等，然后得到新的信息，基于新的信息重复进行推理和行动，直到完成这个任务。

3.2. 记忆（Memory）

智能体中的记忆机制：

形成记忆：大模型在大量包含世界知识的数量集上进行预训练。在训练中，大模型通过调整神经元的权重来学习理解和生产人类语言，这可以被视为'记忆'的形成过程。通过使用深度学习和梯度下降等技术，大模型可以不断提高基于预测
短期记忆：在当前任务执行过程中产生的信息，比如某个工具或某个子任务执行的结果，会写入短期记忆中。记忆在当前任务中产生和暂存，在任务完结后被清空。
长期记忆：长期记忆是长期保留的信息。一般是指外部知识库，通常用向量数据库来存储和检索。

3.3. 工具使用（Tools/Toolkits）

Agent可以通过学习调用外部API来获取模型中所缺少的额外信息，这些信息包括当前信息、代码执行能力和访问转悠信息源等。这对于预训练后难以修改的明星权重来说是非常重要的。

掌握实用工具是人类最独特和重要的特质之一。我们通过创造、修改和利用外部工具来突破我们身体和认知的限制。同样地，我们也可以为语言模型（LLM）提供外部工具来显著提升其能力。