为什么整个 AI 领域都朝着 AI Agent 的方向发展？

吴恩达在近期演讲中大谈 AI Agent，他认为，在精心设计的 Agent 工作流程(workflow)中使用多个 Agent，可以在现有模型中产生"次时代"级别的性能。所以，基于 GPT-3.5 构建的 Agent 工作流程在应用中的表现能比 GPT-4 要好。

AI 大佬们都认为 AI Agent 是发展趋势，对未来的工作方式会产生重大影响。

那么它到底是什么？能给我带来什么改变呢？

一、LLM、RAG 和 AI Agent

通过对比 LLM、RAG 的用途，可以更好的理解 AI Agent。

LLM 是大语言模型，作用是语言逻辑推理。

RAG 相当于 LLM + 图书馆，解决了 LLM 知道的内容有限的问题。

LLM 的知识是提前训练好的内容，如果想让 LLM 知道更多的内容，可以把外在的内容交给 LLM，让它理解之后表达出来。

比如 LLM 是用一年前的数据训练的，它就只能知道一年前的内容。现在小米汽车问世了，想让它讲述相关内容，就需要把小米汽车的资料交给它，它就可以讲述了。

但要注意，这些外在的内容始终是外在的，交给 LLM 一次之后，并不会进入 LLM 之中，始终是外部内容。

LLM 和 RAG 主要区别是内容范围的不同，但 AI Agent 是一个工作流，不是一个层面的概念。

AI Agent 会利用 LLM 的推理能力，把问题进行拆解，形成一个一个的小问题，并定义好这些小问题之间的前后关系，先处理哪个，再处理哪个。

然后按照顺序，调用 LLM 或者 RAG 或者外部工具，来解决每一个小问题。

最终解决最初的问题。

二、AI Agent 特点

梳理一下 AI Agent 的主要特点：

1）目标导向行为

LLM 和 RAG 主要是文本的逻辑推理，生成文本。

缺乏以灵活、智能的方式设定和追求特定目标的能力。

AI Agent 则可以设计具有明确的目标，计划、采取行动以实现这些目标。

2）记忆和状态跟踪

LLM 和 RAG 没有记忆，没有状态跟踪能力，每次输入都是独立的处理。

AI Agent 可以维护一个内部状态，可以积累知识，可以基于状态信息来做决策和行动。

3）与环境互动

LLM 实在文本领域独立操作，无法与物理世界进行交互。

AI Agent 则可以对接传感器等设备感知外部环境。

4）持续学习

LLM 的数据是训练好的，是静态的。

AI Agent 则可以在与新环境和情况交互时不断学习和调整他们的知识和技能。

5）多任务能力

LLM 用于特定的语言任务。

AI Agent 可以被设计为通用的多任务系统，能够流畅地结合语言、推理、感知和控制等各种技能来解决复杂的多方面问题。

三、AI Agent 示例

假设您需要预订一次复杂的旅行。

LLM 可以解释不同的游览地点或提供一般旅行提示。

RAG 可以找到有关目的地的更丰富内容。

AI Agent 在此基础上，还可以做：

基于预算搜索航班和酒店
执行预定操作
把行程添加到日历
发送行程各项提醒

简单来讲，AI Agent 超出了信息层面，可以规划、拆解任务，并真正的执行任务。

四、更清晰的理解 AI Agent 的优势

1）任务导向 vs 通识知识

LLM 擅长广泛的语言理解和生成。它们就像巨大的信息库。

RAG 通过查找相关信息来提高大型语言模型的性能。尽管如此，重点仍然是知识和文本生成。

AI Agent 是以特定目标为基础构建的。弥合了语言理解与采取行动之间的鸿沟。

2）多步推理

LLM & RAG 主要处理单一输入并据此提供响应。

AI Agent 可以链式整合多个步骤：

信息检索（类似 RAG）
处理信息，做决策
采取行动，例如发送邮件、预约、控制智能设备

3）积极主动

LLM & RAG 单纯的根据提示词进行响应。

AI Agent 可以很主动：

监控数据流，进行报警
根据你的偏好来启动行动
根据知识的积累调整行为

4）集成已有系统

LLM & RAG 在自己的环境中操作。

AI Agent 可以与不同的系统、API 接口对接。

例如访问邮箱、日历；操作数据库；操作智能硬件设备。

五、AI Agent 的基础架构

AI Agent 的架构设计通常包括：

推理引擎

核心部件，利用强大的大型语言模型（LLM）来理解自然语言、获取知识并推理解决复杂问题。

知识库

充当 Agent 的记忆库，存储与其任务相关的事实信息、过去的经验和偏好。

工具集成

允许 Agent 通过 API 与各种软件应用程序和服务交互，扩展其操纵和控制其环境的能力。

感觉输入

为 Agent 提供感知周围环境、从文本、图像或各种传感器收集数据的能力。

用户界面

与人类用户无缝沟通和协作的桥梁。

这些元素共同构成了一个能够自主解决问题的智能系统。

AI Agent 可以分析一个问题，制定出一步一步的计划，并自信地执行它，使其成为人工智能世界中的变革力量。

#AI 人工智能，#AI Agent，#LLM，#RAG，#gpt890

信息来源 gpt890.com/article/46