为什么整个 AI 领域都朝着 AI Agent 的方向发展?

吴恩达在近期演讲中大谈 AI Agent,他认为,在精心设计的 Agent 工作流程(workflow)中使用多个 Agent,可以在现有模型中产生"次时代"级别的性能。所以,基于 GPT-3.5 构建的 Agent 工作流程在应用中的表现能比 GPT-4 要好。

AI 大佬们都认为 AI Agent 是发展趋势,对未来的工作方式会产生重大影响。

那么它到底是什么?能给我带来什么改变呢?

一、LLM、RAG 和 AI Agent

通过对比 LLM、RAG 的用途,可以更好的理解 AI Agent。

LLM 是大语言模型,作用是语言逻辑推理。

RAG 相当于 LLM + 图书馆,解决了 LLM 知道的内容有限的问题。

LLM 的知识是提前训练好的内容,如果想让 LLM 知道更多的内容,可以把外在的内容交给 LLM,让它理解之后表达出来。

比如 LLM 是用一年前的数据训练的,它就只能知道一年前的内容。现在小米汽车问世了,想让它讲述相关内容,就需要把小米汽车的资料交给它,它就可以讲述了。

但要注意,这些外在的内容始终是外在的,交给 LLM 一次之后,并不会进入 LLM 之中,始终是外部内容。

LLM 和 RAG 主要区别是内容范围的不同,但 AI Agent 是一个工作流,不是一个层面的概念。

AI Agent 会利用 LLM 的推理能力,把问题进行拆解,形成一个一个的小问题,并定义好这些小问题之间的前后关系,先处理哪个,再处理哪个。

然后按照顺序,调用 LLM 或者 RAG 或者外部工具,来解决每一个小问题。

最终解决最初的问题。

二、AI Agent 特点

梳理一下 AI Agent 的主要特点:

1)目标导向行为

LLM 和 RAG 主要是文本的逻辑推理,生成文本。

缺乏以灵活、智能的方式设定和追求特定目标的能力。

AI Agent 则可以设计具有明确的目标,计划、采取行动以实现这些目标。

2)记忆和状态跟踪

LLM 和 RAG 没有记忆,没有状态跟踪能力,每次输入都是独立的处理。

AI Agent 可以维护一个内部状态,可以积累知识,可以基于状态信息来做决策和行动。

3)与环境互动

LLM 实在文本领域独立操作,无法与物理世界进行交互。

AI Agent 则可以对接传感器等设备感知外部环境。

4)持续学习

LLM 的数据是训练好的,是静态的。

AI Agent 则可以在与新环境和情况交互时不断学习和调整他们的知识和技能。

5)多任务能力

LLM 用于特定的语言任务。

AI Agent 可以被设计为通用的多任务系统,能够流畅地结合语言、推理、感知和控制等各种技能来解决复杂的多方面问题。

三、AI Agent 示例

假设您需要预订一次复杂的旅行。

LLM 可以解释不同的游览地点或提供一般旅行提示。

RAG 可以找到有关目的地的更丰富内容。

AI Agent 在此基础上,还可以做:

  • 基于预算搜索航班和酒店
  • 执行预定操作
  • 把行程添加到日历
  • 发送行程各项提醒

简单来讲,AI Agent 超出了信息层面,可以规划、拆解任务,并真正的执行任务。

四、更清晰的理解 AI Agent 的优势

1)任务导向 vs 通识知识

LLM 擅长广泛的语言理解和生成。它们就像巨大的信息库。

RAG 通过查找相关信息来提高大型语言模型的性能。尽管如此,重点仍然是知识和文本生成。

AI Agent 是以特定目标为基础构建的。弥合了语言理解与采取行动之间的鸿沟。

2)多步推理

LLM & RAG 主要处理单一输入并据此提供响应。

AI Agent 可以链式整合多个步骤:

  • 信息检索(类似 RAG)
  • 处理信息,做决策
  • 采取行动,例如发送邮件、预约、控制智能设备

3)积极主动

LLM & RAG 单纯的根据提示词进行响应。

AI Agent 可以很主动:

  • 监控数据流,进行报警
  • 根据你的偏好来启动行动
  • 根据知识的积累调整行为

4)集成已有系统

LLM & RAG 在自己的环境中操作。

AI Agent 可以与不同的系统、API 接口对接。

例如访问邮箱、日历;操作数据库;操作智能硬件设备。

五、AI Agent 的基础架构

AI Agent 的架构设计通常包括:

  • 推理引擎

核心部件,利用强大的大型语言模型(LLM)来理解自然语言、获取知识并推理解决复杂问题。

  • 知识库

充当 Agent 的记忆库,存储与其任务相关的事实信息、过去的经验和偏好。

  • 工具集成

允许 Agent 通过 API 与各种软件应用程序和服务交互,扩展其操纵和控制其环境的能力。

  • 感觉输入

为 Agent 提供感知周围环境、从文本、图像或各种传感器收集数据的能力。

  • 用户界面

与人类用户无缝沟通和协作的桥梁。

这些元素共同构成了一个能够自主解决问题的智能系统。

AI Agent 可以分析一个问题,制定出一步一步的计划,并自信地执行它,使其成为人工智能世界中的变革力量。


#AI 人工智能,#AI Agent,#LLM,#RAG,#gpt890

信息来源 gpt890.com/article/46

相关推荐
技术与健康17 分钟前
LLM实践系列:利用LLM重构数据科学流程07 - 工程化实践与挑战
人工智能·机器学习·重构·大模型工程化实践
MobotStone27 分钟前
AI Agent工程师≠Prompt工程师:能力断层在哪
人工智能
深瞳智检31 分钟前
目标检测数据集 第007期-基于yolo标注格式的茶叶病害检测数据集(含免费分享)
人工智能·深度学习·yolo·目标检测·计算机视觉
区块链蓝海31 分钟前
UPCX与日本电信公司NTT就新一代去中心化支付系统签署合作协议
人工智能·web3·区块链
berling001 小时前
【论文阅读 | arXiv 2025 | WaveMamba:面向RGB-红外目标检测的小波驱动Mamba融合方法】
论文阅读·人工智能·目标检测
CHEN5_021 小时前
时序数据库选型“下半场”:从性能竞赛到生态博弈,四大主流架构深度横评
数据库·人工智能·ai·架构·时序数据库
top_designer1 小时前
作品集PDF又大又卡?我用InDesign+Acrobat AI构建轻量化交互式文档工作流
人工智能·pdf·自动化·设计规范·acrobat·indesign·交互式pdf
涡能增压发动积1 小时前
MySQL数据库为何逐渐黯淡,PostgreSQL为何能新王登基
人工智能·后端
瓦力wow1 小时前
Pytorch安装详细步骤
人工智能·pytorch·python
Java中文社群1 小时前
重磅!Ollama发布UI界面,告别命令窗口!
java·人工智能·后端