为什么整个 AI 领域都朝着 AI Agent 的方向发展?

吴恩达在近期演讲中大谈 AI Agent,他认为,在精心设计的 Agent 工作流程(workflow)中使用多个 Agent,可以在现有模型中产生"次时代"级别的性能。所以,基于 GPT-3.5 构建的 Agent 工作流程在应用中的表现能比 GPT-4 要好。

AI 大佬们都认为 AI Agent 是发展趋势,对未来的工作方式会产生重大影响。

那么它到底是什么?能给我带来什么改变呢?

一、LLM、RAG 和 AI Agent

通过对比 LLM、RAG 的用途,可以更好的理解 AI Agent。

LLM 是大语言模型,作用是语言逻辑推理。

RAG 相当于 LLM + 图书馆,解决了 LLM 知道的内容有限的问题。

LLM 的知识是提前训练好的内容,如果想让 LLM 知道更多的内容,可以把外在的内容交给 LLM,让它理解之后表达出来。

比如 LLM 是用一年前的数据训练的,它就只能知道一年前的内容。现在小米汽车问世了,想让它讲述相关内容,就需要把小米汽车的资料交给它,它就可以讲述了。

但要注意,这些外在的内容始终是外在的,交给 LLM 一次之后,并不会进入 LLM 之中,始终是外部内容。

LLM 和 RAG 主要区别是内容范围的不同,但 AI Agent 是一个工作流,不是一个层面的概念。

AI Agent 会利用 LLM 的推理能力,把问题进行拆解,形成一个一个的小问题,并定义好这些小问题之间的前后关系,先处理哪个,再处理哪个。

然后按照顺序,调用 LLM 或者 RAG 或者外部工具,来解决每一个小问题。

最终解决最初的问题。

二、AI Agent 特点

梳理一下 AI Agent 的主要特点:

1)目标导向行为

LLM 和 RAG 主要是文本的逻辑推理,生成文本。

缺乏以灵活、智能的方式设定和追求特定目标的能力。

AI Agent 则可以设计具有明确的目标,计划、采取行动以实现这些目标。

2)记忆和状态跟踪

LLM 和 RAG 没有记忆,没有状态跟踪能力,每次输入都是独立的处理。

AI Agent 可以维护一个内部状态,可以积累知识,可以基于状态信息来做决策和行动。

3)与环境互动

LLM 实在文本领域独立操作,无法与物理世界进行交互。

AI Agent 则可以对接传感器等设备感知外部环境。

4)持续学习

LLM 的数据是训练好的,是静态的。

AI Agent 则可以在与新环境和情况交互时不断学习和调整他们的知识和技能。

5)多任务能力

LLM 用于特定的语言任务。

AI Agent 可以被设计为通用的多任务系统,能够流畅地结合语言、推理、感知和控制等各种技能来解决复杂的多方面问题。

三、AI Agent 示例

假设您需要预订一次复杂的旅行。

LLM 可以解释不同的游览地点或提供一般旅行提示。

RAG 可以找到有关目的地的更丰富内容。

AI Agent 在此基础上,还可以做:

  • 基于预算搜索航班和酒店
  • 执行预定操作
  • 把行程添加到日历
  • 发送行程各项提醒

简单来讲,AI Agent 超出了信息层面,可以规划、拆解任务,并真正的执行任务。

四、更清晰的理解 AI Agent 的优势

1)任务导向 vs 通识知识

LLM 擅长广泛的语言理解和生成。它们就像巨大的信息库。

RAG 通过查找相关信息来提高大型语言模型的性能。尽管如此,重点仍然是知识和文本生成。

AI Agent 是以特定目标为基础构建的。弥合了语言理解与采取行动之间的鸿沟。

2)多步推理

LLM & RAG 主要处理单一输入并据此提供响应。

AI Agent 可以链式整合多个步骤:

  • 信息检索(类似 RAG)
  • 处理信息,做决策
  • 采取行动,例如发送邮件、预约、控制智能设备

3)积极主动

LLM & RAG 单纯的根据提示词进行响应。

AI Agent 可以很主动:

  • 监控数据流,进行报警
  • 根据你的偏好来启动行动
  • 根据知识的积累调整行为

4)集成已有系统

LLM & RAG 在自己的环境中操作。

AI Agent 可以与不同的系统、API 接口对接。

例如访问邮箱、日历;操作数据库;操作智能硬件设备。

五、AI Agent 的基础架构

AI Agent 的架构设计通常包括:

  • 推理引擎

核心部件,利用强大的大型语言模型(LLM)来理解自然语言、获取知识并推理解决复杂问题。

  • 知识库

充当 Agent 的记忆库,存储与其任务相关的事实信息、过去的经验和偏好。

  • 工具集成

允许 Agent 通过 API 与各种软件应用程序和服务交互,扩展其操纵和控制其环境的能力。

  • 感觉输入

为 Agent 提供感知周围环境、从文本、图像或各种传感器收集数据的能力。

  • 用户界面

与人类用户无缝沟通和协作的桥梁。

这些元素共同构成了一个能够自主解决问题的智能系统。

AI Agent 可以分析一个问题,制定出一步一步的计划,并自信地执行它,使其成为人工智能世界中的变革力量。


#AI 人工智能,#AI Agent,#LLM,#RAG,#gpt890

信息来源 gpt890.com/article/46

相关推荐
精英的英1 分钟前
【工具开发】适用于交叉编译环境的QT qmake项目转换vscode项目插件
人工智能·vscode·qt·开源软件
茜茜西西CeCe3 分钟前
数字图像处理-图像增强(2)
人工智能·算法·计算机视觉·matlab·数字图像处理·图像增强·陷波滤波器
txwtech3 分钟前
第8篇 QT联合halcon12在vs2019搭建环境开发图像处理
图像处理·人工智能
视***间29 分钟前
视程空间Pandora:终端算力破晓,赋能边缘计算未
大数据·人工智能·边缘计算·ai算力·视程空间
塔能物联运维30 分钟前
物联网运维中的边缘计算任务调度优化策略
运维·人工智能·物联网·边缘计算
JAVA学习通31 分钟前
Spring AI 核心概念
java·人工智能·spring·springai
飞哥数智坊1 小时前
“说完就走,结果自达”:这才是 AI 协同该有的样子
人工智能·ai编程
无风听海1 小时前
神经网络之链式法则
人工智能·深度学习·神经网络
地平线开发者1 小时前
征程 6 | 工具链如何支持 Matmul/Conv 双 int16 输入量化?
人工智能·算法·自动驾驶
CodeJourney.1 小时前
AI产业技术突破、生态重构与场景深耕
人工智能·重构