【大模型应用篇3】LLM时代下的智能体

上篇文章《【大模型应用篇2】提示词实践-短剧文案》我们演示了提示词的应用场景, 但是仅仅依靠提示词,无法应对现实生活中复杂场景, 比如我们在大模型上制定了旅游计划,但是还要到各个平台查询最新的机票、酒店等, 然后进行预订, 再比如在2023年,中国的平均每日出生人口是多少?等场景, 大模型无法直接获取最新消息,使得现在大模型对于人类生活应用场景能力还是很有限。

01 什么是智能体

其实早有人类提出相关技术解决上述问题, 那就是智能体, 智能体(AI Agents或 Agents),一般认为是一个可以通过行动能力自主完成设定的目标的代理。"智能体"是和"智能"密不可分的;它具备一些类似人的智能能力和行为,比如学习、推理、决策和执行能力。

AI Agents的概念是早于LLM(大语言模型, Large Language Model), Agent概念最早起源于M.Minsky(AI之父之一) 于1986年出版的《Society of Mind》(也是神经网络热潮开始的年份), 只是LLM出现, LLM的涌现能力让人们快速嗅到可以基于LLM打造智能体, 近期 Web GPT、Chatdev、Toolformer、Devin、MetaGPT等AI Agents产品也是层出不穷。

02 LLM时代下的智能体

LLM给AI Agents底层提供了一个突破性技术方案:过去强化学习基于深度学习框架可让agent学到技能,但agent本身并没有真正理解问题和技能,泛化性也较差,只能用于特定领域,主要用在游戏和用来制作低维控制/计划,代表性应用是围棋领域的AlphaGo;LLM带来了深度学习新范式,思维链和强大的自然语言理解能力有望让agents具备强大的学习能力和迁移能力,从而让创建广泛应用且实用的agents成为可能。

2023年11月,OpenAI 上线 GPTs 功能,全球AI开发者闻风而动;2024年1月,OpenAI 正式上线 GPT Store,开启了构建AI 智能体的风潮

最近,人工智能著名学者、斯坦福大学教授吴恩达指出:**AI Agents工作流将在今年推动人工智能取得巨大进步,甚至可能超过下一代基础模型。**这是一个重要的趋势,他呼吁所有从事人工智能工作的人都关注 AI Agent 工作流。

由于生成式LLM存在幻觉问题,记忆力短,在实际应用中难以保持长期一致性和准确性,且agents间合作也是重要趋势,除了等待基座模型自身迭代之外,借助外部力量(向 量存储、检索、代码等)是重要方法,完整的Agents框架应该具备这些能力。我们认为补齐了大模型短板的AI Agents更具备实用性,将是大模型重要落地方向。前特斯拉总监、 OpenAI科学家Karpathy公开表示"如今AI智能体才是未来最前沿的方向""相比大模型训练,OpenAI内部目前更关注Agents领域"。

LLM时代下的智能体也是现在很多应用发展方向, 逐渐成为下个APP的趋势。

03 LLM时代下智能体架构

一个大语言模型智能体框架包含以下4个核心部分(这不是AI Agents所有模块,目前AI Agents也在不断发展):

  • 用户请求 - 表达用户的问题或请求

  • 智能体/大脑 - 作为协调者的智能体核心

  • 规划- 助于智能体为未来行动做规划

  • 记忆 - 管理智能体的历史行为和经验

LLM智能体如下架构:

通过这些组成部分的协同工作,大语言模型智能体能够处理从简单到复杂的各种请求,不仅能够提供直接的答案,还能解决需要深度分析和多步骤操作的问题。这种智能体的能力,使其在处理复杂信息查询、数据分析和可视化表示等方面具有巨大潜力。

04 LLM Agent组件拆解

第3节提到Agent 最重要的三大组件: 规划、记忆、工具, 每个组件可以进一步进行拆分。

深入智能体,要求我们有基本的提示词的经验, 大家如果对提示词概念和用法不熟悉可以去查看之前的文章《【大模型应用篇1】学会对模型念咒语》《【大模型应用篇2】提示词实践-短剧文案》。

这个并不是AI Agents所有设计模式, 结合吴恩达近期发表的言论, 他将AI Agents 框架分为4个方面:

  • 反思(reflection):LLM 检查自己的工作,以提出改进方法。

  • 工具使用(Tool use):LLM 拥有网络搜索、代码执行或任何其他功能来帮助其收集信息、采取行动或处理数据。

  • 规划(Planing):LLM 提出并执行一个多步骤计划来实现目标(例如,撰写论文大纲,然后进行在线研究,然后撰写草稿......)。

  • 多 Agents 协作(Multi-agent collaboration):类似分而治之,利用每个agent在特定领域的优势,多个 AI Agent 一起工作,分配任务并讨论和辩论想法,以提出比单个智能体更好的解决方案。

其中多Agents协作,也是目前开源 Agents 工具和有关 Agents 的学术正在研究的方向之一

05 著名LLM的智能体

现在已经有很多著名的大语言智能体, 包括但不限以下智能体:

|------------|----------------------------------|-----------------------------------------------------------------------------------|
| 名称 | 地址 | 说明 |
| Horton | https://arxiv.org/abs/2301.07543 | 通过给予基于大语言模型(LLM)的智能体以"资产、偏好及个性",模拟人类在经济行为场景中的决策过程。 |
| 盲审 | https://arxiv.org/abs/2301.05327 | 利用多个语言模型模拟法官的判决过程,其对现实世界最高法院裁决的预测准确度高于随机水平。 |
| ChemCrow | https://arxiv.org/abs/2304.05376 | 描述了一个专注于化学领域的大语言模型智能体,该智能体能够独立规划并执行驱虫剂、有机催化剂的合成及新型色素的开发。 |
| EduChat | https://arxiv.org/abs/2308.02773 | 专为教育领域设计的两个杰出的大语言模型智能体。类似的还有CodeHelp |
| ChatDev | https://arxiv.org/abs/2307.07924 | 展示了 AI 智能体在自动化编程、调试、测试及支持软件工程其他任务方面的潜力。类似的还有ToolLLM、MetaGPT |
| Mehta | https://arxiv.org/abs/2304.10750 | 提出了一种互动框架,允许建筑师与 AI 智能体合作,在三维模拟环境中设计建筑。 |
| OS-Copilot | https://arxiv.org/abs/2402.07456 | 提供了一个创新框架,旨在打造能够全面操作操作系统 (OS) 的通用智能体,这些智能体能够灵活应对网络浏览、编码操作、文件管理、多媒体处理及与众多第三方应用的交互。 |
| ....... | | ........ |

06 总结

大模型时代的AI Agents = LLM(核心控制器,构建核心能力)+ 规划能力 + 记忆 + 工具+......。

这个时代关于Agents的学术文献正在激增。AI Agents也在不断发展, AI Agents的组件或者架构也在不断丰富,但是作为AI Agents的基座模型能力至关重要。大家如果想深入LLM AI Agents避不开提示工程的学习, 大家可以借助前面的文章先学习提示工程, 再进行智能体学习。

作为一个普通人,如何打造自己的LLM时代的智能体呢? 现在很多互联网公司也在开始抢占这块先机,下个文章给大家介绍一些工具快速打造自己LLM时代的智能体的产品。

感谢您完成阅读

推荐阅读:

【小白入门篇1】GPT到底是怎样练成?

【小白入门篇2】总有一款AI工具适合你

【小白入门篇3】还是GPT4更香

【小白入门篇4】兄弟,你还在网上盗图吗

【大模型应用篇1】学会对模型念咒语

【大模型应用篇2】提示词实践-短剧文案

相关推荐
南石.2 分钟前
JVM 基础、GC 算法与 JProfiler 监控工具详解
jvm·算法
哎呀呀嗯呀呀18 分钟前
class 031 位运算的骚操作
java·算法·位运算
时清云34 分钟前
【算法】合并两个有序链表
前端·算法·面试
轩辰~1 小时前
磁盘存储链式结构——B树与B+树
数据结构·b树·算法
2401_857297911 小时前
秋招内推2025-招联金融
java·前端·算法·金融·求职招聘
通信仿真实验室2 小时前
MATLAB使用眼图分析QPSK通信系统接收端匹配滤波后的信号
开发语言·算法·matlab
通信仿真实验室2 小时前
(15)衰落信道模型作用于信号是相乘还是卷积
开发语言·人工智能·算法·matlab
Run with the Wind2 小时前
【2024.9.29练习】R 格式
算法
Jeremy_121382 小时前
三种波束形成方法的区别(MVDR、MMSE以及MSNR波束形成器)
算法
远望樱花兔2 小时前
【d59】【Java】【力扣】146.LRU缓存
java·开发语言·算法