李宏毅《生成式人工智能导论》 | 第9讲 AI Agent

文章目录

大模型未来趋势:以大型语言模型打造的Agent

人类需要做多步骤的复杂任务,AI可以做到这件事吗?

如果可以我们将其称为AI Agent,这里指AI可以做多步骤复杂任务,可以做计划能够修改计划。

目前已有的AI Agent例子

2022年7月,在ChatGPT之前,就有研究由语言模型操控机器人。

23年12月有人研究用大型语言模型开自驾车。

AI Agent运行的可能原理

理想中AI Agent应该具备的能力

Agent有一个终极目标,可能有记忆,记忆里存储过去和环境互动时获得的经验。

1.Agent从外界环境中了解外界的状态(比如通过文字输入、看见的图片、音频、触觉等)

2.根据终极目标、记忆和状态,Agent产生一个计划(短期目标)-达到终极目标之前,需要采取的行动

3.根据计划,Agent执行行为

4.Agent行动后,会对外界环境产生影响,会改变当前外界环境的状态。- 可以根据外界环境的状态学习到新的经验修改Agent的记忆,有可能修改原来的计划 - 可以通过反思修改原来的计划或者获取到新的经验(参考论文ReAcr和Reflexion)

具体的例子可以看老师的视频:https://www.bilibili.com/video/BV1XS411w7qr

当外界环境发生变化时,Agent产生新的行动计划

Agent反思之后,得到一些经验,经验会影响行动的决策。

有记忆的ChatGPT

有短期记忆的ChatGPT,ChatGPT没有长期记忆,只能记忆发生在同一个对话里的内容。如果开启新对话,ChatGPT不会有之前对话的记忆。

ChatGPT尝试去做有长期记忆,目前(25年6月)以已经实现了持久记忆功能Memory。持久记忆允许在不同会话之间保留信息,该功能支持的模型主要版本时GPT-4 Turbo(及以后)。

老师课程里介绍有记忆的ChatGPT可能的原理

当用户和ChatGPT对话结束后,ChatGPT可能会对对话的关键信息进行摘要,存储在记忆中。

当开启新对话时,过去对话的内容虽然不知道,但是根据记忆里的摘要信息可以知道之前对话的主要内容。

RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合信息检索与大语言模型(LLM)生成能力的技术架构,旨在通过动态引入外部知识提升模型回答的准确性、时效性,并减少"幻觉"(即模型虚构信息)问题