李宏毅《生成式人工智能导论》 | 第9讲 AI Agent

人类需要做多步骤的复杂任务，AI可以做到这件事吗？

如果可以我们将其称为AI Agent，这里指AI可以做多步骤复杂任务，可以做计划能够修改计划。

目前已有的AI Agent例子

2022年7月，在ChatGPT之前，就有研究由语言模型操控机器人。

23年12月有人研究用大型语言模型开自驾车。

理想中AI Agent应该具备的能力

Agent有一个终极目标，可能有记忆，记忆里存储过去和环境互动时获得的经验。

1.Agent从外界环境中了解外界的状态(比如通过文字输入、看见的图片、音频、触觉等)

2.根据终极目标、记忆和状态，Agent产生一个计划(短期目标)-达到终极目标之前，需要采取的行动

3.根据计划，Agent执行行为

4.Agent行动后，会对外界环境产生影响，会改变当前外界环境的状态。- 可以根据外界环境的状态学习到新的经验修改Agent的记忆，有可能修改原来的计划 - 可以通过反思修改原来的计划或者获取到新的经验(参考论文ReAcr和Reflexion)

当外界环境发生变化时，Agent产生新的行动计划

Agent反思之后，得到一些经验，经验会影响行动的决策。

有短期记忆的ChatGPT，ChatGPT没有长期记忆，只能记忆发生在同一个对话里的内容。如果开启新对话，ChatGPT不会有之前对话的记忆。

ChatGPT尝试去做有长期记忆，目前(25年6月)以已经实现了持久记忆功能Memory。持久记忆允许在不同会话之间保留信息，该功能支持的模型主要版本时GPT-4 Turbo(及以后)。

老师课程里介绍有记忆的ChatGPT可能的原理

当用户和ChatGPT对话结束后，ChatGPT可能会对对话的关键信息进行摘要，存储在记忆中。

当开启新对话时，过去对话的内容虽然不知道，但是根据记忆里的摘要信息可以知道之前对话的主要内容。

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合信息检索与大语言模型（LLM）生成能力的技术架构，旨在通过动态引入外部知识提升模型回答的准确性、时效性，并减少"幻觉"（即模型虚构信息）问题