[论文阅读] |智能体长期记忆与反思

写在前面：10月份的时候，联发科天玑9400发布，搭载这款旗舰 5G 智能体 AI 芯片的荣耀MagicOS9.0实现了一句话让手机自动操作美团点咖啡。很快商场实体店里便能看到很多品牌手机已经升级为智能体语音助手。下一步，这些智能体或许便能结合长期交互记忆，挖掘表面行为背后的深层模式(例如偏好)。本文整理前段时间调研的智能体基于长期记忆进行反思的几篇论文。

智能体长期记忆与反思

- - [1. 高层抽取--斯坦福虚拟小镇：智能体角色模拟，基于近期记忆(事件+思考)推理高层思考，形成反思内容](#1. 高层抽取--斯坦福虚拟小镇：智能体角色模拟，基于近期记忆(事件+思考)推理高层思考，形成反思内容)
  - [2. 经验积累--Reflexion【NeurIPS 23】: 聚焦多步骤任务，基于之前轮次任务执行的反馈分析失败原因，将反思出的经验作为长期记忆，存储到情景缓冲区用来指导后续轮次的任务决策](#2. 经验积累--Reflexion【NeurIPS 23】: 聚焦多步骤任务，基于之前轮次任务执行的反馈分析失败原因，将反思出的经验作为长期记忆，存储到情景缓冲区用来指导后续轮次的任务决策)
  - [3. 经验积累-- Ghost in the Minecraft 游戏代理，学习成功的规划对应的具体执行步骤](#3. 经验积累-- Ghost in the Minecraft 游戏代理，学习成功的规划对应的具体执行步骤)
  - [4. 终身学习--Jarvis-1：开放世界下形成多模态记忆(目标+环境+成功执行的计划步骤)，并基于经验终身学习提升规划能力](#4. 终身学习--Jarvis-1：开放世界下形成多模态记忆(目标+环境+成功执行的计划步骤)，并基于经验终身学习提升规划能力)
  - [5. DiLu(的卢)【ICLR 24】记忆初始化模拟人类驾校考试+记忆存储llm含有数学计算的推理过程](#5. DiLu(的卢)【ICLR 24】记忆初始化模拟人类驾校考试+记忆存储llm含有数学计算的推理过程)
  - [6. MemoChat(腾讯)微调教会智能体识别对话不同主题，存储、并检索记忆](#6. MemoChat(腾讯)微调教会智能体识别对话不同主题，存储、并检索记忆)
  - 总结
  - - 带着目的找论文

1. 高层抽取--斯坦福虚拟小镇：智能体角色模拟，基于近期记忆(事件+思考)推理高层思考，形成反思内容

论文：Park J S, O'Brien J, Cai C J, et al. Generative agents: Interactive simulacra of human behavior $C$ //Proceedings of the 36th annual acm symposium on user interface software and technology. 2023: 1-22. https://dl.acm.org/doi/pdf/10.1145/3586183.3606763

腾讯游戏的记忆流还原：https://zhuanlan.zhihu.com/p/652160198

记忆流截取自demo网站：https://reverie.herokuapp.com/replay_persona_state/March20_the_ville_n25_UIST_RUN-step-1-141/2160/Eddy_Lin/

2. 经验积累--Reflexion【NeurIPS 23】: 聚焦多步骤任务，基于之前轮次任务执行的反馈分析失败原因，将反思出的经验作为长期记忆，存储到情景缓冲区用来指导后续轮次的任务决策

论文：Reflexion: Language Agents with Verbal Reinforcement Learning https://arxiv.org/pdf/2303.11366

代码：https://github.com/noahshinn/reflexion/tree/main

吴恩达关于反思的帖子：https://zhuanlan.zhihu.com/p/689492556

3. 经验积累-- Ghost in the Minecraft 游戏代理，学习成功的规划对应的具体执行步骤

论文：https://arxiv.org/pdf/2305.17144
Zhu X, Chen Y, Tian H, et al. Ghost in the minecraft: Generally capable agents for open-world environments via large language models with text-based knowledge and memory $J$ . arXiv preprint arXiv:2305.17144, 2023.

知乎讲解：https://zhuanlan.zhihu.com/p/646912995

4. 终身学习--Jarvis-1：开放世界下形成多模态记忆(目标+环境+成功执行的计划步骤)，并基于经验终身学习提升规划能力

论文：JARVIS-1: Open-world Multi-task Agents with Memory-Augmented Multimodal Language Models https://ieeexplore.ieee.org/document/10778628

作者的视频讲解：https://event.baai.ac.cn/live/724

新智元解读：https://cloud.tencent.com/developer/article/2369853

5. DiLu(的卢)【ICLR 24】记忆初始化模拟人类驾校考试+记忆存储llm含有数学计算的推理过程

论文：DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models https://arxiv.org/abs/2309.16292

代码：https://github.com/PJLab-ADG/DiLu

上海AI Lab发布首个模仿人类学习范式的自动驾驶决策框架DiLu https://www.51cto.com/article/780271.html

6. MemoChat(腾讯)微调教会智能体识别对话不同主题，存储、并检索记忆

论文：hMemoChat: Tuning LLMs to Use Memos for Consistent Long-Range Open-Domain Conversation https://arxiv.org/abs/2308.08239

代码：https://github.com/LuJunru/MemoChat

总结

带着目的找论文

关注发表时间、单位、期刊、是否有落地/代码
阅读摘要和简介里贡献，粗略了解要解决的问题、提出的方法、达到的结果→判断是否符合当前需求、是否继续阅读
- 不符合则暂时中止
- 符合则详细了解设计的方法有什么可借鉴之处、实验部分如何评估并带来多大的增益
- 论文解释不清楚的地方，必要可寻找补充材料和代码(如prompt如何定义反思的概念)
最后整体思考和总结优点、缺点，再次思考可借鉴的地方。
整体扫描结束后，回头整理所有看的论文，输出结论。