AI智能体时代的记忆 笔记(由大模型生成)

注意:此博客由大模型生成

论文信息

  • 标题:Memory in the Age of AI Agents: A Survey
  • 机构:新加坡国立大学,中国人民大学,复旦大学,北京大学,南洋理工大学,同济大学,加州大学圣地亚哥分校,香港科技大学(广州),格里菲斯大学,乔治亚理工学院,OPPO,牛津大学
  • http://arxiv.org/abs/2512.13564
  • 发表时间:2025年12月15日、2026年1月13日

这里写目录标题

  • AI智能体时代的记忆:综述
    • [1 引言 (Introduction)](#1 引言 (Introduction))
    • [2 预备知识:形式化智能体与记忆 (Preliminaries)](#2 预备知识:形式化智能体与记忆 (Preliminaries))
      • [2.1 基于LLM的智能体系统 (LLM-based Agent Systems)](#2.1 基于LLM的智能体系统 (LLM-based Agent Systems))
      • [2.2 智能体记忆系统 (Agent Memory Systems)](#2.2 智能体记忆系统 (Agent Memory Systems))
      • [2.3 智能体记忆与其他关键概念的比较](#2.3 智能体记忆与其他关键概念的比较)
        • [2.3.1 智能体记忆 vs LLM记忆](#2.3.1 智能体记忆 vs LLM记忆)
        • [2.3.2 智能体记忆 vs RAG](#2.3.2 智能体记忆 vs RAG)
        • [2.3.3 智能体记忆 vs 上下文工程](#2.3.3 智能体记忆 vs 上下文工程)
    • [3 形式:什么承载记忆? (Form: What Carries Memory?)](#3 形式:什么承载记忆? (Form: What Carries Memory?))
      • [3.1 令牌级记忆 (Token-level Memory)](#3.1 令牌级记忆 (Token-level Memory))
        • [3.1.1 扁平记忆 (Flat Memory, 1D)](#3.1.1 扁平记忆 (Flat Memory, 1D))
        • [3.1.2 平面记忆 (Planar Memory, 2D)](#3.1.2 平面记忆 (Planar Memory, 2D))
        • [3.1.3 分层记忆 (Hierarchical Memory, 3D)](#3.1.3 分层记忆 (Hierarchical Memory, 3D))
      • [3.2 参数化记忆 (Parametric Memory)](#3.2 参数化记忆 (Parametric Memory))
        • [3.2.1 内部参数化记忆 (Internal Parametric Memory)](#3.2.1 内部参数化记忆 (Internal Parametric Memory))
        • [3.2.2 外部参数化记忆 (External Parametric Memory)](#3.2.2 外部参数化记忆 (External Parametric Memory))
      • [3.3 潜变量记忆 (Latent Memory)](#3.3 潜变量记忆 (Latent Memory))
        • [3.3.1 生成型 (Generate)](#3.3.1 生成型 (Generate))
        • [3.3.2 复用型 (Reuse)](#3.3.2 复用型 (Reuse))
        • [3.3.3 变换型 (Transform)](#3.3.3 变换型 (Transform))
      • [3.4 适应 (Adaptation)](#3.4 适应 (Adaptation))
    • [4 功能:智能体为何需要记忆? (Functions: Why Agents Need Memory?)](#4 功能:智能体为何需要记忆? (Functions: Why Agents Need Memory?))
      • [4.1 事实记忆 (Factual Memory)](#4.1 事实记忆 (Factual Memory))
        • [4.1.1 用户事实记忆 (User Factual Memory)](#4.1.1 用户事实记忆 (User Factual Memory))
        • [4.1.2 环境事实记忆 (Environment Factual Memory)](#4.1.2 环境事实记忆 (Environment Factual Memory))
      • [4.2 经验记忆 (Experiential Memory)](#4.2 经验记忆 (Experiential Memory))
        • [4.2.1 基于案例的记忆 (Case-based Memory)](#4.2.1 基于案例的记忆 (Case-based Memory))
        • [4.2.2 基于策略的记忆 (Strategy-based Memory)](#4.2.2 基于策略的记忆 (Strategy-based Memory))
        • [4.2.3 基于技能的记忆 (Skill-based Memory)](#4.2.3 基于技能的记忆 (Skill-based Memory))
        • [4.2.4 混合记忆 (Hybrid Memory)](#4.2.4 混合记忆 (Hybrid Memory))
      • [4.3 工作记忆 (Working Memory)](#4.3 工作记忆 (Working Memory))
        • [4.3.1 单轮工作记忆 (Single-turn Working Memory)](#4.3.1 单轮工作记忆 (Single-turn Working Memory))
        • [4.3.2 多轮工作记忆 (Multi-turn Working Memory)](#4.3.2 多轮工作记忆 (Multi-turn Working Memory))
    • [5 动态性:记忆如何运作与演化? (Dynamics: How Memory Operates and Evolves?)](#5 动态性:记忆如何运作与演化? (Dynamics: How Memory Operates and Evolves?))
      • [5.1 记忆形成 (Memory Formation)](#5.1 记忆形成 (Memory Formation))
        • [5.1.1 语义摘要 (Semantic Summarization)](#5.1.1 语义摘要 (Semantic Summarization))
        • [5.1.2 知识蒸馏 (Knowledge Distillation)](#5.1.2 知识蒸馏 (Knowledge Distillation))
        • [5.1.3 结构化构建 (Structured Construction)](#5.1.3 结构化构建 (Structured Construction))
        • [5.1.4 潜变量表示 (Latent Representation)](#5.1.4 潜变量表示 (Latent Representation))
        • [5.1.5 参数化内化 (Parametric Internalization)](#5.1.5 参数化内化 (Parametric Internalization))
      • [5.2 记忆演化 (Memory Evolution)](#5.2 记忆演化 (Memory Evolution))
        • [5.2.1 巩固 (Consolidation)](#5.2.1 巩固 (Consolidation))
        • [5.2.2 更新 (Updating)](#5.2.2 更新 (Updating))
        • [5.2.3 遗忘 (Forgetting)](#5.2.3 遗忘 (Forgetting))
      • [5.3 记忆检索 (Memory Retrieval)](#5.3 记忆检索 (Memory Retrieval))
        • [5.3.1 检索时机与意图 (Retrieval Timing and Intent)](#5.3.1 检索时机与意图 (Retrieval Timing and Intent))
        • [5.3.2 查询构建 (Query Construction)](#5.3.2 查询构建 (Query Construction))
        • [5.3.3 检索策略 (Retrieval Strategies)](#5.3.3 检索策略 (Retrieval Strategies))
        • [5.3.4 检索后处理 (Post-Retrieval Processing)](#5.3.4 检索后处理 (Post-Retrieval Processing))
    • [6 资源与框架 (Resources and Frameworks)](#6 资源与框架 (Resources and Frameworks))
      • [6.1 基准测试与数据集 (Benchmarks and Datasets)](#6.1 基准测试与数据集 (Benchmarks and Datasets))
        • [6.1.1 面向记忆/终身学习/自演化智能体的基准](#6.1.1 面向记忆/终身学习/自演化智能体的基准)
        • [6.1.2 其他相关基准](#6.1.2 其他相关基准)
      • [6.2 开源框架 (Open-Source Frameworks)](#6.2 开源框架 (Open-Source Frameworks))
    • [7 立场与前沿 (Positions and Frontiers)](#7 立场与前沿 (Positions and Frontiers))
      • [7.1 记忆检索 vs 记忆生成 (Memory Retrieval vs. Memory Generation)](#7.1 记忆检索 vs 记忆生成 (Memory Retrieval vs. Memory Generation))
        • [7.1.1 回顾:从记忆检索到记忆生成](#7.1.1 回顾:从记忆检索到记忆生成)
        • [7.1.2 未来展望](#7.1.2 未来展望)
      • [7.2 自动化记忆管理 (Automated Memory Management)](#7.2 自动化记忆管理 (Automated Memory Management))
        • [7.2.1 回顾:从手工设计到自动构建](#7.2.1 回顾:从手工设计到自动构建)
        • [7.2.2 未来展望](#7.2.2 未来展望)
      • [7.3 强化学习与智能体记忆 (Reinforcement Learning Meets Agent Memory)](#7.3 强化学习与智能体记忆 (Reinforcement Learning Meets Agent Memory))
        • [7.3.1 回顾:RL正在内化智能体的记忆管理能力](#7.3.1 回顾:RL正在内化智能体的记忆管理能力)
        • [7.3.2 未来展望](#7.3.2 未来展望)
      • [7.4 多模态记忆 (Multimodal Memory)](#7.4 多模态记忆 (Multimodal Memory))
        • [7.4.1 回顾](#7.4.1 回顾)
        • [7.4.2 未来展望](#7.4.2 未来展望)
      • [7.5 多智能体系统中的共享记忆 (Shared Memory in Multi-Agent Systems)](#7.5 多智能体系统中的共享记忆 (Shared Memory in Multi-Agent Systems))
        • [7.5.1 回顾:从孤立记忆到共享认知基质](#7.5.1 回顾:从孤立记忆到共享认知基质)
        • [7.5.2 未来展望](#7.5.2 未来展望)
      • [7.6 世界模型的记忆 (Memory for World Model)](#7.6 世界模型的记忆 (Memory for World Model))
        • [7.6.1 回顾](#7.6.1 回顾)
        • [7.6.2 未来展望](#7.6.2 未来展望)
      • [7.7 可信记忆 (Trustworthy Memory)](#7.7 可信记忆 (Trustworthy Memory))
        • [7.7.1 回顾:从可信RAG到可信记忆](#7.7.1 回顾:从可信RAG到可信记忆)
        • [7.7.2 未来展望](#7.7.2 未来展望)
      • [7.8 人类认知连接 (Human-Cognitive Connections)](#7.8 人类认知连接 (Human-Cognitive Connections))
        • [7.8.1 回顾](#7.8.1 回顾)
        • [7.8.2 未来展望](#7.8.2 未来展望)
    • [8 结论 (Conclusion)](#8 结论 (Conclusion))

AI智能体时代的记忆:综述

按照形式(第 3 节)、功能(第 4 节)和动态(第 5 节)的统一分类法对智能体记忆进行的概述。

该图表根据记忆的主导形式和主要功能对记忆元素进行排列。

它还将具有代表性的系统映射到这个分类法中,以提供一个综合的视图。

1 引言 (Introduction)

记忆是智能体(Agent)的核心能力,支撑着长程推理、持续适应和与复杂环境的有效交互。随着智能体记忆研究的快速扩展,该领域变得日益碎片化:不同工作在动机、实现、假设和评估协议上差异显著,术语定义松散。传统的长/短期记忆分类已不足以捕捉当代智能体记忆系统的多样性和动态性。

本综述旨在提供最新、最全面的智能体记忆研究图景,从形式(Forms) 、**功能(Functions)动态性(Dynamics)**三个统一视角审视智能体记忆,并整理了代表性基准测试和开源记忆框架,最后展望了新兴研究前沿。


2 预备知识:形式化智能体与记忆 (Preliminaries)

2.1 基于LLM的智能体系统 (LLM-based Agent Systems)

智能体通过与环境交互、使用工具、协调多智能体来完成任务。形式化定义包括:

  • 环境状态空间 S \mathcal{S} S 和随机转移模型 Ψ \Psi Ψ
  • 观察函数 o t i = O i ( s t , h t i , Q ) o_t^i = \mathcal{O}_i(s_t, h_t^i, \mathcal{Q}) oti=Oi(st,hti,Q),包含交互历史、任务规范等
  • 异构动作空间:自然语言生成、工具调用、规划动作、环境控制、通信动作
  • 策略函数 a t = π i ( o t i , m t i , Q ) a_t = \pi_i(o_t^i, m_t^i, \mathcal{Q}) at=πi(oti,mti,Q),其中 m t i m_t^i mti 为记忆信号

2.2 智能体记忆系统 (Agent Memory Systems)

记忆系统通过读写交互与决策过程耦合,表示为演化的记忆状态 M t ∈ M \mathcal{M}_t \in \mathcal{M} Mt∈M。记忆生命周期包含三个核心操作:

操作 描述
记忆形成 (Formation) M t + 1 form = F ( M t , ϕ t ) \mathcal{M}_{t+1}^{\text{form}} = \mathcal{F}(\mathcal{M}_t, \phi_t) Mt+1form=F(Mt,ϕt),将信息 artifacts 转化为记忆候选
记忆演化 (Evolution) M t + 1 = E ( M t + 1 form ) \mathcal{M}{t+1} = \mathcal{E}(\mathcal{M}{t+1}^{\text{form}}) Mt+1=E(Mt+1form),整合、去重、冲突解决、遗忘
记忆检索 (Retrieval) m t i = R ( M t , o t i , Q ) m_t^i = \mathcal{R}(\mathcal{M}_t, o_t^i, \mathcal{Q}) mti=R(Mt,oti,Q),构建任务感知查询并返回相关记忆

短期与长期记忆的区别不在于架构分离,而在于这些操作被调用的时间模式。

2.3 智能体记忆与其他关键概念的比较

智能体记忆与LLM记忆、RAG和上下文工程的概念对比。

该图展示了共享的技术实现(例如、KV重用、图检索),同时突出了基本差异:

LLM记忆的架构优化、RAG的静态知识访问或上下文工程的瞬时资源管理 不同,智能体记忆的独特特征在于其专注于维持持续且自我进化的认知状态 ,该状态整合了事实知识和经验。

所列类别和示例是说明性的,而非严格平行,作为代表性参考点以澄清概念关系,而非定义僵化的分类学。

2.3.1 智能体记忆 vs LLM记忆
  • LLM记忆:关注模型内部状态管理(KV缓存、长上下文机制、架构修改如Mamba),不涉及跨任务持久化
  • 智能体记忆:几乎完全包含传统"LLM记忆",但排除纯内部机制;关注环境驱动的适应和跨任务持久化
2.3.2 智能体记忆 vs RAG
  • RAG :主要增强LLM访问静态知识源,单次任务调用,不维护过去交互的演化记忆
  • 智能体记忆 :在智能体与环境的持续交互中实例化,将新信息纳入持久、自演化的记忆库
  • 边界日益模糊:Agentic RAG(如Self-RAG)与智能体记忆概念空间最接近,但前者通常操作外部数据库,后者维护内部自演化记忆
2.3.3 智能体记忆 vs 上下文工程
  • 上下文工程:将上下文窗口视为受限计算资源,优化信息负载以缓解输入容量与生成能力的不对称
  • 关系:上下文工程是智能体记忆的实现层;智能体记忆定义更广泛的认知范围,包括持久知识存储、经验积累和身份一致性

3 形式:什么承载记忆? (Form: What Carries Memory?)

3.1 令牌级记忆 (Token-level Memory)

以显式离散单元存储,外部可访问、可修改、可重构。

按拓扑复杂性和维度组织的令牌级记忆分类:

  1. 扁平记忆(2D)将信息以线性序列或独立簇的形式存储,没有明确的单元间拓扑结构,常用于组块集、对话日志和经验池。
  2. 平面记忆(2D)引入了一种单层结构布局,其中单元通过树或图结构相互连接,以捕捉关系依赖性,支持多种节点类型,如图像和聊天记录。
  3. 分层记忆(3D)采用多层形式,如金字塔或多层图,以促进垂直抽象和不同数据粒度(如原始文档和合成问答)之间的跨层推理,例如文档和问答的组合。
3.1.1 扁平记忆 (Flat Memory, 1D)

无显式单元间拓扑结构,按序列或集合累积:

  • 对话型:MemGPT(操作系统隐喻)、MemoryBank(时间戳组织)
  • 摘要型:递归摘要、Think-in-Memory(哈希表存储归纳思想)
  • 偏好型:RecMind(用户元数据与外部知识分离)
  • 档案型:用户画像、角色属性维护
  • 经验型:Reflexion(轨迹为短期、反馈为长期)、ExpeL(洞察与少样本示例)
  • 多模态型:Ego-LLaVA(第一人称视频转语言描述)

优势 :简单、可扩展;局限:缺乏关系组织,冗余和噪声累积

3.1.2 平面记忆 (Planar Memory, 2D)

单层结构化组织,单元通过图、树、表等关联:

  • 树结构:HAT(分层聚合树)、MemTree(动态层次对话树)
  • 图结构:Ret-LLM(三元组表)、KGT(用户特定知识图)、A-Mem(卡片式连接记忆)、M3-Agent(多模态节点图)

优势 :利用集体协同编码更全面的上下文知识;局限:无分层存储,复杂场景下扁平设计不足

3.1.3 分层记忆 (Hierarchical Memory, 3D)

跨多层组织,层间连接形成立体记忆空间:

  • 金字塔型:HiAgent(子目标中心层次工作记忆)、GraphRAG(社区检测多层图索引)、Zep(时序知识图)
  • 多层型:Lyfe Agents(显著长期记录与低价值瞬态分离)、HippoRAG(关联索引+段落存储双层)、AriGraph(语义知识图+事件级组件)

优势 :支持复杂多路径查询,跨抽象层导航;挑战:结构复杂,检索效率和设计难度高

3.2 参数化记忆 (Parametric Memory)

信息直接存储在模型参数中。

3.2.1 内部参数化记忆 (Internal Parametric Memory)
  • 预训练阶段:LMLM、HierMemLM(预存检索记忆)
  • 中训练阶段:整合下游任务可泛化经验
  • 后训练阶段:SELF-PARAM(KL散度蒸馏注入知识)、DINM(模型编辑学习拒绝危险请求)

优势 :结构简单,无额外推理开销;局限:更新困难,易灾难性遗忘

3.2.2 外部参数化记忆 (External Parametric Memory)

通过适配器、LoRA等附加参数模块:

  • 适配器:MLP-Memory、K-Adapter、WISE(双参数记忆+路由机制)、ELDER(多LoRA模块+自适应路由)
  • 辅助语言模型:MAC(摊销网络压缩文档)、Retroformer(记忆过去任务成败经验)

优势 :模块化更新,避免核心权重干扰;局限:影响间接,依赖与内部表示的接口质量

3.3 潜变量记忆 (Latent Memory)

以模型内部表示(KV缓存、激活、隐藏状态)隐式承载。

语言模型智能体中潜变量记忆 集成的概述。

与明确的文本存储不同,潜变量记忆是在模型的内部表示空间内运行的。

该框架根据潜变量状态的来源进行分类:

  1. 生成,其中辅助模型合成嵌入以干扰或增强语言模型的前向传递
  2. 重用,它直接传播先前的计算状态,如键值缓存或中间嵌入
  3. 转换,它通过令牌选择、合并或投影来压缩内部状态,以保持高效的上下文。
3.3.1 生成型 (Generate)

独立模型或模块产生潜变量表示:

  • 单模态:Gist(Gist令牌)、AutoCompressor(摘要向量)、MemoryLLM(持久化令牌)、M+(跨层令牌池)、Titans(在线更新MLP权重)、MemGen(动态生成潜变量记忆)
  • 多模态:CoMem(视觉-语言嵌入)、Time-VLM(块嵌入)、MemoryVLA(感知状态)

优势 :信息密度高,避免重复处理完整上下文;局限:可能引入信息损失或偏差,需额外训练

3.3.2 复用型 (Reuse)

直接复用先前计算的内部激活(主要为KV缓存):

  • Memorizing Transformers(KNN检索过去KV对)、FOT(记忆注意力KV)、LONGMEM(残差SideNet KV)

优势 :保留完整保真度,概念简单;局限:KV缓存随上下文长度快速增长

3.3.3 变换型 (Transform)

修改、压缩或重组现有潜变量状态:

  • Scissorhands(基于注意力分数剪枝)、SnapKV(聚合前缀KV)、PyramidKV(层间预算重分配)、H2O(保留最近令牌+特殊H2令牌)、R3Mem(可逆压缩虚拟记忆令牌)

优势 :更紧凑、信息密集;局限:引入信息损失风险,计算开销增加

3.4 适应 (Adaptation)

对LLM智能体的三种互补性记忆范式概述。

在表示形式、更新动态、可解释性和效率方面,token级、参数化和潜在记忆存在差异,从而在长时程和交互式智能体系统中展现出不同的优势、局限性和应用领域。

三种记忆形式的对比总结:

特性 令牌级记忆 参数化记忆 潜变量记忆
可解释性 高(符号化、可寻址、透明) 低(隐式、抽象) 低(隐式、不可读)
更新速度 快(增删改便捷) 慢(需训练) 中等
性能增益 中等 通常更好 效率与灵活性权衡
适用场景 多轮聊天机器人、个性化智能体、推荐系统、高风险领域 角色扮演、推理密集型任务、需要根本新能力的任务 多模态记忆、边缘部署、低资源场景

4 功能:智能体为何需要记忆? (Functions: Why Agents Need Memory?)

智能体记忆的功能分类。

我们根据其功能(目的)将记忆能力组织成三个主要支柱,横跨两个时间域:

  1. 事实记忆作为持久的陈述式知识库,确保交互的连贯性、一致性和适应性
  2. 经验记忆封装程序性知识,以实现跨场景的持续学习和自我进化
  3. 工作记忆提供对瞬时上下文的积极管理的机制。

4.1 事实记忆 (Factual Memory)

声明性知识库,确保一致性、连贯性和适应性。

4.1.1 用户事实记忆 (User Factual Memory)

持久化存储用户特定事实(身份、偏好、常规、历史承诺):

  • 对话连贯性:选择性保留与排序交互历史(Mem0、MemoryBank),转化为高级语义表示(Think in Memory、RMM)
  • 目标一致性:动态跟踪和更新任务状态(RecurrentGPT、Memolet、MemGuide),结构化组织以支持局部检索(A-Mem、H-Mem)
4.1.2 环境事实记忆 (Environment Factual Memory)

关于外部世界实体和状态的知识:

  • 知识持久性:长文档分析、事实问答(HippoRAG、MemTree、LMLM),参数化方法(MEMORYLLM、M+、WISE)
  • 共享访问:多智能体协作的公共事实基础(Memory Sharing、MetaGPT、G-Memory、Generative Agents)

4.2 经验记忆 (Experiential Memory)

程序性和策略性知识,支持持续学习和自我演化。

经验性记忆 模式的分类。

我们根据存储知识的抽象程度对这些方法进行分类:

  1. 基于案例的记忆将原始轨迹和解决方案作为具体的实例予以保留
  2. 基于策略的记忆将经验抽象为高级策略、模板或工作流程
  3. 基于技能的记忆将程序性知识提炼为可执行的功能和应用程序接口
  4. 混合记忆则整合多种表示形式。

这些系统共同反映了人类的程序性记忆,从而实现持续学习和自我进化。

4.2.1 基于案例的记忆 (Case-based Memory)

存储最小加工的历史记录,优先保真度:

  • 轨迹:Memento(软Q学习动态精炼)、JARVIS-1(Minecraft生存经验)、Auto-scaling Continuous Memory(GUI历史压缩)
  • 解决方案:ExpeL(试错自主收集)、Synapse(抽象状态-动作片段)、MapCoder(相关示例代码)
4.2.2 基于策略的记忆 (Strategy-based Memory)

提取可迁移的推理模式和工作流程:

  • 洞察 (Insights):H2R(规划级与执行级解耦)、R2D2(反思动态决策)、BrowserAgent(关键结论持久化)
  • 工作流 (Workflows):AWM(归纳可重用工作流)、Agent KB(层次检索工作流)
  • 模式 (Patterns):Buffer of Thoughts(元缓冲思维模板)、ReasoningBank(可重用推理单元)、PRINCIPLES(离线自博弈合成策略)
4.2.3 基于技能的记忆 (Skill-based Memory)

封装可执行程序能力:

  • 代码片段:Voyager(可增长技能库)、Darwin Gödel Machine(自引用代码重写)
  • 函数与脚本:CREATOR(工具创建)、SkillWeaver(轨迹蒸馏为脚本)
  • APIs:Gorilla、ToolLLM(工具调用),ToolRerank(基于功能语义的检索)
  • MCPs:Alita(模型上下文协议统一接口)
4.2.4 混合记忆 (Hybrid Memory)

整合多种形式平衡具体证据与可泛化逻辑:

  • ExpeL(轨迹+文本洞察)、Agent KB(高层工作流+具体解决方案)、R2D2(重放缓冲+反思机制)、ChemAgent(执行案例+可分解技能模块)、LARP(语义+情景+程序记忆统一架构)、G-Memory(重复成功案例编译为高效技能)

4.3 工作记忆 (Working Memory)

容量有限、动态控制的暂存工作空间,支持单轮/多轮交互中的主动上下文管理。

4.3.1 单轮工作记忆 (Single-turn Working Memory)

处理大规模即时输入(长文档、高维多模态流):

  • 输入压缩:硬压缩(LLMLingua、LongLLMLingua)、软压缩(Gist、ICAE、AutoCompressors)、混合(HyCo2)
  • 观察抽象:Synapse(HTML DOM树重写为状态摘要)、VideoAgent(视频流转换为时序事件描述)、MA-LMM(视觉特征库)
4.3.2 多轮工作记忆 (Multi-turn Working Memory)

维护任务状态和历史相关性:

  • 状态整合:MemAgent/MemSearcher(循环机制更新固定预算记忆)、ReSum(强化学习优化摘要条件行为)、ACON(联合压缩观察与交互历史)、IterResearch(MDP形式化迭代工作空间重建)
  • 层次折叠:HiAgent(子目标为记忆单元)、Context-Folding/AgentFold(可学习的折叠策略)、DeepAgent(工具使用推理的结构化情景记忆)
  • 认知规划:SayPlan(3D场景图作为可查询环境记忆)、KARMA/Agent-S(层次计划锚定推理)

5 动态性:记忆如何运作与演化? (Dynamics: How Memory Operates and Evolves?)

智能体记忆的运行动态。

我们将完整的记忆生命周期解耦为三个基本过程,这些过程驱动了系统的适应性和自我演化:

  1. 记忆形成通过选择性地识别具有长期使用价值模式的原始交互体验,将原始交互体验转化为信息密集的知识单元
  2. 记忆演化通过整合、更新和遗忘机制,将新记忆动态集成到现有知识库中,以确保知识库保持连贯性和高效性
  3. 记忆检索执行上下文感知查询以访问特定记忆模块,从而通过精确的信息支持优化推理性能。字母顺序表示记忆系统内部的操作序列。

5.1 记忆形成 (Memory Formation)

将原始上下文编码为紧凑知识,选择性识别长期效用信息。

5.1.1 语义摘要 (Semantic Summarization)
  • 增量式:MemGPT/Mem0(直接合并新块)、Mem1/MemAgent(强化学习增强摘要能力)
  • 分区式:MemoryBank/COMEDY(按天/会话单元)、ReadAgent/LightMem(语义/主题聚类)、DeepSeek-OCR(光学2D映射)、FDVS/LangRepo(视频分块层次聚合)
5.1.2 知识蒸馏 (Knowledge Distillation)
  • 事实记忆蒸馏:TiM/RMM/EMem(对话转为高级思想)、MemGuide(提取用户意图)、ESR/M3-Agent(视觉观察压缩为文本事实)
  • 经验记忆蒸馏:AgentRR/AWM(成功案例总结任务计划)、Matrix/SAGE/R2D2(失败驱动反思)、ExpeL/From Experience to Strategy(对比成功与失败)、H2R(双层反思机制)、Memory-R1/Mem-α(可训练蒸馏)
5.1.3 结构化构建 (Structured Construction)
  • 实体级构建:KGT/Mem0g(直接编码为图节点边)、D-SMART(神经符号流水线提取OWL兼容知识图)、GraphRAG(社区检测迭代摘要)、AriGraph/HippoRAG/Zep(语义+情景双层/三层时序图)
  • 块级构建:HAT/RAPTOR(静态树结构)、MemTree/H-MEM(动态树)、A-MEM/PREMem(记忆项重组)、SGMem/CAM/G-memory(层次图结构)
5.1.4 潜变量表示 (Latent Representation)
  • 文本潜变量:KV缓存作为记忆、MEMORYLLM/M+(自更新潜变量嵌入)、MemGen(记忆触发器与潜变量令牌序列)
  • 多模态潜变量:CoMem(Q-Former压缩)、Encode-Store-Retrieve(Ego-LLaVA编码)、Mem2Ego(地标语义嵌入)、KARMA(多模态嵌入混合长短记忆)
5.1.5 参数化内化 (Parametric Internalization)
  • 知识内化:MEND(辅助网络快速编辑)、ROME(因果追踪定位MLP层)、MEMIT(批量编辑)、CoLoR(LoRA适配器)
  • 能力内化:监督微调、DPO/GRPO偏好优化、Memory Decoder(即插即用参数化记忆)

5.2 记忆演化 (Memory Evolution)

整合新记忆与现有记忆库,确保一致性、连贯性和效率。

记忆演化 机制的格局。

我们将演化过程划分为三个独立分支,这些分支维护中央记忆数据库:

  1. 整合通过局部整合、聚类融合和全局集成处理原材料,从而综合洞见
  2. 更新通过在外部数据库上执行冲突解决并向内部模型应用参数更新,确保准确性和一致性
  3. 忘却通过依据特定标准剪枝数据优化效率:时间过期、低访问频率和低信息价值。外环展示了与每个演化机制相关的代表性框架和智能体。
5.2.1 巩固 (Consolidation)
  • 局部巩固:RMM(LLM决策合并相似候选)、VLN(池化机制压缩相似记忆对)
  • 聚类级融合:PREMem(对齐新记忆聚类与现有聚类)、EverMemOS(相似MemCell合并入MemScene)、TiM(同哈希桶语义冗余合并)、CAM(目标聚类节点合并为代表摘要)
  • 全局整合:H-MEM(四层JSON层次组织)、Lyfe Agents(显著记录与瞬态细节分离)
5.2.2 更新 (Updating)
  • 外部数据库更新:MemGPT/Mem0(LLM驱动检索-冲突检测-修订)、Mem-α(强化学习优化更新决策)
  • 模型编辑:ROME(梯度追踪定位参数区域)、Model Editor Networks(辅助元编辑网络预测参数调整)、MEMORYLLM/M+(潜空间自更新)、ChemAgent(外部记忆更新与内部模型编辑结合)
5.2.3 遗忘 (Forgetting)
  • 基于时间:MemGPT(上下文溢出时逐出最早消息)、MAICC(权重随时间衰减)
  • 基于频率:淘汰低访问频率记忆
  • 基于重要性:移除低价值信息

5.3 记忆检索 (Memory Retrieval)

智能体系统中的记忆检索 方法分类。

思维导图将现有文献组织成四个不同的检索流程阶段:

  1. 时序与意图,它操纵该过程的启动;
  2. 查询构建,涵盖查询分解和重写的技巧;
  3. 检索策略,将搜索范式分为词汇、语义、基于图和混合方法;
  4. 后检索处理,它专注于通过重新排序、过滤和聚合来细化输出。
5.3.1 检索时机与意图 (Retrieval Timing and Intent)
  • 自动检索时机:MemGPT/MemTool(LLM调用检索函数)、ComoRAG/PRIME(快慢思维机制评估初始响应充分性)、MemGen(潜变量可训练过程检测关键检索时刻)
  • 自动检索意图:AgentRR(基于环境反馈动态切换)、MemOS(MemScheduler动态选择记忆类型)、H-MEM(索引路由机制粗到细检索)
5.3.2 查询构建 (Query Construction)
  • 查询分解:Visconde/ChemAgent(分解为子问题)、PRIME/MA-RAG(Planner Agent全局检索计划)、Agent KB(教师模型观察失败生成细粒度子查询)
  • 查询重写:HyDE(生成假设文档)、MemoRAG(结合全局记忆生成草稿答案)、MemGuide(对话上下文生成命令式短语)、Rewrite-Retrieve-Read(训练专用重写器)、ToC(澄清树逐步细化)
5.3.3 检索策略 (Retrieval Strategies)
  • 词汇检索:TF-IDF、BM25(精确匹配优先)
  • 语义检索:Sentence-BERT、CLIP(语义相似度匹配,默认选择)
  • 图检索:AriGraph/EMG-RAG/Mem0g(K跳邻居扩展)、HippoRAG(个性化PageRank)、CAM/D-SMART(LLM引导子图探索)、Zep/MemoTime(时序约束)
  • 生成式检索:直接生成文档标识符(小规模设置有优势,扩展性受限)
  • 混合检索:Agent KB/MIRIX(词汇+语义)、Semantic Anchoring(语义嵌入+符号倒排索引)、Generative Agents/MAICC(多因素评分)、MemoriesDB(时序-语义-关系统一架构)
5.3.4 检索后处理 (Post-Retrieval Processing)
  • 重排序与过滤:Semantic Anchoring(向量相似度+实体话语级对齐)、RCR-Router(多手工信号)、learn-to-memorize(强化学习优化权重)、Rasmussen/Tan(时序约束过滤)、Memory-R1/Westhäußer(LLM评估器)、Memento(Q学习预测贡献概率)、MemGuide(边际槽位完成增益微调)
  • 聚合与压缩:ComoRAG(整合智能体识别语义对齐信号)、MA-RAG(提取智能体细粒度内容选择)、G-Memory(多智能体个性化整合)

6 资源与框架 (Resources and Frameworks)

6.1 基准测试与数据集 (Benchmarks and Datasets)

6.1.1 面向记忆/终身学习/自演化智能体的基准
基准 记忆焦点 环境类型 模态 规模 核心能力
MemBench 事实+经验 模拟 文本 53K样本 交互场景
LoCoMo 事实 真实 多模态 300样本 对话记忆
WebChoreArena 事实+经验 真实 多模态 4任务/532样本 繁琐网页浏览
LongMemEval 事实 模拟 文本 5任务/500样本 交互记忆
MemoryBench 事实+经验 模拟 文本 4任务/~20K样本 持续学习
StreamBench 事实+经验 模拟 文本 9,702样本 连续在线学习
PersonaMem 事实 模拟 文本 15任务/180样本 动态用户画像
DialSim 事实+经验 真实 文本 ~1,300样本 多对话理解
6.1.2 其他相关基准

包括ALFWorld、ScienceWorld、AgentGym、AgentBoard、WebShop、WebArena、SWE-Bench Verified、GAIA、ToolBench等,这些基准虽非专为记忆设计,但通过长程、多步或多任务交互隐式测试记忆能力。

6.2 开源框架 (Open-Source Frameworks)

框架 事实记忆 经验记忆 多模态 结构 评估基准
MemGPT 层次(短/长期) LoCoMo
Mem0 图+向量 LoCoMo
Memobase 结构化档案 LoCoMo
MIRIX 结构化记忆 LoCoMo, MemoryAgentBench
MemoryOS 层次(短/中/长期) LoCoMo, MemoryBank
MemOS 树记忆+记忆立方 LoCoMo, PreFEval, LongMemEval, PersonaMem
Zep 时序知识图 LongMemEval
LangMem 核心API+管理器 -
SuperMemory 向量+语义 -
Cognee 知识图 -
Memary 流+实体存储 -

7 立场与前沿 (Positions and Frontiers)

7.1 记忆检索 vs 记忆生成 (Memory Retrieval vs. Memory Generation)

7.1.1 回顾:从记忆检索到记忆生成
  • 检索范式:识别、过滤、选择现有记忆条目(向量相似度搜索、混合检索、图遍历)
  • 生成范式 :主动合成新记忆表示,按需整合、压缩、重组信息
    • 检索-然后-生成:ComoRAG、G-Memory、CoMEM(检索项作为原材料重建)
    • 直接记忆生成:MemGen、VisMem(无需显式检索步骤,从上下文/潜状态生成)
7.1.2 未来展望

未来生成式记忆机制应具备:

  1. 上下文适应性:根据预期未来需求优化表示的粒度、抽象级别和语义焦点
  2. 跨异构信号整合:融合文本、代码、工具输出、环境反馈为统一表示
  3. 学习与自优化:通过强化学习或长程任务性能学习何时如何生成记忆

7.2 自动化记忆管理 (Automated Memory Management)

7.2.1 回顾:从手工设计到自动构建
  • 手工设计策略 :详细指令、预定义阈值、显式人工规则(Mem0、MemOS)
    • 优势:可解释、可复现、可控
    • 局限:不灵活、难泛化、长期开放场景表现不佳
  • 自动管理:CAM(自动聚类细粒度记忆)、Memory-R1(专用"记忆管理器"工具)
7.2.2 未来展望
  • 工具调用集成:将记忆构建、演化、检索直接集成到智能体决策循环,通过显式工具调用实现
  • 自优化记忆结构:层次化和自适应架构,动态链接、索引、重构记忆条目,支持自组织

7.3 强化学习与智能体记忆 (Reinforcement Learning Meets Agent Memory)

基于强化学习 的智能体记忆系统的演进。

其概念性发展过程是

  1. 基于启发式或提示驱动流程的无强化学习记忆系统,
  2. 部分涉及强化学习的设计(其中强化学习控制选定的记忆操作),
  3. 完全由强化学习驱动的记忆系统(在这种系统中,记忆架构和控制策略是端到端学习得到的)。

这一演进反映了从手动设计的记忆管道向基于语言模型的智能体中模型原生、自我优化的记忆管理的更广泛范式转变。

7.3.1 回顾:RL正在内化智能体的记忆管理能力
  • RL-free记忆系统:启发式或手动指定机制(MemOS、Mem0、Dynamic Cheatsheet、ExpeL)
  • RL辅助记忆系统
    • RMM(策略梯度学习器排序记忆块)
    • Mem-α/Memory-R1(RL训练记忆构建智能体)
    • 工作记忆管理:Context Folding、Memory-as-Action、MemSearcher、IterResearch(RL训练上下文折叠压缩)
7.3.2 未来展望

完全RL驱动的记忆系统应具备:

  1. 最小化人工先验:智能体发明新颖、更适合人工智能的记忆组织,而非受限于人类认知类比
  2. 完全控制记忆管理:自主处理多粒度记忆形成、演化、检索的端到端集成

7.4 多模态记忆 (Multimodal Memory)

7.4.1 回顾
  • 多模态智能体记忆 :存储、检索、利用来自多样感官输入的记忆(图像、音频、视频)
    • 视觉模态最成熟:视觉定位、时序跟踪、长期场景一致性
    • 音频和其他模态相对未充分探索
  • 统一模型的使能组件:记忆作为支持多模态理解和生成的关键组件
7.4.2 未来展望

(原文未详细展开,暗示需进一步发展跨模态统一表示和检索机制)

7.5 多智能体系统中的共享记忆 (Shared Memory in Multi-Agent Systems)

7.5.1 回顾:从孤立记忆到共享认知基质
  • 共享事实基础:Memory Sharing、MetaGPT、G-Memory(集中式消息池、层次记忆图)
  • 社会模拟中的全局环境:Generative Agents、S³、OASIS、AgentSociety(全局环境和公共交互日志作为共享记忆基质)
7.5.2 未来展望

(原文未详细展开,暗示需解决一致性、隐私、访问控制等挑战)

7.6 世界模型的记忆 (Memory for World Model)

7.6.1 回顾

(原文未详细展开)

7.6.2 未来展望

(原文未详细展开)

7.7 可信记忆 (Trustworthy Memory)

7.7.1 回顾:从可信RAG到可信记忆
  • 隐私风险:记忆模块可通过间接提示攻击泄露私人数据
  • 可解释性瓶颈:缺乏工具追踪检索了哪些记忆项、如何影响生成、是否被误用
  • 集体隐私:共享或联邦记忆系统中的新兴重要性
7.7.2 未来展望

可信记忆三大支柱:

  1. 隐私保护:细粒度权限记忆、用户控制保留策略、加密/设备端存储、联邦访问、差分隐私、记忆编辑、自适应遗忘
  2. 可解释性:可追溯访问路径、自合理化检索、反事实推理、记忆注意力可视化、因果图、用户调试工具
  3. 幻觉鲁棒性:冲突检测、多文档推理、不确定性感知生成、低置信度检索时弃权、多智能体交叉检查、机械可解释性技术

长期愿景:类似操作系统的抽象------分段、版本控制、可审计、智能体与用户共同管理

7.8 人类认知连接 (Human-Cognitive Connections)

7.8.1 回顾
  • 与Atkinson-Shiffrin多存储模型的对应:容量有限的上下文窗口 + 大规模外部向量数据库 ≈ 工作记忆与长期记忆的区分
  • 与Tulving分类的对应:交互日志(情景记忆)、世界知识(语义记忆)、代码技能(程序记忆)
  • 根本分歧:人类记忆是建构性过程(主动重建过去事件),而智能体记忆主要依赖逐字检索(RAG式语义相似度查询)
7.8.2 未来展望
  • 离线巩固机制:类比生物睡眠,引入专门巩固间隔,智能体脱离环境交互进行记忆重组和生成性重放
  • 生成性记忆:从显式文本检索转向生成性重建,按需合成潜变量记忆令牌,模仿大脑重构性质
  • 解决稳定性-可塑性困境:通过周期性将大量情景流压缩为高效参数化直觉

8 结论 (Conclusion)

本综述通过形式功能动态性三个统一视角审视了智能体记忆这一现代LLM-based智能体系统的核心组件:

  • 形式层面:令牌级、参数化、潜变量三种主要实现,在表示、适应性和与智能体策略集成方面呈现根本不同的权衡
  • 功能层面:超越传统的长期/短期二分法,提出更细粒度的分类------事实记忆、经验记忆和工作记忆
  • 动态性层面:记忆形成、演化、检索的完整生命周期,支持自适应和自演化

关键挑战和新兴方向包括:强化学习的深度整合、多模态和多智能体场景的兴起、从检索中心到生成式记忆范式的转变。未来记忆系统将成为完全可学习、自适应、自组织的子系统,使大语言模型从强大的静态生成器转变为能够持续交互、自我改进和原则性推理的智能体。

相关推荐
AGI-四顾13 小时前
文生图模型选型速览
人工智能·ai
大尚来也13 小时前
一篇搞懂AI通识:用大白话讲清人工智能的核心逻辑
人工智能
Coder_Boy_13 小时前
Deeplearning4j+ Spring Boot 电商用户复购预测案例
java·人工智能·spring boot·后端·spring
风指引着方向13 小时前
动态形状算子支持:CANN ops-nn 的灵活推理方案
人工智能·深度学习·神经网络
weixin_3954489113 小时前
cursor日志
人工智能·python·机器学习
凤希AI伴侣13 小时前
你觉得,AI能让你“一人成军”吗?我的工具流与真实体验
人工智能·凤希ai伴侣
23遇见13 小时前
从底层到落地:cann/ops-nn 算子库的技术演进与实践
人工智能
DeanWinchester_mh13 小时前
DeepSeek新论文火了:不用卷算力,一个数学约束让大模型更聪明
人工智能·学习
dixiuapp13 小时前
学校后勤报修系统哪个好,如何选择
大数据·人工智能·工单管理系统·院校工单管理系统·物业报修系统