【102页最新综述】AI智能体时代的记忆系统:形式、功能与知识图谱长记忆动态机制全景解析

摘要

本文系统性地综述了AI智能体记忆系统的最新研究进展,提出了"形式-功能-动态"三维分类框架。研究指出记忆是基础模型驱动的智能体的核心能力,支撑长期推理、持续适应和复杂环境交互。文章深入探讨了记忆的三种主要形式、三类功能角色及其演化机制,为未来智能体研究提供了系统性的理论基础。

链接https://t.zsxq.com/u4Wqc获取原文pdf

一、引言:记忆为何成为AI智能体的核心能力

过去两年,我们见证了大语言模型(LLMs)向强大AI智能体的惊人演化。这些由基础模型驱动的智能体在深度研究、软件工程、科学发现等多个领域展现出卓越进展,不断推动人工通用智能(AGI)的发展轨迹。

在智能体的诸多能力中------推理、规划、感知、记忆和工具使用------记忆作为基石能力脱颖而出。它明确地将静态的、参数无法快速更新的LLMs转化为能够通过环境交互持续适应的智能体。从应用角度看,个性化聊天机器人、推荐系统、社会模拟和金融调查等众多领域都依赖于智能体处理、存储和管理历史信息的能力。从发展角度看,AGI研究的核心愿景之一就是赋予智能体通过环境交互持续进化的能力,而这一能力从根本上依赖于智能体记忆。

为什么需要新的分类体系?

尽管已有一些综述提供了宝贵的智能体记忆概述,但现有分类体系存在两大局限:

  1. 现有分类的局限性:早期分类体系在诸多方法论快速进展之前建立,无法完全反映当前研究的广度和复杂性。例如,2025年出现的新方向------从过往经验中提炼可复用工具的记忆框架,或记忆增强的测试时扩展方法------在早期分类方案中代表性不足。

  2. 概念碎片化:随着记忆相关研究的爆炸性增长,概念本身变得日益宽泛和碎片化。声称研究"智能体记忆"的论文在实现方式、目标和基本假设上常常截然不同。各种术语(声明性、情景性、语义性、参数化记忆等)的泛滥进一步模糊了概念清晰度。

图1展示了按照"形式-功能-动态"统一分类体系组织的智能体记忆全景图,将记忆构件按其主要形式和功能定位,并映射代表性系统到此分类体系中。


二、核心概念:形式化智能体与记忆系统

2.1 基于LLM的智能体系统形式化定义

智能体与环境:设I = {1, ..., N}表示智能体的索引集,其中N=1对应单智能体情况,N>1代表多智能体设置。环境由状态空间S刻画,在每个时间步t,环境根据受控随机转移模型演化:

复制代码

code

复制代码
s_{t+1} ~ Ψ(s_{t+1} | s_t, a_t)

每个智能体i接收观察值:

复制代码

code

复制代码
o_t^i = O^i(s_t, h_t^i, Q)

其中h_t^i表示智能体i可见的交互历史部分,Q表示任务规范(如用户指令、目标描述)。

动作空间:LLM智能体的一个显著特征是其异构动作空间,包括:

  • 自然语言生成(推理、解释、响应)

  • 工具调用动作(API、搜索引擎、计算器)

  • 规划动作(任务分解、执行计划)

  • 环境控制动作(导航、编辑)

  • 通信动作(智能体间协作)

2.2 智能体记忆系统的形式化

记忆系统表示为一个演化的记忆状态:

复制代码

code

复制代码
M_t ∈ M

其中M表示可接受的记忆配置空间。M_t可以采取文本缓冲区、键值存储、向量数据库、图结构或任何混合表示的形式。

记忆生命周期的三大操作符

  1. 记忆形成(Formation)

复制代码

code

复制代码
M_t+1^form = F(M_t, φ_t)

选择性地将信息工件φ_t(工具输出、推理轨迹、部分计划等)转化为记忆候选。

  1. 记忆演化(Evolution)

复制代码

code

复制代码
M_{t+1} = E(M_t+1^form)

将形成的记忆候选整合到现有记忆库中,可能包括合并冗余条目、解决冲突、丢弃低效用信息或重构记忆。

  1. 记忆检索(Retrieval)

复制代码

code

复制代码
m_t^i = R(M_t, o_t^i, Q)

构建任务感知查询并返回相关记忆内容,检索到的信号m_t^i被格式化供LLM策略直接使用。

2.3 智能体记忆与相关概念的比较

图2通过维恩图展示了智能体记忆与LLM记忆、RAG和上下文工程之间的共性与区别。

2.3.1 智能体记忆 vs. LLM记忆

从高层次看,智能体记忆几乎完全包含了传统意义上的LLM记忆。2023年以来,许多自称"LLM记忆机制"的工作在现代术语下更适合理解为早期的智能体记忆实例。这种重新诠释源于"LLM智能体"概念本身的历史模糊性。

重叠部分

  • 少样本提示可视为长期记忆形式

  • 自我反思和迭代精炼对应短期任务内记忆

  • KV压缩和上下文窗口管理在单任务过程中保留显著信息时,发挥短期记忆机制作用

区别

直接干预模型内部状态的记忆机制------如更长有效上下文的架构修改、缓存重写策略、循环状态持久化------更适合归类为LLM记忆而非智能体记忆。它们的目标是扩展或重组底层模型的表示能力,而非为决策智能体提供可演化的外部记忆库。

2.3.2 智能体记忆 vs. RAG

在概念层面,智能体记忆和检索增强生成(RAG)表现出相当大的重叠:两者都构建、组织和利用辅助信息存储来扩展LLM/智能体的能力。然而,两个范式在历史上被应用的场景所区分。

传统区别

  • RAG

    :主要用静态知识源增强LLM,为单次推理任务服务

  • 智能体记忆

    :在智能体与环境的持续交互中实例化,不断将智能体自身动作和环境反馈产生的新信息纳入持久记忆库

边界模糊化

随着检索系统本身变得更动态,这一边界日益模糊。实际上,更现实的区分在于任务领域

  • RAG主要应用于经典的多跳和知识密集型基准测试(HotpotQA、2WikiMQA、MuSiQue)

  • 智能体记忆系统通常在需要持续多轮交互、时间依赖或环境驱动适应的场景中评估(LoCoMo、LongMemEval、GAIA、SWE-bench等)


三、记忆的形式:三种主流实现

智能体记忆系统可以通过多种架构或表示形式实现。本节从形式 角度识别三种主流记忆实现:令牌级记忆参数化记忆潜在记忆

3.1 令牌级记忆(Token-level Memory)

令牌级记忆是最直观和广泛采用的形式,它将记忆表示为可以直接注入LLM输入上下文的离散令牌序列。这种形式包括:

文本缓冲区 :最简单的实现,存储原始对话历史或交互日志
结构化文本表示 :将记忆组织为键值对、列表或层次结构
向量数据库 :使用语义嵌入进行高效检索
知识图谱:以图结构表示实体关系和事实知识

优势

  • 实现简单,易于理解和调试

  • 与现有LLM架构无缝集成

  • 支持灵活的检索和更新策略

局限

  • 受上下文窗口限制

  • 大规模存储的计算成本高

  • 难以捕获隐式知识模式

3.2 参数化记忆(Parametric Memory)

参数化记忆通过直接更新模型参数来存储信息,使记忆成为模型权重的一部分。这种方法包括:

持续学习 :通过在新数据上微调来更新模型知识
参数高效调优 :使用LoRA、Adapter等技术进行局部参数更新
记忆增强架构:专门设计用于动态参数更新的模型结构

优势

  • 不占用推理时的上下文窗口

  • 可以编码复杂的隐式知识

  • 推理效率高

局限

  • 更新成本高,需要重新训练

  • 容易发生灾难性遗忘

  • 难以追踪和解释特定记忆

3.3 潜在记忆(Latent Memory)

潜在记忆在令牌级和参数化记忆之间提供了一个中间方案,通过学习的潜在表示来编码记忆状态。这包括:

连续向量状态 :将记忆表示为可学习的向量
记忆增强注意力 :通过专门的注意力机制访问记忆
神经记忆网络:使用神经网络模块显式建模记忆操作

优势

  • 比参数化记忆更灵活

  • 比令牌级记忆更紧凑

  • 可以通过端到端训练优化

局限

  • 实现复杂度高

  • 可解释性较差

  • 需要专门的训练策略


四、记忆的功能:超越时间维度的分类

传统的长期/短期记忆分类已不足以捕捉当代智能体记忆系统的多样性。本节提出更细粒度的功能分类,区分事实记忆经验记忆工作记忆

4.1 事实记忆(Factual Memory)

事实记忆记录智能体与用户和环境交互中的知识,包括:

用户偏好和画像 :个性化信息、兴趣、习惯
世界知识 :从交互中学习的事实、规则、约束
关系网络:实体间的关系和属性

应用场景

  • 个性化推荐系统

  • 长期对话系统

  • 知识图谱构建

关键挑战

  • 知识更新和一致性维护

  • 隐私保护和数据安全

  • 跨领域知识迁移

4.2 经验记忆(Experiential Memory)

经验记忆通过任务执行逐步增强智能体的问题解决能力,包括:

成功案例库 :存储有效的解决方案和策略
失败经验 :记录错误和避免策略
工具使用经验:积累工具调用模式和效果

应用场景

  • 软件开发智能体

  • 复杂任务规划

  • 持续学习系统

关键挑战

  • 经验泛化能力

  • 过拟合特定任务

  • 负面经验的有效利用

4.3 工作记忆(Working Memory)

工作记忆管理单个任务实例执行期间的工作空间信息,包括:

中间推理状态 :思维链、推理步骤
子目标跟踪 :任务分解和进度监控
临时变量:计算过程中的中间结果

应用场景

  • 多步推理任务

  • 复杂问题分解

  • 交互式任务执行

关键挑战

  • 工作空间容量限制

  • 信息选择和遗忘策略

  • 与长期记忆的协调


五、记忆的动态机制:形成、检索与演化

记忆不是静态的存储,而是动态演化的系统。本节分析记忆如何随时间形成、检索和演化。

5.1 记忆形成

记忆形成决定哪些信息值得保留,包括:

选择性编码 :过滤噪声,提取关键信息
抽象与总结 :将详细交互压缩为可复用知识
结构化组织:将记忆组织为便于检索的结构

技术方法

  • 基于重要性的采样

  • 自动摘要和提炼

  • 层次化记忆组织

5.2 记忆检索

高效的记忆检索对智能体性能至关重要,包括:

语义检索 :基于相似度的向量搜索
结构化查询 :在知识图谱上的遍历
上下文感知检索:根据当前任务动态选择相关记忆

优化策略

  • 多模态检索融合

  • 重排序和精炼

  • 检索结果的压缩

5.3 记忆演化

记忆系统需要持续演化以保持有效性,包括:

知识整合 :合并新旧记忆,解决冲突
遗忘机制 :删除过时或低价值信息
重组优化:重构记忆结构提高效率

关键技术

  • 增量更新算法

  • 冲突检测与解决

  • 自适应遗忘策略


六、资源与工具:基准测试与开源框架

6.1 代表性基准测试

长上下文对话评估

  • LoCoMo:长期对话记忆评估

  • LongMemEval:长期记忆评估基准

复杂问题解决

  • GAIA:通用AI助手基准

  • XBench:跨领域能力测试

  • BrowseComp:浏览和信息综合

代码智能体任务

  • SWE-bench Verified:软件工程基准

持续学习

  • StreamBench:流式学习基准

6.2 开源框架

目前多个开源框架支持智能体记忆系统的开发和部署,为研究者和开发者提供了便利的工具。这些框架通常提供:

  • 记忆存储和管理接口

  • 检索算法实现

  • 向量数据库集成

  • 多智能体协调机制

代表性框架:

LangChain/LangGraph :提供灵活的记忆模块和链式调用接口,支持多种记忆后端
MemGPT :专注于虚拟上下文管理,模拟操作系统级记忆层次
AutoGen :微软开发的多智能体框架,内置对话历史管理
ChatDev :面向软件开发的智能体框架,集成项目级记忆
Semantic Kernel:微软的企业级框架,支持插件化记忆系统

这些框架降低了实现复杂记忆机制的门槛,加速了从研究原型到实际应用的转化。

七、未来方向与挑战

7.1 技术挑战

可扩展性:随着交互时长增加,记忆规模呈指数增长,如何高效检索和压缩历史信息成为关键瓶颈。

一致性维护:跨会话、跨模态的记忆同步困难,容易产生矛盾信息。

隐私与安全:长期记忆存储涉及敏感数据,需要强化加密和访问控制机制。

遗忘机制:如何智能地淘汰过时或无关信息,避免记忆污染。

7.2 研究方向

神经符号融合:结合神经网络的泛化能力与符号系统的推理能力

终身学习:使智能体能够持续从交互中学习,动态更新知识库

情景记忆增强:模拟人类情景记忆机制,提升上下文理解深度

多模态记忆整合:统一处理文本、图像、音频等多源信息

个性化记忆建模:根据用户特征定制记忆策略,提升交互体验

分布式记忆架构:探索多智能体间的协同记忆共享机制

7.3 应用前景

个人助理进化:从被动响应到主动预测用户需求

教育领域变革:智能导师系统能追踪学习轨迹,提供个性化辅导

医疗健康管理:长期记录患者信息,辅助诊断和治疗决策

企业知识管理:构建组织级记忆系统,沉淀业务经验

八、结论

AI智能体的记忆系统正从简单的上下文缓存演进为复杂的认知架构。通过短期、长期、工作记忆的协同,智能体获得了类人的连续性和适应性。当前的技术突破虽然令人鼓舞,但距离真正的通用人工智能仍有距离。未来的研究需要在效率、可解释性和伦理规范间寻求平衡。

随着Transformer架构的持续优化、检索增强技术的成熟,以及神经符号方法的融合,记忆系统将成为智能体突破当前能力边界的关键突破口。我们有理由相信,具备完善记忆机制的AI智能体将在更多领域展现出接近甚至超越人类的认知能力,推动人机协作进入新纪元。

欢迎加入「知识图谱增强大模型产学研」知识星球,获取最新产学研相关"知识图谱+大模型"相关论文、政府企业落地案例、避坑指南、电子书、文章等,行业重点是医疗护理、医药大健康、工业能源制造领域,也会跟踪AI4S科学研究相关内容,以及Palantir、OpenAI、微软、Writer、Glean、OpenEvidence等相关公司进展。

相关推荐
jkyy20142 小时前
从菜品识别到健康决策:AI技术如何赋能B端智慧饮食管理
大数据·人工智能·科技·健康医疗
Coder个人博客2 小时前
Apollo 9.0.0 自动驾驶系统整体架构分析
人工智能·架构·自动驾驶
Deepoch2 小时前
从“功能机”到“智能体”:服务机器人的认知革命与产业重构
大数据·人工智能·科技·机器人·未来·具身模型·deepoc
ToB营销学堂2 小时前
什么是自动化营销系统?目前有哪些自动化营销系统?
大数据
码农小白猿2 小时前
超导材料测试的智能化升级:IACheck如何优化临界温度与电阻率数据的核验
人工智能
qq_411262422 小时前
四博智联 AI 技术方案
人工智能
啊巴矲2 小时前
小白从零开始勇闯人工智能:机器学习初级篇(线性回归与逻辑回归)
人工智能·机器学习·线性回归
莫叫石榴姐2 小时前
ast 在 Dify 工作流中解析 JSON 格式数据的深度解析
大数据·网络·安全·json
小时前端2 小时前
谁说 AI 历史会话必须存后端?IndexedDB方案完美翻盘
前端·agent·indexeddb