背景
现有的 memory 工作主要都关注 Agent 独立利用自身存储的记忆来完成任务,这种孤立的范式忽视了 Agents 间的互动和集体记忆的巨大潜力。当前方法常常未能模拟复杂多代理环境中自然发生的异步对话和知识交流,忽视了拥有独特对话历史和专业培训的 Agents 之间的固有多样性和互补性
因此本文提出了 INMS 框架,将范式从孤立推理转变为隐式且高效的异步对话机制。通过互动学习促进动态记忆共享,INMS 建立了一个无需依赖外部静态数据库的共享对话场地
方法

(1) 记忆生成与选择
记忆本质上是 Prompt-Answer 对(PA pair),每次交互后,对于每个新生成的记忆,LLM 评分器会给它进行评分并决定是否将其加入共享记忆池
首先使用 LLM 查询以获取各种评分标准,然后再用 LLM 评估提取最合理的评分标准,经过人工审核后最终确定。每个新生成的记忆将与相应评分标准合并并提交给 LLM 评分器。如果 PA pair 的分数超过预设阈值,答案及其对应提示会被打包为有用内存并存储在内存中
(2) 记忆检索与训练
-
**记忆检索:**会有一小部分实例被手动归档到记忆池中用于初始化,在回答阶段,Agent 利用密集向量相似度检索的方式从共享记忆池中提取记忆。这些提取的记忆与问题结合,形成一个 prompt 提交给 Agent
-
**记忆训练:**每当新的 PA pair 加入记忆池,会使用 BM25 确定最相关的 n 个候选对,然后利用 LLM 给候选对中的输出与新记忆输出相矛盾的概率打分(类似于对话交互机制)。获得的标记数据用于最小化设计的损失函数
(3) 交互式学习
本文说通过评分识别出的高质量 PA pair 被添加到记忆池中,从而加速记忆增长和 Agents 自我增强
实验
(1) 共享记忆的表现

在所有任务中,与不使用共享记忆相比,所有智能体的性能都有显著提升。这表明,来自其他任务的可共享记忆可以帮助智能体获得期望的答案,而不是干扰智能体的学习能力
(2) 跨域共享记忆的表现

作者还构建了一个额外的存储池------集成存储池,将所有域中所有智能体的可共享记忆合并到一个存储池中。然而,如图所示,尽管集成池可以增强共享记忆的多样性,但领域特定池更有效地使智能体能够生成可靠的答案
(3) 演化机制的表现

在设定不同比例的有偏见数据进行初始化后,尽管最初的偏见池严重干扰了代理在早期互动中的反应(因为他们反复检索并参考有缺陷的例子),但不断涌入的动态过滤记忆逐渐稀释了这种偏见。因此最终智能体的表现反弹,最终接近无偏情景中观察到的峰值分数
总结
是一篇对多智能体共享记忆很好的研究工作,提出了一种共享记忆的高质量演化方法