【AI论文】SRMT: 多智能体终身路径规划中的共享内存

摘要：多智能体强化学习（MARL）在解决各种环境下的合作与竞争多智能体问题方面取得了显著进展。MARL面临的主要挑战之一是，为了实现合作，需要明确预测智能体的行为。为了解决这一问题，我们提出了共享循环记忆Transformer（SRMT），它通过汇总并全局广播个体工作记忆，将记忆Transformer扩展到多智能体设置中，使智能体能够隐式地交换信息并协调它们的行动。我们在一个玩具瓶颈导航任务中的部分可观察多智能体路径规划问题，以及一组POGEMA基准任务上对SRMT进行了评估。在瓶颈任务中，SRMT始终优于各种强化学习基线方法，尤其是在稀疏奖励条件下，并且能够有效地泛化到比训练时所见更长的走廊。在包括迷宫、随机和MovingAI在内的POGEMA地图上，SRMT与最近的MARL算法、混合算法和基于规划的算法相比具有竞争力。这些结果表明，将共享循环记忆融入基于Transformer的架构中，可以增强分散式多智能体系统中的协调性。训练和评估的源代码可在GitHub上获取：https://github.com/Aloriosa/srmt。Huggingface链接：Paper page ，论文链接：2501.13200

一、引言

多智能体系统潜力：多智能体系统具有通过分布式智能和协作解决复杂问题的巨大潜力。然而，协调多个智能体之间的交互仍然是一个挑战，通常需要复杂的通信协议和决策机制。
全局工作空间理论：受全局工作空间理论启发，该理论认为大脑中存在独立的功能模块，它们可以通过全局工作空间广播信息来合作。受此启发，作者将多智能体路径规划（MAPF）中的智能体视为具有共享内存的独立模块，并提出了共享循环记忆Transformer（SRMT）作为交换信息以改善协调并避免死锁的机制。
研究背景与动机：在多智能体强化学习（MARL）中，明确预测智能体的行为以实现合作是一个主要挑战。传统的MARL方法包括集中式设置、完全分散式设置以及分散式设置但带有网络智能体，这些方法各有优缺点。本文提出的SRMT属于分散式设置但带有网络智能体，允许智能体通过共享内存间接通信。

二、相关工作

2.1 共享内存与多智能体强化学习中的通信

集中式与分散式方法：集中式方法如LaCAM和RHCR使用一个中央控制器来汇总所有智能体的信息，而分散式方法如IQL、VDN、QMIX、QPLEX等则仅基于局部信息进行决策。分散式方法中带有通信的如DCC、MAMBA、SCRIMP等允许智能体共享信息以增强协调和避免碰撞。
现有方法的局限性：虽然这些方法在一定程度上提高了智能体之间的协调能力，但它们要么依赖于中央控制器（集中式方法），要么通信策略复杂且可能导致死锁（分散式带通信方法）。SRMT通过共享循环记忆提供了一种新的隐式信息交换方式，避免了这些局限性。

2.2 共享内存与记忆Transformer

记忆Transformer的发展：记忆Transformer通过向输入序列附加特殊的记忆令牌来扩展标准的Transformer架构，为模型提供了额外的操作空间。这些记忆令牌是可训练的，并被模型用作工作记忆。
相关方法比较：RMT、ATM、RATE等方法都在不同程度上引入了记忆机制来增强Transformer的能力。然而，它们主要关注于维护每个智能体的个体记忆状态，而SRMT则进一步将这些个体记忆状态汇总并全局广播，从而实现了智能体之间的隐式信息交换和协调。

三、共享循环记忆Transformer（SRMT）

3.1 多智能体路径规划任务定义

环境表示：智能体在二维环境中交互，该环境被表示为图G=(V,E)，其中顶点V对应位置，边E对应位置之间的转换。
智能体目标：每个智能体i在任务开始时被赋予一个起始位置s_i和一个目标位置g_i，智能体的任务是在不与其他智能体碰撞的情况下到达其目标位置。

3.2 SRMT架构

核心组件：SRMT架构包括空间编码器、行动解码器、评论家头部和记忆头部。空间编码器处理智能体的观察，行动解码器生成智能体的行动，评论家头部评估行动的价值，记忆头部更新智能体的个人记忆向量。
信息交换机制：SRMT通过汇总每个智能体的个人记忆向量，并通过交叉注意力层将这些记忆向量与共享内存进行交互，从而实现智能体之间的隐式信息交换。共享内存包含当前时间步所有智能体的记忆向量序列，每个智能体都可以访问这个共享内存来更新自己的记忆向量和生成行动。

四、实验与结果

4.1 经典MAPF在瓶颈任务上的实验

实验设置：在POGEMA框架下，使用了一个简单的两智能体协调任务，即智能体必须通过狭窄的走廊到达对面房间的目标位置。
基线方法：与MAMBA、QPLEX、ATM、RATE、RRNN等基线方法进行了比较。
实验结果：SRMT在各种奖励函数（包括方向性奖励、移动负奖励和稀疏奖励）下均表现出色，尤其是在稀疏奖励条件下，SRMT明显优于其他基线方法。此外，SRMT在训练时未见过的更长走廊上也能有效泛化。

4.2 终身MAPF实验

实验设置：使用了一组40个迷宫环境来训练SRMT，并测试了其在不同环境（包括迷宫、随机、MovingAI和仓库）上的性能。
基线方法：与MAMBA、QPLEX、Follower、MATS-LP、RHCR等基线方法进行了比较。
实验结果：SRMT在平均吞吐量、路径规划、拥堵管理、合作能力、泛化能力和可扩展性等方面均表现出色。特别是在仓库环境中，结合了Follower启发式路径搜索的SRMT-FlwrPlan在平均吞吐量上超过了其他所有基线方法。

五、分析与讨论

5.1 SRMT的优势

隐式信息交换：SRMT通过共享循环记忆实现了智能体之间的隐式信息交换，避免了显式通信协议可能带来的复杂性和死锁问题。
协调与决策：SRMT使智能体能够在考虑全局上下文的情况下做出决策，从而提高了协调能力和任务成功率。
泛化与可扩展性：SRMT在训练时未见过的环境和更多智能体的情况下也能有效泛化和扩展。

5.2 局限性

假设条件：本文假设智能体具有完美的定位和映射能力，且动作执行准确、同步。此外，还假设障碍物是固定的。这些假设在实际应用中可能不成立。
理论保证：与一些其他学习方法一样，SRMT不能保证智能体一定能到达其目标位置。然而，实验结果表明SRMT在实际应用中表现良好。

六、结论

主要贡献：本文提出了共享循环记忆Transformer（SRMT）架构，用于增强分散式多智能体系统中的协调性。SRMT通过汇总并全局广播个体工作记忆，使智能体能够隐式地交换信息并协调行动。
实验结果：实验结果表明，SRMT在解决瓶颈导航任务和终身MAPF问题上均表现出色，尤其是在稀疏奖励条件下和更长的走廊上。此外，SRMT在POGEMA基准任务上也具有竞争力。
未来工作：未来的工作可以探索将SRMT应用于更复杂的环境和任务中，并进一步研究如何结合其他技术（如启发式搜索）来提高SRMT的性能。