【无标题】解析《采用非对称自玩实现强健多机器人群集的深度强化学习方法》

《A Deep Reinforcement Learning Approach Using Asymmetric Self-Play for Robust Multirobot Flocking》2025年发表在IEEE Transactions on Industrial Informatics

一、文章背景

多机器人集群控制（简单说就是让一群机器人协同移动）在物流、搜救这些实际场景里很有用，核心是让机器人凑在一起不碰撞，还能顺利到达目标地。但现实环境没那么简单，不仅有固定障碍物，还有会主动干扰的 "敌对机器人"（比如故意撞过来破坏队形），而且机器人之间还不能通信，只能靠自己看到的局部信息做决策。

现有方法存在明显局限：传统集群控制方法（如人工势场法、模型预测控制）依赖对环境和智能体的精确、全面建模，导致实际应用成本高，在复杂动态场景中可行性受限，无法应对未预定义的对抗性干扰；近年来兴起的深度强化学习（DRL）方法虽凭借强特征提取和决策能力成为替代方案，但现有 DRL-based 集群框架大多仅能处理静态障碍物或行为固定、路径简单的动态障碍物，缺乏对环境不确定性的鲁棒性，且难以扩展到任意数量的机器人集群，未充分考虑对抗性环境中 "智能体 - 干扰体" 的动态交互，策略泛化能力不足。

为了解决传统方法的不足文章提出来了基于不对称自玩的 DRL 框架，核心思路就是让机器人在对抗中练本事：

用不对称自玩：让集群机器人和可学习的敌对干扰体一起训练，干扰体越练越聪明，机器人也能跟着提升应对复杂干扰的能力，比单纯面对固定规则的干扰更有效。

分两阶段训练：第一阶段让两者同步练，积累不同水平的干扰策略；第二阶段让机器人对着这些积累的干扰策略再练，提升泛化能力，避免只会应对一种干扰。

加辅助训练模块：让机器人学会预测下一步的环境变化，减少对未知环境的迷茫，提升适应力。

用注意力机制：不管机器人数量多少，都能快速聚焦关键信息（比如哪个队友近、哪个干扰体威胁大），解决了机器人数量变化带来的适配问题。

二、核心方案

文章的核心技术方案是ASFC（Asymmetric Self-play-empowered Flocking Control）框架，基于深度强化学习（DRL），融合不对称自玩、注意力机制和辅助训练模块，针对性解决动态对抗环境下的多机器人集群控制问题。

ASFC 遵循 "集中式训练、分布式执行" 范式，核心目标是让无通信能力的机器人仅通过局部观测，在静态障碍物 + 动态对抗干扰体的环境中，实现 "避碰、队形保持、高效抵达目标" 三大任务。技术方案围绕 "提升鲁棒性、泛化性、扩展性" 展开，分为五大核心模块。

1）两阶段不对称自玩训练

通过 "机器人与可学习干扰体的对抗训练" 提升策略智能，分两阶段实现鲁棒性与泛化性的双重优化：

设计目的：让机器人在 "不断升级的对抗压力" 中学习，避免仅适应单一干扰模式，同时积累多样化干扰策略以提升泛化能力。

阶段 1：同步训练（干扰体智能提升）

机器人集群与干扰体集群同步训练，两者目标对立：机器人需保持队形避碰，干扰体主动撞击机器人以破坏集群。

每间隔个训练回合，将当前干扰体的网络参数（策略）保存到 "干扰体模型池 W"，积累不同智能水平的干扰策略。

训练环境：15m×15m 场景，5 个机器人 + 5 个干扰体 + 2 个静态障碍物，机器人初始化于边缘区域，目标为场景中心对称点。

阶段 2：对抗模型池（泛化能力强化）

机器人不再与实时训练的干扰体对抗，而是从模型池 W 中采样干扰体策略组成 "对抗团队" 进行训练。

采样机制：① 智能体级采样：个干扰体可组合种干扰团队为模型池数量，提升环境多样性；② 加权采样：根据干扰体模型的历史累积奖励调整采样概率，优先选择更强的干扰策略，实现 "课程学习"（从易到难）。

训练环境：扩展为 25m×25m 场景，8 个机器人 + 6 个干扰体 + 5 个静态障碍物，进一步提升任务复杂度。

核心优势：相比单一阶段训练，机器人能适应 "不同强度、不同模式" 的动态干扰，泛化能力显著提升。

2) 动作与价值学习（网络核心架构）

采用双注意力机制解决 "机器人数量扩展性" 和 "局部 - 全局信息融合" 问题，分为动作生成（演员网络）和价值评估（评论家网络）两部分：

设计目的：让框架适配任意数量的机器人集群，同时让机器人在无通信条件下，间接利用全局信息优化决策。

（1）动作学习（特征级注意力）

输入：机器人的局部观测（自身状态、目标相对位置、三通道局部网格图、周边机器人 / 干扰体状态）。

具体流程：

特征嵌入：通过卷积神经网络（CNN）处理局部网格图，多层感知机（MLP）处理向量型输入，拼接得到 "自身特征"。

特征级注意力聚合：以为查询（Query），对周边机器人特征和干扰体特征计算注意力权重，聚合关键信息：

其中是归一化注意力权重（通过 Softmax 计算），用于聚焦 "威胁最大的干扰体" 或 "距离最近的队友"。

动作生成：将与拼接为特征，输入两层 MLP 组成的演员网络，通过 Softmax 采样离散动作（线性 + 角速度组合）。

干扰体动作学习：网络架构与机器人一致，但观测范围为全局（可获取所有机器人 / 干扰体状态），动作空间略调整（线性速度上限 0.38m/s，机器人为 0.5m/s）。

（2）价值学习（智能体级注意力）

设计目的：在执行阶段无通信，但训练阶段让机器人聚合全局信息，提升价值评估的准确性。

具体流程：

局部总特征：机器人 i 的局部特征与集群特征（自身与集群中心的相对距离 / 角度）拼接为。

全局信息聚合：通过智能体级注意力计算其他机器人 j 的特征重要性，聚合全局信息：

价值生成：将与拼接，输入两层 MLP 组成的评论家网络，输出状态价值。

优化算法：采用 PPO（Proximal Policy Optimization）算法，分别优化演员网络和评论家网络（学习率）。

3）辅助训练模块（环境动态学习）

设计目的：让机器人学习环境状态转移规律，减少对未知环境的不确定性，提升适应能力。

核心功能：基于当前局部特征和执行动作，预测下一时刻的局部网格图。

实现方式：

解码器结构：由 MLP + 多层反卷积层组成，输入为和，输出为预测的三通道网格图（尺寸与输入一致）。

监督信号：由模拟器提供真实的下一时刻网格图，采用交叉熵损失优化预测精度：

总损失融合：将辅助损失与 PPO 的策略损失、价值损失、熵损失加权融合，联合优化：

4）奖励函数设计（任务导向优化）

通过差异化奖励引导机器人与干扰体的行为，确保任务目标达成：

（1）机器人奖励函数

目标抵达奖励：鼓励机器人向目标移动，抵达目标区域（距离）获得固定奖励；未抵达时，根据距离变化给予增量奖励。

队形保持奖励：仅当机器人与集群中心距离 < 且航向偏差 < 时，给予组合奖励（中心保持奖励+ 航向一致奖励)。

避碰惩罚：碰撞时给予强惩罚；与干扰体距离 < 或与障碍物距离 < 时，按距离平方的倒数给予梯度惩罚。

（2）干扰体奖励函数

核心逻辑：鼓励干扰体主动接近并碰撞机器人，同时避免自身碰撞无关物体。

5）观察与动作空间设计（基础环境交互）

（1）观察空间

机器人观察（局部范围）：自身状态（线性 / 角速度）、目标相对位置（距离 / 角度）、三通道局部网格图（近 3 个时刻，分别标记自由空间 / 静态障碍物 / 机器人 / 干扰体）、周边机器人 / 干扰体的相对状态（距离 / 角度 / 航向差）。

干扰体观察（全局范围）：自身状态、全局网格图、所有机器人 / 干扰体的全局状态，观测维度高于机器人。

（2）动作空间

离散化设计：动作由 "线性速度 + 角速度" 组合而成，共 36 种可选动作。

机器人：线性速度 {0, 0.15, 0.3, 0.5} m/s，角速度 {-2, -1.2, -0.8, -0.3, 0, 0.3, 0.8, 1.2, 2} rad/s。

干扰体：线性速度 {0, 0.15, 0.3, 0.38} m/s，角速度与机器人一致。

三、实验结果

以下为论文中的实验图表

实验结果中的ASFC的采样行为还证明了机器人能够在保持预期群聚行为的同时，避开各种干扰体的影响。

这是ASFC和基线方法在三种不同场景中的表现体现了ASFC更优越的泛化能力

四、总结

论文主要提出两阶段不对称自玩范式提升鲁棒性，设计双注意力机制保障扩展性，通过辅助模块降低环境不确定性，且经仿真与物理实验验证了框架的优越性。

论文采用方法达到了以下效果：

避碰能力强：能躲开固定障碍物和主动干扰的敌对机器人；

队形稳：能保持集群中心、和队友方向一致；

效率高：少走弯路，快速到达目标地；

适配性好：不管机器人数量怎么变都能用；

泛化性强：面对不同类型的干扰（随机动、有策略动等）都能应对，还能在真实机器人上落地使用，不是只停留在模拟里。