marl - marl技术,学习,经验文章

时间里的河

2 年前

MAPPO 算法的深度解析与应用和实现说明：PPO 属于 on-policy 的算法，所以被认为它的样本效率比较低。在多智能体的环境下，off-policy的策略被广泛使用。在这项工作中，我们仔细研究了PPO在合作多智能体设置下的性能。我们展示了基于ppo的多智能体算法在四种流行的多智能体测试平台(粒子世界环境、星际争霸多智能体挑战、Google Research Football和Hanabi挑战)中实现了惊人的强大性能，只需要最小的超参数调整，并且没有任何特定领域的算法修改或架构。重要的是，与竞争性的 off-policy 方法相比，PP