价值函数 - 价值函数技术,学习,经验文章

仙人掌_lz

1 年前

深度理解用于多智能体强化学习的单调价值函数分解QMIX算法：基于python从零实现在合作式多智能体强化学习（MARL）中，多个智能体携手合作，共同达成一个目标，通常会收到一个团队共享的奖励。在这种场景下，一个关键的挑战就是功劳分配：一个单独的智能体如何仅凭全局奖励信号来判断自己对团队成功或失败的贡献呢？简单的独立学习方法（比如每个智能体都运行 DQN）往往行不通，因为它把其他智能体当作了非静态环境的一部分，而且在功劳分配上也搞不定。