技术栈
价值函数
仙人掌_lz
17 小时前
python
·
算法
·
强化学习
·
rl
·
价值函数
深度理解用于多智能体强化学习的单调价值函数分解QMIX算法:基于python从零实现
在合作式多智能体强化学习(MARL)中,多个智能体携手合作,共同达成一个目标,通常会收到一个团队共享的奖励。在这种场景下,一个关键的挑战就是功劳分配:一个单独的智能体如何仅凭全局奖励信号来判断自己对团队成功或失败的贡献呢?简单的独立学习方法(比如每个智能体都运行 DQN)往往行不通,因为它把其他智能体当作了非静态环境的一部分,而且在功劳分配上也搞不定。