PyTorch强化学习实战(11)——N步DQN(N-step DQN)自从 DeepMind 在 2015 年提出深度Q网络 (Deep Q-Network, DQN) 模型以来,研究人员已经提出了诸多改进方案,通过对基础架构的调整显著提升了原始 DQN 的收敛性、稳定性和样本效率。 2017 年 DeepMind 的 Hessel 等人发表了名为 Rainbow: Combining improvements in deep reinforcement learning 的论文,系统性地整合了 DQN 的六大核心改进。仅通过这六种方法的组合,便在 Atari 游戏测试集上