IMPALA强化学习算法的学习和解读

IMPALA是DeepMind于2018年提出的可扩展分布式深度强化学习架构。

全名Importance Weighted Actor-Learner Architecture，让单个智能体能同时学习多个任务。

IMPALA采用分离式Actor-Learner架构和V-trace off-policy，通过高效分布式计算提升训练速度。

这里深入分析探索IMPALA的Actor-Learner架构和V-Trace off-policy修正算法。

所用内容参考自网络资料。

区别于A3C(Asynchronous Advantage Actor-Critic)，IMPALA将行动与学习两个过程分离。

Actor，即行动者，成千上万个游戏玩家Actor，在各自环境中探索，收集经验数据(即<状态、动作、奖励>序列)，并将这些经验数据发送给中心学习器，而不是计算梯度然后发送梯度。

Learner，即学习学习器，一个或多个中心化的教练(Learner)负责接收所有Actor传来的经验，利用GPU批量学习，更新模型参数。

Actor和Learner解耦，使得Actor不必再像A3C等待Learner计算梯度，而是一刻不停地生成数据。

解耦Actor和Learner虽然提高了吞吐量，但引入了新的问题，即策略滞后。

Actor本地策略（记作μ）可能已经过时，生成经验时用的是旧版本的参数。

而此时Learner正在更新的目标策略（记作π）已经进化了好几版。

这造成了行为策略和目标策略的不一致，即变成了Off-policy（离策略）学习。

直接用旧策略产生的数据来更新新策略，会导致学习不稳定甚至失败。

IMPALA提出了一个创新---V-trace。V-trace是一种专门设计的off-policy修正方法。它像一个翻译官，能够精准地评估并修正因策略滞后带来的数据偏差，解决行为策略和目标策略不一致的问题。

假设想学习一位大师（目标策略π）的下棋风格，但手头只有一位业余爱好者（行为策略μ）的对局记录。不能直接照搬业余爱好者的走法，因为水平差距太大。V-trace就像一个智能过滤器，它能分析业余爱好者的棋局，从中提取出那些接近大师思路的走法，并剔除那些明显错误的，从而安全有效地学习。

具体为通过重要性采样等技术，确保了Learner即使在使用过时的旧数据时，也能正确、稳定地更新目标策略π，让训练过程既快速又稳健。这是IMPALA能够成功的技术基石。

具体过程参考如下链接

凭借上述设计，IMPALA在性能上取得了显著突破：

1）惊人吞吐量

在实验中，IMPALA可以达到每秒处理25万帧游戏画面的速度，比单机版的A3C快了30倍以上。

2）卓越的数据效率

在DeepMind的DMLab-30多任务测试集中，IMPALA的数据利用效率是分布式A3C的10倍，最终得分也是后者的2倍。

IMPALA最初就是为了解决多任务学习问题而设计的。

例如让一个智能体学会DMLab-30中的全部30个任务。此外，它在Atari 57款游戏上的表现也证明了其强大的泛化能力和有效性。

IMPALA是分布式强化学习的一个里程碑式，通过解构传统框架，将数据生成和模型学习分离，并创造性地引入V-trace算法解决了由此产生的off-policy问题，在训练速度、数据效率和可扩展性上实现了巨大飞跃。

IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

前沿 | DeepMind提出新型架构IMPALA：帮助实现单智能体的多任务强化学习

从框架到经典方法，全面了解分布式深度强化学习DDRL

V-trace的核心公式与计算过程