RLPD——利用离线数据实现高效的在线RL:不进行离线RL预训练,直接应用离策略方法SAC,在线学习时对称采样离线数据之所以写此文,原因在于下面两篇文章都涉及到本文要介绍的RLPD正因为其重要些,故写本文RLPD『Ball等,2023,即Efficient online reinforcement learning with offline data,相当于利用离线数据实现高效的在线RL,即Online RL with Offline Data 』,之所以选择它,是因为其样本效率高,且能够融合先验数据