rlpd - rlpd技术,学习,经验文章

v_JULY_v

1 年前

RLPD——利用离线数据实现高效的在线RL：不进行离线RL预训练，直接应用离策略方法SAC，在线学习时对称采样离线数据之所以写此文，原因在于下面两篇文章都涉及到本文要介绍的RLPD正因为其重要些，故写本文RLPD『Ball等，2023，即Efficient online reinforcement learning with offline data，相当于利用离线数据实现高效的在线RL，即Online RL with Offline Data 』，之所以选择它，是因为其样本效率高，且能够融合先验数据