技术栈

在线rl with离线数据

v_JULY_v
5 天前
rlpd·基于先验数据的强化学习·在线rl with离线数据
RLPD——利用离线数据实现高效的在线RL:不进行离线RL预训练,直接应用离策略方法SAC,在线学习时对称采样离线数据之所以写此文,原因在于下面两篇文章都涉及到本文要介绍的RLPD正因为其重要些,故写本文RLPD『Ball等,2023,即Efficient online reinforcement learning with offline data,相当于利用离线数据实现高效的在线RL,即Online RL with Offline Data 』,之所以选择它,是因为其样本效率高,且能够融合先验数据
我是有底线的