rl机器人 - rl机器人技术,学习,经验文章

v_JULY_v

1 年前

WSRL——热启动的RL如何20分钟内控制机器人：先离线RL预训练，之后离线策略热身(模拟离线数据保留)，最后丢弃离线数据做在线RL微调经过过去我司「七月在线」的一系列探索，发现对于某些精密操作任务而言「嗯，注意我的前提是：1 某些——非全部，2 精密操作，比如把耳机线插入耳机孔」，模仿学习的天花板基本就在80-90%，而为了做到100%，根据我们以往的经验，得进一步尝试：IL和RL的结合