技术栈
rl机器人
v_JULY_v
13 小时前
深度强化学习
·
wsrl
·
warm start rl
·
机器人做精密操作任务
·
rl机器人
·
real world rl
·
模拟离线数据保留
WSRL——热启动的RL如何20分钟内控制机器人:先离线RL预训练,之后离线策略热身(模拟离线数据保留),最后丢弃离线数据做在线RL微调
经过过去我司「七月在线」的一系列探索,发现对于某些精密操作任务而言「嗯,注意我的前提是:1 某些——非全部,2 精密操作,比如把耳机线插入耳机孔」,模仿学习的天花板基本就在80-90%,而为了做到100%,根据我们以往的经验,得进一步尝试:IL和RL的结合