技术栈

rl机器人

v_JULY_v
13 小时前
深度强化学习·wsrl·warm start rl·机器人做精密操作任务·rl机器人·real world rl·模拟离线数据保留
WSRL——热启动的RL如何20分钟内控制机器人:先离线RL预训练,之后离线策略热身(模拟离线数据保留),最后丢弃离线数据做在线RL微调经过过去我司「七月在线」的一系列探索,发现对于某些精密操作任务而言「嗯,注意我的前提是:1 某些——非全部,2 精密操作,比如把耳机线插入耳机孔」,模仿学习的天花板基本就在80-90%,而为了做到100%,根据我们以往的经验,得进一步尝试:IL和RL的结合