技术栈

meta rl

MoonOut
21 天前
offline rl·meta rl
offline meta RL | 论文速读记录主要内容:结果 1:随机意图确实产生多样且高质量行为。实验显示,UBER提取的行为策略:结果 2:在线学习加速显著。在Mujoco运动任务中,UBER相比基线方法:
我是有底线的