技术栈
meta-rl
MoonOut
4 天前
meta-rl
offline meta-RL | 总结 FOCAL 等经典工作的数据收集 / 性能测试方法
演进顺序:maml 2017 → macaw 2021 = focal 2021 → corro 2022 = prompt-DT 2022 → csro 2023 → unicorn 2024。
MoonOut
3 个月前
offline rl
·
meta-rl
offline meta-RL | 近期工作速读记录
也请参见:offline meta-RL | 经典论文速读记录主要内容:结果 1:随机意图确实产生多样且高质量行为。实验显示,UBER提取的行为策略:
我是有底线的