Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
碳基硅坊1 分钟前
GPT-5.5 vs Claude Opus 4.7:两大顶级模型的深度横评
人工智能·claude opus 4.7·gpt 5.5
c++之路3 分钟前
适配器模式(Adapter Pattern)
java·算法·适配器模式
吴声子夜歌16 分钟前
Java——接口的细节
java·开发语言·算法
eastyuxiao19 分钟前
第二章 数字孪生核心技术体系
大数据·人工智能·数字孪生
xwz小王子20 分钟前
刚刚,诺奖得主David Baker团队Nature发文:AI正从“造分子”迈向“造机器”
人工智能
myheartgo-on22 分钟前
Java—方 法
java·开发语言·算法·青少年编程
humcomm30 分钟前
边缘计算如何与云原生技术结合
人工智能·云原生·边缘计算
扬帆破浪33 分钟前
免费开源AI软件.桌面单机版,可移动的AI知识库,察元 AI桌面版:macOS首次启动报无法验证 开发者签名与公证的现实做法
人工智能·macos·开源·知识图谱
zhaoshuzhaoshu38 分钟前
深入解析:Harness 工程架构与设计规则
人工智能
andy_haiying1 小时前
深圳网站建设公司推荐哪家好?2026年5月官网制作服务商综合评测
大数据·人工智能