Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
梦想的旅途22 分钟前
外部群消息监听的轮询与 Hook 机制对比
人工智能·自动化·企业微信
没有bug.的程序员3 分钟前
负载均衡的真正含义:从算法到架构的深度解析
java·jvm·算法·微服务·架构·负载均衡
谈笑也风生4 分钟前
经典算法题型之复数乘法(一)
数据结构·算法
剪一朵云爱着5 分钟前
PAT 1056 Mice and Rice
算法·pat考试
北京耐用通信8 分钟前
预算减半,效率翻倍:耐达讯自动化Profibus六路中继器如何成为工程师的“省钱利器”
人工智能·物联网·网络协议·自动化·信息与通信
泰迪智能科技8 分钟前
分享|大数据人工智能实验室合作案例举例
大数据·人工智能·科技
飞哥数智坊8 分钟前
GLM-4.7 上手初测:前端审美确实能打,值得一试
人工智能·ai编程·chatglm (智谱)
古城小栈9 分钟前
医疗健康:区块链 + AI 疾病预测模型落地实践
人工智能·区块链
星火开发设计10 分钟前
快速排序详解:原理、C++实现与优化技巧
java·c++·算法·排序算法·快速排序·知识
我很哇塞耶11 分钟前
打破模态壁垒!DSE:以文档截图为核心的多模态检索范式
人工智能·ai·大模型