Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
AndrewHZ12 分钟前
【遥感图像入门】DEM数据处理核心算法与Python实操指南
图像处理·python·算法·dem·高程数据·遥感图像·差值算法
CoderYanger14 分钟前
动态规划算法-子序列问题(数组中不连续的一段):28.摆动序列
java·算法·leetcode·动态规划·1024程序员节
子春一18 分钟前
Flutter 与 AI 融合开发实战:在移动端集成大模型、智能推荐与生成式 UI
人工智能·flutter·ui
有时间要学习34 分钟前
面试150——第二周
数据结构·算法·leetcode
whitelbwwww43 分钟前
Python图像处理入门指南--opencv
人工智能·opencv·计算机视觉
Peter11467178501 小时前
华中科技大学研究生课程《数字图像处理I》期末考试(2025-回忆版/电子信息与通信学院)
图像处理·人工智能·计算机视觉
颜颜yan_1 小时前
在openEuler上搞个云原生AI模型商店:像点外卖一样部署模型
人工智能·云原生
liu****1 小时前
3.链表讲解
c语言·开发语言·数据结构·算法·链表
lomocode1 小时前
Dify 自建部署完全指南:从上手到放弃到真香
人工智能
第二只羽毛1 小时前
C++ 高性能编程要点
大数据·开发语言·c++·算法