Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
普通网友几秒前
C++模块化设计原则
开发语言·c++·算法
TDengine (老段)4 分钟前
优化 TDengine IDMP 面板编辑的几种方法
人工智能·物联网·ai·时序数据库·tdengine·涛思数据
倦王6 分钟前
力扣日刷251117
算法·leetcode·职场和发展
Genevieve_xiao25 分钟前
【数据结构】【xjtuse】八股文单元小测
数据结构·算法
Xの哲學35 分钟前
Linux slab分配器深度剖析:从原理到实践
linux·服务器·算法·架构·边缘计算
数据的世界0140 分钟前
Visual Studio 2026 正式发布:AI 原生 IDE 与性能革命的双向突破
ide·人工智能·visual studio
shayudiandian2 小时前
深度学习中的激活函数全解析:该选哪一个?
人工智能·深度学习
普通网友2 小时前
C++中的组合模式
开发语言·c++·算法
2501_941111462 小时前
C++中的组合模式变体
开发语言·c++·算法