Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
mit6.824几秒前
数位dp|组合数学|差分emplace
算法
2301_764441334 分钟前
新能源汽车电磁辐射高级预测
python·算法·数学建模·汽车
Keep_Trying_Go10 分钟前
论文Leveraging Unlabeled Data for Crowd Counting by Learning to Rank算法详解
人工智能·pytorch·深度学习·算法·人群计数
仟濹28 分钟前
【C/C++】经典高精度算法 5道题 加减乘除「复习」
c语言·c++·算法
趣浪吧31 分钟前
AI在手机上真没用吗?
人工智能·智能手机·aigc·音视频·媒体
顾安r44 分钟前
11.21 脚本 网页优化
linux·前端·javascript·算法·html
IT考试认证1 小时前
华为人工智能认证 HCIA-AI Solution H13-313 题库
人工智能·华为·题库·hcia-ai·h13-313
AI technophile1 小时前
OpenCV计算机视觉实战(31)——人脸识别详解
人工智能·opencv·计算机视觉
九河云1 小时前
汽车轻量化部件智造:碳纤维成型 AI 调控与强度性能数字孪生验证实践
人工智能·汽车·数字化转型
3DVisionary1 小时前
DIC技术如何重新定义汽车板料成形测试
人工智能·汽车·材料力学性能·dic技术·汽车板料·成形极限图·非接触式测量