Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
嵌入式-老费4 分钟前
自己动手写深度学习框架(pytorch入门)
人工智能·pytorch·深度学习
irisMoon0613 分钟前
yolov5单目测距+速度测量+目标跟踪
人工智能·yolo·目标跟踪
Linux猿16 分钟前
365科技简报 2025年11月13日 星期四
人工智能·科技简报
终端域名22 分钟前
当今前沿科技:脑机共生界面(脑机接口)深度解析
人工智能·智能电视
Kuo-Teng30 分钟前
LeetCode 198: House Robber
java·算法·leetcode·职场和发展·动态规划
2501_9411114031 分钟前
C++中的状态模式实战
开发语言·c++·算法
2301_7833601332 分钟前
R语言机器学习系列|随机森林模型特征重要性排序的R语言实现
随机森林·机器学习·r语言
SelectDB41 分钟前
十亿 JSON 秒级响应:Apache Doris vs ClickHouse,Elasticsearch,PostgreSQL
算法
化作星辰1 小时前
深度学习_神经网络激活函数
人工智能·深度学习·神经网络
橘颂TA1 小时前
【剑斩OFFER】算法的暴力美学——除自身以外数组的乘积
算法·leetcode·职场和发展·结构与算法