Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
red1giant_star1 分钟前
浅析XSS原理与分类——含payload合集和检测与防护思路
安全·机器学习
Cosolar8 分钟前
吃透这5种Agent模式,搞定智能体开发
人工智能·面试·全栈
开开心心_Every14 分钟前
限时免费加密、隐藏、锁定文件文件夹好工具
运维·服务器·人工智能·edge·pdf·逻辑回归·深度优先
9359619 分钟前
练习题53-60
算法·深度优先
霖大侠33 分钟前
Wavelet Meets Adam: Compressing Gradients forMemory-Efficient Training
人工智能·深度学习·算法·机器学习·transformer
hyunbar77734 分钟前
Docker命令及使用指南
人工智能
龙俊俊41 分钟前
服务器模型部署与加载
服务器·人工智能·深度学习
yoso1 小时前
告别频繁切窗口!用命令行玩转企业微信-cli的七大核心功能
人工智能