Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
人工智能AI技术15 分钟前
YOLOv9目标检测实战:用Python搭建你的第一个实时交通监控系统
人工智能
罗湖老棍子18 分钟前
【例 2】选课(信息学奥赛一本通- P1576)
算法·树上背包·树型动态规划
每天要多喝水20 分钟前
动态规划Day33:编辑距离
算法·动态规划
小雨中_21 分钟前
2.7 强化学习分类
人工智能·python·深度学习·机器学习·分类·数据挖掘
每天要多喝水22 分钟前
动态规划Day34:回文
算法·动态规划
weixin_4772716924 分钟前
马王堆帛书《周易》系统性解读(《函谷门》原创)
算法·图搜索算法
拯救HMI的工程师27 分钟前
【拯救HMI】工业HMI字体选择:拒绝“通用字体”,适配工业场景3大要求
人工智能
lczdyx1 小时前
【胶囊网络】01-2 胶囊网络发展历史与研究现状
人工智能·深度学习·机器学习·ai·大模型·反向传播
AomanHao1 小时前
【ISP】基于暗通道先验改进的红外图像透雾
图像处理·人工智能·算法·计算机视觉·图像增强·红外图像
AI智能观察1 小时前
从数据中心到服务大厅:数字人智能体如何革新电力行业服务模式
人工智能·数字人·智慧展厅·智能体·数字展厅