Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
白日做梦Q7 小时前
深度学习模型评估指标深度解析:不止于准确率的科研量化方法
人工智能·深度学习
电商API&Tina8 小时前
跨境电商 API 对接指南:亚马逊 + 速卖通接口调用全流程
大数据·服务器·数据库·python·算法·json·图搜索算法
Yyyyy123jsjs8 小时前
外汇Tick数据交易时段详解与Python实战分析
人工智能·python·区块链
张彦峰ZYF8 小时前
提示词工程实战指南:从概念认知到可验证的高质量 Prompt 设计
人工智能·提示词工程实战指南·高质量 prompt 设计
LYFlied8 小时前
【每日算法】LeetCode 1143. 最长公共子序列
前端·算法·leetcode·职场和发展·动态规划
不易思不逸9 小时前
SAM2 测试
人工智能·python
BOF_dcb9 小时前
【无标题】
pytorch·深度学习·机器学习
长安er9 小时前
LeetCode 20/155/394/739/84/42/单调栈核心原理与经典题型全解析
数据结构·算法·leetcode·动态规划·
V1ncent_xuan9 小时前
坐标转化Halcon&Opencv
人工智能·opencv·计算机视觉
MarkHD9 小时前
智能体在车联网中的应用:第28天 深度强化学习实战:从原理到实现——掌握近端策略优化(PPO)算法
算法