Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
DMD1684 小时前
从仓库到门店:AI如何重构零售供应链的“最后一公里”
人工智能·科技·重构·零售·数字化转型·产业升级·ai技术开发
秃头小饼干4 小时前
虚拟机性能优化实战技术文章大纲
人工智能·云计算
番茄迷人蛋4 小时前
欢迎使用AI美食大师项目
人工智能·ai
InfiSight智睿视界4 小时前
即时零售仓网管理的AI 智能化演进
大数据·人工智能·零售
汽车仪器仪表相关领域4 小时前
MTX-AL:传统指针美学与现代数字科技的完美融合 - 模拟宽带空燃比计
大数据·人工智能·科技·单元测试·汽车·压力测试·可用性测试
严文文-Chris4 小时前
【半监督学习常见算法】
学习·算法·机器学习
WHFENGHE4 小时前
金具线夹测温在线监测装置:电力设备安全运行的核心技术支撑
大数据·人工智能·安全
FPGA_无线通信4 小时前
OFDM 同步设计(3)
算法·fpga开发
Coding茶水间4 小时前
基于深度学习的35种鸟类检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·计算机视觉
AI巨人4 小时前
“PR插件:轻松减少50%素材寻找时间,内置丰富素材,提升视频制作效率
人工智能·音视频·语音识别