Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
云飞云共享云桌面13 小时前
SolidWorks如何实现多人共享
服务器·前端·数据库·人工智能·3d
EchoL、13 小时前
【论文阅读】Generative Text Steganography with Large Language Model(MM‘24)
论文阅读·人工智能·语言模型
疯狂的喵13 小时前
实时信号处理库
开发语言·c++·算法
Chef_Chen13 小时前
数据科学每日总结--Day47--计算机视觉
图像处理·人工智能·计算机视觉
Pythonliu713 小时前
BindCraft Installation 使用
人工智能·pytorch·计算化学
小O的算法实验室13 小时前
2023年ESWA SCI1区TOP,地面车辆与无人机协同系统的多区域覆盖双层路径规划,深度解析+性能实测
算法·论文复现·智能算法·智能算法改进
搞科研的小刘选手13 小时前
【虚拟现实/人机交互会议】第二届人工智能、虚拟现实与交互设计国际学术会议(AIVRID)
大数据·人工智能·计算机·aigc·虚拟现实·国际学术会议·交互技术
啵啵鱼爱吃小猫咪13 小时前
机器人标准DH(SDH)与改进DH(MDH)
开发语言·人工智能·python·学习·算法·机器人
工程师老罗13 小时前
DataLoader的用法
人工智能·python
若风的雨13 小时前
AI优化控制相关的核心API分类总结
人工智能