Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
AI视觉网奇4 分钟前
公式动画软件学习笔记
人工智能·公式绘图
Struggle_97554 分钟前
算法知识-从递归入手三维动态规划
算法·动态规划
天天代码码天天7 分钟前
C# OnnxRuntime 部署 DDColor
人工智能·ddcolor
惠惠软件8 分钟前
豆包 AI 学习投喂与排名优化指南
人工智能·学习·语音识别
数据中心的那点事儿8 分钟前
从设计到运营全链破局 恒华智算专场解锁产业升级密码
大数据·人工智能
yuan1999710 分钟前
使用模糊逻辑算法进行路径规划(MATLAB实现)
开发语言·算法·matlab
FluxMelodySun12 分钟前
机器学习(三十三) 概率图模型与隐马尔可夫模型
人工智能·机器学习
不才小强13 分钟前
线性表详解:顺序与链式存储
数据结构·算法
CoovallyAIHub14 分钟前
上交+阿里 | Interactive ASR:Agent框架做语音识别交互纠错,1轮交互语义错误率降57%
算法·架构·github
深兰科技17 分钟前
深兰科技与淡水河谷合作推进:矿区示范加速落地
java·人工智能·python·c#·scala·symfony·深兰科技