Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
java菜鸡加油几秒前
代码随想录-算法训练营day56(动态规划17:回文子串,最长回文子序列,动态规划总结篇)
java·算法·leetcode·动态规划·力扣
青松@FasterAI1 分钟前
【NLP高频面题 - 词嵌入篇】为什么说Word2vec的词向量是静态的?
人工智能·深度学习·自然语言处理·nlp
席万里11 分钟前
基于深度学习的猫狗识别系统【深度学习课设】
人工智能·深度学习
禾风wyh20 分钟前
【深度学习】深刻理解Swin Transformer
人工智能·深度学习·transformer
weixin_5436628638 分钟前
BERT的中文问答系统53
机器学习
XiaoLeisj1 小时前
【优选算法 & 模拟】模拟算法入门详解 : 模拟算法小专题
数据结构·算法·leetcode·推荐算法
dwjf3211 小时前
PyTorch基本使用-张量的创建
人工智能·pytorch·深度学习
XinZong1 小时前
【人工智能】ChatGPT 4的潜力:AI文案、绘画、视频与GPTs平台详解
人工智能
Z2116133471 小时前
opencv实战--颜色识别
人工智能·opencv·计算机视觉
Jacob_AI1 小时前
为什么 Bert 的三个 Embedding 可以进行相加?
人工智能·bert·embedding