Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
Jmayday1 分钟前
NLP第三章:注意力机制
人工智能·自然语言处理·nlp
拓朗工控19 分钟前
面向边缘计算与大模型应用的IBOX-602GT工控机技术解析
人工智能·边缘计算
迁移科技20 分钟前
AI+3D视觉赋能铝制静盘自动化上下料,破解反光堆叠难题
人工智能·3d·自动化
碳基硅坊25 分钟前
Claude Mythos:Anthropic 最强模型的技术解析与安全评估
人工智能·claude·claude mythos
计算机毕设源码分享88888841 分钟前
中班幼儿户外体育游戏教师指导的现状及对策研究——以潍坊市A幼儿园为例
人工智能
AiTop10042 分钟前
商汤发布SenseNova 6.7 Flash-Lite:原生多模态架构打破“视觉转文本“瓶颈,Token消耗直降 60%
人工智能·ai·架构
阿星AI工作室1 小时前
为了听到代码的声音,我vibecoding了一架钢琴丨code piano
人工智能
我这一拳20年的功力1 小时前
剪不断,理还乱?从Vibe到Harness的这些名词
人工智能
叼烟扛炮1 小时前
C++ 知识点18 内部类
开发语言·c++·算法·内部类
茶马古道的搬运工1 小时前
AI 深度技能之-模型路由(一)-必要性
人工智能