Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
张李浩20 小时前
Leetcode 054螺旋矩阵 采用方向数组解决
算法·leetcode·矩阵
luoganttcc20 小时前
自动驾驶 世界模型 有哪些(二)
人工智能·机器学习·自动驾驶
人工智能AI技术20 小时前
315曝光AI投毒!用C#构建GEO污染检测与数据安全防护方案
人工智能·c#
big_rabbit050220 小时前
[算法][力扣101]对称二叉树
数据结构·算法·leetcode
Hamm20 小时前
不想花一分钱玩 OpenClaw?来,一起折腾这个!
javascript·人工智能·agent
美好的事情能不能发生在我身上20 小时前
Hot100中的:贪心专题
java·数据结构·算法
_李小白21 小时前
【AI大模型学习笔记之平台篇】第二篇:Gemini
人工智能·音视频
2301_8217005321 小时前
C++编译期多态实现
开发语言·c++·算法
一点一木21 小时前
🚀 2026 年 2 月 GitHub 十大热门项目排行榜 🔥
人工智能·github
xixihaha132421 小时前
C++与FPGA协同设计
开发语言·c++·算法