Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
ggabb5 分钟前
汉字破局:AI时代的文明反攻与英语世界的“偷师”真相
人工智能
roman_日积跬步-终至千里8 分钟前
【深度学习】从前向传播到反向传播:用两层 sigmoid 网络把 Backprop 一次讲透
人工智能·深度学习
sinat_2869451910 分钟前
claude code上下文
人工智能·深度学习·prompt
逐梦苍穹14 分钟前
去掉一层东西,Claude.ai直接快了 65%
人工智能·claude
2401_8785302123 分钟前
自定义内存布局控制
开发语言·c++·算法
x-cmd23 分钟前
[x-cmd] 终端里的飞书:lark-cli,让 AI Agent 拥有“实体办公”能力
java·人工智能·ai·飞书·agent·x-cmd
专注VB编程开发20年23 分钟前
PNG、GIF透明游戏角色人物输出一张图片技巧,宽度高度读取
算法
CoderCodingNo33 分钟前
【CSP】CSP-J 2025真题 | 异或和 luogu-P14359 (相当于GESP六级水平)
算法
keep intensify37 分钟前
打家劫舍3
算法·深度优先
历程里程碑40 分钟前
Protobuf 环境搭建:Windows 与 Linux 系统安装教程
linux·运维·数据结构·windows·线性代数·算法·矩阵