Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
用泥种荷花9 分钟前
【LangChain学习笔记】Message
人工智能
阿里云大数据AI技术13 分钟前
一套底座支撑多场景:高德地图基于 Paimon + StarRocks 轨迹服务实践
人工智能
云擎算力平台omniyq.com14 分钟前
CES 2026观察:从“物理AI”愿景看行业算力基础设施演进
人工智能
CodeByV16 分钟前
【算法题】快排
算法
一起努力啊~18 分钟前
算法刷题--长度最小的子数组
开发语言·数据结构·算法·leetcode
rchmin23 分钟前
限流算法:令牌桶与漏桶详解
算法·限流
想用offer打牌24 分钟前
一站式了解Spring AI Alibaba的流式输出
java·人工智能·后端
leoufung30 分钟前
LeetCode 221:Maximal Square 动态规划详解
算法·leetcode·动态规划
黑符石32 分钟前
【论文研读】Madgwick 姿态滤波算法报告总结
人工智能·算法·机器学习·imu·惯性动捕·madgwick·姿态滤波
源代码•宸34 分钟前
Leetcode—39. 组合总和【中等】
经验分享·算法·leetcode·golang·sort·slices