Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
CoderCodingNo19 分钟前
【GESP】C++五级真题(结构体排序考点) luogu-B3968 [GESP202403 五级] 成绩排序
开发语言·c++·算法
zxsz_com_cn20 分钟前
设备预测性维护典型案例:中讯烛龙赋能高端制造降本增效
人工智能
人工智能培训38 分钟前
图神经网络初探(1)
人工智能·深度学习·知识图谱·群体智能·智能体
love530love1 小时前
Windows 11 下 Z-Image-Turbo 完整部署与 Flash Attention 2.8.3 本地编译复盘
人工智能·windows·python·aigc·flash-attn·z-image·cuda加速
雪下的新火1 小时前
AI工具-Hyper3D
人工智能·aigc·blender·ai工具·笔记分享
YGGP2 小时前
【Golang】LeetCode 32. 最长有效括号
算法·leetcode
自然常数e2 小时前
字符函数和字符串函数
c语言·算法·visual studio
leaves falling2 小时前
c语言分数求和
算法
Das12 小时前
【机器学习】01_模型选择与评估
人工智能·算法·机器学习