Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
Xi-Xu4 分钟前
在云服务器上安全运行 OpenClaw:从安装到加固的完整指南
运维·服务器·人工智能·安全
Dev7z5 分钟前
基于卷积神经网络和递归神经网络的PE恶意文件检测识别
人工智能·rnn·神经网络·cnn·pe恶意文件
chaors6 分钟前
从零学RAG0x05实战应用:企业智能知识库
人工智能·github·ai编程
Eward-an6 分钟前
LeetCode 76. 最小覆盖子串(详细技术解析)
python·算法·leetcode·职场和发展
V搜xhliang02467 分钟前
世界模型、强化学习PPOSAC
人工智能·深度学习·机器学习·语言模型·自然语言处理
EterNity_TiMe_8 分钟前
跨地域实时共创,使用白板协作不卡壳得最佳解决方案。
人工智能·web·cpolar
guygg889 分钟前
基于ADMM的MRI-PET高质量图像重建算法MATLAB实现
开发语言·算法·matlab
moonlight030412 分钟前
类加载子系统
java·jvm·算法
吴佳浩 Alben13 分钟前
OpenClaw 2026.3.2 — 2026.3.8 权限变更与安全加固
人工智能·安全·语言模型
xjf771116 分钟前
通义灵码Agent闭环工作流
人工智能·ai文档