Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
AI科技星2 分钟前
人类首张【全域数学公理体系】黑洞内部结构图—基于「0-1-∞」三元本源的全维深度解析
人工智能·算法·机器学习·数学建模·数据挖掘·量子计算
啦啦啦_99998 分钟前
案例之 波士顿房价预测(线性回归之正规方程/ 梯度下降!!)
人工智能·数据挖掘·回归
人工智能AI技术12 分钟前
构建工具基础:Make、CMake、Gradle 流程
人工智能
2501_9458374316 分钟前
OpenAI Codex:重新定义软件工程的 AI 智能体
人工智能
paeamecium17 分钟前
【PAT甲级真题】- Recover the Smallest Number (30)
数据结构·算法·pat考试·pat
直奔標竿20 分钟前
Java开发者AI转型第二十三课!Spring AI个人知识库实战(二):异步ETL流水线搭建与避坑指南
java·人工智能·spring boot·后端·spring
Dillon Dong20 分钟前
【风电控制】变流器转矩控制回路深度解析:从指令生成到闭环控制
算法·变流器·风电控制
zandy101120 分钟前
重新定义AI测试——衡石科技从“用例通过“到“可信质量防线“的工程实践
人工智能·科技
奇思智算21 分钟前
小白AI创作GPU算力平台测评:多平台对比与选择指南
大数据·人工智能·gpu算力·智星云·gpu算力租用