Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
Aaron15887 分钟前
通用的通感控算存一体化平台设计方案
linux·人工智能·算法·fpga开发·硬件工程·射频工程·基带工程
musk121210 分钟前
人工智能学习大纲,豆包深入研究版
人工智能·学习
_w_z_j_22 分钟前
拼三角(枚举)
算法
涛涛讲AI23 分钟前
Gemini3对比豆包,不做游戏,不做图片拿我工作的实例对比
人工智能·扣子·豆包·gemini3
Web3_Daisy25 分钟前
烧池子、貔貅、跑路概率…如何在链上避免踩雷?
人工智能·安全·web3·区块链·比特币
不知道累,只知道类31 分钟前
把AI当助手:写好提示词的实战指南
人工智能
hweiyu0037 分钟前
数据结构和算法分类
数据结构·算法·分类
M K Q39 分钟前
2025.9 GESP三级 日历制作
算法
Zzz 小生39 分钟前
Github-Go语言AI智能体开发套件:构建下一代智能代理的利器
人工智能·golang·github
CloudWeGo1 小时前
企业级落地案例:抖音搜索核心链路基于 Kitex 流式改造的技术实践
人工智能·架构·开源