Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
Light6019 小时前
智链全球,韧性履约:AI赋能新一代海外EPC/EPCM项目管理解决方案
人工智能·数字孪生·风险管理·ai赋能·海外epc/epcm·智慧项目管理·协同增效
棒棒的皮皮20 小时前
【深度学习】YOLO核心原理介绍
人工智能·深度学习·yolo·计算机视觉
2501_9418043221 小时前
从单机消息队列到分布式高可用消息中间件体系落地的互联网系统工程实践随笔与多语言语法思考
人工智能·memcached
mantch21 小时前
个人 LLM 接口服务项目:一个简洁的 AI 入口
人工智能·python·llm
Swift社区21 小时前
LeetCode 465 最优账单平衡
算法·leetcode·职场和发展
聆风吟º21 小时前
【数据结构手札】空间复杂度详解:概念 | 习题
java·数据结构·算法
weixin_4450547221 小时前
力扣热题51
c++·python·算法·leetcode
档案宝档案管理21 小时前
档案宝自动化档案管理,从采集、整理到归档、利用,一步到位
大数据·数据库·人工智能·档案·档案管理
地平线开发者21 小时前
linux 常见稳定性问题分析方法
算法·自动驾驶
s砚山s21 小时前
代码随想录刷题——二叉树篇(九)
算法