Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
程序员酥皮蛋12 小时前
hot 100 第三十三 33.排序链表
数据结构·算法·链表
蚊子码农12 小时前
算法题解记录-2452距离字典两次编辑以内的单词
开发语言·算法·c#
重生之后端学习12 小时前
207. 课程表
java·数据结构·算法·职场和发展·深度优先
Elastic 中国社区官方博客12 小时前
Elasticsearch:创建 geocoding workflow,并在 agent 中使用它进行位置搜索
大数据·人工智能·elasticsearch·搜索引擎·ai·语言模型
自由职业社12 小时前
硅基流动:强悍的生成式AI计算平台,普惠AGI!
人工智能·agi
Tisfy13 小时前
LeetCode 1523.在区间范围内统计奇数数目:两种方法O(1)算
算法·leetcode·题解
老金带你玩AI13 小时前
16项测试赢了13项!Gemini 3.1 Pro碾压GPT-5.2和Claude
人工智能
是小蟹呀^13 小时前
低质量人脸识别的两条技术路线:FIE与CSM详解
人工智能
DevilSeagull13 小时前
LangChain & LangGraph 介绍
人工智能·程序人生·langchain·大模型·llm·vibe coding
TechubNews13 小时前
燦谷(Cango Inc)入局AI 資本重組彰顯決心
大数据·网络·人工智能·区块链