Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
ZzT几秒前
CC 记忆凭啥不用向量数据库
人工智能·开源·claude
guslegend5 分钟前
4月6日(RAG系统)
人工智能·大模型·rag
_江南一点雨6 分钟前
AI 重构企业级系统?我们做了一次低成本实践
人工智能·重构
光电笑映12 分钟前
STL 源码解密:unordered 系列容器的底层复用与哈希策略
算法·哈希算法·散列表
名字不好奇13 分钟前
Claude Code工作原理深度解析:从技术架构到设计哲学
人工智能·架构
6Hzlia23 分钟前
【Hot 100 刷题计划】 LeetCode 215. 数组中的第K个最大元素 | C++ 快速选择与堆排序题解
c++·算法·leetcode
小白菜又菜23 分钟前
Leetcode 3070. Count Submatrices with Top-Left Element and Sum Less Than k
算法·leetcode·职场和发展
一条咸鱼_SaltyFish33 分钟前
DDD 架构重构实践:AI Skills 如何赋能DDD设计与重构
java·人工智能·ai·重构·架构·ddd·领域驱动设计
我是场35 分钟前
我的NPI项目 - OTA upgrade是什么?
android·人工智能
GISer_Jing37 分钟前
2026年前端AI开发终极指南
前端·人工智能