Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
少林码僧21 分钟前
2.30 传统行业预测神器:为什么GBDT系列算法在企业中最受欢迎
开发语言·人工智能·算法·机器学习·ai·数据分析
豆沙沙包?21 分钟前
2026年--Lc343-1926. 迷宫中离入口最近的出口(图 - 广度优先搜索)--java版
java·算法·宽度优先
Darkbluelr21 分钟前
[开源发布] Dev-PlayBooks:让 AI 编程不再“抽卡”,面向 Claude/Codex等 的确定性Spec+TDD开发工作流框架
人工智能·软件工程·ai编程
2301_8002561127 分钟前
全球气候与环境变化考试知识点梳理(1)
大数据·人工智能
edisao30 分钟前
六、 读者高频疑问解答 & 架构价值延伸
大数据·开发语言·人工智能·科技·架构·php
超级大福宝33 分钟前
【力扣200. 岛屿数量】的一种错误解法(BFS)
数据结构·c++·算法·leetcode·广度优先
独自破碎E33 分钟前
【动态规划=递归+记忆化存储】跳台阶
算法·动态规划
2501_9361460444 分钟前
目标检测论文解读复现之六基于RetinaNet的考拉检测方法
人工智能·目标检测·计算机视觉
zm-v-159304339861 小时前
最新AI-Python自然科学领域机器学习与深度学习技术
人工智能·python·机器学习
一颗青果1 小时前
auto | 尾置返回类型 | decltype | using | typedef
java·开发语言·算法