Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
高山上有一只小老虎3 分钟前
等差数列前n项的和
java·算法
数据与后端架构提升之路8 分钟前
小鹏VLA 2.0的“神秘涌现”:从痛苦到突破,自动驾驶与机器人如何突然“开窍”?
人工智能·机器人·自动驾驶
fruge10 分钟前
CANN核心特性深度解析:简化AI开发的技术优势
人工智能
sin_hielo11 分钟前
leetcode 2536
数据结构·算法·leetcode
flashlight_hi17 分钟前
LeetCode 分类刷题:203. 移除链表元素
算法·leetcode·链表
py有趣18 分钟前
LeetCode算法学习之数组中的第K个最大元素
学习·算法·leetcode
吗~喽18 分钟前
【LeetCode】将 x 减到 0 的最小操作数
算法·leetcode
沛沛老爹28 分钟前
AI入门知识之RAFT方法:基于微调的RAG优化技术详解
人工智能·llm·sft·raft·rag
zskj_zhyl29 分钟前
科技助老与智慧养老的国家级政策与地方实践探索
大数据·人工智能·科技
YangYang9YangYan37 分钟前
职业本科发展路径与规划指南
大数据·人工智能·学习·数据分析