Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
沉睡的无敌雄狮几秒前
AI优化效果不可控?矩阵跃动数据驱动型龙虾机器人,实现搜索排名稳定提升
人工智能·矩阵·机器人
youyoulg几秒前
opencode在Linux终端中无法复制文字的解决方法
linux·服务器·人工智能
The_Ticker1 分钟前
日股实时行情接口使用指南
java·经验分享·笔记·python·算法·区块链
2301_766558652 分钟前
矩阵跃动国产AI搜索优化引擎实战:小陌GEO+龙虾机器人,多平台大模型占位技术拆解
人工智能·矩阵·机器人
技术人生黄勇2 分钟前
Google 开源实战指南:21种AI智能体设计模式,覆盖从基础到安全的完整体系
人工智能·设计模式
靠沿3 分钟前
【递归、搜索与回溯算法】专题一——递归
算法
凌波粒3 分钟前
LeetCode--24.两两交换链表中的节点(链表)
java·算法·leetcode·链表
猫咪老师4 分钟前
RAG与GraphRAG介绍
人工智能·算法·llm
用户13598170676404 分钟前
infllm_v2安装
人工智能
tangdou3690986558 分钟前
图文并茂安装Claude Code 以及配置 Coding Plan 教程
前端·人工智能·后端