Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
光影少年8 小时前
react的diff算法和vue的diff算法区别
vue.js·算法·react.js
twc8298 小时前
MCP协议核心解析:标准化AI工具调用的设计与实践
人工智能·大模型·mcp·ai工具调用
外参财观8 小时前
圆心科技IPO再折戟:重资产模式承压,AI叙事能否破局?
人工智能·科技
Queenie_Charlie8 小时前
二分匹配
c++·算法·二分匹配
历程里程碑8 小时前
链表--排序链表
大数据·数据结构·算法·elasticsearch·链表·搜索引擎·排序算法
智算菩萨8 小时前
ChatGPT在非洲主要国家教育中的应用:效益、接受度与伦理挑战——基于2022-2024年文献的系统综述精读
论文阅读·人工智能·gpt·深度学习·ai·chatgpt·论文笔记
IT猿手8 小时前
基于动态三维环境下的Q-Learning算法无人机自主避障路径规划研究,MATLAB代码
算法·matlab·无人机·动态路径规划·多无人机动态避障路径规划
guoji77888 小时前
Gemini 3.1 Pro 推理速度与资源优化的协同设计:从算法到系统的效率革命
人工智能
人工智能AI技术8 小时前
Mamba 3今日开源|混合架构挑战Transformer,端侧AI编码部署实战
人工智能
美式请加冰8 小时前
栈的介绍和使用(算法)
数据结构·算法·leetcode