Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
大模型真好玩5 分钟前
LangGraph智能体开发设计模式(一)——提示链模式、路由模式、并行化模式
人工智能·langchain·agent
大学生毕业题目6 分钟前
毕业项目推荐:90-基于yolov8/yolov5/yolo11的工程车辆检测识别系统(Python+卷积神经网络)
人工智能·python·yolo·目标检测·cnn·pyqt·工程车辆检测
是店小二呀7 分钟前
解构 Qwen2 在昇腾 Atlas 800T 上的极限性能:基于 SGLang 的深度评测
人工智能·npu
LaughingZhu21 分钟前
Product Hunt 每日热榜 | 2025-12-26
人工智能·经验分享·深度学习·神经网络·产品运营
小徐Chao努力22 分钟前
【Langchain4j-Java AI开发】08-向量嵌入与向量数据库
java·数据库·人工智能
Coder_Boy_23 分钟前
基于SpringAI的智能平台基座开发-(三)
人工智能·springboot·aiops·langchain4j
小徐Chao努力33 分钟前
【Langchain4j-Java AI开发】07-RAG 检索增强生成
java·人工智能·python
360智汇云40 分钟前
存储压缩:不是“挤水分”,而是让数据“轻装上阵
大数据·人工智能
小熊熊知识库1 小时前
AI架构详解以及免费AI如何薅
人工智能·python·ai使用
咚咚王者1 小时前
人工智能之数学基础 信息论:第二章 核心度量
人工智能