Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
依米s8 小时前
2021年人工智能大会核心议题《智联世界 众智成城》
人工智能·waic·人工智能大会+
数字冰雹8 小时前
数据中心运维新革命:图观数字孪生引擎的实战应用
人工智能·数据可视化
i***58679 小时前
Java开发的AI应用框架简述——LangChain4j、Spring AI、Agent-Flex
java·人工智能·spring
在下赵某人9 小时前
概率数据结构的设计原理与误差分析
数据结构·算法·哈希算法
CoderYanger9 小时前
递归、搜索与回溯-综合练习:19.目标和
java·算法·leetcode·1024程序员节
mit6.8249 小时前
dfs|mask^翻转
算法
前端开发工程师请求出战9 小时前
深度学习基础原理:从理论到PyTorch实践
人工智能
蒲公英源码9 小时前
AI智慧教育平台架构设计与实现方案,基于Jdk17+SpringBoot3AI智慧教育平台
java·人工智能·mysql·jdk
葡萄城技术团队9 小时前
AI 重构数据分析:技术突破与价值释放
人工智能·重构·数据分析
慕ゞ笙9 小时前
2025年Ubuntu24.04系统安装以及深度学习环境配置
人工智能·深度学习