Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
Lisonseekpan18 小时前
雪花算法(Snowflake)技术详解与实战应用
java·分布式·后端·算法
Acrel-zml18 小时前
一键顺控赋能,安科瑞变电站智能运维解决方案
运维·网络·人工智能
夫唯不争,故无尤也19 小时前
梯度累计原理:数学可行性与PyTorch实现
人工智能·pytorch·python
软件算法开发19 小时前
基于秃鹰搜索优化的LSTM深度学习网络模型(BES-LSTM)的一维时间序列预测算法matlab仿真
深度学习·算法·matlab·lstm·时间序列预测·秃鹰搜索优化·bes-lstm
2401_8772742419 小时前
太原理工大学2025数据结构-栈和队列
数据结构·c++·算法
Java中文社群19 小时前
超简单!3步生成10W+爆款说唱视频!
人工智能
love530love19 小时前
解决 ComfyUI 启动显示 ‘sox‘ 命令未找到错误:从安装到配置的完整指南
人工智能·windows·python·aigc·comfyui·comfyui-manager
资深web全栈开发19 小时前
LeetCode 1262. 可被三整除的最大和 - 解题思路与代码
算法·leetcode·职场和发展
J***793919 小时前
Python在机器学习中的数据处理
开发语言·python·机器学习
飞哥数智坊20 小时前
从没写过浏览器插件?我用 TRAE SOLO 2 小时就完成了专属翻译工具
人工智能·ai编程·trae