Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
Nebula_g21 小时前
C语言应用实例:斐波那契数列与其其他应用
c语言·开发语言·后端·学习·算法
不穿格子的程序员21 小时前
从零开始刷算法-单调栈-每日温度
算法·单调栈
麦烤楽鸡翅21 小时前
挡住洪水 (牛客)
java·数据结构·c++·python·算法·bfs·牛客
MicroTech202521 小时前
微算法科技(NASDAQ MLGO)采用动态层次管理和位置聚类技术,修改pBFT算法以提高私有区块链网络运行效率
科技·算法·聚类
~~李木子~~21 小时前
五子棋项目Alpha-Beta剪枝与MCTS+神经网络实现人机对弈算法对比报告
神经网络·算法·剪枝
bigdata-rookie21 小时前
JVM 垃圾收集器介绍
java·jvm·算法
ʚ希希ɞ ྀ21 小时前
leeCode hot 100 !!!持续更新中
数据结构·算法·leetcode
lemontree194521 小时前
CRC8算法通用版本
算法
热爱生活的猴子21 小时前
算法322. 零钱兑换
算法
剪一朵云爱着21 小时前
力扣1539. 第 k 个缺失的正整数
算法·leetcode