Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
Дерек的学习记录2 小时前
C++:入门基础(下)
开发语言·数据结构·c++·学习·算法·visualstudio
良策金宝AI2 小时前
让端子排接线图“智能生成”,良策金宝AI推出变电站二次智能设计引擎
大数据·人工智能·工程设计·变电站ai
天云数据2 小时前
神经网络,人类表达的革命
人工智能·深度学习·神经网络·机器学习
yugi9878382 小时前
无线传感器网络中GAF算法节点特性分析
网络·算法
xixixi777773 小时前
2026 年 02 月 13 日 AI 前沿、通信和安全行业日报
人工智能·安全·ai·大模型·通信·市场
1027lonikitave3 小时前
使用斐波那契数列讲解尾递归
算法
独自归家的兔3 小时前
深度学习之 CNN:如何在图像数据的海洋中精准 “捕捞” 特征?
人工智能·深度学习·cnn
X54先生(人文科技)3 小时前
20260211_AdviceForTraditionalProgrammers
数据库·人工智能·ai编程
梦想画家3 小时前
数据治理5大核心概念:分清、用好,支撑AI智能化应用
人工智能·数据治理
yhdata4 小时前
锁定2032年!区熔硅单晶市场规模有望达71.51亿元,赛道前景持续向好
大数据·人工智能