Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
赛逸展张胜13 分钟前
广东打造低空经济发展平台,CES Asia 2025助力科技腾飞
人工智能·科技·智慧城市
AIGC大时代24 分钟前
学术内容写作ChatGPT提示词分享
人工智能·深度学习·chatgpt·prompt·aigc·ai写作
许白掰24 分钟前
C语言学习——指针与数组,指针与函数,指针与堆空间
c语言·学习·算法
知难行难25 分钟前
Coursera四门课备考入学考试
人工智能
说私域38 分钟前
数字化转型的新引擎:开源AI智能名片2+1链动模式S2B2C商城小程序源码的应用与实践
人工智能·小程序·开源
剑盾云安全专家1 小时前
如何让AI助力制作PPT,轻松实现PPT智能生成
人工智能·科技·aigc·powerpoint·软件
罗小罗同学1 小时前
北邮团队在Nature Medicine发表MedFound——辅助疾病诊断的通用医学语言模型|顶刊速递·25-01-15
人工智能·语言模型·自然语言处理·医学人工智能·医工交叉
bielaile_leisigoule1 小时前
自然语言处理(GloVe):原理、特点、应用、技术、相关学术分享
人工智能·自然语言处理
小猪写代码1 小时前
STM32 FreeRTOS 信号量
算法
张小小大智慧1 小时前
排序算法(C语言版)
数据结构·算法·排序算法