Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
茫茫人海一粒沙1 分钟前
Function Calling vs Tool Calling:从机制到架构的统一认知框架
人工智能
qq_571099351 分钟前
学习周报三十九
人工智能·深度学习·机器学习
陈天伟教授2 分钟前
Hugging Face 快速入门手册(实操案例-心电心音同步分析)
人工智能
AI成长日志7 分钟前
【GitHub开源项目专栏】黑客松项目架构模式解析:微服务、事件驱动与Serverless实战
算法
人道领域8 分钟前
【LeetCode刷题日记:24】两两交换链表
算法·leetcode·链表
北顾笙98011 分钟前
day16-数据结构力扣
数据结构·算法·leetcode
H Journey12 分钟前
openCV学习之-腐蚀
人工智能·opencv·学习
陈天伟教授13 分钟前
小白快速进阶- AI辅助编码
人工智能·神经网络·机器学习·量子计算
AI成长日志19 分钟前
【GitHub开源项目专栏】黑客松获奖项目技术深潜:从垂直领域AI到安全基础设施的创新实践
人工智能·开源·github
AI成长日志23 分钟前
【算法学习专栏】动态规划基础·简单三题精讲(70.爬楼梯、118.杨辉三角、121.买卖股票的最佳时机)
学习·算法·动态规划