Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
weixin_3981877515 小时前
YOLOv11 PPHGNetV2主干网络集成指南
人工智能·yolo
敏叔V58715 小时前
LangChain × LlamaIndex:解锁复杂AI工作流与自定义工具集成的终极指南
人工智能·langchain
sunfove15 小时前
光电共封装(CPO):突破算力互连瓶颈的关键架构
人工智能·架构
朔北之忘 Clancy15 小时前
第二章 分支结构程序设计(3)
c++·算法·青少年编程·竞赛·教材·考级·讲义
想逃离铁厂的老铁15 小时前
Day42 >> 188、买卖股票的最佳时机IV + 309.最佳买卖股票时机含冷冻期 + 714.买卖股票的最佳时机含手续费
算法·leetcode·职场和发展
wu_asia15 小时前
方阵对角线元素乘积计算
数据结构·算法
Piar1231sdafa15 小时前
YOLO11-C3k2-RVB-EMA多色线缆颜色识别与分类系统详解
人工智能·分类·数据挖掘
大山同学15 小时前
深度学习任务分类与示例(一)
人工智能·深度学习·分类
一条闲鱼_mytube16 小时前
智能体设计模式(二)反思-工具使用-规划
网络·人工智能·设计模式
m0_7482546616 小时前
CSS AI 编程
前端·css·人工智能