Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
断眉的派大星2 分钟前
均值为0,方差为1:数据的“标准校服”
人工智能·机器学习·均值算法
有时间要学习8 分钟前
面试150——第五周
算法·深度优先
A尘埃10 分钟前
电子厂PCB板焊点缺陷检测(卷积神经网络CNN)
人工智能·神经网络·cnn
Tadas-Gao11 分钟前
缸中之脑:大模型架构的智能幻象与演进困局
人工智能·深度学习·机器学习·架构·大模型·llm
中金快讯13 分钟前
新视野混合净值波动有几何?贝莱德基金回撤控制策略是否命中关键?
人工智能
楚兴16 分钟前
MacBook M1 安装 OpenClaw 完整指南
人工智能·后端
23遇见21 分钟前
探索CANN:开源AI计算底座的关键组件与技术思想
人工智能
jl486382127 分钟前
变比测试仪显示屏的“标杆“配置!如何兼顾30000小时寿命与六角矢量图精准显示?
人工智能·经验分享·嵌入式硬件·物联网·人机交互
2301_8187305637 分钟前
transformer(上)
人工智能·深度学习·transformer
木枷43 分钟前
Online Process Reward Learning for Agentic Reinforcement Learning
人工智能·深度学习·机器学习