Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
qq_416018724 分钟前
C++与机器学习框架
开发语言·c++·算法
福客AI智能客服6 分钟前
电商AI客服:自动客服机器人如何成为企业效率提升的关键
人工智能·机器人
左左右右左右摇晃6 分钟前
数据结构——红黑树
算法
CoovallyAIHub11 分钟前
传感器数据相互矛盾时,无人机蜂群如何做出可靠的管道泄漏检测决策?
算法·架构·无人机
Data-Miner13 分钟前
46页精品PPT | AI智能中台企业架构设计_重新定义制造
人工智能·制造
CoovallyAIHub13 分钟前
Claude Code Review:多 Agent 自动审查 PR,代码产出翻倍后谁来把关?
算法·架构·github
木斯佳13 分钟前
前端八股文面经大全:腾讯前端暑期AI面(2026-03-26)·面经深度解析
前端·人工智能·ai·智能体·暑期实习
Chockong18 分钟前
01_CNN界的hello world
人工智能·神经网络·cnn
次旅行的库18 分钟前
机器学习-多模态大模型(MLLM)
机器学习·语言模型
AI茶水间管理员19 分钟前
谁在掌控大模型的创造力开关?Temperature & Top-p
人工智能·后端