Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
方见华Richard1 分钟前
世毫九《认知几何学修订版:从离散概念网络到认知拓扑动力学》
人工智能·经验分享·交互·原型模式·空间计算
Tansmjs3 分钟前
实时数据可视化库
开发语言·c++·算法
WBluuue5 分钟前
Codeforces 1075 Div2(ABC1C2D1D2)
c++·算法
人工智能培训13 分钟前
基于Transformer的人工智能模型搭建与fine-tuning
人工智能·深度学习·机器学习·transformer·知识图谱·数字孪生·大模型幻觉
板面华仔18 分钟前
机器学习入门(二)——逻辑回归 (Logistic Regression)
python·机器学习
emma羊羊25 分钟前
【AI技术安全】
网络·人工智能·安全
2401_8384725125 分钟前
C++模拟器开发实践
开发语言·c++·算法
玄同76527 分钟前
告别 AgentExecutor:LangChain v1.0+ Agent 模块深度迁移指南与实战全解析
人工智能·语言模型·自然语言处理·langchain·nlp·agent·智能体
Fxrain34 分钟前
[Reading Paper]FFA-Net
图像处理·人工智能·计算机视觉
GISer_Jing35 分钟前
Memory、Rules、Skills、MCP如何重塑AI编程
前端·人工智能·aigc·ai编程