Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
苍何3 小时前
偶然间发现一款逆天的 AI PPT 工具!免费生成!
人工智能
苍何3 小时前
Openclaw + OpenCode 才是 vibe coding 的最棒组合!
人工智能
edisao3 小时前
序幕-内部审计备忘录
java·jvm·算法
shehuiyuelaiyuehao4 小时前
22Java对象的比较
java·python·算法
AI360labs_atyun4 小时前
字节AI双王炸来了!Seedance 2.0 + Seedream 5.0
人工智能·科技·学习·百度·ai
AIMarketing4 小时前
2026 年 GEO 综合实力服务商推荐 行业研究与实践分析
人工智能
科技圈快讯4 小时前
破解企业低碳转型难题,港华商会携手碳启元出击
大数据·人工智能
hhzz4 小时前
【Vision人工智能设计 】ComfyUI 基础文生图设计
人工智能·comfyui·视觉大模型·wan
有Li4 小时前
用于CBCT到CT合成的纹理保留扩散模型/文献速递-基于人工智能的医学影像技术
论文阅读·人工智能·深度学习·计算机视觉·文献
大模型最新论文速读4 小时前
NAtS-L: 自适应融合多种注意力架构,推理能力提高 36%
人工智能·深度学习·机器学习·语言模型·自然语言处理