Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
大神科技AI定制几秒前
企业级OpenClaw落地指南:如何通过私有化部署构建安全AI Agent工作流?
人工智能·安全
老王谈企服4 分钟前
大模型时代,制造业周期性成本分析将如何智能化升级?——工业Agent落地指南与全链路成本重构方案
人工智能·ai·重构
平行侠29 分钟前
024多精度大整数 - 突破硬件精度限制的任意精度运算
数据结构·算法
IronMurphy1 小时前
【算法四十五】139. 单词拆分
算法
IvanCodes1 小时前
从 ChatBot 到具身 Agent:我终于看懂 AI 的下一代交互入口
人工智能·agent
闵孚龙1 小时前
Claude Code API通信层全解析:重试、流式、降级、Fast Mode、Prompt Cache 与 Files API 的底层工程
人工智能·架构·prompt
三产1 小时前
Hermes 教程 02:配置详解
人工智能·hermes
2601_957780841 小时前
Claude Code 2026年最新部署指南:从环境搭建到技能扩展
前端·人工智能·ai编程·claude
dhashdoia1 小时前
2026年GPT-5.5国内无障碍使用指南:星链4SAPI全链路部署
人工智能·gpt·ai作画·ai编程
zhangfeng11331 小时前
workbuddy 专家 “前端开发师” 结合nvidia-mistral-small-4-119b-2603 项目计划-前端界面开发.md
前端·人工智能·免费