Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
lpfasd123几秒前
基于Cloudflare生态的应用部署与开发全解
人工智能·agent·cloudflare
俞凡3 分钟前
DevOps 2.0:智能体如何接管故障修复和基础设施维护
人工智能
comedate9 分钟前
[OpenClaw] GLM 5 关于电影 - 人工智能 - 的思考
人工智能·电影评价
财迅通Ai11 分钟前
6000万吨产能承压 卫星化学迎来战略窗口期
大数据·人工智能·物联网·卫星化学
liliangcsdn12 分钟前
Agent Memory智能体记忆系统的示例分析
数据库·人工智能·全文检索
GISer_Jing16 分钟前
Page-agent MCP结构
前端·人工智能
往事如yan20 分钟前
从AI增强到AI原生(AI-Native):一份可落地的架构与反例指南
人工智能·ai-native
做个文艺程序员28 分钟前
私有 LLM 多机多卡分布式推理:Pipeline Parallel vs Tensor Parallel 踩坑全记录
人工智能·分布式
塔中妖35 分钟前
蓝耘 MaaS 平台接入 Grok CLI 完整配置指南
人工智能
好运的阿财44 分钟前
process 工具与子agent管理机制详解
网络·人工智能·python·程序人生·ai编程