Representation + IL: Policy Contrastive Imitation Learning

收到求救信号2024-12-13 14:05

ICML 2023
paper

采用对比学习对状态动作联合表征，并基于表征函数实现奖励函数重构

method

对比学习目标函数如下：

问题：最小化该损失函数，第一项少了一个负号

得到表征函数 Φ \Phi Φ，通过计算真是样本与专家样本在表征后的余弦相似度，作为奖励函数（表征越相似，奖励越大）：

实践中，由于 Φ 频繁更新，计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL：

上一篇：影刀 RPA：amazon自动抓取不可售数量机器人

下一篇：【JavaEE进阶】关于Maven

热门推荐

01GitHub 镜像站点 02【超详细教程】手把手教你从微软官网免费下载Windows 10官方原版ISO镜像（2025最新版）03安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）04UV安装并设置国内源 05React CVE-2025-55182漏洞排查与修复指南 06智能库存管理的需求预测模型：从业务痛点到落地代码的完整实践 07BongoCat - 跨平台键盘猫动画工具 08Linux下V2Ray安装配置指南 09本地部署阿里最新开源的Z-Image 10从入门到实战：Gemini 3 使用指南速览