Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
予枫的编程笔记20 小时前
【Kafka进阶篇】Kafka消息重复消费?Exactly-Once语义落地指南,PID+事务消息吃透
人工智能·kafka·消息队列·exactly-once·分布式消息·kafka幂等性·kafka事务消息
踢足球092920 小时前
寒假打卡:2026-2-23
数据结构·算法
Loo国昌21 小时前
【AI应用开发实战】09_Prompt工程与模板管理:构建可演进的LLM交互层
大数据·人工智能·后端·python·自然语言处理·prompt
新缸中之脑21 小时前
Wellows:生成式AI搜索优化平台
人工智能·chatgpt
aiAIman21 小时前
OpenClaw 使用和管理 MCP 完全指南
人工智能·语言模型·开源
lusasky21 小时前
对比ZeroClaw 和 OpenClaw
人工智能
Clarence Liu21 小时前
用大白话讲解人工智能(16) 强化学习:教AI“玩游戏“学决策
人工智能·玩游戏
田里的水稻21 小时前
FA_建图和定位(ML)-超宽带(UWB)定位
人工智能·算法·数学建模·机器人·自动驾驶
Navigator_Z21 小时前
LeetCode //C - 964. Least Operators to Express Number
c语言·算法·leetcode
罗政21 小时前
AI批量识别社保卡信息实战:一键提取姓名、卡号、银行账号到Excel
人工智能