Representation + IL: Policy Contrastive Imitation Learning

ICML 2023
paper

采用对比学习对状态动作联合表征,并基于表征函数实现奖励函数重构

method

对比学习目标函数如下:

问题:最小化该损失函数,第一项少了一个负号

得到表征函数 Φ \Phi Φ,通过计算真是样本与专家样本在表征后的余弦相似度,作为奖励函数(表征越相似,奖励越大):

实践中,由于 Φ 频繁更新,计算期望值可能会很耗时。因此使用随机专家样本来计算奖励。最后基于DrQ-v2算法训练策略

结果

基于表征的奖励函数对比GAIL:

相关推荐
网安情报局3 分钟前
如何选择合适的AI大模型:快快云安全AI大模型聚合平台全解析
人工智能·网络安全·ai大模型
天威?*3 分钟前
bitset的数据结构用法
算法·动态规划
yongyoudayee14 分钟前
业务语义模型:AI CRM从“能用”到“好用”的技术分水岭
大数据·人工智能
我的世界洛天依18 分钟前
官宣|VFrame 企划正式成立:九州合唱团登场,九州网络用 RVC 重构跨 IP 虚拟歌手音乐生态
人工智能·电脑
木雷坞18 分钟前
视觉算法环境 Docker 镜像拉取失败排查
运维·人工智能·docker·容器
ACCELERATOR_LLC20 分钟前
【DataWhale组队学习】DIY-LLM Task6 评估与基准测试
人工智能·深度学习·大模型·模型评估
我就是妖怪23 分钟前
Kimi K2.6 新手快速上手与实战指南
大数据·人工智能
Elcker23 分钟前
企业级RAG应用构建手册
人工智能·rag
蝎子莱莱爱打怪25 分钟前
小孩儿才做选择!Hermes 和OpenClaw 我都要!
人工智能·后端·github
imbackneverdie26 分钟前
sci期刊示意图、流程图、机制图怎么画?
人工智能·ai·aigc·科研绘图·ai工具·科研工具·ai生图