ModeSeq论文阅读

主要特点:出轨迹是迭代了多次,每次出一条,然后去找和真值最近并且出现最早的轨迹,进行监督。
和QCNet一样loss是基于Laplace negative log-likelihood的。传统的WTA的策略只会监督和GT差异最小的那条轨迹。而EMTA策略会监督在RNN结构中找和GT match上的并且是相对更早decode出来的那条轨迹(也就是在RNN结构中认为概率更高的那条)。这里决定是不是match用的是Miss Rate的判定标准。如果没有match上的话,就退回WTA策略。这样就能让model尽早decode出目标的模态,也能提升Miss Rate的表现。

参考:https://zhuanlan.zhihu.com/p/708683454

相关推荐
诸葛思颖8 小时前
【论文阅读笔记】FedProx
论文阅读·笔记
墨绿色的摆渡人13 小时前
论文笔记(一百零三)π0.6 : a VLA That Learns From Experience(二)
论文阅读
诸葛思颖13 小时前
【论文阅读笔记】FL+HC(联邦学习+层次聚类)
论文阅读·笔记·聚类
檐下翻书17321 小时前
从入门到精通:流程图制作学习路径规划
论文阅读·人工智能·学习·算法·流程图·论文笔记
iiiiii111 天前
【论文阅读笔记】多实例学习方法 Diverse Density(DD):在特征空间中寻找正概念的坐标
论文阅读·人工智能·笔记·机器学习·ai·学习方法·多实例学习
ModestCoder_1 天前
【学习笔记】Diffusion Policy for Robotics
论文阅读·人工智能·笔记·学习·机器人·强化学习·具身智能
川西胖墩墩1 天前
流程图在算法设计中的实战应用
数据库·论文阅读·人工智能·职场和发展·流程图
檐下翻书1733 天前
流程图配色与美化:让你的图表会“说话”
论文阅读·人工智能·信息可视化·流程图·论文笔记
wbzuo5 天前
Clip:Learning Transferable Visual Models From Natural Language Supervision
论文阅读·人工智能·transformer
想成为PhD的小提琴手6 天前
论文阅读13——基于大语言模型和视觉模态融合的可解释端到端自动驾驶框架:DriveLLM-V的设计与应用
论文阅读·语言模型·自动驾驶