主要特点:出轨迹是迭代了多次,每次出一条,然后去找和真值最近并且出现最早的轨迹,进行监督。
和QCNet一样loss是基于Laplace negative log-likelihood的。传统的WTA的策略只会监督和GT差异最小的那条轨迹。而EMTA策略会监督在RNN结构中找和GT match上的并且是相对更早decode出来的那条轨迹(也就是在RNN结构中认为概率更高的那条)。这里决定是不是match用的是Miss Rate的判定标准。如果没有match上的话,就退回WTA策略。这样就能让model尽早decode出目标的模态,也能提升Miss Rate的表现。
ModeSeq论文阅读
ZHANG8023ZHEN2025-08-03 13:15
相关推荐
诸葛思颖8 小时前
【论文阅读笔记】FedProx墨绿色的摆渡人13 小时前
论文笔记(一百零三)π0.6 : a VLA That Learns From Experience(二)诸葛思颖13 小时前
【论文阅读笔记】FL+HC(联邦学习+层次聚类)檐下翻书17321 小时前
从入门到精通:流程图制作学习路径规划iiiiii111 天前
【论文阅读笔记】多实例学习方法 Diverse Density(DD):在特征空间中寻找正概念的坐标ModestCoder_1 天前
【学习笔记】Diffusion Policy for Robotics川西胖墩墩1 天前
流程图在算法设计中的实战应用檐下翻书1733 天前
流程图配色与美化:让你的图表会“说话”wbzuo5 天前
Clip:Learning Transferable Visual Models From Natural Language Supervision想成为PhD的小提琴手6 天前
论文阅读13——基于大语言模型和视觉模态融合的可解释端到端自动驾驶框架:DriveLLM-V的设计与应用