ModeSeq论文阅读

主要特点:出轨迹是迭代了多次,每次出一条,然后去找和真值最近并且出现最早的轨迹,进行监督。
和QCNet一样loss是基于Laplace negative log-likelihood的。传统的WTA的策略只会监督和GT差异最小的那条轨迹。而EMTA策略会监督在RNN结构中找和GT match上的并且是相对更早decode出来的那条轨迹(也就是在RNN结构中认为概率更高的那条)。这里决定是不是match用的是Miss Rate的判定标准。如果没有match上的话,就退回WTA策略。这样就能让model尽早decode出目标的模态,也能提升Miss Rate的表现。

参考:https://zhuanlan.zhihu.com/p/708683454

相关推荐
森诺Alyson7 小时前
前沿技术借鉴研讨-2025.9.23 (数据不平衡)
论文阅读·人工智能·经验分享·深度学习·论文笔记
Chandler_Song7 小时前
【读书笔记】《苏东坡》
论文阅读
Prettybritany1 天前
文本引导的图像融合方法
论文阅读·图像处理·人工智能·深度学习·计算机视觉
张较瘦_1 天前
[论文阅读] AI+软件工程 | AI供应链信任革命:TAIBOM如何破解AI系统“可信难题“
论文阅读·人工智能·软件工程
红苕稀饭6661 天前
Logit论文阅读
论文阅读
网安INF1 天前
【论文阅读】-《Sparse and Imperceivable Adversarial Attacks》
论文阅读·人工智能·计算机视觉·网络安全·对抗攻击
PETERMAOSX1 天前
SkyVLN: 城市环境中无人机的视觉语言导航和 NMPC 控制;香港科技大学
论文阅读
ZhiqianXia2 天前
论文阅读 (1) :Control Flow Management in Modern GPUs
论文阅读
红苕稀饭6662 天前
RKD论文阅读
论文阅读
红苕稀饭6662 天前
How Can Objects Help Video-Language Understanding?论文阅读
论文阅读