主要特点:出轨迹是迭代了多次,每次出一条,然后去找和真值最近并且出现最早的轨迹,进行监督。
和QCNet一样loss是基于Laplace negative log-likelihood的。传统的WTA的策略只会监督和GT差异最小的那条轨迹。而EMTA策略会监督在RNN结构中找和GT match上的并且是相对更早decode出来的那条轨迹(也就是在RNN结构中认为概率更高的那条)。这里决定是不是match用的是Miss Rate的判定标准。如果没有match上的话,就退回WTA策略。这样就能让model尽早decode出目标的模态,也能提升Miss Rate的表现。
ModeSeq论文阅读
ZHANG8023ZHEN2025-08-03 13:15
相关推荐
cqbzcsq14 天前
CellFlow虚拟细胞论文阅读凌晨一点的秃头猪14 天前
论文阅读 GTI(Graph-based Tree Index): 面向高维空间最近邻搜索的动态图-树混合索引结构有Li14 天前
PTCMIL:基于提示 token 聚类的全切片图像多实例学习分析文献速递/多模态医学影像最新进展大模型最新论文速读14 天前
06-16 · LLM 最新论文速览墨绿色的摆渡人14 天前
论文笔记(一百三十七)Learning Dual-Arm Push and Grasp Synergy in Dense ClutterChunyyyen15 天前
【第四十九周】论文阅读Biomamba生信基地15 天前
NC | 单细胞分析揭示头颈部癌早期转移过程中潜在的免疫逃逸机制(R语言版本)大模型最新论文速读15 天前
06-15 · LLM 最新论文速览小马哥crazymxm15 天前
Arxiv论文周选 (2026-W24)大模型最新论文速读15 天前
TRUST:RL 时保留模型的不确定性,效果提升 8%