主要特点:出轨迹是迭代了多次,每次出一条,然后去找和真值最近并且出现最早的轨迹,进行监督。
和QCNet一样loss是基于Laplace negative log-likelihood的。传统的WTA的策略只会监督和GT差异最小的那条轨迹。而EMTA策略会监督在RNN结构中找和GT match上的并且是相对更早decode出来的那条轨迹(也就是在RNN结构中认为概率更高的那条)。这里决定是不是match用的是Miss Rate的判定标准。如果没有match上的话,就退回WTA策略。这样就能让model尽早decode出目标的模态,也能提升Miss Rate的表现。
ModeSeq论文阅读
ZHANG8023ZHEN2025-08-03 13:15
相关推荐
Eastmount5 小时前
[论文阅读] (49)JNCA24 网络威胁狩猎演化技术综述SUNNY_SHUN1 天前
不需要Memory Bank:CMDR-IAD用2D+3D双分支重建做工业异常检测,MVTec 3D 97.3%0x2111 天前
[论文阅读]In-Place Test-Time TrainingJunewang06142 天前
【论文阅读】Farewell to Item IDsCV-杨帆2 天前
论文阅读:arxiv 2026 A Systematic Security Evaluation of OpenClaw and Its Variantsiiiiii112 天前
【论文阅读笔记】ReVal:让大模型强化学习真正支持离策略(off-policy)数据复用就是这么拽呢3 天前
论文查重低但AIGC率高,如何补救?森诺Alyson3 天前
前沿技术借鉴研讨-2026.4.9(视觉语言模型)CV-杨帆4 天前
论文阅读:ICML 2025 COLLABLLM: From Passive Responders to Active CollaboratorsCV-杨帆4 天前
论文阅读:arixv 2026 ClawSafety: “Safe“ LLMs, Unsafe Agents