主要特点:出轨迹是迭代了多次,每次出一条,然后去找和真值最近并且出现最早的轨迹,进行监督。
和QCNet一样loss是基于Laplace negative log-likelihood的。传统的WTA的策略只会监督和GT差异最小的那条轨迹。而EMTA策略会监督在RNN结构中找和GT match上的并且是相对更早decode出来的那条轨迹(也就是在RNN结构中认为概率更高的那条)。这里决定是不是match用的是Miss Rate的判定标准。如果没有match上的话,就退回WTA策略。这样就能让model尽早decode出目标的模态,也能提升Miss Rate的表现。
ModeSeq论文阅读
ZHANG8023ZHEN2025-08-03 13:15
相关推荐
大模型最新论文速读3 小时前
05-21 · LLM 最新论文速览传说故事4 小时前
【论文阅读】GEN-1: Scaling Embodied Foundation Models to Mastery阿文的代码库4 小时前
文献管理工具EndNote全流程下载与安装教程指南大模型最新论文速读19 小时前
PreFT:只在 prefill 时使用 LoRA,推理速度翻倍效果不降西柚小萌新20 小时前
【论文阅读】--ORCA:面向文档视觉问答的协作智能体协同推理数智工坊1 天前
【UniT论文阅读】:用统一物理语言打通人类与人形机器人的知识壁垒数智工坊1 天前
【DACS论文阅读】跨域混合采样如何让语义分割模型从合成数据无缝迁移到真实世界传说故事1 天前
【论文阅读】Code as Policies: Language Model Programs for Embodied ControlJurio.1 天前
AI Daily Paper Reader(ADPR):零服务器搭建个人/团队通用大模型API驱动的论文阅读与推荐平台数智工坊2 天前
视觉-语言-动作模型解剖学:从模块、里程碑到核心挑战