主要特点:出轨迹是迭代了多次,每次出一条,然后去找和真值最近并且出现最早的轨迹,进行监督。
和QCNet一样loss是基于Laplace negative log-likelihood的。传统的WTA的策略只会监督和GT差异最小的那条轨迹。而EMTA策略会监督在RNN结构中找和GT match上的并且是相对更早decode出来的那条轨迹(也就是在RNN结构中认为概率更高的那条)。这里决定是不是match用的是Miss Rate的判定标准。如果没有match上的话,就退回WTA策略。这样就能让model尽早decode出目标的模态,也能提升Miss Rate的表现。
ModeSeq论文阅读
ZHANG8023ZHEN2025-08-03 13:15
相关推荐
薛定e的猫咪4 天前
【AAAI 2025】基于扩散模型的昂贵多目标贝叶斯优化YMWM_5 天前
论文阅读“SimVLA: A Simple VLA Baseline for Robotic Manipulation“m0_650108245 天前
VLN-Zero:零样本机器人导航的神经符号视觉语言规划框架晓山清5 天前
【论文阅读】Self-supervised Learning of Person-specific Facial Dynamics for APR张较瘦_5 天前
[论文阅读] AI + 教育 | 不是单纯看视频!软件工程培训的游戏化融合之道张较瘦_6 天前
[论文阅读] AI + 软件工程 | 用统计置信度破解AI功能正确性评估难题——SCFC方法详解Matrix_116 天前
论文阅读--Agent AI 探索多模态交互的前沿领域(二)万里鹏程转瞬至7 天前
论文简读 | TurboDiffusion: Accelerating Video Diffusion Models by 100–200 TimesMatrix_118 天前
论文阅读--Agent AI 探索多模态交互的前沿领域(一)@––––––8 天前
论文阅读笔记:π 0 : A Vision-Language-Action Flow Model for General Robot Control