ModeSeq论文阅读

主要特点:出轨迹是迭代了多次,每次出一条,然后去找和真值最近并且出现最早的轨迹,进行监督。
和QCNet一样loss是基于Laplace negative log-likelihood的。传统的WTA的策略只会监督和GT差异最小的那条轨迹。而EMTA策略会监督在RNN结构中找和GT match上的并且是相对更早decode出来的那条轨迹(也就是在RNN结构中认为概率更高的那条)。这里决定是不是match用的是Miss Rate的判定标准。如果没有match上的话,就退回WTA策略。这样就能让model尽早decode出目标的模态,也能提升Miss Rate的表现。

参考:https://zhuanlan.zhihu.com/p/708683454

相关推荐
张较瘦_1 天前
[论文阅读] 软件工程 | GPS算法:用“路径摘要”当向导,软件模型检测从此告别“瞎找bug”
论文阅读·算法·bug
Caaacy_YU1 天前
多模态大模型研究每日简报【2025-08-25】
论文阅读·人工智能·深度学习·计算机视觉
berling002 天前
【论文阅读 | arXiv 2025 | WaveMamba:面向RGB-红外目标检测的小波驱动Mamba融合方法】
论文阅读·人工智能·目标检测
爱补鱼的猫猫2 天前
11、Informer论文笔记
论文阅读
勤劳的进取家2 天前
论文阅读:Inner Monologue: Embodied Reasoning through Planning with Language Models
论文阅读·人工智能·机器学习·语言模型·自然语言处理
有Li4 天前
CXR-LT 2024:一场关于基于胸部X线的长尾、多标签和零样本疾病分类的MICCAI挑战赛|文献速递-深度学习人工智能医疗图像
论文阅读·人工智能·算法·医学生
B612 little star king4 天前
UNIKGQA论文笔记
论文阅读·人工智能·笔记·自然语言处理·知识图谱
勤劳的进取家4 天前
论文阅读:Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
论文阅读·人工智能·机器学习·语言模型·自然语言处理
0x2115 天前
[论文阅读]Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools
论文阅读
张较瘦_5 天前
[论文阅读] 人工智能 + 软件工程 | 当AI成为文学研究员:Agentic DraCor如何用MCP解锁戏剧数据分析
论文阅读·人工智能·软件工程