ModeSeq论文阅读

主要特点:出轨迹是迭代了多次,每次出一条,然后去找和真值最近并且出现最早的轨迹,进行监督。
和QCNet一样loss是基于Laplace negative log-likelihood的。传统的WTA的策略只会监督和GT差异最小的那条轨迹。而EMTA策略会监督在RNN结构中找和GT match上的并且是相对更早decode出来的那条轨迹(也就是在RNN结构中认为概率更高的那条)。这里决定是不是match用的是Miss Rate的判定标准。如果没有match上的话,就退回WTA策略。这样就能让model尽早decode出目标的模态,也能提升Miss Rate的表现。

参考:https://zhuanlan.zhihu.com/p/708683454

相关推荐
大模型最新论文速读12 小时前
05-21 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
传说故事13 小时前
【论文阅读】GEN-1: Scaling Embodied Foundation Models to Mastery
论文阅读·人工智能·机器人·具身智能
阿文的代码库13 小时前
文献管理工具EndNote全流程下载与安装教程指南
论文阅读
大模型最新论文速读1 天前
PreFT:只在 prefill 时使用 LoRA,推理速度翻倍效果不降
论文阅读·人工智能·深度学习·机器学习·自然语言处理
西柚小萌新1 天前
【论文阅读】--ORCA:面向文档视觉问答的协作智能体协同推理
论文阅读
数智工坊1 天前
【UniT论文阅读】:用统一物理语言打通人类与人形机器人的知识壁垒
论文阅读·人工智能·深度学习·算法·机器人
数智工坊1 天前
【DACS论文阅读】跨域混合采样如何让语义分割模型从合成数据无缝迁移到真实世界
论文阅读·人工智能·算法·机器人·无人机
传说故事2 天前
【论文阅读】Code as Policies: Language Model Programs for Embodied Control
论文阅读·人工智能·具身智能
Jurio.2 天前
AI Daily Paper Reader(ADPR):零服务器搭建个人/团队通用大模型API驱动的论文阅读与推荐平台
论文阅读·人工智能·ai
数智工坊2 天前
视觉-语言-动作模型解剖学:从模块、里程碑到核心挑战
论文阅读·人工智能·深度学习·算法·transformer