论文阅读分享——UMDF(AAAI-24)

概述

题目:A Unified Self-Distillation Framework for Multimodal Sentiment Analysis with Uncertain Missing Modalities

发表:The Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI-24)

年份:2024

Github:暂无

现有针对缺失模态的方法可以分为两组:

  • 联合学习方法:试图学习不同模态中的基于关系(relation)的聚合表示
  • 生成式方法:利用可获得的模态重构缺失的模态

现有方法存在的限制:

  • 仅执行固定模态缺失案例之间的交互,无法解决随机的现实场景
  • 仅关注缺失模态中粗粒度和局部的交互,导致不鲁棒的联合表示和无效的元素相关性
  • 忽略了多模态表示中的冗余语义,导致性能瓶颈

方法概述:论文提出了一种统一多模态缺失模态自蒸馏框架(UMDF),通过自蒸馏机制、多粒度跨模态交互模块和动态特征集成模块,在多模态情感分析中解决不确定缺失模态的问题,显著提升了在缺失模态和完整模态测试条件下的表现。

贡献:

  • 在UMDF中设计了一种统一的自蒸馏机制,通过在单个网络内进行双向知识转移,从多模态数据表示的一致分布中自动学习鲁棒的固有表示。双向知识转移路径可以监督模型在异构模态缺失情况之间保持相似的特征分布和logits分布。这种有效的途径抑制了对学习特征的单向依赖,并且在两个方面是有益的:从更多模态到更少模态的知识转移有助于恢复丢失模态的丢失信息,而在相反的方向上,则增强了特定模态的特征。
  • 提出了一种多粒度交跨模态交互模块,该模块逐步对缺失的模态执行粗粒度和细粒度跨模态注意。它可以分层捕获模态间的交互和模态内的动态,以补充和再现模态缺失元素的语义。
  • 引入了一个动态特征集成模块,以进一步增强有益的语义,并通过帧级(frame-level)自增强和选择性过滤策略过滤冗余特征,以产生更精细的表示。基于这些组件,UMDF在三个多模态基准的不确定缺失模态和完整模态测试条件下显著提高了MSA的性能。

实验结果:

相关推荐
墨绿色的摆渡人1 小时前
论文笔记(八十)π0.5: a Vision-Language-Action Model with Open-World Generalization
论文阅读
xieyan08111 小时前
论文阅读_Citrus_在医学语言模型中利用专家认知路径以支持高级医疗决策
论文阅读
墨绿色的摆渡人1 小时前
论文笔记(七十九)STOMP: Stochastic Trajectory Optimization for Motion Planning
论文阅读
寻丶幽风2 小时前
论文阅读笔记——ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping
论文阅读·笔记·深度学习·机器人·机械臂·具身智能
L-含光承影2 小时前
【第三十三周】BLIP论文阅读笔记
论文阅读·计算机视觉·多模态
X.Cristiano3 小时前
华为 MRAG:多模态检索增强生成技术论文阅读
论文阅读·mrag
0x2113 小时前
[论文阅读]Practical Poisoning Attacks against Retrieval-Augmented Generation
论文阅读
0x2119 小时前
[论文阅读]REPLUG: Retrieval-Augmented Black-Box Language Models
论文阅读·人工智能·语言模型
崔高杰18 小时前
On the Biology of a Large Language Model——Claude团队的模型理解文章【论文阅读笔记】其一CLT与LLM知识推理
论文阅读·人工智能·笔记·语言模型·自然语言处理
Jamence1 天前
多模态大语言模型(MLLM)- kimi-vl technical report论文阅读
论文阅读