ER论文阅读-Incomplete Multimodality-Diffused Emotion Recognition

基本介绍:NeurIPS, 2024, CCF-A

原文链接:https://proceedings.neurips.cc/paper_files/paper/2023/file/372cb7805eaccb2b7eed641271a30eec-Paper-Conference.pdf

Abstract

人类多模态情感识别(MER)旨在通过多种异质模态(如语言、视觉和音频)感知和理解人类情感。与单一模态相比,多模态中的互补信息有助于更稳健的情感理解。然而,在现实世界的场景中,模态缺失阻碍了多模态理解,导致MER性能下降。为了解决这一问题,本文提出了一种**不完全多模态-扩散情感识别(IMDer)**方法,以缓解不完全多模态下的MER挑战。为了恢复缺失的模态,IMDer利用基于分数的扩散模型,将输入的高斯噪声映射到缺失模态的期望分布空间,并根据其原始分布恢复缺失数据。特别地,为了减少缺失模态和恢复模态之间的语义歧义,现有的模态被嵌入为条件,以引导和优化基于扩散的恢复过程。与以往的工作相比,IMDer中的基于扩散的模态恢复机制能够同时实现分布一致性和语义消歧。恢复模态的特征可视化展示了模态特定分布的连续性和语义对齐。此外,定量实验结果验证了IMDer在各种模态缺失模式下取得了最新的MER准确率。

Introduction

受益于多模态数据的内在异质性,各种模态被用于多模态情感识别(MER)以从协同的角度理解人类的行为和意图。近年来,MER已成为情感计算领域最活跃的研究课题之一,具有诸多应用,如医疗保健和机器人技术。稳健的MER依赖于从多样化的模态中学习和结合表示。在之前的研究中,Zadeh等人设计了一个张量融合网络,该网络将配对的模态作为输入以编码双模态表示,随后融合生成三模态表示。Tsai等人提出了一种多模态Transformer,用于学习模态之间的潜在适应性和相关性。此后,各种先进的方法探索了多模态Transformer的不同变体,以构建稳健的MER框架。

然而,在现实世界的场景中,并非所有模态总是可用的,例如,语言数据可能由于语音识别错误而丢失;视频数据可能由于隐私和安全问题无法访问。这些不完整的多模态数据最终严重阻碍了MER的性能。对于不完全多模态下的MER,一种简单的方法是从现有模态中恢复缺失的模态 。如图1(a)所示,便捷的模态恢复方法旨在通过设计良好的编码器-解码器框架,建立可用模态与缺失模态之间的映射来恢复缺失模态。

其中,赵等人结合了自动编码器与循环一致性学习进行模态恢复。Lian等人设计了一种图补全网络,利用图神经网络重构缺失部分。然而,这些早期方法未能明确考虑与每个模态的内在区分性高度相关的模态特定分布。例如,一张图像通过成千上万个像素展示了快乐面孔的视觉外观,而相应的文本则使用离散的词语描述了这一情感。

在本文中,我们旨在通过提出一种**不完全多模态-扩散情感识别(IMDer)**方法,挑战不完全多模态下的MER问题,如图1(b)所示。为了恢复缺失的模态,IMDer利用了流行的基于分数的扩散模型,该模型将输入的随机噪声映射到缺失模态的分布空间。特别地,基于分数的扩散模型通过随机微分方程(SDE)扰动数据来捕捉缺失模态的分布。在拥有足够数据和模型容量的情况下,我们能够通过解决逆时间SDE(即去噪过程),从先验噪声分布开始,利用训练良好的分数模型恢复分布一致的模态。

为了减少缺失模态与相应恢复模态之间的语义歧义,我们使用现有的可用模态作为语义条件,来引导和优化恢复过程。嵌入在可用模态中的信息促使IMDer同时实现分布一致性和语义消歧。最后,恢复的模态与现有的模态一起被输入到多模态融合和预测网络中,用于MER任务。总结而言,本研究的贡献如下:

  1. 为了应对不完全多模态下的MER挑战,我们提出了不完全多模态-扩散情感识别(IMDer)方法。IMDer将输入的随机噪声映射到缺失模态的分布空间,并根据其原始分布恢复缺失数据。
  2. 为了最大限度地减少缺失模态与恢复模态之间的语义歧义,我们利用可用模态作为先验条件,引导和优化恢复过程。这确保了恢复的模态在分布和语义上都保持一致。
  3. 我们在公开的MER数据集上进行了大量实验,在不同的模态缺失模式下均取得了优越或相当的结果。恢复模态的特征可视化表明了其分布一致性和语义对齐。
相关推荐
Bearnaise1 天前
GaussianDreamer: Fast Generation from Text to 3D Gaussians——点云论文阅读(11)
论文阅读·人工智能·python·深度学习·opencv·计算机视觉·3d
PD我是你的真爱粉1 天前
Quality minus junk论文阅读
论文阅读
regret~2 天前
【论文笔记】LoFLAT: Local Feature Matching using Focused Linear Attention Transformer
论文阅读·深度学习·transformer
Maker~2 天前
23、论文阅读:基于多分辨率特征学习的层次注意力聚合GAN水下图像增强
论文阅读·学习·生成对抗网络
Q_yt2 天前
【图像压缩感知】论文阅读:Content-Aware Scalable Deep Compressed Sensing
论文阅读
江海寄2 天前
[论文阅读] 异常检测 Deep Learning for Anomaly Detection: A Review(三)总结梳理-疑点记录
论文阅读·人工智能·深度学习·机器学习·计算机视觉·语言模型·视觉检测
江海寄2 天前
[论文阅读] 异常检测 Deep Learning for Anomaly Detection: A Review (四)三种分类方法对比
论文阅读·人工智能·深度学习·机器学习·计算机视觉·分类
代码太难敲啊喂2 天前
【Anomaly Detection论文阅读记录】Resnet网络与WideResNet网络
论文阅读·人工智能
YunTM2 天前
革新预测领域:频域融合时间序列预测,深度学习新篇章,科研涨点利器
论文阅读·人工智能·深度学习
Ayakanoinu3 天前
【论文阅读】Adversarial Examples for Handcrafted Features
论文阅读