【人工智能】深度解剖利用人工智能MSA模型

情感分析的应用

近年来社交媒体的空前发展以及配备高质量摄像头的智能手机的出现，我们见证了多模态数据的爆炸性增长，如电影、短视频等。在真实的生活中，多模态数据通常由三个渠道组成：视觉（图像）、听觉（语音）和转录文本。他们中的许多人经常表达某种情绪，这是一种长期的倾向，当一个人遇到一个特定的话题，他们会生成不同的反应和情绪。从多模态数据中挖掘和理解这些情感元素，即多模态情感分析（MSA），已经成为热门的研究主题，这是因为有许多吸引人的应用，例如从客户获得整体产品反馈或从潜在投票者中衡量投票意向的报告。一般而言，同一数据段中的不同模态通常彼此互补，从而为语义和情感歧义消除提供额外的线索的报告。MSA的关键部分是多模态融合，旨在从所有输入模态中提取和集成信息，以理解所见数据背后的情感。

此外，抑郁症对世界各地的个人和社会都有严重的负面影响。目前，抑郁症的诊断主要依靠问卷调查，辅以医学专业评估。但问卷调查的准确性在很大程度上取决于参与者的合作和操作人员的专业知识。近年来，基于人工智能的自动抑郁检测技术越来越突出。这些基于人工智能的抑郁检测技术通常涉及使用各种类型的生理或行为数据，例如面部表情，语音记录，文本和脑电图，通常在参与者的访谈期间记录。在这些数据形式中，音频和文本都很容易访问，并且包含有关抑郁症状的丰富信息。

我致力于对情感计算领域的经典模型进行分析、解读和总结，此外，由于现如今大多数的情感计算数据集都是基于英文语言开发的，我们计划在之后的整个系列文章中将中文数据集（SIMS, SIMSv2）应用在模型中，以开发适用于国人的情感计算分析模型，并应用在情感疾病（如抑郁症、自闭症）检测任务，为医学心理学等领域提供帮助，此外还加入了幽默检测数据集，在未来，我也计划加入更多小众数据集，以便检测更隐匿的情感，如嫉妒、嘲讽等，使得AI可以更好的服务于社会。

一、概述

这篇文章，我将介绍第二篇情感计算经典论文模型，他是EMNLP 2021的一篇经典MSA论文中的模型--Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis（MMIM）

此外，原创部分为加入了抑郁症数据集以实现抑郁症检测任务，以及SIMS数据集和SIMV2数据集。

二、研究背景

最近几年，多模态情感分析（MSA）和抑郁症检测（DD）引起了越来越多的关注。在多模态情感分析（MSA）中，模型的性能在很大程度上取决于合成嵌入的质量。这些嵌入是从称为多模态融合的上游过程中生成的，该过程旨在提取并联合收割机输入的单峰原始数据，以产生更丰富的多模态表示。以往的研究要么反向传播任务丢失，要么通过调整特征空间的几何属性来获得较好的融合结果，而忽略了从输入到融合结果的关键任务相关信息的保存。本文提出了一个多模态信息最大化框架MMIM，该框架通过分层最大化单模态输入对（模态间）之间以及多模态融合结果与单模态输入之间的互信息，从而在多模态融合中保持与任务相关的信息。该框架与主任务（MSA）联合训练，以提高下游MSA任务的性能。为了解决难以解决的MI界问题，进一步建立了一套计算简单的参数和非参数方法来逼近它们的真值。

三、主要贡献

提出了一种用于多模态情感分析层次化MI最大化框架。MI最大化发生在输入级和融合级，以减少有价值的任务相关信息的损失。据我们所知，这是第一次尝试在MI和MSA之间建立桥梁；

作者制定了我们的框架中的计算细节，以解决棘手的问题。该公式包括参数学习和非参数GMM稳定和光滑的参数估计；

在两个公开的数据集上进行全面的实验，并获得上级或与最先进的模型相当的结果。

四、模型结构和代码

总体框架

如下图所示，MMIM模型首先使用特征提取器（用于视觉和声学的固件，没有参数可供训练）和标记器（用于文本）将原始输入处理为数字序列向量。然后，将它们编码为单个单位长度表示。然后，该模型在两个协作部分中parts-fusion和MI最大化，分别由下图中的实线和虚线标记。在融合部分，堆叠的线性激活层的融合网络F将单峰表示转换为融合结果Z，然后将其通过回归多层感知器（MLP）进行最终预测。这两个部分同时工作，以产生用于反向传播的任务和MI相关损失，通过该模型学习将任务相关信息注入融合结果，并提高主任务中预测的准确性。
模态编码器

我们首先将多模态顺序输入Xm编码成单位长度表示h m 。具体地，我们使用BERT对输入句子进行编码，并从最后一层的输出中提取头部嵌入作为h t 。对于视觉和声学，遵循之前的成果，采用了两个特定于模态的单向LSTM来捕获这些模态的时间特征：
模态间MI最大化

通过以上分析，我们希望通过在多模态输入之间提示MI，可以过滤掉与任务无关的模态特定随机噪声，并尽可能多地保留跨所有模态的模态不变内容。如前所述，作者提高了一个易于处理的下限，而不是为此直接计算MI。利用了Barber和Agakov中引入的精确和直接的MI下界。
融合的MI最大化

为了加强中间融合结果以捕获模态之间的模态不变线索，在融合结果和输入模态之间重复MI最大化。优化目标是产生融合结的融合网络F。因为我们已经有了一条从Z的生成路径，所以我们期望有一条相反的路径，即从构造m∈t，v，a。受Oord等人的启发但与之不同，作者使用作用于归一化预测和真值向量的评分函数来衡量它们的相关性；

因为作者发现模型打算拉伸两个向量以最大化中的得分，而不进行这种归一化。然后，与Oord等人所做的相同，将此评分函数纳入噪声对比估计框架，将同一批次中该模态的所有其他表示处理为负样本；

以下是对这种提法的合理性的简短解释。对比预测编码(CPC)"在时间范围内"对上下文和未来元素之间的MI进行评分，以保持跨越许多时间步长的"慢功能"部分。类似地，在MMIM的模型中，要求融合结果Z反向预测"跨模态"的表示，以便可以将更多的模态不变信息传递给Z。此外，通过将预测与每一种模态对齐，使模型能够确定它应该从每一种模态接收多少信息。

五、数据集介绍

CMU-MOSI: 它是一个多模态数据集，包括文本、视觉和声学模态。它来自Youtube上的93个电影评论视频。这些视频被剪辑成2199个片段。每个片段都标注了 $-3,3$ 范围内的情感强度。该数据集分为三个部分，训练集(1,284段)、验证集(229段)和测试集(686段)。
CMU-MOSEI: 它类似于CMU-MOSI，但规模更大。它包含了来自在线视频网站的23,453个注释视频片段，涵盖了250个不同的主题和1000个不同的演讲者。CMU-MOSEI中的样本被标记为 $-3,3$ 范围内的情感强度和6种基本情绪。因此，CMU-MOSEI可用于情感分析和情感识别任务。
AVEC2019: AVEC2019 DDS数据集是从患者临床访谈的视听记录中获得的。访谈由虚拟代理进行，以排除人为干扰。与上述两个数据集不同的是，AVEC2019中的每种模态都提供了几种不同的特征。例如，声学模态包括MFCC、eGeMaps以及由VGG和DenseNet提取的深度特征。在之前的研究中，发现MFCC和AU姿势分别是声学和视觉模态中两个最具鉴别力的特征。因此，为了简单和高效的目的，我们只使用MFCC和AU姿势特征来检测抑郁症。数据集用区间 $0，24$ 内的PHQ-8评分进行注释，PHQ-8评分越大，抑郁倾向越严重。该基准数据集中有163个训练样本、56个验证样本和56个测试样本。
SIMS/SIMSV2: CH-SIMS数据集 $35$ 是一个中文多模态情感分析数据集，为每种模态提供了详细的标注。该数据集包括2281个精选视频片段，这些片段来自各种电影、电视剧和综艺节目，每个样本都被赋予了情感分数，范围从-1（极度负面）到1（极度正面）

六、性能展示

在情感计算任务中，可以看到MMIN模型性能超越其他模型，证明了其有效性；

抑郁症检测任务中，MMIN在我们的数据集AVEC2019中依旧亮眼：
SIMS数据集

七、复现过程

在准备好数据集并调试代码后，进行下面的步骤，附件已经调通并修改，可直接正常运行；

下载多模态情感分析集成包

bash 复制代码

pip install MMSA

进行训练