基于变换融合和情感层次表征学习的多标签多模态情感识别

三区，魔改transformer系列只摘重点，不再全文翻译

妈的，这种文章创新点体现在哪啊？，，，，

并且这篇文章为什么没给自己的模型取个名字......我真不懂了

简单而有效的多模态融合模块 / 在融合的多模态特征上结合情感级嵌入（？）

method

我们提出的方法的体系结构。它由三个主要模块组成：

(1)包含三个文本、视觉和声学模态特征提取器的主干模块；

(2)一个基于transformer的融合模块，用于处理和融合多模态信息；

(3)一个情感级嵌入和分类头模块，用于将融合的多模态特征与情感级表示相匹配，并输出最终的情感预测。

该模型由三个模块组成：特征提取模块、多模态融合模块和情感层次嵌入模块。

特征提取

对于视觉（视频帧）和声学（Mel谱图块）模式，我们使用两个单独的CNN网络（从头开始训练）作为每个模式的主干。我们通过包含包含多个完全连接层的投影网络，以及每个模态的非线性激活函数来将多模态特征映射到相同的大小，从而实现多模态特征的融合。此外，我们使用变压器编码器从视频帧和音频频谱图中捕获隐藏特征序列的时间信息。

因此，我们从文本、视觉和声学模式中获得三个隐藏表示序列，分别表示为。其中，分别为转录词数、采样视频帧数、Mel谱图块数；D为特征维数的大小。

对于文本模态，T由从预训练的基于bert的模型中提取的nt个词嵌入组成，并投影到d大小。对于视觉和声学模态，I和A分别包含从视频帧和音频频谱图块中捕获的大小为d的ni和na个特征向量。

基于Transformer的多模态融合模块

与以前基于变压器的多模态融合方法不同，我们提出同步融合来自不同模态的特征，而不是划分可能的成对模态组合。我们首先总结了变压器 $6$ 中的多头关注，然后描述了我们提出的扩展到视频数据的多模态融合。给定一个包含n个大小为d的向量的输入序列，变压器中的多头自关注块在h个子空间（h为头的个数，dk = d/h，通常dk = dv）中，将S并行投影到由查询组成的多个集合中。对于每一组预测查询、键和值，执行一个注意函数如下：

点积QKT是相似度度量的形式，注意力（Q，K， V）是注意力权重（softmax分数）加权的和。最终的联合表示是通过对所有具有可训练权重的注意头输出进行平均得到的：

其中，Wo∈R hdv×d表示可学习参数。

单个点积注意使模型能够扫描输入序列中的每个元素，并了解应该注意哪些元素。多头注意使这个过程可以从不同的表示子空间执行。换句话说，变压器提供了一种机制，可以选择性地从整个输入序列中积累有关输出的信息。此外，多头注意力随输入序列中向量的顺序而持久。因此，通过在输入序列上应用多头注意来融合多模态信息自然是合适的，这是多模态特征的顺序不可知组合。

通过特征提取模块后，我们分别从文本转录、图像帧、声学信号等多种模式中得到三个隐藏表示序列。然后，我们将它们连接成一个统一的多模态特征序列，并在开始时添加分类令牌（ $CLS$ 令牌），并将其用作融合模块的输入序列。

我们采用香草变压器 $6$ 编码器，并在Le多个块上堆叠来构建多模态融合模块。标准变压器编码器由多头自关注层（MSA）、规范化层（Norm）和位置前馈网络（FFN）组成。

第i块的融合多模态表示F i∈R ns×d （ns = nt + ni + na）计算如下：

Q1：这个添加分类令牌是什么？怎么实现？什么作用？

A1：将T、I、A 连接在一起，为了将这些多模态特征融合在一起，模型将它们连接成一个统一的序列，并在开始位置添加一个CLS令牌，这个CLS令牌将在transformer编码器中作为全局特征的代表，用于最终的分类或其他任务。

Q2：那这个cls是什么呢？一个实数吗？如何代表全局信息

A2：cls不是实数，而是一个d维的向量，cls通常作为一个可学习的参数进行初始化，并在训练过程中通过反向传播进行优化。

在变压器的自注意力机制中，每个位置的令牌都可以与序列中的所有其他位置进行交互。

由于 $CLS$ 令牌位于序列的最前面，并且经过多层自注意力处理，它能够聚合来自整个序列的信息。

通过多头自注意力层， $CLS$ 令牌能够接收并整合不同模态特征中的关键信息，形成一个综合的全局表示。

情感级嵌入模块

以往基于变压器的工作通常使用分类令牌（" $CLS$ "令牌）的输出来执行线性层分类，与之相反，我们利用融合模块的变压器编码器的整个输出序列来丰富多标签情感识别任务的特征，如图所示。我们不是学习一个独特的表征，然后用它来预测所有的情绪，而是**采用学习多个嵌入的想法，其中每个嵌入都面向每个特定的情绪。**我们利用变压器解码器中的交叉关注，为受 $22$ ， $27$ 和 $28$ 启发的单个视频汇集多个情感级嵌入。

学习类级嵌入的说明（b)与使用CLS令牌的输出相比（a)分类。

情感级嵌入模块将融合模块输出的特征序列F∈R ns×d作为输入，生成视频的情感级表示E∈R C×d （C等于情感类的个数，d为特征维度大小）。首先，随机初始化一组特定情绪的嵌入E0∈R C×d，用于投影查询向量q。在训练过程中学习。同时，从融合模块输出的精炼多模态特征序列用于投影K和V向量。然后使用一系列Nd变压器解码器学习视频情感级表示：

其中Norm、MHA和FFN分别为规范化层、多头注意层和前馈网络；I∈{1，..., Nd}。