【深度学习 | 论文精读】从“子空间拆解”到“社交图谱”：多模态情感分析：MISA

前言：在处理多模态数据（文、声、画）时，我们常面临一个两难境地：是暴力融合（炒乱炖），还是精细化处理？MISA 告诉我们："洗菜"远比"炒菜"更重要。本文将基于经典论文 MISA，深度拆解其"子空间拆解"的奥秘，并探讨其与谣言检测神器 Bi-GCN 的互补潜力。

在正式开始这篇文章之前，先说一些需要注意的东西：

1. 自注意力机制与多头注意力

我们可以把自注意力（Self-Attention）看作是"核心引擎" ，而多头注意力（Multi-Head Attention）则是"多缸并行的动力系统"

自注意力是"细胞" ：它定义了最基础的逻辑------"谁对我很重要？"。它通过计算 Q（查询）和 K（键）的相似度，给 V（值）分配权重。

多头注意力是"器官" ：它是由多个自注意力组成的。它把一个高维的特征拆分成多个低维的"头"，并行执行自注意力，最后再拼起来。

一句话总结：多头注意力就是把自注意力复制了多份，每份负责看不同的"侧面"。

为什么多头比单头的强？

如果向量是 128 维，8 个头。模型不是把 6 个向量切断，而是把 128 个特征维度拆成 8 组，每组 16 维，有属于自己的权重矩阵。强迫模型在 8 个不同的子空间里独立思考。有的空间专注于捕捉"情感的一致性"，有的专注于捕捉"模态间的冲突"。计算完成后，所有头的结论通过拼接操作合并，再通过一个最终矩阵进行融合

如果多头注意力中每个部分权重矩阵一样会怎么样？

因为我们的误差回传（反向传播）是基于整个拼接好的长完整序列来更新的，而不是每个头都有自己的那一部分标准，这时在梯度更新时候，每一部分的权重矩阵都会得到相同的更新梯度指令，且永远保持同步，这意味着他们学习特征套路是一样的，会导致信息严重丢失，甚至精度打折。

2.每个模态特征可能对应的是不同维度是信息，我可以将他们转化为同一纬度，之后映射到同一个特征空间上，这属不属于所谓的表征学习？

答案是'统一纬度'不等于'消除隔阂'，或许大家都在同一个房间中，但是大家依然在各说各话，而且一个模态最终只产生一个向量，其中也包含着大量的噪声，融合后会相互干扰，分布不一致，不同模态的向量可能会聚集在不同的地方，因此他们之间依然存在着巨大的'模态鸿沟'。这里提到的MISA的方案不止是映射维度，还使用了CMD（相似性损失），让他们在一个空间中真正对齐。

一、宏观视野：MISA 与 Bi-GCN 的"内容-结构"互补

在社交媒体挖掘领域，单打独斗的时代已经过去。

1.1 Bi-GCN 的局限：看不透的"灵魂"

Bi-GCN （双向图卷积网络）是谣言检测的明星。它侧重于传播结构，通过自上而下（传播）和自下而上（反驳）的路径观察信息的"家谱"。

痛点：它能看清"谁在传"，但看不懂"传的是什么"。如果视频里的人在"阴阳怪气"，Bi-GCN 很难捕捉到这种细微的内容冲突。

1.2 MISA 的切入：盯着帖子的"言外之意"

MISA 并不关心社交关系链，它专注于内容表征。通过子空间拆解，它能识别：

文字是否在反讽？
语气是否在煽动？
表情是否在心虚？

1.3 强强联手：谣言检测的终极形态

互补方案 ：将 MISA 提取到的"多模态高质量特征"作为 Bi-GCN 图中每个节点的 初始状态 $X$ 。

效果：模型既拥有了看清传播路径的"上帝视角"，又拥有了听懂视频言外之意的"读心术"。这就是结构与内容的完美互补。

二、摘要解析：跨越"模态鸿沟"的盒子理论

AI 处理视频时，面对的是三种截然不同的信号：文字（符号）、声音（波形）、画面（像素）。

2.1 传统的尴尬：强行"乱炖"

以前的 AI 试图直接把这三者混在一起，但因为分布不一致，导致了严重的**"模态鸿沟"**（大家各说各话，互相干扰）。

2.2 MISA 的创新：双盒子策略

MISA 将信息装进两个盒子：

模态不变域 (Invariant Subspace)：寻找三者表达同一个意思的"共同点"。
模态专属域 (Specific Subspace)：保留每个模态"独有的特色"。

三、相关工作：从"融合派"到"表征派"的革命

作者将前人的工作分为两类，并指出了 MISA 的进阶路径。

3.1 以前的套路

融合派：执着于数学手段（张量融合、注意力机制）。
时序派：执着于上下文建模（分层网络）。

3.2 MISA 的哲学：表征学习才是王道

MISA 认为：融合前的特征提纯才是最重要的。特征打好了，融合自然水到渠成。

翻译派：试图把 A 翻译成 B。
共享空间派：把大家都关进一个房间（容易丢失个性）。
MISA：既要共性，也要个性。

四、核心架构图深度拆解（Figure 2）

MISA 整体框架分为四个阶段：

4.1 特征提取阶段 (Feature Extraction)

将不同长度和维度的原始序列浓缩为固定维度的向量。

文本：使用 BERT。比 LSTM 强在它可以"一眼扫视全段"。
视/听 ：使用 sLSTM（带自注意力的双向 LSTM）。
- Bi-LSTM：确保"看了后面不忘前面"。
- Self-Attention (s)：给每一帧打分。过滤背景噪音，只保留"冷笑"等关键瞬间。

4.2 模态表征学习阶段 (Modality Representation)

这是 MISA 的"心脏"。通过两个不同的编码器：

不变子空间 ( $E_c$ )：所有模态共享一套参数。强迫模型去学通用的情感特征。
特定子空间 ( $E_p$ )：每个模态用自己的参数。专门负责抓取"除了我，别人都没有"的独特信息。

4.3 解码与重构阶段 (Decoder)

为了防止拆分时把信息"拆坏了"。将共性和特性加起来还原，如果还原不回原始特征，说明模型在摆烂。

4.4 融合与预测阶段 (Fusion)

产生 6 个特征向量，送入 Transformer 多头注意力模块。

逻辑：让 6 个向量互相交流。某个向量有效信息多，权重就高；若是噪音，权重就低。

五、数学原理：四大损失函数的终极奥义

5.1 相似性损失 ( $\\mathcal{L}_{sim}$ )：公式 (7) & (8) ------ 强制求同

MISA 使用了 CMD（中心矩差异） 算法。

核心逻辑：不仅要求均值一样，还要求方差（胖瘦）、偏度（歪斜度）、峰度（尖锐度）全部一样。
公式 8：两两对齐（文-声、文-画、声-画）。

注意：这里没有标准答案，是让模态之间互相"看齐"。

5.2 差异性损失 ( $\\mathcal{L}_{diff}$ )：公式 (9) & (10) ------ 行政分家

正交约束：要求共性向量和特性向量的乘积为 0。
公式 10 升级版：不仅自己内部要分家，文本的秘密和视频的秘密也要"互不相关"。

5.3 重构损失 ( $\\mathcal{L}_{recon}$ )：公式 (11) ------ 信息保真

公式： $\\mathcal{L}_{recon} = \\frac{1}{3} \\sum \\frac{\\\|u_m - \\hat{u}_m\\\|_2\^2}{d_h}$
作用：防止 Loss 爆炸，确保拆分后的零件拼回去还是"原装货"。

5.4 任务预测损失 ( $\\mathcal{L}_{task}$ )：公式 (12) ------ 对答案

最后一步，拿着融合后的特征去跟真实标签（情感分值）对答案。

六、实验环节：MISA 的"封神战报"

6.1 评估标准 (Criteria)

MAE：猜的分数差多少（越小越好）。
Corr：趋势对不对（越大越好）。
Acc-7：七分类准确率，最考验模型精细度。

6.2 特征提取工具 (Feature Tools)

文本：BERT (768 维)。
视觉：Facet / OpenFace。
音频：COVAREP。

💡 避坑指南 ：如果你是现在的学生，建议直接上 Hugging Face 或 Wav2Vec，那些老工具安装起来能让人抓狂。

6.3 幽默检测迁移：UR_FUNNY

MISA 在刷完经典情感数据集后，又在幽默数据集上跑了一遍。证明了其对于"反讽"和"冲突"这种高阶情感的极强捕捉能力。

文献参考：MISA：面向多模态情感分析的模态不变与模态特定表征。点此进入