【深度学习 | 论文精读】从“子空间拆解”到“社交图谱”:多模态情感分析:MISA

前言 :在处理多模态数据(文、声、画)时,我们常面临一个两难境地:是暴力融合(炒乱炖),还是精细化处理?MISA 告诉我们:"洗菜"远比"炒菜"更重要。本文将基于经典论文 MISA,深度拆解其"子空间拆解"的奥秘,并探讨其与谣言检测神器 Bi-GCN 的互补潜力。

在正式开始这篇文章之前,先说一些需要注意的东西:

1. 自注意力机制与多头注意力

我们可以把自注意力(Self-Attention)看作是"核心引擎" ,而多头注意力(Multi-Head Attention)则是"多缸并行的动力系统"

自注意力是"细胞" :它定义了最基础的逻辑------"谁对我很重要?"。它通过计算 Q(查询)和 K(键)的相似度,给 V(值)分配权重。

多头注意力是"器官" :它是由多个自注意力组成的。它把一个高维的特征拆分成多个低维的"头",并行执行自注意力,最后再拼起来。

一句话总结:多头注意力就是把自注意力复制了多份,每份负责看不同的"侧面"。

为什么多头比单头的强?

如果向量是 128 维,8 个头。模型不是把 6 个向量切断,而是把 128 个特征维度拆成 8 组,每组 16 维,有属于自己的权重矩阵。强迫模型在 8 个不同的子空间里独立思考。有的空间专注于捕捉"情感的一致性",有的专注于捕捉"模态间的冲突"。计算完成后,所有头的结论通过拼接操作合并,再通过一个最终矩阵进行融合

如果多头注意力中每个部分权重矩阵一样会怎么样?

因为我们的误差回传(反向传播)是基于整个拼接好的长完整序列来更新的,而不是每个头都有自己的那一部分标准,这时在梯度更新时候,每一部分的权重矩阵都会得到相同的更新梯度指令,且永远保持同步,这意味着他们学习特征套路是一样的,会导致信息严重丢失,甚至精度打折。

2.每个模态特征可能对应的是不同维度是信息,我可以将他们转化为同一纬度,之后映射到同一个特征空间上,这属不属于所谓的表征学习?

答案是'统一纬度'不等于'消除隔阂',或许大家都在同一个房间中,但是大家依然在各说各话,而且一个模态最终只产生一个向量,其中也包含着大量的噪声,融合后会相互干扰,分布不一致,不同模态的向量可能会聚集在不同的地方,因此他们之间依然存在着巨大的'模态鸿沟'。这里提到的MISA的方案不止是映射维度,还使用了CMD(相似性损失),让他们在一个空间中真正对齐。

一、 宏观视野:MISA 与 Bi-GCN 的"内容-结构"互补

在社交媒体挖掘领域,单打独斗的时代已经过去。

1.1 Bi-GCN 的局限:看不透的"灵魂"

Bi-GCN (双向图卷积网络)是谣言检测的明星。它侧重于传播结构,通过自上而下(传播)和自下而上(反驳)的路径观察信息的"家谱"。

  • 痛点:它能看清"谁在传",但看不懂"传的是什么"。如果视频里的人在"阴阳怪气",Bi-GCN 很难捕捉到这种细微的内容冲突。

1.2 MISA 的切入:盯着帖子的"言外之意"

MISA 并不关心社交关系链,它专注于内容表征。通过子空间拆解,它能识别:

  • 文字是否在反讽?

  • 语气是否在煽动?

  • 表情是否在心虚?

1.3 强强联手:谣言检测的终极形态

互补方案 :将 MISA 提取到的"多模态高质量特征"作为 Bi-GCN 图中每个节点的 初始状态 X

  • 效果:模型既拥有了看清传播路径的"上帝视角",又拥有了听懂视频言外之意的"读心术"。这就是结构与内容的完美互补。

二、 摘要解析:跨越"模态鸿沟"的盒子理论

AI 处理视频时,面对的是三种截然不同的信号:文字(符号)、声音(波形)、画面(像素)

2.1 传统的尴尬:强行"乱炖"

以前的 AI 试图直接把这三者混在一起,但因为分布不一致,导致了严重的**"模态鸿沟"**(大家各说各话,互相干扰)。

2.2 MISA 的创新:双盒子策略

MISA 将信息装进两个盒子:

  1. 模态不变域 (Invariant Subspace):寻找三者表达同一个意思的"共同点"。

  2. 模态专属域 (Specific Subspace):保留每个模态"独有的特色"。


三、 相关工作:从"融合派"到"表征派"的革命

作者将前人的工作分为两类,并指出了 MISA 的进阶路径。

3.1 以前的套路

  • 融合派:执着于数学手段(张量融合、注意力机制)。

  • 时序派:执着于上下文建模(分层网络)。

3.2 MISA 的哲学:表征学习才是王道

MISA 认为:融合前的特征提纯才是最重要的。特征打好了,融合自然水到渠成。

  • 翻译派:试图把 A 翻译成 B。

  • 共享空间派:把大家都关进一个房间(容易丢失个性)。

  • MISA:既要共性,也要个性。


四、 核心架构图深度拆解(Figure 2)

MISA 整体框架分为四个阶段:

4.1 特征提取阶段 (Feature Extraction)

将不同长度和维度的原始序列浓缩为固定维度的向量。

  • 文本 :使用 BERT。比 LSTM 强在它可以"一眼扫视全段"。

  • 视/听 :使用 sLSTM(带自注意力的双向 LSTM)。

    • Bi-LSTM:确保"看了后面不忘前面"。

    • Self-Attention (s):给每一帧打分。过滤背景噪音,只保留"冷笑"等关键瞬间。

4.2 模态表征学习阶段 (Modality Representation)

这是 MISA 的"心脏"。通过两个不同的编码器:

  • 不变子空间 (E_c):所有模态共享一套参数。强迫模型去学通用的情感特征。

  • 特定子空间 (E_p):每个模态用自己的参数。专门负责抓取"除了我,别人都没有"的独特信息。

4.3 解码与重构阶段 (Decoder)

为了防止拆分时把信息"拆坏了"。将共性和特性加起来还原,如果还原不回原始特征,说明模型在摆烂。

4.4 融合与预测阶段 (Fusion)

产生 6 个特征向量,送入 Transformer 多头注意力模块

  • 逻辑:让 6 个向量互相交流。某个向量有效信息多,权重就高;若是噪音,权重就低。

五、 数学原理:四大损失函数的终极奥义

5.1 相似性损失 (\\mathcal{L}_{sim}):公式 (7) & (8) ------ 强制求同

MISA 使用了 CMD(中心矩差异) 算法。

  • 核心逻辑:不仅要求均值一样,还要求方差(胖瘦)、偏度(歪斜度)、峰度(尖锐度)全部一样。

  • 公式 8:两两对齐(文-声、文-画、声-画)。

注意:这里没有标准答案,是让模态之间互相"看齐"。

5.2 差异性损失 (\\mathcal{L}_{diff}):公式 (9) & (10) ------ 行政分家

  • 正交约束:要求共性向量和特性向量的乘积为 0。

  • 公式 10 升级版:不仅自己内部要分家,文本的秘密和视频的秘密也要"互不相关"。

5.3 重构损失 (\\mathcal{L}_{recon}):公式 (11) ------ 信息保真

  • 公式\\mathcal{L}_{recon} = \\frac{1}{3} \\sum \\frac{\\\|u_m - \\hat{u}_m\\\|_2\^2}{d_h}

  • 作用:防止 Loss 爆炸,确保拆分后的零件拼回去还是"原装货"。

5.4 任务预测损失 (\\mathcal{L}_{task}):公式 (12) ------ 对答案

最后一步,拿着融合后的特征去跟真实标签(情感分值)对答案。


六、 实验环节:MISA 的"封神战报"

6.1 评估标准 (Criteria)

  • MAE:猜的分数差多少(越小越好)。

  • Corr:趋势对不对(越大越好)。

  • Acc-7:七分类准确率,最考验模型精细度。

6.2 特征提取工具 (Feature Tools)

  • 文本:BERT (768 维)。

  • 视觉:Facet / OpenFace。

  • 音频:COVAREP。

💡 避坑指南 :如果你是现在的学生,建议直接上 Hugging FaceWav2Vec,那些老工具安装起来能让人抓狂。

6.3 幽默检测迁移:UR_FUNNY

MISA 在刷完经典情感数据集后,又在幽默数据集上跑了一遍。证明了其对于"反讽"和"冲突"这种高阶情感的极强捕捉能力。

文献参考:MISA:面向多模态情感分析的模态不变与模态特定表征。点此进入

相关推荐
AI服务老曹2 小时前
打破协议孤岛:基于 GB28181/RTSP 的 AI 视频统一接入网关架构解析(源码级)
人工智能·架构·音视频
小程故事多_802 小时前
从个人工具到团队变革,天猫 AI 全栈交付如何重构研发效率新范式
人工智能·重构·aigc·ai编程
wangqiaowq2 小时前
Few-Shot Learning(少样本学习)
人工智能
想你依然心痛2 小时前
HarmonyOS 5.0行业解决方案:基于端侧AI的智能工业质检APP开发实战
人工智能·华为·harmonyos
no24544103 小时前
AI工程范式的三次演化:Prompt Engineering → Context Engineering → Harness Engineering
人工智能
2301_766558653 小时前
学术风控新范式:陌讯 AIGC 检测论文 AI 代写识别技术详解
人工智能·aigc
硅农深芯3 小时前
AEC-Q100中的DPAT与SPAT:保障汽车芯片可靠性的核心统计方法
人工智能·汽车·dpat·spat·zero defect·aecq100
LaughingZhu3 小时前
Product Hunt 每日热榜 | 2026-03-27
大数据·数据库·人工智能·经验分享·搜索引擎
Dev7z3 小时前
基于深度学习的糖尿病眼底图像分类识别系统(含数据集)
人工智能·深度学习·分类