【深度学习 | 论文精读】MulMoSenT：2025年多模态情感分析新标杆

0. 前言：多模态情感分析的"进化史"

这篇文章同样是关于多模态的，它是25年的最新研究。虽然它与之前看过的Qwen-VL、CLIP等模型都属于多模态领域，但MulMoSent的侧重点和研究逻辑与这些'大而全'的基座模型有非常明显的区别。MISA关注的是如何处理不同感官之间的'隔阂'，双向图卷积关注的是信息在社交网络种'怎么传'的结构，Qwen-VL、CLIP等研究的是通用视觉语言理解，它们的目标是让AI能够像人一样看图说话、识字、找坐标，而这篇文章是专门研究情感分析。

怎么说呢，CLIP、MISA、BI-GCN、Qwen-VL、MulMoSenT这几篇文章正好构成了完整的舆情/谣言检测进化史：

模型/方法	发表时间	核心武器	研究重点
CLIP	2021	双塔对齐	奠定图文匹配基础（语义对齐）。
MISA	2020	特征解耦	处理声、影、文三者的复杂矛盾。
Bi-GCN	2020	双向图卷积	结构分析：看社交网络传播路径。
Qwen-VL	2023	7B+ 大模型大脑	通用认知：像人一样看图说话、定位。
MulMoSenT	2025	交叉注意力 (TICA)	低资源实战：解决小语种、图文冲突的极端情况。

再到后面看过的25年的基于多模态特征融合与社交评论的谣言检测研究（MMTC），实际上是把你之前看过的几个孤立技术路线强行"焊"在了一起，形成了一个三维识别体系。

第一维：文本（Text） ------ 对应你看到的 BERT/CLIP 文本分支。
第二维：视觉（Image） ------ 对应你看到的 ViT/Qwen-VL 视觉受体。
第三维：社交网络/评论（Social/Comments） ------ 对应你看到的 Bi-GCN（传播结构）和 MISA（情感矛盾）。

对比 MMTC (2025)： MMTC 侧重于谣言检测的稳健性，通过社交反馈判定真伪；而 MulMoSenT 则深耕情感领域，专注于从"模糊"的图文中提取最真实的孟加拉语情感信号。

1. 低资源语言的三大瓶颈

论文指出，对于孟加拉语（Bengali）这类低资源语言，多模态情感分析（MSA）面临三大核心瓶颈：

多模态歧义：图像本身具有多义性，没有强大的上下文很难判定。
上下文缺失：社交媒体语境破碎。
数据匮乏：缺乏高质量标注语料，且主流大模型对小语种支持极差。

为了破局，作者提出了 MulMoSenT 系统，并围绕三个研究问题（RQ）展开：如何建库？如何融合？表现如何？

2. Introduction：多模态情感分析的兴起与瓶颈

该部分先介绍 多模态情感分析（MSA）在互联网数据爆发背景下的兴起和领域的快速扩张，MSA的任务是同时看字和看图，旨在从多模态种分析并识别情感，理解多模态情感在个性化广告、情感跨模态检索等潜在应用。后面接着 对比多模态相对于单模态的优势是不同的模态提供互补信息，字能说清细节，图能消除误会，阐述了一些重要性****。****

然后会提到多模态情感分析面临的技术挑战：

特征空间上有所不同，需要算法把图片和文字翻译到一起，并且如何从不同模态中定位和提取与情感分类最相关的、具有区分性的信息，
还有一个难点是不完整多模态数据（只有文字没有图）的存在，这样的情况该怎么处理。
最后针对低资源语言（孟加拉语）的研究指出当前大多数关于多模态情感分析的研究都基于英语、汉语和法语等偏向大语种，现在针对这些小语种的研究仍然是有限的。

目前还没有人去针对孟加拉语进行多模态情感研究，我们是独一份（强调唯一性）

然而现在该领域的研究面临若干挑战，有限的计算资源、缺乏标注的语料库、适用于低资源语言的视觉-语言模型等都是当前要面临的困难。为了应对这些挑战，论文列出来三个研究问题：

如何为低资源语言开发大规模的多模态情感语料库？
文本-视觉交叉注意力和融合策略如何影响低资源语言多模态情感分析系统的性能？
所提出的 MulMoSenT 系统在情感预测任务中对比现有的基准模型表现如何？

之后的几个模块就分别开始针对三个研究问题（RQ1、RQ2、RQ3）进行阐述。

该部分主要围绕单模态情感分析 、多模态情感分析 以及低资源语言的研究现状三个方面展开。

单模态情感分析 侧重于单一类型数据（以文本为主）评估情感，也有关于图像的，单纯针对音频的情感分析尚未得到广泛处理，其中文本情感分类分为两种，一种是基于字典（老派） ，这种方法的一个根本局限性是更新字典的挑战，且查字典很死板跟不上网络，维护太慢。另一种是机器学习模型（新派），朴素贝叶斯、SVM等，虽然很聪明但很吃数据，数据不好就学不会。

多模态情感分析是回顾了现有的大模型如 AHRM, SMP, ITIN 等：

AHRM（基于注意力的异构关系模型，由 Xu 等人于 2020 年提出）：通过结合丰富的社交信息来改进多模态情感分析。它不仅看图和文字，还会考虑"社交关系"，它有一个"双注意力模块"，专门用来捕捉图片和文字之间的关联，把它们揉成一个整体。
SMP（情感感知多模态预训练框架，由 Ye 等人于 2022 年提出）：一般的预训练模型（比如 CLIP）是学习"图里有个狗"这种通用语义。但 SMP 重点学习的是"情感信号"，它更在乎图文里传达的喜怒哀乐，而不是单纯的物体识别。但计算复杂度同样很高，普通电脑跑不动。
ITIN（图文交互网络，由 Zhu 等人于 2022 年提出）：它不是粗略地看整张图，而是用 Faster R-CNN（一种目标检测算法）把图里的物体一个个抠出来。然后用 GRU（一种处理序列的神经网络）去读文字，让文字和图里的具体物体进行"对话"。但很难处理特别长的文字序列，而且对内存的要求非常高。

Table1是这篇论文重要的总结工具，是为了对比，表中的研究按模态分类分为

纯文本研究：

Xu et al. ：用的是"词典法"。缺点是只能处理中文，没法扩展到孟加拉语

Qorib et al. (2023) ：用的是 CNN+BiLSTM。缺点是存在 OOV (词汇量外) 问题，即遇到新词或生僻词（在小语种里很常见）就瞎了。

纯图像研究：

Meena et al. (2022) ：用的是 VGG-19 模型。缺点是容易过拟合，即模型只记住了训练集的死知识，换张图就不会了。

Anilkumar et al. (2024) ：用的是复杂的优化算法。缺点是计算复杂度太高，太费机器。

多模态研究：

Araño et al. (2021)：尝试结合不同的空间（双曲空间和欧几里得空间）。缺点是在处理复杂数据时效果不佳。

Xu et al. (2020) [AHRM] ：捕捉图文关系。缺点是没有考虑到语义信息。

Ye et al. (2022) [SMP] ：做预训练。缺点是计算量巨大。

Zhu et al. (2022) [ITIN] ：做局部对齐。缺点是内存消耗极高。

Huang et al. (2019) [DMAF] ：处理不完整数据。缺点也是计算太复杂。

Das & Singh (2023) [TVMF] ：针对低资源语言做的融合。缺点还是计算复杂度太高。

作者针对这个表有一些自己的观点：前人的模型太复杂、高内存占用，丢失部分信息、产生歧义，很多都是搞的大语种，小语种寥寥。再后面就是作者针对前人的失败之处，提出了自己的三个创新点，与上面作者说的三个问题和应对措施相对应，也是整个文章的整体逻辑框架：

|---------------------------------|----------------------|----------------------------------|---------------|
| 本段提到的创新点 | 对应的研究问题 (RQ) | 对应的答案 (ARQ) | 核心任务 |
| (i) 系统化建库框架 | RQ1: 如何开发语料库？ | ARQ1: CropLMSA 框架 + BMSA 数据集 | 搞数据 |
| (ii) 图文互导框架 | RQ3: 系统表现如何？ | ARQ3: MulMoSenT 模型 + TICA 机制 | 搞算法（互救逻辑） |
| (iii) 解决 OOV （词汇量外问题）与超参数调优 | RQ2: 融合策略如何影响性能？ | ARQ2: 评估主流模型并确定最优超参数 | 搞优化（调教模型） |

4. Corpus Development：CropLMSA 框架与 BMSA 语料库

这一段是针对RQ1提出的框架和语料库构建，研究引入了CropLMSA语料库采集框架，就是因为现有的数据集太少了，必须自己做一套，又通过这个框架，开发了有史以来第一个孟加拉语多模态情感分析语料库。

这个框架作者刚开始就说了分为三个核心模块，Figure2是整个框架开发流程的概览：

多模态来源选择：确定数据抓取目标，图中显示如Facebook、YoutTube等社交平台，表示研究者从这些平台收集图文对数据
自动爬取与预处理：使用网络爬虫程序自动获取选定源内容，预处理包括剔除单模态样本、统一图像分辨率、清洗文本（去除乱码、替换表情符号等）等操作
人工标注与质量评估：通过人工方式为清洗后的数据打上情感标签，将样本分为积极、消极、中性三种。

最后是生成BMSA语料库，该流程最终筛选生成了22489个高质量的图文对数据集。别的东西这一部分没什么可说的，跳过啦就。。。。。

5. Methodology：MulMoSenT 系统的技术闭环

讲这一部分的内容我会顺带把第五章的实验设置和结果给说了，它跟这一章关联还是很大的

这一章是开发MulMoSenT 系统的具体技术路线和核心机制，这一部分回答了研究问题RQ2和RQ3，先介绍这个系统的问题公式化（对应4.1的内容，公式化部分不太好看懂就不说了，对整篇文章理解不太影响）。之后会介绍具体方法。他还是分为了第四章刚开始提到的四个步骤依次讲述：

5.1 Step1 基准语料库开发

就简单的说了将语料库定义为图像-文本对集合，7：3的比例随机划分训练集和测试集。

5.2 Step2 基准模型评估与选择

分别针对纯文本模型（评估了 LLaMa, mT5 等 LLM 和 BanglaBERT 等 MLM）、纯图像模型（评估了 VGG, ResNet 等 CNN 及 ViT）以及多模态模型（评估了 CLIP, BLIP 等 VLM）进行评估。选出表现最好的单模态"冠军"。

从几十个模型中选择最适合孟加拉语的文本和图像模型，但是我们要知道这些视觉语言模型的设计都是用于高资源的信息处理，导致应用于孟加拉语就欠佳，所以他们就用自己开发的BMSA数据集去在这些模型上做微调，后面第五章table2和3会展示 各个模型在 Zero-shot（零样本）和 Fine-tuning（微调）模式下的准确率、F1 值等.

后来table3发现文本端BanglaBERT和图像端ViT在微调模式下胜出， 但是这些模型都是采用的默认超参数微调的，导致对孟加拉语文本的使用效果未达最优 ****，****因此又通过韦尔奇t检验筛选两个表现最优的纯文本和纯图像模型，table4是拿着胜出的文本端BanglaBERT和图像端ViT分别和对应的模态做对比算p值和t值，统计显著性，又选择了BiT 和XML-RoBERTa加入选用模型中。

最终选定ViT和BiT作为图像分类模型，BanglaBERT和XML-RoBERTa作为文本分类模型。

5.3 Step3超参数适配

它利用第二步确定的四个最佳模型，通过消融分析确定最优超参数，由于BMSA是新开发的语料库，作者用控制变量法对

学习率：测试了从的范围.记录在Table5
损失函数：中性、积极、消极的样本数量不均衡测试了传统的交叉熵损失和专门对付不平衡数据的焦点损失。记录在Table 6
融合技术：测试了CAT、AVG、SUM、MFB（多模态因子化双线性融合）。记录在table7
失活率
对齐技术：选定了 ViT（图像冠军）和 BanglaBERT（文本冠军），组装成了初始模型MulMoSenT。因为图像太模糊，作者引入了交叉注意力 。同时对比了 ITCA（图像引导文本） 和 TICA（文本引导图像） ， 测试了 测试了从 0.00 到 0.30 的 Dropout 值，记录在Table8

共五个关键变量进行了测试。

Table5是测试的学习率范围，学习率为2e-5效果最好。Table6是两个损失函数，交叉熵（CE）损失函数在ViT和BiT模型中取得了最高准确率，而Focal Loss在仅使用BanglaBERT和XML-RoBERTa的纯文本情感分类中表现最佳。Table7和table8基本都能看懂。

5.4 Step4 微调与推理

正片论文的高潮部分，MulMoSenT的微调和推理，将所有组件组装好后，进行微调，开始描述数据进入模型后的三个步骤：

特征提取：图像进 ViT 变成数字向量；文本进 BanglaBERT 变成数字向量。
图文对齐（TICA或者ITCA）：把文本向量当做 Query（提问者 Q） ，把图像向量当做 Key（索引 K） 和 Value （内容 V） ****，****使用softmax计算注意力，把算出来的权重乘回图像。
融合与分类：先平均融合，讲简单平均和精准对齐（TICA）的特征拼在一起丢进分类层，算误差，调参数，最后产出微调后的模型 MulMoSenT_finetune。

再后面就到考试部分，将没见过的测试集放入微调好的模型中，也就是输入文本对后通过argmax选出得分最高的作为最终预测结果。

最后说说Figure4的内容，这是重中之重，是整个模型的设计路线图，看懂了基本整篇论文问题不大，展示了数据是如何从原始状态变成最终情感分类结果的：

右上角的蓝色方框是BMSA数据集，里面包含成对的文本和图像对，左侧是MulMOSenT的微调阶段，左右两边是图像和文本模态的处理分支，图像分支使用ViTal模型将图像切成768维度的特征向量，同样文本分支使用BanglaBERT模型提取768维文本特征。

（这里会有一个箭头分支。先看两个文本箭头，右侧进入Cross-Attention深度交互作为 Query（查询），主动去图像里搜索信息；左侧进入图像的平均融合最为Referrence参考，辅助图像完成空间对齐和初步加权。再看两个图像箭头，左侧竖直向下是将完整的图像特征向量送入 Average Fusion，提取图片的全局背景信息；右侧图像特征送入了 Text-to-Image Cross-Attention 模块，在这里，图像特征变成了"待搜索的数据库"，注意力机制中，文本是"Q"，而图像就是"K和V"）

顺着往下就到了左边是Average Fusion（平均融合）阶段，计算图像特征的平均值得到全局视觉表示E_AVG，右边是Text-to-Image Cross-Attention（文到图交叉注意力），模型通过注意力机制让文本去寻找图像中与之相关的部分，之后将两种融合后的特征拼在一起（1...768和1...768），送入分类层计算误差并进行反向传播（Backward Pass），从而优化参数。

右侧BMSA数据集下方会的模块是测试集，基本上是左侧的仿照，它的两个输入一个是

来自左侧的橙色箭头，它指的是左侧部分经过大量数据训练（Fine-tuning）后得到的模型参数（权重），也就是模型通过不断计算误差并反向传播学会的如何识别孟加拉语中的讽刺和细节等。另一个是上方的箭头表示BMSA的30%测试集，两者同时最为输入进入测试阶段。

6.消融研究：参数调优的艺术

Table 5-8 展示了作者如何将模型调教到巅峰：

Focal Loss 的制胜：由于数据集存在类别不平衡，普通的交叉熵容易让模型"偷懒"去预测大类。Focal Loss 通过降低易分样本的权重，强迫模型攻克那些难以识别的情感样本。
融合策略 PK ：实验证明，简单的拼接（CAT）和平均（AVG）各有利弊，但将二者结合后的 CAT([AVG; TICA]) 效果最稳。
学习率的微操 ：最终确定 2e-5 为最优值，证明了在微调阶段，"小步快跑"比大步跨越更能保护预训练模型留存的知识。

7. 结论：MulMoSenT

MulMoSenT 的成功告诉我们：多模态融合不是简单的向量相加。

数据是王道：即使模型再先进，没有针对特定语种开发的 CropLMSA 框架，依然无法解决低资源语言的痛点。
交叉注意力的力量：在图文冲突的情况下，"以文导图"是目前最有效的特征对齐路径。
三维体系的雏形：MulMoSenT 处理了内容（图+文），如果未来能像 MMTC 那样引入社交关系维度的 Bi-GCN 结构，其在谣言检测和舆情监控上的表现将更加恐怖。

文章直达：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5233892 点击这里