论文阅读之MMSD2.0: Towards a Reliable Multi-modal Sarcasm Detection System

文章目录

论文地址
主要内容
主要贡献
模型图
技术细节
实验结果

论文地址

主要内容

这篇文章介绍了一个名为MMSD2.0的多模态讽刺检测系统的构建，旨在提高现有讽刺检测系统的可靠性。文章首先指出了现有多模态讽刺检测基准（MMSD）存在的一些问题，包括模型偏差学习和不合理的负面样本标注。为了解决这些问题，作者提出了MMSD2.0，这是一个修正后的数据库，通过移除误导性的线索和重新标注不合理的样本来改进MMSD的不足。

此外，文章还介绍了一个名为multi-view CLIP的新颖框架，该框架能够利用来自多个视角（即文本、图像和文本-图像交互视角）的多粒度线索进行多模态讽刺检测。通过大量实验，作者证明了MMSD2.0是构建可靠多模态讽刺检测系统的有价值基准，并且multi-view CLIP框架在性能上显著超过了以前的基准模型。

主要贡献

文章的主要贡献包括：

首次指出了当前多模态讽刺基准中的问题，激励研究人员重新思考多模态讽刺检测的进展；
引入了MMSD2.0，这是一个修正后的数据库，去除了误导性线索并修正了不合理的标注，为构建可靠的多模态讽刺系统迈出了有意义的一步；
提出了一个新颖的多视图CLIP框架，该框架捕获了不同视角的图像、文本和图像-文本交互的线索，并实现了最先进的性能。

模型图

MMSD2.0数据集的总体构建过程。给定（a）中的示例，虚假线索去除阶段首先去除文本中的虚假线索，包括标签词（#terrible_food）和表情符号词（emoji_39）以获取（b），然后通过众包对不合理样本重新注释（人类重新注释）阶段对不合理的样本重新注释以获得最终的合理示例（c）。

文章的多视图CLIP的总体框架。预先训练的CLIP模型对输入的文本和图像进行编码。图像视图和文本视图利用仅图像和仅文本的信息来捕捉讽刺线索。图文交互视图融合了跨模态信息。这三个视图被聚合以进行最终预测。

技术细节

数据集改进

可以观察到标签字数在正样本和负样本中的分布明显不平衡。如图所示，在训练、验证和测试集中，阳性样本中的标签词字数平均超过1个，而阴性样本中的少于1个。换句话说，模型只需要学习虚假相关性（标签词字数）而不需要真的理解讽刺就可以有比较好的训练结果了。

为了解决这个问题，文章从MMSD数据集中的文本中删除了标签词。这使得模型能够捕捉图像特征并使用它们来指导最终预测，而不是依赖于标签字数作为依据。

同样，文章也发现表情符号词在正负样本之间的分布也不平衡。具体而言，如图3（b）所示，只有19.3%的表情词同时存在于阳性和阴性样本中，而其余80.7%的表情符号词仅出现在一种类型的样本中（如阳性样本或阴性样本）。这表明该模型可以简单地使用表情符号单词分布作为预测的优先级，而不是真正捕捉多模式提示。为了解决这个问题，文章删除了文本中的所有表情符号单词，以迫使模型学习真正的多模态讽刺特征，而不是依赖于虚假的文本提示。

MMSD只是将没有"#讽刺"等特殊标签的样本视为负样本（即，不是讽刺）。文章认为这个过程是不合理的，因为没有#讽刺标签的样本也可以表达讽刺意图。因此，我们选择MMSD数据集中的所有负样本（超过50%）作为潜在的不合理样本进行进一步处理。也就是处理数据标注错误的情况。

经过上述处理（删除标签词、表情符号词、重新对阴性样本进行标注）就是得到了MMSD2.0，对比结果如下：