论文阅读之MMSD2.0: Towards a Reliable Multi-modal Sarcasm Detection System

文章目录

论文地址

https://arxiv.org/pdf/2307.07135

主要内容

这篇文章介绍了一个名为MMSD2.0的多模态讽刺检测系统的构建,旨在提高现有讽刺检测系统的可靠性。文章首先指出了现有多模态讽刺检测基准(MMSD)存在的一些问题,包括模型偏差学习和不合理的负面样本标注。为了解决这些问题,作者提出了MMSD2.0,这是一个修正后的数据库,通过移除误导性的线索和重新标注不合理的样本来改进MMSD的不足。

此外,文章还介绍了一个名为multi-view CLIP的新颖框架,该框架能够利用来自多个视角(即文本、图像和文本-图像交互视角)的多粒度线索进行多模态讽刺检测。通过大量实验,作者证明了MMSD2.0是构建可靠多模态讽刺检测系统的有价值基准,并且multi-view CLIP框架在性能上显著超过了以前的基准模型。

主要贡献

文章的主要贡献包括:

  1. 首次指出了当前多模态讽刺基准中的问题,激励研究人员重新思考多模态讽刺检测的进展;
  2. 引入了MMSD2.0,这是一个修正后的数据库,去除了误导性线索并修正了不合理的标注,为构建可靠的多模态讽刺系统迈出了有意义的一步;
  3. 提出了一个新颖的多视图CLIP框架,该框架捕获了不同视角的图像、文本和图像-文本交互的线索,并实现了最先进的性能。

模型图

MMSD2.0数据集的总体构建过程。给定(a)中的示例,虚假线索去除阶段首先去除文本中的虚假线索,包括标签词(#terrible_food)和表情符号词(emoji_39)以获取(b),然后通过众包对不合理样本重新注释(人类重新注释)阶段对不合理的样本重新注释以获得最终的合理示例(c)。

文章的多视图CLIP的总体框架。预先训练的CLIP模型对输入的文本和图像进行编码。图像视图和文本视图利用仅图像和仅文本的信息来捕捉讽刺线索。图文交互视图融合了跨模态信息。这三个视图被聚合以进行最终预测。

技术细节

数据集改进

可以观察到标签字数在正样本和负样本中的分布明显不平衡。如图所示,在训练、验证和测试集中,阳性样本中的标签词字数平均超过1个,而阴性样本中的少于1个。换句话说,模型只需要学习虚假相关性(标签词字数)而不需要真的理解讽刺就可以有比较好的训练结果了。

为了解决这个问题,文章从MMSD数据集中的文本中删除了标签词。这使得模型能够捕捉图像特征并使用它们来指导最终预测,而不是依赖于标签字数作为依据。

同样,文章也发现表情符号词在正负样本之间的分布也不平衡。具体而言,如图3(b)所示,只有19.3%的表情词同时存在于阳性和阴性样本中,而其余80.7%的表情符号词仅出现在一种类型的样本中(如阳性样本或阴性样本)。这表明该模型可以简单地使用表情符号单词分布作为预测的优先级,而不是真正捕捉多模式提示。为了解决这个问题,文章删除了文本中的所有表情符号单词,以迫使模型学习真正的多模态讽刺特征,而不是依赖于虚假的文本提示。

MMSD只是将没有"#讽刺"等特殊标签的样本视为负样本(即,不是讽刺)。文章认为这个过程是不合理的,因为没有#讽刺标签的样本也可以表达讽刺意图。因此,我们选择MMSD数据集中的所有负样本(超过50%)作为潜在的不合理样本进行进一步处理。也就是处理数据标注错误的情况。

经过上述处理(删除标签词、表情符号词、重新对阴性样本进行标注)就是得到了MMSD2.0,对比结果如下:

多视图CLIP框架

首先定义输入数据:

(x, y)表示一对文本-图像

文本视图

文本经过CLIP的text encoder进行编码,n表示一句话的词数量。

使用t~CLS~作为句子的信息表示然后得到只使用文本的信息进行分类的预测结果。

图像视图

图像也是同理,使用CLIP的image encoder(这里应该是ViT)对图像信息进行编码。

然后使用单独图像的信息得到一个预测结果。

图像-文本交互视图


对CILP的文本编码信息、图像编码信息进行拼接。

然后使用注意力机制进行特征交互融合,其中Q、K、V都是F经过线性变换的结果。

交互融合后的特征取CLS使用key-less attention mechanism进行进一步融合,得到f

然后对f进行分类预测

那么最终的预测分布结果如下:

其中y^o^可以被视为从文本视图、图像视图和图像-文本交互视图的不同角度利用丰富的特征。

损失函数就是上面三种视图的预测分布都进行损失计算。

实验结果

消融实验:

相关推荐
小嗷犬12 小时前
【论文笔记】LLaVA-o1: Let Vision Language Models Reason Step-by-Step
论文阅读·人工智能·语言模型·大模型·多模态
奈斯。zs12 小时前
论文阅读——Intrusion detection systems using longshort‑term memory (LSTM)
论文阅读·人工智能·入侵检测·nids
dundunmm16 小时前
论文阅读:A fast, scalable and versatile tool for analysis of single-cell omics data
论文阅读·数据挖掘·单细胞数据·单细胞多组学数据·细胞聚类
是Winky啊16 小时前
【论文阅读】WGSR
论文阅读·深度学习·计算机视觉·超分辨率重建
hhhhhlt16 小时前
【代码大模型的隐私安全】Unveiling Memorization in Code Models论文阅读
论文阅读·安全
世界宇宙超级无敌究极特级顶级第一非常谱尼16 小时前
论文阅读——Performance Evaluation of Passive Tag to Tag Communications(一)
论文阅读·物联网·天线·信息与通信
dundunmm16 小时前
论文阅读:SIMBA: single-cell embedding along with features
论文阅读·人工智能·数据挖掘·embedding·生物信息·多组学细胞数据·单组学
xhyu6116 小时前
【论文笔记】LLaVA-KD: A Framework of Distilling Multimodal Large Language Models
论文阅读·人工智能·语言模型
MorleyOlsen19 小时前
【经典论文阅读】NeRF(神经辐射场,neural radiance fields)
论文阅读·nerf
何大春2 天前
【弱监督语义分割】Self-supervised Image-specific Prototype Exploration for WSSS 论文阅读
论文阅读·人工智能·python·深度学习·论文笔记·原型模式