论文笔记：基于共注意网络的多模态假新闻检测

整理了AAAI2023 Multimodal Fusion with Co-Attention Networks for Fake News Detection）论文的阅读笔记

背景
模型
实验

背景

具有文字和视觉内容的假新闻具有更好的讲故事能力，人们很容易被这样的假新闻欺骗。现有的多模态方法的一个缺点是不能有效地融合多模态特征。它们只是简单地连接单模态特征，而不考虑模态间的关系。本文提出了一种新的多模态共同关注网络(MCAN)，以更好地融合文本和视觉特征，用于假新闻检测。

模型

MCAN框架

本文所提出MCAN框架有以下几点优势或创新：1、MCAN是仅基于内容的，这有助于降低检测成本和进行早期检测。2、以往的方法都关注的是图像在语义层面的特征(如情感挑衅)，忽略了假图像在物理层面上的个体信息，例如再压缩伪影，这些伪影反映在频域上。3、MCAN模型作为假新闻检测的通用框架，组成部分是灵活的。用于提取多模态特征的子网络可以用不同的模型代替。此外，MCAN的模块化融合过程使其可以方便地处理更多的模态。

MCAN的结构如图所示，旨在通过考虑模态之间的依赖关系来学习多模态融合表示。对于带有文本和图像的新闻，首先利用三种不同的子模型从空间域、频率域和文本中提取特征。然后通过由多个共注意层组成的深度共注意模型融合多模态特征。最后，利用共注意模型的输出来判断输入新闻的真实性。

特征提取

假新闻图像通常是在频域上表现出周期性的重新压缩图像或篡改图像，这些图像很容易被cnn捕获。因此，本文设计了一个基于cnn的子网络，从频域提取特征：

有关实现细节，首先通过离散余弦变换(DCT)将图像从空间域转换到频域。经采样后将其馈送到基于上述cnn的网络中。有关语义特征，则使用了常规的VGG和BERT。

特征融合

在阅读图文新闻时，人们通常会下意识地先看图片，再看文字。这个过程可以重复多次，不断融合图像和文本信息。受此启发，本文开发了MCAN来模拟这一过程。共注意(CA)块是MCAN的核心。MCAN通过级联堆叠多个CA层来实现特征融合，该CA层由两个并行连接的CA块组成。

所谓的共注意力层实际上就是传统的多模态Transformer，不再赘述，通过交叉熵优化整个网络。

实验

主实验

本文在常用的公开基准推特和微博数据集上验证MCAN的性能，表2显示了基线和MCAN在两个数据集上的结果。

MCAN-A是MCAN的一种变体，将空间域特征、频率域特征和文本特征简单地连接起来进行预测。我们可以观察到，提议的MCAN在两个数据集的所有指标上优于所有基线。这两个数据集有许多相似的趋势。MCAN-A的性能优于单峰模型，这表明添加特征通常会提高模型的性能，但并不总是正相关的。例如，微博数据集上的Text优于MCAN-A。在加入多模态融合过程后，MCAN打败了MCAN-A等多模态模型，体现了我们提出的特征融合方法确实优于简单的拼接方法。

消融实验

消融实验的结果如图五所示，"ALL"表示包含所有组件的整个模型MCAN，包括空间域表示(S)、文本表示(T)、频域表示(F)和共同关注层(A)，"-F-A"则表示没有频域表示和共同注意层的简化MCAN。
我们可以观察到，每个组件在提高MCAN的性能方面都起着重要的作用。MCAN打败了MCAN-F，这表明频域信息确实有助于检测假新闻。在Twitter数据集上，文本表示对整个模型的贡献小于视觉表示，而在微博数据集上则相反。这是由于不平衡问题和文本的平均长度不同导致的。

可视化

作者对MCAN和有代表性的变体MCAN-A进行了t-sne可视化：
我们可以观察到，MCAN学习到的特征表示的可分离性比它的简化模型MCAN-A要好得多。两类样本之间的隔离区域更明显，这得益于MCAN中共同关注层的级联叠加方式，深度融合了多模态的特点，促进了假新闻与真实新闻的区分。

作者还进行了案例研究，这是为了说明多模态的重要性。

图7显示了MCAN成功检测到的两条高度自信的tweet，但被纯文本MCAN忽略了。这两个例子的文本内容几乎不能证明它是假新闻。在图8中，MCAN检测到这两个示例，但Spatial没有检测到。两个示例中所附的图像看起来很正常。然而，这条推文中的文字似乎有些夸张，令人难以置信。仅空间域的MCAN检测具有挑战性，但由于具有多模态特征，MCAN模型可以正确识别它们。