论文笔记:基于共注意网络的多模态假新闻检测

整理了AAAI2023 Multimodal Fusion with Co-Attention Networks for Fake News Detection)论文的阅读笔记

背景

具有文字和视觉内容的假新闻具有更好的讲故事能力,人们很容易被这样的假新闻欺骗。现有的多模态方法的一个缺点是不能有效地融合多模态特征。它们只是简单地连接单模态特征,而不考虑模态间的关系。本文提出了一种新的多模态共同关注网络(MCAN),以更好地融合文本和视觉特征,用于假新闻检测。

模型

MCAN框架

本文所提出MCAN框架有以下几点优势或创新:1、MCAN是仅基于内容的,这有助于降低检测成本和进行早期检测。2、以往的方法都关注的是图像在语义层面的特征(如情感挑衅),忽略了假图像在物理层面上的个体信息,例如再压缩伪影,这些伪影反映在频域上。3、MCAN模型作为假新闻检测的通用框架,组成部分是灵活的。用于提取多模态特征的子网络可以用不同的模型代替。此外,MCAN的模块化融合过程使其可以方便地处理更多的模态。

MCAN的结构如图所示,旨在通过考虑模态之间的依赖关系来学习多模态融合表示。对于带有文本和图像的新闻,首先利用三种不同的子模型从空间域、频率域和文本中提取特征。然后通过由多个共注意层组成的深度共注意模型融合多模态特征。最后,利用共注意模型的输出来判断输入新闻的真实性。

特征提取

假新闻图像通常是在频域上表现出周期性的重新压缩图像或篡改图像,这些图像很容易被cnn捕获。因此,本文设计了一个基于cnn的子网络,从频域提取特征:

有关实现细节,首先通过离散余弦变换(DCT)将图像从空间域转换到频域。经采样后将其馈送到基于上述cnn的网络中。有关语义特征,则使用了常规的VGG和BERT。

特征融合

在阅读图文新闻时,人们通常会下意识地先看图片,再看文字。这个过程可以重复多次,不断融合图像和文本信息。受此启发,本文开发了MCAN来模拟这一过程。共注意(CA)块是MCAN的核心。MCAN通过级联堆叠多个CA层来实现特征融合,该CA层由两个并行连接的CA块组成。

所谓的共注意力层实际上就是传统的多模态Transformer,不再赘述,通过交叉熵优化整个网络。

实验

主实验

本文在常用的公开基准推特和微博数据集上验证MCAN的性能,表2显示了基线和MCAN在两个数据集上的结果。

MCAN-A是MCAN的一种变体,将空间域特征、频率域特征和文本特征简单地连接起来进行预测。我们可以观察到,提议的MCAN在两个数据集的所有指标上优于所有基线。这两个数据集有许多相似的趋势。MCAN-A的性能优于单峰模型,这表明添加特征通常会提高模型的性能,但并不总是正相关的。例如,微博数据集上的Text优于MCAN-A。在加入多模态融合过程后,MCAN打败了MCAN-A等多模态模型,体现了我们提出的特征融合方法确实优于简单的拼接方法。

消融实验

消融实验的结果如图五所示,"ALL"表示包含所有组件的整个模型MCAN,包括空间域表示(S)、文本表示(T)、频域表示(F)和共同关注层(A),"-F-A"则表示没有频域表示和共同注意层的简化MCAN。
  我们可以观察到,每个组件在提高MCAN的性能方面都起着重要的作用。MCAN打败了MCAN-F,这表明频域信息确实有助于检测假新闻。在Twitter数据集上,文本表示对整个模型的贡献小于视觉表示,而在微博数据集上则相反。这是由于不平衡问题和文本的平均长度不同导致的。

可视化

作者对MCAN和有代表性的变体MCAN-A进行了t-sne可视化:
  我们可以观察到,MCAN学习到的特征表示的可分离性比它的简化模型MCAN-A要好得多。两类样本之间的隔离区域更明显,这得益于MCAN中共同关注层的级联叠加方式,深度融合了多模态的特点,促进了假新闻与真实新闻的区分。

作者还进行了案例研究,这是为了说明多模态的重要性。

图7显示了MCAN成功检测到的两条高度自信的tweet,但被纯文本MCAN忽略了。这两个例子的文本内容几乎不能证明它是假新闻。在图8中,MCAN检测到这两个示例,但Spatial没有检测到。两个示例中所附的图像看起来很正常。然而,这条推文中的文字似乎有些夸张,令人难以置信。仅空间域的MCAN检测具有挑战性,但由于具有多模态特征,MCAN模型可以正确识别它们。

相关推荐
张较瘦_1 小时前
[论文阅读] AI | 用机器学习给深度学习库“体检”:大幅提升测试效率的新思路
论文阅读·人工智能·机器学习
m0_6501082417 小时前
IntNet:面向协同自动驾驶的通信驱动多智能体强化学习框架
论文阅读·marl·多智能体系统·网联自动驾驶·意图共享·自适应通讯·端到端协同
m0_650108241 天前
Raw2Drive:基于对齐世界模型的端到端自动驾驶强化学习方案
论文阅读·机器人·强化学习·端到端自动驾驶·双流架构·引导机制·mbrl自动驾驶
快降重科研小助手1 天前
前瞻与规范:AIGC降重API的技术演进与负责任使用
论文阅读·aigc·ai写作·降重·降ai·快降重
源于花海2 天前
IEEE TIE期刊论文学习——基于元学习与小样本重训练的锂离子电池健康状态估计方法
论文阅读·元学习·电池健康管理·并行网络·小样本重训练
m0_650108242 天前
UniDrive-WM:自动驾驶领域的统一理解、规划与生成世界模型
论文阅读·自动驾驶·轨迹规划·感知、规划与生成融合·场景理解·未来图像生成
蓝田生玉1232 天前
LLaMA论文阅读笔记
论文阅读·笔记·llama
*西瓜2 天前
基于深度学习的视觉水位识别技术与装备
论文阅读·深度学习
大模型最新论文速读2 天前
BAR-RAG: 通过边界感知训练让单轮 RAG 效果媲美深度研究
论文阅读·人工智能·深度学习·机器学习·自然语言处理
觉醒大王3 天前
科研新手如何读文献?从“乱读”到“会读”
论文阅读·笔记·深度学习·学习·自然语言处理·学习方法