论文笔记：相似感知的多模态假新闻检测

整理了RecSys2020 Progressive Layered Extraction : A Novel Multi-Task Learning Model for Personalized Recommendations）论文的阅读笔记

背景
模型
实验

论文地址：SAFE

背景

在此之前，对利用新闻文章中文本信息和视觉信息之间的关系(相似性)的关注较少。这种相似性有助于识别虚假新闻，例如，虚假新闻也许会试图使用不相关的图片来吸引读者的注意力。本文提出了一种相似感知的新闻检测方法(SAFE)，该方法研究新闻文章的多模态(文本和视觉)信息。首先，分别提取文本特征和视觉特征进行新闻表示。进一步研究了跨模态提取的特征之间的关系。这种新闻文本和视觉信息的表征以及它们之间的关系被共同学习并用于预测假新闻。所提出的方法有助于根据文本、图像或不匹配来识别新闻文章的真实性。

SAFE由三个模块组成，分别进行(1)多模态(文本和视觉)特征提取;(2)模态内(或者说模态无关)假新闻预测;(3)跨模态相似性提取。

主要贡献：提出了第一种研究新闻文本和视觉信息之间的关系(相似性)在预测假新闻中的作用的方法，联合利用多模态(文本和视觉)和关系信息来学习新闻文章的表示和预测假新闻。

模型

符号定义：对于一篇新闻（article） A = { T , V } A=\{T,V\} A={T,V}由视觉信息 V V V和文本信息 T T T组成，定义 t ∈ R d t\in R^d t∈Rd和 v ∈ R d v\in R^d v∈Rd作为相应的表示， t = M t ( T , θ t ) t=M_t(T,\theta_t) t=Mt(T,θt)、 v = M v ( V , θ v ) v=M_v(V,\theta_v) v=Mv(V,θv)，定义相似度函数 s = M s ( t , v ) s=M_s(t,v) s=Ms(t,v)，s是个0到1之间的值。通过这些信息，SAFE得到文章的二分类目标 y ^ = 0 / 1 \hat y=0/1 y^=0/1，定义总的函数： M p : ( M t , M v , M s ) ⟶ θ t , θ v , θ s y ^ ∈ { 0.1 } M_p:(M_t,M_v,M_s)\stackrel{\theta_t,\theta_v,\theta_s}{\longrightarrow}\hat y\in\{0.1\} Mp:(Mt,Mv,Ms)⟶θt,θv,θsy^∈{0.1}。

文本特征提取：本文使用经过全连接层扩展的Test-CNN提取每篇文章的表示，其结构如图二：

包含一个卷积层和最大池化，给定一段包含n个单词的内容，每个单词首先被编码为 x t l ∈ R k , l = 1 , 2 , . . . , n x_t^l\in R^k,l=1,2,...,n xtl∈Rk,l=1,2,...,n经过卷积层，我们会得到一个featuremap，定义为 C t = { c t i } i = 1 n − h + 1 C_t=\{c_t^i\}{i=1}^{n-h+1} Ct={cti}i=1n−h+1， h h h就是卷积核的大小，对相邻的h个单词的表示进行卷积，这个过程的公式： c t i = σ ( w t ⋅ x t i : ( i + h − 1 ) + b t ) c_t^i=\sigma(w_t\cdot x_t^{i:(i+h-1)}+b_t) cti=σ(wt⋅xti:(i+h−1)+bt) x i : ( i + h − 1 ) = x i ⊕ x i + 1 ⊕ . . . ⊕ x i + h − 1 x^{i:(i+h-1)}=x_i\oplus x{i+1} \oplus...\oplus x_{i+h-1} xi:(i+h−1)=xi⊕xi+1⊕...⊕xi+h−1 其中 ⊕ \oplus ⊕表示的是concat操作。通过公式我们可以看到，他这里所谓的卷积就是把窗口大小的单词表示全部拼接起来然后过一个全连接层，经过卷积后，每一个卷积核h，我们都会拿到一个n乘1的表示，n是单词数量。然后对于每一个卷积核形成的featuremap进行最大池化。到这里，我们定义拿到的结果为 c ^ t = m a x { c t i } i = 1 n − h + 1 , c ^ t ∈ R g \hat c_t=max\{c_t^i\}_{i=1}^{n-h+1},\hat c_t \in R^g c^t=max{cti}i=1n−h+1,c^t∈Rg，这个g就是卷积核的数量。

然后作者又对它进行了进一步的处理： t = W t c ^ t + b t t = W_t\hat c_t+b_t t=Wtc^t+bt拿到最终的文本表示。这是一个d维的，所以 W t W_t Wt的维度应该是d乘g。

图像特征提取，首先使用预训练的image2sentence model，然后还是使用Test-CNN提取表示，流程与上文相同，最后一步为 v = W v c ^ v + b v v = W_v\hat c_v+b_v v=Wvc^v+bv，拿到图像的d维表示。

到这里，我们可以直接把新闻中提取到的文本和图像表示拼起来进行预测了，可以用交叉熵损失训练模型。作者认为，除此之外，新闻文章的虚假性也可以通过评估文本信息与视觉信息的相关性来检测;假新闻创作者有时会主动使用不相关的图像进行虚假陈述，以吸引读者的注意，或者由于难以找到支持性的非操纵图像而被动使用它们。与提供相关文字和视觉信息的新闻文章相比，那些陈述和图片不一致的新闻文章更有可能是假的。于是作者基于余弦相似度定义了一个相似度： M s ( t , v ) = t ⋅ v + ∣ ∣ t ∣ ∣ ∣ ∣ v ∣ ∣ 2 ∣ ∣ t ∣ ∣ ∣ ∣ v ∣ ∣ M_s(t,v)=\frac {t\cdot v+||t|| \ ||v||}{2||t|| \ ||v||} Ms(t,v)=2∣∣t∣∣ ∣∣v∣∣t⋅v+∣∣t∣∣ ∣∣v∣∣ 这个相似度是在 $0,1$ 的范围取值，通过计算得到的这个相似度，作者重新定义了损失函数，把相似度加进去： L ( θ t , θ v ) = − E ( a , y ) ( y l o g ( 1 − M s ( t , v ) ) + ( 1 − y ) l o g M s ( t , v ) ) \mathcal{L}(\theta_t,\theta_v)=-E_{(a,y)}(ylog(1-M_s(t,v))+(1-y)logM_s(t,v)) L(θt,θv)=−E(a,y)(ylog(1−Ms(t,v))+(1−y)logMs(t,v)) 本文总的模型：

实验

实验使用的数据集是FakeNewsNet中的PolitiFact（政治）和 GossipCop（八卦）两个领域的数据集，数据集概览：
实验结果：
消融实验设置：(1)综合新闻文本信息、视觉信息及其关系(SAFE)在所有变体中表现最好;(2)使用多模态信息(SAFE\S或SAFE\W)比使用单模态信息(SAFE\T或SAFE\V)表现更好;(3)通过独立使用多模态信息(SAFE\S)或挖掘它们之间的关系(SAFE\W)来检测假新闻是相当的;(4)文本信息(SAFE\V)比视觉信息(SAFE\T)更重要。