论文阅读-可泛化深度伪造检测的关键

一、论文信息

**论文名称：**Learning Features of Intra-Consistency and Inter-Diversity: Keys Toward Generalizable Deepfake Detection
**作者团队：**Chen H, Lin Y, Li B, et al. （广东省智能信息处理重点实验室、深圳市媒体安全重点实验室和深圳大学人工智能与数字经济广东实验室）
论文网址： https://ieeexplore.ieee.org/abstract/document/9903059
**发表期刊：**IEEE Transactions on Circuits and Systems for Video Technology

二、动机与创新

1、动机：

①大多数都存在不同 数据源 、不同伪造方法、不同后处理方式、训练集中包含的深度不同的问题。 由于这些不匹配的域差距 导致大多数深度伪造检测方法在实际应用中都存在严重的性能下降。------>泛化性差

②原始图像的自一致性 ，通常起源于传感器模式噪声或由生成管道中的微纹理引起，是深度伪造检测的一般线索。--->由于不同的数据源或处理操作而导致的图像样本之间的不一致性可能比虚假的痕迹更明显。--->需要学习具有良好的类内一致性和类间可分性的特征，特别是在数据集不匹配的条件下。

2、创新： 学习类内一致性 和类间多样性 的特征，我们利用一种新的基于Transformer的自监督学习方法和一种有效的数据增强策略来增强深度伪检测泛化性。

三、方法

提出通过两阶段的自监督 范式来提高深度伪造检测的泛化能力。

首先，在预训练阶段，我们利用没有任何图像类注释的mask patch和预测策略来训练一个大型的基于vit的编码器。它的目的是通过预测mask patch来学习丰富的隐藏的代表性特征。图像内的类内一致性线索可以由MIM以这种方式挖掘。
随后，我们以一种有监督的方式对预先训练过的基于视频的编码器进行了微调。我们采用了与深度伪造相关的二值分类和假mask估计两个任务，旨在丰富训练中的监督信息
此外，我们还引入了一种新的基于小波的数据增强技术，即可调伪造合成器（AFS），以丰富微调阶段人工伪造样本的多样性。

Masking and Prediction Pre-Training

①引入了一种基于MIM的策略，该策略掩盖了图像patch的一些随机部分，并在预训练阶段预测了它们的RGB像素。

②改编自SimMIM ，由两个主要组件组成：

1)**Masking：**首先将大小为H×W×3的图像分割成一些规则的补丁大小为P×P。然后，我们用掩码比ρ随机mask部分输入图像patch。如图3所示，我们将mask patch的区域标记为 $M$ 。我们提供了所有的patch来训练一个基于vit的编码器。

2)**Prediction：**我们使用一个基于vit的编码器来提取mask图像的潜在代表性特征。使用Swin-L作为编码器的主干。预测的目标是恢复每个mask patch中的原始像素。我们在主干的最后一层引入一个预测头，其目的是将特征映射中的每个特征向量映射到原始分辨率，并让这个向量负责相应的原始像素的预测。

Multi-Task Fine-Tuning（多任务微调）

①在预训练阶段之后，我们用标记数据对预训练后的编码器进行微调，以进行深度伪造检测。采用多任务学习的方式。使用了两个任务，一个用于二元分类，另一个用于估计伪造mask，涉及到更多的监督信息。

②损失函数说明：其中Lc是二分类交叉熵

Adjustable Forgery Synthesizer（可调节伪造合成器）

①通过在频域扰动图像来模拟深度伪影的产生。提出了一种基于小波的数据增强方法，名为可调伪造合成器（AFS）。

②由于小波变换可以将图像分解为多个空间频子带，AFS可以通过一组缩放参数显式地调整源面与目标面之间的相似性。

③三个步骤组成：

1)相似的面部检索：通过Dlib提取面部landmarks。通过取landmarks的凸包得到掩模M。

2)小波分解：对图像进行离散小波变换（DWT），得到4个小波子频带。

3)伪造合成：为了尽可能多地覆盖不同形状的掩模，将2D维仿射变换T（·），然后进行高斯模糊，记为¯M。使用一些混合方法将mask内源子带的面区域缝合到目标图像的相应子带。这样，我们就得到了四个相应的合成子频带。最后，我们利用逆离散小波变换（IDWT）操作将合成子带{Fi}变换为合成图像If。同时，AFS也输出相应的伪造图片。

④证明AFS合理性：通过人类感知得到的深度伪造图像的人身份位于源脸和目标脸之间。由DF（c23）、DF（c40）和FSh（c23）分别生成的三张假图像虽然保留了源图像的一些特征，但更接近目标标识。不同的伪造方法和后处理操作（如不同的压缩率）可能导致与目标身份的不同程度的相似性。

采用了一个公共平台，可以提供人脸比较服务来计算S（·，·）的面部相似性得分。--->现有的深度伪造方法在不控制相似性的情况下，只能产生少量的样本。为了获得更通用和鲁棒的检测，最好以更多的多样性来增加数据。

⑤AFS的动机是在图像空间中生成许多质量不同、与目标身份相似程度不同的假样本，以促进表示学习。简单地为四个子波段设置相同的αi，然后计算S（I，Is）和S（I，It）。AFS可以通过调整混合权重αi来模拟与源标识和目标标识具有不同相似性的深度伪造样本。这样，我们就可以在微调阶段丰富假样本的相互多样性。

四、实验

实验设置

数据集:

①UADFV和DF-TIMIT仅用于训练。FF++，DFD，Celeb-DF，DFDC-p，DFDC，DeeperForensics-1.0 (DFR)，WildDeepfake。

②训练过程：

a)预训练阶段：在预训练阶段，将UADFV、DF-TIMIT、FF++/DF（c23和c40）、DFDC、Celeb-DF和DFD（c23和c40）的训练集混合，形成一个复合训练集，名为DF-Mix，作为预训练数据集。这些数据没有注释，就被用于模拟未标记的数据场景。

b)微调：在此阶段使用标准的监督学习范式来微调模型，该范式使用每个给定数据集的训练和验证集。

评价指标：采用AUC和EER。

1、定量分析

1）预测Masked Patches:

①mask和预测预训练有助于基于transformer的编码器学习具有代表性的特征，并具有良好的patch间一致性和相关性。

2）预测伪造Mask

①可以观察到不同的深度伪造方法的ground truth mask的形状和位置是非常不同的。这种多样性增加了可推广的深度假检测的难度。计算结果表明，该方法的伪造掩模估计是可靠的。

2、与其他方法比较

1）数据集内部评估

2）跨方法验证

3）跨数据集验证:

3、消融实验

1）Masking and Prediction Pre-Training:

2）Multi-Task Fine-Tuning:

五、总结与局限

①工作总结：包括两个阶段的学习，即1)采用mask和预测的预训练阶段，2)采用二值分类和伪造mask估计的多任务微调阶段。

在第一阶段，采用基于MIM的方案来学习大规模未标记面部数据的内一致性代表性特征。然后，对预先训练好的模型进行微调，以利用标记数据进行下行的深度伪造检测。此外，还引入了一种新的小波域伪造数据增强方法。

②局限性：

（1）采用了大规模的预训练数据，对一个庞大的骨干网络进行预训练，以实现SOTA的性能，这导致了较大的计算成本。（2）其次，由于所提出的AFS是为了模拟和增强由深度伪造算法造成的伪造线索，包括人脸混合操作，即人脸交换和人脸再现。然而，这种生成方案在识别由整个面部或头部合成方法生成的面部（不包括面部混合操作）伪造图像时可能表现不佳。