结合帧级边界检测和深度伪造检测，定位部分伪造音频攻击中的篡改区域

Integrating frame-level boundary detection and deepfake detection for locating manipulated regions in partially spoofed audio forgery

摘要：
部分伪造音频是一种深度伪造的变体，它通过引入伪造或外部来源的善意音频片段来操纵音频语句，作为一种音频伪造攻击，对人类和人工智能应用构成了越来越大的威胁。研究人员最近开发了有价值的数据库，以帮助制定针对此类袭击的有效对策。虽然现有的反制措施主要集中在整个语音或片段的层面上识别部分虚假音频，但本文通过提出帧级系统来引入范式转换。这些系统旨在检测被操纵的语音，并在部分伪造的音频中精确定位发生操纵的特定区域。
我们的方法利用了从大规模自监督预训练模型中提取的声学特征，在各种公开的数据库上进行了评估，取得了很好的结果。此外，我们还研究了边界和深度伪造检测系统的集成，探索了它们潜在的协同作用和不足。重要的是，我们的技术取得了令人印象深刻的结果。我们在ADD 2022挑战的Track 2的测试数据集上取得了最先进的性能，等错误率为4.4 %。此外，我们的方法在ADD 2023挑战赛的Track 2中定位操纵区域表现出卓越的性能，最终的ADD分数为0.6713，并获得了最高的位置。

结论：
本文提出了一种新颖的检测方法，结合了帧级边界检测和深度伪造检测技术，能够有效识别和定位部分伪造音频中的伪造区域。通过在多个公开数据集上的广泛评估，结果显示该方法在检测准确性和定位精度上均表现出色，尤其在ADD 2023挑战赛中取得了优异成绩，最终得分为0.6713，位列第一。这表明该方法在实际应用中具有良好的可行性和有效性。
背景：
随着深度学习技术的迅速发展，数字内容（如文本、图像和音频）的生成和操控变得越来越容易。这些技术的普及虽然带来了许多便利，但也引发了严重的社会安全问题，尤其是在音频伪造方面。音频伪造技术可以被用于传播虚假信息、操控舆论，甚至在法律证据中造成误导。因此， 开发有效的检测方法以识别和定位伪造音频的区域变得尤为重要。
内容成果 ：
本文提出了一个帧级检测系统 ，其整体架构包括两个主要组件： 边界检测系统 和 深度伪造检测系统 。这两个系统相辅相成，共同实现对音频中伪造区域的精确检测和定位。

边界检测

边界检测的主要任务是识别音频信号中不同帧之间的边界，尤其是在伪造区域的边界。
通过分析音频信号的特征，系统能够检测到帧的变化点，这些变化点通常对应于音频的操控或拼接位置。边界检测的准确性直接影响到后续伪造区域的定位效果。

帧级分析

细粒度检测，与传统的段级或整体级检测方法不同， 帧级检测系统能够在每一帧上进行分析 。这种细粒度的检测方式使得系统能够识别出音频中被操控的具体帧，从而更准确地定位伪造区域。
投票机制：在进行段级伪造检测时，系统采用多数投票机制。 如果一个音频片段中的大多数帧被判定为真实，则该片段被视为真实音频；否则，视为伪造音频 。这种方法提高了检测的准确性和鲁棒性。

深度伪造检测

深度学习模型：系统利用深度学习技术，特别是卷积神经网络（CNN），来提取音频信号的特征。通过训练模型识别伪造音频的特征，系统能够有效地区分真实音频和伪造音频。

自监督学习：系统还利用大规模自监督预训练模型（如WavLM和Wav2Vec2）进行特征提取。这些模型在音频特征提取方面表现出色，能够捕捉到音频信号中的细微差别。

实验评估

在实验中，帧级检测模型的输入长度 l 设置为 1.28 秒，输入样本的大小为 20,480 个采样点。模型的帧数 T 设置为 64，考虑到 Wav2Vec2 和 WavLM 模型的帧率为 20 毫秒。实验中还采用了在线数据增强技术，使用了 MUSAN 和 RIRs 数据集，以提高模型的鲁棒性和泛化能力。

性能评估指标

实验中使用了多种性能评估指标来衡量模型的效果，包括：
等错误率 (EER)：这是一个常用的评估指标，表示假阳性率和假阴性率相等时的错误率。较低的 EER 值表明模型在区分真实和伪造音频方面的性能更好。
ADD 分数：在 ADD 2023 挑战中，模型获得了 0.6713 的最终 ADD 分数，表明其在定位伪造区域方面的有效性。

实验结果

检测性能：在 ADD2022 Track 2 测试数据集上， 模型达到了 4.4% 的 EER，显示出其在检测部分伪造音频方面的优越性能。此外，在 ADD 2023 挑战中，模型获得了第一名，进一步验证了其有效性。
区域定位能力：实验结果表明，模型不仅能够检测伪造音频，还能准确定位伪造区域。这一能力在处理复杂的音频拼接和合成时尤为重要。

模型比较

在实验中，研究者还将所提出的帧级反欺骗检测模型与现有的最先进的段级反欺骗系统（如 AASIST 系统）进行了比较。结果显示，所提出的模型在音频特征提取方面表现更佳，尤其是在跨域评估中，展现出更强的鲁棒性。
贡献点：

创新的检测框架：提出了一种新的框架，能够在 帧级别上检测和定位音频中的伪造区域。这种方法不仅提高了检测的准确性，还增强了对复杂伪造技术的适应能力。
实证研究：通过在多个公开数据集上的实验，提供了丰富的实证数据，证明了所提出方法的有效性。这为后续研究提供了重要的参考。
跨域应用潜力：研究结果显示， 该方法在不同音频数据集上的表现一致，表明其具有良好的跨域应用潜力，能够适应多种实际场景。