150 万条多语种音频数据！浙大清华发布语音伪造检测框架 SafeEar，兼顾隐私保护｜CCS 2024

【新智元导读】SafeEar 是一种内容隐私保护的语音伪造检测方法，其核心是设计基于神经音频编解码器的解耦模型，分离语音声学与语义信息，仅利用声学信息检测，包括前端解耦模型、瓶颈层和混淆层、伪造检测器、真实环境增强四部分。

近年来，语音合成和语音转换等技术取得快速发展，基于相关技术能够合成逼真、自然的音频。然而，攻击者可利用该技术进行语音伪造，即「克隆」特定对象语音，为用户隐私安全与社会稳定带来严重威胁。

目前，已有较多基于卷积神经网络、图神经网络等的伪造检测方法取得了优越的检测效果。但现有工作通常需要采用音频波形或频谱特征作为输入，即需要访问语音完整信息，在该过程中存在语音隐私泄露问题。同时，已有研究证实音色、响度等声学特征在语音伪造检测上的重要性 [1,2]，这为仅基于声学特征进行深度伪造检测带来潜在可能。

针对此问题，浙江大学智能系统安全实验室 (USSLAB) 与清华大学联合提出 SafeEar，一种内容隐私保护的语音伪造检测方法。

论文地址：safeearweb.github.io/Project/fil...

论文主页：safeearweb.github.io/Project/

代码地址：github.com/LetterLiGo/...

CVoiceFake 数据集地址：zenodo.org/records/111...

SafeEar 的核心思路是，设计基于神经音频编解码器（Neural Audio Codec）的解耦模型，该模型能够将语音的声学信息与语义信息分离，并且仅利用声学信息进行伪造检测 (如图 1)，从而实现了内容隐私保护的语音伪造检测。

该框架针对各类音频伪造技术展现良好的检测能力与泛化能力，检测等错误率 (EER) 可低至 2.02%，与基于完整语音信息进行伪造检测的 SOTA 性能接近。同时实验证明攻击者无法基于该声学信息恢复语音内容，基于人耳与机器识别方法的单词错误率 (WER) 均高于 93.93%。

图 1 SafeEar 原理示意图

方法概述

SafeEar 采用一种串行检测器结构，对输入语音获取目标离散声学特征，进而输入后端检测器，主要框架如图 2 所示。

图 2 SafeEar 框架示意图。(虚线方框内的④Real-world Augmentation 仅在训练时出现，推理阶段仅有①②③模块)

主要包括以下四个部分：

1. 基于神经音频编解码器的前端解耦模型（Frontend Codec-based Decoupling Model, Frontend CDM）

受 SpeechTokenizer[3] 等前期工作的启发，该部分基于神经音频编解码器结构，在语音特征分离与重建的过程中实现语音特征解耦。如图 3 所示，包括编码器（Encoder）、多层残差向量量化器（Residual Vector Quantizers, RVQs）、解码器（Decoder）、鉴别器（Discriminator）四个核心部分。

其中，RVQs 主要包括级联的八层量化器，在第一层量化器中以 Hubert 特征作为监督信号分离语义特征，后续各层量化器输出特征累加即为声学特征。

图 3 基于神经音频编解码器的解耦模型示意图。

2. 瓶颈层和混淆层（Bottleneck & Shuffle）

如图 4 所示，瓶颈层被用于特征降维表征和正则化处理。混淆层对声学特征进行固定时间窗范围内的随机打乱重置，从而提升特征复杂度，确保内容窃取攻击者即便借助 SOTA 的语音识别（ASR）模型，也无法从声学特征中强行提取出语义信息。最终，经过解缠和混淆双重保护的音频可以有效抵御人耳或者模型两方面的恶意语音内容窃取。

图 4 瓶颈层和混淆层示意图

3. 伪造检测器（Deepfake Detector）

最近研究表明 Transformer 分类器在伪造检测方面的潜力 [4]，SafeEar 框架的伪造音频检测后端设计了一种仅基于声学输入的 Transformer-based 分类器，采用正弦、余弦函数交替形式对语音信号在时域和频域上进行位置编码。该分类器的主要结构如图 5 所示，包括编码器、池化层和全连接层等部分。

图 5 基于声学特征的语音伪造检测分类器。

4. 真实环境增强（Real-world Augment）

鉴于现实世界的信道多样性，采用具有代表性的音频编解码器（如 G.711、G.722、gsm、vorbis、ogg）进行数据增强，模拟实际环境中带宽、码率的多样性，以推广到不可见通信场景。

实验结果

伪造检测效果

本文选择了八个代表性的基线方法，其中包括端到端检测器 (AASIST[5]、RawNet2[6]、Rawformer[7]) 和串行检测器 (LFCC+SE-ResNet34[8]、LFCC + LCNN-LSTM[9]、LFCC+GMM[10]、CQCC+GMM[10]、Wav2Vec2+Transformer)，测试数据集采用语音伪造检测代表性数据集 ASVspoof2019[11] 和 ASVspoof2021[12]，实验结果如表 1 所示。

SafeEar 在信息损失的情况下，仍能实现较为优越的检测效果，在同类型的串行检测器中达到最低等错误率（3.10%），且优于部分端到端检测器。

表 1 整体伪造检测效果对比

隐私保护效果

对于隐私保护效果，本文讨论了具有不同能力的三类主要攻击者，包括 Naive content recovery adversary（CRA1）、Knowledgeable content adversary（CRA2）和 Adaptive content adversary（CRA3），通过语音识别（具有代表性的 ASR 模型和开源 ASR API）准确率评价隐私保护的效果。

由于解耦出的声学特征具有信息损失性，攻击者无法有效恢复或重建语音内容，从而证明该方法具有隐私保护能力。同时，论文通过用户测试体现出人耳与机器在内容隐私恢复上均具有较高难度。部分实验结果如下。

图 6 训练过程中验证集上词错误率变化曲线（CRA1）。可见 ASR 模型（Conformer、Bi-LSTM）对于 SafeEar 保护后的语音始终无法识别，WER 曲线保持过高数值且震荡；而对于完整音频，ASR 模型可迅速收敛并在验证集上取得极低的 WER

图 7 真实的用户调研表明，ASR 模型被认为能够有效识别完整音频（高达 Original: 8.99），而对于 SafeEar 面对不同攻击者等级下的识别效果始终很差（低至 CRA2: 1.31、CRA3: 1.31）；同理人耳听感的清晰度分别为 Original: 9.38、CRA2: 1.10、CRA3: 1.60。当用户模拟攻击者尝试恢复语音内容时，在 SafeEar 保护下的 WER 始终高于 96.37%

音频示例

原始音频 / SafeEar 保护后的音频：

总结与展望

本文在保护语音内容隐私的同时实现了语音深度伪造检测，该方法可被应用于实时语音通话环境，具有优越的检测准确性和泛化能力。

同时，该工作构建了涉及五种主流语言（英语、中文、德语、法语、意大利语）、多声码器（Parallel WaveGAN, Multi-band MelGAN, Style MelGAN, Griffin-Lim, WORLD, DiffWave）的语音伪造检测数据集 CVoiceFake，最新数据集涵盖 150 万个语音样本及其对应转录文本，可作为语音伪造检测和内容恢复攻击的基准数据集。

SafeEar 也提供了一种新颖的隐私保护串行检测框架，能够在其他相关任务中沿用和拓展，进而推进智能语音服务安全化发展。