一种基于部分欺骗音频检测的基于临时深度伪造位置方法的高效嵌入

AN EFFICIENT TEMPORARY DEEPFAKE LOCATION APPROACH BASED EMBEDDINGS FOR PARTIALLY SPOOFED AUDIO DETECTION
摘要：

部分伪造音频检测是一项具有挑战性的任务，在于需要在帧级别上准确地定位音频的真实性。
**时间性深度伪造定位( TDL )可有效地捕获特征和位置信息。**包括嵌入相似性模块和时间卷积操作。 为了有效地集中位置信息，提出了时间卷积操作来计算相邻帧之间的帧特异性相似度，并动态地选择信息丰富的邻居进行卷积。

结论： TDL方法在ASVspoof2019部分伪造数据集上优于基线模型，并且在跨数据集实验中也表现出色。具体来说，TDL在帧级别的真实性预测中表现优异，能够准确识别真实语音。
背景：
随着人工智能生成内容（AIGC）技术的快速发展，尤其是在语音合成和语音转换等应用中，伪造音频的安全威胁日益严重。现有的检测方法大多集中在完全伪造的音频上，而对部分伪造音频的研究相对较少。部分伪造音频是指在真实语音中插入合成语音片段，这种攻击方式可以轻易地改变句子的语义。

在大多数数据集和挑战中，一个重要的场景被忽略，即一个真实的语音语句被合成的语音片段污染，导致部分欺骗 (PartialSpoof)。
在整个PartialSpoof发展领域，先有了两个数据集（一个叫 PartialSpoof ），使用 SELCNN网络增强语音的准确性，之后是有人使用 Wav2Vec2作为前端，ECAPA-TDNN作为后端，在ADD 2022 Track 2中取得了第一名。
上面方法并不能精确地定位特定的片段，有人将之前的语音级部分伪造语音数据集标签扩展到帧级，并提出了相应的基于W2V2的对抗策略来增强帧级检测能力。
TDL------Wav2Vec2作为前端，后端集中于细腻地定位虚假语音片段：第一次使用嵌入相似度模块（嵌入空间并得到高质量的嵌入相似度向量）；然后，我们提出了时间卷积操作来从嵌入向量中定位区域。从嵌入中计算每个时间位置的局部相似性。获得一个特定于帧的权重来指导卷积进行时间敏感的计算。

内容成果 ：
TDL方法主要包括两个核心模块：

嵌入相似性模块（Embedding Similarity Module） ：该模块旨在生成一个嵌入空间，以便有效区分真实帧和伪造帧。通过这种方式，可以获得高质量的嵌入相似性向量。
时间卷积操作（Temporal Convolution Operation） ：该操作用于计算相邻帧之间的帧特定相似性，并动态选择信息丰富的邻居进行卷积，从而有效集中于位置信息。

1.使用Wav2Vec - XLS - R从原始音频中提取帧级特征；
2. 设计了一个嵌入相似度模块来在嵌入空间中分离真实帧和合成帧，在嵌入层面增强真假区分的识别；
3.为了捕获位置信息，采用时间卷积操作，通过关注相邻帧之间特定帧的相似性；
4.使用1D卷积层和全连接层对帧级标签进行下采样，以计算二进制交叉熵；
一、 W2V2 前端
过在掩码特征编码器上解决对比任务进行训练，
首先，不同长度的语音信号通过由七个卷积神经网络( CNN )层组成的特征提取器。
随后，使用包含24层、16个注意力头、嵌入大小为1024的Transformer网络获得上下文表示。
二、嵌入相似度模块（ Embedding Similarity Module， ESM）

目的：嵌入相似性模块的主要目的是在嵌入空间中有效区分真实帧和伪造帧。通过增强真实和伪造音频帧之间的相似性和差异性，该模块能够提高模型的识别能力。

首先，使用W2V2（Wav2Vec 2.0）模型提取音频的特征。W2V2能够从多样的真实语音数据中学习到丰富的特征表示。
嵌入向量生成：提取的特征经过一个卷积模块（由两个1D卷积层组成），将嵌入维度从1024降到32，并进行L2归一化，生成嵌入向量。
相似性计算：使用余弦相似性来测量两个嵌入向量之间的相似度。通过计算真实帧之间、伪造帧之间以及真实帧与伪造帧之间的相似性，确保真实帧在不同位置之间相似，而伪造帧在不同位置之间也相似，但真实帧与伪造帧之间则应保持不相似。余弦相似度来度量两个嵌入向量的相似度:

损失函数 ：设计了两个损失函数（L_Real_ESM 和 L_Fake_ESM），以最大化真实帧和伪造帧之间的距离，从而提高模型的泛化能力。为了增加嵌入空间中真假帧之间的距离，提高泛化能力，我们计算了真帧之间、假帧之间以及真假帧之间的余弦相似度；确保来自不同位置的真实帧表现出相似性，来自不同位置的虚假帧表现出相似性，而真实帧和虚假帧彼此不相似性；使得不同位置的真实帧和虚假帧相似：

理解：τsame 是同一类别帧的相似度阈值，⌊ . . . ⌋+ 表示零下限幅， ...
虽然知道帧级真实性标签的位置，但W2V2-XLS-R特征的时间维度并不与这些帧级标签内在地保持一致。分离真假帧：

τdiff为相似度阈值，用于约束真假帧之间的距离；
最后嵌入相似度模块采用LESM进行优化：

三、时间卷积操作（ Temporal Convolution Operation ）
为了有效地捕获位置信息，通过动态选择邻近帧进行卷积计算，从而增强模型对时间序列数据的处理能力
输入特征，将嵌入向量作为局部注意力掩码，输入到时间卷积层。输入特征的维度为 X∈RDin×T，其中 Din 是特征维度，T 是帧数。

其中fmt为输出特征向量的第m个通道的值，⌊· · ·⌋表示向下取整操作，[ · · ·]表示矩阵的切片，( · )表示内积。X是经过近邻相似度计算处理的调制特征。

其中矩阵a∈Rk × T是一个相似矩阵，计算每个时间位置的局部相似性，a[ i , t]表示第t个特征向量和它的k个邻居之间的相似性。在实际操作中，邻居设置为1，a[ i , t]、a[ i , t-1 ]、a[ i , t + 1]之间进行相似度计算。
动态卷积核，时间卷积层学习一个动态卷积核 k∈Rk×Din×Dout，其中 k 是卷积核的大小，Dout 是输出特征的维度。
卷积计算，对于每个特征，使用动态卷积核计算输出特征。卷积操作仅关注高权重区域，从而提高计算效率。
**邻居相似性计算，**在实际操作中，邻居的设置为1，计算每个时间位置的局部相似性。通过计算当前帧与其邻近帧之间的相似性，动态选择信息丰富的邻居进行卷积。
在实际操作中，根据ESM模块生成的嵌入向量来确定动态核权重。我们对两个序列1D - CNN上的W2V2特征进行时间卷积操作，其中输入通道和输出通道都保持不变，以保持时间维度上的一致性。
四、总损失
使用1D-CNN，全连接层和sigmoid激活函数来计算BCE（Binary Cross-Entropy）损失。

五、实验结果分析

所有的度量都是基于部分欺骗音频的帧级真实性标签计算的。
使用了基于点的二分类准确率，召回率和Sklearn的F1分数。在任何评估之前，根据特征的实际长度消除零填充。

实验测试表明使用real 1fake 0标签的效果更好，而且提出的模型复杂度更低。
贡献点：

提出TDL方法，一种适用于PartialSpoof场景的高效的ADD方法，该方法结合了嵌入相似性模块和时间卷积操作，可以有效地捕获特征和位置信息。
提出的方法在ASV spoof 2019PartialSpoof数据集上优于基线模型，即使在跨数据集实验中也表现出优越的性能。