在之前的研究中[Wang and Chen 2017; Wang et al. 2014],乘法掩模被观察到比其他选择更有效,比如直接预测频谱幅度或直接预测时域波形。在源分离文献中存在许多基于掩模的训练目标[Wang and Chen 2017],我们尝试了其中的两种:比率掩模(RM)和复数比率掩模(cRM)。
当使用比率掩模时,我们将预测的比率掩模和噪声频谱的幅度进行逐点乘法,然后与噪声原始相位一起进行逆短时傅里叶变换(ISTFT),得到去噪后的波形 [Wang and Chen 2017]。
复数理想比率掩模被定义为复数干净频谱和噪声频谱之间的比值。复数理想比率掩模有一个实部和一个虚部,这两部分在实域中分别进行估计。复数掩模的实部和虚部通常在-1和1之间,然而,我们使用sigmoid函数压缩将这些复数掩模值限制在0和1之间[Wang et al. 2016]。
所有音频数据都被重新采样为16kHz,并且立体声音频将通过仅使用左声道转换为单声道。使用长度为25毫秒的Hann窗口、10毫秒的跳跃长度和FFT大小为512计算STFT,从而得到一个 257 × 298 × 2 257\times298\times2 257×298×2个标量的输入音频特征。采用 p = 0.3 p=0.3 p=0.3( A 0.3 A^{0.3} A0.3,其中 A A A是输入/输出音频频谱图)进行幂律压缩。
在这里,我们考虑从两个说话者和非语音背景噪声的混合中隔离出一个说话者的声音的任务。据我们所知,这个音频-视觉任务之前还没有被解决过。训练数据是通过将两个不同说话者的干净语音(如2S clean任务所生成的)与 A u d i o S e t AudioSet AudioSet的背景噪声混合而成的:
M i x i = A V S j + A V S k + 0.3 ∗ A u d i o S e t l Mix_i=AVS_j+AVS_k+0.3*AudioSet_l Mixi=AVSj+AVSk+0.3∗AudioSetl
E = 10 ⋅ l o g ( S o r i g 2 ( S o c c − S o r i g ) 2 ) (1) E=10\cdot{log(\frac{{S_{orig}}^2}{(S_{occ}-S_{orig})^2})}\tag{1} E=10⋅log((Socc−Sorig)2Sorig2)(1)
E ~ = E m a x − E \tilde{E}=E_{max}−E E~=Emax−E
S D R : = 10 ⋅ log 10 ( ∣ ∣ S t a r g e t ∣ ∣ 2 ∣ ∣ e i n t e r f + e n o i s e + e a r t i f ∣ ∣ 2 ) (2) SDR:=10\cdot\log_{10}(\frac{||S_{target}||^{2}}{||e_{interf}+e_{noise}+e_ {artif}||^ {2}})\tag{2} SDR:=10⋅log10(∣∣einterf+enoise+eartif∣∣2∣∣Starget∣∣2)(2)
虚拟语音质量客观监听器(ViSQOL)是一种客观语音质量模型,由Hines等人[2015]提出。该指标使用参考(r)和降质(d)语音信号之间的谱时相似度测量来建模人类的语音质量感知,并基于Neurogram相似性指数测量(NSIM)[Hines和Harte 2012]。 NSIM的定义如下:
N S I M ( r , d ) = 2 μ r μ d + C 1 μ r 2 + μ d 2 + C 1 ⋅ σ r d + C 2 σ r σ d + C 2 (3) NSIM(r,d)=\frac{2\mu_{r}\mu_{d}+C_{1}}{\mu_{r}^{2}+\mu^{2}{d}+C{1}}\cdot\frac{\sigma {rd}+C{2}}{\sigma_{r}\sigma_{d}+C_{2}}\tag{3} NSIM(r,d)=μr2+μd2+C12μrμd+C1⋅σrσd+C2σrd+C2(3)
