波束形成器制导的目标说话人提取

第二章目标说话人提取之《BEAMFORMER-GUIDED TARGET SPEAKER EXTRACTION》

文章目录

波束形成器制导的目标说话人提取
前言
一、任务
二、动机
三、挑战
四、方法
- 1.基于注册语音的SCTSE
- 2.BG-TSE方法
- [3. 后端波束形成](#3. 后端波束形成)
- [4. 损失函数](#4. 损失函数)
五、实验评价
六、结论
七、知识小结

前言

语音新手入门，学习读懂论文。

本文作者机构是埃尔兰根国际音频实验室

一、任务

提出了一种波束形成器制导的目标说话人提取(BG-TSE)方法，从目标到达方向的多声道录音中提取目标说话人的声音。

二、动机

这项工作的动机是几项SC TSE研究，这些研究证明了在混合语音中辅助信号和目标语音之间具有对应关系的优势。

三、挑战

四、方法

1.基于注册语音的SCTSE

SC TSE的目标是从观测到的SC混合信号y(1)中，借助关于该目标的辅助信号恢复目标说话人的语音，该辅助信号表示为r。最近基于注册的SC TSE方法使用两个联合训练的网络:辅助网络和提取网络。辅助网络从注册话语中提取目标特定的特征，然后使用时间池化层对其进行聚合，从而得到一个基于话语的，维数为Nr的时不变(TI)说话人嵌入，

2.BG-TSE方法

这是对前面介绍的SC TSE系统的简单MC扩展。采用指向目标说话人方向的前端BF θS，前端BF输出然后用作SC TSE系统的辅助信号，作者删除了辅助网络中的最后一个时间池化层，以允许时变(TV)嵌入，K表示时间帧的数量。这样，SC TSE系统可以更好地利用混合信号中辅助信号即前端BF输出与目标语音之间的对应关系。

3. 后端波束形成

基于神经的TSE(和SS)方法通常会对输出信号失真，这被证明会降低下游任务的性能，为了缓解这个问题，一些工作已经证明了将TSE(或SS)与后端BF相结合的优势。

其核心思想是使用输出信号(或TF掩码)来计算频域后端BF(例如MVDR（最小方差无失真响应）)的scm（空间协方差矩阵）。

4. 损失函数

五、实验评价

1.数据集

使用了模拟的多声道，2说话人混合利用扩展版本的WHAMR!数据集，延长了WHAMR!生成脚本，以支持任意麦克风阵列几何形状，其原点位于WHAMR!中定义的双麦克风阵列的中心。

2.模型配置

所提出的方法由两个块组成，一个前端BF和一个SC TSE块。考虑了DSB(延迟和波束形成器)、超指令波束形成器(SDB)和最小功率无失真响应波束形成器(MPDR)作为前端BF。前端BF在短时傅里叶变换(STFT)域中实现，窗口大小为1024。本研究使用了两种SC基线:基于注册的TSE方法，即时域SpeakerBeam (TD-SpeakerBeam)，以及使用时域音频分离网络(TasNet)的SS方法。

此外，作者研究了将所提出的方法以及其他基线与频域后端MVDR BF相结合

3.客观评价

时空神经滤波器TSNF，在没有后端BF的情况下，我们可以观察到oracle-mask MVDR和本文方法之间的性能相当，而在有后端BF的情况下，本文方法获得了更好的分数，并缩小了与oracle-signal MVDR之间的差距

消声(A)、消声+噪声(AN)和混响+噪声(RN)，并与匹配的混响®条件进行比较。

错误DOA的影响:在本文方法和TSNF基线中，假设目标说话人的DOA是已知的。在这里，我们分析了两个系统在匹配混响条件®下对DOA输入误差的鲁棒性。两个扬声器之间的角距(AS)≥15◦时，可以看出两种方法对DOA误差都具有鲁棒性，并且所提方法的性能略优于TSNF。对于AS < 15◦，错误的DOA会导致两个系统的较差分数。这种行为是预期的，因为两个系统中的目标仅由DOA指定，当DOA误差更接近AS值时，系统倾向于提取更接近错误DOA的说话者。

4.主观评价

六、结论

我们介绍了一种BG-TSE方法，该方法由一个由前端BF导向目标说话人的SC TSE系统组成。

七、知识小结

波束形成（Beamforming）是一种利用阵列式传感器（如麦克风或天线）来聚焦或定向接收或发送信号的技术。通过对传感器接收到的信号进行合理的加权和相位调节，可以使系统在特定方向上获得增强的信号响应，从而实现信号的定向传输或接收。在未来的工作中，我们将探索以因果/块在线方式应用所提出方法的不同技术。