用于目标说话人提取的统一视听线索

第二章 目标说话人提取之《Unified Audio Visual Cues for Target Speaker Extraction


文章目录


前言

语音新手入门,学习读懂论文。

本文作者机构是


一、任务

提出了一个统一的TSE网络,称为Uni-Net,它采用分而治之的策略将音频和嘴唇线索融合到不同的网络中,利用每个线索的独特信息。从各种线索中提取的语音作为先验信息,通过后处理网络进一步细化。

二、动机

语音注册的方法会面临一些问题,如年龄和情绪会改变说话人的声音特征。此外,由于混合物中相似的语音特性,性能也会下降。

三、挑战

音频线索反映了说话者独特的声音属性,而视觉线索与目标语音在时间上是同步的。此外,音频线索是时不变的,而视觉线索是时变的,导致两者之间的差异。因此,在混合语音的共享网络中集成音频和视觉线索并不是最佳选择。这些线索会相互干扰,严重阻碍了性能的提高。

四、方法

1.总体架构

提出的框架由三个部分组成:基于音频线索的提取子网(ACENet)、基于视觉线索的提取子网(VCENet)和后处理网络(PPNet)。

2.tes网络

对于视觉提取器,我们使用了一个3D卷积层,然后是一个18层的ResNet和一个时间卷积网络(TCN)。音频提取器采用长短期记忆(LSTM)单元和线性层的组合。

TCN包含一个卷积层、一个Relu激活层和一个层归一化层。

TF-GridNet开发了ACENet和VCENet,它们代表了最先进的语音分离性能。TF-GridNet在STFT域内训练,使用二维卷积和层归一化对复频谱进行编码。每个TF-Grid块包括三个主要模块:帧内频谱模块、子带时间模块和全带自注意模块。

帧内频谱模块将输入R (D×T ×F)解释为T个不同的序列在T上做,并部署BLSTM来捕获每帧的全频带和频谱信息。

子带时间模块将输入R D×T ×F视为F个单独的序列,利用BLSTM捕获每个频率内的时间动态。

全频带自注意模块中,输入被重塑为大小为T × (F × D)的表示,其中多头自注意被用于建模全局依赖关系。

3. 融合网络

实现了 in-place 卷积作为后处理网络,该架构包括三个主要组件:Inplace Encoder、Frequency-wise LSTM 和 Inplace Decoder。Inplace Encoder 和 Inplace Decoder 都采用了六层 in-place 卷积操作。in-place 卷积采用步幅为 1,从而保留了频谱细节,并促进了对通道间相关性的分析。

4.损失函数

使用尺度不变的信噪比(硅信噪比)[23]作为损失函数

五、实验评价

1.数据集

VoxCeleb2数据集,选择了48,000个包含800个说话者的话语进行训练,并从118个不同的说话者中选择了36,237个话语进行测试,确保两个集之间没有说话者重叠。 干扰语音与目标语音合并,使用随机的信噪比(SNR)在-10dB到10db之间变化。

2.消融实验

3.客观评价

作者 提出的框架显著优于SpeakerBeam,在SISNRi、SDRi、PESQ和STOI方面分别提高了1.72 dB、1.63 dB、0.46 dB和3.3%。

视觉线索被遮挡时,作者进一步评估了提出的框架和基线的鲁棒性。

不同遮挡程度下的对比。

4.主观评价


六、结论

作者提出了一个统一的目标说话人提取框架,以克服音频和视觉线索之间的冲突。具体来说,作者利用分而治之的方法,将音频和视觉线索集成到不同的子网中,以利用每个线索提供的独特信息。还引入了一种后处理网络,进一步提取目标语音并抑制干扰。实验证明,作者的网络架构与其他具有竞争力的基线相比,该方法具有优越的性能。

七、知识小结

相关推荐
AI人工智能+10 分钟前
应用俄文OCR技术,为跨语言交流与数字化管理提供更强大的支持
人工智能·ocr·文字识别
UQI-LIUWJ21 分钟前
李宏毅LLM笔记: AI Agent
人工智能·笔记
百度Geek说34 分钟前
百度阮瑜:百度大模型应用赋能产业智变|2025全球数字经济大会
人工智能
大明哥_38 分钟前
最新 Coze 教程:40+ 条视频涨粉 10W+,利用 Coze 工作流 + 视频组件,一键制作爆款小人国微景动画视频
人工智能·agent
SugarPPig1 小时前
ReAct (Reason and Act) OR 强化学习(Reinforcement Learning, RL)
人工智能
孤狼warrior1 小时前
灰色预测模型
人工智能·python·算法·数学建模
AI生存日记1 小时前
AI 行业早报:微软发布诊断工具,上海聚焦四大应用场景
人工智能·microsoft·机器学习·open ai大模型
求职小程序华东同舟求职1 小时前
龙旗科技社招校招入职测评25年北森笔试测评题库答题攻略
大数据·人工智能·科技
李元豪1 小时前
【行云流水ai笔记】粗粒度控制:推荐CTRL、GeDi 细粒度/多属性控制:推荐TOLE、GPT-4RL
人工智能·笔记
机器学习之心1 小时前
小波增强型KAN网络 + SHAP可解释性分析(Pytorch实现)
人工智能·pytorch·python·kan网络