基于多模态信息的语音处理(misp) 2023挑战:视听目标说话人提取

THE MULTIMODAL INFORMATION BASED SPEECH PROCESSING (MISP) 2023

CHALLENGE: AUDIO-VISUAL TARGET SPEAKER EXTRACTION

第二章 目标说话人提取之《基于多模态信息的语音处理(misp) 2023挑战:视听目标说话人提取》


文章目录


前言

语音新手入门,学习读懂论文。

本文作者机构是中国科学技术大学,卡内基梅隆大学,西北工业大学,科大讯飞


一、任务

提出了MISP 2023挑战赛,旨在通过使用MISP语料库的AVTSE系统提高后端ASR系统在实际场景中的准确性。具体而言,我们将使用预训练的ASR模型对AVTSE系统的语音输出进行解码,并以字符错误率(CER)作为评估指标。

二、动机

最近,神经科学的研究表明,包括面部和嘴唇运动在内的视觉模态可以显著影响人类的听觉注意,通过提供关于说话人的额外信息来增强语音感知,特别是在嘈杂的环境中。

三、挑战

现实场景中获取预注册音频的挑战,多个扬声器之间声学特征的潜在相似性,以及存在明显的噪声干扰。

当前的挑战有两个主要问题。首先,评价数据要么是在清洁语音中加入单一类型的噪声或干扰语音得到的模拟数据,要么是在真实场景中记录的,但说话者只是阅读特定的句子或单词排列。然而,在现实生活场景中,人们的对话通常没有特定的主题,并且他们遇到复杂的声学环境,其中包含多种类型的噪音,混响和其他扬声器的干扰,这可能导致模拟与现实之间的不匹配。其次,这些挑战通常使用深度噪声抑制平均意见评分(DNSMOS)、短时客观可理解度(STOI)和语音质量感知评价(PESQ)等指标来评估语音质量,或邀请工作人员根据他们的实际听力体验进行评分。

四、方法

1.

MISP语料库[19]侧重于真实的家庭电视场景:2-6人相互通信,背景是电视噪声和混响。在这种情况下,说话者在没有特定话题的情况下进行自发的对话,由于语言的重叠和多样性,这给谈话带来了挑战。此外,在某些会议中,来自电视的强烈背景噪声存在,其中可能播放电视节目,如戏剧,新闻,音乐和采访,进一步加剧了复杂性,特别是对于前端系统。

从包含多个说话人的重叠声音和背景噪声的录音中提取目标说话人的讲话。在一个会话中,每个演讲者依次被视为目标演讲者。我们还会提供oracle diarization的结果

2.基线模型

多模态嵌入感知语音增强(MEASE),该模型在视听语音增强(AVSE)领域实现了"SOTA"。利用oracle diarization结果对6声道混合音频进行引导源分离(guided source separation, GSS)。以初步减轻重叠语音的影响。然后使用MEASE模型进一步提取目标说话人的语音。

MEASE模型包括一个多模态嵌入提取器(红色虚线框)和一个嵌入感知增强网络。

首先从GSS的音频输出中提取FBANK特征和噪声对数功率谱(LPS)特征。随后,我们使用预训练的嵌入提取器从目标说话人的FBANK (AFBANK)和唇帧(V)中获得深度嵌入。

ReLu(·)、BN(·)和MP3D(·)分别代表ReLu激活层、批归一化层和时空最大池化层。

3. 基线系统两阶段训练

首先,以LMSE为损失函数,利用模拟数据训练MEASE模型;然而,这种训练方法由于没有考虑后端识别任务,不可避免地会导致提取的语音产生一定程度的失真,从而影响识别系统的准确性。因此,在第二阶段,作者使用识别后端对预训练的MEASE模型进行微调。作者在第二阶段使用了来自训练集的真实远场数据。

X和Y分别表示编码器输出和目标序列。λ是CTC损失与注意交叉熵(attention cross entropy, CE)损失之间的权重因子。

4.

五、实验评价

1.数据集

使用MISP 2021挑战的AVSR语料库训练集,持续时间为106.09小时,包括21个房间和200个扬声器。

2.消融实验

3.客观评价

S, D, I表示替换,删除和插入的数量。N是基本真理中的字符数。

DNSMOS:深度噪声抑制平均意见评分

AEASE是MEASE的简化版本,因为它不利用视觉形式。

GSS+MEASE+Finetune"的结果作为我们最终的基线结果。

4.主观评价


六、结论

我们提供了MISP 2023挑战的数据集,任务设置和基线系统的详细描述,这是AVTSE任务的第一个基准。我们还对基线实验结果进行了深入分析,强调AVTSE任务在现实场景中仍然具有重要的研究潜力。未来,我们计划探索AVTSE系统在长录音情况下的解决方案,并结合主观听力测试,进一步研究真实语音听觉质量与后端任务性能之间的关系。

七、知识小结

相关推荐
pzx_00130 分钟前
【深度学习】神经网络灾难性遗忘(Catastrophic Forgetting,CF)问题
人工智能·深度学习·神经网络·集成学习
玄明Hanko1 小时前
开源LLM:开启DIY你的专属AI之路
人工智能·llm·开源ai模型
说私域1 小时前
仪式感在会员体系建设中的重要性及AI智能名片2+1链动模式S2B2C商城小程序的应用研究
人工智能·小程序
我不是千面1 小时前
视频超分(VSR)论文阅读记录/idea积累(一)
人工智能
feifeikon1 小时前
PyTorch DAY2: 搭建神经网络
人工智能·pytorch·神经网络
Zoran_卓2 小时前
使用飞桨基于PP-YOLOE-SOD的自定义数据集图像检测案例全流程实操
人工智能·目标检测·paddlepaddle
脚踏实地的大梦想家2 小时前
【机器学习】P1 机器学习绪论
人工智能·机器学习
小众AI2 小时前
Tabby - 开源的自托管 AI 编码助手
人工智能·开源·ai编程
驼同学.2 小时前
[Deep Learning] Anaconda+CUDA+CuDNN+Pytorch(GPU)环境配置-2025
人工智能·pytorch·深度学习
MichaelIp2 小时前
Pytorch基础教程:从零实现手写数字分类
人工智能·pytorch·python·深度学习·神经网络·机器学习·分类