视觉语音识别挑战赛 CNVSRC 2024

CNVSRC 2024由NCMMSC 2024组委会发起,清华大学、北京邮电大学、海天瑞声、语音之家共同主办。竞赛的目标是**++++通过口唇动作来推断发音内容++++** ,进一步推动视觉语音识别技术的发展。视觉语音识别(也称为读唇技术)是一种通过观察唇部动作推断发音内容的技术,广泛应用于公共安全、辅助老年人和残疾人以及假视频检测等领域。

当前,++++读唇研究仍处于初级阶段,无法满足实际应用需求++++ 。尽管在短语识别上取得了显著进展,但在大规模连续识别方面仍面临巨大挑战,尤其是中文的研究进展因缺乏相关数据资源而受到很大限制。

1、挑战任务

单说话人视觉语音识别 (Single-speaker VSR, T1):专注于对特定说话人大规模调整的性能。

  • 固定赛道只允许使用组委会允许的数据和其他资源。
  • 开放赛道可以使用任何资源,但不能使用评估集。

多说话人视觉语音识别 (Multi-speaker VSR, T2):专注于系统对非特定说话人的基本性能。

  • 固定赛道只允许使用组委会允许的数据和其他资源。
  • 开放赛道可以使用任何资源,但不能使用评估集。

2、挑战数据集

  • CN-CVS:2023年,清华大学的CSLT(Center for Speech and Language Technologies)发布了CN-CVS数据集,包含超过2557名说话者的视觉语音数据,超过300小时,涵盖新闻广播和公共演讲场景,是目前最大的开源中文视觉语音数据集,为推动大规模连续视觉语音识别(LVCVSR)提供了可能性。
  • CNVSRC-Single:单说话者数据,包含来自互联网媒体的音频和视频数据,超过100小时。
  • CNVSRC-Multi:多说话者数据,包含43名说话者的音频和视频数据,每人近1小时。
  • CN-CVS2-P1:开放式赛道的额外数据源,提供超过16万句话语,总时长约200小时。

3、评估指标

CNVSRC 2024使用字符错误率(Character Error Rate, CER)作为主要评价指标。

CER主要由三种类型的错误组成:插入(Insertion)、替代(Substitution)和删除(Deletion),Nins、Nsubs、Ndel代表三种类型的错误数量,Ntotal代表错误总数量。

  • 插入错误发生在正确的字符之间不应该有任何字符,但实际上却出现了一个额外的字符。
  • 替代错误是指正确的字符被错误地替换为另一个字符。
  • 删除错误发生在一个字符应该存在的地方,但是却没有该字符。

4、基线系统性能

基线系统旨在提供一个合理的性能基准,使用与固定赛道(Fixed Track)允许的数据资源相同的数据集构建。基线系统采用Conformer结构作为主要的构建块。Conformer是一种流行的神经网络架构,结合了卷积神经网络(CNN)和循环神经网络(RNN)的优点,常用于语音识别任务。

基线系统的性能通过字符错误率(CER)来衡量,这是评估视觉语音识别系统的主要指标。

  • 在固定赛道的单说话者视觉语音识别(VSR)任务上,基线系统在开发集(Dev Set)上的CER为41.22%,在评估集(Eval Set)上的CER为39.66%。
  • 在多说话者视觉语音识别任务上,基线系统在开发集上的CER为52.42%,在评估集上的CER为52.20%。

5、如何降低字符错误率(CER)并提高视觉语音识别(VSR)的准确率

  • 改进特征提取:利用更有效的视觉特征提取技术,如3D卷积、自注意力机制等,以获取更丰富的时空信息。
  • 增加训练数据量:利用数据增强技术如裁剪、旋转、缩放等来扩展训练数据集,同时收集更多高质量的训练数据。
  • 引入语言模型:使用N-gram或RNN语言模型,以约束解码器输出合理的单词序列。
  • 使用预训练模型:在固定赛道中,可以利用预训练的声学模型和语言模型作为特征提取器。
  • 改进解码器:尝试使用集束搜索或基于注意力机制的解码器,以提高解码质量。
  • 模型融合:使用集成学习技术,如模型平均或堆叠,以提高整体性能。
  • 数据清洗和增强:对训练数据进行清洗,去除质量较差的样本,并进行增强以提高模型的泛化能力。
  • 微调和调优:在测试集上进行模型调优,找到最优的模型参数配置。
  • 研究注意力机制:设计新的注意力机制,以使模型更关注关键信息,如嘴唇区域。
  • 使用端到端训练:通过端到端训练,使模型各部分能更好地协同工作。

6、关键日期

|------------|-----------------|
| 2024.05.08 | 注册开始 |
| 2024.05.08 | 数据集发布 |
| 2024.05.08 | 基线系统发布 |
| 2024.07.01 | 递交系统开放 |
| 2024.08.01 | 结果递交截止 |
| 2024.08.15 | NCMMSC 2024 研讨会 |

7、相关资源

官网:http://cnceleb.org/competition#registration

基线系统源代码:Files · cncvs · Lantian Li / Sunine · GitLab

相关推荐
Shawn_Shawn2 小时前
mcp学习笔记(一)-mcp核心概念梳理
人工智能·llm·mcp
技术路上的探险家3 小时前
8 卡 V100 服务器:基于 vLLM 的 Qwen 大模型高效部署实战
运维·服务器·语言模型
33三 三like4 小时前
《基于知识图谱和智能推荐的养老志愿服务系统》开发日志
人工智能·知识图谱
芝士爱知识a4 小时前
【工具推荐】2026公考App横向评测:粉笔、华图与智蛙面试App功能对比
人工智能·软件推荐·ai教育·结构化面试·公考app·智蛙面试app·公考上岸
腾讯云开发者5 小时前
港科大熊辉|AI时代的职场新坐标——为什么你应该去“数据稀疏“的地方?
人工智能
工程师老罗5 小时前
YoloV1数据集格式转换,VOC XML→YOLOv1张量
xml·人工智能·yolo
win4r5 小时前
🚀OpenClaw高级使用经验分享!2026年最强生产力!五分钟打造多Agent协作编程开发团队!模型容灾机制深度配置+云端Gateway操控本地macOS!
aigc·openai·ai编程
Coder_Boy_5 小时前
技术让开发更轻松的底层矛盾
java·大数据·数据库·人工智能·深度学习
啊森要自信6 小时前
CANN ops-cv:面向计算机视觉的 AI 硬件端高效算子库核心架构与开发逻辑
人工智能·计算机视觉·架构·cann