中文连续视觉语音识别挑战赛

视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。特别是对于中文而言,由于缺乏相应的数据资源,该领域的研究进展受到了限制。为此,清华大学在2023年发布了CN-CVS数据集,成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。

为推动这一研究方向的发展,**由清华大学、北京邮电大学、海天瑞声、语音之家联合举办2023 NCMMSC特殊议题:中文连续视觉语音识别挑战赛(CNVSRC, Chinese Continuous Visual Speech Recognition Challenge)正式对外发布。**本次赛事以 CN-CVS 中文视觉语音识别数据库为基础数据,评估在录音室朗读 (Reading) 和网络演讲 (Speech) 两类场景下的 LVCVSR 系统的性能。比赛结果将在 NCMMSC 2023 会议上宣布并颁奖。

任务设置

CNVSRC 2023 共设有两个任务:

  • T1:特定说话人视觉语音识别 (Single-speaker VSR)

  • T2:多个说话人视觉语音识别 (Multi-speaker VSR)

前者侧重于针对某一特定说话人进行大量数据调优后的性能,后者侧重于系统对非特定说话人的基础性能。每个任务根据训练数据不同,又分为固定赛道 (Fixed Track) 和开放赛道 (Open Track)。

固定赛道仅允许使用 CN-CVS 数据集即各任务发布的开发集作为训练集,旨在验证算法的先进性。开放赛道则可以使用任何数据进行训练,旨在验证当前技术能够达到的性能上限。清华大学将提供固定赛道上的基线系统代码,供参赛者作为参考。

数据集

CN-CVS: CN-CVS包含2557名说话人超过300小时的音视频数据,覆盖新闻播报与公开演讲场景,是目前最大的开源中文音视频数据集。主办方为本次竞赛提供了该数据库的文本标注。更多关于CN-CVS的信息请访问数据库官网CN-Celeb。该数据集作为本次竞赛闭集任务的训练集。

CNVSRC-Single: CNVSRC2023单人大数据。包含一名说话人超过100小时的音视频数据,数据来源于网络视频,其中十分之九的数据构成开发集,剩余十分之一的数据作为测试集。

CNVSRC-Multi: CNVSRC2023多人限量数据。包含43名说话人的音视频数据,每人的数据量接近1小时,其中每个人的三分之二数据构成开发集,剩余数据构成测试集。其中23名说话人的数据来源于受控环境下朗读固定机位录制,且单条数据时长相对较短。另20名说话人的数据来源于网络的演讲视频,单条数据时长较长,环境和内容较为复杂。

对于训练集和开发集,主办方提供音频、视频和对应的转录文本;对于测试集,则仅提供视频数据。参赛者不得以任何方式使用测试集,包括但不限于使用测试集帮助模型训练或者微调等。

|--------------|-------------|--------------|-------------|--------------|
| 数据集 | CNVSRC-Single || CNVSRC-Multi ||
| 数据集 | 开发集 Dev | 测试集 Eval | 开发集 Dev | 测试集 Eval |
| 视频条数 | 25947 | 2881 | 20450 | 10269 |
| 视频时长(小时) | 94.00 | 8.41 | 29.24 | 14.49 |

参赛方式

参赛者需在CNCeleb官网上注册CNVSRC账号

请访问如下网址进行注册: CN-Celeb

注册以后,用户可以依据提示下载数据资源(CN-CVS, CNVSRC-Single, CNVSRC-Multi)。

CNVSRC 2023 以字错误率(Character Error Rate, CER)为评测准则。结果提交时,参赛者需要登录CNVSRC账号,进入CNVSRC 2023结果提交页面,选择对应的任务和赛道,提交结果文件。结果文件中每一行对应一条测试视频,以该视频的ID开始,后接对应的转录文本。内容提交后,系统自动计算CER并显示给参赛者。对每个任务每个赛道,参赛者有5次提交机会。

基线系统

主办方提供了固定赛道条件下多说话人和特定说话人两个任务的基线系统供。该基线系统采用基于Conformer的结构,模型性能如下。

|---------------------|------------------------|-----------------------|
| Task | Single-speaker VSR | Multi-speaker VSR |
| CER on Dev Set | 48.57% | 58.77% |
| CER on Eval Set | 48.60% | 58.37% |

参赛者可以通过下面网址获得基线系统的代码:https://github.com/MKT-Dataoceanai/CNVSRC2023Baseline

赛程安排

2023/09/20 开启报名,训练数据集、开发数据集、基线系统发布

2023/10/10 测试数据集发布

2023/11/01 提交系统开放

2023/12/01 晚12点 提交结果截止

2023/12/09 NCMMSC 2023 Workshop,公布成绩、优秀竞赛方案分享

组委会

复制代码
· DONG WANG, Center for Speech and Language Technologies, Tsinghua University, China
· CHEN CHEN, Center for Speech and Language Technologies, Tsinghua University, China 
· LANTIAN LI, Beijing University of Posts and Telecommunications, China
· KE LI, Beijing Haitian Ruisheng Science Technology Ltd., China
· HUI BU, Beijing AIShell Technology Co. Ltd, China

报名传送门

2023 中文连续视觉语音识别挑战赛

Chinese Continuous Visual Speech Recognition Challenge 2023

Step1. 注册CNVSRC账号

CN-Celeb

*注册后可下载数据资源:CN-CVS, CNVSRC-Single, CNVSRC-Multi

Step2. 基线系统代码

https://github.com/MKT-Dataoceanai/CNVSRC2023Baseline

CNVSRC 2023 Website

++CN-Celeb++

相关推荐
蕤葳-1 分钟前
深度解析:基于AI人才标准,为职场新人规划一级与二级认证的报考路径
人工智能
只与明月听1 分钟前
RAG深入学习之向量数据库
前端·人工智能·python
月诸清酒4 分钟前
别让你的 Coding Agent 瞎忙活,你最缺的可能是这套 Harness 规则
人工智能
极客老王说Agent5 分钟前
别被OpenClaw的30万Star晃了眼!AI产业逻辑重写后,打工人更该看清谁在“真干活”
人工智能·ai·chatgpt
Bruce20489986 分钟前
OpenClaw 零基础全解析(小白友好版)
人工智能·chatgpt
Bruce204899830 分钟前
OpenClaw 自定义Skill插件开发全流程(2026最新版)
人工智能
TengTaiTech33 分钟前
从航空级混音到AI协同指挥:基于QCC5181与大模型打造新一代智能耳机
人工智能·qcc·混音
水如烟37 分钟前
孤能子视角:关系枢纽与大模型
人工智能
ZiLing40 分钟前
做 AI Agent Runtime 半年后,我发现它根本不是“会调用工具的 LLM”
人工智能·agent
南湖北漠41 分钟前
听说拍照的人会拿相似的鱼皮豆代替野生鹌鹑蛋拍照(防原创)
网络·人工智能·计算机网络·生活