中文语音识别开源数据整理

最近尝试做离线的通用语音识别相关实验，收集了一些数据集，整理如下。所有都验证过可以获取，或者曾经可以获取。有一些也没有找到比如 AIDATATANG_1505ZH。

因为想做通用识别，所以跳过了一些特殊的指令录制数据集。

因为偷懒，跳过了一些数据量稍微小一些的数据集。比如 Speechocean，还有 magichub 的若干。

可以更新的平台后续继续更新，不能的就不更新了。

感谢开源～～～

新开了个公众号，欢迎关注：

公众号：小异https://mp.weixin.qq.com/s/q5NvIy6lQpaP8whMlb0VCg知乎：

知乎https://zhuanlan.zhihu.com/p/1924803142274520731

转载声明：本文所整理的数据集信息均来源于网络公开渠道，仅作学习交流使用。若涉及版权问题，请联系我及时处理。转载需作者同意。

通用

WeNet

主要由音视频资料通过数据筛选方式获取，约 10000 小时，已知最大的中文开源数据集。
链接：WeNet 官网

AISHELL 1

希尔贝壳中文普通话开源语音数据库 AISHELL - ASR0009 - OS1，录音时长 178 小时，是 AISHELL - ASR0009 的一部分。
录音文本涉及智能家居、无人驾驶、工业生产等 11 个领域。
录制环境为安静室内，使用 3 种不同设备：高保真麦克风（44.1kHz，16 - bit）、Android 系统手机（16kHz，16 - bit）、iOS 系统手机（16kHz，16 - bit），高保真麦克风录制的音频降采样为 16kHz 用于制作该数据集。
400 名来自中国不同口音区域的发言人参与录制，文本正确率在 95% 以上，分为训练集、开发集、测试集。
链接：OpenSLR - AISHELL 1

AISHELL 2 （需要申请）

希尔贝壳中文普通话语音数据库 AISHELL - 2 的语音时长为 1000 小时，其中 718 小时来自 AISHELL - ASR0009 - $ZH - CN$ ，282 小时来自 AISHELL - ASR0010 - $ZH - CN$ 。
录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等 12 个领域。
录制环境为安静室内，使用 3 种不同设备：高保真麦克风（44.1kHz，16bit）、Android 系统手机（16kHz，16bit）、iOS 系统手机（16kHz，16bit），采用 iOS 系统手机录制的语音数据。
1991 名来自中国不同口音区域的发言人参与录制，文本正确率在 96% 以上，支持学术研究，未经允许禁止商用。
链接：AISHELL 2 官网

AISHELL - 4 多通道中文会议语音数据库

是一个通过麦克风阵列实录的八通道中文普通话会议场景语音数据集，共包含 211 场会议，每场会议 4 至 8 人，约 120 小时。
旨在促进实际应用场景下多说话人处理的研究，数据包括实际会议场景下各种重要特性，如停顿、重叠、说话人轮转、噪声等，同时提供准确的音字转写文本及时间戳信息。
链接：OpenSLR - AISHELL - 4

AISHELL - 5 智能驾舱语音交互数据集

在一辆混合动力汽车内录制，汽车四扇车门的门把手上方放置远场麦克风捕捉远场音频，每位说话者佩戴高保真麦克风收集近场音频用于数据标注。
260 名无明显口音的参与者参与录制，2 至 4 名说话者随机坐在车内四个位置进行无内容限制的自由交谈，每次录制平均时长 10 分钟，语音数据的文本脚本以 TextGrid 格式准备。
为涵盖真实车内场景噪声，精心设计录制场景，包括不同驾驶路段、车窗开启程度、车速、车内设备档位等，共有 60 多种录制场景。
链接：OpenSLR - AISHELL - 5

AISHELL RealMAN (需要申请)

用于动态语音增强与定位的多通道麦克风阵列数据集，采用 32 通道阵列进行录制，使用扬声器播放源语音信号。
在 32 种不同场景下录制了 83 小时语音信号（静态说话者 48 小时，移动说话者 35 小时），在 31 种不同场景下录制了 144 小时背景噪声，语音和噪声录制场景涵盖常见室内、室外、半室外及交通环境。
扬声器的方位角通过全向鱼眼摄像头标注用于源定位网络训练，使用估计的直达路径传播滤波器对播放语音信号滤波得到直达路径信号用于语音增强网络训练。
链接：AISHELL RealMAN 官网

THCHS - 30

由清华大学语音与语言技术中心（CSLT）发布的开放式汉语语音数据库，原始录音于 2002 年完成，时隔 13 年出版。
希望为语音识别领域新研究人员提供玩具数据库，对学术用户完全免费，包含建立中文语音识别所需的全套语音和语言资源系统。
链接：OpenSLR - THCHS - 30

Primewords Chinese Corpus Set 1

100 小时数据，296 名说话者用智能手机录制，转录准确率 > 98%。
链接：OpenSLR - Primewords

MAGICDATA Mandarin Chinese Read Speech Corpus

755 小时数据，1080 名说话者，录音文本覆盖互动问答、音乐搜索等场景，分为训练集、验证集和测试集（比例 51:1:2），转录准确率 > 98%，免费用于学术用途。
链接：OpenSLR - MAGICDATA

Aidatatang_200zh （需要申请）

200 小时电话语音库，600 名说话者，录音环境含轻微背景噪音，转录准确率 > 98%。
链接：OpenSLR - Aidatatang_200zh

commonvoice 中文部分

由 Mozilla 基金会发起的开源语音数据集项目，自 2017 年启动，已积累超过 90 万志愿者贡献的 31,000 小时语音数据，覆盖约 180 种语言，通过 MPL 协议向公众免费开放使用。
链接：Common Voice 官网

ASR - RAMC - BigCCSC: A Chinese Conversational Speech Corpus

包含由 663 名说话者贡献的 180 小时带转录文本的普通话自然对话语音。
链接：MagiHub - ASR - RAMC - BigCCSC

Free ST Chinese Mandarin Corpus

该语料库在安静的室内环境中使用手机录制，共有 855 名说话者参与，每位说话者录制了 120 段语音。
所有语音均经过人工精心转录和校对，确保转录准确性，如发现任何问题，将负责修正。
引用此数据时，请注明为：「ST - CMDS - 20170001_1，免费中文普通话语料库（Free ST Chinese Mandarin Corpus）」。
本数据集是更大规模数据集的子集，该大规模数据集与本开源数据集在同一环境下录制，详情请访问网站：Surfing AI
链接：OpenSLR - Free ST Chinese Mandarin Corpus

KeSpeech

八种方言的语音数据集，包含了来自 34 个城市的 27,237 名说话者录制的音频数据，总时长达到 1,542 小时。

链接：KeSpeech

中英混合开源语料

TALCS

由好未来教育集团创建的开放源代码的中英混合语音识别语料库，包含约 587 小时的 16kHz 采样语音数据。
来源于真实的在线一对一英语教学场景，涵盖大量中英混合语音样本，适用于训练和评估混合语言语音识别系统，分为训练集、开发集和测试集。
目前已经从好未来开源官方下掉了。

特殊发音数据库

ASR - CStrMAcstCSC: A Chinese Strong Mandarin Accent Conversational Speech Corpus

采用知识共享署名 - 非商业性使用 - 禁止演绎 4.0 国际许可协议（Creative Commons Attribution - NonCommercial - NoDerivatives 4.0 International License）。
58.78 小时强口音普通话对话语音数据集，适用于自动语音识别合成，共收录 20 名男性与 21 名女性（年龄 16 - 42 岁）的 138 段语音。
链接：MagiHub - ASR - CStrMAcstCSC

AISHELL - Stammertalk 中文口吃数据库

链接：AISHELL - Stammertalk 官网

AISHELL - MDSC 中文构音障碍数据库

链接：MDSC 中文构音障碍数据库