音频数据集大全（1）-语音识别篇

1、Llama3 中文化数据集

简介：Llama3 中文化数据集是为了提高Llama3模型在中文语境下的表现而专门设计和准备的数据集。数据集被处理成firefly格式，这意味着它们可以直接用于firefly框架的训练过程。数据集包含了清洗处理后的合并文件，如sft_zh_with_all.jsonl，它包含了约169万条过滤后的问答数据。提供了多种下载方法，包括使用SDK和GIT克隆。SDK方法允许用户通过几行代码快速下载所需的数据集，而GIT方法则适用于希望直接从源代码仓库克隆数据集的用户。

下载链接： https://github.com/CrazyBoyM/llama3-Chinese-chat

2、中文语音识别Aishell-1学术数据集

简介：希尔贝壳中文普通话开源语音数据库AISHELL-ASR0009-OS1录音时长178小时，是希尔贝壳中文普通话语音数据库AISHELL-ASR0009的一部分。AISHELL-ASR0009录音文本涉及智能家居、无人驾驶、工业生产等11个领域。录制过程在安静室内环境中，同时使用3种不同设备：高保真麦克风（44.1kHz，16-bit）；Android系统手机（16kHz，16-bit）；iOS系统手机（16kHz，16-bit）。高保真麦克风录制的音频降采样为16kHz，用于制作AISHELL-ASR0009-OS1。400名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注，并通过严格质量检验，此数据库文本正确率在95%以上。分为训练集、开发集、测试集。

下载链接：openslr.org

3、MagicData-RAMC :180小时中文对话式语音数据集

简介：Magic Data 联合中科院声学研究所、上海交通大学和西北工业大学共同开源的中文对话式语音数据集。MagicData-RAMC 数据集包含了180小时的对话式语音数据，这些数据由普通话母语者通过移动电话录制，采样率为16 kHz。

对话内容：数据集包含351组多轮普通话对话，每组对话的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息和话题信息。
说话人信息：数据集中共有663位说话人参与，其中男性368人、女性295人，来自中国不同地区，以确保性别和地域分布的均衡性。
话题多样性：对话内容覆盖了15个不同的领域，话题丰富多样，从科学技术到日常生活等。
数据收集环境：所有录音均在室内环境中进行，声学环境为不足20平米的房间，混响时间（RT60）小于0.4秒，环境噪音水平低于40dB(A)。
数据标注：转录文本由专业人员手动标注并校对，标注信息非常丰富，包括非语言信息如笑声、音乐声、噪声等，以及犹豫、重复等语言不流畅现象。
数据集划分：数据集被划分为150小时的训练集、10小时的开发集和20小时的测试集，以支持不同的研究和开发需求。

下载链接： ASR-RAMC-BigCCSC: A Chinese Conversational Speech Corpus - MagicHub

4、Common Voice

简介：Mozilla 基金会发起的 Common Voice 项目，发布新版语音识别数据集，包括来自 42000 名贡献者，超过 1400 小时的语音样本数据，涵盖包括英语、法语、德语、荷兰语、汉语在内的 18 种语言。数据集中的每一条都包含了一组独立 MP3 录音及相应的文本文件。数据集所记录的 26,119 小时的录音中，有许多条数据同时包含了年龄、性别、口音等人口统计元数据，能够训练语音识别引擎提升其准确性。

下载链接： Common Voice

5、CMU Wilderness Multilingual Speech Dataset

简介：CMU野外多语言语音数据集是一个包含700多种不同语言的数据集，提供音频、对齐文本和单词发音。平均每种语言提供大约20小时的句子长度转录。

下载链接：Wilderness Multilingual Speech Dataset

6、KeSpeech

简介：该数据集涉及中国34个城市的27237名发言者记录的1542小时语音信号，语音包括标准普通话及其8个方言。

数据集提供了多个标签，包括内容转录、说话人身份和子标签，因此支持多种语音处理任务，如语音识别、说话人识别和子标签识别，以及其他高级技术，如多任务学习和条件学习。
一些文本样本是用标准普通话和特定的子词典并行记录的，允许新的应用，如子词典风格转换。
演讲者的数量比其他开源数据集大得多，这使得它适合于需要大量演讲者提供训练数据的任务。
语音信号被分为两个阶段记录，这为研究人类语音的时变特性提供了机会。

下载链接：https://github.com/KeSpeech/KeSpeech

7、GigaSpeech

简介：GigaSpeech是一个不断发展的多域英语语音识别语料库，具有10000小时的高质量标记音频，适合于监督训练，40000小时的总音频，适合半监督和无监督训练。首先从有声读物、播客和 YouTube上收集了约40000小时的转录音频，涵盖阅读和自发说话风格，以及各种主题，如艺术、科学、体育等，并过滤出具有低质量转录的片段。

下载链接：https://github.com/SpeechColab/GigaSpeech

8、Free ST Chinese Mandarin Corpus

简介：这个语料库是用手机在室内安静的环境中录制的。它有855个speakers。每个演讲者有120个话语。所有的话语都经过人仔细的转录和核对保证转录精度。语料库包含： 1、音频文件；2、转录；3、元数据。

下载链接：http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz