1、Llama3 中文化数据集
简介:Llama3 中文化数据集是为了提高Llama3模型在中文语境下的表现而专门设计和准备的数据集。数据集被处理成firefly格式,这意味着它们可以直接用于firefly框架的训练过程。数据集包含了清洗处理后的合并文件,如sft_zh_with_all.jsonl,它包含了约169万条过滤后的问答数据。提供了多种下载方法,包括使用SDK和GIT克隆。SDK方法允许用户通过几行代码快速下载所需的数据集,而GIT方法则适用于希望直接从源代码仓库克隆数据集的用户。
下载链接: https://github.com/CrazyBoyM/llama3-Chinese-chat
2、中文语音识别Aishell-1学术数据集
简介:希尔贝壳中文普通话开源语音数据库AISHELL-ASR0009-OS1录音时长178小时,是希尔贝壳中文普通话语音数据库AISHELL-ASR0009的一部分。AISHELL-ASR0009录音文本涉及智能家居、无人驾驶、工业生产等11个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16-bit);Android系统手机(16kHz,16-bit);iOS系统手机(16kHz,16-bit)。高保真麦克风录制的音频降采样为16kHz,用于制作AISHELL-ASR0009-OS1。400名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注,并通过严格质量检验,此数据库文本正确率在95%以上。分为训练集、开发集、测试集。
下载链接:openslr.org
3、MagicData-RAMC :180小时中文对话式语音数据集
简介:Magic Data 联合中科院声学研究所、上海交通大学和西北工业大学共同开源的中文对话式语音数据集。MagicData-RAMC 数据集包含了180小时的对话式语音数据,这些数据由普通话母语者通过移动电话录制,采样率为16 kHz。
- 对话内容:数据集包含351组多轮普通话对话,每组对话的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息和话题信息。
- 说话人信息:数据集中共有663位说话人参与,其中男性368人、女性295人,来自中国不同地区,以确保性别和地域分布的均衡性。
- 话题多样性:对话内容覆盖了15个不同的领域,话题丰富多样,从科学技术到日常生活等。
- 数据收集环境:所有录音均在室内环境中进行,声学环境为不足20平米的房间,混响时间(RT60)小于0.4秒,环境噪音水平低于40dB(A)。
- 数据标注:转录文本由专业人员手动标注并校对,标注信息非常丰富,包括非语言信息如笑声、音乐声、噪声等,以及犹豫、重复等语言不流畅现象。
- 数据集划分:数据集被划分为150小时的训练集、10小时的开发集和20小时的测试集,以支持不同的研究和开发需求。
下载链接: ASR-RAMC-BigCCSC: A Chinese Conversational Speech Corpus - MagicHub
4、Common Voice
简介:Mozilla 基金会发起的 Common Voice 项目,发布新版语音识别数据集,包括来自 42000 名贡献者,超过 1400 小时的语音样本数据,涵盖包括英语、法语、德语、荷兰语、汉语在内的 18 种语言。数据集中的每一条都包含了一组独立 MP3 录音及相应的文本文件。数据集所记录的 26,119 小时的录音中 ,有许多条数据同时包含了年龄、性别、口音等人口统计元数据 ,能够训练语音识别 引擎提升其准确性。
下载链接: Common Voice
5、CMU Wilderness Multilingual Speech Dataset
简介:CMU野外多语言语音数据集是一个包含700多种不同语言的数据集 ,提供音频、对齐文本和 单词发音。平均每种语言提供大约20小时的句子长度转录。
下载链接:Wilderness Multilingual Speech Dataset
6、KeSpeech
简介:该数据集涉及中国34个城市的27237名发言者记录的1542小时语音信号 ,语音包括标准普通话及其8个方言。
- 数据集提供了多个标签 ,包括内容转录、说话人身份和子标签 ,因此支持多种语音处理任务 ,如语音识别、说话人识别和子标签识别 ,以及其他高级技术 ,如多任务学习和条件学习。
- 一些文本样本是用标准普通话和特定的子词典并行记录的,允许新的应用,如子词典风格转换。
- 演讲者的数量比其他开源数据集大得多 ,这使得它适合于需要大量演讲者提供训练数据的任务。
- 语音信号被分为两个阶段记录 ,这为研究人 类语音的时变特性提供了机会。
下载链接:https://github.com/KeSpeech/KeSpeech
7、GigaSpeech
简介:GigaSpeech是一个不断发展的多域英语语音识别语料库 ,具有10000小时的高质量标记音频 ,适合于监督训练 ,40000小时的总音频 ,适合半监督和无监督训练。首先从有声读物、播客和 YouTube上收集了约40000小时的转录音频 ,涵盖阅读和自发说话风格 ,以及各种主题 ,如艺术、 科学、体育等 ,并过滤出具有低质量转录的片段。
下载链接:https://github.com/SpeechColab/GigaSpeech
8、Free ST Chinese Mandarin Corpus
简介:这个语料库是用手机在室内安静的环境中录制的。 它有855个speakers。每个演讲者有120个话语。所有的话语都经过人仔细的转录和核对保证转录精度。语料库包含: 1、音频文件;2、转录;3、元数据。
下载链接:http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz