语音识别数据集

目录

[Voice Activity Detection](#Voice Activity Detection)

自己采集:

[1. ASR Resources(语音识别资源)](#1. ASR Resources(语音识别资源))

[2. LM Resources(语言模型资源)](#2. LM Resources(语言模型资源))

这是一个数据表:

噪声数据集:


Voice Activity Detection

自己采集:

自己分别采集有有声音的,没有声音的

多人说话的,

在语音识别(ASR)中,ASR ResourcesLM Resources 各自有不同的含义和作用。下面是它们的详细解释:

1. ASR Resources(语音识别资源)

ASRAutomatic Speech Recognition ,即 自动语音识别。是将语音信号转化为文本。包括:

  • 音频数据集:用于训练ASR模型的语音数据,如包含不同口音、环境噪音、语速等的多样化音频文件。

  • 声学模型:用于将音频信号转换为音素(语音单元)或词的模型,通常通过深度神经网络(如DNN、CNN、RNN)进行训练。

  • 词典:包含音素与词汇的映射关系,帮助ASR系统从音频信号识别出正确的词。

  • 标注数据:通常包括每个音频片段与其对应的正确转录文本,这些数据用于训练和评估ASR模型。

2. LM Resources(语言模型资源)

LMLanguage Model (语言模型)的缩写。语言模型在语音识别中的作用是根据上下文来预测词语的出现概率,从而提高识别的准确性。LM Resources 指的是构建和使用语言模型所需的各种资源,主要包括:

  • 语言建模语料库:用于训练语言模型的文本数据集。它包含大量的文本,帮助模型学习语言的结构、语法和常见的词组搭配。

  • 预训练语言模型:例如3-gram、5-gram等n-gram模型或更复杂的神经网络语言模型(如RNN、LSTM、Transformer),用于捕捉词语之间的统计关系。

  • 词汇表:包含所有模型可能识别的词汇,可以是训练语言模型时的一个子集,帮助限制可能出现的词的范围。

总结

  • ASR Resources 主要关注与语音信号和音频处理相关的资源,用来从语音转化为文本。

  • LM Resources 主要关注文本数据和语言结构,用来提高语音识别的上下文理解和准确性。

这两者结合,能显著提高语音识别系统的整体效果。

这是一个数据表:

名称 小时数 语言数 链接 许可证 md5sum
Bible.is 53,138 1,596 https://live.bible.is/bible/EN1ESV/MAT/1 独特的 ea404eeaf2cd283b8223f63002be11f9
globalrecordings.net 9,743 6,171 Global Recordings Network CC BY-NC-SA 4.0 3c5c0f31b0abd9fe94ddbe8b1e2eb326
VoxLingua107 6,628 107 https://bark.phon.ioc.ee/voxlingua107/ CC BY 4.0 5dfef33b4d091b6d399cfaf3d05f2140
Common Voice 30,329 120 Common Voice CC0 5e30a85126adf74a5fd1496e6ac8695d
MLS 50,709 8 openslr.org CC BY 4.0 a339d0e94bdf41bba3c003756254ac4e
总计 150,547 6,171+

可以直接下载的:

MLS

Common Voice

噪声数据集:

https://github.com/snakers4/silero-vad/wiki/Quality-Metrics#sample-rate-comparison

Dataset Duration, hours Domain
ESC-50 2.7 Environmental noise
AliMeeting test 43 Far/near meetings speech
Earnings 21 39 Calls
MSDWild 80 Noisy speech
AISHELL-4 test 12.7 Meetings
VoxConverse test 43.5 Noisy speech
Libriparty test 4 Noisy speech
Private noise 0.5 Noisy calls without speech
Private speech 3.7 Speech
Multi-Domain Validation 17 Multi
相关推荐
滴图服务-七七4 小时前
滴滴地图:精准定位赋能企业数字化转型
大数据·人工智能·地图服务·甲级测绘资质·商业授权
爱学习的程序媛4 小时前
2026上半年大模型全景技术解读:推理融合、Agent 爆发与多模态统一
人工智能·ai
A.说学逗唱的Coke5 小时前
【大模型专题】向量数据库深度解析:从原理到实战,构建企业级 AI 知识检索底座
数据库·人工智能
果丁智能5 小时前
智能锁赋能网约房民宿数字化管控:身份核验+远程授权,筑牢安全防线、降本增效
网络·数据库·人工智能·安全·智能家居
V搜xhliang02465 小时前
AI智能体的数据安全与合规实践
人工智能·学习·数据分析·自动化·ai编程
PPIO派欧云5 小时前
PPIO登上贵州新闻联播,深化AI算力生态建设
人工智能
俊基科技6 小时前
喇叭贴脸也没回音,A-59F 全双工消回音实战解析
语音识别·音频处理·ai降噪·回音消除·全双工消回音·a-59f·aec 技术
hai3152475436 小时前
一种通过空间几何转换进行软件编程计算的方式与现有计算的对比
人工智能·深度学习·数学建模·硬件架构·几何学·图论·拓扑学
猿饵块6 小时前
LibreOffice---文档制作
人工智能
硅谷秋水6 小时前
HARBOR:一个面向具身智体机器人强化学习的驾驭框架
人工智能·深度学习·机器学习·机器人