海天瑞声本月数据集重磅上新!数据集覆盖语音识别、语音合成、自然语言处理及多模态四大核心领域,有效提升训练数据质量,增强模型泛化能力,加速构建更智能的AI系统!
🔥 核心亮点速览:
✔ 全球多语种正则/逆正则数据集
→覆盖14个语种/地区、700人、200小时、17个数据类型
✔ 多语种正则数据集
→支持20+语言、26种标签类型、多语言文本标注
✔ 5000小时中文双工数据集
→6000人真实发音、多场景语音采集
✔ 方言& 多语种平行语料库
→含737小时粤语&闽南语日常对话、俄语/马来语/土耳其语/墨西哥西语各100小时日常对话
✔ 经典人物 IP语音合成 数据集
→四大名著人物特色IP、经典角色声音复刻
✔ 百类音效数据集
→300小时多场景音效、100个精细化三级分类
✔ 多国 OCR数据集
→30种语言覆盖、5万张数据图像采集

全球多语种正则/逆正则数据集
本次上新的语音及对应正则/逆正则文本数据集,可以帮助大幅提升端到端语音识别模型在数字、网址、时间等场景下的表现。该数据集既可优化语音识别系统的文本标准化能力,也可提高整体识别文本可读性,便于后续的语义理解与处理。
产品规模: 覆盖14个语种/地区,700人,约200小时,可扩展至上千小时
数据类型: 包含17个类型,包含基数词、小数、序数词、百分比、分数、单独数字、电话/传真号码、数学、时间表达、日期表达、货币、电子邮件地址、网址、单位、全球定位系统、特殊符号等

多语种正则数据集
本次上新的正则数据集支持20+语言,约26种标签类型,多语言文本数据标注,对于构建跨语言NLP系统至关重要。
标签类型 **:**共4大类,包含数字相关、单位/货币相关、时间相关、数字字母符号混合
**涵盖语种:**中文、粤语(广州&香港)、西班牙语、意大利语、日语、韩语、法语、德语、葡萄牙语、印尼语、泰语、俄语、越南语、土耳其语、塔加洛语、罗马尼亚语、印地语、荷兰语、瑞典语、波兰语、挪威语、丹麦语等

5000小时中文双工数据集
本次上新的双工数据集共5000小时,覆盖多终端、多场景的真实对话,反映用户在不同设备下的真实交互行为。该数据集是构建中文对话式AI、语音助手、多模态大模型等应用的理想基础资源。
**产品规模:**6000人,5000小时
语料类型: 日常闲聊/商务会议/AI/新能源
**环境要求:**普通安静环境
发音人信息: 性别均衡
**正确率:**字准97%

方言&多语种平行语料库
本次上新的平行语料库涵盖了737小时高质量粤语&闽南语日常对话(手机/电话采集),和俄语/马来语/土耳其语/墨西哥西语各100小时日常对话(手机/电话采集),目前,翻译平行语料建设正朝着更智能、更专业的方向发展。
**产品类别:**粤语平行语料库-625小时(香港+广东)、闽南语平行语料库-112小时(漳州+泉州)、俄语/马来语/土耳其语/墨西哥西语各100小时对话
数据类型: 对话(日常)

经典人物 IP语音合成 数据集
本次上新的语音合成数据集涵盖了经典四大名著人物IP语音,打造极具辨识度的角色IP语音库,精准还原人物性格特征,适配不同应用场景需求。
特色IP:
-
贵族世家公子与才情少女
-
西天取经核心团队成员
-
传奇丸子头少年英雄

百类音效数据集
本次上新的百类音效数据集音效总时长300+小时,包含4大一级分类、22个二级分类 、100+精细三级分类,覆盖环境音、拟声音、特效音等全场景需求,显著提升合成语音场景适配性,增强语音交互沉浸感。
**一级分类:**人类声音 (140H)、环境声音 (70H)、动物声音(20H)、机械声音(70H)
二级分类: 如呼吸系统声、心跳声、家养宠物、风声、水声、建筑声音、爆炸声等
三级分类: 如口哨声、打嗝声、蛙叫、溪流声、风声、汽车鸣笛等

多国 OCR数据集
本次上新的OCR数据集覆盖约30+国家/地区主流语种,百万级高质量图像样本,包含广告牌、菜单、收据/小票、说明书等多元场景,大部分数据有标注结果,准确率平均可达97%,可适配更多行业实际应用需求。
**涵盖语种:**中、美、法、德、意、日、韩、葡、俄、西班牙、印度、越南等
**覆盖场景:**自然场景类、文档类、手写、票据类等
**应用场景:**多语种文字识别、票据识别、复杂手写体识别等多场景OCR任务