六月上新!多语种正则/逆正则数据集、5000小时中文双工数据集、经典人物IP语音合成数据集……

海天瑞声本月数据集重磅上新!数据集覆盖语音识别、语音合成、自然语言处理及多模态四大核心领域,有效提升训练数据质量,增强模型泛化能力,加速构建更智能的AI系统!

🔥 核心亮点速览:

全球多语种正则/逆正则数据集

→覆盖14个语种/地区、700人、200小时、17个数据类型

多语种正则数据集

→支持20+语言、26种标签类型、多语言文本标注

5000小时中文双工数据集

→6000人真实发音、多场景语音采集

方言& 多语种平行语料库

→含737小时粤语&闽南语日常对话、俄语/马来语/土耳其语/墨西哥西语各100小时日常对话

经典人物 IP语音合成 数据集

→四大名著人物特色IP、经典角色声音复刻

百类音效数据集

→300小时多场景音效、100个精细化三级分类

多国 OCR数据集

→30种语言覆盖、5万张数据图像采集

全球多语种正则/逆正则数据集

本次上新的语音及对应正则/逆正则文本数据集,可以帮助大幅提升端到端语音识别模型在数字、网址、时间等场景下的表现。该数据集既可优化语音识别系统的文本标准化能力,也可提高整体识别文本可读性,便于后续的语义理解与处理。

产品规模: 覆盖14个语种/地区,700人,约200小时,可扩展至上千小时

数据类型: 包含17个类型,包含基数词、小数、序数词、百分比、分数、单独数字、电话/传真号码、数学、时间表达、日期表达、货币、电子邮件地址、网址、单位、全球定位系统、特殊符号等

多语种正则数据集

本次上新的正则数据集支持20+语言,约26种标签类型,多语言文本数据标注,对于构建跨语言NLP系统至关重要。

标签类型 **:**共4大类,包含数字相关、单位/货币相关、时间相关、数字字母符号混合

**涵盖语种:**中文、粤语(广州&香港)、西班牙语、意大利语、日语、韩语、法语、德语、葡萄牙语、印尼语、泰语、俄语、越南语、土耳其语、塔加洛语、罗马尼亚语、印地语、荷兰语、瑞典语、波兰语、挪威语、丹麦语等

5000小时中文双工数据集

本次上新的双工数据集共5000小时,覆盖多终端、多场景的真实对话,反映用户在不同设备下的真实交互行为。该数据集是构建中文对话式AI、语音助手、多模态大模型等应用的理想基础资源。

**产品规模:**6000人,5000小时

语料类型: 日常闲聊/商务会议/AI/新能源

**环境要求:**普通安静环境

发音人信息: 性别均衡

**正确率:**字准97%

方言&多语种平行语料库

本次上新的平行语料库涵盖了737小时高质量粤语&闽南语日常对话(手机/电话采集),和俄语/马来语/土耳其语/墨西哥西语各100小时日常对话(手机/电话采集),目前,翻译平行语料建设正朝着更智能、更专业的方向发展。

**产品类别:**粤语平行语料库-625小时(香港+广东)、闽南语平行语料库-112小时(漳州+泉州)、俄语/马来语/土耳其语/墨西哥西语各100小时对话

数据类型: 对话(日常)

经典人物 IP语音合成 数据集

本次上新的语音合成数据集涵盖了经典四大名著人物IP语音,打造极具辨识度的角色IP语音库,精准还原人物性格特征,适配不同应用场景需求。

特色IP:

  • 贵族世家公子与才情少女

  • 西天取经核心团队成员

  • 传奇丸子头少年英雄

百类音效数据集

本次上新的百类音效数据集音效总时长300+小时,包含4大一级分类、22个二级分类 、100+精细三级分类,覆盖环境音、拟声音、特效音等全场景需求,显著提升合成语音场景适配性,增强语音交互沉浸感。

**一级分类:**人类声音 (140H)、环境声音 (70H)、动物声音(20H)、机械声音(70H)

二级分类: 如呼吸系统声、心跳声、家养宠物、风声、水声、建筑声音、爆炸声等

三级分类: 如口哨声、打嗝声、蛙叫、溪流声、风声、汽车鸣笛等

多国 OCR数据集

本次上新的OCR数据集覆盖约30+国家/地区主流语种,百万级高质量图像样本,包含广告牌、菜单、收据/小票、说明书等多元场景,大部分数据有标注结果,准确率平均可达97%,可适配更多行业实际应用需求。

**涵盖语种:**中、美、法、德、意、日、韩、葡、俄、西班牙、印度、越南等

**覆盖场景:**自然场景类、文档类、手写、票据类等

**应用场景:**多语种文字识别、票据识别、复杂手写体识别等多场景OCR任务

相关推荐
pengdott2 小时前
Oracle RAC内存融合技术深度解析:集群性能的幕后引擎
数据库·oracle
csudata2 小时前
绿色便携版PostgreSQL发行版重磅发布
数据库·postgresql
阳光九叶草LXGZXJ3 小时前
达梦数据库-学习-48-DmDrs控制台命令(同步之Manager、CPT模块)
linux·运维·数据库·sql·学习
DisonTangor3 小时前
DeepSeek-OCR 2: 视觉因果流
人工智能·开源·aigc·ocr·deepseek
薛定谔的猫19823 小时前
二十一、基于 Hugging Face Transformers 实现中文情感分析情感分析
人工智能·自然语言处理·大模型 训练 调优
发哥来了3 小时前
《AI视频生成技术原理剖析及金管道·图生视频的应用实践》
人工智能
我科绝伦(Huanhuan Zhou)3 小时前
脚本再升级,兼容Oracle 26ai一键安装
数据库·oracle
数智联AI团队3 小时前
AI搜索引领开源大模型新浪潮,技术创新重塑信息检索未来格局
人工智能·开源
不懒不懒4 小时前
【线性 VS 逻辑回归:一篇讲透两种核心回归模型】
人工智能·机器学习
野生绿箭侠4 小时前
Ncos 2.3.2 版本集成达梦数据库
数据库