六月上新!多语种正则/逆正则数据集、5000小时中文双工数据集、经典人物IP语音合成数据集……

海天瑞声本月数据集重磅上新!数据集覆盖语音识别、语音合成、自然语言处理及多模态四大核心领域,有效提升训练数据质量,增强模型泛化能力,加速构建更智能的AI系统!

🔥 核心亮点速览:

全球多语种正则/逆正则数据集

→覆盖14个语种/地区、700人、200小时、17个数据类型

多语种正则数据集

→支持20+语言、26种标签类型、多语言文本标注

5000小时中文双工数据集

→6000人真实发音、多场景语音采集

方言& 多语种平行语料库

→含737小时粤语&闽南语日常对话、俄语/马来语/土耳其语/墨西哥西语各100小时日常对话

经典人物 IP语音合成 数据集

→四大名著人物特色IP、经典角色声音复刻

百类音效数据集

→300小时多场景音效、100个精细化三级分类

多国 OCR数据集

→30种语言覆盖、5万张数据图像采集

全球多语种正则/逆正则数据集

本次上新的语音及对应正则/逆正则文本数据集,可以帮助大幅提升端到端语音识别模型在数字、网址、时间等场景下的表现。该数据集既可优化语音识别系统的文本标准化能力,也可提高整体识别文本可读性,便于后续的语义理解与处理。

产品规模: 覆盖14个语种/地区,700人,约200小时,可扩展至上千小时

数据类型: 包含17个类型,包含基数词、小数、序数词、百分比、分数、单独数字、电话/传真号码、数学、时间表达、日期表达、货币、电子邮件地址、网址、单位、全球定位系统、特殊符号等

多语种正则数据集

本次上新的正则数据集支持20+语言,约26种标签类型,多语言文本数据标注,对于构建跨语言NLP系统至关重要。

标签类型 **:**共4大类,包含数字相关、单位/货币相关、时间相关、数字字母符号混合

**涵盖语种:**中文、粤语(广州&香港)、西班牙语、意大利语、日语、韩语、法语、德语、葡萄牙语、印尼语、泰语、俄语、越南语、土耳其语、塔加洛语、罗马尼亚语、印地语、荷兰语、瑞典语、波兰语、挪威语、丹麦语等

5000小时中文双工数据集

本次上新的双工数据集共5000小时,覆盖多终端、多场景的真实对话,反映用户在不同设备下的真实交互行为。该数据集是构建中文对话式AI、语音助手、多模态大模型等应用的理想基础资源。

**产品规模:**6000人,5000小时

语料类型: 日常闲聊/商务会议/AI/新能源

**环境要求:**普通安静环境

发音人信息: 性别均衡

**正确率:**字准97%

方言&多语种平行语料库

本次上新的平行语料库涵盖了737小时高质量粤语&闽南语日常对话(手机/电话采集),和俄语/马来语/土耳其语/墨西哥西语各100小时日常对话(手机/电话采集),目前,翻译平行语料建设正朝着更智能、更专业的方向发展。

**产品类别:**粤语平行语料库-625小时(香港+广东)、闽南语平行语料库-112小时(漳州+泉州)、俄语/马来语/土耳其语/墨西哥西语各100小时对话

数据类型: 对话(日常)

经典人物 IP语音合成 数据集

本次上新的语音合成数据集涵盖了经典四大名著人物IP语音,打造极具辨识度的角色IP语音库,精准还原人物性格特征,适配不同应用场景需求。

特色IP:

  • 贵族世家公子与才情少女

  • 西天取经核心团队成员

  • 传奇丸子头少年英雄

百类音效数据集

本次上新的百类音效数据集音效总时长300+小时,包含4大一级分类、22个二级分类 、100+精细三级分类,覆盖环境音、拟声音、特效音等全场景需求,显著提升合成语音场景适配性,增强语音交互沉浸感。

**一级分类:**人类声音 (140H)、环境声音 (70H)、动物声音(20H)、机械声音(70H)

二级分类: 如呼吸系统声、心跳声、家养宠物、风声、水声、建筑声音、爆炸声等

三级分类: 如口哨声、打嗝声、蛙叫、溪流声、风声、汽车鸣笛等

多国 OCR数据集

本次上新的OCR数据集覆盖约30+国家/地区主流语种,百万级高质量图像样本,包含广告牌、菜单、收据/小票、说明书等多元场景,大部分数据有标注结果,准确率平均可达97%,可适配更多行业实际应用需求。

**涵盖语种:**中、美、法、德、意、日、韩、葡、俄、西班牙、印度、越南等

**覆盖场景:**自然场景类、文档类、手写、票据类等

**应用场景:**多语种文字识别、票据识别、复杂手写体识别等多场景OCR任务

相关推荐
正脉科工 CAE仿真8 分钟前
抗震计算 | 基于随机振动理论的结构地震响应计算
人工智能
看到我,请让我去学习10 分钟前
OpenCV编程- (图像基础处理:噪声、滤波、直方图与边缘检测)
c语言·c++·人工智能·opencv·计算机视觉
开开心心就好12 分钟前
高效报价软件,简化商铺定价流程
服务器·数据库·安全·面试·职场和发展·电脑·symfony
码字的字节12 分钟前
深度解析Computer-Using Agent:AI如何像人类一样操作计算机
人工智能·computer-using·ai操作计算机·cua
说私域1 小时前
互联网生态下赢家群体的崛起与“开源AI智能名片链动2+1模式S2B2C商城小程序“的赋能效应
人工智能·小程序·开源
钢铁男儿1 小时前
PyQt5高级界而控件(容器:装载更多的控件QDockWidget)
数据库·python·qt
阿蒙Amon4 小时前
C# Linq to SQL:数据库编程的解决方案
数据库·c#·linq
董厂长5 小时前
langchain :记忆组件混淆概念澄清 & 创建Conversational ReAct后显示指定 记忆组件
人工智能·深度学习·langchain·llm
G皮T8 小时前
【人工智能】ChatGPT、DeepSeek-R1、DeepSeek-V3 辨析
人工智能·chatgpt·llm·大语言模型·deepseek·deepseek-v3·deepseek-r1
互联网搬砖老肖8 小时前
运维打铁: MongoDB 数据库集群搭建与管理
运维·数据库·mongodb