六月上新！多语种正则/逆正则数据集、5000小时中文双工数据集、经典人物IP语音合成数据集……

海天瑞声本月数据集重磅上新！数据集覆盖语音识别、语音合成、自然语言处理及多模态四大核心领域，有效提升训练数据质量，增强模型泛化能力，加速构建更智能的AI系统！

🔥 核心亮点速览：

✔ 全球多语种正则/逆正则数据集

→覆盖14个语种/地区、700人、200小时、17个数据类型

✔ 多语种正则数据集

→支持20+语言、26种标签类型、多语言文本标注

✔ 5000小时中文双工数据集

→6000人真实发音、多场景语音采集

✔ 方言& 多语种平行语料库

→含737小时粤语&闽南语日常对话、俄语/马来语/土耳其语/墨西哥西语各100小时日常对话

✔ 经典人物 IP语音合成 数据集

→四大名著人物特色IP、经典角色声音复刻

✔ 百类音效数据集

→300小时多场景音效、100个精细化三级分类

✔ 多国 OCR数据集

→30种语言覆盖、5万张数据图像采集

全球多语种正则/逆正则数据集

本次上新的语音及对应正则/逆正则文本数据集，可以帮助大幅提升端到端语音识别模型在数字、网址、时间等场景下的表现。该数据集既可优化语音识别系统的文本标准化能力，也可提高整体识别文本可读性，便于后续的语义理解与处理。

产品规模： 覆盖14个语种/地区，700人，约200小时，可扩展至上千小时

数据类型： 包含17个类型，包含基数词、小数、序数词、百分比、分数、单独数字、电话/传真号码、数学、时间表达、日期表达、货币、电子邮件地址、网址、单位、全球定位系统、特殊符号等

多语种正则数据集

本次上新的正则数据集支持20+语言，约26种标签类型，多语言文本数据标注，对于构建跨语言NLP系统至关重要。

标签类型 **：**共4大类，包含数字相关、单位/货币相关、时间相关、数字字母符号混合

**涵盖语种：**中文、粤语（广州&香港）、西班牙语、意大利语、日语、韩语、法语、德语、葡萄牙语、印尼语、泰语、俄语、越南语、土耳其语、塔加洛语、罗马尼亚语、印地语、荷兰语、瑞典语、波兰语、挪威语、丹麦语等

5000小时中文双工数据集

本次上新的双工数据集共5000小时，覆盖多终端、多场景的真实对话，反映用户在不同设备下的真实交互行为。该数据集是构建中文对话式AI、语音助手、多模态大模型等应用的理想基础资源。

**产品规模：**6000人，5000小时

语料类型： 日常闲聊/商务会议/AI/新能源

**环境要求：**普通安静环境

发音人信息： 性别均衡

**正确率：**字准97%

方言&多语种平行语料库

本次上新的平行语料库涵盖了737小时高质量粤语&闽南语日常对话（手机/电话采集），和俄语/马来语/土耳其语/墨西哥西语各100小时日常对话（手机/电话采集），目前，翻译平行语料建设正朝着更智能、更专业的方向发展。

**产品类别：**粤语平行语料库-625小时（香港+广东）、闽南语平行语料库-112小时（漳州+泉州）、俄语/马来语/土耳其语/墨西哥西语各100小时对话

数据类型： 对话（日常）

经典人物 IP语音合成数据集

本次上新的语音合成数据集涵盖了经典四大名著人物IP语音，打造极具辨识度的角色IP语音库，精准还原人物性格特征，适配不同应用场景需求。

特色IP：

贵族世家公子与才情少女
西天取经核心团队成员
传奇丸子头少年英雄

百类音效数据集

本次上新的百类音效数据集音效总时长300+小时，包含4大一级分类、22个二级分类、100+精细三级分类，覆盖环境音、拟声音、特效音等全场景需求，显著提升合成语音场景适配性，增强语音交互沉浸感。

**一级分类：**人类声音 (140H)、环境声音 (70H)、动物声音(20H)、机械声音(70H)

二级分类： 如呼吸系统声、心跳声、家养宠物、风声、水声、建筑声音、爆炸声等

三级分类： 如口哨声、打嗝声、蛙叫、溪流声、风声、汽车鸣笛等

多国 OCR数据集

本次上新的OCR数据集覆盖约30+国家/地区主流语种，百万级高质量图像样本，包含广告牌、菜单、收据/小票、说明书等多元场景，大部分数据有标注结果，准确率平均可达97%，可适配更多行业实际应用需求。

**涵盖语种：**中、美、法、德、意、日、韩、葡、俄、西班牙、印度、越南等

**覆盖场景：**自然场景类、文档类、手写、票据类等

**应用场景：**多语种文字识别、票据识别、复杂手写体识别等多场景OCR任务