开源发布丨SMIIP-NV 语料库

在追求语音合成自然度和情感表现力的道路上,一个长期存在的技术挑战在于:如何让机器生成的语音,像真人一样自然地发出笑声、哭声或咳嗽等非言语声音(Non-Verbal Sounds,NVs)。这些声音是传递情感、丰富交流的重要载体。然而,当前大多数高质量语音合成数据集都缺乏对这些非言语声音的精确标注,这直接导致了能够自然生成此类声音的语音合成系统寥寥无几。

为了填补这一关键数据空白,希尔贝壳联合昆山杜克大学正式开源"SMIIP-NV 数据集"。这是目前已知规模最大的、开源的、包含非言语声音标注的情感语音合成数据集。它的发布旨在为攻克"带有情感的、可发声的"语音合成这一难题提供坚实的数据基础。

"SMIIP-NV: A Multi-Annotation Non-Verbal Expressive Speech Corpus in Mandarin for LLM-Based Speech Synthesis" 被多媒体顶级会议ACM MM 2025录用。

数据说明

SMIIP-NV 语料库是一个同时标注了情感与非言语声音的语音合成语料库,非言语声音涵盖了笑声、哭声以及咳嗽声。该语料库包含 33 小时语音数据,覆盖 5 种不同情感及 3 类非言语发声,针对非言语部分标注了文本以及精确的时间戳信息。此外,语料库还针对包含笑声或哭声的语音片段进行了专项标注。为验证本数据集的实用价值,我们采用轻量级大语言模型(LLM),搭建了非言语语音合成任务的基准模型。

试验说明

基于该数据集,我们在一种轻量级LLM的非自回归语音合成框架上构建了非言语语音合成基线系统,并进一步在主流开源语音合成系统 CosyVoice2 上进行了微调实验验证。

在基线系统中,我们采用基于 Transformer 的轻量级非自回归语音合成模型作为基础架构,并将笑声、哭声和咳嗽等非言语发声形式和情感标签显式引入为特殊控制标记。模型首先在 WenetSpeech4TTS(约 10,000 小时)上进行大规模预训练,随后使用 SMIIP-NV 数据集进行微调,从而学习在语音合成过程中生成自然、可控的非言语表达。此外,为验证数据集的通用性与迁移能力,我们基于开源系统 CosyVoice2-0.5B 官方模型进行微调,仅新增非言语特殊标记而不改变其原有结构,并在分布式多卡环境下完成训练。

1非言语及情感数据时长分布

实验结果表明,微调后的基线模型在测试集上的主观评测结果显示,合成的笑声、哭声和咳嗽在自然度上的 MOS 分别达到 4.18、4.18 和 3.99 ,与真实语音高度接近;在 CosyVoice2 上的微调实验中,非语言语音的 MOS 均超过 4.0,验证了 SMIIP-NV 数据集良好的有效性与泛化能力。

2SMIIP-NV微调基线模型主观MOS**评估结果

相关推荐
code 小楊2 小时前
Hermes Agent(爱马仕智能体)全面深度测评与OpenClaw对比分析
人工智能·开源
M ? A2 小时前
Vue 的 scoped 样式穿透 React 不支持?用 VuReact 编译就行
前端·javascript·vue.js·react.js·面试·开源·vureact
挖AI金矿6 小时前
(六)文件与搜索 - 信息处理的正确姿势
人工智能·python·开源·个人开发·ai编程
STLearner7 小时前
AI论文速读 | QuitoBench:支付宝高质量开源时间序列预测基准测试集
大数据·论文阅读·人工智能·深度学习·学习·机器学习·开源
文慧的科技江湖7 小时前
光储充一体化开源能源管理系统 需求说明书(简单版) - 慧知开源充电桩平台
小程序·开源·能源·光储充·光伏系统·实现光储充全设备统一监控·光储充一体化开源能源管理系统
May_day8 小时前
基于rk3568开发板,5.1.0-release源码下载、编译与烧录
开源
May_day8 小时前
鸿蒙共建项目,系统层代码提交指南
开源
Hello__77778 小时前
开源鸿蒙 Flutter 实战|用户详情页布局优化与字体大小调节功能全流程实现
flutter·开源·harmonyos
Hommy888 小时前
【开源剪映小助手】项目介绍
开源·github·aigc·剪映小助手