TTS-1技术报告：基于Transformer的文本转语音模型

CodeShare2025-07-30 21:29

TTS-1技术报告

我们介绍了Inworld TTS-1，这是一组两个基于Transformer的自回归文本转语音(TTS)模型。我们最大的模型TTS-1-Max拥有88亿参数，专为要求苛刻的应用场景提供最高质量和表现力。TTS-1是我们最高效的模型，具有16亿参数，专为实时语音合成和边缘设备用例而构建。

通过扩展训练计算量并应用语音语言模型(SpeechLM)组件的预训练、微调和RL对齐的序列化流程，这两个模型在各种基准测试中都实现了最先进的性能，仅依靠说话者语音的上下文学习就展现出卓越的质量。

Inworld TTS-1和TTS-1-Max能够以低延迟生成48kHz高分辨率语音，支持11种语言，并通过音频标记实现精细的情感控制和非语言发声。我们还以MIT许可证开源了训练和建模代码。

技术细节

模型架构：基于Transformer的自回归模型
参数量：TTS-1-Max(8.8B)/TTS-1(1.6B)
采样率：48kHz高分辨率音频
支持语言：11种
特色功能：音频标记控制、情感表达、非语言发声
训练流程：预训练→微调→RL对齐三阶段
开源协议：MIT许可证

性能表现

模型在多项基准测试中达到state-of-the-art水平，完全基于上下文学习实现高质量的语音合成。特别在以下方面表现突出：

语音自然度和表现力
多语言支持能力
低延迟实时生成
边缘设备部署效率
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）
公众号二维码

上一篇：安卓逆向2-安卓刷机和获取root权限和安装LSPosed框架

下一篇：从传统 CSS 到 Vue 的 Class 与 Style 动态绑定全解

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）05Linux下V2Ray安装配置指南 06《大数据技术原理与应用》实验报告三熟悉HBase常用操作 07jdk21下载、安装（Windows、Linux、macOS）08综合整理：pdf预览显示：你尝试预览的文件可能对你的计算机有害。如果你信任此文件以及其来源，请打开此文件以看其内容，如何解决以正常预览文件 09智能库存管理的需求预测模型：从业务痛点到落地代码的完整实践 10使用国内镜像网站在线下载安装Qt（解决官网慢的问题）——Qt