TTS-1技术报告:基于Transformer的文本转语音模型

TTS-1技术报告

我们介绍了Inworld TTS-1,这是一组两个基于Transformer的自回归文本转语音(TTS)模型。我们最大的模型TTS-1-Max拥有88亿参数,专为要求苛刻的应用场景提供最高质量和表现力。TTS-1是我们最高效的模型,具有16亿参数,专为实时语音合成和边缘设备用例而构建。

通过扩展训练计算量并应用语音语言模型(SpeechLM)组件的预训练、微调和RL对齐的序列化流程,这两个模型在各种基准测试中都实现了最先进的性能,仅依靠说话者语音的上下文学习就展现出卓越的质量。

Inworld TTS-1和TTS-1-Max能够以低延迟生成48kHz高分辨率语音,支持11种语言,并通过音频标记实现精细的情感控制和非语言发声。我们还以MIT许可证开源了训练和建模代码。

技术细节

  • 模型架构:基于Transformer的自回归模型
  • 参数量:TTS-1-Max(8.8B)/TTS-1(1.6B)
  • 采样率:48kHz高分辨率音频
  • 支持语言:11种
  • 特色功能:音频标记控制、情感表达、非语言发声
  • 训练流程:预训练→微调→RL对齐三阶段
  • 开源协议:MIT许可证

性能表现

模型在多项基准测试中达到state-of-the-art水平,完全基于上下文学习实现高质量的语音合成。特别在以下方面表现突出:

  1. 语音自然度和表现力
  2. 多语言支持能力
  3. 低延迟实时生成
  4. 边缘设备部署效率
    更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
    公众号二维码
相关推荐
Coovally AI模型快速验证8 小时前
农田扫描提速37%!基于检测置信度的无人机“智能抽查”路径规划,Coovally一键加速模型落地
深度学习·算法·yolo·计算机视觉·transformer·无人机
AIGC安琪15 小时前
Transformer中的编码器和解码器是什么?
人工智能·深度学习·ai·语言模型·大模型·transformer·ai大模型
小艳加油2 天前
Python机器学习与深度学习;Transformer模型/注意力机制/目标检测/语义分割/图神经网络/强化学习/生成式模型/自监督学习/物理信息神经网络等
python·深度学习·机器学习·transformer
Coovally AI模型快速验证4 天前
YOLO、DarkNet和深度学习如何让自动驾驶看得清?
深度学习·算法·yolo·cnn·自动驾驶·transformer·无人机
盼小辉丶4 天前
Transformer实战(4)——从零开始构建Transformer
pytorch·深度学习·transformer
Struart_R5 天前
SpatialVLM和SpatialRGPT论文解读
计算机视觉·语言模型·transformer·大语言模型·vlm·视觉理解·空间推理
果粒橙_LGC5 天前
自学大语言模型之Transformer的Tokenizer
人工智能·语言模型·transformer
盼小辉丶5 天前
Transformer实战(11)——从零开始构建GPT模型
gpt·深度学习·transformer
计算机sci论文精选5 天前
CVPR2025敲门砖丨机器人结合多模态+时空Transformer直冲高分,让你的论文不再灌水
人工智能·科技·深度学习·机器人·transformer·cvpr
爆改模型6 天前
【AAAI2025】计算机视觉|即插即用|TBSN:颠覆性盲点模块!Transformer加持,图像去噪性能炸裂!
人工智能·计算机视觉·transformer