Kyutai TTS 低延迟流式文本转语音技术

ejinxian2025-07-07 19:13

Kyutai Labs 宣布开源其最新文本转语音（TTS）技术 ------Kyutai TTS，实时的语音生成解决方案。

Kyutai TTS 以低延迟与高保真声音为亮点，支持文本流式传输，无需完整文本即可开始生成音频，特别适合实时交互场景。

在语言支持与质量评估方面，Kyutai TTS 目前支持英语和法语，单词错误率（WER）分别为 2.82 和 3.29，展现出高准确度。说话者相似度达到 77.1%(英语) 和 78.7%(法语)，确保语音自然且接近原始样本。模型还能处理长篇文章，突破传统 TTS 的 30 秒限制，适合新闻、书籍等长篇内容生成

Kyutai TTS 采用延迟流建模（DSM）架构，结合 Rust 服务器实现高效批处理，已在 GitHub 和 Hugging Face 开放源码与模型权重，助力全球开发者推动语音技术创新

参考：

https://kyutai.org/next/tts

开源：https://github.com/kyutai-labs/delayed-streams-modeling

上一篇：MCP极简入门：node+idea运行简单的MCP服务和MCP客户端

下一篇：谷歌浏览器安全输入控件-allWebSafeInput控件