Kyutai TTS 低延迟流式文本转语音技术

Kyutai Labs 宣布开源其最新文本转语音(TTS)技术 ------Kyutai TTS,实时的语音生成解决方案。

Kyutai TTS 以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场景。

在语言支持与质量评估方面,Kyutai TTS 目前支持英语和法语,单词错误率(WER)分别为 2.82 和 3.29,展现出高准确度。说话者相似度达到 77.1%(英语) 和 78.7%(法语),确保语音自然且接近原始样本。模型还能处理长篇文章,突破传统 TTS 的 30 秒限制,适合新闻、书籍等长篇内容生成

Kyutai TTS 采用延迟流建模(DSM)架构,结合 Rust 服务器实现高效批处理,已在 GitHub 和 Hugging Face 开放源码与模型权重,助力全球开发者推动语音技术创新

参考:

https://kyutai.org/next/tts

开源:https://github.com/kyutai-labs/delayed-streams-modeling

相关推荐
云蝠呼叫大模型联络中心4 天前
深度解析|云蝠智能大模型呼叫系统架构:神鹤双擎 + 暴风引擎,低延迟高并发解锁呼叫中心降本增效新路径
系统架构·tts·asr·外呼系统·ai外呼·大模型呼叫·voiceagent
J ..10 天前
MeloTTS 生成 RKNN 模型
rk3588·tts·melo
山顶夕景13 天前
【MLLM】Qwen3-TTS语音生成模型
大模型·语音合成·tts·tokenizer
张成AI14 天前
Qwen3-TTS:2026年开源语音克隆与AI语音生成完全指南
tts
未来之窗软件服务1 个月前
幽冥大陆(七十六) piper.exe 文字朗读TTS——东方仙盟练气期
tts·仙盟创梦ide·东方仙盟
带电的小王1 个月前
TTS:论文--文本转语音系统及媒体应用概述
tts·wavenet·tacotron·transformer tts·deep voice
带电的小王1 个月前
sherpa-onnx:构建SherpaOnnxTts APK -- 文本转语音大模型
apk·tts·sherpa-onnx
带电的小王1 个月前
Matcha-TTS:论文阅读 -- 文本转语音大模型
tts·matcha-tts
不老刘1 个月前
Sherpa-onnx 离线 TTS 集成解决 openharmony 下语音播报完整方案
harmonyos·鸿蒙·tts·sherpa
skywalk81631 个月前
VibeVoice轻量级实时文本转语音模型VibeVoice-Realtime-0.5B(暂不支持中文)
tts·voice