Kyutai TTS 低延迟流式文本转语音技术

Kyutai Labs 宣布开源其最新文本转语音(TTS)技术 ------Kyutai TTS,实时的语音生成解决方案。

Kyutai TTS 以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场景。

在语言支持与质量评估方面,Kyutai TTS 目前支持英语和法语,单词错误率(WER)分别为 2.82 和 3.29,展现出高准确度。说话者相似度达到 77.1%(英语) 和 78.7%(法语),确保语音自然且接近原始样本。模型还能处理长篇文章,突破传统 TTS 的 30 秒限制,适合新闻、书籍等长篇内容生成

Kyutai TTS 采用延迟流建模(DSM)架构,结合 Rust 服务器实现高效批处理,已在 GitHub 和 Hugging Face 开放源码与模型权重,助力全球开发者推动语音技术创新

参考:

https://kyutai.org/next/tts

开源:https://github.com/kyutai-labs/delayed-streams-modeling

相关推荐
shao9185161 天前
Gradio全解10——Streaming:流式传输的音频应用(7)——ElevenLabs:高级智能语音技术
人工智能·gradio·tts·streaming·elevenlabs·stt·eleven music
爱分享的飘哥12 天前
第一百零二章:AI的“未来电影制片厂CEO”:多模态系统落地项目实战(完整 AI 视频创作平台)
人工智能·微服务·系统架构·llm·tts·多模态ai·ai视频创作平台
好多渔鱼好多1 个月前
【语音技术】意图与语料
人工智能·智能家居·智能互联·语音技术·影音开发·意图
文浩(楠搏万)1 个月前
XTTS实现语音克隆:精确控制音频格式与生成流程【TTS的实战指南】
大模型·tts·克隆·语音·声音克隆·音色·xtts
weiwei228441 个月前
GPT-SoVITS初探
声音克隆·语音生成·index-tts
weiwei228442 个月前
也玩音频克隆IndexTTS
gpu·wsl·语音生成·index-tts
xchenhao2 个月前
基于 Flutter 的开源文本 TTS 朗读器(支持 Windows/macOS/Android)
android·windows·flutter·macos·openai·tts·朗读器
uncle_ll2 个月前
李宏毅NLP-9-语音转换
自然语言处理·nlp·语音识别·tts·语音变换
文浩(楠搏万)2 个月前
用OBS Studio录制WAV音频,玩转语音克隆和文本转语音!
大模型·音视频·tts·wav·obs·声音克隆·语音录制