Kyutai TTS 低延迟流式文本转语音技术

Kyutai Labs 宣布开源其最新文本转语音(TTS)技术 ------Kyutai TTS,实时的语音生成解决方案。

Kyutai TTS 以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场景。

在语言支持与质量评估方面,Kyutai TTS 目前支持英语和法语,单词错误率(WER)分别为 2.82 和 3.29,展现出高准确度。说话者相似度达到 77.1%(英语) 和 78.7%(法语),确保语音自然且接近原始样本。模型还能处理长篇文章,突破传统 TTS 的 30 秒限制,适合新闻、书籍等长篇内容生成

Kyutai TTS 采用延迟流建模(DSM)架构,结合 Rust 服务器实现高效批处理,已在 GitHub 和 Hugging Face 开放源码与模型权重,助力全球开发者推动语音技术创新

参考:

https://kyutai.org/next/tts

开源:https://github.com/kyutai-labs/delayed-streams-modeling

相关推荐
从孑开始4 天前
ManySpeech —— 使用 C# 开发人工智能语音应用
ai·tts·asr·manyspeech·audiosep
iChochy19 天前
[开源免费] iGTTS(Gemini TTS) 文本转语音(TTS)的命令行工具。
python·tts·gemini
救救孩子把21 天前
BigVGAN:探索 NVIDIA 最新通用神经声码器的前沿
tts·bigvgan
shao91851624 天前
Gradio全解10——Streaming:流式传输的音频应用(7)——ElevenLabs:高级智能语音技术
人工智能·gradio·tts·streaming·elevenlabs·stt·eleven music
爱分享的飘哥1 个月前
第一百零二章:AI的“未来电影制片厂CEO”:多模态系统落地项目实战(完整 AI 视频创作平台)
人工智能·微服务·系统架构·llm·tts·多模态ai·ai视频创作平台
好多渔鱼好多2 个月前
【语音技术】意图与语料
人工智能·智能家居·智能互联·语音技术·影音开发·意图
文浩(楠搏万)2 个月前
XTTS实现语音克隆:精确控制音频格式与生成流程【TTS的实战指南】
大模型·tts·克隆·语音·声音克隆·音色·xtts
weiwei228442 个月前
GPT-SoVITS初探
声音克隆·语音生成·index-tts
weiwei228442 个月前
也玩音频克隆IndexTTS
gpu·wsl·语音生成·index-tts
xchenhao3 个月前
基于 Flutter 的开源文本 TTS 朗读器(支持 Windows/macOS/Android)
android·windows·flutter·macos·openai·tts·朗读器