Kyutai TTS 低延迟流式文本转语音技术

Kyutai Labs 宣布开源其最新文本转语音(TTS)技术 ------Kyutai TTS,实时的语音生成解决方案。

Kyutai TTS 以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场景。

在语言支持与质量评估方面,Kyutai TTS 目前支持英语和法语,单词错误率(WER)分别为 2.82 和 3.29,展现出高准确度。说话者相似度达到 77.1%(英语) 和 78.7%(法语),确保语音自然且接近原始样本。模型还能处理长篇文章,突破传统 TTS 的 30 秒限制,适合新闻、书籍等长篇内容生成

Kyutai TTS 采用延迟流建模(DSM)架构,结合 Rust 服务器实现高效批处理,已在 GitHub 和 Hugging Face 开放源码与模型权重,助力全球开发者推动语音技术创新

参考:

https://kyutai.org/next/tts

开源:https://github.com/kyutai-labs/delayed-streams-modeling

相关推荐
文浩(楠搏万)2 天前
用OBS Studio录制WAV音频,玩转语音克隆和文本转语音!
大模型·音视频·tts·wav·obs·声音克隆·语音录制
HyperAI超神经24 天前
在线教程丨刷新TTS模型SOTA,OpenAudio S1基于200万小时音频数据训练,深刻理解情感及语音细节
人工智能·深度学习·机器学习·文本转语音·语音处理·语音生成·在线教程
木亦汐丫1 个月前
【TTS】基于GRPO的流匹配文本到语音改进:F5R-TTS
强化学习·tts·grpo·wer·sim·文本到语音·nar
shichaog2 个月前
语音合成之十二 TTS声学编解码器的演进
语音合成·tts
Panesle2 个月前
月之暗面开源-音频理解、生成和对话生成模型:Kimi-Audio-7B-Instruct
人工智能·音视频·语音生成
shichaog2 个月前
语音合成之一TTS技术发展史综述
spark·语音合成·tts·端到端
ZHW_AI课题组3 个月前
调用通义千问实现语音合成并将合成的音频通过扬声器播放
python·音视频·语音合成·通义千问·tts
背水3 个月前
Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback论文学习
人工智能·学习·多模态·tts
天命小猪4 个月前
FishSpeech应用篇——专属朗读人
语音合成·tts