Resemble AI确实发布了名为"Chatterbox Turbo"的开源语音合成模型。该模型是今年早些时候发布的"Chatterbox"模型的性能增强版,主要特点是速度极快、支持情感控制,并内置了安全水印。
下面的表格整理了Chatterbox Turbo的核心技术特点:
| 特性分类 | 具体描述 |
|---|---|
| 核心技术 | 零样本语音克隆 |
| 语音质量 | 优于ElevenLabs、Cartesia等主流方案 |
| 响应速度 | 首句延迟**< 150毫秒** ,速度提升至实时推理的6倍 |
| 功能特点 | 支持情感调节 与副语言标签 ,内置PerTh水印以识别AI生成内容 |
| 开源协议 | MIT许可(允许免费商用、修改和再分发) |
与之前版本的主要区别
与2025年中发布的Chatterbox模型相比,新的"Turbo"版本主要在以下方面有明显提升:
-
性能大幅优化:通过重构解码器等关键技术,将生成音频所需的步骤从10步减少到1步,实现了质的飞跃。这也是其"Turbo"(涡轮增压)名称的由来。
-
延迟更低:首句音频的生成延迟从之前版本的约200毫秒进一步降低到150毫秒以内,更适合实时交互。
如何获取与使用
Chatterbox Turbo是一个开源项目,开发者可以通过以下主要渠道获取:
-
模型平台 :已在 Hugging Face、RunPod、Replicate 等主流AI模型平台上线。
-
源代码 :完整代码托管在 GitHub 上。
-
使用方式 :提供了 Python库 (
chatterbox-tts),开发者可以轻松集成到自己的项目中。