开源2天斩获3K标星!开源TTS新星Chatterbox盲测击败ElevenLabs!

文本转语音(TTS)技术近年来随着AI的快速发展突飞猛进,但要在真实感、情绪表达和实时性上达到顶尖水平,仍是巨大挑战。

但零样本TTS和情感控制的兴起,涌现了一大批优秀的TTS模型,让语音合成进入了新的纪元。

最近,开源 TTS 领域迎来了一位超级重磅新星,它叫:Chatterbox,开源 2 天即冲上 GitHub 热榜,星标狂飙超 3K!

截止到我昨晚写这篇文章时,GitHub上已有 3.2K Star!成为近年来增长最快的开源 TTS 模型之一!

项目介绍

Chatterbox 是 Resemble AI 推出的首个生产级开源 TTS 模型,它还是首个支持情感夸张控制的开源 TTS 模型。

支持情绪控制、超低延迟(<200ms),还能嵌入神经水印确保AI安全。

凭借LLaMA架构(0.5B参数)、50万小时训练数据和创新的情绪夸张控制,它不仅媲美闭源巨头 ElevenLabs,还在最新盲测中超越对手。

它经过了两年的线上检验,处理了数百万个请求,有 63.75% 听众认为 Chatterbox 的音质优于 ElevenLabs,堪称史上最真实的开源语音合成模型之一。

核心功能亮点

  • 情绪夸张控制:首个支持情绪夸张控制的开源 TTS 模型,可调节语音表现力,适用于戏剧性语音生成。

  • 零样本语音克隆:仅需5秒参考音频即可克隆目标声音,无需额外训练。

  • 超低延迟:推理延迟低于200ms,适合实时对话应用。

  • PerTh神经水印:隐秘嵌入内容标记,提升安全性与可溯源。

  • 轻量高效:0.5B参数,24GB显存即可运行(推荐配置)。

  • 盲测力压ElevenLabs:语音自然度和情感表现超闭源标杆ElevenLabs。

安装与部署

Chatterbox 的安装也极其友好且简单,官方将其直接打包为一个Python包,可通过 pip 命令直接安装。

复制代码
pip install chatterbox-tts

三行代码即可解锁超真实语音生成体验。

ini 复制代码
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

model = ChatterboxTTS.from_pretrained(device="cuda")

text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)

# 如果你想使用不同的声音进行合成,请指定音频提示
AUDIO_PROMPT_PATH="YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)

同时 Chatterbox 在 HuggingFace 上也有部署好的Demo在线体验版本,有兴趣的小伙伴可以前往体验。

Tips:默认设置(exaggeration=0.5, cfg_weight=0.5)适合大多数场景,快速语音用cfg_weight=0.3,戏剧化场景用exaggeration=0.7。

适用场景

Chatterbox的情感控制和低延迟让它适用于多种场景,直击TTS痛点:

  • 播客与短视频:生成生动配音,情绪夸张控制让内容更具吸引力,省去专业配音成本。

  • 游戏开发:为NPC生成多样化语音,支持克隆玩家声音,增强沉浸感。

  • 虚拟助手:超低延迟(<200ms)支持实时对话,打造自然流畅的AI客服。

  • 教育内容:生成多语言教学音频,情绪控制让讲解更生动,适合在线课程。

  • 戏剧化场景:高exaggeration值生成夸张语音,适合动画、广告、配音表演。

写在最后

Chatterbox 发布仅两天,GitHub 星标已达 3K+,增长速度令人惊叹!

Resemble AI 后续还计划优化模型效率,增加多语言支持和更细粒度的情绪控制。

作为一名互联网科技博主,我对 Resemble AI 的开源精神和 Chatterbox 的卓越性能佩服不已。无论是创意视频、游戏配音还是实时助手,Chatterbox 都能让你的内容"开口说话",充满生命力。

而且其真实度、控制力均超行业领先的 ElevenLabs,是当前最接近人类表现力的 TTS 模型之一!

GitHub 项目地址:github.com/resemble-ai...

HF 在线体验:huggingface.co/spaces/Rese...

相关推荐
王哈哈^_^4 分钟前
【完整源码+数据集】车牌数据集,yolov8车牌检测数据集 7811 张,汽车车牌识别数据集,智慧交通汽车车牌识别系统实战教程
人工智能·深度学习·yolo·目标检测·计算机视觉·毕业设计·智慧城市
IT_陈寒9 分钟前
JavaScript 性能优化实战:我从 V8 源码中学到的 7 个关键技巧
前端·人工智能·后端
大千AI助手12 分钟前
决策树悲观错误剪枝(PEP)详解:原理、实现与应用
人工智能·算法·决策树·机器学习·剪枝·大千ai助手·悲观错误剪枝
慕云紫英14 分钟前
面向AI的课堂改革(南京大学 陈道蓄教授)
人工智能·aigc·教育
汗流浃背了吧,老弟!19 分钟前
基于OpenAI与DashScope的AI知识面试模拟系统实现
人工智能·语言模型
深耕AI24 分钟前
【宝塔面板】监控、日志、任务与安全设置
安全·github
长桥夜波28 分钟前
机器学习日报13
人工智能·机器学习
sensen_kiss29 分钟前
INT305 Machine Learning 机器学习 Pt.8 Bagging 和 Boosting
人工智能·机器学习·boosting
艾莉丝努力练剑29 分钟前
【Linux基础开发工具 (二)】详解Linux文本编辑器:Vim从入门到精通——完整教程与实战指南(上)
linux·运维·服务器·人工智能·ubuntu·centos·vim
我的世界伊若2 小时前
AI重塑IT职场:挑战与机遇并存
人工智能