刚刚开源的新型TTS模型:Zonos!最低5s即可克隆高质量语音!

近期又发现一款刚开源的新型高保真 TTS 模型:Zonos。开源不到5天,已经在 GitHub 上收获了 1.1k 标星。

无论是快速生成特定情绪的语音,还是精准地模拟特定人的语音,它都能轻松搞定。

而且它不同于其他 TTS 模型,虽然大部分训练数据为英文,但还有大量的中文、日语等其他语言,在中文的支持性上要好一些。

目前提供了两种1.6B模型---Transformer 和 SSM,其中 SSM 模型是首个可用于TTS(文本到语音)的开源模型,它凭借其独特的结构,使得语音生成的质量和多样性更上一层楼。

能够根据 5 到 30 秒的语音片段进行高保真语音克隆。

还可以根据说话速度、音高标准差、音频质量和悲伤、恐惧、愤怒、快乐和惊讶等情绪进行条件化。

核心亮点

  • 高保真语音克隆:通过输入5到30秒的语音样本进行高保真的语音克隆。

  • 多语言支持:支持英语、日语、中文、法语和德语。

  • 情绪调节与语音定制:提供了多种语音定制选项,包括音高、语速、音质和情绪等方面。

  • 前缀匹配与说话人定制:通过添加文本和音频前缀,能实现更精细的说话人匹配效果。

  • 超高性能与实时生成:在性能方面表现得非常突出,特别是在 RTX 4090 显卡上运行时,实时率约为2倍。

  • 内置简易界面:Zonos 内置了一个易于使用的 gradio 界面,用于生成语音。

轻松上手,快速体验

Zonos的使用并不复杂,对于小白用户来说,可以直接体验测试版。

Beta 地址1:playground.zyphra.com/audio

Beta 地址2:maia.zyphra.com/audio

对于开发者来说,安装也十分简便。可通过 Docker 快速部署。

bash 复制代码
git clone https://github.com/Zyphra/Zonos.git
cd Zonos

# For gradio
docker compose up

# Or for development you can do
docker build -t Zonos .
docker run -it --gpus=all --net=host -v /path/to/Zonos:/Zonos -t Zonos
cd /Zonos
python sample.py # this will generate a sample.wav in /Zonos

Python 用法:

ini 复制代码
import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-hybrid", device="cuda")
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

cond_dict = make_cond_dict(text="Hello, world!", speaker=speaker, language="en-us")
conditioning = model.prepare_conditioning(cond_dict)

codes = model.generate(conditioning)

wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

写在最后

Zonos 凭借其卓越的语音生成质量、创新的功能设置和对中文的支持,展现了强大潜力。

从个性化语音助手到高保真语音克隆,从灵活的情绪调节到快速的实时生成,每一项功能都在推动语音技术向前发展。

无论你是开发者、创作者还是企业,Zonos 都能为你提供创新的语音解决方案,帮助你打造更具沉浸感和互动性的语音体验。

GitHub 项目地址:github.com/Zyphra/Zono...

模型地址:huggingface.co/Zyphra/Zono...

相关推荐
Raink老师6 小时前
【AI面试临阵磨枪】详细解释 Transformer 架构的核心组件与工作流程。
人工智能·深度学习·transformer·ai 面试·ai 应用开发
qcx236 小时前
【AI Agent实战】OpenClaw 安全加固完全指南:安全攻击手段与五步防护实践(2026最新)
人工智能·安全
码农小白AI6 小时前
AI报告审核进入技术驱动时代:IACheck如何从规则引擎走向深度学习,构建检测报告审核“技术矩阵”
人工智能·深度学习
song150265372986 小时前
视觉检测设备:自动识别缺陷、尺寸、瑕疵、装配错误,一键全检
人工智能·计算机视觉·视觉检测
智能化咨询7 小时前
(163页PPT)某著名企业K3生产制造售前营销指导方案P164(附下载方式)
大数据·人工智能
Zzj_tju7 小时前
大语言模型技术指南:SFT、RLHF、DPO 怎么串起来?对齐训练与关键参数详解
人工智能·深度学习·语言模型
金智维科技官方7 小时前
RPA技术赋能电信运营商话单稽核:金智维如何驱动高精度自动化转型
人工智能·自动化·数字化·rpa·智能体·电信
2501_948114247 小时前
2026模型能力分化加剧:多模型聚合架构的技术解析与工程落地思考
人工智能·ai·chatgpt·架构
新知图书8 小时前
LangGraph中的记忆存储
人工智能·langgraph·智能体设计·多智能体设计
冬奇Lab8 小时前
Claude Code 实战经验分享(上篇):从启动到并发协同
人工智能·ai编程·claude