Qwen3-TTS官方原功能启动版一键启动包 支持3秒克隆 情绪控制 语音设计

简介说明

在 2026 年 1 月 22 日,Qwen 团队正式发布了 Qwen3-TTS 系列模型。这不仅仅是一次简单的版本更新,而是一次在语音生成技术上的重大突破。

作为基于 Qwen3-TTS-Tokenizer-12Hz 开发的强大语音生成工具,它为开发者和用户提供了目前市面上最全面的语音生成功能,彻底改变了人机交互的听觉体验。

🌟 为什么 Qwen3-TTS 如此强大?

Qwen3-TTS 旨在打破传统语音合成的局限,它具备了多项令人瞩目的核心特性:

极致的低延迟流式生成

这是实时交互场景下的杀手锏。得益于创新的 Dual-Track 混合流式生成架构,Qwen3-TTS 可以在输入第一个字符后立即输出音频包。其端到端合成延迟低至 97ms,让你在对话中几乎感受不到任何停顿,完美满足实时语音交互的严苛需求。

所想即所闻的智能控制

传统的 TTS 往往只能机械地朗读。而 Qwen3-TTS 深度融合了文本语义理解,支持通过自然语言指令来驱动语音生成。你可以灵活控制音色、情感和韵律,例如指令"用特别愤怒的语气说",模型就能自适应地调整语调和节奏,实现"所想即所闻"。

全信息端到端架构

它摒弃了传统"语言模型+扩散模型(LM+DiT)"的级联方案,采用了离散多码本 LM 架构。这种设计完全绕过了信息瓶颈和级联误差,不仅显著提升了生成效率,还大幅提高了语音的自然度和保真度。

全球化的语言支持

为了满足全球应用需求,Qwen3-TTS 覆盖了 10 大主要语言(中文、英语、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语和意大利语),并包含多种方言音色。

Qwen3-TTS 代表了当前语音生成技术的顶尖水平。它通过 97ms 的超低延迟 解决了实时交互的痛点,通过 自然语言指令控制 让语音拥有了灵魂。无论你是想开发下一代的智能助手,还是希望为游戏、视频创作独一无二的配音,Qwen3-TTS 都是一个值得尝试的强大工具。

🛠️ 核心模型一览

Qwen3-TTS 系列提供了不同参数量(0.6B 和 1.7B)的模型,以适应从移动端到云端的各种硬件环境。以下是主要发布的模型及其功能:

模型名称 核心功能 特点
Qwen3-TTS-1.7B-VoiceDesign 语音设计 基于用户描述生成特定音色,适合创意设计。
Qwen3-TTS-1.7B-CustomVoice 风格控制 支持 9 种高品质音色,可通过指令控制情感。
Qwen3-TTS-1.7B-Base 基础模型 支持 3 秒极速语音克隆,可用于微调其他模型。
Qwen3-TTS-0.6B-CustomVoice 轻量级定制 功能与 1.7B 类似,但体积更小,适合资源受限环境。

🚀 快速上手体验

对于开发者而言,Qwen3-TTS 提供了极其友好的 Python 接口。你只需要简单的几行代码,就能实现定制化语音生成。

环境准备:

复制代码
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
pip install -U qwen-tts

代码示例(生成定制语音):

复制代码
from qwen_tts import Qwen3TTSModel
import torch
import soundfile as sf

# 加载模型
model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
    device_map="cuda:0",
    dtype=torch.bfloat16
)

# 生成语音:使用 Vivian 音色,愤怒语气
wavs, sr = model.generate_custom_voice(
    text="其实我真的有发现,我是一个特别善于观察别人情绪的人。",
    language="Chinese",
    speaker="Vivian",
    instruct="用特别愤怒的语气说"
)

# 保存音频
sf.write("output.wav", wavs[0], sr)

图片预览

兼容性能

​ 2026-04-29相对原版做了一个高兼容性,自动检测显卡,n卡低版本​编辑30系列以下或者a卡以及​编辑i卡自动使用cpu运行, 支持50系列显卡 ​

下载地址

开源地址

https://github.com/QwenLM/Qwen3-TTS

一键包地址
https://pan.baidu.com/s/1RhVo-BDh5Yob2qj4SHI0DQ?pwd=g9y6

https://pan.quark.cn/s/5eda18b84e3e

相关推荐
shao9185161 天前
第11章 Streaming(中):高级音频应用(1)——项目六:语音克隆、变声器与文本转录器
语音识别·tts·语音克隆·elevenlabs·stt·变声器·音乐api
搬砖魁首4 天前
基础能力系列 - 如何安全养虾? - 容器化部署龙虾
docker·qwen·openclaw·龙虾
Anesthesia丶6 天前
Qwen2.5-1.5b 模型部署与LORA训练笔记
pytorch·python·lora·llm·qwen·vllm
搬砖的前端9 天前
本地模型+TRAE CN 打造最优模型组合实测:开源主模型+本地辅模型,对标GPT5.2/5.3/Gemini-3-Flash
前端·ai·mac·ai编程·qwen·trae·qwen3.6
碳基硅坊9 天前
Mac Studio M3 Ultra 运行大模型实测:Qwen3.6 vs 6款主流模型工具调用对比
人工智能·qwen·qwen3.6
带娃的IT创业者10 天前
深度解析 Qwen3.6-35B-A3B:重塑 AI 编程代理的开源新标杆
人工智能·python·ai·开源·大模型·qwen·编程代理
mpr0xy11 天前
《AI怎么一步步变聪明的?》系列(六)中国大模型崛起之路:从“追赶者”到“解题人”
人工智能·ai·大语言模型·qwen·deepseek
熊猫钓鱼>_>16 天前
私有化AI视频助手搭建实录:当Ollama遇上OpenClaw
人工智能·音视频·agent·qwen·ollama·openclaw·happyhorse-1.0
Cachel wood17 天前
Macbook M4 pro本地部署大模型|Ollama+Gemma4/Qwen3.5
人工智能·python·自动化·llm·qwen·ollama·gemma4