Qwen3-TTS官方原功能启动版一键启动包支持3秒克隆情绪控制语音设计

简介说明

在 2026 年 1 月 22 日，Qwen 团队正式发布了 Qwen3-TTS 系列模型。这不仅仅是一次简单的版本更新，而是一次在语音生成技术上的重大突破。

作为基于 Qwen3-TTS-Tokenizer-12Hz 开发的强大语音生成工具，它为开发者和用户提供了目前市面上最全面的语音生成功能，彻底改变了人机交互的听觉体验。

🌟 为什么 Qwen3-TTS 如此强大？

Qwen3-TTS 旨在打破传统语音合成的局限，它具备了多项令人瞩目的核心特性：

极致的低延迟流式生成

这是实时交互场景下的杀手锏。得益于创新的 Dual-Track 混合流式生成架构，Qwen3-TTS 可以在输入第一个字符后立即输出音频包。其端到端合成延迟低至 97ms，让你在对话中几乎感受不到任何停顿，完美满足实时语音交互的严苛需求。

所想即所闻的智能控制

传统的 TTS 往往只能机械地朗读。而 Qwen3-TTS 深度融合了文本语义理解，支持通过自然语言指令来驱动语音生成。你可以灵活控制音色、情感和韵律，例如指令"用特别愤怒的语气说"，模型就能自适应地调整语调和节奏，实现"所想即所闻"。

全信息端到端架构

它摒弃了传统"语言模型+扩散模型（LM+DiT）"的级联方案，采用了离散多码本 LM 架构。这种设计完全绕过了信息瓶颈和级联误差，不仅显著提升了生成效率，还大幅提高了语音的自然度和保真度。

全球化的语言支持

为了满足全球应用需求，Qwen3-TTS 覆盖了 10 大主要语言（中文、英语、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语和意大利语），并包含多种方言音色。

Qwen3-TTS 代表了当前语音生成技术的顶尖水平。它通过 97ms 的超低延迟解决了实时交互的痛点，通过自然语言指令控制让语音拥有了灵魂。无论你是想开发下一代的智能助手，还是希望为游戏、视频创作独一无二的配音，Qwen3-TTS 都是一个值得尝试的强大工具。

🛠️ 核心模型一览

Qwen3-TTS 系列提供了不同参数量（0.6B 和 1.7B）的模型，以适应从移动端到云端的各种硬件环境。以下是主要发布的模型及其功能：

模型名称	核心功能	特点
Qwen3-TTS-1.7B-VoiceDesign	语音设计	基于用户描述生成特定音色，适合创意设计。
Qwen3-TTS-1.7B-CustomVoice	风格控制	支持 9 种高品质音色，可通过指令控制情感。
Qwen3-TTS-1.7B-Base	基础模型	支持 3 秒极速语音克隆，可用于微调其他模型。
Qwen3-TTS-0.6B-CustomVoice	轻量级定制	功能与 1.7B 类似，但体积更小，适合资源受限环境。

🚀 快速上手体验

对于开发者而言，Qwen3-TTS 提供了极其友好的 Python 接口。你只需要简单的几行代码，就能实现定制化语音生成。

环境准备：

复制代码

conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
pip install -U qwen-tts

代码示例（生成定制语音）：

复制代码

from qwen_tts import Qwen3TTSModel
import torch
import soundfile as sf

# 加载模型
model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
    device_map="cuda:0",
    dtype=torch.bfloat16
)

# 生成语音：使用 Vivian 音色，愤怒语气
wavs, sr = model.generate_custom_voice(
    text="其实我真的有发现，我是一个特别善于观察别人情绪的人。",
    language="Chinese",
    speaker="Vivian",
    instruct="用特别愤怒的语气说"
)

# 保存音频
sf.write("output.wav", wavs[0], sr)

图片预览

兼容性能

2026-04-29相对原版做了一个高兼容性，自动检测显卡，n卡低版本编辑30系列以下或者a卡以及编辑i卡自动使用cpu运行，支持50系列显卡

下载地址

开源地址

https://github.com/QwenLM/Qwen3-TTS

一键包地址
https://pan.baidu.com/s/1RhVo-BDh5Yob2qj4SHI0DQ?pwd=g9y6

https://pan.quark.cn/s/5eda18b84e3e

Qwen3-TTS官方原功能启动版一键启动包 支持3秒克隆 情绪控制 语音设计

简介说明

图片预览

兼容性能

下载地址

Qwen3-TTS官方原功能启动版一键启动包支持3秒克隆情绪控制语音设计