Qwen3-TTS官方原功能启动版一键启动包 支持3秒克隆 情绪控制 语音设计

简介说明

在 2026 年 1 月 22 日,Qwen 团队正式发布了 Qwen3-TTS 系列模型。这不仅仅是一次简单的版本更新,而是一次在语音生成技术上的重大突破。

作为基于 Qwen3-TTS-Tokenizer-12Hz 开发的强大语音生成工具,它为开发者和用户提供了目前市面上最全面的语音生成功能,彻底改变了人机交互的听觉体验。

🌟 为什么 Qwen3-TTS 如此强大?

Qwen3-TTS 旨在打破传统语音合成的局限,它具备了多项令人瞩目的核心特性:

极致的低延迟流式生成

这是实时交互场景下的杀手锏。得益于创新的 Dual-Track 混合流式生成架构,Qwen3-TTS 可以在输入第一个字符后立即输出音频包。其端到端合成延迟低至 97ms,让你在对话中几乎感受不到任何停顿,完美满足实时语音交互的严苛需求。

所想即所闻的智能控制

传统的 TTS 往往只能机械地朗读。而 Qwen3-TTS 深度融合了文本语义理解,支持通过自然语言指令来驱动语音生成。你可以灵活控制音色、情感和韵律,例如指令"用特别愤怒的语气说",模型就能自适应地调整语调和节奏,实现"所想即所闻"。

全信息端到端架构

它摒弃了传统"语言模型+扩散模型(LM+DiT)"的级联方案,采用了离散多码本 LM 架构。这种设计完全绕过了信息瓶颈和级联误差,不仅显著提升了生成效率,还大幅提高了语音的自然度和保真度。

全球化的语言支持

为了满足全球应用需求,Qwen3-TTS 覆盖了 10 大主要语言(中文、英语、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语和意大利语),并包含多种方言音色。

Qwen3-TTS 代表了当前语音生成技术的顶尖水平。它通过 97ms 的超低延迟 解决了实时交互的痛点,通过 自然语言指令控制 让语音拥有了灵魂。无论你是想开发下一代的智能助手,还是希望为游戏、视频创作独一无二的配音,Qwen3-TTS 都是一个值得尝试的强大工具。

🛠️ 核心模型一览

Qwen3-TTS 系列提供了不同参数量(0.6B 和 1.7B)的模型,以适应从移动端到云端的各种硬件环境。以下是主要发布的模型及其功能:

模型名称 核心功能 特点
Qwen3-TTS-1.7B-VoiceDesign 语音设计 基于用户描述生成特定音色,适合创意设计。
Qwen3-TTS-1.7B-CustomVoice 风格控制 支持 9 种高品质音色,可通过指令控制情感。
Qwen3-TTS-1.7B-Base 基础模型 支持 3 秒极速语音克隆,可用于微调其他模型。
Qwen3-TTS-0.6B-CustomVoice 轻量级定制 功能与 1.7B 类似,但体积更小,适合资源受限环境。

🚀 快速上手体验

对于开发者而言,Qwen3-TTS 提供了极其友好的 Python 接口。你只需要简单的几行代码,就能实现定制化语音生成。

环境准备:

复制代码
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
pip install -U qwen-tts

代码示例(生成定制语音):

复制代码
from qwen_tts import Qwen3TTSModel
import torch
import soundfile as sf

# 加载模型
model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
    device_map="cuda:0",
    dtype=torch.bfloat16
)

# 生成语音:使用 Vivian 音色,愤怒语气
wavs, sr = model.generate_custom_voice(
    text="其实我真的有发现,我是一个特别善于观察别人情绪的人。",
    language="Chinese",
    speaker="Vivian",
    instruct="用特别愤怒的语气说"
)

# 保存音频
sf.write("output.wav", wavs[0], sr)

图片预览

兼容性能

​ 2026-04-29相对原版做了一个高兼容性,自动检测显卡,n卡低版本​编辑30系列以下或者a卡以及​编辑i卡自动使用cpu运行, 支持50系列显卡 ​

下载地址

开源地址

https://github.com/QwenLM/Qwen3-TTS

一键包地址
https://pan.baidu.com/s/1RhVo-BDh5Yob2qj4SHI0DQ?pwd=g9y6

https://pan.quark.cn/s/5eda18b84e3e

相关推荐
雲明2 天前
Qwen2.5-7B-Instruct实战教程:Chainlit集成语音输入(Whisper API)
语音识别·大语言模型·qwen·chainlit
Python私教2 天前
Cursor + Claude Code 全流程实战:搭一套生产级 AI 编程工作流(2026 最新版)
人工智能·语言模型·qwen·ollama·本地大模型·大模型部署·deepseek
周公8 天前
Claude code使用第三方算力安装配置过程
claude·qwen·claude code·open claw
bryant_meng8 天前
【Hugging Face】The GitHub of Open-Source AI Models
人工智能·github·qwen·hugging face·clip
兆。9 天前
多模态模型详解:从拼接式到原生统一架构
架构·qwen·多模态模型·ollama
兆。10 天前
如何在本地搭建天气智能体项目
langchain·openai·qwen·ollama·本地大模型
chenying99817911 天前
语音克隆模型的难点之一:音素对齐及交叉注意力早期失效问题 (兼论旋转位置编码)——F5-TTS、SupertonicTTS、VoxFlash-TTS 对比
人工智能·实时音视频·语音合成·tts·语音克隆
虎鲸不是鱼16 天前
LM Studio使用MTP的qwen3.6-27B-以7840hs的780M为例
大模型·llm·qwen·lm studio·mtp
格桑阿sir18 天前
05-大模型智能体开发工程师:本地部署开源小模型实战
ai·大模型·llm·部署·agent·qwen·本地部署
环信即时通讯云18 天前
AI圈今日大事(2026-05-21)
人工智能·阿里云·ai·google·芯片·qwen·gemini