3秒实现语音克隆的Qwen3-TTS的Qwen-TTS-Tokenizer和方法架构概览

Qwen3-TTS开源了一系列TTS模型,本文快速看一下【Qwen-TTS-Tokenizer】(语音表示基础)与【模型架构、训练与能力实现】两部分。

Qwen-TTS-Tokenizer

语音 Tokenizer 的核心作用是将连续的语音波形转换为离散的"语义-声学符号",既要保留语音的核心信息(说话人身份、韵律、内容),又要适配流式合成与低延迟需求。Qwen3-TTS 提出两种互补的 Tokenizer,分别针对"高质量合成"与"超低延迟流式"场景。


Qwen-TTS-Tokenizer-25Hz

Qwen-TTS-Tokenizer-25Hz的目标是在语义准确性 (支持多语言内容理解)与声学丰富度(支持高自然度合成)之间找平衡,适配长文本、高保真语音生成(如播客、有声书)。

参数:25 Hz 采样率(每 40 ms 生成 1 个 Token)、单码本设计(码本大小 32768),基于 Qwen2-Audio 扩展。

Qwen-TTS-Tokenizer-12Hz

实现毫秒级首包延迟,适配实时交互场景(如语音助手、实时通话),同时保证基本自然度。

参数:12.5 Hz 采样率(每 80 ms 生成 1 个 Token)、16 层多码本设计(每层码本大小 2048),基于"语义-声学解耦"思路。

架构

如上图,Qwen3-TTS(双轨 autoregressive 架构:文本-语音双轨融合) 基于 Qwen3-LLM 构建,既保留 LM 的指令理解能力,又实现语音的实时生成。

架构组件
  1. 文本处理:采用 Qwen 标准文本 Tokenizer,将输入文本(含控制指令)转换为文本 Token;
  2. 语音处理:接入 Qwen-TTS-Tokenizer-24Hz/Qwen-TTS-Tokenizer-12Hz,将语音(参考音频或生成目标)转换为语音 Token;
  3. 说话人编码器:与骨干模型联合训练,提取参考语音的说话人嵌入(Speaker Embedding),确保音色一致性;
  4. 双轨表示:将文本 Token 与语音 Token 在"通道维度"拼接,形成统一输入,使 LM 能同时建模"文本语义"与"语音风格";
  5. Code2Wav 模块:将生成的语音 Token 转换为最终波形(即 Qwen-TTS-Tokenizer-24Hz/Qwen-TTS-Tokenizer-12Hz 中的流式解码器)。
分模型架构差异(25Hz和12Hz)

因 Tokenizer 设计不同,Qwen3-TTS 衍生出两类模型,适配不同场景:

模型类型 语音 Token 处理方式 核心优势 适用场景
Qwen3-TTS-25Hz 单级语音 Token 预测: 文本特征 + 前序语音 Token → 当前语音 Token,再通过块 DiT 重建波形 高保真度、长文本稳定性好(语义-声学平衡) 高质量合成(播客、有声书)
Qwen3-TTS-12Hz 分层语音 Token 预测: 1. 骨干模型预测"语义码本(第 0 层)" 2. MTP 模块生成"声学码本(1-15 层)" 超低延迟、音色一致性强(分层建模) 实时交互(语音助手、客服)

MTP 模块:Multi-Token Prediction(多 Token 预测),针对 12Hz 多码本设计,可一次性生成所有声学码本,避免逐码本预测的延迟累积,同时提升声学细节的连贯性。

训练方法概览

Qwen3-TTS 采用 "预训练-后训练"两阶段流程,从"基础能力"到"人类偏好对齐"逐步优化,覆盖多语言、长文本、可控性等需求。

实验

参考文献

相关推荐
见行AGV机器人1 小时前
无人机脉动线中的AGV小车
人工智能·无人机·agv·非标定制agv
廋到被风吹走1 小时前
【AI】从 OpenAI Codex 到 GitHub Copilot:AI 编程助手的技术演进脉络
人工智能·github·copilot
newsxun1 小时前
DHA之后,大脑营养进入GPC时代?
人工智能
程序员Better1 小时前
2026年AI大模型选择指南:8大主流模型深度对比,小白秒懂如何选!
人工智能
ai_xiaogui1 小时前
AIStarter新版后端原型图详解:架构全面升级+共享环境一键部署,本地AI模型插件工作流管理新时代来临(2026开发者必看)
人工智能·架构·推动开源ai落地·原型图细节·aistarter新版·aistarter新版原型图·架构全面升级+共享环境一键部署
2501_926978332 小时前
“LLM的智能本质--AGI的可能路径--人类的意识本质”三者的统一基底(5.0理论解读)
人工智能·经验分享·笔记·深度学习·机器学习·ai写作·agi
拾光向日葵2 小时前
2026贵州高职专科报考全问答合集:专业、就业与实力大盘点
大数据·人工智能·物联网
لا معنى له2 小时前
WAM与AC-WM:具身智能时代的世界动作模型与动作条件世界模型
人工智能·笔记·学习
uzong2 小时前
AI Agent 是什么,如何理解它,未来挑战和思考
人工智能·后端·架构
2401_895521342 小时前
spring-ai 下载不了依赖spring-ai-openai-spring-boot-starter
java·人工智能·spring