VoxCPM2 技术报告

VoxCPM2

VoxCPM2 技术报告

VoxCPM 团队

项目地址:https://github.com/OpenBMB/VoxCPM/

模型地址:https://huggingface.co/openbmb/VoxCPM2

演示地址:https://huggingface.co/spaces/openbmb/VoxCPM-Demo

样例地址:https://openbmb.github.io/voxcpm2-demopage/


摘要

我们提出了 VoxCPM2------一款完全开源的多语言可控语音生成基础模型,它延续了 VoxCPM 的分层扩散-自回归建模范式。VoxCPM2 从三个核心维度对原有框架进行了升级:

  1. 能力维度:在单一 backbone 中融合了 30 种语言、9 种汉语方言的合成能力,支持自然语言音色设计、风格可控的语音克隆,以及高保真续唱式克隆;

  2. 质量维度:采用非对称结构的 AudioVAE,以 16 kHz 采样率编码、48 kHz 采样率重建,在保证高编码效率的同时实现隐式超分辨率;

  3. 规模维度:将模型参数量扩展至 20 亿(2B),训练数据规模提升至超 200 万小时的多语言语音数据。

为在单模型中支撑如此丰富的能力,我们提出了统一序列组织机制:所有生成模式都通过相同输入模块的不同排列组合来实现,从而支持在单组参数、单个训练目标下完成联合训练。

在公开的零样本与指令跟随 TTS 基准测试中,VoxCPM2 取得了业界顶尖或极具竞争力的表现。在我们内部的 30 语言评测集上,模型的平均 WER 低至 1.68%。这些结果证明:无需依赖任何外部离散语音 tokenizer,分层连续隐空间建模完全可以作为大规模多语言可控语音生成的有效且强力的基础方案。


目录

  • [1 引言](#1 引言)
    • [1.1 研究背景与 VoxCPM 基础](#1.1 研究背景与 VoxCPM 基础)
    • [1.2 VoxCPM2:从基础模型到全功能系统](#1.2 VoxCPM2:从基础模型到全功能系统)
    • [1.3 论文结构](#1.3 论文结构)
  • [2 相关工作](#2 相关工作)
    • [2.1 大规模语音合成基础模型](#2.1 大规模语音合成基础模型)
    • [2.2 可控与表现力语音生成](#2.2 可控与表现力语音生成)
  • [3 研究方法](#3 研究方法)
    • [3.1 概述](#3.1 概述)
    • [3.2 AudioVAE V2](#3.2 AudioVAE V2)
    • [3.3 Backbone 优化与规模扩展](#3.3 Backbone 优化与规模扩展)
      • [3.3.1 内部架构优化](#3.3.1 内部架构优化)
      • [3.3.2 参考音频通路](#3.3.2 参考音频通路)
      • [3.3.3 配置规模扩展](#3.3.3 配置规模扩展)
    • [3.4 统一序列组织](#3.4 统一序列组织)
    • [3.5 训练策略](#3.5 训练策略)
    • [3.6 面向可控性的数据构建与标注](#3.6 面向可控性的数据构建与标注)
    • [3.7 推理](#3.7 推理)
  • [4 实验与结果](#4 实验与结果)
    • [4.1 实验设置](#4.1 实验设置)
    • [4.2 Seed-TTS-Eval 零样本语音克隆测试](#4.2 Seed-TTS-Eval 零样本语音克隆测试)
    • [4.3 多语言能力](#4.3 多语言能力)
    • [4.4 音色设计与可控生成](#4.4 音色设计与可控生成)
    • [4.5 AudioVAE V2 重建质量](#4.5 AudioVAE V2 重建质量)
    • [4.6 推理效率与部署](#4.6 推理效率与部署)
    • [4.7 主观听音测试](#4.7 主观听音测试)

1 引言

1.1 研究背景与 VoxCPM 基础

文本转语音(TTS)技术的发展目标,已从生成可懂的语音,逐步转向生成自然、富有表现力、可控的音频(Ping 等, 2018; Shen 等, 2018; Ren 等, 2020; Li 等, 2019)。对话智能体、配音、无障碍工具、交互式数字人等现代应用,不仅要求发音准确,还需要忠实还原说话人身份、说话风格与交流意图,这对声学保真度、可控性与多语言覆盖能力提出了更高要求。

受大语言模型(LLM)成功的推动,当前主流的 TTS 范式将语音合成建模为离散 token 序列建模任务,这些离散 token 由神经音频 codec 或 tokenizer 生成(Défossez 等, 2022; Kumar 等, 2023; Zhang 等, 2024)。通过语音离散化,这类系统继承了 LLM 的缩放定律与上下文学习能力(Borsos 等, 2023a; Kharitonov 等, 2023; Chen 等, 2025a)。近期的研究进一步通过优化 tokenizer 设计、细粒度韵律与情感控制、多语言长文本生成等方向拓展了这一范式(Peng 等, 2024; Wang 等, 2025c,d; Hu 等, 2026a; Gong 等, 2026; Liao 等, 2026)。

然而,量化过程不可避免地会丢失细粒度的声学细节。为弥补这一损失,多数高质量的离散 token 系统采用多阶段流水线:由自回归 LLM 预测粗粒度或语义 token,再通过独立的扩散模型或流匹配模型恢复局部声学保真度(Du 等, 2024a,b, 2025; Zhou 等, 2026a; Casanova 等, 2024; Guo 等, 2024; Xie 等, 2025a)。这种解耦设计虽然能实现不错的感知质量,但也造成了高层语义规划与底层声学渲染的割裂,无法实现端到端的联合优化;同时,系统的整体性能仍高度依赖中间离散语音 tokenizer 的建模能力。

另一个研究方向是直接对连续语音表示建模,以保留更丰富的声学信息。在早期自回归梅尔谱系统的基础上(Shen 等, 2018; Meng 等, 2025),近期的方法在连续声学隐空间上采用去噪或流匹配目标,包括非自回归扩散模型(Shen 等, 2023; Le 等, 2023; Chen 等, 2025b)与扩散-自回归混合模型(Li 等, 2024; Jia 等, 2025; Peng 等, 2025; Wu 等, 2025; Turetzky 等, 2025)。这类方法虽然能捕捉精细的声学细节,但需要在同一个表示空间与训练目标下,同时优化语义-韵律结构与局部声学纹理,在长文本或高表现力生成场景中容易出现优化困难与误差累积问题。

VoxCPM(Zhou 等, 2025)的提出正是为了解决这一核心权衡问题。它设计了分层 backbone,包含文本-语义语言模型(TSLM)、基于有限标量量化(FSQ)的可微半离散瓶颈层(Mentzer 等, 2024),以及残差声学语言模型(RALM)。其中,TSLM 主要捕捉高层语义与韵律结构,FSQ 瓶颈层将其压缩为稳定的骨架表示,RALM 则恢复细粒度的声学细节。这些组件共同为局部扩散 Transformer(LocDiT)提供条件,生成连续的隐特征块。

凭借这种内置分层结构与可微半离散瓶颈,VoxCPM 实现了在连续隐空间上的端到端训练,无需任何外部离散语音 tokenizer。这种结构既支持语义规划与声学渲染的联合优化,又缓解了多阶段流水线常见的信息割裂问题。

总体而言,VoxCPM 证明了分层连续隐空间建模可以在不牺牲声学丰富度与语义可懂度的前提下,取得极具竞争力的性能。在此基础上,VoxCPM2 将 VoxCPM 演进为一款强大且实用的 TTS 基础模型,在严格保留分层端到端连续隐空间设计的同时,显著提升了能力、质量与规模。

1.2 VoxCPM2:从基础模型到全功能系统

VoxCPM2 是 VoxCPM 系列的最新重大版本------一款基于 MiniCPM-4 backbone 构建的 20 亿参数量分层扩散-自回归语音生成模型(Team 等, 2025)。它在保留分层连续隐空间设计的基础上,从能力、质量、规模三个核心维度对原有框架进行了升级。

能力升级:VoxCPM2 在单一 backbone 中统一了四项面向用户的核心能力:

  1. 基础 TTS:支持多语言与跨语言合成;

  2. 自然语言音色设计:无需任何参考音频,通过自由文本描述生成全新音色;

  3. 可控克隆:基于简短参考音频克隆说话人,同时可遵循风格指令调整生成效果;

  4. 续唱式克隆:基于配对的参考音频及其文本转录,实现高保真的音频续写。

所有模式共享同一组参数、同一训练目标与同一推理流水线,仅输入序列的组织方式不同。

质量升级:我们提出了 AudioVAE V2------一款非对称隐空间 codec,以 16 kHz 采样率编码,以 48 kHz 采样率重建。这种设计既为 VoxCPM2 backbone 保持了紧凑的隐特征序列,又实现了隐式超分辨率与高质量输出。

规模升级:近期研究提出了 LLM 的"稠密定律(Densing Law)"(Xiao 等, 2025),指出 LLM 的容量密度(单位参数的有效性能)呈指数级增长,大约每三个月翻一番。在这一规律的指导下,我们将 VoxCPM2 的参数量扩展至 20 亿,训练数据规模提升至超 200 万小时的多语言语音(覆盖 30 种语言与 9 种汉语方言),同时保持了 6.25 Hz 的紧凑 token 率。

VoxCPM2 的核心贡献如下:

  1. 我们将分层连续隐空间框架扩展为统一的 20 亿参数量、48 kHz 采样率、支持 30 种语言(加 9 种汉语方言)的基础模型,同时保留了端到端训练、6.25 Hz 紧凑 token 率的特性,无需外部离散 tokenizer。

  2. 通过统一序列组织机制,将基础 TTS、自然语言音色设计、可控克隆、续唱式克隆整合进单一 backbone,用单组参数与统一推理路径替代了按任务拆分的专用模型。

  3. 我们引入了多项关键架构优化,包括改进的语义-声学融合机制、多 token LocDiT 条件输入、独立的参考音频通路,更好地支撑大规模多语言与可控生成。

  4. 通过多项公开基准测试的顶尖/极具竞争力的结果、内部 30 语言测试集 1.68% 的平均 WER,以及高效的流式推理能力,证明了模型优异的实证性能与实用部署价值。

1.3 论文结构

本文其余部分安排如下:第 2 章回顾大规模 TTS 基础模型与可控语音生成领域的最新进展;第 3 章介绍 VoxCPM2 系统,包括整体架构、AudioVAE V2、backbone 优化、统一序列组织与训练策略;第 4 章报告零样本 TTS、多语言合成、可控生成、重建质量与部署效率的实验结果;第 5 章讨论模型局限、负责任使用考量与未来方向。


2 相关工作

我们从两个核心维度梳理前人研究,以明确本文的贡献定位:大规模 TTS 基础模型,以及可控/表现力语音生成。

2.1 大规模语音合成基础模型

在 AudioLM(Borsos 等, 2023a)、SPEAR-TTS(Kharitonov 等, 2023)、VALL-E(Chen 等, 2025a)、Voicebox(Le 等, 2023)等早期基础模型的基础上,近期的 TTS 研究沿着多个互补方向拓展。我们围绕与 VoxCPM2 最相关的三类范式展开讨论:离散 token 语言建模、连续隐空间生成、分层语义-声学分解。

基于神经 codec 的离散 token 语言建模

这是当前的主流范式:将语音表示为神经音频 codec 或语音 tokenizer 生成的离散 token 序列(Défossez 等, 2022; Kumar 等, 2023; Xin 等, 2024; Zhang 等, 2024),从而继承 LLM 式的缩放特性与上下文学习能力。该方向主要分化出三条技术路线:

  • 单 backbone 自回归系统 :直接用语言模型预测 codec token。主流的 token 化方式是残差矢量量化(RVQ),每一帧会被编码为多个堆叠的码本索引。RVQ 虽然能提供更丰富的离散表示,但也让每帧的多 token 联合预测变得复杂。常见的解决策略包括由粗到细预测(Borsos 等, 2023a)、并行掩码预测(Borsos 等, 2023b)、延迟或交错 token 模式(Copet 等, 2024)。

    早期的 VoiceCraft(Peng 等, 2024)在 EnCodec RVQ token 之上统一了零样本 TTS 与语音编辑能力;后续的 Llasa(Ye 等, 2025b)则在语义感知 tokenizer(如 X-codec(Ye 等, 2025a))之上探索了 LLM 式的规模扩展。补充性的研究则致力于简化 codec 接口,例如采用单流解耦 token 的 Spark-TTS(Wang 等, 2025c),以及将首个 RVQ 码本与语义内容对齐的 SpeechTokenizer(Zhang 等, 2024)。

    在基础模型规模上,Qwen3-TTS(Hu 等, 2026a)、MOSS-TTS(Gong 等, 2026)、Fish Audio S2(Liao 等, 2026)、HiggsAudio v2(Boson AI, 2025)等模型都展现了优异的缩放性能。

  • 离散非自回归系统 :用离散 token 上的掩码预测或并行预测替代因果自回归。SoundStorm(Borsos 等, 2023b)开创了这一方向,它在 RVQ token 上采用迭代掩码预测,仅需少量精调步骤即可大幅提升高保真音频的生成速度。

    MaskGCT(Wang 等, 2025d)将这一思路拓展到零样本 TTS,采用两阶段掩码生成 codec Transformer:语义阶段模型先从文本预测语音内容 token,声学阶段模型再以语义 token 为条件预测残差声学 token,两个阶段都通过掩码生成并行解码。

    近期的 OmniVoice(Zhu 等, 2026)将离散掩码预测 TTS 扩展到单模型覆盖 600 余种语言的多语言场景,证明了非自回归路线可以支撑大规模多语言覆盖。

  • 多阶段混合系统 :将用于语义或粗声学 token 预测的自回归 LM,与用于波形渲染的独立扩散/流匹配解码器配对。这种设计在追求高感知质量的方案中非常普遍。

    早期的 XTTS(Casanova 等, 2024)采用基于说话人嵌入的 token 预测 LM,搭配 HiFi-GAN 风格的声码器;CosyVoice 系列(Du 等, 2024a,b, 2025)则将声学侧替换为以有监督语义 token 为条件的流匹配解码器;FireRedTTS 系列(Guo 等, 2024; Xie 等, 2025a)将这种两阶段架构拓展到工业级长对话场景。

    后续研究进一步优化框架以提升能力与性能:IndexTTS2(Zhou 等, 2026a)引入了显式的情感与时长控制;MiniMax-Speech(Zhang 等, 2025a)提出了内置说话人编码器,无需文本转录即可从参考音频中提取音色特征;Voxtral TTS(Liu 等, 2026)则探索了 VQ--FSQ 混合 codec 接口,将离散语义索引与连续声学编码相结合。

    这种"LM+流匹配"的流水线也被用作更广泛音频基础模型的语音生成组件,包括 GLM-4-Voice(Zeng 等, 2024)、Step-Audio(Huang 等, 2025a)与 Kimi-Audio(Kimi Team, 2025)。

连续隐空间与扩散-自回归生成

另一条并行的研究路线是直接对连续语音表示建模,以保留量化过程中丢失的精细声学细节。在早期自回归梅尔谱模型(Shen 等, 2018; Meng 等, 2025)的基础上,近期方法在连续隐空间上采用去噪或流匹配目标。

非自回归模型如 NaturalSpeech 2(Shen 等, 2023)与 Voicebox(Le 等, 2023)实现了高自然度与有竞争力的推理速度;MegaTTS 3(Jiang 等, 2025)引入稀疏对齐机制引导隐扩散 Transformer,提升了难句与口音场景的处理效果。

更端到端的方案包括 E2 TTS(Eskimez 等, 2024)与 F5-TTS(Chen 等, 2025b),它们移除了显式的对齐与时长模块;LongCat-AudioDiT(Meituan LongCat Team, 2026)则直接在波形隐空间中基于 Wav-VAE 运行。

扩散-自回归混合模型则将用于长程规划的语言模型,与用于精细声学合成的局部扩散模块相结合,既具备更强的表现力,又继承了大语言模型的多项核心建模优势。代表性工作包括 ARDiT(Li 等, 2024)------它采用仅解码器的扩散 Transformer 自回归预测连续梅尔谱帧;以及 DiTAR(Jia 等, 2025)------它在以 LM 上下文为条件的分块连续隐空间上引入了局部扩散 Transformer(LocDiT),这一核心组件也被本工作复用。一系列后续工作进一步拓展了这一设计(An 等, 2026; Wang 等, 2025b; Turetzky 等, 2025; Wu 等, 2025; Peng 等, 2025)。

分层语义-声学分解

分层分解的思想同时出现在离散与连续范式中。多阶段混合系统通过独立的语义与声学阶段在外部实现分层,而另一些工作则将分层结构更明确地嵌入模型内部。

HierSpeech++(Lee 等, 2025)通过分层变分推断桥接语义与声学表示;HALLE(Nishimura 等, 2025)将分层神经 codec 与语言模型堆叠,支持分钟级语音合成;MARS6(Baas 等, 2025)采用分层 token 编码器-解码器 Transformer,实现紧凑且鲁棒的生成。这些方法大多依赖离散 codec 或层间的分层 token 词表。

VoxCPM(Zhou 等, 2025)则走出了一条不同的路线:通过可微的半离散 FSQ 瓶颈层,在单一连续隐空间 backbone 内部实现了语义-声学分层,从而无需外部离散 tokenizer 即可完成完全端到端的训练。VoxCPM2 将这种分层连续隐空间范式扩展为大规模的多语言可控基础模型。

2.2 可控与表现力语音生成

随着 TTS 技术超越"可懂"这一基础目标,可控性已成为核心需求------不仅要控制"说什么",还要控制"谁来说"与"怎么说"(Xie 等, 2025b)。

早期的可控系统依赖类别标签、全局风格 token 或固定属性集(Wang 等, 2018; Cai 等, 2021),灵活性有限。这催生了自然语言控制接口的出现:PromptTTS(Guo 等, 2023)首次通过 BERT 编码器将 TTS 模型与自由形式的风格描述条件绑定;PromptTTS 2(Leng 等, 2024)进一步增加了变异建模与自动化描述生成流水线;InstructTTS(Yang 等, 2024)则在离散隐空间中建模以风格提示为条件的表现力 TTS。

为提升用户友好性,PromptStyle(Liu 等, 2023)实现了描述引导的跨说话人风格迁移。VoiceLDM(Lee 等, 2024)与 AudioBox(Vyas 等, 2024)等隐扩散方法也对描述条件生成进行了探索。

近期的进展主要沿着三个方向推进:

  • 数据构建:大规模带标注语料提供了丰富的风格描述:TextrolSpeech(Ji 等, 2024)将语音与风格控制字幕配对;SpeechCraft(Jin 等, 2024)增加了细粒度的表现力标注;CapSpeech(Wang 等, 2025a)聚合了多源带字幕语音数据。

  • 建模技术 :Parler-TTS(Lyth & King, 2024)基于合成字幕训练高保真 TTS;VoxInstruct(Zhou 等, 2024)将内容与风格提示统一为单条指令;后续系统进一步拓展了开放式指令、属性级编辑、无参考音色设计等能力(Yang 等, 2025; Ren 等, 2026; Hu 等, 2026b; Huang 等, 2026; Chen 等, 2026a)。FlexiVoice(Chen 等, 2026a)及后续工作进一步采用基于 DPO/GRPO 的后训练,更好地解耦可控生成中的风格、音色与内容。

    CosyVoice 3、Qwen3-TTS、MOSS-TTS、Fish Audio S2 等 TTS 基础系统已将自然语言音色生成本地化为原生能力,Gemini TTS、ElevenLabs 等商业平台则展现了生产级的性能表现。

  • 评测协议:评测体系也同步走向成熟。InstructTTSEval(Huang 等, 2025b)与 MINT-Bench(Chen 等, 2026b)等基准针对自然语言指令的细粒度遵从度进行评测;Fish Audio S2 报告中采用的"音频图灵测试"通过判断合成音频与真实录音的不可区分度来衡量拟人程度;此外,时长控制基准(Mai 等, 2026)聚焦 token 级的时长与停顿保真度,EmergentTTS-Eval(Manku 等, 2026)考察复杂条件下的模型稳定性,TTSDS(Minixhofer 等, 2024)则将多项声学与感知指标聚合为综合得分。这些工作共同标志着 TTS 评测正转向多维度、可复现的评估体系。

现有可控系统的一个普遍局限是架构碎片化,通常需要专用的风格编码器、适配器或按模式路由的机制。与之不同,VoxCPM2 将自然语言音色与风格描述视为普通文本前缀,直接输入同一个 TSLM。结合统一序列组织机制,它在单一分层连续隐空间 backbone 中,同时支持音色设计、基于参考的克隆、可控克隆与续唱式克隆。


3 研究方法

3.1 概述

VoxCPM2 继承了 VoxCPM(Zhou 等, 2025)的分层扩散-自回归公式,并将其扩展为多语言可控的基础模型。整个语音建模过程完全在 AudioVAE V2 的连续隐空间中完成:编码器将 16 kHz 波形映射为 25 Hz、64 维的隐特征帧 z。Backbone 随后将每 P=4 帧组合为一个 patch,最终形成 6.25 Hz 的自回归序列,每一步对应 160 毫秒的音频。

自回归 backbone 由局部编码器(LocEnc)、文本-语义语言模型(TSLM)、残差声学语言模型(RALM)与局部扩散 Transformer(LocDiT)组成,它们共同逐步预测下一个连续隐特征块。沿用 VoxCPM 的公式,第 i 个块的生成过程可表示为:

z_{i} \\sim LocDiT\\left( h_{i}\^{FSQ}, h_{i}\^{residual}, z_{i-1} ; t\\right), \\quad h_{i}\^{residual}=RALM\\left( H_{text }\^{TSLM}, H_{\\leq i}\^{FSQ} \\oplus E_{\

其中 T 表示输入文本 token,(E_{<i}=LocEnc(z_{<i})) 是由局部编码器聚合的块级声学历史,t 为扩散时间步。FSQ 层对 TSLM 隐状态进行逐维度标量量化,生成半离散的语义骨架 (h_{i}^{FSQ})。RALM 则以 TSLM 文本侧隐状态 (H_{text }^{TSLM }) 为条件,结合 FSQ 量化后的音频侧历史 (H_{≤i}^{FSQ}) 与局部编码器嵌入 (E_{<i}) 的融合结果(⊕),恢复出细粒度声学细节并写入 (h_{i}^{residual }),从而实现对完整序列历史的因果访问。

TSLM-FSQ 隐状态之上的停止预测器决定生成的终止时机,整个流水线采用端到端方式训练。完整的公式推导可参考 VoxCPM 的正式会议版本(Zhou 等, 2026b)。

公式 (1) 已经体现了 VoxCPM2 相对于 VoxCPM 的两处修改:

  1. LocDiT 将 (h_{i}^{FSQ}) 与 (h_{i}^{residual }) 作为独立的条件 token 输入,而非合并为单一求和向量 (h_{i}^{final }=h_{i}{FSQ}+h_{i}{residual });

  2. RALM 前的融合算子 ⊕ 被替换为可学习的拼接-投影结构(详见 3.3.1 节)。

除此之外,还有三组核心改动将 VoxCPM 升级为高保真、多语言、可控的系统:

  • 重新设计的隐空间 codec AudioVAE V2,在不增加自回归序列长度的前提下将输出采样率提升至 48 kHz(3.2 节);

  • 优化后的 backbone,具备更宽的信息通路、新增的独立参考音频输入,以及大幅扩展的模型容量(3.3 节);

  • 统一序列组织机制,将基础 TTS、音色设计、参考克隆、可控克隆、续唱克隆表示为同一 backbone 上的不同输入布局(3.4 节)。

训练策略、数据构建流水线与推理方案将在 3.5--3.7 节详细说明。

3.2 AudioVAE V2

音频隐空间定义了整个 backbone 的表示基础。VoxCPM2 采用 AudioVAE V2------一款非对称变分自编码器,其编码器工作在 16 kHz 采样率,解码器工作在 48 kHz 采样率。这种非对称设计同时实现了两个目标:

  • 在解码器侧,将输出采样率提升至 48 kHz,将波形保真度带入高质量区间,同时不会增加自回归生成循环的计算成本;

  • 在编码器侧,将输入采样率限制在 16 kHz:一是可以无缝复用 VoxCPM 原有的大规模 16 kHz 训练语料;二是基本消除了不同源采样率之间的隐空间不匹配问题,统一了 backbone 的运行隐空间;三是避免了高输入采样率通常带来的序列长度爆炸问题。

架构上,AudioVAE V2 沿用了初代 AudioVAE(Zhou 等, 2025)的流式友好因果卷积设计,仅修改了与采样率相关的模块。

16 kHz 编码器采用步幅因果 CNN 堆叠,下采样率为 2, 5, 8, 8,实现 640 倍的时域压缩,生成 25 Hz、64 维的隐特征帧。

48 kHz 解码器镜像了这一结构,但采用更深的因果 CNN 堆叠与更宽的内部通道,以支撑更高的重建带宽,上采样率为 8, 6, 5, 2, 2, 2

结合 backbone 的 patch 大小 P=4,语言模型侧最终得到 6.25 Hz 的紧凑自回归序列,足以支撑更丰富的条件输入与更长的上下文。

解码器还支持可选的目标采样率条件输入,允许同一组隐特征被渲染为多种实际输出采样率,适配下游部署需求。

3.3 Backbone 优化与规模扩展

将 VoxCPM 扩展为多语言可控基础模型,对 backbone 提出了新的要求:更高的条件输入带宽、对任意参考片段的支持,以及大幅提升的模型容量。我们通过三方面改动实现这些目标:优化内部架构、新增独立参考音频通路、扩展整体模型容量。

3.3.1 内部架构优化

RALM 前的拼接-投影融合

在 VoxCPM 中,FSQ 量化后的语义状态 (h_{i}^{FSQ}) 与局部编码器嵌入 (E_{i} \in E_{<i}) 在进入 RALM 前通过逐元素求和合并。VoxCPM2 将其替换为可学习的拼接-投影结构:

h_{i}\^{res_in }=W_{fuse }\\left\[h_{i}\^{FSQ} \| E_{i}\\right\] \\tag{2}

其中 (\\cdot \| \\cdot) 表示通道维度拼接。这种设计保留了两路输入的更丰富信息,让模型可以学习最优的组合权重。

LocDiT 中的多 token 条件前缀

在 VoxCPM 中,语义状态、残差状态与时间步嵌入会被求和为单个条件 token。VoxCPM2 则将三路信号分别投影后,作为独立的前缀 token 输入 LocDiT。这避免了早期信息坍缩,为语言模型到扩散解码器提供了更高带宽的条件输入。

完整的输入序列为:

\\left\[\\mu_{sem}, \\mu_{res}, \\mu_{t}, z_{i-1}\^{(1)}, ..., z_{i-1}\^{(P)}, \\overline{z}*{i}\^{(1)}, ..., \\overline{z}* {i}\^{(P)}\\right\]

其中 (\mu_{sem}, \mu_{res}, \mu_{t}) 分别是 (h_{i}{FSQ})、(h_{i}{residual}) 与扩散时间步 t 的投影结果,(z^{(1 ... P)}) 表示一个 patch 内的 P 帧隐特征(前一个干净块与当前带噪块)。

LocDiT 对该序列做全注意力计算,并预测带噪块位置的速度场。

更宽的 FSQ 瓶颈

我们将 FSQ 瓶颈的维度从 256 提升至 512,以适配更大的模型与更广的语言覆盖范围,同时保留每维度 9 级的量化粒度。

移除 RALM 中的位置编码

我们在 TSLM 中保留旋转位置嵌入(RoPE)(Su 等, 2024),但遵循 NoPE 设计(Kazemnejad 等, 2023)移除了 RALM 中的位置编码。由于 RALM 的主要作用是在语义骨架的条件下做局部声学精修,移除位置编码可以降低对训练长度的过拟合,提升长句生成的稳定性。

3.3.2 参考音频通路

除了继承自 VoxCPM 的续唱式提示机制,VoxCPM2 还引入了显式的参考音频通路。该通路允许将目标说话人的单段参考音频作为音色身份前缀插入,且无需提供参考音频的文本转录。

参考片段由 AudioVAE V2 编码为隐特征块,以 REF_START、REF_END 为分隔符插入输入序列的起始位置。得益于 TSLM 与 RALM 的因果特性,后续所有位置都可以关注该片段,从而提供稳定的说话人身份信息;与续唱式克隆不同,它不要求参考音频作为目标音频的时序前缀,也不需要对齐的文本转录。

这种解耦设计让推理阶段可以选择是否启用语音克隆,且无需为参考音频准备对齐文本。同时,它有效分离了说话人身份与风格控制指令,为可控克隆奠定了基础。参考片段不计入训练损失,仅作为条件上下文使用。它与其他输入模块的整合方式详见 3.4 节。

3.3.3 配置规模扩展

在上述优化的基础上,VoxCPM2 从深度、宽度、上下文长度三个维度扩展了 backbone 规模。表 1 总结了 VoxCPM 系列各版本的配置对比。

一项具有实用意义的更新(最早在 VoxCPM1.5 中引入并在此保留)是将 patch 大小从 P=2 提升至 P=4。这一调整将语言模型侧的 token 率从 12.5 Hz 降至 6.25 Hz,在降低推理成本的同时提升了长文本稳定性,与长上下文语音建模的近期趋势一致(Peng 等, 2025)。

总体而言,这些改动让同一套分层连续隐空间框架,能够从双语零样本原型扩展为大规模多语言可控基础模型,同时保留紧凑的 token 率与流式友好的因果结构。

表 1:VoxCPM 系列配置对比

组件 VoxCPM VoxCPM1.5 VoxCPM2
Backbone 参数量 ~ 0.6B ~ 0.8B ~ 2B
LocEnc 4层, 隐藏维度=1024 8层, 隐藏维度=1024 12层, 隐藏维度=1024
TSLM MiniCPM-4-0.5B (24层, 隐藏维度=1024) MiniCPM-4-0.5B (24层, 隐藏维度=1024) MiniCPM-4-1B (28层, 隐藏维度=2048)
FSQ 隐空间维度 256 256 512
RALM 6层, 隐藏维度=1024 8层, 隐藏维度=1024 8层, 隐藏维度=2048
LocDiT 4层, 隐藏维度=1024 8层, 隐藏维度=1024 12层, 隐藏维度=1024
Patch 大小 P 2 4 4
LM 侧 token 率 12.5 Hz 6.25 Hz 6.25 Hz
最大序列长度 4096 4096 8192
输入采样率 16 kHz 44.1 kHz 16 kHz
输出采样率 16 kHz 44.1 kHz 48 kHz

3.4 统一序列组织

VoxCPM2 通过单一的统一序列组织机制支持五种生成配置,而非为每种模式设计专用模块。这些配置都基于同一组输入构建模块搭建,模型可以直接从输入布局中推断出预期的生成行为。

完整来说共有五种配置,但可归为四类核心能力:基础 TTS、音色设计、基于参考的克隆(可附加风格控制)、续唱式克隆。

Backbone 在每个位置并行处理两路信息------文本 token 与音频隐特征,由二元模态标识决定输入嵌入的类型。输入序列由三类构建模块组装而成:

  • 文本:合成目标的转录文本,可在前方附加对目标音色和/或风格的自然语言描述;

  • 参考音频:由 REF_START/REF_END 包裹的分隔片段,提供独立的音色身份信息;

  • 目标音频:模型需要生成的音频片段。

训练阶段,只有目标音频片段参与损失计算;前置的所有 token 仅作为条件上下文。

推理阶段,用户还可以提供提示音频及其对应转录作为观测上下文。该提示在结构上被视为训练时目标音频片段的起始前缀,模型从该处开始自回归续写。

五种配置的区别仅在于这些构建模块的排列方式,总结如表 2 所示。

表 2:五种生成配置的序列布局

符号说明:"→"分隔条件上下文与待生成的目标片段;"|"分隔条件上下文内部的不同构建模块。

模式 序列布局
基础 TTS ⟨ 文本 ⟩→⟨ 目标音频 ⟩
音色设计 ⟨ (音色描述) 文本 ⟩→⟨ 目标音频 ⟩
参考克隆 ⟨ 参考音频 ⟩
可控克隆 ⟨ 参考音频 ⟩
续唱式克隆 ⟨ 提示文本 + 目标文本 ⟩

这一设计有两点尤其值得关注:

第一,对于音色设计与可控克隆,自然语言描述直接与合成文本拼接,同一个 TSLM 即可同时处理语义内容与控制指令,无需额外模块。

第二,续唱式克隆得益于配对的转录文本,可实现更高的保真度。在推理阶段,这种布局还可以与独立的参考片段结合,同时提供时序对齐与显式的说话人身份信息,即 4.2 节评测的"参考+续唱"组合方案。

3.5 训练策略

训练目标 :我们保留了 VoxCPM 的双项损失:目标隐特征块上的块级条件流匹配损失,以及 TSLM-FSQ 隐状态上的二元停止预测损失。两项损失都仅对目标音频片段做掩码计算。

为支持推理阶段的无分类器引导(CFG,详见 3.7 节),训练期间我们以 10% 的概率随机丢弃 LocDiT 的 LM 侧条件输入。

优化器采用 AdamW,学习率衰减策略为余弦退火+线性预热。

三阶段渐进式课程训练

为避免同时引入所有目标能力时破坏基础合成质量,我们采用三阶段渐进式课程训练。三个阶段的损失公式保持不变,仅调整数据组成、混合比例与上下文长度:

  1. 多语言 TTS 预训练

    Backbone 在大规模多语言 <转录文本, 音频> 对上训练,支撑基础 TTS 与续唱式克隆能力。音频片段长度限制在 60 秒以内,LM 最大序列长度设为 4096,保证优化稳定且快速。该阶段为全部 30 种目标语言建立扎实的发音与韵律基础。

  2. TTS 与可控 TTS 联合预训练

    在第一阶段的基础上,保留大比例的普通 TTS 数据以维持基础合成质量,同时逐步提高可控数据的引入比例。数据包括两类:

    • 标注了自然语言音色与风格描述的语音,用于监督音色设计能力;

    • <参考音频, 转录文本, 目标音频> 三元组,用于同时训练基于参考的克隆与可控克隆。

      我们将最大序列长度扩展至 8192,音频时长最长可达 3 分钟。第 1、2 阶段合计占用了大部分训练算力。

  3. 高质量退火监督微调(SFT)

    最后阶段使用经过筛选的高质量子集,包含更富表现力的语音与标注精准的可控数据。可控样本的占比显著高于第 2 阶段,其中基于参考音频的可控克隆样本比例更高。

    我们保持 8192 token 的上下文,采用从 2 秒到 5 分钟的多样本长度,使用均衡的语言层级采样比例,并通过学习率退火进一步精调性能。

3.6 面向可控性的数据构建与标注

训练语料总量包含超 200 万小时的多语言语音,其中中文与英文占多数。其余 28 种语言的时长从约 1 千到 5 万小时不等,取决于数据可得性与标注质量。

基础 TTS 数据遵循标准的预处理流水线:音源分离、语音活动检测、基于 ASR 的转录对齐、质量过滤。

对于可控生成,我们结合了数万小时的开源表现力语音与数千小时的内部筛选标注数据。开源部分提供了广泛的情感、说话风格与说话人覆盖;内部部分则更强调标注精度与更丰富的自然语言描述。本节其余部分详细介绍内部子集的构建与标注流程。

筛选值得标注的表现力音频

公开可控语料常包含声学表现平淡的语句,这会限制可控能力的上限。为避免这一问题,我们首先收集多样表现力场景的语音,再用轻量级情感分类器对大规模无标注语料进行预筛选,仅保留表现力足够的样本用于标注。

多维度自然语言标注

我们从两个维度对筛选出的表现力语句进行标注,与目标能力一一对应:

  • 音色设计属性:如年龄、性别、口音、嗓音质感、适用场景等;

  • 风格控制属性:如情感、语速、音调、能量、重音等。

标注由通用音频理解模型生成(如 Step-Audio R1(Tian 等, 2025)与 Gemini 2.5 Pro),输出不同粒度的自由形式自然语言描述,并通过专用的专家分类器对性别、年龄、情感维度进行校验。生成的描述直接用作文本前缀,无需额外的嵌入模块。

挖掘同说话人参考片段用于克隆

基于参考的克隆需要与目标语句来自同一说话人的参考片段。我们通过计算说话人嵌入余弦相似度,从同一场录音中挖掘参考片段,保留相似度高于 0.7 的片段;同时排除紧邻目标语句之前的片段,避免参考与目标过度接近。

需要注意的是,即便满足该阈值,筛选出的参考片段与目标在精细声学细节上仍可能存在差异,因此基于参考的克隆天然会比续唱式克隆的相似度更低。该参考池同时支撑参考克隆与可控克隆的训练。

通过克隆合成解耦风格与内容

自然标注的表现力语音普遍存在一个问题:韵律风格与文本内容高度相关(例如欢快风格常与积极语义的句子同时出现)。直接在这类数据上训练,模型可能从文本内容而非控制提示中还原风格,从而削弱可控能力。

为解决这一问题,我们利用模型自身生成内容解耦的样本:从一条已标注的语句出发,将其音色与风格克隆到语义无关的新转录文本上,同时保留原有的自然语言描述作为控制提示。最终得到的 <描述, 新文本, 音频> 数据对,其内容不再泄露风格线索,被混合回训练集中。

该方法还有助于将可控训练扩展到原生表现力数据有限的长尾语言。为降低自合成语音可能带来的伪影影响,这类数据主要在第 2 阶段注入,第 3 阶段的退火混合集则仅使用原生录制的高质量语音。

3.7 推理

推理阶段,VoxCPM2 以自回归方式生成语音,每次生成一个隐特征块。我们采用三项技术平衡速度与质量。

无分类器引导(CFG)

训练期间我们随机丢弃 LocDiT 的 LM 侧条件输入,因此模型同时支持条件与无条件预测。在每一步去噪中,我们对 LocDiT 进行两次前向计算,并将速度场线性组合:

\\hat{v}=v_{uncond }+\\alpha(v_{cond }-v_{uncond })

默认取值 (\alpha=2.0),实践中 (\alpha \in1.5,3.0) 为合理区间。

摇摆采样与 CFG-Zero *

我们应用摇摆采样(sway sampling)(Chen 等, 2025b)为高噪声区间分配更多求解步,并采用 CFG-Zero*(Fan 等, 2025)减少早期步骤的伪影。两项技术默认启用,不引入额外的可学习参数。

流式推理

TSLM 与 RALM 的因果结构,结合 LocEnc 与 LocDiT 的块局部设计(各自在单个块内做全注意力),天然支持基于块/分块的流式推理。每个生成的隐特征块会立即由有状态的 AudioVAE V2 解码器解码。

在续唱模式下,最后几个提示块会被保留作为解码器的初始上下文,确保过渡平滑。


4 实验与结果

我们从零样本语音克隆、多语言合成、自然语言可控性、重建质量、推理效率五个维度评测 VoxCPM2。实验在公开基准与内部测试集上开展。

4.2 节报告零样本克隆性能,4.3 节报告多语言结果,4.4 节报告可控生成性能,4.5 节报告 AudioVAE V2 重建质量,4.6 节报告推理效率,4.7 节报告主观听音测试结果。

4.1 实验设置

基准测试集

对于零样本与多语言合成,我们采用三项公开基准:

  1. Seed-TTS-Eval:中英双语语音克隆基准,包含两个标准测试集与一个难度更高的难例子集;

  2. CV3-Eval(Du 等, 2025):真实场景多语言零样本克隆基准,覆盖 9 种语言,为中文与英文设置了难例子集,参考片段的表现力风格与音频质量更多样;

  3. MiniMax-MLS-Test(Zhang 等, 2025a):另一项多语言零样本语音克隆基准,覆盖 24 种语言。

对于自然语言引导的可控生成,我们采用 InstructTTSEval,它将指令跟随能力拆解为三个抽象程度递增的子任务:APS(声学参数指定)、DSD(描述式风格指令)、RP(角色扮演)。

为更好地评测公开基准未完全覆盖的语言,我们构建了内部 30 语言基准,每种语言包含 500 条语句。用于克隆评测的参考音频片段采集自 CommonVoice 与 Fleurs 数据集。

对于公开基准,可懂度评测采用基准标准配置或已有文献报道的 ASR 设置;MiniMax-MLS-Test 上为保证对比一致性,采用 Whisper-large-v3 进行识别。

对于我们的内部 30 语言基准,我们采用 Gemini 3.1 Flash Lite API 做 ASR 转录------因为 Whisper-large-v3 在若干低资源语言上的识别精度有限。

对比系统

我们将 VoxCPM2 与一系列代表性系统对比,包括强劲的开源基线与近期的顶尖模型(CosyVoice 系列、MaskGCT、Spark-TTS、FireRedTTS 系列、F5-TTS、Qwen3-TTS、IndexTTS2、VibeVoice、HiggsAudio-v2、MOSS-TTS、Fish Audio S2、LongCat-Audio-DiT),以及 MegaTTS3、DiTAR、Seed-TTS、MiniMax-Speech、ElevenLabs、Hume 等闭源系统。VoxCPM 的早期版本(VoxCPM 与 VoxCPM1.5)作为内部参照纳入对比。

评测指标

我们遵循社区标准采用广泛使用的客观指标:

  • 可懂度:英文与多数欧洲语言报告词错误率(WER),中文与其他字符型语言报告字错误率(CER);

  • 说话人相似度:采用 SIM 指标,即由预训练说话人验证模型提取的说话人嵌入的余弦相似度;

  • 可控生成:在 InstructTTSEval 上报告各子任务(APS、DSD、RP)的官方指令跟随准确率。

4.2 Seed-TTS-Eval 零样本语音克隆测试

表 3 展示了 Seed-TTS-Eval 上的零样本语音克隆结果。

在 20 亿参数量级下,VoxCPM2 在开源与闭源系统中均取得了极具竞争力的表现:英文测试集 WER/SIM 为 1.84/75.3,中文测试集为 0.97/79.5,高难度中文难例子集为 8.13/75.3。

作为分层连续隐空间模型,VoxCPM2 在保持良好可懂度的同时,展现了强劲的说话人相似度表现。它在相似度上优于多数基于 token 的自回归系统,在 WER/CER 上与许多非自回归模型相当甚至更优。主观听音测试进一步证实,其克隆表现在自然度与韵律上更具优势。

尽管能力与语言覆盖范围大幅提升,架构优化与参数量扩展让 VoxCPM2 在保留前代 VoxCPM 强劲零样本克隆能力的基础上,进一步提升了说话人相似度。

推理方案对比

3.4 节介绍了三种基于参考语句的推理方案:

  1. 仅续唱:将参考视为带对应转录的音频前缀,与 VoxCPM、VoxCPM1.5 的运行模式一致;

  2. 仅参考:将参考放入独立的参考音频片段,不使用其转录文本;

  3. 参考+续唱:同一段参考音频同时通过两条通路输入。

表 4 对比了它们在 Seed-TTS-Eval 上的效果,可得出三点核心结论:

第一,双通路结合(参考+续唱)持续带来最佳的整体性能,在所有子集上都取得了最高的 SIM。两种机制形成互补:续唱前缀提供时序韵律对齐,独立参考则提供稳定的说话人身份信息。

第二,仅参考方案在中文难例子集上取得了最佳的可懂度。由于没有时序音频前缀,模型在处理复杂内容时拥有更多韵律选择的灵活性,仅以小幅相似度下降为代价。

第三,仅续唱仍是强劲的基线方案,尤其在简单场景下表现优异。

如无特殊说明,本文中其余 VoxCPM2 零样本克隆结果均采用"参考+续唱"方案。

表 3:Seed-TTS-Eval 零样本语音克隆结果

WER(英文)/ CER(中文、难例)单位为 %;SIM 单位为 %。

加粗为每列最优开源结果;斜体为每列最优闭源结果。"--"表示原文献未报告或无对应结果。

模型 参数量 开源 test-EN test-ZH test-ZH-Hard
WER ↓ SIM ↑ CER ↓ SIM ↑ CER ↓ SIM ↑
闭源系统
MegaTTS3 ( Jiang等, 2025 ) 0.5B 2.79 77.1 1.52 79.0 -- --
DiTAR ( Jia等, 2025 ) 0.6B 1.69 73.5 1.02 75.3 -- --
CosyVoice 3 ( Du等, 2025 ) 1.5B 2.22 72.0 1.12 78.1 5.83 75.8
Seed-TTS ( Anastassiou等, 2024 ) -- 2.25 76.2 1.12 79.6 7.59 77.6
MiniMax-Speech ( Zhang等, 2025a ) -- 1.65 69.2 0.83 78.3 -- --
开源系统
F5-TTS ( Chen等, 2025b ) 0.3B 2.00 67.0 1.53 76.0 8.67 71.3
MaskGCT ( Wang等, 2025d ) 1B 2.62 71.7 2.27 77.4 -- --
CosyVoice ( Du等, 2024a ) 0.3B 4.29 60.9 3.63 72.3 11.75 70.9
CosyVoice 2 ( Du等, 2024b ) 0.5B 3.09 65.9 1.38 75.7 6.83 72.4
CosyVoice 3 ( Du等, 2025 ) 0.5B 2.02 71.8 1.16 78.0 6.08 75.8
Spark-TTS ( Wang等, 2025c ) 0.5B 3.14 57.3 1.54 66.0 -- --
FireRedTTS ( Guo等, 2024 ) 0.5B 3.82 46.0 1.51 63.5 17.45 62.1
FireRedTTS-2 ( Xie等, 2025a ) 1.5B 1.95 66.5 1.14 73.6 -- --
Qwen2.5-Omni ( Xu等, 2025a ) 7B 2.72 63.2 1.70 75.2 7.97 74.7
Qwen3-Omni ( Xu等, 2025b ) 30B-A3B 1.39 -- 1.07 -- -- --
OpenAudio-s1-mini ( OpenAudio, 2024 ) 0.5B 1.94 55.0 1.18 68.5 23.37 64.3
IndexTTS2 ( Zhou等, 2026a ) 1.5B 2.23 70.6 1.03 76.5 7.12 75.5
VibeVoice ( Peng等, 2025 ) 1.5B 3.04 68.9 1.16 74.4 -- --
HiggsAudio-v2 ( Boson AI, 2025 ) 3B 2.44 67.7 1.50 74.0 55.07 65.6
ZipVoice ( Zhu等, 2025 ) 0.1B 1.64 66.8 1.40 75.1 -- --
MOSS-TTS ( Gong等, 2026 ) 8B 1.85 73.4 1.20 78.8 -- --
Qwen3-TTS ( Hu等, 2026a ) 1.7B 1.23 71.7 1.22 77.0 6.76 74.8
Fish Audio S2 ( Liao等, 2026 ) 4B 0.99 -- 0.54 -- 5.99 --
OmniVoice ( Zhu等, 2026 ) 0.8B 1.60 74.1 0.84 77.7 -- --
LongCat-Audio-DiT ( Xin等, 2026 ) 3.5B 1.50 78.6 1.09 81.8 6.04 79.7
VoxCPM 0.6B 1.85 72.9 0.93 77.2 8.87 73.0
VoxCPM1.5 0.8B 2.12 71.4 1.18 77.0 7.74 73.1
VoxCPM2 2B 1.84 75.3 0.97 79.5 8.13 75.3

表 4:不同推理方案对 VoxCPM2 零样本语音克隆性能的影响(Seed-TTS-Eval)

推理方案 序列布局(见 3.4 节) test-EN test-ZH test-ZH-Hard
WER ↓ SIM ↑ CER ↓ SIM ↑ CER ↓ SIM ↑
仅续唱 ⟨ 文本 | 提示 ⟩→⟨ 目标 ⟩ 1.01 77.7 1.97 72.6 8.16 72.4
仅参考 ⟨ 参考 ⟩| ⟨ 文本 ⟩→⟨ 目标 ⟩ 1.10 75.3 1.81 67.0 6.85 70.0
参考+续唱 ⟨ 参考 ⟩| ⟨ 文本 | 提示 ⟩→⟨ 目标 ⟩ 0.99 79.5 1.94 75.2 7.44 74.9

4.3 多语言能力

我们评测 VoxCPM2 的多语言能力,不仅关注可懂度,也考察在广泛语言范围内能否维持强劲的说话人还原能力。结果在三项基准上报告:CV3-Eval(表 5)、MiniMax-MLS-Test(表 6、表 7),以及内部 30 语言基准(表 8)。

CV3-Eval:真实场景多语言克隆

CV3-Eval 是一项难度较高的真实场景基准,参考片段的表现力风格与音频条件多样。VoxCPM2 展现了强劲的稳定性,在全部 9 种语言上都取得了有竞争力的可懂度,尤其在难例子集上表现突出(中文难例:8.55,英文难例:8.48)。

尽管 Fish Audio S2 凭借更大的模型规模与额外的强化学习后训练,在多数语言上取得了更低的 WER,但考虑到 VoxCPM2 仅 20 亿参数量、采用完全端到端的连续隐空间设计且无离散语音 tokenizer,其表现仍然极具竞争力。

表 5:CV3-Eval 多语言零样本克隆结果

WER/CER 单位:%,越低越好。加粗为每列最优结果。"--"表示原文献未报告。

模型 zh en hard-zh hard-en ja ko de es fr it ru
CosyVoice 2 4.08 6.32 12.58 11.96 9.13 19.70 -- -- -- -- --
CosyVoice 3-1.5B 3.91 4.99 9.77 10.55 7.57 5.69 6.43 4.47 11.80 10.50 6.64
Fish Audio S2 2.65 2.43 9.10 4.40 3.96 2.76 2.22 2.00 6.26 2.04 2.78
VoxCPM2 3.65 5.00 8.55 8.48 5.96 5.69 4.77 3.80 9.85 4.25 5.21

MiniMax-MLS-Test:24 语言可懂度与说话人相似度

在说话人相似度上(表 7),VoxCPM2 在 24 种语言中的 22 种上取得了最高 SIM,证明其在不同语系中都具备强劲且稳定的音色保留能力。

即便在训练期间未显式见过的语言(如捷克语、罗马尼亚语)上,VoxCPM2 也展现了可观的说话人保留效果,与最优系统的差距仅在 1.5--2 个 SIM 点以内。这一优势很大程度上归功于分层连续隐空间建模范式------与离散 token 方法相比,它能承载更丰富的说话人表示。此外,大规模多语言预训练似乎赋予了模型对同语系内语言一定的零样本合成涌现能力。

在可懂度上(表 6),VoxCPM2 在多数语言上表现强劲,尤其在中文(1.14)、荷兰语(0.91)、芬兰语(2.63)、德语(0.68)、土耳其语(0.82)上表现突出。主要短板出现在阿拉伯语与印地语上------这两种语言虽在训练集中,但数据量相对有限。此外,由于我们在该基准上使用 Whisper-large-v3 做 ASR 评测,较高的 WER 有一部分可能源于识别器在这些语言上的精度限制,而非完全来自合成质量。

对于完全未见过的语言(如捷克语、罗马尼亚语),模型仍能生成部分可懂的语音,体现了一定的零样本迁移能力,也说明通过少样本微调可快速适配提升。

表 6:MiniMax-MLS-Test 可懂度结果(24 种语言,WER %,越低越好)

加粗为每种语言的最优结果;"--"表示该系统未报告对应语言的结果。

语言 Minimax ElevenLabs Qwen3-TTS Fish Audio S2 VoxCPM2
阿拉伯语 1.67 1.67 -- 3.50 13.05
粤语 34.11 51.51 -- 30.67 38.58
中文 2.25 16.03 0.93 0.73 1.14
捷克语 3.88 2.11 -- 2.84 24.13
荷兰语 1.14 0.80 -- 0.99 0.91
英语 2.16 2.34 0.93 1.62 2.29
芬兰语 4.67 2.96 -- 3.33 2.63
法语 4.10 5.22 2.86 3.05 4.53
德语 1.91 0.57 1.24 0.55 0.68
希腊语 2.02 0.99 -- 5.74 2.84
印地语 6.96 5.83 -- 14.64 19.70
印尼语 1.24 1.06 -- 1.46 1.08
意大利语 1.54 1.74 0.95 1.27 1.56
日语 3.52 10.65 3.82 2.76 4.63
韩语 1.75 1.87 1.76 1.18 1.96
波兰语 1.42 0.77 -- 1.26 1.14
葡萄牙语 1.88 1.33 1.53 1.14 1.94
罗马尼亚语 2.88 1.35 -- 10.74 21.58
俄语 4.28 3.88 3.21 2.40 3.63
西班牙语 1.03 1.08 1.13 0.91 1.44
泰语 2.70 73.94 -- 4.23 2.96
土耳其语 1.52 0.70 -- 0.87 0.82
乌克兰语 1.08 1.00 -- 2.30 6.32
越南语 0.88 73.42 -- 7.41 3.31

表 7:MiniMax-MLS-Test 说话人相似度结果(24 种语言,SIM %,越高越好)

加粗为每种语言的最优结果。

语言 Minimax ElevenLabs Qwen3-TTS Fish Audio S2 VoxCPM2
阿拉伯语 73.6 70.6 -- 75.0 79.1
粤语 77.8 67.0 -- 80.5 83.5
中文 78.0 67.7 79.9 81.6 82.5
捷克语 79.6 68.5 -- 79.8 78.3
荷兰语 73.8 68.0 -- 73.0 80.8
英语 75.6 61.3 77.5 79.7 85.4
芬兰语 83.5 75.9 -- 81.9 89.0
法语 62.8 53.5 62.8 69.8 73.5
德语 73.3 61.4 77.5 76.7 80.3
希腊语 82.6 73.3 -- 79.5 86.0
印地语 81.8 73.0 -- 82.1 85.6
印尼语 72.9 66.0 -- 76.3 80.0
意大利语 69.9 57.9 81.7 74.7 78.0
日语 77.6 73.8 78.8 79.6 82.8
韩语 77.6 70.0 79.9 81.7 83.3
波兰语 80.2 72.9 -- 81.9 88.4
葡萄牙语 80.5 71.1 81.7 78.1 83.7
罗马尼亚语 80.9 69.9 -- 73.3 79.7
俄语 76.1 67.6 79.2 79.0 81.1
西班牙语 76.2 61.5 81.4 77.6 83.1
泰语 80.0 58.8 -- 78.6 84.0
土耳其语 77.9 59.6 -- 83.5 87.1
乌克兰语 73.0 64.7 -- 74.7 79.8
越南语 74.3 36.9 -- 74.0 80.6

内部 30 语言基准

为更好地评测现有公开基准未完全覆盖的语言,我们构建了前述内部 30 语言测试集。

在该基准上,VoxCPM2 在全部 30 种语言上的平均 WER/CER 为 1.68%,其中 28 种语言的错误率低于 3%,6 种语言低于 1%。模型在高棉语、老挝语、缅甸语、泰语等若干东南亚与低资源语言上表现尤为突出。

值得注意的是,与 MiniMax-MLS-Test 上使用 Whisper-large-v3 评测的结果相比,阿拉伯语与印地语的性能在内部基准上有大幅提升。由于这些结果是采用 Gemini 3.1 Flash Lite API 做 ASR 转录得到的,这进一步印证了我们之前的观察:Whisper 在部分语言上存在精度局限。

总体而言,这些结果表明,VoxCPM2 在单一统一的分层连续隐空间模型中,提供了兼具竞争力与均衡性的多语言 TTS 方案。

表 8:内部 30 语言可懂度基准(每种语言 500 条语句;ASR 采用 Gemini 3.1 Flash Lite)

分词型语言采用 WER %;语素文字/非分词文字采用 CER %。

缩写 语言 指标 VoxCPM2 Fish Audio S2 缩写 语言 指标 VoxCPM2 Fish Audio S2
ar 阿拉伯语 CER 1.23 0.30 lo 老挝语 CER 1.90 87.40
da 丹麦语 WER 2.70 3.52 ms 马来语 WER 1.75 1.41
de 德语 WER 0.96 0.64 my 缅甸语 CER 1.42 85.27
el 希腊语 WER 3.17 4.61 nl 荷兰语 WER 1.25 1.68
en 英语 WER 0.42 1.03 no 挪威语 WER 2.49 3.76
es 西班牙语 WER 1.33 0.64 pl 波兰语 WER 1.90 1.65
fi 芬兰语 WER 2.24 2.80 pt 葡萄牙语 WER 1.48 1.49
fr 法语 WER 2.16 2.34 ru 俄语 WER 0.90 0.86
he 希伯来语 CER 2.98 15.27 sv 瑞典语 WER 2.22 2.63
hi 印地语 CER 0.79 0.91 sw 斯瓦希里语 CER 1.07 2.02
id 印尼语 WER 1.36 1.68 th 泰语 CER 0.94 1.92
it 意大利语 WER 1.65 1.08 tl 他加禄语 WER 2.63 4.00
ja 日语 CER 2.40 1.82 tr 土耳其语 WER 1.65 1.65
km 高棉语 CER 2.05 75.15 vi 越南语 WER 1.56 5.56
ko 韩语 CER 0.95 0.29 zh 中文 CER 0.92 1.02
30 语言平均 1.68 --

4.4 音色设计与可控生成

除零样本语音克隆外,VoxCPM2 还支持音色设计 (无需参考音频,通过自然语言描述合成全新音色)与可控克隆(从参考片段克隆说话人,同时遵循风格指令)。两种能力都通过同一套统一序列组织机制实现(3.4 节),无需任何专用控制头或风格编码器。

InstructTTSEval 为指令跟随能力提供了全面的评估,涵盖三个抽象程度递增的子任务。表 9 总结了结果。

在该基准上,VoxCPM2 取得了强劲的指令跟随表现。英文子集上,模型在 APS、DSD、RP 三项上分别取得 84.2 / 83.2 / 71.4 的总分,优于所有对比系统。

中文子集上,模型追平了最高的 APS 得分(85.2,与 Qwen3-TTS 并列),在 DSD(71.5)与 RP(60.8)上也保持竞争力,仅在更抽象的任务上略有落后。中文更抽象任务上的差距,主要源于当前高层风格与人物描述的标注多样性仍有局限。

VoxCPM2 的可控生成能力远不止 InstructTTSEval 基准所覆盖的范围。模型支持丰富多样的自然语言描述用于音色设计与风格控制,可生成全部 30 种支持语言与 9 种汉语方言的语音。项目演示页面提供了更多样化的样例与交互式演示。

此外,由于训练中加入了歌曲风格标注数据,VoxCPM2 还具备初步的歌声生成能力,不过歌唱质量仍有较大提升空间。

表 9:InstructTTSEval 指令跟随结果(%,越高越好)

APS = 声学参数指定,DSD = 描述式风格指令,RP = 角色扮演。

模型 InstructTTSEval-中文 InstructTTSEval-英文
APS ↑ DSD ↑ RP ↑ APS ↑ DSD ↑ RP ↑
Hume -- -- -- 83.0 75.3 54.3
GPT-4o-mini-TTS 54.9 52.3 46.0 76.4 74.3 54.8
Gemini-TTS-Pro 89.0 90.1 75.5 87.6 86.0 67.2
PromptTTS ( Guo等, 2023 ) -- -- -- 64.3 47.2 31.4
PromptStyle ( Liu等, 2023 ) -- -- -- 57.4 46.4 30.9
Parler-TTS-large ( Lyth & King, 2024 ) -- -- -- 60.0 45.9 31.2
VoxInstruct ( Zhou等, 2024 ) 47.5 52.3 42.6 54.9 57.0 39.3
VoiceSculptor ( Hu等, 2026b ) 75.7 64.7 61.5 -- -- --
Mimo-Audio-7B-Instruct ( Zhang等, 2025b ) 75.7 74.3 61.5 80.6 77.6 59.5
Qwen3-TTS-12Hz-1.7B-VD ( Hu等, 2026a ) 85.2 81.1 65.1 82.9 82.4 68.4
MOSS-VoiceGenerator ( Huang等, 2026 ) 78.0 80.0 74.0 68.2 82.0 68.7
VoxCPM2 85.2 71.5 60.8 84.2 83.2 71.4

4.5 AudioVAE V2 重建质量

如 3.2 节所述,AudioVAE V2 定义了系统其余部分的隐空间接口。因此,AudioVAE V2 的重建保真度,大致决定了在隐特征完美预测的前提下,下游生成流水线所能达到的声学保真度上限。本节我们报告 VoxCPM2 所用 AudioVAE V2 的重建质量。

表 10 对比了 VoxCPM、VoxCPM1.5 所用的 AudioVAE 与 VoxCPM2 所用的 AudioVAE V2,在留存语音集(VCTK)与歌声集(Song Describer)上的重建表现。三款模型的输入与输出采样率各不相同:VoxCPM 重建 16 kHz 音频,VoxCPM1.5 工作在 44 kHz,VoxCPM2 则采用 16 kHz 编码器+48 kHz 解码器的配置。

我们报告全频段与 16 kHz 带宽下的梅尔距离,以及 VCTK 上的 16 kHz 语音质量(PESQ)与可懂度指标(STOI)。

表 10:VoxCPM、VoxCPM1.5、VoxCPM2 所用 AudioVAE 的重建质量

评测指标:

  • MelD-48k:48kHz 下的梅尔距离

  • MelD-16k:16kHz 下的梅尔距离

  • PESQ-16k:感知语音质量(16kHz 下评测)

  • STOI-16k:短时客观可懂度(16kHz 下评测)

VAE 模型 采样率 VCTK (48kHz) Song Describer (44kHz)
输入 输出 MelD-48k ↓ MelD-16k ↓ STOI-16k ↑ PESQ-16k ↑ MelD-48k ↓ MelD-16k ↓
VoxCPM 16kHz 16kHz 1.787 0.801 0.911 3.940 2.371 1.246
VoxCPM1.5 44kHz 44kHz 1.139 0.926 0.836 3.148 1.267 1.311
VoxCPM2 16kHz 48kHz 1.335 0.813 0.907 3.906 1.334 1.133

对比结果显示,三代编解码器各有优势:

VoxCPM 所用的 AudioVAE 在 16 kHz 频段的语音指标上仍极具竞争力;

VoxCPM1.5 所用的 AudioVAE 通过直接在高采样率下运行,取得了最优的全频段梅尔距离;

相比之下,AudioVAE V2 在更具挑战的超分辨率设置下(16 kHz 编码、48 kHz 重建),在低频段与全频段指标上都取得了有竞争力的重建效果。

这一结果支撑了 3.2 节提出的非对称 codec 设计:它让 VoxCPM2 更具灵活性,既将自回归 backbone 保持在紧凑的低速率隐空间中,又能实现高采样率的波形生成。

4.6 推理效率与部署

多语言可控 TTS 基础模型的实用价值,很大程度上取决于推理延迟与部署成本。因此我们在单张 NVIDIA RTX 4090 GPU(24 GB)上评测了 VoxCPM2 的运行效率。表 11 总结了不同服务路径下的结果。

延迟与显存

在标准 PyTorch 实现下,VoxCPM2 的实时因子(RTF)为 0.30,峰值显存占用约 8 GB,完全在消费级 GPU 的能力范围内。

采用优化后的 Nano-vLLM 服务引擎后,RTF 提升至 0.13,在相同硬件上实现了 7 倍以上的实时生成速度。

尽管参数量是 VoxCPM1.5 的 2.5 倍,但在优化服务路径下,VoxCPM2 仍保持了有竞争力甚至更优的 RTF。这一效率很大程度上得益于语言模型侧保留了 6.25 Hz 的紧凑 token 率。

流式与生产级服务

TSLM 与 RALM 的因果设计,加上 LocDiT 的块局部特性,天然支持基于分块的流式推理,可支撑低延迟交互应用。

对于高吞吐的生产环境,VoxCPM2 还兼容 vLLM-Omni,可实现高效的批量服务。关于并发、吞吐、实时因子的详细基准测试,请参考仓库文档。

表 11:单张 NVIDIA RTX 4090(24 GB)上的 VoxCPM2 推理效率

RTF(实时因子)= 生成耗时 / 输出音频时长;数值 < 1 表示生成速度快于实时。

推理路径 参数量 RTF ↓ 显存占用
VoxCPM2 (PyTorch) 2B 0.30 ~ 8 GB
VoxCPM2 (Nano-vLLM) 2B 0.13 ~ 8 GB
VoxCPM1.5 (PyTorch) 0.8B 0.15 ~ 6 GB
VoxCPM (PyTorch) 0.6B 0.17 ~ 5 GB

4.7 主观听音测试

为评估 TTS 系统的感知质量,我们开展了主观平均意见得分(MOS)测试,采用标准 5 分制,聚焦三个核心维度:自然度(N-MOS)、说话人相似度(S-MOS)、指令跟随度(I-MOS)。

测试设置

我们准备了约 100 条音频样本,覆盖零样本语音克隆(Seed-TTS-Eval 的中英文样本)、多语言合成(MiniMax-MLS-Test 的 8 种语言)、带多样自然语言指令的可控生成(由 LLM 撰写指令)三个场景。

我们将 VoxCPM2 与 4.2--4.4 节中的代表性开源基线进行对比。共 50 名听众参与了随机双盲评测,三项评分指标定义如下:

  • N-MOS(自然度 MOS):评价合成语音的自然度与拟人程度;

  • S-MOS(相似度 MOS):评价语音与参考说话人的匹配程度,包括音色、口音与说话风格;

  • I-MOS(指令 MOS):评价音频对文本音色设计指令的遵从准确度。

结果与分析

基线选择与 MOS 结果如表 12、13、14 所示。

如表 12 所示,VoxCPM2 在零样本克隆上表现强劲,N-MOS 达 4.78,S-MOS 达 4.74(为所有系统最高),展现了优异的自然度与说话人保真度。

多语言合成方面(表 13),VoxCPM2 在 8 种语言上的平均 N-MOS 最高,达 4.78,同时保持了有竞争力的 S-MOS(4.66)。

可控生成方面(表 14),VoxCPM2 取得了有竞争力的 N-MOS(4.48)与最高的 I-MOS(4.50),体现了优越的指令遵从能力。

总体而言,主观结果与客观指标的趋势基本一致。通过渐进式训练课程,VoxCPM2 成功将多语言、零样本克隆、可控能力整合进单一统一模型,在所有评测维度上都达到了与专用系统相当甚至更优的性能。

同时,这些结果也表明,说话人嵌入余弦相似度(SIM)等客观指标并不总能完全反映感知到的克隆质量------人类听者往往对一些细粒度的个人特征与说话风格一致性更敏感。

表 12:零样本语音克隆主观评测

N-MOS 与 S-MOS 报告 95% 置信区间。

系统 N-MOS ↑ S-MOS ↑
IndexTTS2 4.78 ± 0.02 4.71 ± 0.03
Qwen3-TTS 4.80 ± 0.02 4.69 ± 0.03
Fish Audio S2 4.77 ± 0.02 4.69 ± 0.03
LongCat-Audio-DiT 4.63 ± 0.03 4.65 ± 0.03
VoxCPM2 4.78 ± 0.02 4.74 ± 0.03

表 13:多语言合成主观评测

N-MOS 为所有系统共同支持的 8 种语言(德、英、西、法、日、韩、俄、中)的平均值,数据来自 MiniMax-MLS-Test。

系统 N-MOS ↑ S-MOS ↑
OmniVoice 4.76 ± 0.02 4.72 ± 0.02
Qwen3-TTS 4.77 ± 0.02 4.60 ± 0.03
Fish Audio S2 4.76 ± 0.02 4.70 ± 0.03
VoxCPM2 4.78 ± 0.02 4.66 ± 0.03

表 14:可控生成主观结果

I-MOS 评价语音对文本音色设计指令的遵从程度。

系统 N-MOS ↑ I-MOS ↑
VoiceSculptor 3.69 ± 0.07 3.56 ± 0.07
Qwen3-TTS-VD 4.61 ± 0.03 4.41 ± 0.04
MOSS-VoiceGenerator 4.31 ± 0.05 4.15 ± 0.05
VoxCPM2 4.48 ± 0.04 4.50 ± 0.03