封神级 TTS!VoxCPM2 凭连续表征,玩转多语言合成 + 创意音色 + 无损声纹克隆

VoxCPM2 是 OpenBMB(面壁智能)联合清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)等机构推出的开源 TTS(Text-to-Speech)模型,是 VoxCPM 系列的最新大版本。

VoxCPM 是一个无离散音频分词器 (Tokenizer-Free)的语音合成系统,通过端到端的扩散自回归架构直接生成连续语音表征,绕过对音频的离散编码步骤,实现高度自然且富有表现力的语音合成。

VoxCPM2 是最新的版本 --- 基于 MiniCPM-4 基座构建,总计 20亿 参数,在超过 200万小时 的多语种音频数据上训练,支持 30种全球语言+9种中文方言音色设计可控声音克隆 ,原生输出 48kHz 高质量音频。

🎛️ 核心技术亮点:基于连续表征的 Tokenizer-Free 架构

传统 TTS 通常依赖​离散音频分词器​(Tokenizer),将语音编码成有限的 token 序列,这容易导致信息损失、表现力不足和音色细节丢失。

VoxCPM2 采用​端到端扩散自回归(Diffusion Autoregressive)架构 ​,直接在连续语音表征空间中建模和生成:

  • 架构流程:LocEnc(局部编码器)→ TSLM(时序语言模型)→ RALM(参考注意力语言模型)→ LocDiT(局部扩散 Transformer)。
  • AudioVAE V2:支持 16kHz 输入 → 48kHz 高保真输出。
  • 骨干模型 :基于 MiniCPM-4,总参数量 2B
  • 训练数据 :超过 200 万小时 多语言语音数据。
  • LM Token Rate:6.25 Hz,支持较长序列(最大 8192 tokens)。

这种连续表征方式保留了更多原始声学细节、情感、呼吸、韵律等信息,生成语音更自然、富有表现力,尤其在声音克隆和跨语言迁移上优势明显。

资源链接

✨ 核心特性

  • 🌍 30种语言语音合成 --- 直接输入原始文本即可合成(支持语言详见下文),无需额外语言标签
  • 🎨 音色设计 --- 用自然语言描述(性别、年龄、音色、情绪、语速......)凭空创建全新音色,无需参考音频
  • 🎛️ 可控声音克隆 --- 从参考音频片段克隆任意声音,可叠加风格指令控制情绪、语速和表现力,同时保持原始音色
  • 🎙️ 极致克隆 --- 提供参考音频及其文本内容,模型接着参考音频进行无缝续写,从而精准还原声音细节特征(与 VoxCPM1.5 一致)
  • 🔊 48kHz 高质量音频 --- 输入 16kHz 参考音频,通过 AudioVAE V2 的非对称编解码设计直接输出 48kHz 高质量音频,内置超分能力
  • 🧠 语境感知合成 --- 根据文本内容自动推断合适的韵律和表现力
  • 实时流式合成 --- 在 NVIDIA RTX 4090 上 RTF 低至 ~0.3,通过 Nano-vLLMvLLM-Omni(官方 vLLM 全模态服务,原生支持 VoxCPM2,提供 PagedAttention 与 OpenAI 兼容 API)加速后可达 ~0.13
  • 📜 完全开源,商用就绪 --- 权重和代码基于 Apache-2.0 协议发布,免费商用

🌍 支持的语言(30种)
阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、菲律宾语、泰语、土耳其语、越南语

中国方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话


📦 模型与版本

VoxCPM2 VoxCPM1.5 VoxCPM-0.5B
状态 🟢 最新版本 稳定版 旧版
主模型参数量 2B 0.6B 0.5B
音频采样率 48kHz 44.1kHz 16kHz
LM处理码率 6.25Hz 6.25Hz 12.5Hz
语言支持数量 30 2(中文、英文) 2(中文、英文)
克隆模式 隔离参考音频(无需文本) & 音频续写 仅音频续写 仅音频续写
音色设计 --- ---
可控声音克隆 --- ---
SFT / LoRA
RTF (RTX 4090) ~0.30 ~0.15 ~0.17
RTF Nano-VLLM (RTX 4090) ~0.13 ~0.08 ~0.10
显存占用 ~8 GB ~6 GB ~5 GB
模型权重 🤗 HF / MS 🤗 HF / MS 🤗 HF / MS
技术报告 即将发布 --- arXiv ICLR 2026
Demo 页面 音频示例 --- 音频示例

VoxCPM2 采用连续音频表征、扩散自回归 范式,模型在 AudioVAE 的连续隐空间中通过四阶段处理:LocEnc → TSLM → RALM → LocDiT,实现丰富的表现力语音合成和 48kHz 原生音频输出。


📊 性能评测

VoxCPM2 在公开的零样本和可控 TTS 基准测试中取得了 SOTA 或可比的结果。

Seed-TTS-eval

Seed-TTS-eval WER(⬇)&SIM(⬆) 结果(点击展开)

Model Parameters Open-Source test-EN test-ZH test-Hard
WER/%⬇ SIM/%⬆ CER/%⬇ SIM/%⬆ CER/%⬇ SIM/%⬆
MegaTTS3 0.5B 2.79 77.1 1.52 79.0 - -
DiTAR 0.6B 1.69 73.5 1.02 75.3 - -
CosyVoice3 0.5B 2.02 71.8 1.16 78.0 6.08 75.8
CosyVoice3 1.5B 2.22 72.0 1.12 78.1 5.83 75.8
Seed-TTS - 2.25 76.2 1.12 79.6 7.59 77.6
MiniMax-Speech - 1.65 69.2 0.83 78.3 - -
F5-TTS 0.3B 2.00 67.0 1.53 76.0 8.67 71.3
MaskGCT 1B 2.62 71.7 2.27 77.4 - -
CosyVoice 0.3B 4.29 60.9 3.63 72.3 11.75 70.9
CosyVoice2 0.5B 3.09 65.9 1.38 75.7 6.83 72.4
SparkTTS 0.5B 3.14 57.3 1.54 66.0 - -
FireRedTTS 0.5B 3.82 46.0 1.51 63.5 17.45 62.1
FireRedTTS-2 1.5B 1.95 66.5 1.14 73.6 - -
Qwen2.5-Omni 7B 2.72 63.2 1.70 75.2 7.97 74.7
Qwen3-Omni 30B-A3B 1.39 - 1.07 - - -
OpenAudio-s1-mini 0.5B 1.94 55.0 1.18 68.5 23.37 64.3
IndexTTS2 1.5B 2.23 70.6 1.03 76.5 7.12 75.5
VibeVoice 1.5B 3.04 68.9 1.16 74.4 - -
HiggsAudio-v2 3B 2.44 67.7 1.50 74.0 55.07 65.6
VoxCPM-0.5B 0.6B 1.85 72.9 0.93 77.2 8.87 73.0
VoxCPM1.5 0.8B 2.12 71.4 1.18 77.0 7.74 73.1
MOSS-TTS 1.85 73.4 1.20 78.8 - -
Qwen3-TTS 1.7B 1.23 71.7 1.22 77.0 6.76 74.8
FishAudio S2 4B 0.99 - 0.54 - 5.99 -
LongCat-Audio-DiT 3.5B 1.50 78.6 1.09 81.8 6.04 79.7
VoxCPM2 2B 1.84 75.3 0.97 79.5 8.13 75.3

CV3-eval

CV3-eval 多语言 WER/CER(⬇) 结果(点击展开)

Model zh en hard-zh hard-en ja ko de es fr it ru
CosyVoice2 4.08 6.32 12.58 11.96 9.13 19.7 - - - - -
CosyVoice3-1.5B 3.91 4.99 9.77 10.55 7.57 5.69 6.43 4.47 11.8 10.5 6.64
Fish Audio S2 2.65 2.43 9.10 4.40 3.96 2.76 2.22 2.00 6.26 2.04 2.78
VoxCPM2 3.65 5.00 8.55 8.48 5.96 5.69 4.77 3.80 9.85 4.25 5.21

MiniMax-Multilingual-Test

Minimax-MLS-test WER(⬇) 结果(点击展开)

Language Minimax ElevenLabs Qwen3-TTS FishAudio S2 VoxCPM2
Arabic 1.665 1.666 -- 3.500 13.046
Cantonese 34.111 51.513 -- 30.670 38.584
Chinese 2.252 16.026 0.928 0.730 1.136
Czech 3.875 2.108 -- 2.840 24.132
Dutch 1.143 0.803 -- 0.990 0.913
English 2.164 2.339 0.934 1.620 2.289
Finnish 4.666 2.964 -- 3.330 2.632
French 4.099 5.216 2.858 3.050 4.534
German 1.906 0.572 1.235 0.550 0.679
Greek 2.016 0.991 -- 5.740 2.844
Hindi 6.962 5.827 -- 14.640 19.699
Indonesian 1.237 1.059 -- 1.460 1.084
Italian 1.543 1.743 0.948 1.270 1.563
Japanese 3.519 10.646 3.823 2.760 4.628
Korean 1.747 1.865 1.755 1.180 1.962
Polish 1.415 0.766 -- 1.260 1.141
Portuguese 1.877 1.331 1.526 1.140 1.938
Romanian 2.878 1.347 -- 10.740 21.577
Russian 4.281 3.878 3.212 2.400 3.634
Spanish 1.029 1.084 1.126 0.910 1.438
Thai 2.701 73.936 -- 4.230 2.961
Turkish 1.52 0.699 -- 0.870 0.817
Ukrainian 1.082 0.997 -- 2.300 6.316
Vietnamese 0.88 73.415 -- 7.410 3.307

Minimax-MLS-test SIM(⬆) 结果(点击展开)

Language Minimax ElevenLabs Qwen3-TTS FishAudio S2 VoxCPM2
Arabic 73.6 70.6 -- 75.0 79.1
Cantonese 77.8 67.0 -- 80.5 83.5
Chinese 78.0 67.7 79.9 81.6 82.5
Czech 79.6 68.5 -- 79.8 78.3
Dutch 73.8 68.0 -- 73.0 80.8
English 75.6 61.3 77.5 79.7 85.4
Finnish 83.5 75.9 -- 81.9 89.0
French 62.8 53.5 62.8 69.8 73.5
German 73.3 61.4 77.5 76.7 80.3
Greek 82.6 73.3 -- 79.5 86.0
Hindi 81.8 73.0 -- 82.1 85.6
Indonesian 72.9 66.0 -- 76.3 80.0
Italian 69.9 57.9 81.7 74.7 78.0
Japanese 77.6 73.8 78.8 79.6 82.8
Korean 77.6 70.0 79.9 81.7 83.3
Polish 80.2 72.9 -- 81.9 88.4
Portuguese 80.5 71.1 81.7 78.1 83.7
Romanian 80.9 69.9 -- 73.3 79.7
Russian 76.1 67.6 79.2 79.0 81.1
Spanish 76.2 61.5 81.4 77.6 83.1
Thai 80.0 58.8 -- 78.6 84.0
Turkish 77.9 59.6 -- 83.5 87.1
Ukrainian 73.0 64.7 -- 74.7 79.8
Vietnamese 74.3 36.9 -- 74.0 80.6

Internal 30-Language ASR Benchmark

我们额外进行了内部多语言可懂度评测:30 语种 × 500 样本 ,ASR 转写评估使用 Gemini 3.1 Flash Lite API
内部30语种评测集ASR结果(点击展开)

语言 指标 VoxCPM2 Fish S2-Pro
ar (阿拉伯语) CER 1.23% 0.30%
da (丹麦语) WER 2.70% 3.52%
de (德语) WER 0.96% 0.64%
el (希腊语) WER 3.17% 4.61%
en (英语) WER 0.42% 1.03%
es (西班牙语) WER 1.33% 0.64%
fi (芬兰语) WER 2.24% 2.80%
fr (法语) WER 2.16% 2.34%
he (希伯来语) CER 2.98% 15.27%
hi (印地语) CER 0.79% 0.91%
id (印尼语) WER 1.36% 1.68%
it (意大利语) WER 1.65% 1.08%
ja (日语) CER 2.40% 1.82%
km (高棉语) CER 2.05% 75.15%
ko (韩语) CER 0.95% 0.29%
lo (老挝语) CER 1.90% 87.40%
ms (马来语) WER 1.75% 1.41%
my (缅甸语) CER 1.42% 85.27%
nl (荷兰语) WER 1.25% 1.68%
no (挪威语) WER 2.49% 3.76%
pl (波兰语) WER 1.90% 1.65%
pt (葡萄牙语) WER 1.48% 1.49%
ru (俄语) WER 0.90% 0.86%
sv (瑞典语) WER 2.22% 2.63%
sw (斯瓦希里语) CER 1.07% 2.02%
th (泰语) CER 0.94% 1.92%
tl (菲律宾语) WER 2.63% 4.00%
tr (土耳其语) WER 1.65% 1.65%
vi (越南语) WER 1.56% 5.56%
zh (中文) CER 0.92% 1.02%
平均(30 语种) 1.68% -

InstructTTSEval

指令驱动音色设计结果 (点击展开)

Model InstructTTSEval-ZH InstructTTSEval-EN
APS⬆ DSD⬆ RP⬆ APS⬆ DSD⬆ RP⬆
Hume -- -- -- 83.0 75.3 54.3
VoxInstruct 47.5 52.3 42.6 54.9 57.0 39.3
Parler-tts-mini -- -- -- 63.4 48.7 28.6
Parler-tts-large -- -- -- 60.0 45.9 31.2
PromptTTS -- -- -- 64.3 47.2 31.4
PromptStyle -- -- -- 57.4 46.4 30.9
VoiceSculptor 75.7 64.7 61.5 -- -- --
Mimo-Audio-7B-Instruct 75.7 74.3 61.5 80.6 77.6 59.5
Qwen3TTS-12Hz-1.7B-VD 85.2 81.1 65.1 82.9 82.4 68.4
VoxCPM2 85.2 71.5 60.8 84.2 83.2 71.4

⚙️ 微调

VoxCPM 支持全参数微调(SFT)LoRA 微调 。仅需 5-10分钟 的音频数据,即可适配特定说话人、语言或领域。

bash 复制代码
# LoRA 微调(参数高效,推荐)
python scripts/train_voxcpm_finetune.py \
    --config_path conf/voxcpm_v2/voxcpm_finetune_lora.yaml

# 全参数微调
python scripts/train_voxcpm_finetune.py \
    --config_path conf/voxcpm_v2/voxcpm_finetune_all.yaml

# WebUI 训练与推理
python lora_ft_webui.py   # 然后打开 http://localhost:7860

完整指南 → 微调文档(数据准备、配置、训练、LoRA 热切换、常见问题)


📚 文档

完整文档:voxcpm.readthedocs.io

主题 链接
快速开始与安装 快速开始
使用指南与 Cookbook 使用指南
VoxCPM 系列模型 模型列表
微调(SFT & LoRA) 微调指南
常见问题 FAQ

🌟 生态与社区

项目 说明
Nano-vLLM 高吞吐快速 GPU 推理引擎
vLLM-Omni 官方 vLLM 全模态服务(原生支持 VoxCPM2)--- PagedAttention、OpenAI 兼容 API
VoxCPM.cpp GGML/GGUF:CPU、CUDA、Vulkan 推理
VoxCPM-ONNX ONNX 导出,支持 CPU 推理
VoxCPMANE Apple Neural Engine 后端
voxcpm_rs Rust 重新实现
ComfyUI-VoxCPM ComfyUI 节点工作流
ComfyUI_RH_VoxCPM 面向 VoxCPM 2 的功能更完整的 ComfyUI 工作流,支持多说话人、LoRA 和自动 ASR
ComfyUI-VoxCPMTTS ComfyUI TTS 扩展
TTS WebUI 浏览器端 TTS 扩展

完整生态见文档。社区项目非 OpenBMB 官方维护。


相关推荐
SCBAiotAigc1 小时前
2026.5.1:`DockerDesktop must be owned by an elevated account`错误的解决办法
人工智能·docker·具身智能
码流怪侠1 小时前
【GitHub】andrej-karpathy-skills:让 AI 编程助手告别三大通病
人工智能·程序员·github
user29876982706541 小时前
九、深入 Claude Code CLI 源码:Bridge/Remote Control 远程执行
人工智能
码流怪侠1 小时前
【GitHub】OpenClaw:开源个人AI助手的新标杆
人工智能·程序员·github
码农小白AI1 小时前
AI报告审核 IACheck:质量证明文件从“看得懂”走向“说得准”,术语一致性成为合规关键
人工智能
qq_283720051 小时前
Vibe Coding 氛围编程入门教程:AI 时代的全新开发范式(零基础到实战)
大数据·人工智能
wjcroom1 小时前
流体微元宇宙与伊辛拓扑体系的假象模型及实现路径
人工智能·物理学
zfh200506281 小时前
Open Claw Windows 一键部署教程(新手友好)
人工智能·open claw·小龙虾·open claw安装
kjmkq1 小时前
2026佛山鼎钻不锈钢一站式定制服务产业研究
人工智能