国产免费2B开源语音模型征服《莽撞人》!复刻郭德纲最难贯口

终于,郭德纲 最难的贯口------《莽撞人》,被免费的 2B 国产 AI 给复刻出来了!

图片和音频均为 AI 生成

不仅如此啊,这个语音模型是直接可以 cover 三十门外语的那种。

来听一下 30 种不同风格的 "你好":

如此好玩,还免费开源的国产语音模型,到底是何许 AI 是也?

不卖关子,它正是面壁智能 联合 OpenBMB 开源社区清华大学人机语音交互实验室 新升级的 VoxCPM 2

整体看下来,除了多语种、多方言之外,VoxCPM 2 在音色设计音色可控高表现力方面也是较为亮眼。

不少歪果仁在 VoxCPM 2 发布之后就立马去尝了下鲜,纷纷表示 "自家语言的效果针不戳!"

而且在音质方面,市面一般是 24000Hz,但 VoxCPM 2 这次直接拔高到了 48000Hz(CD 音质)!

这下子,游戏、动画、影视、有声书等领域的人可以说是有福了。

生成只需 1 秒钟的语音模型

开源的 VoxCPM 2,我们现在就可以在在线体验的网站上体验了(地址见文末):

接下来,我们就一起手把手,搓一个东北话版的**《火影忍者》**。

首先在界面的左上角,我们上传一段宋小宝的原声片段,大概 20 秒左右:

然后在它的下方,我们填一个 "东北话" 的指令,再把台词写进要合成的文本里,例如:

搁这儿用秽土转生跟我唠嗑,可真够损的奥。

最后点击下面的 "Generate Speech" 按钮,不到一秒钟的时间,宋小宝味儿的《火影》宇智波斑的台词就诞生了:

接下来,我们只需要配上一小段视频,齐活儿:

细心的小伙伴可能发现了,刚才宋小宝音频的 demo 里其实是有背景杂音的,但到视频里就没有了。

这其实是 VoxCPM 2 的参考音频降噪功能,只要勾选一下,声音就会变得清晰:

还有值得注意的是,视频里二代土影的声音,是没有上传任何参考音频的情况下生成。

如果你找不到合适的灵感,大可以让 VoxCPM 2 自由发挥。

然后如果想克隆声音的质量有保证,建议上传的参考音频尽量大于等于 5 秒;以及你还可以在 "Control Instruction" 里面添加提示词,改变参考声音的情绪和语速等等。

(但克隆声音的时候,是不能改变性别的哦~)

除此之外,还有 3 个小细节:

第一个是文本规范化,这是在你输入的台词里有日期、符号、阿拉伯数字等 AI 读不明白的内容时,你就可以点它,让 AI 读得规范起来。

第二个 CFG Value,它的作用是用来控制 AI 的听话程度,数值越高就越听你的要求,反之,AI 会自由发挥。

第三个就是 LocDiT,设置它的步数越高,音频效果就会越好,但生成的速度就会变慢。

除此之外,台词中间停顿的音效,现在可以用 [laughing](笑声)、[sigh](叹气)、[Uhm](嗯......)这些标签来控制:

总而言之,现在要玩儿逼真、有趣的声音,简直太简单了。

怎么做到的?

看到这里,肯定有不少的小伙伴要问了:

只有 2B 大小,还免费开源的语音模型,到底是怎么做到的?

来,咱们这就扒一波。

首先就是 VoxCPM 2 走了一条跟市面上大多数模型不太一样的路线------采用扩散自回归连续表征(Diffusion Autoregressive Continuous Representation)。

和市面上主流的 Token-based 传统方案不同的是,它是基于 Tokenizer-Free 的 TTS 系统来做的设计,通过端到端扩散自回归架构直接生成连续语音表征,实现了隐式语义 - 声学的解耦。

简单来说,传统方案在语音转换时极易出现信息损失,而这套技术能最大程度保留原始声音的声学细节、情感基调和方言特色。

这也就是它既能完美复刻周星驰配音的声色,又能把东北话、四川话说得地道入味的核心原因。

与此同时,这款模型的底气,还来自面壁智能深耕多年的高密度小模型技术壁垒。VoxCPM 2 完全基于面壁智能自研的 MiniCPM 基座打造,延续了系列模型 "小身板、大能量" 的特质。

此前 VoxCPM 系列就已经在 Hugging Face 斩获超千点赞、5.5k + 下载量,这次升级更是把多语种、高保真、音色可控等核心能力拉到了行业新高度。

更难得的是,VoxCPM 2 不止开源了完整的模型权重,更提供了从一键上手到大规模部署的全套工具链,支持原生 Torch 推理、LoRA 及全参数微调,还适配了多端 UI 扩展,上手使用变得超简单。

最后回到国产这个点。

放眼全球范围内,目前除了基座大模型牢牢占据了开源领先地位,在小模型、端侧模型上,中国公司也在持续领先。

体验地址:
voxcpm.modelbest.cn/

GtiHub 地址:
github.com/OpenBMB/Vox...

HuggingFace 地址:
huggingface.openbmb.com/model/openb...

--- ---

相关推荐
奇舞精选6 小时前
观察 AIRI 源码:一个 Agent 系统如何处理入口、扩展与执行闭环
前端·openai
梦鱼9 小时前
Codex Subagents 使用说明:跑多代理工作流
openai·ai编程
晨欣12 小时前
单卡 48GB 实测:Gemma 4 26B A4B、Gemma 4 31B、gpt-oss-20b 三模型部署与并发对比
google·openai·nvidia·vllm·llama.cpp·gpt-oss-20b·gemma4
马丁玩编程12 小时前
历时半年,开源了一套企业级 Agentic RAG 系统!
aigc·openai·ai编程
linux开发之路12 小时前
C++实现Whisper+Kimi端到端AI智能语音助手
c++·人工智能·llm·whisper·openai
码农BookSea1 天前
为什么ChatGPT能听懂你说的话?Embedding技术揭秘
后端·openai
少林码僧1 天前
2.5 学术界的“GPT”:DeepResearch 深度研究助手从零到一创建与配置指南
aigc·openai·ai编程
Lei活在当下1 天前
【Part 1】Harness Engineering 对程序员来说意味着什么?
chatgpt·openai·ai编程
摆烂工程师1 天前
Sora 还是关了:最像未来的 AI 产品,为什么先死了?
openai·视频编码·sora