教程上新丨支持 600+ 语言,小米开源 OmniVoice:仅需 3-10 秒参考音频实现语音克隆

随着 AI 语音技术快速发展,文本转语音(TTS)模型正从「能说话」迈向「像真人一样自然交流」,但在多语言覆盖、零样本语音克隆以及复杂口音与方言支持等方面,现有系统仍普遍面临生成链路复杂、训练成本高、跨语言泛化能力有限等问题。

在这一背景下,OmniVoice 的发布,为多语言语音生成带来了新的突破。该模型由 Xiaomi AI Lab Next-gen Kaldi 团队推出,支持超过 600 种语言,并同时具备 Voice Clone、Voice Design 与 Auto Voice 等能力。相比传统 TTS 模型普遍采用的「文本→语义→声学」两阶段生成流程,OmniVoice 采用了一种类似扩散语言模型的离散非自回归(NAR)架构,可直接将文本映射为多码本声学 token,大幅简化了语音生成链路。

这种架构上的变化,不仅降低了传统离散 NAR 模型在复杂流程中的性能瓶颈,也让 OmniVoice 在语音自然度、可懂度以及跨语言一致性上取得了更好的表现。与此同时,模型还引入全码本随机掩码训练策略,并基于预训练大语言模型进行初始化,在提升训练效率的同时,进一步增强了语音生成质量。

更重要的是,OmniVoice 并不只是一个「支持多语言」的 TTS 模型。它不仅覆盖中文、英文、日文、韩文等主流语言,还支持河南话、四川话、东北话等中文方言,以及美式、英式、澳式、印度口音等多种英语变体。配合仅需数秒参考音频即可完成的零样本语音克隆能力,使其在 AI 配音、数字人、跨语言内容生成以及全球化语音交互等场景中展现出极强的应用潜力。

目前,OpenBayes 官网已上线「 OmniVoice:支持 600+ 语言的高质量 TTS 」教程, 一键即可启动,低门槛部署。

在线运行链接:

go.openbayes.com/0BfZi

demo 运行示例

Demo 运行

01 Demo 运行阶段

1.登录 OpenBayes.com,在「公共教程」页面,搜索并选择「OmniVoice:支持 600+ 语言的高质量 TTS」教程。

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

3.选择「NVIDIA RTX 5090」以及「PyTorch」,点击「继续执行」。新用户使用下方邀请链接注册,即可获得满 ¥10 赠 ¥10 优惠券,更有机会获得 ¥15 赠金!

小贝总专属邀请链接(直接复制到浏览器打开):

*go.openbayes.com/9S6Dr

4.等待分配资源,当状态变为「运行中」后,点击「打开工作空间」进入 Jupyter Workspace。

02 效果演示

1.页面跳转后,点击左侧 README.ipynb 文件,进入后运行文件。

2.待运行完成,即可点击右侧 API 地址跳转至 demo 页面。

教程链接:

go.openbayes.com/0BfZi

相关推荐
Ajie'Blog5 分钟前
Copilot Agent Tasks API 开放:AI 编程开始进入后台任务时代
服务器·前端·javascript·人工智能·copilot·ai编程
SEONIB_Explorer8 分钟前
AI SEO 与传统SEO成本对比:哪种更划算?
人工智能
一次旅行9 分钟前
AI领域每日资讯报告
人工智能
Python私教10 分钟前
Cursor + Claude Code 全流程实战:搭一套生产级 AI 编程工作流(2026 最新版)
人工智能·语言模型·qwen·ollama·本地大模型·大模型部署·deepseek
来让爷抱一个12 分钟前
MonkeyCode 的 Git 协作功能:团队开发新范式
人工智能·ai编程
幂律智能12 分钟前
当合同遇上AI:更高效、更智能、更省心
人工智能
ylscode13 分钟前
Anthropic Claude Oceanus意外泄露:Mythos系列AI红队测试遭遇API代理滥用危机
网络·人工智能·安全·web安全·安全威胁分析
weifengma-wish15 分钟前
Transformer 注意力为什么用内积? 而不用余弦相识度和cor等
人工智能·深度学习·transformer
糖果店的幽灵19 分钟前
Spring AI 从入门到精通-Embedding
人工智能·spring·embedding