OmniVoice 中文便携版发布:600+语言语音克隆,解压即用,无需配环境!

OmniVoice 中文便携版发布:600+语言语音克隆,解压即用,无需配环境!

你是否想体验最先进的开源 TTS 模型,却被繁琐的环境配置劝退?

今天给大家带来一个开箱即用的 OmniVoice Windows 便携版,内置完整环境 + 预下载模型 + 全中文界面,双击就能跑!


📺 点击观看:BV1rSduBKEyr

一、OmniVoice 是什么?

OmniVoice 是小米 AI 实验室新一代 Kaldi 团队开源的文本转语音(TTS)大模型,具备两大核心能力:

  • 🔊 声音克隆:只需 3-10 秒参考音频,即可克隆任意人的声音
  • 🎨 声音设计:通过选择性别、年龄、音调、口音等属性,自由创造虚拟角色声音

更厉害的是,它支持 600+ 种语言,包括中文、英语、日语、韩语及各类方言,是目前开源界语言覆盖最广的 TTS 模型之一。


二、为什么做便携版?

官方项目虽然强大,但上手门槛不低:

  • ❌ 需要安装 Python、PyTorch、ffmpeg
  • ❌ 需要配置 HuggingFace 环境下载 3GB+ 模型
  • ❌ 界面全英文,对国内用户不够友好
  • ❌ 各种 DLL 缺失、CUDA 版本冲突问题

于是我把整个运行环境(Python 3.11 + PyTorch + ffmpeg + VC++ 运行库)、预下载好的模型、以及汉化后的 Gradio 界面全部打包,做成了一键启动的便携版:

  • 解压即用,无需安装任何环境
  • 全中文界面,标签、按钮、提示均已翻译
  • 模型内置,无需等待下载
  • HF-Mirror 加速,国内网络友好
  • CPU / GPU 双版本,有无显卡都能用

三、系统要求

版本 硬件要求 磁盘空间
CPU 版 任意 Windows 电脑 ~7GB
GPU 版 NVIDIA 显卡(建议 6GB+ 显存) ~10GB

路径要求:解压目录不要含中文或空格 ,例如 D:\OmniVoice


四、快速开始(3 步上手)

1. 下载

📦 夸克网盘下载

🔗 https://pan.quark.cn/s/02dedfaa588c

网盘内含 CPU 版和 GPU 版两个压缩包,根据你的电脑配置选择即可。

2. 解压

将压缩包解压到任意英文路径,例如 D:\OmniVoice

目录结构如下:

复制代码
OmniVoice/
├── app/              # OmniVoice 源码(已汉化)
├── models/hub/       # 预下载模型(~3.6GB)
├── runtime/          # 完整 Python 运行环境
│   ├── ffmpeg/bin/   # ffmpeg
│   ├── python/       # Python 3.11 + 全部依赖
│   └── vcredist/     # VC++ 运行库
├── start-demo.bat        # 启动 Web 界面(完整版)
├── start-demo-fast.bat   # 快速启动(跳过 ASR)
├── start-infer.bat       # 命令行单条推理
├── start-infer-batch.bat # 命令行批量推理
└── README.md

3. 运行

双击 start-demo.bat,等待模型加载完成,浏览器会自动打开 http://localhost:8001


五、功能体验

🎙️ 声音克隆

上传一段 3-10 秒的参考音频,输入你想合成的文本,点击"生成",就能得到克隆声音朗读的音频。

技巧:参考音频尽量干净、无背景噪音,效果会更好。

🎛️ 声音设计

不擅长找参考音频?没关系!在"声音设计"标签页,你可以像捏脸一样"捏声音":

属性 可选项
性别 男 / 女
年龄 儿童 / 少年 / 青年 / 中年 / 老年
音调 极低 / 低 / 中 / 高 / 极高
英文口音 美式 / 英式 / 澳式 / 中式 / 日式 等 10 种
中文方言 河南话 / 四川话 / 东北话 / 广东话 等 12 种

⚙️ 高级参数(可折叠面板)

  • 语速:1.0 正常,>1 更快,<1 更慢
  • 推理步数:默认 32,越低越快、越高越稳
  • 降噪:建议开启,可消除生成音频中的杂音
  • 引导比例(CFG):默认 2.0,控制声音与描述的匹配度

六、启动脚本说明

脚本 功能 特点
start-demo.bat Web 界面完整版 包含 Whisper ASR,可自动转录参考音频
start-demo-fast.bat Web 界面快速版 跳过 ASR 加载,启动更快
start-infer.bat 命令行推理 适合批量处理或集成到工作流

七、技术细节

  • 模型:k2-fsa/OmniVoice(~3GB)
  • ASR:openai/whisper-tiny(~40MB,用于自动转录)
  • Python:3.11.9 嵌入式
  • PyTorch:2.6.0+cpu(CPU 版)/ 2.6.0+cu124(GPU 版)
  • 加速hf-mirror.com 镜像,国内下载无忧
  • 语言:600+ 种,自动检测

八、常见问题

Q:启动时提示找不到 VCRUNTIME140.dll?

已内置 VC++ 运行库,请确认 runtime/vcredist/ 目录存在。如仍报错,可尝试安装微软 VC++ Redistributable。

Q:杀毒软件拦截?

腾讯电脑管家等可能误报 PyTorch DLL,添加信任目录即可。

Q:模型加载很慢?

首次启动需要加载 ~3GB 模型到内存/显存,请耐心等待。后续启动会利用缓存加速。

Q:GPU 版启动报错 "No CUDA GPUs are available"?

请确认已安装 NVIDIA 显卡驱动,且显卡支持 CUDA。


九、结语

OmniVoice 是目前开源 TTS 领域非常值得一试的项目,无论是做有声书、视频配音、虚拟主播,还是单纯的 AI 语音实验,都有很高的可玩性。

这个便携版花了几天时间打磨,从环境配置、DLL 修复、模型缓存、中文翻译到最终打包,希望能帮大家省去踩坑的时间,开箱即用地体验 AI 语音的魅力

如果觉得有用,欢迎点赞收藏,有问题也可以在评论区交流 👇


📌 再次放上下载链接https://pan.quark.cn/s/02dedfaa588c

网盘内有 CPU 版和 GPU 版,按需下载即可。

相关推荐
GitCode官方9 天前
小米 MiMo‑V2.5 系列开源,正式入驻 AtomGit!旗舰模型完成全球多家主流芯⽚⼚商深度适配
开源·小米·atomgit
嵌入式小企鹅9 天前
CPU供需趋紧、DeepSeek V4全链适配、小米开源万亿模型
人工智能·学习·开源·嵌入式·小米·算力·昇腾
今夕资源网1 个月前
IndexTTS2最新版一键包 支持情绪控制 支持声音停顿 多音字读音控制 声音拉长 支持50系列显卡
声音克隆·语音克隆·indextts2·ai语音克隆·indextts2最新版·语音克隆软件·情绪控制
●VON2 个月前
旗舰基座大模型 MiMo-V2-Pro 初体验与实战指南
学习·小米·模型·von·mimo-v2-pro
xcLeigh3 个月前
告别配音难!Index-TTS 零样本克隆声音,搭配 cpolar 随时随地用超香
音频·cpolar·语音·声音克隆·配音·index-tts·tts推理
weisian1514 个月前
入门篇--知名企业-33-小米集团:从“性价比手机”到“人车家全生态”,一场静默而宏大的科技跃迁
人工智能·科技·智能手机·小米
skywalk81634 个月前
小米大模型mimo-v2-flash简单接触
人工智能·小米
禾从道5 个月前
「杂想」未来的AI电子设备和胡思乱想。
人工智能·智能手机·创业创新·小米·豆包手机
uncle_ll5 个月前
音画同步革命:IndexTTS2深度解析——B站开源的情感化+时长可控TTS新标杆
nlp·tts·文本转语音·声音克隆