OmniVoice 中文便携版发布:600+语言语音克隆,解压即用,无需配环境!
你是否想体验最先进的开源 TTS 模型,却被繁琐的环境配置劝退?
今天给大家带来一个开箱即用的 OmniVoice Windows 便携版,内置完整环境 + 预下载模型 + 全中文界面,双击就能跑!
一、OmniVoice 是什么?
OmniVoice 是小米 AI 实验室新一代 Kaldi 团队开源的文本转语音(TTS)大模型,具备两大核心能力:
- 🔊 声音克隆:只需 3-10 秒参考音频,即可克隆任意人的声音
- 🎨 声音设计:通过选择性别、年龄、音调、口音等属性,自由创造虚拟角色声音
更厉害的是,它支持 600+ 种语言,包括中文、英语、日语、韩语及各类方言,是目前开源界语言覆盖最广的 TTS 模型之一。
二、为什么做便携版?
官方项目虽然强大,但上手门槛不低:
- ❌ 需要安装 Python、PyTorch、ffmpeg
- ❌ 需要配置 HuggingFace 环境下载 3GB+ 模型
- ❌ 界面全英文,对国内用户不够友好
- ❌ 各种 DLL 缺失、CUDA 版本冲突问题
于是我把整个运行环境(Python 3.11 + PyTorch + ffmpeg + VC++ 运行库)、预下载好的模型、以及汉化后的 Gradio 界面全部打包,做成了一键启动的便携版:
- ✅ 解压即用,无需安装任何环境
- ✅ 全中文界面,标签、按钮、提示均已翻译
- ✅ 模型内置,无需等待下载
- ✅ HF-Mirror 加速,国内网络友好
- ✅ CPU / GPU 双版本,有无显卡都能用
三、系统要求
| 版本 | 硬件要求 | 磁盘空间 |
|---|---|---|
| CPU 版 | 任意 Windows 电脑 | ~7GB |
| GPU 版 | NVIDIA 显卡(建议 6GB+ 显存) | ~10GB |
路径要求:解压目录不要含中文或空格 ,例如
D:\OmniVoice
四、快速开始(3 步上手)
1. 下载
📦 夸克网盘下载:
网盘内含 CPU 版和 GPU 版两个压缩包,根据你的电脑配置选择即可。
2. 解压
将压缩包解压到任意英文路径,例如 D:\OmniVoice
目录结构如下:
OmniVoice/
├── app/ # OmniVoice 源码(已汉化)
├── models/hub/ # 预下载模型(~3.6GB)
├── runtime/ # 完整 Python 运行环境
│ ├── ffmpeg/bin/ # ffmpeg
│ ├── python/ # Python 3.11 + 全部依赖
│ └── vcredist/ # VC++ 运行库
├── start-demo.bat # 启动 Web 界面(完整版)
├── start-demo-fast.bat # 快速启动(跳过 ASR)
├── start-infer.bat # 命令行单条推理
├── start-infer-batch.bat # 命令行批量推理
└── README.md
3. 运行
双击 start-demo.bat,等待模型加载完成,浏览器会自动打开 http://localhost:8001
五、功能体验
🎙️ 声音克隆
上传一段 3-10 秒的参考音频,输入你想合成的文本,点击"生成",就能得到克隆声音朗读的音频。
技巧:参考音频尽量干净、无背景噪音,效果会更好。
🎛️ 声音设计
不擅长找参考音频?没关系!在"声音设计"标签页,你可以像捏脸一样"捏声音":
| 属性 | 可选项 |
|---|---|
| 性别 | 男 / 女 |
| 年龄 | 儿童 / 少年 / 青年 / 中年 / 老年 |
| 音调 | 极低 / 低 / 中 / 高 / 极高 |
| 英文口音 | 美式 / 英式 / 澳式 / 中式 / 日式 等 10 种 |
| 中文方言 | 河南话 / 四川话 / 东北话 / 广东话 等 12 种 |
⚙️ 高级参数(可折叠面板)
- 语速:1.0 正常,>1 更快,<1 更慢
- 推理步数:默认 32,越低越快、越高越稳
- 降噪:建议开启,可消除生成音频中的杂音
- 引导比例(CFG):默认 2.0,控制声音与描述的匹配度
六、启动脚本说明
| 脚本 | 功能 | 特点 |
|---|---|---|
start-demo.bat |
Web 界面完整版 | 包含 Whisper ASR,可自动转录参考音频 |
start-demo-fast.bat |
Web 界面快速版 | 跳过 ASR 加载,启动更快 |
start-infer.bat |
命令行推理 | 适合批量处理或集成到工作流 |
七、技术细节
- 模型:k2-fsa/OmniVoice(~3GB)
- ASR:openai/whisper-tiny(~40MB,用于自动转录)
- Python:3.11.9 嵌入式
- PyTorch:2.6.0+cpu(CPU 版)/ 2.6.0+cu124(GPU 版)
- 加速:hf-mirror.com 镜像,国内下载无忧
- 语言:600+ 种,自动检测
八、常见问题
Q:启动时提示找不到 VCRUNTIME140.dll?
已内置 VC++ 运行库,请确认
runtime/vcredist/目录存在。如仍报错,可尝试安装微软 VC++ Redistributable。
Q:杀毒软件拦截?
腾讯电脑管家等可能误报 PyTorch DLL,添加信任目录即可。
Q:模型加载很慢?
首次启动需要加载 ~3GB 模型到内存/显存,请耐心等待。后续启动会利用缓存加速。
Q:GPU 版启动报错 "No CUDA GPUs are available"?
请确认已安装 NVIDIA 显卡驱动,且显卡支持 CUDA。
九、结语
OmniVoice 是目前开源 TTS 领域非常值得一试的项目,无论是做有声书、视频配音、虚拟主播,还是单纯的 AI 语音实验,都有很高的可玩性。
这个便携版花了几天时间打磨,从环境配置、DLL 修复、模型缓存、中文翻译到最终打包,希望能帮大家省去踩坑的时间,开箱即用地体验 AI 语音的魅力。
如果觉得有用,欢迎点赞收藏,有问题也可以在评论区交流 👇
📌 再次放上下载链接:https://pan.quark.cn/s/02dedfaa588c
网盘内有 CPU 版和 GPU 版,按需下载即可。