OmniVoice 中文便携版发布：600+语言语音克隆，解压即用，无需配环境！

你是否想体验最先进的开源 TTS 模型，却被繁琐的环境配置劝退？

今天给大家带来一个开箱即用的 OmniVoice Windows 便携版，内置完整环境 + 预下载模型 + 全中文界面，双击就能跑！

📺 点击观看：BV1rSduBKEyr

一、OmniVoice 是什么？

OmniVoice 是小米 AI 实验室新一代 Kaldi 团队开源的文本转语音（TTS）大模型，具备两大核心能力：

🔊 声音克隆：只需 3-10 秒参考音频，即可克隆任意人的声音
🎨 声音设计：通过选择性别、年龄、音调、口音等属性，自由创造虚拟角色声音

更厉害的是，它支持 600+ 种语言，包括中文、英语、日语、韩语及各类方言，是目前开源界语言覆盖最广的 TTS 模型之一。

二、为什么做便携版？

官方项目虽然强大，但上手门槛不低：

❌ 需要安装 Python、PyTorch、ffmpeg
❌ 需要配置 HuggingFace 环境下载 3GB+ 模型
❌ 界面全英文，对国内用户不够友好
❌ 各种 DLL 缺失、CUDA 版本冲突问题

于是我把整个运行环境（Python 3.11 + PyTorch + ffmpeg + VC++ 运行库）、预下载好的模型、以及汉化后的 Gradio 界面全部打包，做成了一键启动的便携版：

✅ 解压即用，无需安装任何环境
✅ 全中文界面，标签、按钮、提示均已翻译
✅ 模型内置，无需等待下载
✅ HF-Mirror 加速，国内网络友好
✅ CPU / GPU 双版本，有无显卡都能用

三、系统要求

版本	硬件要求	磁盘空间
CPU 版	任意 Windows 电脑	~7GB
GPU 版	NVIDIA 显卡（建议 6GB+ 显存）	~10GB

路径要求：解压目录不要含中文或空格 ，例如 D:\OmniVoice

四、快速开始（3 步上手）

1. 下载

📦 夸克网盘下载：

🔗 https://pan.quark.cn/s/02dedfaa588c

网盘内含 CPU 版和 GPU 版两个压缩包，根据你的电脑配置选择即可。

2. 解压

将压缩包解压到任意英文路径，例如 D:\OmniVoice

目录结构如下：

复制代码

OmniVoice/
├── app/              # OmniVoice 源码（已汉化）
├── models/hub/       # 预下载模型（~3.6GB）
├── runtime/          # 完整 Python 运行环境
│   ├── ffmpeg/bin/   # ffmpeg
│   ├── python/       # Python 3.11 + 全部依赖
│   └── vcredist/     # VC++ 运行库
├── start-demo.bat        # 启动 Web 界面（完整版）
├── start-demo-fast.bat   # 快速启动（跳过 ASR）
├── start-infer.bat       # 命令行单条推理
├── start-infer-batch.bat # 命令行批量推理
└── README.md

3. 运行

双击 start-demo.bat，等待模型加载完成，浏览器会自动打开 http://localhost:8001

五、功能体验

🎙️ 声音克隆

上传一段 3-10 秒的参考音频，输入你想合成的文本，点击"生成"，就能得到克隆声音朗读的音频。

技巧：参考音频尽量干净、无背景噪音，效果会更好。

🎛️ 声音设计

不擅长找参考音频？没关系！在"声音设计"标签页，你可以像捏脸一样"捏声音"：

属性	可选项
性别	男 / 女
年龄	儿童 / 少年 / 青年 / 中年 / 老年
音调	极低 / 低 / 中 / 高 / 极高
英文口音	美式 / 英式 / 澳式 / 中式 / 日式等 10 种
中文方言	河南话 / 四川话 / 东北话 / 广东话等 12 种

⚙️ 高级参数（可折叠面板）

语速：1.0 正常，>1 更快，<1 更慢
推理步数：默认 32，越低越快、越高越稳
降噪：建议开启，可消除生成音频中的杂音
引导比例（CFG）：默认 2.0，控制声音与描述的匹配度

六、启动脚本说明

脚本	功能	特点
`start-demo.bat`	Web 界面完整版	包含 Whisper ASR，可自动转录参考音频
`start-demo-fast.bat`	Web 界面快速版	跳过 ASR 加载，启动更快
`start-infer.bat`	命令行推理	适合批量处理或集成到工作流

七、技术细节

模型：k2-fsa/OmniVoice（~3GB）
ASR：openai/whisper-tiny（~40MB，用于自动转录）
Python：3.11.9 嵌入式
PyTorch：2.6.0+cpu（CPU 版）/ 2.6.0+cu124（GPU 版）
加速：hf-mirror.com 镜像，国内下载无忧
语言：600+ 种，自动检测

八、常见问题

Q：启动时提示找不到 VCRUNTIME140.dll？

已内置 VC++ 运行库，请确认 runtime/vcredist/ 目录存在。如仍报错，可尝试安装微软 VC++ Redistributable。

Q：杀毒软件拦截？

腾讯电脑管家等可能误报 PyTorch DLL，添加信任目录即可。

Q：模型加载很慢？

首次启动需要加载 ~3GB 模型到内存/显存，请耐心等待。后续启动会利用缓存加速。

Q：GPU 版启动报错 "No CUDA GPUs are available"？

请确认已安装 NVIDIA 显卡驱动，且显卡支持 CUDA。

九、结语

OmniVoice 是目前开源 TTS 领域非常值得一试的项目，无论是做有声书、视频配音、虚拟主播，还是单纯的 AI 语音实验，都有很高的可玩性。

这个便携版花了几天时间打磨，从环境配置、DLL 修复、模型缓存、中文翻译到最终打包，希望能帮大家省去踩坑的时间，开箱即用地体验 AI 语音的魅力。

如果觉得有用，欢迎点赞收藏，有问题也可以在评论区交流 👇

📌 再次放上下载链接：https://pan.quark.cn/s/02dedfaa588c

网盘内有 CPU 版和 GPU 版，按需下载即可。