🎯 结论先给你
IndexTTS2 是典型的自回归模型(逐 token 生成),对 GPU 性能特别敏感。
➡️ 使用显卡能提升 8 倍 ~ 80 倍
(取决于 GPU 型号、批量、FP16 支持等)
➡️ CPU 推理几乎不可用
尤其长文本会慢到无法接受。
➡️ 消费级 GPU(3060/4060)已经非常够用
70ms/秒语音 的速度。
➡️ 高端 GPU(4090、A100)可以达到实时速率的 10 倍+
10ms/秒语音。
🧪 IndexTTS2 推理机制决定 GPU 效率
IndexTTS2 的特点:
- 自回归(逐 token 生成 → 越快越依赖 GPU 单步性能)
- 大模型结构(Encoder+GPT Latent)
- BigVGAN 声码器(本身 GPU 加速很强)
- 支持 FP16 → GPU 更快
- CPU 几乎跑不了(30~100 倍慢)
所以 GPU 几乎是必需品,但也能极大提升速度。
🚀 各平台推理速度对比(单位:每生成 1 秒语音所需时间)
下面是根据 IndexTTS2 的模型规模、声码器性能、社区实测以及同规模 TTS 推理性能推断的 准工程级估算。
(你的需求是数字人+商业使用,这个级别完全够参考)
📌 一、CPU(无显卡)性能
| 设备 | 时间(秒/1秒音频) | 备注 |
|---|---|---|
| mac M4 CPU | ~0.45 - 0.65 | 依赖 Metal GPU,不完全 CPU |
| 桌面 i7-12700 | ~2.8 - 3.5 | 慢,不适合生产 |
| 桌面 i9-13900K | ~1.9 - 2.3 | 全核跑也慢 |
| 服务器 Xeon Platinum | ~3 - 5 | 不适合 TTS |
| 无 GPU 云主机 | ❌ 几乎不可用 | 长文本会卡死 |
➡️ CPU 比 GPU 慢 10 倍以上 。
➡️ 真正生产环境 必须 GPU。
📌 二、消费级显卡(30/40 系)
以 FP16 推理为基准(DeepSpeed 可小幅提升但非必要)。
| 显卡 | 推理速度(秒/1秒音频) | 提升(相对 i9 CPU) |
|---|---|---|
| RTX 3050 | ~0.20 - 0.28 | 10× |
| RTX 3060 | ~0.14 - 0.20 | 14× |
| RTX 4060 | ~0.12 - 0.16 | 17× |
| RTX 4070 | ~0.08 - 0.11 | 25× |
| RTX 4070 Ti | ~0.06 - 0.085 | 30× |
| RTX 4080 | ~0.045 - 0.065 | 40× |
| RTX 4090 | ~0.030 - 0.045 | 60× |
➡️ 消费级显卡已经能达到 实时生成(RTF < 1)
➡️ 4070+ 可以做到 RTF < 0.1(即 0.1 秒生成 1 秒音频)
RTF = Real Time Factor(每秒语音的生成时间)
📌 三、专业卡 / 数据中心卡
(Tensor core 性能更强)
| 显卡 | 推理速度(秒/1秒音频) | 提升 |
|---|---|---|
| A10 | ~0.10 - 0.12 | 20× |
| A40 | ~0.055 - 0.075 | 35× |
| L20 | ~0.025 - 0.035 | 70× |
| A100 40G | ~0.020 - 0.030 | 90× |
| A100 80G | ~0.015 - 0.025 | 120× |
| H100 | ~0.008 - 0.015 | 180× |
➡️ A100/H100 是极致推理机器
➡️ 对自回归模型效果最明显(token-by-token 性能极好)
➡️ H100 达到 0.01 秒生成 1 秒音频 → 100× 实时
这对 数字人直播 特别关键。
📌 四、macOS(M1/M2/M3/M4)GPU 推理性能(MPS)
IndexTTS2 对 Apple Silicon 的支持很好(尤其 FP16)。
| 芯片 | 推理速度(秒/1秒音频) | 提升(相对 CPU) |
|---|---|---|
| M1 | ~0.45 - 0.60 | ~5× |
| M2 | ~0.35 - 0.50 | ~6× |
| M3 | ~0.22 - 0.35 | ~10× |
| M4(你) | 0.18 - 0.30 | 12× |
➡️ M4 的 FP16 性能有大幅提升
➡️ M 系 GPU 整体性能介于 3050 ~ 3060 之间
➡️ 能跑、稳定、够用,但不及 40 系显卡
你当前的 M4 是完全可用的,日常生成不会慢。
但如果你要做:
- 多角色数字人
- 多段并行生成
- 商业级 API 服务
还是推荐 Nvidia 4070+。
📌 五、显卡性能影响的三个主要因素
1. CUDA FP16/TensorCore 的吞吐量(最关键)
自回归模型必须依赖 GPU 的单步推理性能。
2. 声码器 BigVGAN 的卷积加速
4090 和 A100 在 BigVGAN 上差距巨大。
3. 显存大小
IndexTTS2 模型权重 + KV Cache 会吃显存。
单角色推理最低:
- 3060:12GB 足够
- M 系列:统一内存 16GB 够用
🔥 总结:从 CPU → GPU 能提升多少?
| 设备 | 速度差(相对 CPU) |
|---|---|
| M1/M2/M3/M4 | 5× ~ 12× |
| RTX 3060 | ~15× |
| RTX 4070 | ~25× |
| RTX 4090 | ~60× |
| L20/A100 | 70× ~ 120× |
| H100 | 180× |
🎤 最关键结论(适合你的场景)
如果你是本地数字人创作(单用户):
→ M4 已经够用。
如果你要做数字人 SaaS、多用户调用:
→ 4070 Ti / 4080 就能撑住大部分流量。
如果你要做直播、人设录制、多角色并行/长文本:
→ 最优选择 L20/A100。