Mac电脑 Spark-TTS模型尝试使用‘mps’——提效 30% 左右

如题。

上次本地成功部署了 Spark - tts 文生音频AI 模型，但是当时是用 cpu 在跑。所以想继续尝试，看能否启用 Mac 电脑的 GPU，使用上'mps'模式。 mp.weixin.qq.com/s/UGvPKAWqp...

第一步：重新安装PyTorch

继续启用上次的 Python 环境

复制代码

conda activate sparktts

再到 pytorn 的官网： pytorch.org/get-started...

进入这里已经自动给选好了，感觉对新手非常友好，点个赞。

image-20250320224613453

复制代码

pip3 install torch torchvision torchaudio

（这一步搜了很多资料发现大都是nightly的。初学乍练，没搞好。折腾一圈还是用官网的Stable版好使，而且官网的指引做的也不错。）

第二步，测试PyTorch安装情况

测试PyTorch 版本和是否正常MPS

scss 复制代码

python -c "import torch; print(torch.__version__); print(torch.backends.mps.is_available())"

查看 pytorch 是否安装成功，版本是否正常，是否支持 MPS。

结果反馈正常。

性能测试

v3u.cn/a_id_272

采用这个网页中一样的测试代码进行测试：

ini 复制代码

import torch
import timeit
import random

x = torch.ones(50000000,device='cpu')
print(timeit.timeit(lambda:x*random.randint(0,100),number=1))

x = torch.ones(50000000,device='mps')
print(timeit.timeit(lambda:x*random.randint(0,100),number=1))

这是我的结果：

复制代码

0.013431958002911415
0.002348417001485359

这是网页内的结果：

复制代码

0.020812375005334616
0.003058041911572218

简单比较一下：

0.0134 / 0.0023 ≈ 5.83 倍

0.0208 / 0.0030 ≈ 6.93 倍

结果有点意外，M1Pro 上启用 MPS 后效果更佳明显。M4 芯片机器上反倒倍数比较小。

第三步，修改代码测试Spark - TTS启用MPS后的效果

修改代码

修改代码过程也是折腾了一圈，最后发现还是在开头的时候强制设置 mps 简单粗暴有效。

ini 复制代码

device = torch.device("mps")

生成声音

直接用内置的英文："You can generate a customized voice by adjusting parameters such as pitch and speed."来测试。

开始执行后能明显看到 cpu 的消耗非常小， GPU 的利用率明显有上升，部分计算已经转移到了 GPU。

结果也挺明显，除了开始几次生成时时间是 14 秒和 15 秒。后续基本时间都稳定在了 10秒上下，有时能低于 10 秒。

总结：

因此得出一个粗浅的结论：启用 MPS 后，一句英文的生成时间可以从平均 14秒缩减到 10 秒左右。有接近 30% 的提效。

但是加速幅度未达理论值（张量计算测试中MPS快5-6倍，但端到端仅快30%），说明仍有优化空间。猜测这么几个点：

可能代码修改的不对，因为目前只改了入口处。
或者Spark TTS 自身问题，很多计算还是落在了 CPU 上。
也可能是苹果 MPS 的问题，目前支持的计算类型还是不够完全。

此外多次测试也发现了另外一个问题，模型自带的语音生成音色貌似不稳定，每次生成的音色都不一样。如果想用它做生产力工具还得想想办法把音色固定下来。

其他

写完后重新检查感觉有几个不严谨的地方：

Spark TTS 的 requirements.txt 中有声明 torch==2.5.1torchaudio==2.5.1。应该直接用 2.5.1 的支持 mps 的版本先做个尝试，再升级尝试。
由于性能测试仅涉及张量计算，没有涵盖完整推理流程，个人觉得不能完全反映实际推理速度。