本地部署fish-speech-1.5关键步骤

康de哥2026-01-20 10:52

fish-speech只需要提供5-10秒的样本语音片段和对应文字，就能依照样本音色和新文本生成质量非常高的输出，且对硬件的要求也不高，本地部署后免费，非常合适。

不过在本地部署fish-speech-1.5的过程中踩了一些贼二又坑死人不偿命的坑（git repo里的readme没写，指向的官方文档不可用，贼坑），熬了半宿才从坑里跳出来，记录一下，希望能帮大家避雷。

Python环境最好用venv隔离一下，正常流程不赘述，我主要参考了这两篇博文：
参考博文1
参考博文2

如果你的nvidia的驱动和CUDA很旧，可以更新一下，一般都是向下兼容的，我用最新的131装pytouch 126的库兼容性没问题，两个查看显卡和CUDA信息的有用的命令：

bash 复制代码

nvidia-smi
nvcc --version

最最关键的，使用fish-speech-1.5，Python版本不能太新，否则各种依赖问题恶心死你！推荐Python3.12.10（从3.14降到3.13，又降到3.12的大冤钟就是我）
Git项目一定要下1.5的release或者git clone后切1.5的tag！否则跟fish-speech-1.5不兼容（有1.5.0和1.5.1，我用的1.5.0，可能1.5.1是更好的选择）
模型推荐从modelscope下载，不用魔法，且速度巨快，注意模型放置路径：

bash 复制代码

modelscope download --model fishaudio/fish-speech-1.5 --local_dir 你的fish-speech-1.5 git repo目录/checkpoints/fish-speech-1.5.0

bash 复制代码

pip install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0 --index-url https://download.pytorch.org/whl/cu126

详细对照参见：pytouch官网

希望这篇文章帮你避过了我掉的那些坑，然后让AI替你作一会儿牛马吧 😄

Enjoy it~

Ref：