目录
前言
fish-speech只需要提供5-10秒的样本语音片段和对应文字,就能依照样本音色和新文本生成质量非常高的输出,且对硬件的要求也不高,本地部署后免费,非常合适。
不过在本地部署fish-speech-1.5的过程中踩了一些贼二又坑死人不偿命的坑(git repo里的readme没写,指向的官方文档不可用,贼坑),熬了半宿才从坑里跳出来,记录一下,希望能帮大家避雷。
正常流程
Python环境最好用venv隔离一下,正常流程不赘述,我主要参考了这两篇博文:
参考博文1
参考博文2
关键要点
- 如果你的nvidia的驱动和CUDA很旧,可以更新一下,一般都是向下兼容的,我用最新的131装pytouch 126的库兼容性没问题,两个查看显卡和CUDA信息的有用的命令:
bash
nvidia-smi
nvcc --version
- 最最关键的,使用fish-speech-1.5,Python版本不能太新,否则各种依赖问题恶心死你!推荐Python3.12.10(从3.14降到3.13,又降到3.12的大冤钟就是我)
- Git项目一定要下1.5的release或者git clone后切1.5的tag!否则跟fish-speech-1.5不兼容(有1.5.0和1.5.1,我用的1.5.0,可能1.5.1是更好的选择)
- 模型推荐从modelscope下载,不用魔法,且速度巨快,注意模型放置路径:
bash
modelscope download --model fishaudio/fish-speech-1.5 --local_dir 你的fish-speech-1.5 git repo目录/checkpoints/fish-speech-1.5.0
- 依赖安装pytouch和torchaudio一定要指定版本,最高2.8.0,否则不兼容运行会出错:
bash
pip install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0 --index-url https://download.pytorch.org/whl/cu126
详细对照参见:pytouch官网
- 别用官方git repo 1.5.0下的install_env.bat装环境,别问我是怎么知道的
希望这篇文章帮你避过了我掉的那些坑,然后让AI替你作一会儿牛马吧 😄
Enjoy it~
Ref:
1\]: https://blog.csdn.net/2301_80618119/article/details/147859230 \[2\]: https://zhuanlan.zhihu.com/p/1896302735462229209 \[3\]: https://github.com/fishaudio/fish-speech/tree/v1.5.0 \[4\]: https://www.modelscope.cn/models/fishaudio/fish-speech-1.5/summary