mac 安装CosyVoice (cpu版本)

CosyVoice 介绍

CosyVoice 是阿里研发的一个tts大模型

官方项目地址:https://github.com/FunAudioLLM/CosyVoice.git

下载项目(非官方)

git clone --recursive https://github.com/v3ucn/CosyVoice_for_MacOs.git

进入项目

cd CosyVoice_for_MacOs
git submodule update --init --recursive

创建运行环境

conda create -n cosyvoice python=3.8
conda activate cosyvoice

安装依赖

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

# 安装sox

brew install sox

#安装git-lfs(重要,不然下面下载模型能成功,但实际下载不完整,很多人遇到这个坑)

brew install git-lfs

# git模型下载,请确保已安装git lfs

mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-25Hz.git pretrained_models/CosyVoice-300M-25Hz
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

配置环境变量

export PYTHONPATH=third_party/Matcha-TTS

运行

python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M

期间可能遇见下面几种问题

1.
There is no such entity as cosyvoice.utils.common.ras_sampling

cosyvoice模型的问题,这个是由于cosyvoice模型部分添加了一个采样器,但 GitHub 上开源的代码中没有包含该采样器。

解决方法

打开项目目录下的models/TTS/CosyVoice-300M/cosyvoice.yaml文件

屏蔽下面这段代码:

sampling: !name:cosyvoice.utils.common.ras_sampling
top_p: 0.8
top_k: 25
win_size: 10
tau_r: 0.1

2.

cannot import name 'cached_download' from 'huggingface_hub'

参考 https://blog.csdn.net/weixin_41492426/article/details/143215577

0.26 及以上的版本不支持 cached_download 了。

该库好像对别的库没有啥影响,所以直接装一个旧版本就行了:

pip install huggingface_hub==0.25.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

3.

onnxruntime.capi.onnxruntime_pybind11_state.InvalidProtobuf: [ONNXRuntimeError] : 7 : INVALID_PROTOBUF : Load model from pretrained_models/CosyVoice-300M/campplus.onnx failed:Protobuf parsing failed.

出现这个主要是没有安装好git-lfs,导致没正确下载完整模型,安装好后重新下载模型即可解决。

使用

1.直接生成音频

正常运行起来后会自动开这个界面,然后点击生成音频,如果环境都安装正常,就能正常生成音频。(没有显卡,生成非常慢,按分钟小时算)

2.复刻音色

准确操作上述红色位置后,点击生成,既可以生成音频,同样非常慢。

实验效果还可以的,跟官网demo效果差不多。

相关推荐
机器视觉知识推荐、就业指导4 分钟前
【数字图像处理三】图像变换与频域处理
图像处理·人工智能·计算机视觉
东木月11 分钟前
windows安装pytorch
人工智能·pytorch·windows
安和昂15 分钟前
【iOS】Blocks
macos·ios·cocoa
wheelmouse778818 分钟前
AI IDE 使用体验及 AI 感受
ide·人工智能
周博洋K34 分钟前
SSI用量子计算来玩AI
人工智能·量子计算
IT猿手1 小时前
2025高维多目标优化:基于导航变量的多目标粒子群优化算法(NMOPSO)的无人机三维路径规划,MATLAB代码
开发语言·人工智能·算法·机器学习·matlab·无人机·cocos2d
橙子小哥的代码世界1 小时前
【机器学习】【KMeans聚类分析实战】用户分群聚类详解——SSE、CH 指数、SC全解析,实战电信客户分群案例
人工智能·python·机器学习·kmeans·数据科学·聚类算法·肘部法
k layc1 小时前
【论文解读】《Training Large Language Models to Reason in a Continuous Latent Space》
人工智能·python·机器学习·语言模型·自然语言处理·大模型推理
代码猪猪傻瓜coding1 小时前
【模块】 ASFF 模块
人工智能·深度学习
阿正的梦工坊1 小时前
Sliding Window Attention(滑动窗口注意力)解析: Pytorch实现并结合全局注意力(Global Attention )
人工智能·pytorch·python