mac 安装CosyVoice (cpu版本)

CosyVoice 介绍

CosyVoice 是阿里研发的一个tts大模型

官方项目地址:https://github.com/FunAudioLLM/CosyVoice.git

下载项目(非官方)

复制代码
git clone --recursive https://github.com/v3ucn/CosyVoice_for_MacOs.git

进入项目

复制代码
cd CosyVoice_for_MacOs
git submodule update --init --recursive

创建运行环境

复制代码
conda create -n cosyvoice python=3.8
conda activate cosyvoice

安装依赖

复制代码
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

# 安装sox

复制代码
brew install sox

#安装git-lfs(重要,不然下面下载模型能成功,但实际下载不完整,很多人遇到这个坑)

复制代码
brew install git-lfs

# git模型下载,请确保已安装git lfs

复制代码
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-25Hz.git pretrained_models/CosyVoice-300M-25Hz
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

配置环境变量

复制代码
export PYTHONPATH=third_party/Matcha-TTS

运行

复制代码
python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M

期间可能遇见下面几种问题

1.
There is no such entity as cosyvoice.utils.common.ras_sampling

cosyvoice模型的问题,这个是由于cosyvoice模型部分添加了一个采样器,但 GitHub 上开源的代码中没有包含该采样器。

解决方法

打开项目目录下的models/TTS/CosyVoice-300M/cosyvoice.yaml文件

屏蔽下面这段代码:

复制代码
sampling: !name:cosyvoice.utils.common.ras_sampling
top_p: 0.8
top_k: 25
win_size: 10
tau_r: 0.1

2.

cannot import name 'cached_download' from 'huggingface_hub'

参考 https://blog.csdn.net/weixin_41492426/article/details/143215577

0.26 及以上的版本不支持 cached_download 了。

该库好像对别的库没有啥影响,所以直接装一个旧版本就行了:

复制代码
pip install huggingface_hub==0.25.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

3.

onnxruntime.capi.onnxruntime_pybind11_state.InvalidProtobuf: ONNXRuntimeError : 7 : INVALID_PROTOBUF : Load model from pretrained_models/CosyVoice-300M/campplus.onnx failed:Protobuf parsing failed.

出现这个主要是没有安装好git-lfs,导致没正确下载完整模型,安装好后重新下载模型即可解决。

使用

1.直接生成音频

正常运行起来后会自动开这个界面,然后点击生成音频,如果环境都安装正常,就能正常生成音频。(没有显卡,生成非常慢,按分钟小时算)

2.复刻音色

准确操作上述红色位置后,点击生成,既可以生成音频,同样非常慢。

实验效果还可以的,跟官网demo效果差不多。

相关推荐
一次旅行4 小时前
HyperTool:突破传统工具调用限制,让Agent更高效执行复杂任务
人工智能
陈天伟教授5 小时前
图解人工智能(58)人工智能应用-围棋国手
人工智能·语音识别·机器翻译
闻道参看5 小时前
2026年AI优质企业培训系统综合测评:合规管控/数据量化
人工智能
老虾头5 小时前
科技贴近烟火:本地化 AI,赋能各行各业日常经营
人工智能
毒爪的小新5 小时前
Linux 环境极速部署 vLLM:从零搭建生产级大模型推理服务
linux·人工智能·ai·语言模型·vllm
老大白菜5 小时前
25美元,DIY开源可穿戴智能AI眼镜:Arduino+乐鑫ESP32+DeepSeek项目
人工智能
岁月宁静6 小时前
RAG 文档摄入全链路,从原理到生产落地
vue.js·人工智能·python
小和尚同志6 小时前
AI 自动化测试探索(一):Playwright MCP
前端·人工智能·aigc
硅谷秋水7 小时前
面向长上下文自动驾驶的规划对齐Token压缩
人工智能·深度学习·机器学习·计算机视觉·自动驾驶