前面介绍过了音频克隆
IndexTTS: https://www.cnblogs.com/cj8988/p/18973016
ComfyUI_IndexTTS: https://www.cnblogs.com/cj8988/p/18973609
GPT-SoVITS: https://www.cnblogs.com/cj8988/p/18962212
今天再介绍要给音频克隆的开源工具:https://github.com/FunAudioLLM/CosyVoice
CosyVoice 是阿里云通义语音实验室研发的新一代生成式语音大模型,旨在提供高度拟人化、自然流畅的语音合成体验。
它将文本理解和语音生成技术深度融合,能够精准解析并诠释各种文本内容,将其转化为如同真人发声般的自然语音。
多样化的推理模式:
-
预训练音色: 提供多种预设的音色供用户选择,满足不同场景下的个性化需求(例如新闻播报、故事讲述等)。
-
3s 极速复刻 (Zero-shot Voice Cloning): 仅需 3 秒的参考音频,就能快速克隆出特定说话人的音色,并用这个音色合成任意文本。这极大地降低了音色定制的门槛。
-
跨语种复刻 (Cross-lingual Voice Cloning): 能够使用一种语言的语音样本来合成另一种语言的文本,同时保留原始说话人的音色和部分韵律特征。这是一个非常强大的功能,尤其适用于多语言内容创作。
-
自然语言控制 (Instructed Voice Generation): 允许用户通过自然语言描述(如"用高兴的语气说"、"语速快一点")来控制语音的风格、情感、语速、音调等,提供了更直观和灵活的控制方式。
-
多语言和混合语言支持: 除了中文外,还支持英文、日文、韩文以及多种中文方言(粤语、四川话、上海话、天津话、武汉话等),并支持跨语种和混合语言场景下的零样本语音克隆
安装:
代码下载:https://github.com/FunAudioLLM/CosyVoice
#虚拟环境搭建
conda create -n cosyvoice -y python=3.10
conda activate cosyvoice
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
#模型下载,这里下载最新的2.0模型
mkdir -p pretrained_models
#也可手动下载,然后放入相应位置就行 pretrained_models/CosyVoice2-0.5B
git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B
#运行:
python webui.py
可能出现的问题:没有找到cosyvoice.yaml。
修改一下:cosyvoice.py 中 __init__() 大约34行:添加一个
if not os.path.exists(model_dir):
model_dir = snapshot_download(model_dir)
hyper_yaml_path = '{}/cosyvoice.yaml'.format(model_dir)
if not os.path.exists(hyper_yaml_path):
hyper_yaml_path = '{}/cosyvoice2.yaml'.format(model_dir)