目录
[方法一 直接下载源码压缩包](#方法一 直接下载源码压缩包)
[方法二 使用git](#方法二 使用git)
[2)git clone源码](#2)git clone源码)
[5) 安装ipywidgets](#5) 安装ipywidgets)
一、前菜
开始之前,前菜是必备的,需要先设置好。
1、Python选择
本项目使用的python版本是3.9版,因此,实操之前需要安装python3.9.
这里简单说明即可。
官网Python Release Python 3.9.0 | Python.orgDownload Python | Python.org,系统为Windows版,点击如图windowsPython Release Python 3.9.0 | Python.org
data:image/s3,"s3://crabby-images/724ae/724aee10243c81c8f16c45333e36017c3be6ee9e" alt=""
这里就不纠结了,直接3.9.0版本即可。
data:image/s3,"s3://crabby-images/e40b3/e40b376f17e0fdd7a1b9d6c969baed50d5045c12" alt=""
安装时以管理员身份运行,选择自定义安装。以3.12.2为例,其实是一样的。
data:image/s3,"s3://crabby-images/ba8fe/ba8fe62076c2d8b5a33ab64e5d28f750015a7ff4" alt=""
注意勾选将python加入环境变量,就不需要手动添加环境变量了。
另外,选择自定义安装位置。其他默认即可。
2、pip源切换
勾选显示隐藏的项目
data:image/s3,"s3://crabby-images/16caa/16caa1d86a0914f998c97501af028d32f9b11801" alt=""
切到路径C:\Users\whyafer\AppData\Roaming\pip,其中,whyafer为自己的电脑用户名。记事本打开pip.ini文件,删除原有的代码,覆盖如下代码即可。
[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple
[install]
trusted-host=pypi.tuna.tsinghua.edu.cn
这样可以一劳永逸地解决安装插件时网络问题。
3、ffmpeg配置问题
使用的python虚拟环境会用到ffmpeg,但需要环境变量的配置。
官网Builds - CODEX FFMPEG @ gyan.dev下载6.1.1即可
data:image/s3,"s3://crabby-images/4d77a/4d77a3b2be7456b3976d02ac3ce88aed7edf9fd5" alt=""
选择一个位置,解压,然后打开环境变量设置。
按win键,输入环境变量
data:image/s3,"s3://crabby-images/1ac32/1ac32ca93460cb9fff8fbc087ad3a0ddb49e2c59" alt=""
data:image/s3,"s3://crabby-images/87bd9/87bd96709d43e52ac7d875e5d44a11463d9ee4f4" alt=""
双击系统变量,path
依次选择
data:image/s3,"s3://crabby-images/1c995/1c995027107894086bb2a127aea627efc39dc008" alt=""
点击到ffmpeg解压的bin文件夹下
data:image/s3,"s3://crabby-images/914fb/914fbeacb9c2a95ee6b015020dda33cffe2a917b" alt=""
确定即可
按win键,cmd,输入如下代码
ffmpeg -version
data:image/s3,"s3://crabby-images/f0fe6/f0fe62ac8f183c2f20afa8454181869e3cf33eb2" alt=""
说明配置完成。
若还是不行,则需要另外的操作。
配合创建的python虚拟环境使用。找到路径:.venv\Lib\pydub\utils.py,找到which()函数下如下代码
data:image/s3,"s3://crabby-images/552ce/552ce54a9198e4ed74459649586ad05e5f7f25b6" alt=""
下一行添加:路径为自己解压路径。保存ctrl+s即可。
envdir_list.append(r'D:\pythonvenv\ffmpeg\ffmpeg-7.0-full_build\bin')
data:image/s3,"s3://crabby-images/486f4/486f405f24129958a14a8b3806647f4509e88a37" alt=""
4、VSCode添加Jupyter扩展
点击F1,选择Extensions:Install Extensions
data:image/s3,"s3://crabby-images/4e451/4e45124ae9288b80bf09bb0ad4af430eae7e4674" alt=""
输入Jupyter搜索,安装第一个即可,会自动安装附带扩展。
data:image/s3,"s3://crabby-images/d2600/d2600ae4e248eee430f0da788c9301a28f5d63e3" alt=""
二、配置虚拟环境
1、下载源码
源码地址:myshell-ai/OpenVoice: Instant voice cloning by MyShell. (github.com)
两种方法
方法一 直接下载源码压缩包
建议使用此方法。如图下载压缩包,解压到你新建的空白项目文件夹下即可。
data:image/s3,"s3://crabby-images/c7585/c7585a3344d53f1804717909877a48a95a404348" alt=""
方法二 使用git
如果你电脑里有git,可以使用
data:image/s3,"s3://crabby-images/12bea/12beafa986851693602cc95dc586fca7dafc343e" alt=""
首先,新建文件夹
在空文件夹下,右键鼠标选择Git Bash Here,前提是你已经将git加入鼠标右键了。如果没有的话,请将git加入鼠标右键。
1)git加入鼠标右键
win+R,输入regedit,打开注册表,收起计算机项目
data:image/s3,"s3://crabby-images/14c35/14c35863e348405cded8a87874c338370b2e45ac" alt=""
在地址栏输入如下代码,回车enter
\HKEY_CLASSES_ROOT\Directory\Background
data:image/s3,"s3://crabby-images/79c77/79c7778f41180fb3d240fca61ab13bd1e135d6b4" alt=""
在Background\shell下,新建项"Git Bash Here",名称随意。然后,在新建项下,新建项"command",我是已经新建好的。
data:image/s3,"s3://crabby-images/a1e49/a1e497343a22657382215e419d9dd1b81cfe38f6" alt=""
然后,点击新建项"Git Bash Here",随后注册表右侧空白处右键新建字符串值,命名为"Icon"。
data:image/s3,"s3://crabby-images/0f496/0f496ce5dcab630143030f8ad4566f7bbfd07338" alt=""
还是在鼠标点击"Git Bash Here"的情况下,即上图1,双击右侧默认项,值为"Git Bash Here",即显示在鼠标右键的名称。
data:image/s3,"s3://crabby-images/adedf/adedfdb0cdd97f9d81c940a3ad74d10ac939da8e" alt=""
双击"Icon",值为"E:\software\Git\mingw64\share\git\git-for-windows.ico",为鼠标右键的图标。
data:image/s3,"s3://crabby-images/20b59/20b5944a59cb610ac226f62dcb198c08bf31f83d" alt=""
然后,鼠标点击"commond",双击右侧默认项,值为:" E:\software\Git\git-bash.exe"
data:image/s3,"s3://crabby-images/aaf7b/aaf7b5fcf9822d948e79b984051dd1d4aa471d2d" alt=""
2)git clone源码
在新建的空白项目文件夹下,右键鼠标,选择"Git Bash Here",若没有这个选择,可能需要点击"显示更多选项",在控制台输入如下代码,回车即可。
git clone https://github.com/myshell-ai/OpenVoice.git
data:image/s3,"s3://crabby-images/c563c/c563c77470df10e856dc35236fa25c7c033de799" alt=""
data:image/s3,"s3://crabby-images/c3dd9/c3dd9f6ce37ec6675ecede917b0754eeeeabcdea" alt=""
2、VSCode出场
1)创建python虚拟环境
使用VSCode打开项目,按F1按钮,选择如图选项,Python:Select Interpreter
data:image/s3,"s3://crabby-images/23e7f/23e7feeb3b2f0e90cf4ae5f3fbf2d5c0aff4f268" alt=""
选择新建虚拟环境
data:image/s3,"s3://crabby-images/310b2/310b231f8ec87c7a8659fb65ca73a43286acdf1e" alt=""
选择"Venv"
data:image/s3,"s3://crabby-images/72f1e/72f1ee6f09262ae4ea01619bce40af55bb38ff01" alt=""
选择3.9python
data:image/s3,"s3://crabby-images/0bbcf/0bbcfb646b3fd921011d633e85ec581c5d0878f6" alt=""
若没有3.9python选项,选择第一个"Enter interpreter path"
点击"Find",选到你按照python3.9的文件夹下的python.exe即可。
2)安装所需插件
A、没有意外
正确切换pip源之后,一般是不会出现意外的。
选好python编译器之后,勾选如图项,然后点击ok。过程需要些时间,耐心等待VSCode安装完成。
data:image/s3,"s3://crabby-images/e4a13/e4a135474adb18cebc496a922bdf818390859d46" alt=""
不要动,等待就好。
data:image/s3,"s3://crabby-images/3510f/3510f5105ab3146a3bb0a24df503d5203f1d516a" alt=""
B、若有意外
如果你没有勾选上一步,那么就需要手动操作安装了。
此步骤在激活python虚拟环境的情况下,在控制台,输入代码
pip install -r requirements.txt
data:image/s3,"s3://crabby-images/8d11e/8d11e0ba27bca19dea3bac38a9b5bb91ea561637" alt=""
3)激活python虚拟环境
选择Terminal->New Terminal
data:image/s3,"s3://crabby-images/46d2f/46d2fe1bd4c68378013674eea09131e813c5cf23" alt=""
下方输入代码,回车enter即可。
.\.venv\Scripts\activate
data:image/s3,"s3://crabby-images/3d76b/3d76b0f92ee5ee8fc23789984e7450040a2deb74" alt=""
4)安装ipykernel
激活虚拟环境的情况下,控制台输入代码
pip install ipykernel
data:image/s3,"s3://crabby-images/dbca8/dbca8282b00b849673324b51b4e53ba8c34f2e6b" alt=""
5) 安装ipywidgets
激活虚拟环境的情况下,控制台输入代码
pip install ipywidgets
data:image/s3,"s3://crabby-images/6d5f0/6d5f0312a8a353794edd0c43f016b80d73452052" alt=""
6)下载checkpoints
网址:
https://myshell-public-repo-hosting.s3.amazonaws.com/checkpoints_1226.zip
直接下载压缩包,解压之后放在项目根目录下。
data:image/s3,"s3://crabby-images/cc00d/cc00d46b2d795d81d0f3431d9e109faab65a6384" alt=""
checkpoints包含中文ZH和英文EN两种语言的模型处理文件。
data:image/s3,"s3://crabby-images/3a7c4/3a7c4d9bb0cc29eaaa03fbe1d80dcade134aead5" alt=""
3、操作模型
A、操作demo_part1.ipynb
点击左侧文件demo_part1.ipynb,然后点击右侧红框部分选择虚拟环境。
data:image/s3,"s3://crabby-images/74590/74590e846c0b268a46b0c6897895e1eb608902a3" alt=""
选择Python Environments
选择我们创建的虚拟环境.venv
注意:每次关闭项目或者demo_part1.ipynb文件,要依次重新执行。每个都可多次点击,以消除警告信息。
1)第一步
点击下面的三角按钮
2)第二步
点击Initialization下的三角按钮。
data:image/s3,"s3://crabby-images/0a571/0a57142b390441424cbe9800324db57f86e93323" alt=""
3)第三步
执行source_se,可省略。
4)第四步
执行reference_speaker,可多点击几次,便不会出现问题。
data:image/s3,"s3://crabby-images/2943f/2943f79287df19259a3adb0e02f6a8fad8e3847e" alt=""
5)第五步
执行Inference,挑选一个执行即可。默认情况下,选择英文例子。
注意:运行英文代码最好加一句,避免出错中英文checkpoints不对应。
ckpt_base = 'checkpoints/base_speakers/EN'
data:image/s3,"s3://crabby-images/4abc8/4abc82a5cb68cedced1df3e8f156d1d79d89992a" alt=""
第一个是默认英文例子。
data:image/s3,"s3://crabby-images/ee783/ee78396d225eb7f410add9cd92807770b020b02b" alt=""
第二个也是英文,修改了语气与语速。
语气speaker="whispering",其余可选friendly, cheerful, excited, sad, angry, terrified, shouting
语速speed=0.9,可尝试自己。
语言language='English',为英文,切换中文为'Chinese'。
base_speaker_tts.tts(text, src_path, speaker='whispering', language='English', speed=0.9)
data:image/s3,"s3://crabby-images/8ee43/8ee43e78999cc86a9ce680fb673c06cd337c8879" alt=""
第三个是中文,只有默认语气。
data:image/s3,"s3://crabby-images/a656f/a656f99778e8d934113cad1331af9d6ef86883b2" alt=""
B、操作demo_part2.ipynb
这个要使用OPENAI_API_KEY,如果你有的话,那么,应该就不需要我来实操演示了,请根据demo_part2.ipynb说明操作即可。
4、简单讲解
要使用的训练语音为:
reference_speaker = 'resources/example_reference.mp3'
更改自己的语音,将自己的语音文件,如"ky_kk.mp3",放在项目路径resources文件夹下,注意,为mp3后缀文件。将example_reference更改为自己语音的名称即可。刚更改好,最好重启VSCode,以防报错找不到文件。更改完毕,然后执行这一步。
data:image/s3,"s3://crabby-images/3e5b5/3e5b53a450b0d3b5eac70176f8475ff8d89e8882" alt=""
data:image/s3,"s3://crabby-images/f4430/f44306beb8f9a67b7f9d967548d895a42bd6e0f2" alt=""
以中文为例 ,但是中文不能选择语气,只有默认的。
data:image/s3,"s3://crabby-images/1ff43/1ff43ed5cc8e09bdc81f7a96ddb72eb9fe1ea8f2" alt=""
变量ckpt_base表示语音模仿对象语种模型处理的文件夹位置。中文ZH,英文则为EN。
ckpt_base = 'checkpoints/base_speakers/ZH'
变量source_se用于模仿语音语调的提取训练,区分中英文。中文为zh_default_se.pth,英文为en_default_se.pth。
source_se = torch.load(f'{ckpt_base}/zh_default_se.pth').to(device)
变量save_path表示输出的语音文件存档位置,output_chinese.wav为输出文件名,每次运行可更改,即可不断生成不同语音文件。
save_path = f'{output_dir}/output_chinese.wav'
变量text表示要输出的语音内容。
text = "今天天气真好,我们一起出去吃饭吧。"
变量src_path与变量save_path作用相同,使用语调为默认。默认音色输出为tmp.wav。
src_path = f'{output_dir}/tmp.wav'
因此,对于输出的语音文件,你有两个选择
output_chinese.wav和tmp.wav,随自己选择。
三、模型深度解析
敬请期待。