AI翻唱+视频剪辑全流程实战

一、AI翻唱之模型训练

（1）模型部署

（2）数据集制作------搜集素材

（3）数据集制作------提升音频质量

方法一：使用RVC提供的音频处理功能。

[方法二：可以使用音频剪辑工具Adobe Audition](#方法二：可以使用音频剪辑工具Adobe Audition)

（4）训练

二、AI翻唱之模型推理

三、视频剪辑

前言：从0到1，忙碌了三天，剪了三个视频，其中两个放在了B站（星铁新角色知更鸟翻唱Love Story和Mr. Wonderful），第三个是四个原神角色合唱孤勇者：【知更鸟】Love Story_哔哩哔哩_bilibili

【知更鸟】Mr. Wonderful_哔哩哔哩_bilibili

一、AI翻唱之模型训练

（1）模型部署

我使用的是RVC，也可以使用so-vits-svc。

这里分别提供了Nvida显卡和AMD显卡支持的版本

链接：https://pan.baidu.com/s/1vtw_gRCIUdDjPH9cELjVkw?pwd=bi3r

提取码：bi3r

以Nvida显卡为例，分别下载"RVC1006Nvidia"和"0128补丁"压缩包，分别解压后，复制"0128补丁"内容粘贴到"RVC1006Nvidia"文件夹进行替换

之后，直接点击go-web.bat运行即可。（需要电脑安装好CUDA，安装步骤不再赘述）

（2）数据集制作------搜集素材

方法一：从网上查找现成音频数据集（如github）

方法二：从B站下载音视频制作。

这里推荐使用DownKyi(哔哩下载姬)，在此提供了三个版本。

链接：https://pan.baidu.com/s/1Kyc_cbYL7cIbwFTpXrDVdA?pwd=saq7

提取码：saq7

1.5.9可能存在B站用户无法登陆问题；1.6.1可以登录然后下载高清视频，但是使用过程中出现无法解析的问题。一种解决方案是登录在1.6.1中账号登录后，将1.5.9文件夹内容复制到1.6.1。

另一种方案是直接使用DownKyi-1.0.10-1.win-x64

（3）数据集制作------提升音频质量

由于视频中可能出现背景音或其他不属于角色的杂音，这时就需要进行背景音处理。

方法一：使用RVC提供的音频处理功能。

直接将原始音频文件拖到上图中左下角红框内，然后点击模型选择HP3，点击转换；

转换后的结果再次放入上图中左下角红框内，点击模型选择onnx_dereverb，点击转换；

也可继续进行别的处理，每个模型的说明见上图。

方法二：可以使用音频剪辑工具Adobe Audition

安装步骤见我的另一篇博客：

Adobe Audition 2024 下载与安装-CSDN博客

处理背景音：

选中一段不含人声的背景音

在"效果"栏中选择"降噪/恢复"中的"降噪（处理）"

点击"捕捉噪声样本"，然后点击"选择完整文件"，最后点击"应用"就可以啦

（4）训练

输入实验名（自拟），然后选择音频目标采样率（一般为40k），其他保持默认，点击"处理数据"即可。（此步骤是将音频剪切成数个短节，"输出信息"栏会提示进程结束）

根据自身情况选择音高提取算法（输入歌声可用pm提速,高质量语音但CPU差可用dio提速,harvest质量更好但慢,rmvpe效果最好且微吃CPU/GPU），之后点击"特征提取"（"输出信息"栏会提示进程结束）

根据自身显卡性能选择"保存频率"、"总训练轮数"和"每张显卡的batch_size"（显卡不太行的建议设置低一点），其他保持默认，点击"一键提取"（"输出信息"栏会提示进程结束）

二、AI翻唱之模型推理

切换到"模型推理"界面，在"推理音色"上选择上面步骤一训练好的模型权重文件；

也可以在网上直接下载别人已经训练好的模型，将.pth文件放在 RVC\assets\weights 目录下，将索引.index文件放在 logs 目录或logs下面的文件夹皆可。

输入待处理音频文件路径，即需要模拟的声音或歌曲文件所在的路径。
输入索引index路径。
根据下图中蓝色部分的说明适当进行调整，即可点击"转换"开始模型推理。

三、视频剪辑

一个好的视听盛宴当然离不开视频剪辑啦。推荐使用PR进行剪辑，当然也可以使用"剪映"这个软件也比较方便。

PR安装与下载方法，可见：Adobe Premiere Pro安装-CSDN博客

该版本的字幕如果无法自动由音频转文字（建议支持正版！ ），可以使用网易见外工作台 (youdao.com)这个网站进行操作，导出字幕文件后添加到PR即可。在PR内可以拖动字幕来调整出现时间。