AI翻唱“猪猪侠”GG Bond的声音?RVC实战教程(附成品模型下载)

近期,猪猪侠(GG Bond)的声音模型在各大视频平台广受欢迎。作为00后的"童年男神",许多人喜欢这个红胖子的形象和他那极具辨识度的声音。

那么,如何制作出这样一个逼真的AI声音模型呢?接下来,我将为您详细解答。

一、 数据集准备(最重要的一步)

为了训练出高质量的AI猪猪侠声音模型,我们需要收集大量的猪猪侠声音样本。

  • 样本要求:这些样本应涵盖猪猪侠在不同情绪下的语音,比如变身时的热血呐喊、平时说话的幽默调侃、或者尴尬时的低语等。
  • 获取途径:我们可以从《猪猪侠》的历代动画、大电影或官方视频中截取这些声音。

注意:这是不可或缺且最重要的一步,数据的纯净度直接决定了最终模型像不像。

二、 技术原理(RVC)

接下来,我们需要使用深度学习框架。目前最主流的是 RVC模型(Retrieval-based Voice Conversion)。 简单来说,这是一项基于深度学习的语音处理技术。其核心原理是将输入的"源声音"(比如你自己的声音)与"目标声音"(猪猪侠的声音)进行对齐和映射,从而实现变声效果。

三、 制作流程拆解

听不懂专业术语没关系,做AI翻唱其实就分四步:

  1. 提取声音(准备干声数据集)
  2. 训练模型(让AI学习GG Bond的声线)
  3. 推理歌曲(用模型进行转换)
  4. 合成歌曲(后期混音)

四、 如何提取声音?

提取声音主要有两种方式:手动提取和自动提取。

  • 手动提取(推荐,更精准) : 使用音频编辑软件(如Audition)或简单的剪辑软件,把动画里猪猪侠说的话录屏或剪辑下来。你需要人工剔除背景音乐、打斗音效,只保留人声,然后导出成单独的WAV音频文件。 优点 :质量高,没有杂音干扰;缺点:非常耗时,但为了"男神"的效果,这是值得的。
  • 自动提取: 利用信号处理方法(如UVR5等伴奏分离工具),通过算法把音频信号分成不同的频段,自动将人声和背景音分离。适合处理大量的音频素材。

常用工具下载

音频分离工具

UVR 5.6 免费软件 最佳歌曲分离 音频去噪优化 - 模型工坊 (mxgf.cc)

B站视频下载工具

链接:https://pan.baidu.com/s/1Y1zGf6Zl8er6tV0Su_Tivg?pwd=83e7

提取码:83e7

模型训练

RVC介绍

Retrieval-based-Voice-Conversion-WebUI 简称 RVC

一个基于VITS的简单易用的语音转换(变声器)框架

N卡下载

链接:https://pan.baidu.com/s/1Vzvpq_D-NFLL-IpvQtzPlA?pwd=mxgf

提取码:mxgf

--来自百度网盘超级会员V7的分享

A卡下载

https://pan.baidu.com/s/1XDp0dzvDpgqGgHT1r15b2A?pwd=z3oo

将整合包下载并解压,启动go-web.bat 等待运行

会跳转到浏览器,本地内网地址

进入训练界面,默认的参数默认就行,不用动

3,输入音频文件夹路径,处理数据

将要训练的的干声数据集放到本地任意英文路径文件夹内复,点击处理数据

处理数据

出现 end preprocess 表示处理完毕

特征提取

(特征提取是从声音信号中提取有用信息的过程,这些信息可以被用于训练模型进行分类或识别)

出现 all-feature-done 表示已经处理完毕,可以进行最后一步处理了

开始训练,设置训练的步数和保存频率

保存頻率 这个数值表示多少轮保存一次模型,如果你的电脑很牛很稳定 50轮也是可以的,不然就推荐 20-40轮保存一次模型

總訓練輪數一般 300轮,模型就可以出炉了

每张显卡的batch_size 如果你的显存是8则填8,显存多少,填多少数值。

点击一键训练

终端显示Epoch: 1字符,表示第一轮,正在训练了

等待几个小时后,就训练结束了,就可以进行下一步,对声音模型进行推理试音了。

三、 歌曲分离/推理

1,歌曲分离

1,准备好歌曲文件,格式包括AAC,FLAC等主流声音格式,但不包括加密格式,比如网易云加密歌曲,酷狗,qq音乐。

2,将歌曲文件放到UVR 5,进行分离,分离的目的是 把伴奏和人声抽离出来

处理完成之后会得到两个音频文件

1_陈雪凝 - 绿色_(Instrumental) 伴奏

1_陈雪凝 - 绿色_(Vocals) 人声

等下推理时候会用到 这个 _(Vocals) 人声部分

注:

  • 模型要记得选择 MDX-NET UVR-MDX-NET Main

处理模型下载

https://pan.baidu.com/s/1QgjSllWUCoTNEYkzgMMMjA?pwd=yvkv

将下载好的模型,放到UVR根目录下面的models文件夹下

  • 如果分离过程中出现报错,可能原因是显存或内存不足,尝试重启电脑

2,歌曲推理

  • 打开整合包

RVC0813 整合包下载(整合包 包含 运行环境 启动器)

https://pan.baidu.com/share/init?surl=mEs9Jmi2tBot4AgH6ZWp-w&pwd=eqea

下载之后,解压

版本说明

下载RVC0813AMD_Intel包可解锁A卡I卡

(1)双击go-realtime-gui-dml.bat使用实时变声,A卡大概能压到300ms左右,以下有压力

(2)双击go-web-dml.bat使用训练推理(CPU训练)

N卡用户下载RVC0813Nvidia

(1)双击go-realtime-gui.bat使用实时变声,N卡大概能压到100ms左右,以下有压力

  1. 双击go-web.bat使用训练推理

选择合适自己的显卡下载

  • 等待启动,出现地址,表示启动成功

启动成功会自动跳转WEBUI

将模型放置到目录(训练好的,忽略这一步)

刷新音色,然后按顺序进行推理

解疑

音频地址

WIN11 鼠标右击可以快速复制地址,复制的地址前后如果带有双引号记得删除""

WIN10 需要将声音文件放到 任意文件夹内,按shift+鼠标右键 选择复制路径

四、歌曲合成

所需工具 AU 链接:https://pan.baidu.com/s/107cWfLF6ftdxxfVLipfnfw?pwd=mxgf

解压密码 @vposy

1,转换后的歌曲人声下载到桌面

2,使用AU将伴奏和转换后的人声合并

首先新建多轨会话,将转换的人声和伴奏拉进AU

导出

相关推荐
名誉寒冰2 小时前
AI云存储学习笔记:小文件优化 / 大文件分片 / 分享与 AI 搜索
linux·人工智能·笔记·学习
IT_陈寒2 小时前
Vite 5大实战优化技巧:让你的开发效率提升200%|2025前端工程化指南
前端·人工智能·后端
Jerryhut2 小时前
OpenCv总结5——图像特征——harris角点检测
人工智能·opencv·计算机视觉
图欧学习资源库2 小时前
人工智能领域、图欧科技、IMYAI智能助手2025年12月更新月报
人工智能·科技
光羽隹衡2 小时前
机器学习——贝叶斯
人工智能·机器学习
夏天是冰红茶2 小时前
YOLO目标检测数据集扩充
人工智能·yolo·目标检测
lpfasd1232 小时前
Spring AI 集成国内大模型实战:千问/豆包(含多模态)+ Spring Boot 4.0.1 全攻略
人工智能·spring boot·spring
Linux猿2 小时前
2025年中国AI学习平板市场洞察白皮书 | 附PDF
人工智能·学习·电脑·研报精选
GEO AI搜索优化助手3 小时前
AI搜索革命:营销新纪元,GEO时代生成式AI重构搜索
人工智能·搜索引擎·生成式引擎优化·ai优化·geo搜索优化