AI翻唱“猪猪侠”GG Bond的声音?RVC实战教程(附成品模型下载)

近期,猪猪侠(GG Bond)的声音模型在各大视频平台广受欢迎。作为00后的"童年男神",许多人喜欢这个红胖子的形象和他那极具辨识度的声音。

那么,如何制作出这样一个逼真的AI声音模型呢?接下来,我将为您详细解答。

一、 数据集准备(最重要的一步)

为了训练出高质量的AI猪猪侠声音模型,我们需要收集大量的猪猪侠声音样本。

  • 样本要求:这些样本应涵盖猪猪侠在不同情绪下的语音,比如变身时的热血呐喊、平时说话的幽默调侃、或者尴尬时的低语等。
  • 获取途径:我们可以从《猪猪侠》的历代动画、大电影或官方视频中截取这些声音。

注意:这是不可或缺且最重要的一步,数据的纯净度直接决定了最终模型像不像。

二、 技术原理(RVC)

接下来,我们需要使用深度学习框架。目前最主流的是 RVC模型(Retrieval-based Voice Conversion)。 简单来说,这是一项基于深度学习的语音处理技术。其核心原理是将输入的"源声音"(比如你自己的声音)与"目标声音"(猪猪侠的声音)进行对齐和映射,从而实现变声效果。

三、 制作流程拆解

听不懂专业术语没关系,做AI翻唱其实就分四步:

  1. 提取声音(准备干声数据集)
  2. 训练模型(让AI学习GG Bond的声线)
  3. 推理歌曲(用模型进行转换)
  4. 合成歌曲(后期混音)

四、 如何提取声音?

提取声音主要有两种方式:手动提取和自动提取。

  • 手动提取(推荐,更精准) : 使用音频编辑软件(如Audition)或简单的剪辑软件,把动画里猪猪侠说的话录屏或剪辑下来。你需要人工剔除背景音乐、打斗音效,只保留人声,然后导出成单独的WAV音频文件。 优点 :质量高,没有杂音干扰;缺点:非常耗时,但为了"男神"的效果,这是值得的。
  • 自动提取: 利用信号处理方法(如UVR5等伴奏分离工具),通过算法把音频信号分成不同的频段,自动将人声和背景音分离。适合处理大量的音频素材。

常用工具下载

音频分离工具

UVR 5.6 免费软件 最佳歌曲分离 音频去噪优化 - 模型工坊 (mxgf.cc)

B站视频下载工具

链接:https://pan.baidu.com/s/1Y1zGf6Zl8er6tV0Su_Tivg?pwd=83e7

提取码:83e7

模型训练

RVC介绍

Retrieval-based-Voice-Conversion-WebUI 简称 RVC

一个基于VITS的简单易用的语音转换(变声器)框架

N卡下载

链接:https://pan.baidu.com/s/1Vzvpq_D-NFLL-IpvQtzPlA?pwd=mxgf

提取码:mxgf

--来自百度网盘超级会员V7的分享

A卡下载

https://pan.baidu.com/s/1XDp0dzvDpgqGgHT1r15b2A?pwd=z3oo

将整合包下载并解压,启动go-web.bat 等待运行

会跳转到浏览器,本地内网地址

进入训练界面,默认的参数默认就行,不用动

3,输入音频文件夹路径,处理数据

将要训练的的干声数据集放到本地任意英文路径文件夹内复,点击处理数据

处理数据

出现 end preprocess 表示处理完毕

特征提取

(特征提取是从声音信号中提取有用信息的过程,这些信息可以被用于训练模型进行分类或识别)

出现 all-feature-done 表示已经处理完毕,可以进行最后一步处理了

开始训练,设置训练的步数和保存频率

保存頻率 这个数值表示多少轮保存一次模型,如果你的电脑很牛很稳定 50轮也是可以的,不然就推荐 20-40轮保存一次模型

總訓練輪數一般 300轮,模型就可以出炉了

每张显卡的batch_size 如果你的显存是8则填8,显存多少,填多少数值。

点击一键训练

终端显示Epoch: 1字符,表示第一轮,正在训练了

等待几个小时后,就训练结束了,就可以进行下一步,对声音模型进行推理试音了。

三、 歌曲分离/推理

1,歌曲分离

1,准备好歌曲文件,格式包括AAC,FLAC等主流声音格式,但不包括加密格式,比如网易云加密歌曲,酷狗,qq音乐。

2,将歌曲文件放到UVR 5,进行分离,分离的目的是 把伴奏和人声抽离出来

处理完成之后会得到两个音频文件

1_陈雪凝 - 绿色_(Instrumental) 伴奏

1_陈雪凝 - 绿色_(Vocals) 人声

等下推理时候会用到 这个 _(Vocals) 人声部分

注:

  • 模型要记得选择 MDX-NET UVR-MDX-NET Main

处理模型下载

https://pan.baidu.com/s/1QgjSllWUCoTNEYkzgMMMjA?pwd=yvkv

将下载好的模型,放到UVR根目录下面的models文件夹下

  • 如果分离过程中出现报错,可能原因是显存或内存不足,尝试重启电脑

2,歌曲推理

  • 打开整合包

RVC0813 整合包下载(整合包 包含 运行环境 启动器)

https://pan.baidu.com/share/init?surl=mEs9Jmi2tBot4AgH6ZWp-w&pwd=eqea

下载之后,解压

版本说明

下载RVC0813AMD_Intel包可解锁A卡I卡

(1)双击go-realtime-gui-dml.bat使用实时变声,A卡大概能压到300ms左右,以下有压力

(2)双击go-web-dml.bat使用训练推理(CPU训练)

N卡用户下载RVC0813Nvidia

(1)双击go-realtime-gui.bat使用实时变声,N卡大概能压到100ms左右,以下有压力

  1. 双击go-web.bat使用训练推理

选择合适自己的显卡下载

  • 等待启动,出现地址,表示启动成功

启动成功会自动跳转WEBUI

将模型放置到目录(训练好的,忽略这一步)

刷新音色,然后按顺序进行推理

解疑

音频地址

WIN11 鼠标右击可以快速复制地址,复制的地址前后如果带有双引号记得删除""

WIN10 需要将声音文件放到 任意文件夹内,按shift+鼠标右键 选择复制路径

四、歌曲合成

所需工具 AU 链接:https://pan.baidu.com/s/107cWfLF6ftdxxfVLipfnfw?pwd=mxgf

解压密码 @vposy

1,转换后的歌曲人声下载到桌面

2,使用AU将伴奏和转换后的人声合并

首先新建多轨会话,将转换的人声和伴奏拉进AU

导出

相关推荐
NAGNIP16 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab17 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab17 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP21 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年21 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼21 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS21 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区1 天前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈1 天前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang1 天前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx