内含教程丨音色克隆模型 GPT-SoVITS,5 秒语音就能克隆出相似度 95% 的声音

「语音」是人类接触 AI 的「早教技术」,同时也是最早一批走出实验室,走进千家万户的 AI 技术。最初,人们针对智能语音的研究主要集中在语音识别上,即让机器听懂人类语言。

最早的基于电子计算机的语音识别系统是由 AT&T 贝尔实验室开发的 Audrey,能够识别 10 个英文数字。1988 年,李开复实现了第一个基于隐马尔可夫模型的大词汇量语音识别系统 Sphinx。1997 年,世界上首个面向消费者的连续语音听写系统 Dragon NaturallySpeaking 正式发布。2009 年,微软在 Windows 7 操作系统中集成了语音功能。

**2011 年,里程碑式产品 iPhone 4S 发布,Siri 的诞生将智能语音从识别带入了「交互」的新阶段。**同年,谷歌宣布将在其内部测试开始 Google 搜索,并在未来的日子里将在 Google.com 上推出语音搜索。

从听到说的跃迁,也是人机交互繁荣发展的重要奠基石。如今,从智能家居到智能驾驶,再到机器人,语音交互在 AI 的不断升级下也变得更加流畅,各类应用百花齐放。在技术端,各大云计算厂商已经以 API 的形式开源了其 AI 语音能力,开发者能够基于此进一步搭建应用。

近年来,随着大模型持续火爆,直接在模型层面的能力开源得到了越来越多的关注,开发者能够通过对模型进行训练、微调,进一步提升模型与其所开发的应用之间的部署效果。

不久前,**RVC (Retrieval based Voice Conversion) 创始人(GitHub 账号:RVC-Boss)开源了一款音色克隆项目 GPT-SoVITS,**上线后便获得极高热度,不少博主、开发者用当下流行的影视角色、动漫人物的音色,花样定制各类帆船台词,抓马的效果与易操作的体验,也令一批网友闻风而来,再一次为其热度添柴。据各大博主测试,仅需提供 5 秒语音样本,便可收获相似度达到 80%~95% 的克隆语音。

目前,该模型部署教程已上线 HyperAI超神经官网,点击开始克隆:

https://hyper.ai/tutorials/29812

小编让原神角色派蒙客串了一下甄嬛传里的皇后,派蒙秒变乌拉那拉氏皇后。

 B 站热门 up 主 Jack-Cui 制作的 AI 声音克隆教程如下:

https://www.bilibili.com/video/BV1WC411W79t/?spm_id_from=333.788&vd_source=5e54209e1f8c68b7f1dc3df8aabf856c

手把手教程如下,准备好 5 秒语音就能开始训练你的声音克隆模型啦!

数据准备

目前该教程内已预设多款经典角色音色供大家体验,如想克隆其它音色,则需要准备一段该音色 MP3 格式的音频文件,最好为单独人声(30s 左右即可),高质量的音频文件可以提升克隆声音的逼真程度。

  1. 点击「在线运行此教程」,跳转至 OpenBayes 平台。
  1. 点击「克隆」,复刻该模型。(此步骤只可体验 B 站 up 主 Jack-Cui 已上传的音色)
  1. 如果想自定义克隆音色,需要创建全新的数据集。通过左侧菜单栏中的「数据集」后,点击「创建新数据集」。
  1. 按照要求填写好「数据集名称」和「数据集描述后」,点击「创建数据集」。
  1. 创建完成后,点击右上角「上传新版本」,将想要克隆的音频文件上传。

Demo 运行

  1. 数据准备完成后,在左侧菜单栏「公共教程」中,打开「GPT-SoVITS 音频合成在线 Demo」,回到该教程页面,再点击右上角「克隆」,将教程克隆至自己的容器中。
  1. 目前,demo 已经绑定了可莉、华妃、甄嬛、胖橘的音频数据。目前绑定数据的数量已满,可以删除不需要的音频数据后添加自己创建的数据集。
  1. 添加完成后,点击「审核并执行」。

  2. 跳转页面后,点击「继续执行」。推荐使用 RTX 4090。

小编为大家争取到了新用户福利!新用户使用下方邀请链接注册,即可获得 4 小时 RTX 4090 + 5 小时 CPU 免费算力时长。

HyperAI超神经专属邀请链接(直接复制到浏览器打开即可注册):

https://openbayes.com/console/signup?r=Ada0322_QZy7

  1. 稍等片刻,待状态会变为「运行中」后,点击「打开工作空间」。首次克隆启动该容器约需要 3-5 分钟,如超过 10 分钟仍处于「正在分配资源」状态,可尝试停止并重启容器;如重启仍无法解决,请在官网联系平台客服。
  1. 打开工作空间后,点击左侧「run.ipynb」,通过菜单栏中的「运行」按钮,点击「运行所有单元格」。
  1. 找到「Running on public URL」,打开该链接。
  1. 在「数据集地址」模块内填写本次想要克隆声音的数据集地址,选择音频数据类型后,点击「开始训练」,待输出结果显示为「模型正在开启预测,请稍后」,回到「run.ipynb」,即可看到显示「GPT 训练完成」。
  1. 打开右侧「API 地址」,请注意,用户需在实名认证后才能使用 API 地址访问功能。

效果展示

  1. 在「GPT 模型列表」和「SoVITS 模型列表」选择训练好的模型,然后在「Inference text」中输入文本,点击「Start inference」后,稍等片刻,就能愉快地玩耍啦!

目前,HyperAI超神经官网已上线了数百个精选的机器学习相关教程,并整理成 Jupyter 记事本的形式。

点击链接即可搜索相关教程及数据集:

https://hyper.ai/tutorials

相关推荐
huapiaoy2 小时前
Redis的一些通用指令
数据库·redis·缓存
网络研究院2 小时前
由于安全风险,安全领导者考虑禁止人工智能编码
人工智能·安全·开源·开发·风险·技术·代码
hero_heart2 小时前
PointNet2(一)分类
人工智能·分类·数据挖掘
Lojarro2 小时前
后端-navicat查找语句(单表与多表)
数据库·mysql
月泪同学2 小时前
数据库面试题整理
数据库·mysql·面试
阿W呀3 小时前
MATLAB-最小二乘辨识
人工智能·算法·matlab
RedMery3 小时前
Ubuntu20.04配置NVIDIA+CUDA12.2+CUDNN【附所有下载资源】【亲测有效】【非常详细】
人工智能·windows
SQingL3 小时前
用OPenCV分割视频
人工智能·opencv·音视频
洋葱土豆和香菜3 小时前
图像处理与分析
图像处理·人工智能
神奇的代码在哪里3 小时前
MiniCPM3-4B | 笔记本电脑运行端侧大模型OpenBMB/MiniCPM3-4B-GPTQ-Int4量化版 | PyCharm环境
人工智能·大模型·gptq·minicpm·端侧大模型