内含教程丨音色克隆模型 GPT-SoVITS,5 秒语音就能克隆出相似度 95% 的声音

「语音」是人类接触 AI 的「早教技术」,同时也是最早一批走出实验室,走进千家万户的 AI 技术。最初,人们针对智能语音的研究主要集中在语音识别上,即让机器听懂人类语言。

最早的基于电子计算机的语音识别系统是由 AT&T 贝尔实验室开发的 Audrey,能够识别 10 个英文数字。1988 年,李开复实现了第一个基于隐马尔可夫模型的大词汇量语音识别系统 Sphinx。1997 年,世界上首个面向消费者的连续语音听写系统 Dragon NaturallySpeaking 正式发布。2009 年,微软在 Windows 7 操作系统中集成了语音功能。

2011 年,里程碑式产品 iPhone 4S 发布,Siri 的诞生将智能语音从识别带入了「交互」的新阶段。 同年,谷歌宣布将在其内部测试开始 Google 搜索,并在未来的日子里将在 Google.com 上推出语音搜索。

从听到说的跃迁,也是人机交互繁荣发展的重要奠基石。如今,从智能家居到智能驾驶,再到机器人,语音交互在 AI 的不断升级下也变得更加流畅,各类应用百花齐放。在技术端,各大云计算厂商已经以 API 的形式开源了其 AI 语音能力,开发者能够基于此进一步搭建应用。

近年来,随着大模型持续火爆,直接在模型层面的能力开源得到了越来越多的关注,开发者能够通过对模型进行训练、微调,进一步提升模型与其所开发的应用之间的部署效果。

不久前,RVC (Retrieval based Voice Conversion) 创始人(GitHub 账号:RVC-Boss)开源了一款音色克隆项目 GPT-SoVITS, 上线后便获得极高热度,不少博主、开发者用当下流行的影视角色、动漫人物的音色,花样定制各类帆船台词,抓马的效果与易操作的体验,也令一批网友闻风而来,再一次为其热度添柴。据各大博主测试,仅需提供 5 秒语音样本,便可收获相似度达到 80%~95% 的克隆语音。

目前,该模型部署教程已上线 HyperAI 超神经官网,点击开始克隆:

hyper.ai/tutorials/2...

小编让原神角色派蒙客串了一下甄嬛传里的皇后,派蒙秒变乌拉那拉氏皇后

B 站热门 up 主 Jack-Cui 制作的 AI 声音克隆教程如下:

www.bilibili.com/video/BV1WC...

手把手教程如下,准备好 5 秒语音就能开始训练你的声音克隆模型啦!

数据准备

目前该教程内已预设多款经典角色音色供大家体验,如想克隆其它音色,则需要准备一段该音色 MP3 格式的音频文件,最好为单独人声(30s 左右即可),高质量的音频文件可以提升克隆声音的逼真程度。

  1. 点击「在线运行此教程」,跳转至 OpenBayes 平台。
  1. 点击「克隆」,复刻该模型。(此步骤只可体验 B 站 up 主 Jack-Cui 已上传的音色)
  1. 如果想自定义克隆音色,需要创建全新的数据集。通过左侧菜单栏中的「数据集」后,点击「创建新数据集」。
  1. 按照要求填写好「数据集名称」和「数据集描述后」,点击「创建数据集」。
  1. 创建完成后,点击右上角「上传新版本」,将想要克隆的音频文件上传。

Demo 运行

  1. 数据准备完成后,在左侧菜单栏「公共教程」中,打开「GPT-SoVITS 音频合成在线 Demo」,回到该教程页面,再点击右上角「克隆」,将教程克隆至自己的容器中。
  1. 目前,demo 已经绑定了可莉、华妃、甄嬛、胖橘的音频数据。目前绑定数据的数量已满,可以删除不需要的音频数据后添加自己创建的数据集。
  1. 添加完成后,点击「审核并执行」。

  2. 跳转页面后,点击「继续执行」。推荐使用 RTX 4090。

小编为大家争取到了新用户福利!新用户使用下方邀请链接注册,即可获得 4 小时 RTX 4090 + 5 小时 CPU 免费算力时长。

HyperAI超神经专属邀请链接(直接复制到浏览器打开即可注册):

openbayes.com/console/sig...

  1. 稍等片刻,待状态会变为「运行中」后,点击「打开工作空间」。首次克隆启动该容器约需要 3-5 分钟,如超过 10 分钟仍处于「正在分配资源」状态,可尝试停止并重启容器;如重启仍无法解决,请在官网联系平台客服。
  1. 打开工作空间后,点击左侧「run.ipynb」,通过菜单栏中的「运行」按钮,点击「运行所有单元格」。
  1. 找到「Running on public URL」,打开该链接。
  1. 在「数据集地址」模块内填写本次想要克隆声音的数据集地址,选择音频数据类型后,点击「开始训练」,待输出结果显示为「模型正在开启预测,请稍后」,回到「run.ipynb」,即可看到显示「GPT 训练完成」。
  1. 打开右侧「API 地址」,请注意,用户需在实名认证后才能使用 API 地址访问功能。

效果展示

  1. 在「GPT 模型列表」和「SoVITS 模型列表」选择训练好的模型,然后在「Inference text」中输入文本,点击「Start inference」后,稍等片刻,就能愉快地玩耍啦!

目前,HyperAI超神经官网已上线了数百个精选的机器学习相关教程,并整理成 Jupyter 记事本的形式。

点击链接即可搜索相关教程及数据集:

hyper.ai/tutorials

相关推荐
阡之尘埃33 分钟前
Python数据分析案例61——信贷风控评分卡模型(A卡)(scorecardpy 全面解析)
人工智能·python·机器学习·数据分析·智能风控·信贷风控
Channing Lewis36 分钟前
salesforce case可以新建一个roll up 字段,统计出这个case下的email数量吗
数据库·salesforce
毕业设计制作和分享2 小时前
ssm《数据库系统原理》课程平台的设计与实现+vue
前端·数据库·vue.js·oracle·mybatis
ketil272 小时前
Redis - String 字符串
数据库·redis·缓存
ClkLog-开源埋点用户分析2 小时前
ClkLog企业版(CDP)预售开启,更有鸿蒙SDK前来助力
华为·开源·开源软件·harmonyos
孙同学要努力3 小时前
全连接神经网络案例——手写数字识别
人工智能·深度学习·神经网络
Eric.Lee20213 小时前
yolo v5 开源项目
人工智能·yolo·目标检测·计算机视觉
Hsu_kk3 小时前
MySQL 批量删除海量数据的几种方法
数据库·mysql
编程学无止境3 小时前
第02章 MySQL环境搭建
数据库·mysql
knight-n3 小时前
MYSQL库的操作
数据库·mysql