内含教程丨音色克隆模型 GPT-SoVITS,5 秒语音就能克隆出相似度 95% 的声音

「语音」是人类接触 AI 的「早教技术」,同时也是最早一批走出实验室,走进千家万户的 AI 技术。最初,人们针对智能语音的研究主要集中在语音识别上,即让机器听懂人类语言。

最早的基于电子计算机的语音识别系统是由 AT&T 贝尔实验室开发的 Audrey,能够识别 10 个英文数字。1988 年,李开复实现了第一个基于隐马尔可夫模型的大词汇量语音识别系统 Sphinx。1997 年,世界上首个面向消费者的连续语音听写系统 Dragon NaturallySpeaking 正式发布。2009 年,微软在 Windows 7 操作系统中集成了语音功能。

2011 年,里程碑式产品 iPhone 4S 发布,Siri 的诞生将智能语音从识别带入了「交互」的新阶段。 同年,谷歌宣布将在其内部测试开始 Google 搜索,并在未来的日子里将在 Google.com 上推出语音搜索。

从听到说的跃迁,也是人机交互繁荣发展的重要奠基石。如今,从智能家居到智能驾驶,再到机器人,语音交互在 AI 的不断升级下也变得更加流畅,各类应用百花齐放。在技术端,各大云计算厂商已经以 API 的形式开源了其 AI 语音能力,开发者能够基于此进一步搭建应用。

近年来,随着大模型持续火爆,直接在模型层面的能力开源得到了越来越多的关注,开发者能够通过对模型进行训练、微调,进一步提升模型与其所开发的应用之间的部署效果。

不久前,RVC (Retrieval based Voice Conversion) 创始人(GitHub 账号:RVC-Boss)开源了一款音色克隆项目 GPT-SoVITS, 上线后便获得极高热度,不少博主、开发者用当下流行的影视角色、动漫人物的音色,花样定制各类帆船台词,抓马的效果与易操作的体验,也令一批网友闻风而来,再一次为其热度添柴。据各大博主测试,仅需提供 5 秒语音样本,便可收获相似度达到 80%~95% 的克隆语音。

目前,该模型部署教程已上线 HyperAI 超神经官网,点击开始克隆:

hyper.ai/tutorials/2...

小编让原神角色派蒙客串了一下甄嬛传里的皇后,派蒙秒变乌拉那拉氏皇后

B 站热门 up 主 Jack-Cui 制作的 AI 声音克隆教程如下:

www.bilibili.com/video/BV1WC...

手把手教程如下,准备好 5 秒语音就能开始训练你的声音克隆模型啦!

数据准备

目前该教程内已预设多款经典角色音色供大家体验,如想克隆其它音色,则需要准备一段该音色 MP3 格式的音频文件,最好为单独人声(30s 左右即可),高质量的音频文件可以提升克隆声音的逼真程度。

  1. 点击「在线运行此教程」,跳转至 OpenBayes 平台。
  1. 点击「克隆」,复刻该模型。(此步骤只可体验 B 站 up 主 Jack-Cui 已上传的音色)
  1. 如果想自定义克隆音色,需要创建全新的数据集。通过左侧菜单栏中的「数据集」后,点击「创建新数据集」。
  1. 按照要求填写好「数据集名称」和「数据集描述后」,点击「创建数据集」。
  1. 创建完成后,点击右上角「上传新版本」,将想要克隆的音频文件上传。

Demo 运行

  1. 数据准备完成后,在左侧菜单栏「公共教程」中,打开「GPT-SoVITS 音频合成在线 Demo」,回到该教程页面,再点击右上角「克隆」,将教程克隆至自己的容器中。
  1. 目前,demo 已经绑定了可莉、华妃、甄嬛、胖橘的音频数据。目前绑定数据的数量已满,可以删除不需要的音频数据后添加自己创建的数据集。
  1. 添加完成后,点击「审核并执行」。

  2. 跳转页面后,点击「继续执行」。推荐使用 RTX 4090。

小编为大家争取到了新用户福利!新用户使用下方邀请链接注册,即可获得 4 小时 RTX 4090 + 5 小时 CPU 免费算力时长。

HyperAI超神经专属邀请链接(直接复制到浏览器打开即可注册):

openbayes.com/console/sig...

  1. 稍等片刻,待状态会变为「运行中」后,点击「打开工作空间」。首次克隆启动该容器约需要 3-5 分钟,如超过 10 分钟仍处于「正在分配资源」状态,可尝试停止并重启容器;如重启仍无法解决,请在官网联系平台客服。
  1. 打开工作空间后,点击左侧「run.ipynb」,通过菜单栏中的「运行」按钮,点击「运行所有单元格」。
  1. 找到「Running on public URL」,打开该链接。
  1. 在「数据集地址」模块内填写本次想要克隆声音的数据集地址,选择音频数据类型后,点击「开始训练」,待输出结果显示为「模型正在开启预测,请稍后」,回到「run.ipynb」,即可看到显示「GPT 训练完成」。
  1. 打开右侧「API 地址」,请注意,用户需在实名认证后才能使用 API 地址访问功能。

效果展示

  1. 在「GPT 模型列表」和「SoVITS 模型列表」选择训练好的模型,然后在「Inference text」中输入文本,点击「Start inference」后,稍等片刻,就能愉快地玩耍啦!

目前,HyperAI超神经官网已上线了数百个精选的机器学习相关教程,并整理成 Jupyter 记事本的形式。

点击链接即可搜索相关教程及数据集:

hyper.ai/tutorials

相关推荐
Database_Cool_1 天前
Tair 短期记忆架构实践:淘宝闪购 AI Agent 的秒级响应记忆系统
人工智能·架构
叶舟1 天前
LYT-NET:一个超级轻量的低光照图像增强Transformer网络
人工智能·深度学习·transformer·llie·低光照图像增强
乾元1 天前
《硅基之盾》番外篇二:算力底座的暗战——智算中心 VXLAN/EVPN 架构下的多租户隔离与防御
网络·人工智能·网络安全·架构
ALL_IN_AI1 天前
本地部署 Ollama 大模型:零成本开启 AI 开发之旅
人工智能
木心术11 天前
设备管理网管系统:详细下一步行动指南
前端·人工智能·opencv
小白狮ww1 天前
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 蒸馏模型,27B 参数也能做强推理
人工智能·自然语言处理·claude·通义千问·opus·推理·qwen3.5
w_t_y_y1 天前
python类库(一)模板
人工智能
StackNoOverflow1 天前
Spring Security权限控制框架详解
java·数据库·sql
Nova_AI1 天前
014、AI开源生态:模型、工具与社区的盈利之道
人工智能·开源
weixin_513449961 天前
walk_these_ways项目学习记录第八篇(通过行为多样性 (MoB) 实现地形泛化)--策略网络
开发语言·人工智能·python·学习