17K star!30秒偷走你的声音,开源声音克隆工具

现在的AI发展越来越快,生成一段语音不是难事,那如果生成的是你自己的声音,你觉得如何?

今天我们分享一款开源的声音克隆工具,只需30秒的一般音源,他就可以偷走你的声音,它就是:OpenVoice。

OpenVoice 是什么

OpenVoice 是由AI 创业公司 openshell 开源的一款声音克隆工具。OpenVoice 只需要来自目标说话者的简短音频样本即可准确复制其独特的声调和特征。然后,它可以生成听起来自然的语音,以多种语言模仿该语音,同时为用户提供对情感、口音、节奏和语调等参数的精细控制。

用户只需要提供一段大约30秒的音频样本,可以是任何人的声音,然后系统会通过深度学习技术对音频进行分析和处理,精确地克隆出原声音。

OpenVoice 的优势有三个方面:

1. 准确的音色克隆。 OpenVoice 可以准确克隆参考音色并生成多种语言和口音的语音。

2.灵活的音色控制。 OpenVoice 可以对语音风格(例如情感和口音)以及其他风格参数(包括节奏、停顿和语调)进行精细控制。

3.零样本跨语言语音克隆。 生成语音的语言和参考语音的语言都不需要出现在大规模说话人多语言训练数据集中。

更多详细可以查看OpenVoice团队的论文和网站介绍。

论文:arxiv.org/abs/2312.01...

网站:research.myshell.ai/open-voice

安装 OpenVoice

OpenVoice 通过3个在线渠道提供了服务,可以为不关注稳定性和质量、只是希望快速体验一下产品的用户提供服务。3个网站分别是:LeptonAI、MyShell和HuggingFace

当然如果你觉得自己技术能力足够,熟悉Linux, Python 和 PyTorch,并且有服务器资源,那可以自己在Linux上进行安装部署。前置需要安装conda,大家自己在网上搜一下即可,不是很复杂。

bash 复制代码
conda create -n openvoice python=3.9
conda activate openvoice
git clone git@github.com:myshell-ai/OpenVoice.git
cd OpenVoice
pip install -e .

然后下载checkpoints,并解压到对应的文件夹。这个安装过程在Mac上也同样适用。

启动完成后,可以访问http://127.0.0.1:7860来使用。

使用 OpenVoice

项目组说体验OpenVoice最方便的方法是直接使用MyShell中免费的TTS和即时语音克隆服务.

MyShell 是一个AI的集合,里面提供了很多的AI工具,比如文生图、语音、视频等。使用的时候需要自己创建一个机器人,然后来使用OpenVoice的能力,大家可以自己去体验一下。

另外也可以用HuggingFace的体验地址,这里的使用界面和自己本地部署是基本一致的。

Text Prompt

将需要转音频的文字写在这里

Style

可以根据需要选择语气。

Reference Audio

这里是参考音频,也就是我们希望克隆的声音

转换音频

写好文字,选好语气,就可以开始生成了。右侧会产生出新的音频。

在线的环境中主要是对英文的支持,中文支持不太好,OpenVoice实际是支持多语言的,在实际使用时只需安装对应的模型即可。

总结

OpenVoice 是一项技术,而不是一个产品。项目希望可以通过不断的努力,让免费的声音克隆也能像商业产品一样优秀。虽然如果使用正确的话它可以在大多数声音上工作,但请不要指望它在所有情况下都能完美工作,因为将一项技术转化为稳定的产品需要大量的工程工作。该技术的目标用户是开发人员和研究人员,而不是最终用户。虽然它不是完美的产品,但OpenVoice 是可用开源语音克隆技术中最先进的。

项目信息

相关推荐
聆风吟º15 小时前
CANN开源项目深度实践:基于amct-toolkit实现自动化模型量化与精度保障策略
运维·开源·自动化·cann
那个村的李富贵15 小时前
光影魔术师:CANN加速实时图像风格迁移,让每张照片秒变大师画作
人工智能·aigc·cann
子兮曰16 小时前
OpenClaw入门:从零开始搭建你的私有化AI助手
前端·架构·github
冬奇Lab16 小时前
一天一个开源项目(第15篇):MapToPoster - 用代码将城市地图转换为精美的海报设计
python·开源
腾讯云开发者16 小时前
“痛点”到“通点”!一份让 AI 真正落地产生真金白银的实战指南
人工智能
CareyWYR16 小时前
每周AI论文速递(260202-260206)
人工智能
hopsky17 小时前
大模型生成PPT的技术原理
人工智能
禁默18 小时前
打通 AI 与信号处理的“任督二脉”:Ascend SIP Boost 加速库深度实战
人工智能·信号处理·cann
心疼你的一切18 小时前
昇腾CANN实战落地:从智慧城市到AIGC,解锁五大行业AI应用的算力密码
数据仓库·人工智能·深度学习·aigc·智慧城市·cann
AI绘画哇哒哒18 小时前
【干货收藏】深度解析AI Agent框架:设计原理+主流选型+项目实操,一站式学习指南
人工智能·学习·ai·程序员·大模型·产品经理·转行