17K star!30秒偷走你的声音,开源声音克隆工具

现在的AI发展越来越快,生成一段语音不是难事,那如果生成的是你自己的声音,你觉得如何?

今天我们分享一款开源的声音克隆工具,只需30秒的一般音源,他就可以偷走你的声音,它就是:OpenVoice。

OpenVoice 是什么

OpenVoice 是由AI 创业公司 openshell 开源的一款声音克隆工具。OpenVoice 只需要来自目标说话者的简短音频样本即可准确复制其独特的声调和特征。然后,它可以生成听起来自然的语音,以多种语言模仿该语音,同时为用户提供对情感、口音、节奏和语调等参数的精细控制。

用户只需要提供一段大约30秒的音频样本,可以是任何人的声音,然后系统会通过深度学习技术对音频进行分析和处理,精确地克隆出原声音。

OpenVoice 的优势有三个方面:

1. 准确的音色克隆。 OpenVoice 可以准确克隆参考音色并生成多种语言和口音的语音。

2.灵活的音色控制。 OpenVoice 可以对语音风格(例如情感和口音)以及其他风格参数(包括节奏、停顿和语调)进行精细控制。

3.零样本跨语言语音克隆。 生成语音的语言和参考语音的语言都不需要出现在大规模说话人多语言训练数据集中。

更多详细可以查看OpenVoice团队的论文和网站介绍。

论文:arxiv.org/abs/2312.01...

网站:research.myshell.ai/open-voice

安装 OpenVoice

OpenVoice 通过3个在线渠道提供了服务,可以为不关注稳定性和质量、只是希望快速体验一下产品的用户提供服务。3个网站分别是:LeptonAI、MyShell和HuggingFace

当然如果你觉得自己技术能力足够,熟悉Linux, Python 和 PyTorch,并且有服务器资源,那可以自己在Linux上进行安装部署。前置需要安装conda,大家自己在网上搜一下即可,不是很复杂。

bash 复制代码
conda create -n openvoice python=3.9
conda activate openvoice
git clone git@github.com:myshell-ai/OpenVoice.git
cd OpenVoice
pip install -e .

然后下载checkpoints,并解压到对应的文件夹。这个安装过程在Mac上也同样适用。

启动完成后,可以访问http://127.0.0.1:7860来使用。

使用 OpenVoice

项目组说体验OpenVoice最方便的方法是直接使用MyShell中免费的TTS和即时语音克隆服务.

MyShell 是一个AI的集合,里面提供了很多的AI工具,比如文生图、语音、视频等。使用的时候需要自己创建一个机器人,然后来使用OpenVoice的能力,大家可以自己去体验一下。

另外也可以用HuggingFace的体验地址,这里的使用界面和自己本地部署是基本一致的。

Text Prompt

将需要转音频的文字写在这里

Style

可以根据需要选择语气。

Reference Audio

这里是参考音频,也就是我们希望克隆的声音

转换音频

写好文字,选好语气,就可以开始生成了。右侧会产生出新的音频。

在线的环境中主要是对英文的支持,中文支持不太好,OpenVoice实际是支持多语言的,在实际使用时只需安装对应的模型即可。

总结

OpenVoice 是一项技术,而不是一个产品。项目希望可以通过不断的努力,让免费的声音克隆也能像商业产品一样优秀。虽然如果使用正确的话它可以在大多数声音上工作,但请不要指望它在所有情况下都能完美工作,因为将一项技术转化为稳定的产品需要大量的工程工作。该技术的目标用户是开发人员和研究人员,而不是最终用户。虽然它不是完美的产品,但OpenVoice 是可用开源语音克隆技术中最先进的。

项目信息

相关推荐
Dfreedom.3 分钟前
第一阶段:U-net++的概况和核心价值
人工智能·深度学习·神经网络·计算机视觉·图像分割·u-net·u-net++
weixin_462446234 分钟前
使用 Docker Compose 部署 Next-AI-Draw-IO(精简 OpenAI 兼容配置)
人工智能·docker·容器
Dfreedom.4 分钟前
循阶而上,庖丁解牛:系统学习开源 AI 模型的行动指南
人工智能·深度学习·学习·开源·图像算法
亚马逊云开发者6 分钟前
使用 Kiro AI IDE 开发 基于Amazon EMR 的Flink 智能监控系统实践
人工智能
数据光子7 分钟前
【YOLO数据集】自动驾驶
人工智能·yolo·自动驾驶
Elastic 中国社区官方博客10 分钟前
使用 Elasticsearch 中的结构化输出创建可靠的 agents
大数据·人工智能·elk·elasticsearch·搜索引擎·ai·全文检索
北京耐用通信14 分钟前
告别AGV“迷路”“断联”!耐达讯自动化PROFIBUS三路中继器,用少投入解决大麻烦
人工智能·科技·网络协议·自动化·信息与通信
xinyaozixun14 分钟前
闪极loomos系列AI眼镜重磅发布,重构日常佩戴体验,再次引领智能穿戴赛道
人工智能·重构
Hcoco_me17 分钟前
大模型面试题22:从通俗理解交叉熵公式到通用工程实现
人工智能·rnn·自然语言处理·lstm·word2vec
Blossom.11824 分钟前
基于混合检索架构的RAG系统优化实践:从Baseline到生产级部署
人工智能·python·算法·chatgpt·ai作画·架构·自动化