一个简单可用的中英文音色克隆工具

对音色克隆这块一直感兴趣,想找个可用的支持中文的玩玩,关注coqui很久了,可惜他们迟迟不支持中文,直到9月份才开始支持。

于是搞了一个带web界面的声音克隆工具,可使用你的或者其他声音的音色,将一段文字合成为使用该声音说话的音频。使用非常简单,没有GPU也可以使用,github下载预编译版本,双击 app.exe 打开一个web界面,鼠标点点快速体验,笔记本电脑就可使用,毕竟这是本项目创立的初衷,高手直接拉取coqui-tts,可玩性更强。

项目开源地址: github.com/jianchang51...

支持 中文英文日语韩语 4种语言,可在线从麦克风录制声音。为保证合成效果,建议录制时长5秒到20秒,发音清晰准确,不要存在背景噪声。英文效果很棒,中文效果还凑合。

可导入srt格式的字幕,然后按照时间线合成语音,生成wav音频。

项目基于 coqui-tts ,早就想使用这个来做音色克隆了,只是他们一直不支持中文,直到今天9月份才支持。 内部集成flask搞了一个简单的本地web界面,默认地址 http://127.0.0.1:9988 , 可在线录制声音或上传已有的一段声音作为音色,然后输入一段文字,即可生成使用该声音的音频。

已提供window预编译版,直接下载压缩包解压,然后双击 run.bat 即可使用。其实直接拉取 coqui-tts 也可以,当然需要一些相关技术知识。本项目初衷是降低ai使用难度,让小白也能快速上手体验,不必配备N卡,即使笔记本电脑也可使用。

一些问题

遇到不少问题,颇伤脑筋

  1. 首先就是打包问题,使用的pyinstaller 打包,打包后提示缺少不少依赖,修改了 spec 文件,copy_meta /copytree ,费了不少力气,还是无法彻底解决所有问题,后来干脆简单粗暴些,直接从 Lib 下复制缺少的包进去,解决了,只是包太大了,仅支持CPU,打包压缩后总体积也达到了1.9G

  2. 对CUDA的支持,源码支持cuda,预编译版为减小体积,仅支持CPU,原本加入了GPU支持,可惜7zip压缩后体积仍然达到将近4G,太大了

  3. 中文断句问题,coqui 今年9月份才增加中文支持,目前看起来效果还不是很好,有的在不该断句的地方生硬的断开了,而应该断句的标点处却没有断句

  4. xtts-v2 language="zh-cn" 时的bug,当使用 该模型,并设置语言位 "zh-cn" 时,会提示ValueError: Model is not multi-lingual but language is provided., coqui已有人提交bug报告,目前是通过修改 TTS/api.py,注释掉大约242行的代码解决的

python 复制代码
if not self.is_multi_lingual and language is not None:
   raise ValueError("Model is not multi-lingual but `language` is provided.")

依赖的其他开源项目

  1. github.com/coqui-ai/TT...
  2. github.com/pallets/fla...
相关推荐
清水白石0082 小时前
解构异步编程的两种哲学:从 asyncio 到 Trio,理解 Nursery 的魔力
运维·服务器·数据库·python
山海青风2 小时前
图像识别零基础实战入门 1 计算机如何“看”一张图片
图像处理·python
Miku162 小时前
使用 Claude Code 的 pptx-skills 技能生成精美 EVA 主题 PPT 完整指南
aigc·agent·claude
彼岸花开了吗2 小时前
构建AI智能体:八十、SVD知识整理与降维:从数据混沌到语义秩序的智能转换
人工智能·python·llm
韩师傅2 小时前
前端开发消亡史:AI也无法掩盖没有设计创造力的真相
前端·人工智能·后端
山土成旧客2 小时前
【Python学习打卡-Day40】从“能跑就行”到“工程标准”:PyTorch训练与测试的规范化写法
pytorch·python·学习
闲人编程3 小时前
消息通知系统实现:构建高可用、可扩展的企业级通知服务
java·服务器·网络·python·消息队列·异步处理·分发器
大神君Bob3 小时前
【AI办公自动化】如何使用Pytho让Excel表格处理自动化
python
Heorine3 小时前
数学建模 绘图 图表 可视化(6)
python·数学建模·数据可视化
栈与堆3 小时前
LeetCode-1-两数之和
java·数据结构·后端·python·算法·leetcode·rust