Index-TTS:最逼真的Ai声音克隆

一、IndexTTS介绍

IndexTTS 是一种主要基于 XTTSTortoise 的 GPT 风格的文本转语音 (TTS) 模型。它能够使用拼音纠正汉字的发音,并通过标点符号控制任何位置的停顿。我们增强了系统的多个模块,包括扬声器条件特征表示的改进,以及集成 BigVGAN2 以优化音频质量。经过数万小时的数据训练,我们的系统实现了最先进的性能,优于当前流行的 TTS 系统,如 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS。

最近IndexTTS发布了最新的TTS-1.5模型,显著的提高了模型的稳定性和在英语语言中的性能表现。IndexTTS-1.5的语音克隆更加真实,语音克隆质量更高了。

项目主页:https://index-tts.github.io/

GitHub:https://github.com/index-tts/index-tts

硬件要求

操作系统:Windows 10/11 64 位,或 Ubuntu 22.04+

CPU:四核

内存:16 GB 及以上

显卡:最低 4 GB 显存即可启动

效果预览

墨彩环

目前最火的动漫是《凡人修仙传》,这里引用《墨彩环·凡尘叹》里面的独白

复制代码
韩大哥......

我这一生,终究是没能追上你的脚步。

初见时,你只是个木讷的少年,沉默寡言,却总能在危急时护我周全。我以为,只要我足够努力,终有一天能站在你身旁,哪怕只是远远看着。

可后来才明白,原来这世上,有些人注定是仙,而有些人,只能是凡人。

你教我武功,赠我丹药,可我的灵根......终究是断了仙缘。我不甘心,真的不甘心!为何旁人能踏上长生路,而我却只能困在这凡尘,看着岁月一点点夺走容颜,而你......仍是当年模样。

我曾想,若我不是墨家小姐,若我也能修炼,是否就能陪你走得更远?可这世上,没有如果。

韩大哥,我知你心中大道至上,儿女情长不过是过眼云烟。可我还是会想,若有一日你登临绝巅,是否会偶尔想起,当年那个跟在你身后、唤你"韩大哥"的傻姑娘?

罢了......仙凡有别,本就是天道无情。

只愿来世......我能有灵根,哪怕只是最差的伪灵根,也好过此生,只能仰望你的背影,渐行渐远......

听起来,效果都还不错。

台湾女生

‌场景:夜市奶茶摊前,女生对着闺蜜抱怨暧昧对象‌

复制代码
"吼!你真的有够夸张欸------那个阿诚昨天又已读我!第三次了哦!(吸珍珠奶茶)啊不是说要约我去九份?现在连'早安'都不传了是怎样?(跺脚)男生都酱紫啦,刚开始超热情,什么'宝贝睡了吗'、'吃饭了没',现在咧?连贴图都懒得丢一个!(翻白眼)"

"诶你评评理啦!上次下雨天我特地绕去他公司送伞,结果他同事起哄说'哇~女朋友喔?',他居然给我回'就...朋友啊'!(模仿男生挠头动作)靠北喔~谁跟你是'就朋友'!我阿嬷泡的乌龙茶他都喝三罐了呀!(戳奶茶杯)"

"不管啦!这次他再不主动,我就...我就...(突然手机亮起)等等!他传讯息了!(快速擦手点开)'在干吗?'...噗!又是这句!(抓头发)每次开场白都一毛一样,到底是有多词穷啦!(突然偷笑)不过...他加了一个爱心emoji欸...(捂脸扭动)啊啊啊,烦死了!我这样是不是很没出息?(戳闺蜜手臂)你快点骂醒我啦!"

这个台湾女生,说话挺可爱的!

二、安装Index-TTS

环境说明

操作系统:windows 11家庭版

python版本:3.13.2

Anaconda:2025.06-0

硬件我已经满足最低需求,注意显卡必须要达到要求。

Microsoft C++ 生成工具

打开链接:https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/

下载生成工具

勾选C++组件

勾选linux c++组件

然后点击安装,等待20分钟左右安装完成。

注意,这个必须要安装,否则安装pynini会报错。

环境设置

1.下载仓库代码

复制代码
git clone https://github.com/index-tts/index-tts.git

2.安装依赖项

创建一个新的conda环境并安装依赖项:

复制代码
conda create --prefix D:\file\conda\envs\index-tts python=3.13.2
conda activate D:\file\conda\envs\index-tts

安装PyTorch,提供CUDA指令集架构,用来驱动英伟达显卡。

复制代码
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128

为了避免windows安装pynini遇到错误,通过conda安装pynini

复制代码
conda install -c conda-forge pynini==2.1.6
pip install WeTextProcessing --no-deps

安装IndexTTS依赖软件包

复制代码
cd index-tts
pip install -e .

3.下载模型

复制代码
pip install modelscope
modelscope download --model IndexTeam/IndexTTS-1.5

下载模型完成后,默认在用户目录,比如:C:\Users\xiao\.cache\modelscope\hub\IndexTeam/IndexTTS-1.5

将里面的文件,全部复制到github项目文件夹 index-tts\checkpoints里面。

运行web demo

复制代码
python webui.py

输出如下:

复制代码
>> GPT weights restored from: checkpoints\gpt.pth
>> DeepSpeed加载失败,回退到标准推理: No module named 'deepspeed'
See more details https://www.deepspeed.ai/tutorials/advanced-install/
Detected CUDA files, patching ldflags
Emitting ninja build file C:\Users\xiao\Downloads\index-tts-main\indextts\BigVGAN\alias_free_activation\cuda\build\build.ninja...
信息: 用提供的模式无法找到文件。
>> Failed to load custom CUDA kernel for BigVGAN. Falling back to torch. Command '['where', 'cl']' returned non-zero exit status 1.
 Reinstall with `pip install -e . --no-deps --no-build-isolation` to prebuild `anti_alias_activation_cuda` kernel.
See more details: https://github.com/index-tts/index-tts/issues/164#issuecomment-2903453206
Removing weight norm...
>> bigvgan weights restored from: checkpoints\bigvgan_generator.pth
2025-08-15 17:00:07,635 WETEXT INFO found existing fst: C:\Users\xiao\Downloads\index-tts-main\indextts\utils\tagger_cache\zh_tn_tagger.fst
2025-08-15 17:00:07,636 WETEXT INFO                     C:\Users\xiao\Downloads\index-tts-main\indextts\utils\tagger_cache\zh_tn_verbalizer.fst
2025-08-15 17:00:07,636 WETEXT INFO skip building fst for zh_normalizer ...
2025-08-15 17:00:10,108 WETEXT INFO found existing fst: D:\file\conda\envs\my_unsloth_env\Lib\site-packages\tn\en_tn_tagger.fst
2025-08-15 17:00:10,109 WETEXT INFO                     D:\file\conda\envs\my_unsloth_env\Lib\site-packages\tn\en_tn_verbalizer.fst
2025-08-15 17:00:10,109 WETEXT INFO skip building fst for en_normalizer ...
>> TextNormalizer loaded
>> bpe model loaded from: checkpoints\bpe.model
* Running on local URL:  http://127.0.0.1:7860
* To create a public link, set `share=True` in `launch()`.

注意:这里输出的一些警告信息,不用管。

只要能出现http://127.0.0.1:7860,就说明运行成功了。

三、生成语音

墨彩环

打开页面:http://127.0.0.1:7860,效果如下:

上传参考音频,文件: https://res.wx.qq.com/voice/getvoice?mediaid=MzkxNzYzODgwN18yMjQ3NDkxMDAw

输入文章开头的文本

最后点击生成语音

等待10分钟左右,就完成了。

完成后,可以试听,也可以点击右边的下载

播放音频

效果,就是文章开头的展现的。

台湾女声

打开迅雷网盘,https://pan.xunlei.com/s/VOU-NFxruAdJSBAnyq_JPFs7A1?pwd=p5sz

下载音源

解压之后,选择这个

然后上传音源,输入文本

复制代码
吼!你真的有够夸张欸
那个阿诚昨天又已读我!第三次了哦!
啊,不是说要约我去九份?现在连'早安'都不传了是怎样?
男生都酱紫啦,刚开始超热情,什么'宝贝睡了吗'、'吃饭了没',现在咧?连贴图都懒得丢一个!

诶,你评评理啦!上次下雨天我特地绕去他公司送伞,结果他同事起哄,说'哇~女朋友喔?',他居然给我回'就...朋友啊'!
靠北喔~谁跟你是'就朋友'!我阿嬷泡的乌龙茶他都喝三罐了呀!

不管啦!这次他再不主动,我就...我就...
等等!他传讯息了!
'在干吗?'...噗!又是这句!
每次开场白都一毛一样,到底是有多词穷啦!
不过...他加了一个爱心欸...
啊啊啊...烦死了!我这样是不是很没出息?
你快点骂醒我啦!

最后点击生成语音

等待10分钟,效果如下:

本文参考链接:

https://zhuanlan.zhihu.com/p/1924169140605813757

相关推荐
肖祥3 天前
Langfuse-开源AI观测分析平台,结合dify工作流
dify
逻极5 天前
Dify 从入门到精通(第 30/100 篇):Dify 的分布式部署
人工智能·ai·agent·ai编程·工作流·dify·ai助手
YXWik67 天前
dify之推送飞书群消息工作流
ai·dify
逻极10 天前
Dify 从入门到精通(第 20/100 篇):Dify 的自动化测试与 CI/CD
人工智能·ai·agent·ai编程·工作流·dify·ai助手
我是小bā吖11 天前
使用阿里云服务器部署dify实战
服务器·阿里云·dify
mylove_北极甜虾11 天前
OpenWebUI通过pipeline对接dify的workflow
运维·容器·dify·openwebui
huainian13 天前
dify
dify
Blessed_Li17 天前
【dify+milvus避坑指南】将向量库milvus集成给dify作为知识库
docker·ai·llm·milvus·dify
友莘居士22 天前
Dify中的Agent和发现和调用mcp工具两个节点调用的异同
agent·react·dify·functioncalling·mcp