一、IndexTTS介绍
IndexTTS 是一种主要基于 XTTS 和 Tortoise 的 GPT 风格的文本转语音 (TTS) 模型。它能够使用拼音纠正汉字的发音,并通过标点符号控制任何位置的停顿。我们增强了系统的多个模块,包括扬声器条件特征表示的改进,以及集成 BigVGAN2 以优化音频质量。经过数万小时的数据训练,我们的系统实现了最先进的性能,优于当前流行的 TTS 系统,如 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS。

最近IndexTTS发布了最新的TTS-1.5模型,显著的提高了模型的稳定性和在英语语言中的性能表现。IndexTTS-1.5的语音克隆更加真实,语音克隆质量更高了。
项目主页:https://index-tts.github.io/
GitHub:https://github.com/index-tts/index-tts
硬件要求
操作系统:Windows 10/11 64 位,或 Ubuntu 22.04+
CPU:四核
内存:16 GB 及以上
显卡:最低 4 GB 显存即可启动
效果预览
墨彩环
目前最火的动漫是《凡人修仙传》,这里引用《墨彩环·凡尘叹》里面的独白
韩大哥......
我这一生,终究是没能追上你的脚步。
初见时,你只是个木讷的少年,沉默寡言,却总能在危急时护我周全。我以为,只要我足够努力,终有一天能站在你身旁,哪怕只是远远看着。
可后来才明白,原来这世上,有些人注定是仙,而有些人,只能是凡人。
你教我武功,赠我丹药,可我的灵根......终究是断了仙缘。我不甘心,真的不甘心!为何旁人能踏上长生路,而我却只能困在这凡尘,看着岁月一点点夺走容颜,而你......仍是当年模样。
我曾想,若我不是墨家小姐,若我也能修炼,是否就能陪你走得更远?可这世上,没有如果。
韩大哥,我知你心中大道至上,儿女情长不过是过眼云烟。可我还是会想,若有一日你登临绝巅,是否会偶尔想起,当年那个跟在你身后、唤你"韩大哥"的傻姑娘?
罢了......仙凡有别,本就是天道无情。
只愿来世......我能有灵根,哪怕只是最差的伪灵根,也好过此生,只能仰望你的背影,渐行渐远......
听起来,效果都还不错。
台湾女生
场景:夜市奶茶摊前,女生对着闺蜜抱怨暧昧对象
"吼!你真的有够夸张欸------那个阿诚昨天又已读我!第三次了哦!(吸珍珠奶茶)啊不是说要约我去九份?现在连'早安'都不传了是怎样?(跺脚)男生都酱紫啦,刚开始超热情,什么'宝贝睡了吗'、'吃饭了没',现在咧?连贴图都懒得丢一个!(翻白眼)"
"诶你评评理啦!上次下雨天我特地绕去他公司送伞,结果他同事起哄说'哇~女朋友喔?',他居然给我回'就...朋友啊'!(模仿男生挠头动作)靠北喔~谁跟你是'就朋友'!我阿嬷泡的乌龙茶他都喝三罐了呀!(戳奶茶杯)"
"不管啦!这次他再不主动,我就...我就...(突然手机亮起)等等!他传讯息了!(快速擦手点开)'在干吗?'...噗!又是这句!(抓头发)每次开场白都一毛一样,到底是有多词穷啦!(突然偷笑)不过...他加了一个爱心emoji欸...(捂脸扭动)啊啊啊,烦死了!我这样是不是很没出息?(戳闺蜜手臂)你快点骂醒我啦!"
这个台湾女生,说话挺可爱的!
二、安装Index-TTS
环境说明
操作系统:windows 11家庭版
python版本:3.13.2
Anaconda:2025.06-0
硬件我已经满足最低需求,注意显卡必须要达到要求。
Microsoft C++ 生成工具
打开链接:https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/
下载生成工具
勾选C++组件

勾选linux c++组件

然后点击安装,等待20分钟左右安装完成。
注意,这个必须要安装,否则安装pynini会报错。
环境设置
1.下载仓库代码
git clone https://github.com/index-tts/index-tts.git
2.安装依赖项
创建一个新的conda环境并安装依赖项:
conda create --prefix D:\file\conda\envs\index-tts python=3.13.2
conda activate D:\file\conda\envs\index-tts
安装PyTorch,提供CUDA指令集架构,用来驱动英伟达显卡。
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
为了避免windows安装pynini遇到错误,通过conda安装pynini
conda install -c conda-forge pynini==2.1.6
pip install WeTextProcessing --no-deps
安装IndexTTS依赖软件包
cd index-tts
pip install -e .
3.下载模型
pip install modelscope
modelscope download --model IndexTeam/IndexTTS-1.5
下载模型完成后,默认在用户目录,比如:C:\Users\xiao\.cache\modelscope\hub\IndexTeam/IndexTTS-1.5
将里面的文件,全部复制到github项目文件夹 index-tts\checkpoints里面。

运行web demo
python webui.py
输出如下:
>> GPT weights restored from: checkpoints\gpt.pth
>> DeepSpeed加载失败,回退到标准推理: No module named 'deepspeed'
See more details https://www.deepspeed.ai/tutorials/advanced-install/
Detected CUDA files, patching ldflags
Emitting ninja build file C:\Users\xiao\Downloads\index-tts-main\indextts\BigVGAN\alias_free_activation\cuda\build\build.ninja...
信息: 用提供的模式无法找到文件。
>> Failed to load custom CUDA kernel for BigVGAN. Falling back to torch. Command '['where', 'cl']' returned non-zero exit status 1.
Reinstall with `pip install -e . --no-deps --no-build-isolation` to prebuild `anti_alias_activation_cuda` kernel.
See more details: https://github.com/index-tts/index-tts/issues/164#issuecomment-2903453206
Removing weight norm...
>> bigvgan weights restored from: checkpoints\bigvgan_generator.pth
2025-08-15 17:00:07,635 WETEXT INFO found existing fst: C:\Users\xiao\Downloads\index-tts-main\indextts\utils\tagger_cache\zh_tn_tagger.fst
2025-08-15 17:00:07,636 WETEXT INFO C:\Users\xiao\Downloads\index-tts-main\indextts\utils\tagger_cache\zh_tn_verbalizer.fst
2025-08-15 17:00:07,636 WETEXT INFO skip building fst for zh_normalizer ...
2025-08-15 17:00:10,108 WETEXT INFO found existing fst: D:\file\conda\envs\my_unsloth_env\Lib\site-packages\tn\en_tn_tagger.fst
2025-08-15 17:00:10,109 WETEXT INFO D:\file\conda\envs\my_unsloth_env\Lib\site-packages\tn\en_tn_verbalizer.fst
2025-08-15 17:00:10,109 WETEXT INFO skip building fst for en_normalizer ...
>> TextNormalizer loaded
>> bpe model loaded from: checkpoints\bpe.model
* Running on local URL: http://127.0.0.1:7860
* To create a public link, set `share=True` in `launch()`.
注意:这里输出的一些警告信息,不用管。
只要能出现http://127.0.0.1:7860,就说明运行成功了。
三、生成语音
墨彩环
打开页面:http://127.0.0.1:7860,效果如下:

上传参考音频,文件: https://res.wx.qq.com/voice/getvoice?mediaid=MzkxNzYzODgwN18yMjQ3NDkxMDAw
输入文章开头的文本
最后点击生成语音

等待10分钟左右,就完成了。
完成后,可以试听,也可以点击右边的下载

播放音频

效果,就是文章开头的展现的。
台湾女声
打开迅雷网盘,https://pan.xunlei.com/s/VOU-NFxruAdJSBAnyq_JPFs7A1?pwd=p5sz
下载音源

解压之后,选择这个

然后上传音源,输入文本
吼!你真的有够夸张欸
那个阿诚昨天又已读我!第三次了哦!
啊,不是说要约我去九份?现在连'早安'都不传了是怎样?
男生都酱紫啦,刚开始超热情,什么'宝贝睡了吗'、'吃饭了没',现在咧?连贴图都懒得丢一个!
诶,你评评理啦!上次下雨天我特地绕去他公司送伞,结果他同事起哄,说'哇~女朋友喔?',他居然给我回'就...朋友啊'!
靠北喔~谁跟你是'就朋友'!我阿嬷泡的乌龙茶他都喝三罐了呀!
不管啦!这次他再不主动,我就...我就...
等等!他传讯息了!
'在干吗?'...噗!又是这句!
每次开场白都一毛一样,到底是有多词穷啦!
不过...他加了一个爱心欸...
啊啊啊...烦死了!我这样是不是很没出息?
你快点骂醒我啦!
最后点击生成语音

等待10分钟,效果如下:
本文参考链接: