音频克隆-Index-TTS

这里介绍一个新的音频克隆工具，有Bilibili开源的一个TTS工具：IndexTTS

开源地址：https://github.com/index-tts/index-tts

IndexTTS 是一个工业级、可控且高效的零样本文本到语音 (Text-to-Speech, TTS) 系统。它是一个开源项目，旨在提供高质量的语音合成能力，尤其在中文和英文语音方面表现出色。

IndexTTS 的核心特点和优势：

GPT 风格的 TTS 模型： IndexTTS 采用了一种类似于大型语言模型 (LLM) 的架构，使其在语音生成方面具有更高的自然度和强大的零样本语音克隆能力。
零样本语音克隆 (Zero-Shot Voice Cloning)： 这是 IndexTTS 的一个关键功能。这意味着你只需要提供一个非常短的（例如 5-10 秒）目标说话人的音频样本，IndexTTS 就能学习该说话人的音色和风格，并用这个音色合成任何输入的文本。
高自然度和清晰度： IndexTTS 经过数万小时语音数据的训练，旨在生成高度自然、清晰且富有表现力的语音。它在客观和主观评估中都显示出超越许多其他开源 TTS 系统的性能。
强大的控制能力：
- 中文拼音控制： 在中文场景下，IndexTTS 引入了字符-拼音混合建模方法。这允许用户通过提供拼音来纠正多音字或生僻字的错误发音，大大提高了中文发音的准确性。
- 停顿控制： 可以通过标点符号来精确控制语音中的停顿位置和时长，使合成语音更符合语流的自然节奏。
技术架构亮点：
- 基于 XTTS 和 Tortoise 模型： IndexTTS 在 XTTS 和 Tortoise 等流行 TTS 模型的基础上进行了多项创新改进。
- Conformer 条件编码器： 引入了 Conformer 结构来增强说话人条件特征的表示，这有助于提高语音克隆的相似性和稳定性。
- BigVGAN2 集成： 使用 BigVGAN2 作为声码器 (vocoder) 来优化音频质量，确保输出的语音具有高保真度。
高效性： IndexTTS 旨在实现更快的推理速度，使其适用于工业级应用。一些测试显示它甚至可以在低至 4GB VRAM 的显卡上运行，并实现快速、准确的语音合成。
持续改进： 例如，最新的 IndexTTS 1.5 版本显著提升了模型的稳定性和英文语音合成的性能，提供更流畅自然的语音体验。

应用场景：

IndexTTS 适用于需要高质量、可控且可克隆语音的多种场景，包括但不限于：

有声读物/新闻播报： 快速生成大量高质量的语音内容。
虚拟助手/聊天机器人： 提供个性化且自然的语音交互。
视频配音/内容创作： 为视频或播客等创作内容生成自定义音色的旁白或对话。
无障碍辅助： 为有视力障碍的用户提供文本转语音功能。
语音克隆研究： 作为研究和开发零样本语音克隆技术的强大基线模型。

如何获取和使用：

IndexTTS 是一个开源项目，你可以在 GitHub 上找到它的官方仓库：https://github.com/index-tts/index-tts。

克隆仓库： 将项目代码下载到本地。
安装依赖： 按照项目说明安装所需的 Python 库和环境。
下载模型文件： 通常需要在 Hugging Face 等平台下载预训练的模型权重（可以下载最新的IndexTTS-1.5），下载后解压到文件夹checkpoints中。下载位置：https://huggingface.co/IndexTeam/IndexTTS-1.5/tree/main
运行脚本： 使用提供的 Python 脚本输入文本和参考音频（用于克隆音色）来生成语音。

我的搭建：

复制代码

#在下载的文件夹里面，创建conda 环境
conda create -n index-tts python=3.10

#激活：
conda activate index-tts

#安装（torch torchvision torchaud需要根据你自己的显卡安装：nvidia-smi）
1：pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

2：pip install -r requirements.txt

#注意，如果你本地电脑没有VS C++的话，可能编译不过（主要是pynini）,那就是使用下面方法安装：
1：conda install -c conda-forge cython
2：conda install -c conda-forge pynini=2.1.6
3：pip install WeTextProcessing --no-deps

4：修改equirements.txt，去掉 Cython==3.0.7，去掉最后的WeTextProcessing 。
5：重新安装 
pip install -r requirements.txt

运行：

复制代码

python webui.py --model_dir IndexTTS-1.5

结果：生成的视频可以在网页端下载，也可以在outputs 文件夹下面查找。

这里有个官方实例：https://index-tts.github.io/

|--------------------|--------------------|
| 源音频 | 克隆的音频 |
| 您的浏览器不支持 audio 标签。 | 您的浏览器不支持 audio 标签。 |

个人使用下来，感觉比之前的使用的那个要好些，https://www.cnblogs.com/cj8988/p/18962212。可能是在处理中文时，这个开源感觉更适合吧。