coqui-ai/TTS 安装使用

Coqui AI的TTS是一款开源深度学习文本转语音工具，以高质量、多语言合成著称。它提供超过1100种语言的预训练模型库，能够轻松集成到各种应用中，并允许用户通过简单API进行个性化声音训练与微调。其技术亮点包括但不限于低资源适应性（如YourTTS模型可处理有限或零样本数据），实时流式传输功能（支持200毫秒级延迟）以及强大的跨语言克隆能力。

安装：

python 复制代码

pip install TTS

根据提示配置环境，比如Microsoft C++ Build Tools，安装完成可以进行语音生成:

示例：

python 复制代码

import torch
from TTS.api import TTS

# Get device
device = "cuda" if torch.cuda.is_available() else "cpu"

# List available 🐸TTS models
print(TTS().list_models())

# Init TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)

# Run TTS
# ❗ Since this model is multi-lingual voice cloning model, we must set the target speaker_wav and language
# Text to speech list of amplitude values as output
wav = tts.tts(text="Hello world!", speaker_wav="my/cloning/audio.wav", language="en")
# Text to speech to a file
tts.tts_to_file(text="Hello world!", speaker_wav="my/cloning/audio.wav", language="en", file_path="output.wav")

import torch: 导入PyTorch库，用于处理计算图和运行在GPU上的深度学习模型。
from TTS.api import TTS: 从TTS库中导入TTS类，用于文本到语音合成的API。
device = "cuda" if torch.cuda.is_available() else "cpu": 检测当前系统是否支持CUDA（GPU加速），如果支持，则将设备设置为GPU（"cuda"），否则设置为CPU。
print(TTS().list_models()): 打印可用的TTS模型列表，列出所有可用的语音合成模型。
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device): 初始化TTS对象，并指定要使用的语音合成模型。在这个例子中，使用了一个多语言语音克隆模型（multilingual voice cloning model），并将其移动到之前检测到的设备（GPU或CPU）上。
tts.tts_to_file(text="Hello world!", speaker_wav="my/cloning/audio.wav", language="en", file_path="output.wav") : 将TTS生成的语音保存到文件中。调用**tts.tts_to_file()**方法，传入要转换的文本、目标说话者的语音文件路径(需要克隆语音的文件)、语言参数以及要保存语音的文件路径。

模型下载：

案例model文件下载缓慢，可以在这获取

路径修改参考：

python 复制代码

os.environ.setdefault('TTS_HOME', 'D:/workplace/pyhon/model/TTS_HOME')
os.environ.setdefault('XDG_DATA_HOME', 'D:/workplace/pyhon/model/XDG_DATA_HOME')