【AI】文本转语音 变声 音色克隆 数字人音视频口型同步AI应用

文本转语音

项目地址:https://github.com/coqui-ai/TTS

环境安装:

  1. 下载项目;

  2. 安装Python,安装项目依赖:

    pip install TTS

1. 下载安装AI模型:

https://github.com/facebookresearch/fairseq/tree/main/examples/mms

模型文件放到:C:\Users\Administrator\AppData\Local\tts

2. 将文本转换为语音:

tts --text "要转换的文本内容" --model_name "指定语音模型" --out_path .\outFile.wav

语音模型可通过命令tts --list_models列出

示例(使用中文语音模型):

复制代码
tts --text "你好,中文。" --model_name "tts_models/zh-CN/baker/tacotron2-DDC-GST" --out_path .\test.wav
3. 自定义人声:

就是给定一段语音,生成语音的音色就会与给定语音相似。也就是自定义人声。

自定义人声需要依赖xtts模型,下载地址:https://huggingface.co/coqui/XTTS-v2/tree/main

也可以通过以下命令行下载:

复制代码
git lfs install
git clone https://huggingface.co/coqui/XTTS-v2

下载的模型文件必须放到特定文件夹:C:\Users\Administrator\AppData\Local\tts\tts_models--multilingual--multi-dataset--xtts_v2

使用以下命令生成自定义人声的语音:

复制代码
tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 --language_idx zh-cn --speaker_wav ./out/output.wav --text "感谢榜一大哥,王思春送来的一发火箭。" --out_path ./out/ai_output.wav

语音转语音(变声)

项目地址:https://github.com/voicepaw/so-vits-svc-fork

1. 环境安装:
  1. 下载项目;
  2. 安装依赖:pip install --r requirements.txt
  3. 下载语音模型:

https://huggingface.co/models?search=so-vits-svc

https://civitai.com/?query=so-vits-svc

模型存放目录结构configs/模型文件.pth;configs/44k/config.json

2. 使用方法:
  1. GUI使用:

命令: svc gui打开UI界面

选择模型文件、模型配置文件、原语音文件wav;

点击Infer按钮生成语音文件;

  1. 使用命令行:

svc infer C:\Users\Administrator\Desktop\test.wav -m "C:\Users\Administrator\Desktop\configs"

视频同步语音口型

项目地址:https://github.com/OpenTalker/video-retalking

1. 环境安装:
  1. 下载项目;
  2. 安装conda:Index of /anaconda/miniconda/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror
  3. 使用conda创建python环境:

conda create -n video_retalking python=3.8

conda activate video_retalking

  1. 安装依赖:

conda install ffmpeg

复制代码
pip install -r requirements.txt
  1. AI模型下载:https://drive.google.com/drive/folders/18rhjMpxK8LVVxf7PI6XwOidt8Vouv_H0?usp=share_link

在项目工程下新建checkpoints文件夹并将模型全部文件放入文件夹;

2. 使用方法:
复制代码
.\inference --face 3.mp4 --audio D:\Workspace\TTS-0.21.3\test.wav --outfile C:\Users\Administrator\Desktop\out_3.mp4
相关推荐
zenRRan3 分钟前
用中等难度prompt做高效post training
人工智能·深度学习·机器学习·计算机视觉·prompt
格林威37 分钟前
短波红外相机的简单介绍和场景应用
人工智能·数码相机·计算机视觉·目标跟踪·视觉检测·工业相机·工业镜头
风口猪炒股指标41 分钟前
《白日梦想家》片段与认知模式的思考
人工智能·博弈论·群体博弈·人生哲学·自我引导觉醒
lihuayong1 小时前
LangGraph React智能体 - 推理与行动的完美结合
人工智能·langgraph·react 智能体
机器之心1 小时前
Meta用40万个GPU小时做了一个实验,只为弄清强化学习Scaling Law
人工智能·openai
酌量1 小时前
从 ROS 订阅视频话题到本地可视化与 RTMP 推流全流程实战
经验分享·笔记·ffmpeg·音视频·ros
曾经的三心草1 小时前
OpenCV5-图像特征harris-sift-特征匹配-图像全景拼接-答题卡识别判卷
人工智能·opencv·计算机视觉
慧星云1 小时前
魔多 AI 支持 Wan 系列在线训练 :解锁视频生成新高度
人工智能
麻辣兔变形记2 小时前
Solidity 合约超限问题及优化策略:以 FHEFactory 为例
人工智能·区块链
给大佬递杯卡布奇诺2 小时前
FFmpeg 基本API av_seek_frame函数内部调用流程分析
c++·ffmpeg·音视频