网易有道强力开源中英双语语音克隆

项目地址(基于PromptTTS):

https://github.com/netease-youdao/EmotiVoice

EmotiVoice Docker镜像

尝试EmotiVoice最简单的方法是运行docker镜像。你需要一台带有NVidia GPU的机器。先按照Linux和Windows WSL2平台的说明安装NVidia容器工具包。然后可以直接运行EmotiVoice镜像:

复制代码
docker run -dp 127.0.0.1:8501:8501 syq163/emoti-voice:latest

现在打开浏览器,导航到 http://localhost:8501 ,就可以体验EmotiVoice强大的TTS功能。

完整安装

复制代码
conda create -n EmotiVoice python=3.8 -y
conda activate EmotiVoice
pip install torch torchaudio
pip install numpy numba scipy transformers==4.26.1 soundfile yacs g2p_en jieba pypinyin

准备模型文件

复制代码
git lfs install
git lfs clone https://huggingface.co/WangZeJun/simbert-base-chinese WangZeJun/simbert-base-chinese

推理

  1. 下载预训练模型, 然后运行:
复制代码
mkdir -p outputs/style_encoder/ckpt

mkdir -p outputs/prompt_tts_open_source_joint/ckpt

g_*, do_*文件放到outputs/ prompt_tts_open_source_joint/ ckpt

checkpoint_*放到outputs/ style_encoder/ ckpt

  1. 推理输入文本格式是:

<speaker>|<style_prompt/emotion_prompt/content>|<phoneme>|<content>.

例如: Maria_Kasper|非常开心|<sos/eos> uo3 sp1 l ai2 sp0 d ao4 sp1 b ei3 sp0 j ing1 sp3 q ing1 sp0 h ua2 sp0 d a4 sp0 x ve2 <sos/eos>|我来到北京,清华大学.

  1. 其中的音素(phonemes)可以这样得到:

python frontend.py data/my_text.txt > data/my_text_for_tts.txt.

  1. 然后运行:
复制代码
TEXT=data/inference/text
python inference_am_vocoder_joint.py \
--logdir prompt_tts_open_source_joint \
--config_folder config/joint \
--checkpoint g_00140000 \
--test_file $TEXT

合成的语音结果在:

outputs/prompt_tts_open_source_joint/test_audio.

  1. 或者你可以直接使用交互的网页界面:
复制代码
pip install streamlit
streamlit run demo_page.py

训练

待推出。

未来工作

  • 当前的实现侧重于通过提示控制情绪/风格。它只使用音高、速度、能量和情感作为风格因素,而不使用性别。但是将其更改为样式、音色控制并不复杂,类似于PromptTTS的原始闭源实现。

致谢

  • PromptTTS. PromptTTS论文是本工作的重要基础。

  • LibriTTS. 训练使用了LibriTTS开放数据集。

  • HiFiTTS. 训练使用了HiFi TTS开放数据集。

  • ESPnet.

  • WeTTS

  • HiFi-GAN

  • Transformers

  • tacotron

  • KAN-TTS

  • StyleTTS

  • Simbert

许可

EmotiVoice是根据Apache-2.0许可证提供的 - 有关详细信息,请参阅许可证文件。

交互的网页是根据用户协议提供的。

相关推荐
格林威26 分钟前
AOI在风电行业制造领域中的应用
人工智能·数码相机·计算机视觉·视觉检测·制造·机器视觉·aoi
大千AI助手26 分钟前
Graph-R1:智能图谱检索增强的结构化多轮推理框架
人工智能·神经网络·大模型·rag·检索增强生成·大千ai助手·graph-r1
EasyGBS34 分钟前
EasyGBS助力智慧医院打造全方位视频监控联网服务体系
网络·音视频
瑞禧生物ruixibio1 小时前
ABA-Biotin,脱落酸-生物素,用于追踪ABA在植物细胞中的分布及运输路径
人工智能
数字孪生家族1 小时前
视频孪生与空间智能:重构物理世界的时空认知范式
音视频·空间智能·数字孪生头部企业·视频孪生与空间智能融合
哔哩哔哩技术1 小时前
B站基础安全在AI溯源方向的探索实践
人工智能
IT_陈寒1 小时前
7个鲜为人知的JavaScript性能优化技巧,让你的网页加载速度提升50%
前端·人工智能·后端
城数派1 小时前
1951-2100年全球复合极端气候事件数据集
人工智能·数据分析
GitCode官方1 小时前
提贡献得京东卡|GitCode & BISHENG 开源贡献征集令活动开启
开源·gitcode
Hody912 小时前
【XR硬件系列】夸克 AI 眼镜预售背后:阿里用 “硬件尖刀 + 生态护城河“ 重构智能穿戴逻辑
人工智能·重构