VibeVoice轻量级实时文本转语音模型VibeVoice-Realtime-0.5B(暂不支持中文)

VibeVoice-Realtime 是一个轻量级实时 文本转语音模型,支持流式文本输入强大的长篇语音生成 。它可以用于构建实时TTS服务、叙述实时数据流,并让不同的大型语言模型从它们的第一个令牌开始说话(插入您首选的模型),远早于生成完整答案之前。它在大约300毫秒内产生初始可听语音(硬件依赖)。

github:https://github.com/microsoft/VibeVoice

gicode:https://gitcode.com/GitHub_Trending/vib/VibeVoice

魔搭模型下载:魔搭社区

省流总结:目前暂时不支持中文。可以cpu推理,但无法实时,生成的语音文件可以用。

安装VibeVoice

先下载源代码

复制代码
git clone https://gitcode.com/GitHub_Trending/vib/VibeVoice

安装python库

复制代码
pip install -e .

虚拟环境安装(可选)

如果为了不干扰其它程序,可以创建一个python虚拟环境,并在虚拟环境安装

复制代码
python -m venv .venv

# windows下激活python环境
.venv\scripts\activate

pip install -e .

安装完成

推理

启动模型推理web服务器

复制代码
python demo/vibevoice_realtime_demo.py --model_path microsoft/VibeVoice-Realtime-0.5B

启动服务会自动下载模型,下载速度还是挺快的

复制代码
G:\github\VibeVoice\.venv\Lib\site-packages\huggingface_hub\file_download.py:798: UserWarning: Not enough free disk space to download the file. The expected file size is: 2035.33 MB. The target location C:\Users\Admin\.cache\huggingface\hub\models--microsoft--VibeVoice-Realtime-0.5B\blobs only has 1859.82 MB free disk space.
  warnings.warn(
model.safetensors:  16%|█████████▍                                                 | 325M/2.04G [00:57<04:17, 6.63MB/s]

如果是cpu环境,要加上cpu参数,还可以修改侦听的端口数:

复制代码
python demo/vibevoice_realtime_demo.py --model_path microsoft/VibeVoice-Realtime-0.5B --device cpu --port 4000

然后用浏览器打开即可:

直接推理一个文本文件

复制代码
# We provide some example scripts under demo/text_examples/ for demo
python demo/realtime_model_inference_from_file.py --model_path microsoft/VibeVoice-Realtime-0.5B --txt_path demo/text_examples/1p_vibevoice.txt --speaker_name Carter

下载声音源

复制代码
bash demo/download_experimental_voices.sh

可惜这是linux下的sh文件,windows下无法用。

可惜没有中文语音源

总结

挺好的,它最大的特点,就是可以支持超长语音,比如VibeVoice-Realtime-0.5B可以实时生成,生成长度可以达到10分钟,VibeVoice-1.5B可以生成90分钟。

模型 上下文长度 生成长度 权重
VibeVoice-Realtime-0.5B 8k ~10分钟 您在这里。
VibeVoice-1.5B 64K ~90分钟 HF链接
VibeVoice-Large 32K ~45分钟 HF链接

缺点就是截止到目前,还不支持中文,尽管它repo里面已经有了中文音频的视频展示。而且它那个展示里面的中文音频听着也比较生硬,能明显听出来是外国人说中文。

直接用cpu推理无法实时,有杂音,无法听清楚,但是生成的语音是可以使用的。

调试

启动后发现声音是异常的

原来默认用了德语发音器

但是改用了英文的,还是异常。原来是cpu推理的缘故。后来是下载到本地用播放器播放,声音正常。

相关推荐
未来之窗软件服务14 天前
幽冥大陆(七十六) piper.exe 文字朗读TTS——东方仙盟练气期
tts·仙盟创梦ide·东方仙盟
带电的小王18 天前
TTS:论文--文本转语音系统及媒体应用概述
tts·wavenet·tacotron·transformer tts·deep voice
带电的小王18 天前
sherpa-onnx:构建SherpaOnnxTts APK -- 文本转语音大模型
apk·tts·sherpa-onnx
带电的小王19 天前
Matcha-TTS:论文阅读 -- 文本转语音大模型
tts·matcha-tts
不老刘19 天前
Sherpa-onnx 离线 TTS 集成解决 openharmony 下语音播报完整方案
harmonyos·鸿蒙·tts·sherpa
paopao_wu21 天前
声音克隆与情感合成:Dify接入IndexTTS2
人工智能·ai·tts
OpenBayes24 天前
教程上新丨微软开源VibeVoice,可实现90分钟4角色自然对话
人工智能·深度学习·机器学习·大语言模型·tts·对话生成·语音生成
丹宇码农1 个月前
Index-TTS2 从零到一:完整安装与核心使用教程
人工智能·ai·tts
paopao_wu1 个月前
智普GLM-TTS开源:可控且富含情感的零样本语音合成模型
人工智能·ai·开源·大模型·tts