VibeVoice轻量级实时文本转语音模型VibeVoice-Realtime-0.5B(暂不支持中文)

VibeVoice-Realtime 是一个轻量级实时 文本转语音模型,支持流式文本输入强大的长篇语音生成 。它可以用于构建实时TTS服务、叙述实时数据流,并让不同的大型语言模型从它们的第一个令牌开始说话(插入您首选的模型),远早于生成完整答案之前。它在大约300毫秒内产生初始可听语音(硬件依赖)。

github:https://github.com/microsoft/VibeVoice

gicode:https://gitcode.com/GitHub_Trending/vib/VibeVoice

魔搭模型下载:魔搭社区

省流总结:目前暂时不支持中文。可以cpu推理,但无法实时,生成的语音文件可以用。

安装VibeVoice

先下载源代码

复制代码
git clone https://gitcode.com/GitHub_Trending/vib/VibeVoice

安装python库

复制代码
pip install -e .

虚拟环境安装(可选)

如果为了不干扰其它程序,可以创建一个python虚拟环境,并在虚拟环境安装

复制代码
python -m venv .venv

# windows下激活python环境
.venv\scripts\activate

pip install -e .

安装完成

推理

启动模型推理web服务器

复制代码
python demo/vibevoice_realtime_demo.py --model_path microsoft/VibeVoice-Realtime-0.5B

启动服务会自动下载模型,下载速度还是挺快的

复制代码
G:\github\VibeVoice\.venv\Lib\site-packages\huggingface_hub\file_download.py:798: UserWarning: Not enough free disk space to download the file. The expected file size is: 2035.33 MB. The target location C:\Users\Admin\.cache\huggingface\hub\models--microsoft--VibeVoice-Realtime-0.5B\blobs only has 1859.82 MB free disk space.
  warnings.warn(
model.safetensors:  16%|█████████▍                                                 | 325M/2.04G [00:57<04:17, 6.63MB/s]

如果是cpu环境,要加上cpu参数,还可以修改侦听的端口数:

复制代码
python demo/vibevoice_realtime_demo.py --model_path microsoft/VibeVoice-Realtime-0.5B --device cpu --port 4000

然后用浏览器打开即可:

直接推理一个文本文件

复制代码
# We provide some example scripts under demo/text_examples/ for demo
python demo/realtime_model_inference_from_file.py --model_path microsoft/VibeVoice-Realtime-0.5B --txt_path demo/text_examples/1p_vibevoice.txt --speaker_name Carter

下载声音源

复制代码
bash demo/download_experimental_voices.sh

可惜这是linux下的sh文件,windows下无法用。

可惜没有中文语音源

总结

挺好的,它最大的特点,就是可以支持超长语音,比如VibeVoice-Realtime-0.5B可以实时生成,生成长度可以达到10分钟,VibeVoice-1.5B可以生成90分钟。

模型 上下文长度 生成长度 权重
VibeVoice-Realtime-0.5B 8k ~10分钟 您在这里。
VibeVoice-1.5B 64K ~90分钟 HF链接
VibeVoice-Large 32K ~45分钟 HF链接

缺点就是截止到目前,还不支持中文,尽管它repo里面已经有了中文音频的视频展示。而且它那个展示里面的中文音频听着也比较生硬,能明显听出来是外国人说中文。

直接用cpu推理无法实时,有杂音,无法听清楚,但是生成的语音是可以使用的。

调试

启动后发现声音是异常的

原来默认用了德语发音器

但是改用了英文的,还是异常。原来是cpu推理的缘故。后来是下载到本地用播放器播放,声音正常。

相关推荐
paopao_wu1 天前
声音克隆与情感合成:Dify接入IndexTTS2
人工智能·ai·tts
OpenBayes4 天前
教程上新丨微软开源VibeVoice,可实现90分钟4角色自然对话
人工智能·深度学习·机器学习·大语言模型·tts·对话生成·语音生成
丹宇码农6 天前
Index-TTS2 从零到一:完整安装与核心使用教程
人工智能·ai·tts
paopao_wu9 天前
智普GLM-TTS开源:可控且富含情感的零样本语音合成模型
人工智能·ai·开源·大模型·tts
minhuan10 天前
大模型应用:完整语音交互闭环:TTS+ASR融合系统可视化场景实践.22
人工智能·语音识别·tts·asr·语音大模型应用
モンキー・D・小菜鸡儿13 天前
Android 系统TTS(文字转语音)解析
android·tts
uncle_ll20 天前
音画同步革命:IndexTTS2深度解析——B站开源的情感化+时长可控TTS新标杆
nlp·tts·文本转语音·声音克隆
CS创新实验室1 个月前
练习项目:基于 LangGraph 和 MCP 服务器的本地语音助手
运维·服务器·ai·aigc·tts·mcp
HyperAI超神经2 个月前
在线教程丨端侧TTS新SOTA!NeuTTS-Air基于0.5B模型实现3秒音频克隆
人工智能·深度学习·机器学习·音视频·tts·音频克隆·neutts-air