VibeVoice轻量级实时文本转语音模型VibeVoice-Realtime-0.5B(暂不支持中文)

VibeVoice-Realtime 是一个轻量级实时 文本转语音模型,支持流式文本输入强大的长篇语音生成 。它可以用于构建实时TTS服务、叙述实时数据流,并让不同的大型语言模型从它们的第一个令牌开始说话(插入您首选的模型),远早于生成完整答案之前。它在大约300毫秒内产生初始可听语音(硬件依赖)。

github:https://github.com/microsoft/VibeVoice

gicode:https://gitcode.com/GitHub_Trending/vib/VibeVoice

魔搭模型下载:魔搭社区

省流总结:目前暂时不支持中文。可以cpu推理,但无法实时,生成的语音文件可以用。

安装VibeVoice

先下载源代码

复制代码
git clone https://gitcode.com/GitHub_Trending/vib/VibeVoice

安装python库

复制代码
pip install -e .

虚拟环境安装(可选)

如果为了不干扰其它程序,可以创建一个python虚拟环境,并在虚拟环境安装

复制代码
python -m venv .venv

# windows下激活python环境
.venv\scripts\activate

pip install -e .

安装完成

推理

启动模型推理web服务器

复制代码
python demo/vibevoice_realtime_demo.py --model_path microsoft/VibeVoice-Realtime-0.5B

启动服务会自动下载模型,下载速度还是挺快的

复制代码
G:\github\VibeVoice\.venv\Lib\site-packages\huggingface_hub\file_download.py:798: UserWarning: Not enough free disk space to download the file. The expected file size is: 2035.33 MB. The target location C:\Users\Admin\.cache\huggingface\hub\models--microsoft--VibeVoice-Realtime-0.5B\blobs only has 1859.82 MB free disk space.
  warnings.warn(
model.safetensors:  16%|█████████▍                                                 | 325M/2.04G [00:57<04:17, 6.63MB/s]

如果是cpu环境,要加上cpu参数,还可以修改侦听的端口数:

复制代码
python demo/vibevoice_realtime_demo.py --model_path microsoft/VibeVoice-Realtime-0.5B --device cpu --port 4000

然后用浏览器打开即可:

直接推理一个文本文件

复制代码
# We provide some example scripts under demo/text_examples/ for demo
python demo/realtime_model_inference_from_file.py --model_path microsoft/VibeVoice-Realtime-0.5B --txt_path demo/text_examples/1p_vibevoice.txt --speaker_name Carter

下载声音源

复制代码
bash demo/download_experimental_voices.sh

可惜这是linux下的sh文件,windows下无法用。

可惜没有中文语音源

总结

挺好的,它最大的特点,就是可以支持超长语音,比如VibeVoice-Realtime-0.5B可以实时生成,生成长度可以达到10分钟,VibeVoice-1.5B可以生成90分钟。

模型 上下文长度 生成长度 权重
VibeVoice-Realtime-0.5B 8k ~10分钟 您在这里。
VibeVoice-1.5B 64K ~90分钟 HF链接
VibeVoice-Large 32K ~45分钟 HF链接

缺点就是截止到目前,还不支持中文,尽管它repo里面已经有了中文音频的视频展示。而且它那个展示里面的中文音频听着也比较生硬,能明显听出来是外国人说中文。

直接用cpu推理无法实时,有杂音,无法听清楚,但是生成的语音是可以使用的。

调试

启动后发现声音是异常的

原来默认用了德语发音器

但是改用了英文的,还是异常。原来是cpu推理的缘故。后来是下载到本地用播放器播放,声音正常。

相关推荐
shao9185163 天前
第11章 Streaming(中):高级音频应用(1)——项目六:语音克隆、变声器与文本转录器
语音识别·tts·语音克隆·elevenlabs·stt·变声器·音乐api
Apple_羊先森10 天前
MOSS-TTS-Nano 教程 01:快速上手与整体认识
ai·tts·moss-tts-nano
互联网散修12 天前
鸿蒙实战:运动健康类应用核心组件——语音播报模块设计与实现
华为·harmonyos·tts·语音播报
神州数码云基地16 天前
AI助手语音交互:从技术到体验
人工智能·ai·语音识别·前端开发·tts·ai语音
antzou18 天前
文本转语音(TTS)
tts·文本转语音·matcha·有声书
今夕资源网18 天前
IndexTTS2今夕版最新版本号2026-04-12再次更新 新添加功能SRT字幕文件生成音频 以及生成音频同时生成SRT 字幕文件
音视频·tts·最新版·indextts·语音软件·文字转声音·字幕转音频
antzou19 天前
字幕视频合成
onnx·tts·asr·vad·paraformer
花千树-01022 天前
基于 IndexTTS2 的数字人语音生成 Pipeline 设计
人工智能·aigc·ai编程·tts
花千树-01023 天前
IndexTTS2 推理性能分析
人工智能·深度学习·ai·语音识别·tts
七夜zippoe1 个月前
OpenClaw TTS 语音合成详解:让 AI 助手开口说话
人工智能·ai·语音合成·tts·openclaw