云端语音 API 虽功能强,但痛点明显:网络依赖、高昂费用、隐私风险。
如果有一款开源工具,既要轻量又能完全离线运行,还能识别人声,会不会让你的语音应用开发直接起飞呢。
一款由Alpha Cephei团队开源的离线语音识别工具包:Vosk,就能解决以上痛点。

支持英语、中文、俄语等20+语言,仅50MB模型。
它完全离线运行,流式API实现零延迟转录,支持说话人识别和动态词汇表。

主要功能
-
20+语言支持:支持英语、中文、俄语、德语、法语等。
-
完全离线:零网络依赖,更无 API 调用计费。
-
零延迟响应:采用流式API,实时转录。
-
小巧轻量:50MB模型支持10k+词汇量。
-
说话人识别:区分多说话人,适配会议转录、播客分析。
-
多语言绑定:提供Python、Java、C++、Node.js等接口,集成简单。
-
开源生态:12.1K+星,1.4K+fork,500+Issues解决,社区活跃。
安装与使用
Vosk的安装和使用很是简单,借助Python pip命令即可,官方也提供详细文档和模型下载。
详细文档:alphacephei.com/vosk
模型:alphacephei.com/vosk/models
安装Vosk:
pip install vosk
还提供了WebSocket服务器和gRPC服务器,可用于电话和其他应用程序。通过适配8kHz音频的大模型,提供更高的准确性。
服务器可以从docker安装,并且可以运行一个命令:
arduino
docker run -d -p 2700:2700 alphacep/kaldi-en:latest
Python示例代码
python
#!/usr/bin/env python3
import wave
import sys
from vosk import Model, KaldiRecognizer, SetLogLevel
# You can set log level to -1 to disable debug messages
SetLogLevel(0)
wf = wave.open(sys.argv[1], "rb")
if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getcomptype() != "NONE":
print("Audio file must be WAV format mono PCM.")
sys.exit(1)
model = Model(lang="en-us")
# You can also init model by name or with a folder path
# model = Model(model_name="vosk-model-en-us-0.21")
# model = Model("models/en")
rec = KaldiRecognizer(model, wf.getframerate())
rec.SetWords(True)
rec.SetPartialWords(True)
while True:
data = wf.readframes(4000)
if len(data) == 0:
break
if rec.AcceptWaveform(data):
print(rec.Result())
else:
print(rec.PartialResult())
print(rec.FinalResult())
可以使用简单的 vosk-transcriber 命令行工具转录文件:
css
vosk-transcriber -i test.mp4 -o test.txt
vosk-transcriber -i test.mp4 -t srt -o test.srt
vosk-transcriber -l fr -i test.m4a -t srt -o test.srt
vosk-transcriber --list-languages
要运行 Python 示例,还需要克隆 vosk-api 并运行以下命令:
bash
git clone https://github.com/alphacep/vosk-api
cd vosk-api/python/example
python3 ./test_simple.py test.wav
更多语言调用方法,可以在官方详细文档中查找。
适用场景
Vosk的离线轻量和多语言支持让它适用于多种场景:
-
智能家居:离线语音控制灯光、空调,零网络依赖。
-
字幕生成:实时转录会议、视频,生成SRT字幕。
-
聊天机器人:流式识别用户语音,适配客服、虚拟助手。
-
教育工具:转录课堂录音,支持多语言教学。
-
隐私敏感:医疗、法律场景,数据100%本地。
这些场景解决了一个核心痛点:网络延迟、API成本、隐私风险。
写在最后
Vosk基于Kaldi框架,结合深度神经网络(DNN)和隐马尔可夫模型(HMM),优化了离线语音识别流程。
其以50MB轻量模型、20+语言支持和零延迟流式API,为离线语音识别树立了新标杆。
适用于聊天机器人、智能家居、字幕生成等场景。
有兴趣的可以访问GitHub或官网下载模型,体验隐私安全、高效的语音识别!
GitHub 项目地址:github.com/alphacep/vo...