12K+ Star的离线语音神器！50MB模型秒杀云端API，隐私零成本，20+语种支持！

云端语音 API 虽功能强，但痛点明显：网络依赖、高昂费用、隐私风险。

如果有一款开源工具，既要轻量又能完全离线运行，还能识别人声，会不会让你的语音应用开发直接起飞呢。

一款由Alpha Cephei团队开源的离线语音识别工具包：Vosk，就能解决以上痛点。

支持英语、中文、俄语等20+语言，仅50MB模型。

它完全离线运行，流式API实现零延迟转录，支持说话人识别和动态词汇表。

主要功能

20+语言支持：支持英语、中文、俄语、德语、法语等。
完全离线：零网络依赖，更无 API 调用计费。
零延迟响应：采用流式API，实时转录。
小巧轻量：50MB模型支持10k+词汇量。
说话人识别：区分多说话人，适配会议转录、播客分析。
多语言绑定：提供Python、Java、C++、Node.js等接口，集成简单。
开源生态：12.1K+星，1.4K+fork，500+Issues解决，社区活跃。

安装与使用

Vosk的安装和使用很是简单，借助Python pip命令即可，官方也提供详细文档和模型下载。

详细文档：alphacephei.com/vosk

模型：alphacephei.com/vosk/models

安装Vosk：

复制代码

pip install vosk

还提供了WebSocket服务器和gRPC服务器，可用于电话和其他应用程序。通过适配8kHz音频的大模型，提供更高的准确性。

服务器可以从docker安装，并且可以运行一个命令：

arduino 复制代码

docker run -d -p 2700:2700 alphacep/kaldi-en:latest

Python示例代码

python 复制代码

#!/usr/bin/env python3

import wave
import sys

from vosk import Model, KaldiRecognizer, SetLogLevel

# You can set log level to -1 to disable debug messages
SetLogLevel(0)

wf = wave.open(sys.argv[1], "rb")
if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getcomptype() != "NONE":
    print("Audio file must be WAV format mono PCM.")
    sys.exit(1)

model = Model(lang="en-us")

# You can also init model by name or with a folder path
# model = Model(model_name="vosk-model-en-us-0.21")
# model = Model("models/en")

rec = KaldiRecognizer(model, wf.getframerate())
rec.SetWords(True)
rec.SetPartialWords(True)

while True:
    data = wf.readframes(4000)
    if len(data) == 0:
        break
    if rec.AcceptWaveform(data):
        print(rec.Result())
    else:
        print(rec.PartialResult())

print(rec.FinalResult())

可以使用简单的 vosk-transcriber 命令行工具转录文件：

css 复制代码

vosk-transcriber -i test.mp4 -o test.txt
vosk-transcriber -i test.mp4 -t srt -o test.srt
vosk-transcriber -l fr -i test.m4a -t srt -o test.srt
vosk-transcriber --list-languages

要运行 Python 示例，还需要克隆 vosk-api 并运行以下命令：

bash 复制代码

git clone https://github.com/alphacep/vosk-api
cd vosk-api/python/example
python3 ./test_simple.py test.wav

更多语言调用方法，可以在官方详细文档中查找。

适用场景

Vosk的离线轻量和多语言支持让它适用于多种场景：

智能家居：离线语音控制灯光、空调，零网络依赖。
字幕生成：实时转录会议、视频，生成SRT字幕。
聊天机器人：流式识别用户语音，适配客服、虚拟助手。
教育工具：转录课堂录音，支持多语言教学。
隐私敏感：医疗、法律场景，数据100%本地。

这些场景解决了一个核心痛点：网络延迟、API成本、隐私风险。

写在最后

Vosk基于Kaldi框架，结合深度神经网络（DNN）和隐马尔可夫模型（HMM），优化了离线语音识别流程。

其以50MB轻量模型、20+语言支持和零延迟流式API，为离线语音识别树立了新标杆。

适用于聊天机器人、智能家居、字幕生成等场景。

有兴趣的可以访问GitHub或官网下载模型，体验隐私安全、高效的语音识别！

GitHub 项目地址：github.com/alphacep/vo...