离线本地识别(Whisper,无需联网)
基于OpenAI Whisper,完全离线,不用API密钥,支持长音频、多语种,对硬件有一定要求。
1. 环境安装
1.1 基础依赖
bash
pip install openai-whisper
# 额外依赖(音频解码必备)
pip install ffmpeg-python
- Windows/Mac/Linux 都需要安装 ffmpeg 并配置环境变量: 官网:ffmpeg.org/
2. 完整离线代码
python
import whisper
# 加载模型:tiny/base/small/medium/large 越小越快、精度越低
model = whisper.load_model("base")
# 语音转文本
result = model.transcribe("test.mp3") # 支持 mp3/wav/flac 等几乎所有音频
print("识别结果:")
print(result["text"])
模型选择参考
| 模型 | 速度 | 精度 | 适用场景 |
|---|---|---|---|
| tiny | 最快 | 一般 | 测试、简单场景 |
| base | 较快 | 良好 | 日常使用(推荐) |
| small | 中等 | 较好 | 要求准确率 |
| large | 最慢 | 最高 | 专业场景、多口音 |
优点
- 全程离线,无调用次数限制
- 支持长音频、中英文混说、嘈杂环境
- 支持 mp3、wav、flac、m4a 等绝大多数格式
实时麦克风语音转文字(在线+离线)
1. 百度API + 麦克风实时转写
需额外安装录音库:
bash
pip install pyaudio
结合上面百度SDK,可实现边说话边转文字。
2. Whisper 实时麦克风转写
可结合 pyaudio 实时收音,分段识别。