语音转文本python

三木彤2026-05-31 14:06

离线本地识别（Whisper，无需联网）

基于OpenAI Whisper，完全离线，不用API密钥，支持长音频、多语种，对硬件有一定要求。

1. 环境安装

1.1 基础依赖

bash 复制代码

pip install openai-whisper
# 额外依赖（音频解码必备）
pip install ffmpeg-python

Windows/Mac/Linux 都需要安装 ffmpeg 并配置环境变量：官网：ffmpeg.org/

2. 完整离线代码

python 复制代码

import whisper

# 加载模型：tiny/base/small/medium/large 越小越快、精度越低
model = whisper.load_model("base")

# 语音转文本
result = model.transcribe("test.mp3")  # 支持 mp3/wav/flac 等几乎所有音频

print("识别结果：")
print(result["text"])

模型选择参考

模型	速度	精度	适用场景
tiny	最快	一般	测试、简单场景
base	较快	良好	日常使用（推荐）
small	中等	较好	要求准确率
large	最慢	最高	专业场景、多口音

优点

全程离线，无调用次数限制
支持长音频、中英文混说、嘈杂环境
支持 mp3、wav、flac、m4a 等绝大多数格式

实时麦克风语音转文字（在线+离线）

1. 百度API + 麦克风实时转写

需额外安装录音库：

bash 复制代码

pip install pyaudio

结合上面百度SDK，可实现边说话边转文字。

2. Whisper 实时麦克风转写

可结合 pyaudio 实时收音，分段识别。