语音转文本python

离线本地识别(Whisper,无需联网)

基于OpenAI Whisper,完全离线,不用API密钥,支持长音频、多语种,对硬件有一定要求。

1. 环境安装

1.1 基础依赖

bash 复制代码
pip install openai-whisper
# 额外依赖(音频解码必备)
pip install ffmpeg-python
  • Windows/Mac/Linux 都需要安装 ffmpeg 并配置环境变量: 官网:ffmpeg.org/

2. 完整离线代码

python 复制代码
import whisper

# 加载模型:tiny/base/small/medium/large 越小越快、精度越低
model = whisper.load_model("base")

# 语音转文本
result = model.transcribe("test.mp3")  # 支持 mp3/wav/flac 等几乎所有音频

print("识别结果:")
print(result["text"])

模型选择参考

模型 速度 精度 适用场景
tiny 最快 一般 测试、简单场景
base 较快 良好 日常使用(推荐)
small 中等 较好 要求准确率
large 最慢 最高 专业场景、多口音

优点

  • 全程离线,无调用次数限制
  • 支持长音频、中英文混说、嘈杂环境
  • 支持 mp3、wav、flac、m4a 等绝大多数格式

实时麦克风语音转文字(在线+离线)

1. 百度API + 麦克风实时转写

需额外安装录音库:

bash 复制代码
pip install pyaudio

结合上面百度SDK,可实现边说话边转文字。

2. Whisper 实时麦克风转写

可结合 pyaudio 实时收音,分段识别。


相关推荐
ltlovezh4 天前
ROI 编码学习指南:Android 与 FFmpeg 的真实实现边界
android·ffmpeg·音视频开发
iOStanhaitao5 天前
23.视频播放器项目实战-音视频播放
音视频开发
iOStanhaitao6 天前
6.第一个c++安卓程序编译运行
音视频开发
音视频牛哥13 天前
不只是等待 IDR:SmartMediaKit 播放器对 H.264 GDR 码流的完整适配实践
音视频开发·视频编码·直播
鹧鸪晏24 天前
Android GLSurfaceView 完全指南
android·音视频开发
ltlovezh1 个月前
AAC 元数据:ADTS 与 ASC 的区别、转换和常见坑
后端·ffmpeg·音视频开发
MonkeyKing1 个月前
iOS 音频实战:边播边缓存、预加载与断点续播完整实现
音视频开发
11年老程序猿在线搬砖1 个月前
2026年语聊APP开发费用深度拆解:从MVP到百万并发的预算清单
音视频开发·创业·技术选型·社交app开发·语聊app·开发费用
码流怪侠1 个月前
Android MediaCodec 全面详解:从入门到精通
android·程序员·音视频开发