语音转文本python

离线本地识别(Whisper,无需联网)

基于OpenAI Whisper,完全离线,不用API密钥,支持长音频、多语种,对硬件有一定要求。

1. 环境安装

1.1 基础依赖

bash 复制代码
pip install openai-whisper
# 额外依赖(音频解码必备)
pip install ffmpeg-python
  • Windows/Mac/Linux 都需要安装 ffmpeg 并配置环境变量: 官网:ffmpeg.org/

2. 完整离线代码

python 复制代码
import whisper

# 加载模型:tiny/base/small/medium/large 越小越快、精度越低
model = whisper.load_model("base")

# 语音转文本
result = model.transcribe("test.mp3")  # 支持 mp3/wav/flac 等几乎所有音频

print("识别结果:")
print(result["text"])

模型选择参考

模型 速度 精度 适用场景
tiny 最快 一般 测试、简单场景
base 较快 良好 日常使用(推荐)
small 中等 较好 要求准确率
large 最慢 最高 专业场景、多口音

优点

  • 全程离线,无调用次数限制
  • 支持长音频、中英文混说、嘈杂环境
  • 支持 mp3、wav、flac、m4a 等绝大多数格式

实时麦克风语音转文字(在线+离线)

1. 百度API + 麦克风实时转写

需额外安装录音库:

bash 复制代码
pip install pyaudio

结合上面百度SDK,可实现边说话边转文字。

2. Whisper 实时麦克风转写

可结合 pyaudio 实时收音,分段识别。


相关推荐
鹧鸪晏4 天前
Android GLSurfaceView 完全指南
android·音视频开发
ltlovezh7 天前
AAC 元数据:ADTS 与 ASC 的区别、转换和常见坑
后端·ffmpeg·音视频开发
MonkeyKing9 天前
iOS 音频实战:边播边缓存、预加载与断点续播完整实现
音视频开发
11年老程序猿在线搬砖9 天前
2026年语聊APP开发费用深度拆解:从MVP到百万并发的预算清单
音视频开发·创业·技术选型·社交app开发·语聊app·开发费用
码流怪侠13 天前
Android MediaCodec 全面详解:从入门到精通
android·程序员·音视频开发
L_Xian17 天前
StarrySky重新维护了,摆烂了一段时间,想想还是搞搞吧。
android·github·音视频开发
ryn483981 个月前
关于我是如何用AI创作一个1分半的短视频的
aigc·音视频开发
码流怪侠1 个月前
FFmpeg 开发实战全解析:从入门到精通(附完整代码示例)
ffmpeg·音视频开发·视频编码
redreamSo1 个月前
HeyGen 开源了一个"用 HTML 写视频"的框架,我研究了一下,发现事情没那么简单
前端·开源·音视频开发