python录音转文字

最近面试,有录音,想把录音快速转文字查漏补缺,但是找了几个小程序要花钱,不如直接写个脚本之际转
(下载FFmpeg 很重要)
访问 FFmpeg 官网:https://ffmpeg.org/download.html

找到 Windows 板块,点击 "Windows builds from gyan.dev"

下载 ffmpeg-release-full.7z

并需要配置环境变量

安装python依赖

复制代码
pip install openai-whisper
pip install ffmpeg-python

脚本

复制代码
import whisper

model = whisper.load_model("base")
result = model.transcribe("面试2.m4a", language="zh")
print(result["text"])
with open("transcript3.txt", "w", encoding="utf-8") as f:
    f.write(result["text"])

模型精度选择(免费)

  • base :最快,普通说话清晰够用

  • small :中文识别明显更好

  • medium :接近付费平台效果

  • large :最强,但需要显卡

另外由于我的电脑是有独显的,但是whisper没有调用到,直接用的cpu,导致转录很慢

修改方式,更新pytorch为可以兼容cuda显卡的

复制代码
pip uninstall -y torch torchvision torchaudio

pip install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple --extra-index-url https://download.pytorch.org/whl/cu118

更新代码

复制代码
import whisper

# 加载模型,并手动移动到 GPU (cuda)
model = whisper.load_model("base").to("cuda")

# 转写时,关闭 FP16 可以避免某些兼容性警告
result = model.transcribe("面试2.m4a", language="zh", fp16=False)

print(result["text"])
with open("transcript3.txt", "w", encoding="utf-8") as f:
    f.write(result["text"])
相关推荐
jieyucx19 小时前
Go语言深度解剖:Map扩容机制全解析(增量扩容+等量扩容+渐进式迁移)
开发语言·后端·golang·map·扩容策略
YJlio19 小时前
7.4.5 Windows 11 企业网络连接与网络重置实战:远程访问、本地策略与故障恢复
前端·chrome·windows·python·edge·机器人·django
脏脏a19 小时前
【C++模版】泛型编程:代码复用的终极利器
开发语言·c++·c++模版
island131419 小时前
【C++仿Muduo库#3】Server 服务器模块实现上
服务器·开发语言·c++
散峰而望19 小时前
【算法竞赛】C/C++ 的输入输出你真的玩会了吗?
c语言·开发语言·数据结构·c++·算法·github
小龙报19 小时前
【C语言】内存里的 “数字变形记”:整数三码、大小端与浮点数存储真相
c语言·开发语言·c++·创业创新·学习方法·visual studio
深耕AI20 小时前
【VS Code避坑指南】点击Python图标提示“没有Python环境”,选择安装uv后这堆输出到底是什么意思?
开发语言·python·uv
第一程序员20 小时前
Rust生命周期管理实战指南:从困惑到掌握
python·github
2301_7890156220 小时前
C++:继承
c语言·开发语言·c++
程序员威哥20 小时前
实战!Python爬京东商品评论:从采集到情感分析+词云可视化,新手30分钟跑通
开发语言·爬虫·python·scrapy