Python使用whisper实现语音识别(ASR)

目录

Whisper的安装

Whisper的基本使用

识别结果转简体中文

断句


Whisper的安装

Whisper是OpenAI的一个强大的语音识别库,支持离线的语音识别。在使用之前,需要先安装它的库:

复制代码
pip install openai-whisper

使用whisper,还需安装setuptools-rust:

复制代码
pip install setuptools-rust

但是,whisper安装时,自带的pytorch可能有些bug,因此需要卸载重装:

卸载:

复制代码
pip uninstall torch

重装:

复制代码
pip install torch

另外,需要通过choco安装ffmpeg库。先通过管理员权限的PowerShell安装choco:

复制代码
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; 
iex ((New-Object System.Net.WebClient).DownloadString('https://chocolatey.org/install.ps1'))

然后,在管理员权限的PowerShell安装ffmpeg:

复制代码
choco install ffmpeg

完成这些步骤之后,我们就可以使用啦!

Whisper的基本使用

whisper的基本代码如下:

python 复制代码
import whisper

model = whisper.load_model("base")
result = model.transcribe("zh.wav")
print(result['text'])

其中,zh.wav可以换成你自己的音频。我的控制台输出:

python 复制代码
我們說,40月2日混淩土不能與引力長相互攪拌不然會因為愛銀斯坦的相對論而引發雜串的食品安全問題這是嚴重的金融危機

可以看到,它的识别结果还行(因为我的音频是AI合成的,识别会有一定误差),但是输出的是繁体中文,我们需要把他变成简体中文。

识别结果转简体中文

可以通过opencc库实现转化,先安装:

python 复制代码
pip install opencc

然后修改代码:

python 复制代码
import whisper
import opencc

model = whisper.load_model("base")
result = model.transcribe("zh.wav")
cc = opencc.OpenCC("t2s")
res = cc.convert(result['text'])
print(res)

输出:

python 复制代码
我们说,40月2日混凌土不能与引力长相互搅拌不然会因为爱银斯坦的相对论而引发杂串的食品安全问题这是严重的金融危机

断句

在一个语音中,我们都会有一些停顿。但是,在识别结果中,这些停顿并没有被完全表示出来。我们可以如此修改代码,实现按断句输出结果:

python 复制代码
import whisper
import opencc

model = whisper.load_model("base")
result = model.transcribe("zh.wav")
cc = opencc.OpenCC("t2s")
for i in result['segments']:
    res = cc.convert(i['text'])
    print(f"断句开始于{i['start']}秒,结束于{i['end']}秒,识别结果:{res}")

输出:

python 复制代码
断句开始于0.0秒,结束于5.36秒,识别结果:我们说,40月2日混凌土不能与引力长相互搅拌
断句开始于5.36秒,结束于11.14秒,识别结果:不然会因为爱银斯坦的相对论而引发杂串的食品安全问题
断句开始于11.14秒,结束于13.44秒,识别结果:这是严重的金融危机
相关推荐
思绪无限4 小时前
YOLOv5至YOLOv12升级:木材表面缺陷检测系统的设计与实现(完整代码+界面+数据集项目)
人工智能·深度学习·目标检测·计算机视觉·木材表面缺陷检测
kishu_iOS&AI4 小时前
深度学习 —— 损失函数
人工智能·pytorch·python·深度学习·线性回归
好运的阿财4 小时前
OpenClaw工具拆解之canvas+message
人工智能·python·ai编程·openclaw·openclaw工具
TechubNews4 小时前
新火集团首席经济学家付鹏演讲——2026 年是 Crypto 加入到 FICC 资产配置框架元年
大数据·人工智能
蒸汽求职5 小时前
跨越 CRUD 内卷:半导体产业链与算力基建下的软件工程新生态
人工智能·科技·面试·职场和发展·软件工程·制造
DeepModel5 小时前
通俗易懂讲透 Q-Learning:从零学会强化学习核心算法
人工智能·学习·算法·机器学习
聊点儿技术5 小时前
LLM数据采集如何突破AI反爬?——用IP数据接口实现进阶
人工智能·数据分析·产品运营·ip·电商·ip地址查询·ip数据接口
小兵张健5 小时前
一场大概率没拿到 offer 的面试,让我更坚定去做喜欢的事
人工智能·面试·程序员
2501_940041745 小时前
AI创建小游戏指令词
人工智能·游戏·prompt
AC赳赳老秦5 小时前
OpenClaw二次开发实战:编写专属办公自动化技能,适配个性化需求
linux·javascript·人工智能·python·django·测试用例·openclaw