OpenAI 开源的免费 AI 语音转文字工具 - Whisper,一步一步本地部署运行

Whisper 是 OpenAI 研发的一个通用的语音识别模型,可以把语音转为文本。它在大量多样化的音频数据集上进行训练,同时还是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。

一、使用场景

语音 => 文字 是一个非常实用的功能,例如:

  • 会议、讲座、法庭、医疗等等场景的记录

  • 口述笔记,方便需要频繁记录思路、灵感的人,更快地记录想法

  • 智能助手,例如智能音箱、导航等

  • 文案提取,看到好的视频,可以把视频中的话转为文本文案

ChatGPT 的手机 APP 可以和我们语音对话聊天,就是使用 Whisper 把我们的语音转为的文本。

所以,Whisper 的强大能力不用多说。

现在市面上语音转文字的产品很多都是收费的,例如讯飞语记等等。

Whisper 是开源免费的,而且效果极佳,如果能在自己的电脑中运行,岂不是美事。

下面就以Windows11为例,介绍一下它的安装运行流程。

二、安装步骤

1)安装 ffmpeg

下载地址:

ffmpeg.org/download.html

安装后,打开cmd命令行,确定可以执行 ffmpeg 命令:

ffmpeg -version

如果无法执行,手动配置一下环境变量PATH。

2)安装 rust

下载地址:

rust-lang.org/tools/install

同样的,安装后需要确定命令行可以执行,测试命令:

rustc --version

如果无法执行,手动配置一下环境变量PATH。

rust 的默认安装位置是 ~/.cargo/bin

3)安装 Whisper

配置python虚拟环境,因为 Whisper 需要特定版本的 python。

conda create --name whisper_env python=3.9.18
activate whisper_env

安装依赖库:

pip install setuptools-rust
pip install -U openai-whisper

三、运行

命令行运行

whisper Haul.mp3 --model medium

其中 "Haul.mp3" 是我测试用的音频文件。

"--model medium" 是指定使用 medium 版本的模型(Whisper 有多种模型:tiny、base、small、medium、large,模型大小依次变大)。

第一次运行时,会先下载指定的模型,需要耐心等待一会儿。

模型下载之后,就会开始执行语音识别,输出识别结果。

并且会自动写入文件。

Python代码中运行

import whisper

# 加载模型
model = whisper.load_model("medium")

# 加载音频文件
audio = whisper.load_audio("Haul.mp3")
audio = whisper.pad_or_trim(audio)

# make log-Mel spectrogram and move to the same device as the model
mel = whisper.log_mel_spectrogram(audio).to(model.device)

# detect the spoken language
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")

# decode the audio
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)

# print the recognized text
print(result.text)

怎么样,感觉不错吧,有兴趣的话,快试试吧。

项目地址:

github.com/openai/whisper

#AI 人工智能,#OpenAI,#whisper, #ChatGPT,#语音转文字,#gpt890

信息来源 gpt890.com/article/34

相关推荐
qzhqbb34 分钟前
基于统计方法的语言模型
人工智能·语言模型·easyui
冷眼看人间恩怨1 小时前
【话题讨论】AI大模型重塑软件开发:定义、应用、优势与挑战
人工智能·ai编程·软件开发
2401_883041081 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
AI极客菌2 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画
阿_旭2 小时前
一文读懂| 自注意力与交叉注意力机制在计算机视觉中作用与基本原理
人工智能·深度学习·计算机视觉·cross-attention·self-attention
王哈哈^_^2 小时前
【数据集】【YOLO】【目标检测】交通事故识别数据集 8939 张,YOLO道路事故目标检测实战训练教程!
前端·人工智能·深度学习·yolo·目标检测·计算机视觉·pyqt
Power20246663 小时前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
数据猎手小k3 小时前
AIDOVECL数据集:包含超过15000张AI生成的车辆图像数据集,目的解决旨在解决眼水平分类和定位问题。
人工智能·分类·数据挖掘
好奇龙猫3 小时前
【学习AI-相关路程-mnist手写数字分类-win-硬件:windows-自我学习AI-实验步骤-全连接神经网络(BPnetwork)-操作流程(3) 】
人工智能·算法
沉下心来学鲁班3 小时前
复现LLM:带你从零认识语言模型
人工智能·语言模型