超快的 AI 实时语音转文字,比 OpenAI 的 Whisper 快4倍 -- 开源项目 Faster Whisper

faster-whisper 这个项目是基于 OpenAI whisper 的模型,在上面的一个重写。

使用的是 CTranslate2 的这样的一个库,CTranslate2 是用于 Transformer 模型的一个快速推理引擎。

在相同精度的情况下,faster-whisper 的速度比 OpenAI whisper 快 4 倍,并且使用更少的内存。

这是 faster-whisper 与 OpenAI whisper 的测试对比结果,使用了一个13分钟的音频做的测试。

OpenAI whisper 用了4分30秒,faster-whisper 只用了54秒。

并且,faster-whisper 使用的 CPU 和 GPU 都只有 OpenAI whisper 的三分之一左右。

性能大幅提升,资源占用大幅降低,就是马跑的更快了,吃的更少了。

感紧跑起来试试。

本地安装运行

faster-whisper 需要 Python 3.8 之后的版本,可以创建Python虚拟环境来实现。

安装 faster-whisper :

复制代码
pip install faster-whisper

Python代码:

复制代码
from faster_whisper import WhisperModel

# 指定模型
model_size = "large-v3"

# or run on CPU with INT8
model = WhisperModel(model_size, device="cpu", compute_type="int8")

# 加载音频,执行语音识别
segments, info = model.transcribe("Haul.mp3", beam_size=5)

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

第一次执行时,会自动加载模型。

然后开始识别,输出识别结果。

以上是在 CPU 上的运行过程,如果想要更好的运行效率,自然是在 GPU 上跑。

使用 GPU,需要安装一些辅助。

以 N 卡为例,先安装 NVIDIA 相关的东西。

打开网页:

developer.nvidia.com/cudnn

下载安装。

打开网页:

developer.nvidia.com/cuda-downloads

下载安装。

安装完成后,打开安装目录,例如我的是:

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\bin

找到其中的文件 cublas64_12.dll,复制一份,改名为 cublas64_11.dll

打开网页:

github.com/Purfview/whisper-standalone-win/releases/tag/libs

下载解压,根据提示放入相应位置。

安装依赖库:

复制代码
pip install nvidia-cublas-cu11 nvidia-cudnn-cu11

然后就可以使用 GPU 运行了。

Python 代码:

复制代码
from faster_whisper import WhisperModel

model_size = "large-v3"

# 使用 GPU 运行,指定精度 INT8
model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")

# 加载音频并执行识别
segments, info = model.transcribe("Haul.mp3", beam_size=5)

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

怎么样,感觉不错吧,有兴趣的话,快试试吧。

项目地址:

github.com/SYSTRAN/faster-whisper

#AI 人工智能,#OpenAI whisper, #fast-whisper,#ChatGPT,#语音转文字,#gpt890

信息来源 gpt890.com/article/35

相关推荐
无风听海36 分钟前
神经网络之经验风险最小化
人工智能·深度学习·神经网络
音视频牛哥36 分钟前
轻量级RTSP服务的工程化设计与应用:从移动端到边缘设备的实时媒体架构
人工智能·计算机视觉·音视频·音视频开发·rtsp播放器·安卓rtsp服务器·安卓实现ipc功能
该用户已不存在1 小时前
在 Gemini CLI 中使用 Gemini 3 Pro 实操指南
人工智能·ai编程·gemini
东皇太星1 小时前
ResNet (2015)(卷积神经网络)
人工智能·神经网络·cnn
aircrushin2 小时前
TRAE SOLO 中国版,正式发布!AI 编程的 "Solo" 时代来了?
前端·人工智能
Java中文社群2 小时前
保姆级教程:3分钟带你轻松搭建N8N自动化平台!(内附视频)
人工智能·工作流引擎
是Yu欸2 小时前
DevUI MateChat 技术演进:UI 与逻辑解耦的声明式 AI 交互架构
前端·人工智能·ui·ai·前端框架·devui·metachat
我不是QI2 小时前
周志华《机器学习---西瓜书》 一
人工智能·python·机器学习·ai
H***99762 小时前
月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%
人工智能·深度学习·机器学习
二川bro2 小时前
Python在AI领域应用全景:2025趋势与案例
开发语言·人工智能·python