Insanely Fast Whisper:超快速音频转录工具
在智能语音技术的飞速发展中,音频转录的效率日益成为关键因素。今天我们将介绍一个功能强大且速度惊人的开源项目------Insanely Fast Whisper。该工具利用了 OpenAI 的 Whisper 模型,通过命令行界面(CLI)实现了极致快速的音频文件转录,给用户带来了便捷的使用体验。
项目亮点
Insanely Fast Whisper 的一个关键特点就是其出色的转录速度,能够在短短 98 秒内转录 150 分钟的音频文件。这样的速度,无疑会帮助需要处理大量音频内容的用户大大节省时间和精力。
性能基准
在 NVIDIA A100 80GB 的 GPU 上进行的基准测试结果显示,随着优化算法和模型的不同,音频转录的时间差异显著:
| 优化类型 | 转录时间(150 分钟音频) |
|---|---|
large-v3 (fp32) |
~31分钟 |
large-v3 (fp16 + batching [24] + bettertransformer) |
~5分钟 |
large-v3 (fp16 + batching [24] + Flash Attention 2) |
~2分钟 |
distil-large-v2 (fp16 + batching [24] + bettertransformer) |
~3分钟 |
distil-large-v2 (fp16 + batching [24] + Flash Attention 2) |
~1分钟 |
large-v2 (Faster Whisper) (fp16 + beam_size [1]) |
~9.23分钟 |
large-v2 (Faster Whisper) (8-bit + beam_size [1]) |
~8分钟 |
这一卓越的性能绝对令人惊叹,尤其适合需要频繁进行音频转录的专业人士和研究人员。
安装指南
要使用 Insanely Fast Whisper,可以通过以下命令安装:
bash
pipx install insanely-fast-whisper==0.0.15 --force
如果在安装过程中遇到 Python 版本不匹配的问题,可以使用以下命令:
bash
pipx install insanely-fast-whisper --force --pip-args="--ignore-requires-python"
对于使用 pip 的用户,可以直接安装:
bash
pip install insanely-fast-whisper --ignore-requires-python
运行转录
安装完成后,用户可以通过以下命令从任意路径运行转录:
bash
insanely-fast-whisper --file-name <your-audio-file>
对于 macOS 用户,请确保添加 --device-id mps 参数。
例如,你可以使用 Flash Attention 2 来加速转录:
bash
insanely-fast-whisper --file-name <your-audio-file> --flash True
CLI 选项
Insanely Fast Whisper 提供了多种 CLI 参数,以满足不同用户的需求。以下是可用的主要选项:
-h, --help 显示帮助信息并退出
--file-name FILE_NAME 音频文件路径或 URL
--device-id DEVICE_ID 设备 ID,用于指定使用的 GPU
--transcript-path TRANSCRIPT_PATH 转录输出保存路径(默认:output.json)
--model-name MODEL_NAME 预训练模型名称(默认:openai/whisper-large-v3)
--task {transcribe,translate} 要执行的任务:转录或翻译
--language LANGUAGE 输入音频的语言(默认:自动识别)
--batch-size BATCH_SIZE 计算的并行批次数(默认:24)
--flash FLASH 是否使用 Flash Attention 2(默认:False)
--timestamp {chunk,word} 支持的时间戳类型(默认:chunk)
安全性与故障排除
常见问题解答
-
如何正确安装 Flash Attention 以与
insanely-fast-whisper一起工作?确保通过以下命令安装:
bashpipx runpip insanely-fast-whisper install flash-attn --no-build-isolation -
如何解决 Windows 上的
AssertionError: Torch not compiled with CUDA enabled错误?通过手动安装 torch:
bashpython -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 -
如何避免 Mac 上的内存溢出(OOM)异常?
建议使用以下命令来降低批次大小:
bash--batch-size 4
其他使用方式
如果用户不想使用 CLI,还可以直接利用库的功能进行音频转录,以下是相关的代码示例:
bash
pip install --upgrade transformers optimum accelerate
python
import torch
from transformers import pipeline
from transformers.utils import is_flash_attn_2_available
pipe = pipeline(
"automatic-speech-recognition",
model="openai/whisper-large-v3",
torch_dtype=torch.float16,
device="cuda:0",
model_kwargs={"attn_implementation": "flash_attention_2"} if is_flash_attn_2_available() else {"attn_implementation": "sdpa"},
)
outputs = pipe(
"<your-audio-file>",
chunk_length_s=30,
batch_size=24,
return_timestamps=True,
)
print(outputs)
同类项目推荐
除了 Insanely Fast Whisper,市场上还有几个音频转录的相关项目,值得探索:
- DeepSpeech:一个开源的语音识别引擎,使用深度学习来实现高精度的语音识别。
- Kaldi:另一个强大的开源语音识别工具,提供丰富的功能和灵活的配置选项。
- SpeechRecognition:一个 Python 库,简化了对多种语音识别 API 的调用,适合快速开发。
这些项目各具特色,可以针对不同的需求和使用场景进行选择,希望能为您的语音处理提供更多灵感和选择。