[特殊字符] Insanely Fast Whisper - 超快音频转录工具！

Insanely Fast Whisper：超快速音频转录工具

在智能语音技术的飞速发展中，音频转录的效率日益成为关键因素。今天我们将介绍一个功能强大且速度惊人的开源项目------Insanely Fast Whisper。该工具利用了 OpenAI 的 Whisper 模型，通过命令行界面（CLI）实现了极致快速的音频文件转录，给用户带来了便捷的使用体验。

项目亮点

Insanely Fast Whisper 的一个关键特点就是其出色的转录速度，能够在短短 98 秒内转录 150 分钟的音频文件。这样的速度，无疑会帮助需要处理大量音频内容的用户大大节省时间和精力。

性能基准

在 NVIDIA A100 80GB 的 GPU 上进行的基准测试结果显示，随着优化算法和模型的不同，音频转录的时间差异显著：

优化类型	转录时间（150 分钟音频）
large-v3 (`fp32`)	~31分钟
large-v3 (`fp16` + `batching [24]` + `bettertransformer`)	~5分钟
large-v3 (`fp16` + `batching [24]` + `Flash Attention 2`)	~2分钟
distil-large-v2 (`fp16` + `batching [24]` + `bettertransformer`)	~3分钟
distil-large-v2 (`fp16` + `batching [24]` + `Flash Attention 2`)	~1分钟
large-v2 (Faster Whisper) (`fp16` + `beam_size [1]`)	~9.23分钟
large-v2 (Faster Whisper) (`8-bit` + `beam_size [1]`)	~8分钟

这一卓越的性能绝对令人惊叹，尤其适合需要频繁进行音频转录的专业人士和研究人员。

安装指南

要使用 Insanely Fast Whisper，可以通过以下命令安装：

bash 复制代码

pipx install insanely-fast-whisper==0.0.15 --force

如果在安装过程中遇到 Python 版本不匹配的问题，可以使用以下命令：

bash 复制代码

pipx install insanely-fast-whisper --force --pip-args="--ignore-requires-python"

对于使用 pip 的用户，可以直接安装：

bash 复制代码

pip install insanely-fast-whisper --ignore-requires-python

运行转录

安装完成后，用户可以通过以下命令从任意路径运行转录：

bash 复制代码

insanely-fast-whisper --file-name <your-audio-file>

对于 macOS 用户，请确保添加 --device-id mps 参数。

例如，你可以使用 Flash Attention 2 来加速转录：

bash 复制代码

insanely-fast-whisper --file-name <your-audio-file> --flash True

CLI 选项

Insanely Fast Whisper 提供了多种 CLI 参数，以满足不同用户的需求。以下是可用的主要选项：

复制代码

  -h, --help            显示帮助信息并退出
  --file-name FILE_NAME 音频文件路径或 URL
  --device-id DEVICE_ID 设备 ID，用于指定使用的 GPU 
  --transcript-path TRANSCRIPT_PATH 转录输出保存路径（默认：output.json）
  --model-name MODEL_NAME 预训练模型名称（默认：openai/whisper-large-v3）
  --task {transcribe,translate} 要执行的任务：转录或翻译
  --language LANGUAGE   输入音频的语言（默认：自动识别）
  --batch-size BATCH_SIZE 计算的并行批次数（默认：24）
  --flash FLASH         是否使用 Flash Attention 2（默认：False）
  --timestamp {chunk,word} 支持的时间戳类型（默认：chunk）

安全性与故障排除

常见问题解答

如何正确安装 Flash Attention 以与 insanely-fast-whisper 一起工作？

确保通过以下命令安装：
bash 复制代码
```
pipx runpip insanely-fast-whisper install flash-attn --no-build-isolation
```
如何解决 Windows 上的 AssertionError: Torch not compiled with CUDA enabled 错误？

通过手动安装 torch：
bash 复制代码
```
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
```
如何避免 Mac 上的内存溢出（OOM）异常？

建议使用以下命令来降低批次大小：
bash 复制代码
```
--batch-size 4
```

其他使用方式

如果用户不想使用 CLI，还可以直接利用库的功能进行音频转录，以下是相关的代码示例：

bash 复制代码

pip install --upgrade transformers optimum accelerate

python 复制代码

import torch
from transformers import pipeline
from transformers.utils import is_flash_attn_2_available

pipe = pipeline(
    "automatic-speech-recognition",
    model="openai/whisper-large-v3",
    torch_dtype=torch.float16,
    device="cuda:0",
    model_kwargs={"attn_implementation": "flash_attention_2"} if is_flash_attn_2_available() else {"attn_implementation": "sdpa"},
)

outputs = pipe(
    "<your-audio-file>",
    chunk_length_s=30,
    batch_size=24,
    return_timestamps=True,
)

print(outputs)

[特殊字符] Insanely Fast Whisper - 超快音频转录工具！

Insanely Fast Whisper：超快速音频转录工具

项目亮点

性能基准

安装指南

运行转录

CLI 选项

安全性与故障排除

常见问题解答

其他使用方式

同类项目推荐