[特殊字符] Insanely Fast Whisper - 超快音频转录工具!

Insanely Fast Whisper:超快速音频转录工具

在智能语音技术的飞速发展中,音频转录的效率日益成为关键因素。今天我们将介绍一个功能强大且速度惊人的开源项目------Insanely Fast Whisper。该工具利用了 OpenAI 的 Whisper 模型,通过命令行界面(CLI)实现了极致快速的音频文件转录,给用户带来了便捷的使用体验。

项目亮点

Insanely Fast Whisper 的一个关键特点就是其出色的转录速度,能够在短短 98 秒内转录 150 分钟的音频文件。这样的速度,无疑会帮助需要处理大量音频内容的用户大大节省时间和精力。

性能基准

在 NVIDIA A100 80GB 的 GPU 上进行的基准测试结果显示,随着优化算法和模型的不同,音频转录的时间差异显著:

优化类型 转录时间(150 分钟音频)
large-v3 (fp32) ~31分钟
large-v3 (fp16 + batching [24] + bettertransformer) ~5分钟
large-v3 (fp16 + batching [24] + Flash Attention 2) ~2分钟
distil-large-v2 (fp16 + batching [24] + bettertransformer) ~3分钟
distil-large-v2 (fp16 + batching [24] + Flash Attention 2) ~1分钟
large-v2 (Faster Whisper) (fp16 + beam_size [1]) ~9.23分钟
large-v2 (Faster Whisper) (8-bit + beam_size [1]) ~8分钟

这一卓越的性能绝对令人惊叹,尤其适合需要频繁进行音频转录的专业人士和研究人员。

安装指南

要使用 Insanely Fast Whisper,可以通过以下命令安装:

bash 复制代码
pipx install insanely-fast-whisper==0.0.15 --force

如果在安装过程中遇到 Python 版本不匹配的问题,可以使用以下命令:

bash 复制代码
pipx install insanely-fast-whisper --force --pip-args="--ignore-requires-python"

对于使用 pip 的用户,可以直接安装:

bash 复制代码
pip install insanely-fast-whisper --ignore-requires-python

运行转录

安装完成后,用户可以通过以下命令从任意路径运行转录:

bash 复制代码
insanely-fast-whisper --file-name <your-audio-file>

对于 macOS 用户,请确保添加 --device-id mps 参数。

例如,你可以使用 Flash Attention 2 来加速转录:

bash 复制代码
insanely-fast-whisper --file-name <your-audio-file> --flash True

CLI 选项

Insanely Fast Whisper 提供了多种 CLI 参数,以满足不同用户的需求。以下是可用的主要选项:

复制代码
  -h, --help            显示帮助信息并退出
  --file-name FILE_NAME 音频文件路径或 URL
  --device-id DEVICE_ID 设备 ID,用于指定使用的 GPU 
  --transcript-path TRANSCRIPT_PATH 转录输出保存路径(默认:output.json)
  --model-name MODEL_NAME 预训练模型名称(默认:openai/whisper-large-v3)
  --task {transcribe,translate} 要执行的任务:转录或翻译
  --language LANGUAGE   输入音频的语言(默认:自动识别)
  --batch-size BATCH_SIZE 计算的并行批次数(默认:24)
  --flash FLASH         是否使用 Flash Attention 2(默认:False)
  --timestamp {chunk,word} 支持的时间戳类型(默认:chunk)

安全性与故障排除

常见问题解答

  1. 如何正确安装 Flash Attention 以与 insanely-fast-whisper 一起工作?

    确保通过以下命令安装:

    bash 复制代码
    pipx runpip insanely-fast-whisper install flash-attn --no-build-isolation
  2. 如何解决 Windows 上的 AssertionError: Torch not compiled with CUDA enabled 错误?

    通过手动安装 torch:

    bash 复制代码
    python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
  3. 如何避免 Mac 上的内存溢出(OOM)异常?

    建议使用以下命令来降低批次大小:

    bash 复制代码
    --batch-size 4

其他使用方式

如果用户不想使用 CLI,还可以直接利用库的功能进行音频转录,以下是相关的代码示例:

bash 复制代码
pip install --upgrade transformers optimum accelerate
python 复制代码
import torch
from transformers import pipeline
from transformers.utils import is_flash_attn_2_available

pipe = pipeline(
    "automatic-speech-recognition",
    model="openai/whisper-large-v3",
    torch_dtype=torch.float16,
    device="cuda:0",
    model_kwargs={"attn_implementation": "flash_attention_2"} if is_flash_attn_2_available() else {"attn_implementation": "sdpa"},
)

outputs = pipe(
    "<your-audio-file>",
    chunk_length_s=30,
    batch_size=24,
    return_timestamps=True,
)

print(outputs)

同类项目推荐

除了 Insanely Fast Whisper,市场上还有几个音频转录的相关项目,值得探索:

  1. DeepSpeech:一个开源的语音识别引擎,使用深度学习来实现高精度的语音识别。
  2. Kaldi:另一个强大的开源语音识别工具,提供丰富的功能和灵活的配置选项。
  3. SpeechRecognition:一个 Python 库,简化了对多种语音识别 API 的调用,适合快速开发。

这些项目各具特色,可以针对不同的需求和使用场景进行选择,希望能为您的语音处理提供更多灵感和选择。

相关推荐
苏黎caius1 天前
SoX 语句,音频界的瑞士军刀
音视频
v132665623681 天前
博通集成:BK7259 wifi6音视频芯片 200w视频流IPC 超低功耗
物联网·音视频·低功耗·ipc
v132665623681 天前
博通集成:BK7259 支持200w视频流IPC 带ISP 硬件H264编解码 本地算力0.1T
物联网·音视频·ipc·ai边缘
纳祥科技1 天前
拆解一款AUX立体声音频切换器,4进1出,乐器/便携效果器均可用
音视频
weixin_443478511 天前
Flutter学习之第三方组件:视频播放器控件
学习·flutter·音视频
EasyCVR1 天前
GB28181/RTSP/ONVIF/RTMP/SDK视频汇聚平台EasyCVR构建通信基站智慧安防可视化管理体系
音视频
日光明媚1 天前
FFmpeg 视频生成推理 Pipeline:Python 版常用函数封装(可直接集成)
python·深度学习·ai作画·aigc·音视频
v132665623681 天前
BK7258 wifi6音视频soc芯片应用分析
嵌入式硬件·物联网·音视频·iot·wifi6
日光明媚1 天前
SoulX-FlashTalk 技术报告解读:从“严格因果”到“双向流式蒸馏”,实时数字人为什么能做到 0.87s 延迟、32FPS 和长时稳定?
人工智能·python·深度学习·ai作画·aigc·音视频
线束线缆组件品替网1 天前
Amphenol网线组件RJE1Y12305152401线束选型指南替代方案解析
服务器·数码相机·电脑·音视频·电视盒子·智能电视