[特殊字符] Insanely Fast Whisper - 超快音频转录工具!

Insanely Fast Whisper:超快速音频转录工具

在智能语音技术的飞速发展中,音频转录的效率日益成为关键因素。今天我们将介绍一个功能强大且速度惊人的开源项目------Insanely Fast Whisper。该工具利用了 OpenAI 的 Whisper 模型,通过命令行界面(CLI)实现了极致快速的音频文件转录,给用户带来了便捷的使用体验。

项目亮点

Insanely Fast Whisper 的一个关键特点就是其出色的转录速度,能够在短短 98 秒内转录 150 分钟的音频文件。这样的速度,无疑会帮助需要处理大量音频内容的用户大大节省时间和精力。

性能基准

在 NVIDIA A100 80GB 的 GPU 上进行的基准测试结果显示,随着优化算法和模型的不同,音频转录的时间差异显著:

优化类型 转录时间(150 分钟音频)
large-v3 (fp32) ~31分钟
large-v3 (fp16 + batching [24] + bettertransformer) ~5分钟
large-v3 (fp16 + batching [24] + Flash Attention 2) ~2分钟
distil-large-v2 (fp16 + batching [24] + bettertransformer) ~3分钟
distil-large-v2 (fp16 + batching [24] + Flash Attention 2) ~1分钟
large-v2 (Faster Whisper) (fp16 + beam_size [1]) ~9.23分钟
large-v2 (Faster Whisper) (8-bit + beam_size [1]) ~8分钟

这一卓越的性能绝对令人惊叹,尤其适合需要频繁进行音频转录的专业人士和研究人员。

安装指南

要使用 Insanely Fast Whisper,可以通过以下命令安装:

bash 复制代码
pipx install insanely-fast-whisper==0.0.15 --force

如果在安装过程中遇到 Python 版本不匹配的问题,可以使用以下命令:

bash 复制代码
pipx install insanely-fast-whisper --force --pip-args="--ignore-requires-python"

对于使用 pip 的用户,可以直接安装:

bash 复制代码
pip install insanely-fast-whisper --ignore-requires-python

运行转录

安装完成后,用户可以通过以下命令从任意路径运行转录:

bash 复制代码
insanely-fast-whisper --file-name <your-audio-file>

对于 macOS 用户,请确保添加 --device-id mps 参数。

例如,你可以使用 Flash Attention 2 来加速转录:

bash 复制代码
insanely-fast-whisper --file-name <your-audio-file> --flash True

CLI 选项

Insanely Fast Whisper 提供了多种 CLI 参数,以满足不同用户的需求。以下是可用的主要选项:

复制代码
  -h, --help            显示帮助信息并退出
  --file-name FILE_NAME 音频文件路径或 URL
  --device-id DEVICE_ID 设备 ID,用于指定使用的 GPU 
  --transcript-path TRANSCRIPT_PATH 转录输出保存路径(默认:output.json)
  --model-name MODEL_NAME 预训练模型名称(默认:openai/whisper-large-v3)
  --task {transcribe,translate} 要执行的任务:转录或翻译
  --language LANGUAGE   输入音频的语言(默认:自动识别)
  --batch-size BATCH_SIZE 计算的并行批次数(默认:24)
  --flash FLASH         是否使用 Flash Attention 2(默认:False)
  --timestamp {chunk,word} 支持的时间戳类型(默认:chunk)

安全性与故障排除

常见问题解答

  1. 如何正确安装 Flash Attention 以与 insanely-fast-whisper 一起工作?

    确保通过以下命令安装:

    bash 复制代码
    pipx runpip insanely-fast-whisper install flash-attn --no-build-isolation
  2. 如何解决 Windows 上的 AssertionError: Torch not compiled with CUDA enabled 错误?

    通过手动安装 torch:

    bash 复制代码
    python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
  3. 如何避免 Mac 上的内存溢出(OOM)异常?

    建议使用以下命令来降低批次大小:

    bash 复制代码
    --batch-size 4

其他使用方式

如果用户不想使用 CLI,还可以直接利用库的功能进行音频转录,以下是相关的代码示例:

bash 复制代码
pip install --upgrade transformers optimum accelerate
python 复制代码
import torch
from transformers import pipeline
from transformers.utils import is_flash_attn_2_available

pipe = pipeline(
    "automatic-speech-recognition",
    model="openai/whisper-large-v3",
    torch_dtype=torch.float16,
    device="cuda:0",
    model_kwargs={"attn_implementation": "flash_attention_2"} if is_flash_attn_2_available() else {"attn_implementation": "sdpa"},
)

outputs = pipe(
    "<your-audio-file>",
    chunk_length_s=30,
    batch_size=24,
    return_timestamps=True,
)

print(outputs)

同类项目推荐

除了 Insanely Fast Whisper,市场上还有几个音频转录的相关项目,值得探索:

  1. DeepSpeech:一个开源的语音识别引擎,使用深度学习来实现高精度的语音识别。
  2. Kaldi:另一个强大的开源语音识别工具,提供丰富的功能和灵活的配置选项。
  3. SpeechRecognition:一个 Python 库,简化了对多种语音识别 API 的调用,适合快速开发。

这些项目各具特色,可以针对不同的需求和使用场景进行选择,希望能为您的语音处理提供更多灵感和选择。

相关推荐
爱睡懒觉的焦糖玛奇朵11 小时前
【从视频到数据集:焦糖玛奇朵的魔法工具Video To YOLO Dataset】
人工智能·python·学习·yolo·音视频
神秘的摄影师13 小时前
2026年AE音乐素材下载网站TOP5评测——短视频与自媒体创作者专属指南
音视频·媒体
2601_9577867713 小时前
短视频矩阵系统的信号处理密码:用奈奎斯特采样定理破解“限流“黑箱
矩阵·音视频·信号处理
若兰幽竹15 小时前
【大模型应用】抖音爆款视频深度分析系统:流水线式AI逆向拆解流量密码,精准预测播放量!
人工智能·python·音视频·抖音爆款分析
网管NO.115 小时前
视频核心技术 08:播放器原理与秒开优化 —— 首帧链路、缓冲策略与卡顿根治
音视频
searchforAI16 小时前
视频画面里的PPT怎么提取?视频转图文讲义的实操教程
人工智能·学习·ai·aigc·powerpoint·音视频·贴图
视频号下载助手16 小时前
2026实测可用!全网视频无水印保存完整操作方法
音视频
广州灵眸科技有限公司17 小时前
瑞芯微(EASY EAI)RV1126B 音频电路
开发语言·人工智能·深度学习·算法·yolo·音视频
孤舟簔笠翁18 小时前
音频均衡器(EQ)详解
音视频
jushi899918 小时前
网易爆米花 网盘视频聚合播放器 支持各大网盘、NAS挂载
音视频