[特殊字符] Insanely Fast Whisper - 超快音频转录工具!

Insanely Fast Whisper:超快速音频转录工具

在智能语音技术的飞速发展中,音频转录的效率日益成为关键因素。今天我们将介绍一个功能强大且速度惊人的开源项目------Insanely Fast Whisper。该工具利用了 OpenAI 的 Whisper 模型,通过命令行界面(CLI)实现了极致快速的音频文件转录,给用户带来了便捷的使用体验。

项目亮点

Insanely Fast Whisper 的一个关键特点就是其出色的转录速度,能够在短短 98 秒内转录 150 分钟的音频文件。这样的速度,无疑会帮助需要处理大量音频内容的用户大大节省时间和精力。

性能基准

在 NVIDIA A100 80GB 的 GPU 上进行的基准测试结果显示,随着优化算法和模型的不同,音频转录的时间差异显著:

优化类型 转录时间(150 分钟音频)
large-v3 (fp32) ~31分钟
large-v3 (fp16 + batching [24] + bettertransformer) ~5分钟
large-v3 (fp16 + batching [24] + Flash Attention 2) ~2分钟
distil-large-v2 (fp16 + batching [24] + bettertransformer) ~3分钟
distil-large-v2 (fp16 + batching [24] + Flash Attention 2) ~1分钟
large-v2 (Faster Whisper) (fp16 + beam_size [1]) ~9.23分钟
large-v2 (Faster Whisper) (8-bit + beam_size [1]) ~8分钟

这一卓越的性能绝对令人惊叹,尤其适合需要频繁进行音频转录的专业人士和研究人员。

安装指南

要使用 Insanely Fast Whisper,可以通过以下命令安装:

bash 复制代码
pipx install insanely-fast-whisper==0.0.15 --force

如果在安装过程中遇到 Python 版本不匹配的问题,可以使用以下命令:

bash 复制代码
pipx install insanely-fast-whisper --force --pip-args="--ignore-requires-python"

对于使用 pip 的用户,可以直接安装:

bash 复制代码
pip install insanely-fast-whisper --ignore-requires-python

运行转录

安装完成后,用户可以通过以下命令从任意路径运行转录:

bash 复制代码
insanely-fast-whisper --file-name <your-audio-file>

对于 macOS 用户,请确保添加 --device-id mps 参数。

例如,你可以使用 Flash Attention 2 来加速转录:

bash 复制代码
insanely-fast-whisper --file-name <your-audio-file> --flash True

CLI 选项

Insanely Fast Whisper 提供了多种 CLI 参数,以满足不同用户的需求。以下是可用的主要选项:

复制代码
  -h, --help            显示帮助信息并退出
  --file-name FILE_NAME 音频文件路径或 URL
  --device-id DEVICE_ID 设备 ID,用于指定使用的 GPU 
  --transcript-path TRANSCRIPT_PATH 转录输出保存路径(默认:output.json)
  --model-name MODEL_NAME 预训练模型名称(默认:openai/whisper-large-v3)
  --task {transcribe,translate} 要执行的任务:转录或翻译
  --language LANGUAGE   输入音频的语言(默认:自动识别)
  --batch-size BATCH_SIZE 计算的并行批次数(默认:24)
  --flash FLASH         是否使用 Flash Attention 2(默认:False)
  --timestamp {chunk,word} 支持的时间戳类型(默认:chunk)

安全性与故障排除

常见问题解答

  1. 如何正确安装 Flash Attention 以与 insanely-fast-whisper 一起工作?

    确保通过以下命令安装:

    bash 复制代码
    pipx runpip insanely-fast-whisper install flash-attn --no-build-isolation
  2. 如何解决 Windows 上的 AssertionError: Torch not compiled with CUDA enabled 错误?

    通过手动安装 torch:

    bash 复制代码
    python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
  3. 如何避免 Mac 上的内存溢出(OOM)异常?

    建议使用以下命令来降低批次大小:

    bash 复制代码
    --batch-size 4

其他使用方式

如果用户不想使用 CLI,还可以直接利用库的功能进行音频转录,以下是相关的代码示例:

bash 复制代码
pip install --upgrade transformers optimum accelerate
python 复制代码
import torch
from transformers import pipeline
from transformers.utils import is_flash_attn_2_available

pipe = pipeline(
    "automatic-speech-recognition",
    model="openai/whisper-large-v3",
    torch_dtype=torch.float16,
    device="cuda:0",
    model_kwargs={"attn_implementation": "flash_attention_2"} if is_flash_attn_2_available() else {"attn_implementation": "sdpa"},
)

outputs = pipe(
    "<your-audio-file>",
    chunk_length_s=30,
    batch_size=24,
    return_timestamps=True,
)

print(outputs)

同类项目推荐

除了 Insanely Fast Whisper,市场上还有几个音频转录的相关项目,值得探索:

  1. DeepSpeech:一个开源的语音识别引擎,使用深度学习来实现高精度的语音识别。
  2. Kaldi:另一个强大的开源语音识别工具,提供丰富的功能和灵活的配置选项。
  3. SpeechRecognition:一个 Python 库,简化了对多种语音识别 API 的调用,适合快速开发。

这些项目各具特色,可以针对不同的需求和使用场景进行选择,希望能为您的语音处理提供更多灵感和选择。

相关推荐
llilian_162 小时前
音频分析仪 专业音频分析仪破解行业测试痛点实战解析 音频测试仪 专业音频分析仪
大数据·功能测试·单片机·测试工具·音视频
王江奎11 小时前
FFmpeg 中编译和使用 soxr 重采样引擎
ffmpeg·音视频
枳实-叶12 小时前
基于 ALSA 实现录音保存为 WAV 文件
音视频
优选资源分享13 小时前
小丸工具箱 vR236|ffmpeg 图形化视频压制工具
ffmpeg·音视频
localbob18 小时前
Moon VR Video Player中文版下载地址及使用教程:支持8K/12K+多音轨外挂字幕 Moon VR Video Player中文版、Moon VR播放器下载、VR视频播放器推荐、Ste
音视频·vr·moonvr下载·moonvr安装包·moonvr播放器下载·moonvr播放器中文版·moonvr apk
潜创微科技--高清音视频芯片方案开发19 小时前
2026年USB转网口方案商趋势洞察--从技术到场景的适配选择
音视频·硬件工程
qianmo202121 小时前
免费输入音频MP3输出文本的软件推荐
音视频
x-cmd21 小时前
[260326] x-cmd v0.8.10:跨 Shell 统一配置命令短名;自动装好依赖运行 WhisperLiveKit 实时语音转写
linux·人工智能·ai·whisper·shortcut·x-cmd
EasyCVR1 天前
国标GB28181/RTSP/ONVIF/RTMP视频监控平台EasyCVR视频质量诊断花屏/蓝屏/画面模糊/冻结检测
网络·数据库·音视频