深入了解 Whisper 的架构、用法以及在语音识别领域的应用和性能特征

Whisper: 通用语音识别模型详解

概述

Whisper 是一个基于 Transformer 序列到序列模型的通用语音识别系统,经过训练可以执行多语种语音识别、语音翻译和语言识别任务。本文将深入介绍 Whisper 的工作原理、设置方法、可用模型及其性能评估。

方法

Whisper 使用 Transformer 序列到序列模型,同时支持多语种语音识别、语音翻译、语种识别和语音活动检测等任务。这些任务被联合表示为解码器需要预测的一系列标记,使得单个模型可以替代传统语音处理流水线的多个阶段。多任务训练格式使用一组特殊的标记作为任务标识符或分类目标。

设置

我们使用 Python 3.9.9 和 PyTorch 1.10.1 对模型进行训练和测试,但代码库预计与 Python 3.8-3.11 和最近的 PyTorch 版本兼容。依赖于一些 Python 包,尤其是 OpenAI 的 tiktoken 用于快速的分词器实现。您可以通过以下命令下载安装或更新到最新版本的 Whisper:

bash 复制代码
pip install -U openai-whisper

如果需要安装到最新的提交版本,请使用以下命令:

bash 复制代码
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

此外,Whisper 还依赖于命令行工具 ffmpeg,您可以通过以下方式在不同平台上安装:

bash 复制代码
# Ubuntu 或 Debian
sudo apt update && sudo apt install ffmpeg

# Arch Linux
sudo pacman -S ffmpeg

# MacOS 使用 Homebrew
brew install ffmpeg

# Windows 使用 Chocolatey
choco install ffmpeg

# Windows 使用 Scoop
scoop install ffmpeg

在某些情况下,您可能需要安装 Rust,以便于 tiktoken 为您的平台提供预构建的轮子。如果在安装过程中出现错误,请参考 Rust 开发环境的安装指南。

可用模型与语言

Whisper 提供了五种模型尺寸,其中四种是仅英文的版本,提供了速度和准确性之间的平衡。以下是可用模型的名称及其对应的内存需求和相对于大型模型的推理速度:

  • tiny:39M 参数,约需 1GB VRAM,推理速度约为大型模型的32倍。
  • base:74M 参数,约需 1GB VRAM,推理速度约为大型模型的16倍。
  • small:244M 参数,约需 2GB VRAM,推理速度约为大型模型的6倍。
  • medium:769M 参数,约需 5GB VRAM,推理速度约为大型模型的2倍。
  • large:1550M 参数,约需 10GB VRAM,基准速度。

对于英文应用,特别是对于 tiny.en 和 base.en 模型,性能表现更优。然而,对于 small.en 和 medium.en 模型,性能差距较小。

Whisper 的性能

Whisper 的性能因语言而异。下图显示了在 Common Voice 15 和 Fleurs 数据集上评估的大型-v3 和大型-v2 模型的词错误率(WER)或字符错误率(以斜体显示)。其他模型和数据集的评估指标可以在论文的附录中找到。

命令行用法

以下命令将使用 medium 模型转录音频文件:

bash 复制代码
whisper audio.flac audio.mp3 audio.wav --model medium

默认设置(选择 small 模型)适用于英文转录。如果要转录包含非英语言音频的文件,可以使用 --language 选项指定语言:

bash 复制代码
whisper japanese.wav --language Japanese

添加 --task translate 将语音翻译为英文:

bash 复制代码
whisper japanese.wav --language Japanese --task translate

运行以下命令查看所有可用选项:

bash 复制代码
whisper --help
Python 使用示例

您也可以在 Python 中执行转录:

python 复制代码
import whisper

model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

内部地,transcribe() 方法会读取整个文件,并在每个 30 秒的滑动窗口上执行自回归序列到序列预测。

使用 whisper.detect_language() 和 whisper.decode() 提供了更低级别的访问方式,可以访问模型的功能。

python 复制代码
import whisper

model = whisper.load_model("base")

# 加载音频并填充/修剪以适合 30 秒
audio = whisper.load_audio("audio.mp3")
audio = whisper.pad_or_trim(audio)

# 生成对数梅尔频谱图并移动到与模型相同的设备
mel = whisper.log_mel_spectrogram(audio).to(model.device)

# 检测语音的语种
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")

# 解码音频
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)

# 打印识别的文本
print(result.text)

通过上述介绍,您可以深入了解 Whisper 的架构、用法以及在语音识别领域的应用和性能特征。这些信息将帮助您更好地理解和应用 Whisper 项目。

相关推荐
东临碣石8235 分钟前
【AI论文】EnerVerse-AC:用行动条件来构想具身环境
人工智能
lqjun08271 小时前
PyTorch实现CrossEntropyLoss示例
人工智能·pytorch·python
心灵彼岸-诗和远方1 小时前
芯片生态链深度解析(三):芯片设计篇——数字文明的造物主战争
人工智能·制造
小蜗笔记1 小时前
显卡、Cuda和pytorch兼容问题
人工智能·pytorch·python
高建伟-joe1 小时前
内容安全:使用开源框架Caffe实现上传图片进行敏感内容识别
人工智能·python·深度学习·flask·开源·html5·caffe
Cloud Traveler2 小时前
迁移学习:解锁AI高效学习与泛化能力的密钥
人工智能·学习·迁移学习
IT_xiao小巫2 小时前
AI 实践探索:辅助生成测试用例
人工智能·测试用例
一切皆有可能!!2 小时前
ChromaDB 向量库优化技巧实战
人工智能·语言模型
星川皆无恙2 小时前
大模型学习:Deepseek+dify零成本部署本地运行实用教程(超级详细!建议收藏)
大数据·人工智能·学习·语言模型·架构
观测云2 小时前
观测云产品更新 | 安全监测、事件中心、仪表板AI智能分析等
人工智能·安全