【语音识别】vLLM 部署 Whisper 语音识别模型指南

目录

[1. 模型下载](#1. 模型下载)

[2. 环境安装](#2. 环境安装)

[3. 部署脚本](#3. 部署脚本)

[4. 服务测试](#4. 服务测试)


语音识别技术在现代人工智能应用中扮演着重要角色,OpenAI开源的Whisper模型以其出色的识别准确率和多语言支持能力成为当前最先进的语音识别解决方案之一。本文将详细介绍如何使用vLLM(一个高效的大模型推理和服务框架)来部署Whisper-large-v3-turbo模型,构建一个可扩展的语音识别API服务。

vLLM是专为大规模语言模型推理优化的服务框架,它通过创新的注意力算法和高效的内存管理,能够显著提升模型推理速度并降低资源消耗。将Whisper与vLLM结合,可以充分发挥两者的优势,为语音识别应用提供高性能、低延迟的服务能力。

1. 模型下载

复制代码
# pip install -U huggingface_hub 
# 国内镜像见 https://hf-mirror.com/
set -x
export HF_ENDPOINT=https://hf-mirror.com 

# https://huggingface.co/openai/whisper-large-v3-turbo
REPO=openai/whisper-large-v3-turbo
huggingface-cli download --resume-download $REPO --local-dir $REPO --exclude "*fp32*"

2. 环境安装

复制代码
# vllm 安装
pip install -U vllm[audio]

# 如果下载太慢,可以尝试清华源
pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/

# 以下操作可跳过
# 部署时候如果遇到 ValueError: Model architectures ['WhisperForConditionalGeneration'] failed to be inspected. Please check the logs for more details.
# 则需要执行如下操作,本质上是 flash-attn 与 vllm 内置的 flash-attn 冲突
# https://github.com/vllm-project/vllm/issues/13216
# pip uninstall flash-attn -y

3. 部署脚本

复制代码
# path 为自己的目录
model_path=/path/openai/whisper-large-v3-turbo
model_name=whisper-large-v3-turbo
vllm serve $model_path \
    --served-model-name $model_name \
    --api-key token-abc123 \
    --gpu-memory-utilization 0.9 \
    --host 0.0.0.0 \
    --port 8000 \
    --task transcription \
    --trust-remote-code \
    --enforce-eager

# 部署成功后可以看到 VLLM API server 以及支持的 endpoint/route

4. 服务测试

复制代码
# 使用如下 POST 请求服务,tmp.mp3 为本地文件
curl -X POST "http://0.0.0.0:8000/v1/audio/transcriptions" \
  -H "Content-Type: multipart/form-data" \
  -H "Authorization: Bearer token-abc123" \
  -F file="@tmp.mp3" \
  -F model="whisper-large-v3-turbo" \
  -F language="zh" \
  -F response_format="text"

# 执行后可得到
# {
#   "text": "此存储库实现一个语音到语音集联管道该管道由以下部分组成"
# }

tmp.mp3 已经上传到资源,跳转到文章开头部分下载即可,或者自己录制一个 mp3 也可以。

相关推荐
凯禾瑞华现代家政6 分钟前
适老化场景重构:现代家政老年照护虚拟仿真实训室建设方案
人工智能·系统架构·虚拟现实
Wnq1007214 分钟前
通用人工智能 (AGI): 定义、挑战与未来展望
人工智能·agi
宋一诺3318 分钟前
机器学习——放回抽样
人工智能·机器学习
Ao0000001 小时前
机器学习——主成分分析PCA
人工智能·机器学习
硅谷秋水1 小时前
Impromptu VLA:用于驾驶视觉-语言-动作模型的开放权重和开放数据
人工智能·机器学习·计算机视觉·语言模型·自动驾驶
TDengine (老段)1 小时前
TDengine 的 AI 应用实战——运维异常检测
大数据·数据库·人工智能·物联网·时序数据库·tdengine·涛思数据
jndingxin1 小时前
OpenCV CUDA模块霍夫变换------在 GPU 上执行概率霍夫变换检测图像中的线段端点类cv::cuda::HoughSegmentDetector
人工智能·opencv·计算机视觉
只有左边一个小酒窝1 小时前
(三)动手学线性神经网络:从数学原理到代码实现
人工智能·深度学习·神经网络
m0_726365831 小时前
2025年微信小程序开发:趋势、最佳实践与AI整合
人工智能·微信小程序·notepad++
jndingxin1 小时前
OpenCV CUDA模块图像处理------图像融合函数blendLinear()
图像处理·人工智能·opencv