本地部署 whisper-medusa

本地部署 whisper-medusa

  • [0. 引言](#0. 引言)
  • [1. 本地部署](#1. 本地部署)
    • [1-1. 创建虚拟环境](#1-1. 创建虚拟环境)
    • [1-2. 克隆代码](#1-2. 克隆代码)
    • [1-3. 安装依赖模块](#1-3. 安装依赖模块)
    • [1-4. 创建 Web UI](#1-4. 创建 Web UI)
    • [1-5. 启动 Web UI](#1-5. 启动 Web UI)
    • [1-5. 访问 Web UI](#1-5. 访问 Web UI)

0. 引言

Whisper 是一种用于语音转录和翻译的高级编码器-解码器模型,通过编码和解码阶段处理音频。鉴于其尺寸大和推理速度慢,人们提出了各种优化策略(例如 Faster-Whisper 和 Speculative Decoding)来提高性能。我们的 Medusa 模型建立在 Whisper 的基础上,通过每次迭代预测多个标记,这显着提高了速度,同时 WER 略有下降。我们在 LibriSpeech 数据集上训练和评估我们的模型,与普通 Whisper 模型相比,展示了强大的性能速度改进和同等准确度。

1. 本地部署

1-1. 创建虚拟环境

复制代码
conda create -n whisper-medusa python=3.11 -y
conda activate whisper-medusa

1-2. 克隆代码

复制代码
git clone https://github.com/aiola-lab/whisper-medusa.git
cd whisper-medusa

1-3. 安装依赖模块

复制代码
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
pip install -e .
conda install matplotlib
pip install gradio

1-4. 创建 Web UI

复制代码
# webui.py
import torch
import torchaudio
import gradio as gr
from whisper_medusa import WhisperMedusaModel
from transformers import WhisperProcessor

# Load model and processor
model_name = "aiola/whisper-medusa-v1"
model = WhisperMedusaModel.from_pretrained(model_name)
processor = WhisperProcessor.from_pretrained(model_name)

# Set device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)

# Constants
SAMPLING_RATE = 16000

def transcribe_audio(audio_file, language):
    # Load and preprocess audio
    input_speech, sr = torchaudio.load(audio_file)
    if input_speech.shape[0] > 1:  # If stereo, average the channels
        input_speech = input_speech.mean(dim=0, keepdim=True)
    if sr != SAMPLING_RATE:
        input_speech = torchaudio.transforms.Resample(sr, SAMPLING_RATE)(input_speech)
    
    # Process input
    input_features = processor(input_speech.squeeze(), return_tensors="pt", sampling_rate=SAMPLING_RATE).input_features
    input_features = input_features.to(device)
    
    # Generate transcription
    model_output = model.generate(
        input_features,
        language=language,
    )
    predict_ids = model_output[0]
    transcription = processor.decode(predict_ids, skip_special_tokens=True)
    
    return transcription

# Define Gradio interface
iface = gr.Interface(
    fn=transcribe_audio,
    inputs=[
        gr.Audio(type="filepath", label="Upload Audio"),
        gr.Dropdown(["en", "zh", "ja"], label="Select Language", value="en")
    ],
    outputs="text",
    title="Audio Transcription with Whisper Medusa",
    description="Upload an audio file and select the language to transcribe the audio to text."
)

# Launch the interface
iface.launch()

1-5. 启动 Web UI

复制代码
python webui.py

1-5. 访问 Web UI

使用浏览器访问 http://localhost:7860

相关推荐
llrraa201012 分钟前
python whisper生成字幕
开发语言·python·whisper
周润发的弟弟17 分钟前
2025年Java在中国开发语言排名分析报告
人工智能
杭州泽沃电子科技有限公司20 分钟前
工业环境电缆火灾预防的分布式光纤在线监测
运维·人工智能·科技·安全
没有梦想的咸鱼185-1037-166321 分钟前
AI大模型支持下的:CMIP6数据分析与可视化、降尺度技术与气候变化的区域影响、极端气候分析
人工智能·python·深度学习·机器学习·chatgpt·数据挖掘·数据分析
柠檬味拥抱42 分钟前
基于自适应信号处理的AI Agent多任务协同控制方法研究
人工智能
唐丙斯城1 小时前
新能源汽车热管理仿真:蒙特卡洛助力神经网络训练
人工智能·神经网络·汽车
楚禾Noah2 小时前
【设计模式实战】原型模式 + 工厂模式:AI Agent 配置中心
人工智能·设计模式·原型模式
灵智工坊LingzhiAI2 小时前
基于深度学习的中草药识别系统:从零到部署的完整实践
人工智能·深度学习
今天也要学习吖2 小时前
Azure TTS Importer:一键导入,将微软TTS语音接入你的阅读软件!
人工智能·学习·microsoft·ai·大模型·aigc·azure
星期天要睡觉2 小时前
(纯新手教学)计算机视觉(opencv)实战八——四种边缘检测详解:Sobel、Scharr、Laplacian、Canny
人工智能·opencv·计算机视觉