本地部署 whisper-medusaWhisper 是一种用于语音转录和翻译的高级编码器-解码器模型,通过编码和解码阶段处理音频。鉴于其尺寸大和推理速度慢,人们提出了各种优化策略(例如 Faster-Whisper 和 Speculative Decoding)来提高性能。我们的 Medusa 模型建立在 Whisper 的基础上,通过每次迭代预测多个标记,这显着提高了速度,同时 WER 略有下降。我们在 LibriSpeech 数据集上训练和评估我们的模型,与普通 Whisper 模型相比,展示了强大的性能速度改进和同等准确度。