whisper-medus - whisper-medus技术,学习,经验文章

engchina

2 年前

本地部署 whisper-medusaWhisper 是一种用于语音转录和翻译的高级编码器-解码器模型，通过编码和解码阶段处理音频。鉴于其尺寸大和推理速度慢，人们提出了各种优化策略（例如 Faster-Whisper 和 Speculative Decoding）来提高性能。我们的 Medusa 模型建立在 Whisper 的基础上，通过每次迭代预测多个标记，这显着提高了速度，同时 WER 略有下降。我们在 LibriSpeech 数据集上训练和评估我们的模型，与普通 Whisper 模型相比，展示了强大的性能速度改进和同等准确度。