【AIGC】OpenAI 宣布推出Whisper large-v3-turbo 语音转录模型 速度提高了8倍

OpenAI 宣布推出了一个名为 large-v3-turbo(简称 turbo)的新 Whisper 模型。这是 Whisper large-v3 的优化版本,将解码器层数从大型模型的 32 层减少到与 tiny 模型相同的 4 层。此优化版本的开发受到了 Distil-Whisper 的启发,后者表明使用较小的解码器可以显著提升转录速度,同时对准确性的影响较小。

速度比 large-v3 快 8 倍,但质量几乎没有下降!

Whisper large-v3-turbo 主要功能和特点:

  1. 更少的解码器层数
    • 与 Whisper large-v3 相比,large-v3-turbo 只使用了 4 个解码器层,而 large-v3 使用了 32 个解码器层。较少的解码器层数使得模型在保持相对高准确度的同时,显著提高了处理速度。
  2. 优化的速度表现
    • Turbo 模型的语音转录速度比 tiny 模型更快,是 Whisper 系列模型中速度与准确性兼顾的"最佳选择"。通过使用更小的解码器层数,该模型提升了实时转录的能力。
    • 通过减少解码层数和启用 torch.compile,推理速度可提升高达 4.5 倍,进一步提高了模型的效率,非常适合需要低延迟的应用场景。
  3. 多语言支持
    • 支持 99 种语言的语音转录,表现出色,并且与大型数据集兼容,包括 FLEURS 和 Common Voice 数据集,尤其在高质量录音上效果更佳。
  4. 跨语言的高效表现
    • Turbo 模型的跨语言转录表现与 large-v2 相当,但在一些语言(如泰语和粤语)上表现较弱。在一些录音质量较高的数据集(如 FLEURS)上,turbo 模型的表现优于 Common Voice 数据集。
  5. 更快的自动语音识别 (ASR)
    • 结合最新的技术补丁(#2359),turbo 模型在使用 F.scaled_dot_product_attention(缩放点积注意力机制)时,能进一步提升自动语音识别的速度。
  6. 专注于转录任务
    • Turbo 模型专为多语言转录任务微调,不适合翻译任务,因为训练时不包含翻译数据。它在纯语音转录方面的表现更为优异,但翻译任务表现较差。
  7. 使用与集成方便
    • 开发者可以通过简单的 Python 包更新或 Whisper 的命令行工具默认使用 turbo 模型,使得其在实际应用中更易于集成。
相关推荐
停停的茶38 分钟前
深度学习(目标检测)
人工智能·深度学习·目标检测
Y200309161 小时前
基于 CIFAR10 数据集的卷积神经网络(CNN)模型训练与集成学习
人工智能·cnn·集成学习
老兵发新帖1 小时前
主流神经网络快速应用指南
人工智能·深度学习·神经网络
AI量化投资实验室2 小时前
15年122倍,年化43.58%,回撤才20%,Optuna机器学习多目标调参backtrader,附python代码
人工智能·python·机器学习
java_logo2 小时前
vllm-openai Docker 部署手册
运维·人工智能·docker·ai·容器
倔强青铜三2 小时前
苦练Python第67天:光速读取任意行,linecache模块解锁文件处理新姿势
人工智能·python·面试
算家计算2 小时前
重磅突破!全球首个真实物理环境机器人基准测试正式发布,具身智能迎来 “ImageNet 时刻”
人工智能·资讯
新智元2 小时前
苹果 M5「夜袭」高通英特尔!AI 算力狂飙 400%,Pro 三剑客火速上新
人工智能·openai
GoppViper2 小时前
什么是GEO生成式引擎优化?GEO科普:定义、原理与应用指南
人工智能·搜索引擎
新智元2 小时前
谷歌 × 耶鲁联手发布抗癌神器!AI 推理精准狙击「隐身」癌细胞
人工智能·openai