英伟达推新AI语音识别模型Parakeet 号称优于Whisper

领先的开源对话 AI 工具包 NVIDIA NeMo宣布推出 Parakeet ASR 模型系列,这是一系列最先进的自动语音识别(ASR)模型,能够以出色的准确性转录英语口语。Parakeet ASR 模型与 Suno.ai 合作开发,是语音识别领域的一大突破,为实现更自然高效的人机交互铺平了道路。

根据开发人员的说法,这些模型对音乐和静音等非语音片段具有鲁棒性,并且在基准测试中优于 OpenAI 的 Whisper v3。它们还通过预先训练的控制点提供用户友好的集成到项目中。

NVIDIA 宣布推出了四个 Parakeet 模型,这些模型基于 RNN Transducer / Connectionist Temporal Classification 解码器,并且具有0.6-1.1亿参数。它们能够应对各种音频环境,并且在仅使用了64,000小时的数据集进行训练后,在基准数据集上实现了出色的词错误率(WER)表现,优于以往的模型。

Parakeet RNNT1.1B - 最佳识别准确性,推理速度适中。当需要最准确的转录时最适用。

Parakeet CTC1.1B - 推理速度快,识别准确性强。在准确性和推理速度之间取得了很好的平衡。

Parakeet RNNT0.6B - 识别准确性强,推理速度快。适用于有限资源的大规模推理。

Parakeet CTC0.6B - 速度最快,识别准确性适中。在转录速度最重要的情况下非常有用。

Parakeet 模型对非语音片段(包括音乐和静音)具有抗干扰能力,有效防止生成虚构的转录结果。Parakeet 是基于 NVIDIA NeMo 工具包构建的,注重用户友好性和灵活性。预训练的检查点可供直接使用,将模型集成到项目中非常方便。无论是寻求即时推理能力还是针对特定任务进行微调,NeMo 都提供了一个强大而直观的框架,充分发挥模型的潜力。

Parakeet 模型的主要优点包括:

  • 最先进的准确性:在各种音频来源和领域上具有出色的 WER 表现,并对非语音片段具有强大的鲁棒性。

  • 不同的模型大小:提供了0.6B 和1.1B 参数的两种模型,能够对复杂语音模式进行强大的理解。

  • 开源和可扩展性:基于 NVIDIA NeMo 构建,可以无缝集成和自定义。

  • 预训练检查点:可用于推理或微调的即插即用模型。

  • 宽松的许可证:根据 CC-BY-4.0许可证发布,模型检查点可在任何商业应用中使用。

Parakeet 是对话 AI 发展的重大进步。其出色的准确性,加上 NeMo 提供的灵活性和易用性,使开发人员能够创建更自然、直观的语音应用程序。从提高虚拟助手的准确性到实现无缝的实时通信,无限可能。Parakeet 系列模型在 HuggingFace Leaderboard 上取得了最先进的成绩。用户可以亲自尝试 parakeet-rnnt-1.1b,并在 Gradio 演示中使用。要在本地访问模型并探索工具包,请访问 NVIDIA NeMo 的 Github 页面。

官方博客网址:https://nvidia.github.io/NeMo/blogs/2024/2024-01-parakeet/

相关推荐
2401_841495641 小时前
【计算机视觉】基于复杂环境下的车牌识别
人工智能·python·算法·计算机视觉·去噪·车牌识别·字符识别
倔强青铜三2 小时前
苦练Python第66天:文件操作终极武器!shutil模块完全指南
人工智能·python·面试
倔强青铜三2 小时前
苦练Python第65天:CPU密集型任务救星!多进程multiprocessing模块实战解析,攻破GIL限制!
人工智能·python·面试
强哥之神2 小时前
浅谈目前主流的LLM软件技术栈:Kubernetes + Ray + PyTorch + vLLM 的协同架构
人工智能·语言模型·自然语言处理·transformer·openai·ray
zskj_qcxjqr2 小时前
七彩喜艾灸机器人:当千年中医智慧遇上现代科技
大数据·人工智能·科技·机器人
Zack_Liu3 小时前
深度学习基础模块
人工智能·深度学习
zy_destiny3 小时前
【工业场景】用YOLOv8实现抽烟识别
人工智能·python·算法·yolo·机器学习·计算机视觉·目标跟踪
狠活科技4 小时前
免登录!免安装ClI,Claude Code官方插件接入API使用教程
人工智能·vscode·ai编程
闲看云起4 小时前
Bert:从“读不懂上下文”的AI,到真正理解语言
论文阅读·人工智能·深度学习·语言模型·自然语言处理·bert
韩曙亮4 小时前
【自动驾驶】自动驾驶概述 ⑨ ( 自动驾驶软件系统概述 | 预测系统 | 决策规划 | 控制系统 )
人工智能·机器学习·自动驾驶·激光雷达·决策规划·控制系统·预测系统