使用Quartznet和Pytorch实现语音文字转换(speech-to-text)

使用QuartzNet和Pytorch实现语音文字转换(speech-to-text)

QuartzNet介绍

QuartzNet是Nvidia推出的一个轻量级的端到端语音识别模型,即使在5x15版本上仅包含18.9M个参数,在LibriSpeech-dev其他数据集上也能有超过95%的准确率。因此,凭借高吞吐量和高精度,QuartzNet可以提供帧级语音到文本推理,相比于大多数GB级别的ASR模型,QuartzNet适用于存储和计算能力有限的边缘设备上使用。

QuratzNet预训练模型

Nvidia提供了QuartzNet15x5的预训练NeMo模型,在 8xV100 GPU上以Apex/Amp O1优化级别进行训练。训练使用了LibriSpeech和Mozilla的EN Common Voice进行训练。在不使用其它语言模型的情况下,仅使用贪婪解码器,该模型在LibriSpeech 测试的WER(word error rate)为4.19%,在其他测试中的WER为 10.98%。

预训练模型使用

为了更好的将QuartzNet15x5模型应用在多种类、跨平台的应用上,我们将模型迁移到了Pytorch上,并将原来的代码尽可能解耦,以方便不同领域简单能够复用。以下为Demo的使用教程:

  1. 将代码克隆至本地:

    git clone https://github.com/youjunl/Quartznet-pytorch.git

  2. 进入到代码文件夹:

    cd Quartznet-pytorch

  3. 安装Python依赖:

    pip install -r requirements.txt

  4. 运行Demo,这里我们将audio文件夹下的一段demo音频转化为文本:
    python try_model.py

  5. 输出结果:
    as i approached the city i heard bells ringing and a little later i found the street a stir with throngs of well dressed people in family groups winding their way thither and thither

相关推荐
tianxiaxue11 分钟前
企微如何使用AI生成推荐话术?
人工智能·企业微信
团象科技3 分钟前
梳理中小出海独立站落地阶段关于WordPress 海外主机的实操参考路径
人工智能·深度学习
朴马丁13 分钟前
构建日化数字创新平台:PLM如何融合AI、物联网数据,驱动智能研发与精准营销
人工智能·物联网·流程行业plm·日化行业
我不介意孤独14 分钟前
04-记忆系统为什么向量数据库不够用
数据库·人工智能·资源隔离·agent infra
CTA终结者16 分钟前
期货开仓前保证金够吗:get_account 可用与占用字段对照
python·区块链
开源量化GO18 分钟前
夜盘白盘衔接几分钟误下单:天勤交易时段与行情过滤
python·区块链
小程故事多_8019 分钟前
从人工编写到自主迭代进化,SkillEvolver重构大模型智能体技能生成新范式
人工智能·重构
wengad23 分钟前
机器学习实践理论基础|算法、模型和数据集
人工智能·算法·机器学习
kishu_iOS&AI24 分钟前
LLM —— Prompt提示词工程
人工智能·prompt
li-xun29 分钟前
2026年6月7日博客精选
人工智能·chatgpt·每日阅读