使用Quartznet和Pytorch实现语音文字转换(speech-to-text)

使用QuartzNet和Pytorch实现语音文字转换(speech-to-text)

QuartzNet介绍

QuartzNet是Nvidia推出的一个轻量级的端到端语音识别模型,即使在5x15版本上仅包含18.9M个参数,在LibriSpeech-dev其他数据集上也能有超过95%的准确率。因此,凭借高吞吐量和高精度,QuartzNet可以提供帧级语音到文本推理,相比于大多数GB级别的ASR模型,QuartzNet适用于存储和计算能力有限的边缘设备上使用。

QuratzNet预训练模型

Nvidia提供了QuartzNet15x5的预训练NeMo模型,在 8xV100 GPU上以Apex/Amp O1优化级别进行训练。训练使用了LibriSpeech和Mozilla的EN Common Voice进行训练。在不使用其它语言模型的情况下,仅使用贪婪解码器,该模型在LibriSpeech 测试的WER(word error rate)为4.19%,在其他测试中的WER为 10.98%。

预训练模型使用

为了更好的将QuartzNet15x5模型应用在多种类、跨平台的应用上,我们将模型迁移到了Pytorch上,并将原来的代码尽可能解耦,以方便不同领域简单能够复用。以下为Demo的使用教程:

  1. 将代码克隆至本地:

    git clone https://github.com/youjunl/Quartznet-pytorch.git

  2. 进入到代码文件夹:

    cd Quartznet-pytorch

  3. 安装Python依赖:

    pip install -r requirements.txt

  4. 运行Demo,这里我们将audio文件夹下的一段demo音频转化为文本:
    python try_model.py

  5. 输出结果:
    as i approached the city i heard bells ringing and a little later i found the street a stir with throngs of well dressed people in family groups winding their way thither and thither

相关推荐
东胜物联12 分钟前
探寻5G工业网关市场,5G工业网关品牌解析
人工智能·嵌入式硬件·5g
南宫理的日知录21 分钟前
99、Python并发编程:多线程的问题、临界资源以及同步机制
开发语言·python·学习·编程学习
皓74123 分钟前
服饰电商行业知识管理的创新实践与知识中台的重要性
大数据·人工智能·科技·数据分析·零售
coberup30 分钟前
django Forbidden (403)错误解决方法
python·django·403错误
985小水博一枚呀1 小时前
【深度学习滑坡制图|论文解读3】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法
人工智能·深度学习·神经网络·cnn·transformer
龙哥说跨境1 小时前
如何利用指纹浏览器爬虫绕过Cloudflare的防护?
服务器·网络·python·网络爬虫
AltmanChan1 小时前
大语言模型安全威胁
人工智能·安全·语言模型
985小水博一枚呀1 小时前
【深度学习滑坡制图|论文解读2】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法
人工智能·深度学习·神经网络·cnn·transformer·迁移学习
数据与后端架构提升之路1 小时前
从神经元到神经网络:深度学习的进化之旅
人工智能·神经网络·学习
小白学大数据1 小时前
正则表达式在Kotlin中的应用:提取图片链接
开发语言·python·selenium·正则表达式·kotlin