使用Quartznet和Pytorch实现语音文字转换(speech-to-text)

使用QuartzNet和Pytorch实现语音文字转换(speech-to-text)

QuartzNet介绍

QuartzNet是Nvidia推出的一个轻量级的端到端语音识别模型,即使在5x15版本上仅包含18.9M个参数,在LibriSpeech-dev其他数据集上也能有超过95%的准确率。因此,凭借高吞吐量和高精度,QuartzNet可以提供帧级语音到文本推理,相比于大多数GB级别的ASR模型,QuartzNet适用于存储和计算能力有限的边缘设备上使用。

QuratzNet预训练模型

Nvidia提供了QuartzNet15x5的预训练NeMo模型,在 8xV100 GPU上以Apex/Amp O1优化级别进行训练。训练使用了LibriSpeech和Mozilla的EN Common Voice进行训练。在不使用其它语言模型的情况下,仅使用贪婪解码器,该模型在LibriSpeech 测试的WER(word error rate)为4.19%,在其他测试中的WER为 10.98%。

预训练模型使用

为了更好的将QuartzNet15x5模型应用在多种类、跨平台的应用上,我们将模型迁移到了Pytorch上,并将原来的代码尽可能解耦,以方便不同领域简单能够复用。以下为Demo的使用教程:

  1. 将代码克隆至本地:

    git clone https://github.com/youjunl/Quartznet-pytorch.git

  2. 进入到代码文件夹:

    cd Quartznet-pytorch

  3. 安装Python依赖:

    pip install -r requirements.txt

  4. 运行Demo,这里我们将audio文件夹下的一段demo音频转化为文本:
    python try_model.py

  5. 输出结果:
    as i approached the city i heard bells ringing and a little later i found the street a stir with throngs of well dressed people in family groups winding their way thither and thither

相关推荐
BoBoZz19几秒前
OrientedArrow 在两个随机生成的点之间绘制一根带箭头的线,以可视化一个向量
python·vtk·图形渲染·图形处理
ccLianLian1 分钟前
计算机视觉·MaskFormer
人工智能·计算机视觉·目标跟踪
qq_200465053 分钟前
数字文明与农耕文明的交响:2025世界金猪日重构产业文化新范式
人工智能·重构·生活·旅游·业界资讯
人邮异步社区3 分钟前
完全没接触过AI/NLP,如何系统学习大模型?
人工智能·学习·自然语言处理·大模型
CV码5 分钟前
基于MediaPipe的静态手势识别实现
人工智能·opencv·计算机视觉·手势识别
数据的世界015 分钟前
重构智慧书-第5条:从 “依赖操控” 到 “价值共生”
人工智能
m0_738120727 分钟前
渗透测试——Kioptrix5靶机渗透测试详细教程
网络·python·安全·web安全·ssh
z***94848 分钟前
Java进阶07 嵌套类
java·开发语言·python
小霖家的混江龙9 分钟前
不再害怕数学,给开发者的 AI 向量 (Vector) 入门课,看完秒懂!
人工智能·llm
湘-枫叶情缘10 分钟前
虚拟妻子项目可行性方案:以LLM与多模态AI构建下一代情感陪伴系统
人工智能·生活