other model

一、CTC

1、Connectionist Temporal Classification

2、使用单向的encoder可以做到在线语音识别

3、在online中:encode将h_i输出,h_i丢到一个线性的Classifier中可以得到当前的token的distribution。

4、还可以得到over整个token的distribution,将h进行transform,再做softmax得到。

5、加入无法判断的输出null

(1)输入T个声学特征,输出T个tokens

(2)输出的token中含有null,将重复的token合并,移除null

6、训练的时候要自己自造情况进行输出,然后训练,这里穷举了

并使最小化损失

7、CTC还有将token设置为word的

二、RNA

1、Recurrent Neural Aligner

2、给一个h_i得到一个token,前后具有依赖性

三、RNN-T

1、给一个h_i输出多个token,直到model觉得自己输出完了,输出一个null;进行下一个h_i的操作

2、还有另一种忽略null的情况

四、Neural Transducer

1、一次给固定多个h_i加上attention输出多个token直到输出null再进行下一组。

2、不同的attention会有不同的正确率

五、MoChA

1、Monotonic Chunkwise Attention

2、现在窗口可以是不固定的了

3、输出还是跟前面的Neural Transducer一样

六、总结

相关推荐
musk121217 小时前
深度学习中 z-score 标准化理解
人工智能·深度学习·z-socre
小白狮ww17 小时前
挥手点亮圣诞:AI 3D 魔法树教程
人工智能·深度学习·机器学习·3d·音视频·图片处理·动作识别
码界奇点17 小时前
基于深度学习的人脸识别考勤系统设计与实现
人工智能·深度学习·车载系统·毕业设计·源代码管理
CoovallyAIHub18 小时前
深大团队UNeMo框架:让机器人学会“预判”,效率提升40%
深度学习·算法·计算机视觉
hans汉斯18 小时前
【计算机科学与应用】预训练语言模型在日文文本难易度自动分类中的应用
人工智能·深度学习·机器学习·语言模型·自然语言处理·机器人·匿名
木棉知行者18 小时前
【第2篇】RuntimeError: nms_impl: implementation for device cuda:0 not found.
人工智能·深度学习·bug·mmdetection
XiaoMu_00118 小时前
基于深度学习的网络流量异常检测系统
人工智能·深度学习
haiyu_y19 小时前
Day 36 MLP神经网络的训练
python·深度学习·神经网络
Philtell19 小时前
Ubuntu22.04 5080配置深度学习环境
人工智能·深度学习
Francek Chen19 小时前
【自然语言处理】应用01:情感分析及数据集
人工智能·pytorch·深度学习·自然语言处理