other model

一、CTC

1、Connectionist Temporal Classification

2、使用单向的encoder可以做到在线语音识别

3、在online中:encode将h_i输出,h_i丢到一个线性的Classifier中可以得到当前的token的distribution。

4、还可以得到over整个token的distribution,将h进行transform,再做softmax得到。

5、加入无法判断的输出null

(1)输入T个声学特征,输出T个tokens

(2)输出的token中含有null,将重复的token合并,移除null

6、训练的时候要自己自造情况进行输出,然后训练,这里穷举了

并使最小化损失

7、CTC还有将token设置为word的

二、RNA

1、Recurrent Neural Aligner

2、给一个h_i得到一个token,前后具有依赖性

三、RNN-T

1、给一个h_i输出多个token,直到model觉得自己输出完了,输出一个null;进行下一个h_i的操作

2、还有另一种忽略null的情况

四、Neural Transducer

1、一次给固定多个h_i加上attention输出多个token直到输出null再进行下一组。

2、不同的attention会有不同的正确率

五、MoChA

1、Monotonic Chunkwise Attention

2、现在窗口可以是不固定的了

3、输出还是跟前面的Neural Transducer一样

六、总结

相关推荐
Jurio.35 分钟前
Python Ray 分布式计算应用
linux·开发语言·python·深度学习·机器学习
_codemonster2 小时前
深度学习实战(基于pytroch)系列(四十八)AdaGrad优化算法
人工智能·深度学习·算法
AI即插即用2 小时前
即插即用系列 | Attention GhostUNet++:基于多维注意力和 Ghost 模块的高效 CT 图像脂肪与肝脏分割网络
网络·图像处理·人工智能·深度学习·神经网络·计算机视觉·视觉检测
哥布林学者3 小时前
吴恩达深度学习课程四:计算机视觉 第一周:卷积基础知识(二)卷积参数
深度学习·ai
学历真的很重要3 小时前
PyTorch 机器学习工作流程基础 - 完整教程
人工智能·pytorch·后端·python·深度学习·机器学习·面试
李昊哲小课4 小时前
深度学习高级教程:基于生成对抗网络的五子棋对战AI
人工智能·深度学习·生成对抗网络
CoovallyAIHub5 小时前
何必先OCR再LLM?视觉语言模型直接读图,让百页长文档信息不丢失
深度学习·算法·计算机视觉
CoovallyAIHub5 小时前
NAN-DETR:集中式噪声机制如何让检测更“团结”?
深度学习·算法·计算机视觉
CoovallyAIHub5 小时前
火箭工程大学多模态遥感检测新框架MROD-YOLO:如何将小目标检测精度提升至77.9%?
深度学习·算法·计算机视觉
CoovallyAIHub5 小时前
未来物体检测趋势:需要关注的 7 个关键问题
深度学习·算法·计算机视觉