other model

一、CTC

1、Connectionist Temporal Classification

2、使用单向的encoder可以做到在线语音识别

3、在online中:encode将h_i输出,h_i丢到一个线性的Classifier中可以得到当前的token的distribution。

4、还可以得到over整个token的distribution,将h进行transform,再做softmax得到。

5、加入无法判断的输出null

(1)输入T个声学特征,输出T个tokens

(2)输出的token中含有null,将重复的token合并,移除null

6、训练的时候要自己自造情况进行输出,然后训练,这里穷举了

并使最小化损失

7、CTC还有将token设置为word的

二、RNA

1、Recurrent Neural Aligner

2、给一个h_i得到一个token,前后具有依赖性

三、RNN-T

1、给一个h_i输出多个token,直到model觉得自己输出完了,输出一个null;进行下一个h_i的操作

2、还有另一种忽略null的情况

四、Neural Transducer

1、一次给固定多个h_i加上attention输出多个token直到输出null再进行下一组。

2、不同的attention会有不同的正确率

五、MoChA

1、Monotonic Chunkwise Attention

2、现在窗口可以是不固定的了

3、输出还是跟前面的Neural Transducer一样

六、总结

相关推荐
龙腾AI白云16 分钟前
具身智能-普通LLM智能体与具身智能:从语言理解到自主行动
深度学习·数据挖掘
拾零吖42 分钟前
CS336 Lecture_03
人工智能·pytorch·深度学习
有Li43 分钟前
基于k空间渐进式学习与图像空间混合注意力融合的多对比度低场MRI加速|文献速递-文献分享
深度学习
盼小辉丶1 小时前
视觉Transformer实战 | Token-to-Token Vision Transformer(T2T-ViT)详解与实现
pytorch·深度学习·计算机视觉·transformer
高洁011 小时前
具身智能-普通LLM智能体与具身智能:从语言理解到自主行动
人工智能·深度学习·算法·aigc·知识图谱
嵌入式-老费2 小时前
自己动手写深度学习框架(最终的ncnn部署和测试)
人工智能·深度学习
阿十六2 小时前
OUC AI Lab 第七章:ViT & Swin Transformer
人工智能·深度学习·transformer
没有钱的钱仔3 小时前
深度学习概念
人工智能·深度学习
这张生成的图像能检测吗4 小时前
(论文速读)多任务深度学习框架下基于Lamb波的多损伤数据集构建与量化算法
人工智能·深度学习·算法·数据集·结构健康监测
晨非辰7 小时前
数据结构排序系列指南:从O(n²)到O(n),计数排序如何实现线性时间复杂度
运维·数据结构·c++·人工智能·后端·深度学习·排序算法