一、CTC
1、Connectionist Temporal Classification
2、使用单向的encoder可以做到在线语音识别
3、在online中:encode将h_i输出,h_i丢到一个线性的Classifier中可以得到当前的token的distribution。
4、还可以得到over整个token的distribution,将h进行transform,再做softmax得到。
5、加入无法判断的输出null
(1)输入T个声学特征,输出T个tokens
(2)输出的token中含有null,将重复的token合并,移除null
6、训练的时候要自己自造情况进行输出,然后训练,这里穷举了
并使最小化损失
7、CTC还有将token设置为word的
二、RNA
1、Recurrent Neural Aligner
2、给一个h_i得到一个token,前后具有依赖性
三、RNN-T
1、给一个h_i输出多个token,直到model觉得自己输出完了,输出一个null;进行下一个h_i的操作
2、还有另一种忽略null的情况
四、Neural Transducer
1、一次给固定多个h_i加上attention输出多个token直到输出null再进行下一组。
2、不同的attention会有不同的正确率
五、MoChA
1、Monotonic Chunkwise Attention
2、现在窗口可以是不固定的了
3、输出还是跟前面的Neural Transducer一样
六、总结