other model

ccdous2024-08-16 9:56

一、CTC

1、Connectionist Temporal Classification

2、使用单向的encoder可以做到在线语音识别

3、在online中：encode将h_i输出，h_i丢到一个线性的Classifier中可以得到当前的token的distribution。

4、还可以得到over整个token的distribution，将h进行transform，再做softmax得到。

5、加入无法判断的输出null

（1）输入T个声学特征，输出T个tokens

（2）输出的token中含有null，将重复的token合并，移除null

6、训练的时候要自己自造情况进行输出，然后训练，这里穷举了

并使最小化损失

7、CTC还有将token设置为word的

二、RNA

1、Recurrent Neural Aligner

2、给一个h_i得到一个token，前后具有依赖性

三、RNN-T

1、给一个h_i输出多个token，直到model觉得自己输出完了，输出一个null；进行下一个h_i的操作

2、还有另一种忽略null的情况

四、Neural Transducer

1、一次给固定多个h_i加上attention输出多个token直到输出null再进行下一组。

2、不同的attention会有不同的正确率

五、MoChA

1、Monotonic Chunkwise Attention

2、现在窗口可以是不固定的了

3、输出还是跟前面的Neural Transducer一样

六、总结