other model

一、CTC

1、Connectionist Temporal Classification

2、使用单向的encoder可以做到在线语音识别

3、在online中:encode将h_i输出,h_i丢到一个线性的Classifier中可以得到当前的token的distribution。

4、还可以得到over整个token的distribution,将h进行transform,再做softmax得到。

5、加入无法判断的输出null

(1)输入T个声学特征,输出T个tokens

(2)输出的token中含有null,将重复的token合并,移除null

6、训练的时候要自己自造情况进行输出,然后训练,这里穷举了

并使最小化损失

7、CTC还有将token设置为word的

二、RNA

1、Recurrent Neural Aligner

2、给一个h_i得到一个token,前后具有依赖性

三、RNN-T

1、给一个h_i输出多个token,直到model觉得自己输出完了,输出一个null;进行下一个h_i的操作

2、还有另一种忽略null的情况

四、Neural Transducer

1、一次给固定多个h_i加上attention输出多个token直到输出null再进行下一组。

2、不同的attention会有不同的正确率

五、MoChA

1、Monotonic Chunkwise Attention

2、现在窗口可以是不固定的了

3、输出还是跟前面的Neural Transducer一样

六、总结

相关推荐
m0_7048878914 分钟前
Day 47
深度学习
haiyu_y20 分钟前
Day 51 在预训练 ResNet18 中注入 CBAM 注意力
人工智能·pytorch·深度学习
拉拉拉拉拉拉拉马25 分钟前
感知机(Perceptron)算法详解
人工智能·python·深度学习·算法·机器学习
最晚的py33 分钟前
参数初始化的方式
深度学习·初始化参数
jay神43 分钟前
基于YOLOv8的行人车辆检测系统
人工智能·深度学习·yolo·计算机视觉·毕业设计
囊中之锥.2 小时前
《深度学习》CUDA安装配置、pytorch库、torchvision库、torchaudio库安装
人工智能·pytorch·深度学习
ttttming2 小时前
day33 简单神经网络
人工智能·深度学习·神经网络
凌峰的博客3 小时前
基于深度学习的图像安全与隐私保护研究方向调研(中)
人工智能·深度学习·安全
上天夭9 小时前
模型训练篇
人工智能·深度学习·机器学习
Blossom.1189 小时前
AI编译器实战:从零手写算子融合与自动调度系统
人工智能·python·深度学习·机器学习·flask·transformer·tornado