other model

一、CTC

1、Connectionist Temporal Classification

2、使用单向的encoder可以做到在线语音识别

3、在online中:encode将h_i输出,h_i丢到一个线性的Classifier中可以得到当前的token的distribution。

4、还可以得到over整个token的distribution,将h进行transform,再做softmax得到。

5、加入无法判断的输出null

(1)输入T个声学特征,输出T个tokens

(2)输出的token中含有null,将重复的token合并,移除null

6、训练的时候要自己自造情况进行输出,然后训练,这里穷举了

并使最小化损失

7、CTC还有将token设置为word的

二、RNA

1、Recurrent Neural Aligner

2、给一个h_i得到一个token,前后具有依赖性

三、RNN-T

1、给一个h_i输出多个token,直到model觉得自己输出完了,输出一个null;进行下一个h_i的操作

2、还有另一种忽略null的情况

四、Neural Transducer

1、一次给固定多个h_i加上attention输出多个token直到输出null再进行下一组。

2、不同的attention会有不同的正确率

五、MoChA

1、Monotonic Chunkwise Attention

2、现在窗口可以是不固定的了

3、输出还是跟前面的Neural Transducer一样

六、总结

相关推荐
pp今天努力突破java地板6 分钟前
bert文本情感分类
人工智能·深度学习·bert
放下华子我只抽RuiKe511 分钟前
机器学习全景指南-总结与展望——构建你的机器学习工具箱
人工智能·深度学习·opencv·学习·目标检测·机器学习·自然语言处理
ppppppatrick14 分钟前
【深度学习基础篇10】BERT 文本分类实战:酒店评价情感分析全流程详解
深度学习·分类·bert
Dev7z17 分钟前
面向健身与康复训练的基于深度学习的人体姿态检测与动作纠正系统
人工智能·深度学习·健身·康复训练·人体姿态检测·动作纠正系统
智算菩萨26 分钟前
ChatGPT 5.4 Thinking与Pro性能深度评测及原理解析
人工智能·深度学习·ai·语言模型·chatgpt
写代码的二次猿6 小时前
安装openfold(顺利解决版)
开发语言·python·深度学习
SkyXZ7 小时前
人脸伪造判别分类网络CNN&Transformer
深度学习
飞Link9 小时前
深度解析 LSTM 神经网络架构与实战指南
人工智能·深度学习·神经网络·lstm
love530love9 小时前
Windows 11 源码编译 vLLM 0.16 完全指南(RTX 3090 / CUDA 12.8 / PyTorch 2.7.1)
人工智能·pytorch·windows·python·深度学习·vllm·vs 2022
放下华子我只抽RuiKe59 小时前
机器学习全景指南-基石篇——预测连续值的线性回归
人工智能·深度学习·神经网络·算法·机器学习·自然语言处理·线性回归