other model

一、CTC

1、Connectionist Temporal Classification

2、使用单向的encoder可以做到在线语音识别

3、在online中:encode将h_i输出,h_i丢到一个线性的Classifier中可以得到当前的token的distribution。

4、还可以得到over整个token的distribution,将h进行transform,再做softmax得到。

5、加入无法判断的输出null

(1)输入T个声学特征,输出T个tokens

(2)输出的token中含有null,将重复的token合并,移除null

6、训练的时候要自己自造情况进行输出,然后训练,这里穷举了

并使最小化损失

7、CTC还有将token设置为word的

二、RNA

1、Recurrent Neural Aligner

2、给一个h_i得到一个token,前后具有依赖性

三、RNN-T

1、给一个h_i输出多个token,直到model觉得自己输出完了,输出一个null;进行下一个h_i的操作

2、还有另一种忽略null的情况

四、Neural Transducer

1、一次给固定多个h_i加上attention输出多个token直到输出null再进行下一组。

2、不同的attention会有不同的正确率

五、MoChA

1、Monotonic Chunkwise Attention

2、现在窗口可以是不固定的了

3、输出还是跟前面的Neural Transducer一样

六、总结

相关推荐
顾京2 小时前
基于扩散模型的表单插补
人工智能·深度学习·算法
liupenglove3 小时前
ElasticSearch向量检索技术方案介绍
大数据·人工智能·深度学习·elasticsearch·搜索引擎·自动驾驶
青石横刀策马3 小时前
从0开始深度学习(27)——卷积神经网络(LeNet)
人工智能·深度学习·cnn
YRr YRr6 小时前
深度学习:GLUE(General Language Understanding Evaluation)详解
人工智能·深度学习
Dxy12393102167 小时前
python图片按照比例缩放
开发语言·python·深度学习
算力魔方AIPC13 小时前
从零开始训练一个大语言模型需要多少天?
人工智能·深度学习·机器学习
今天炼丹了吗13 小时前
YOLOv11融合特征细化前馈网络 FRFN[CVPR2024]及相关改进思路
python·深度学习·机器学习
存内计算开发者13 小时前
豆包大模型团队开源RLHF框架,破解强化学习训练部署难题
人工智能·嵌入式硬件·深度学习·神经网络·开源·iot·存内计算
charles_vaez13 小时前
开源模型应用落地-glm模型小试-glm-4-9b-chat-压力测试(六)
深度学习·语言模型·自然语言处理
zjun302114 小时前
AscendC从入门到精通系列(一)初步感知AscendC
人工智能·深度学习·机器学习·华为