other model

一、CTC

1、Connectionist Temporal Classification

2、使用单向的encoder可以做到在线语音识别

3、在online中:encode将h_i输出,h_i丢到一个线性的Classifier中可以得到当前的token的distribution。

4、还可以得到over整个token的distribution,将h进行transform,再做softmax得到。

5、加入无法判断的输出null

(1)输入T个声学特征,输出T个tokens

(2)输出的token中含有null,将重复的token合并,移除null

6、训练的时候要自己自造情况进行输出,然后训练,这里穷举了

并使最小化损失

7、CTC还有将token设置为word的

二、RNA

1、Recurrent Neural Aligner

2、给一个h_i得到一个token,前后具有依赖性

三、RNN-T

1、给一个h_i输出多个token,直到model觉得自己输出完了,输出一个null;进行下一个h_i的操作

2、还有另一种忽略null的情况

四、Neural Transducer

1、一次给固定多个h_i加上attention输出多个token直到输出null再进行下一组。

2、不同的attention会有不同的正确率

五、MoChA

1、Monotonic Chunkwise Attention

2、现在窗口可以是不固定的了

3、输出还是跟前面的Neural Transducer一样

六、总结

相关推荐
哥布林学者1 小时前
吴恩达深度学习课程四:计算机视觉 第一周:卷积基础知识(一)图像处理基础
深度学习·ai
phoenix@Capricornus2 小时前
视觉Transformer(ViT)
人工智能·深度学习·transformer
马踏岛国赏樱花2 小时前
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
深度学习
aaaa_a1334 小时前
李宏毅——self-attention Transformer
人工智能·深度学习·transformer
子非鱼9215 小时前
3 传统序列模型——RNN
人工智能·rnn·深度学习
万俟淋曦5 小时前
【论文速递】2025年第33周(Aug-10-16)(Robotics/Embodied AI/LLM)
人工智能·深度学习·ai·机器人·论文·robotics·具身智能
像风没有归宿a5 小时前
AI绘画与音乐:生成式艺术是创作还是抄袭?
人工智能·深度学习·计算机视觉
碧海银沙音频科技研究院5 小时前
基于物奇wq7036与恒玄bes2800智能眼镜设计
arm开发·人工智能·深度学习·算法·分类
weixin_468466856 小时前
YOLOv11结构解析及源码复现
人工智能·深度学习·yolo·目标检测·计算机视觉·图像识别·yolov11
攻城狮-frank6 小时前
超越GPT的底层魔法:Transformer
深度学习·transformer