other model

一、CTC

1、Connectionist Temporal Classification

2、使用单向的encoder可以做到在线语音识别

3、在online中:encode将h_i输出,h_i丢到一个线性的Classifier中可以得到当前的token的distribution。

4、还可以得到over整个token的distribution,将h进行transform,再做softmax得到。

5、加入无法判断的输出null

(1)输入T个声学特征,输出T个tokens

(2)输出的token中含有null,将重复的token合并,移除null

6、训练的时候要自己自造情况进行输出,然后训练,这里穷举了

并使最小化损失

7、CTC还有将token设置为word的

二、RNA

1、Recurrent Neural Aligner

2、给一个h_i得到一个token,前后具有依赖性

三、RNN-T

1、给一个h_i输出多个token,直到model觉得自己输出完了,输出一个null;进行下一个h_i的操作

2、还有另一种忽略null的情况

四、Neural Transducer

1、一次给固定多个h_i加上attention输出多个token直到输出null再进行下一组。

2、不同的attention会有不同的正确率

五、MoChA

1、Monotonic Chunkwise Attention

2、现在窗口可以是不固定的了

3、输出还是跟前面的Neural Transducer一样

六、总结

相关推荐
Sherry Wangs2 小时前
【2025 NeurIPS】Show-o2: Improved Native Unified Multimodal Models
深度学习·多模态·umm
koo3643 小时前
pytorch深度学习笔记5
pytorch·笔记·深度学习
Coding茶水间6 小时前
基于深度学习的35种鸟类检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·计算机视觉
ReinaXue6 小时前
跨模态预训练大模型【CLIP】:Contrastive Language–Image Pre-training
图像处理·人工智能·深度学习·计算机视觉·语言模型
【建模先锋】6 小时前
高效对抗噪声!基于深度残差收缩网络(DRSN)的轴承故障诊断模型
网络·深度学习·信号处理·轴承故障诊断·降噪模型
All The Way North-7 小时前
PyTorch SmoothL1Loss 全面解析:数学定义、梯度推导、API 规范与 logits 误用纠正
pytorch·深度学习·机器学习·smooth l1损失函数·回归损失函数
哥布林学者7 小时前
吴恩达深度学习课程三: 结构化机器学习项目 第二周:误差分析与学习方法 课后习题和代码实践
深度学习·ai
金融小师妹9 小时前
机器学习驱动分析:ADP就业数据异常波动,AI模型预测12月降息概率达89%
大数据·人工智能·深度学习·编辑器·1024程序员节
东皇太星9 小时前
Transformers Tokenizer 使用详解
人工智能·rnn·深度学习·神经网络
CV爱数码9 小时前
【宝藏数据集】LUMOS:腰椎多模态骨质疏松症筛查专用
人工智能·python·深度学习·机器学习·计算机视觉·数据集