other model

一、CTC

1、Connectionist Temporal Classification

2、使用单向的encoder可以做到在线语音识别

3、在online中:encode将h_i输出,h_i丢到一个线性的Classifier中可以得到当前的token的distribution。

4、还可以得到over整个token的distribution,将h进行transform,再做softmax得到。

5、加入无法判断的输出null

(1)输入T个声学特征,输出T个tokens

(2)输出的token中含有null,将重复的token合并,移除null

6、训练的时候要自己自造情况进行输出,然后训练,这里穷举了

并使最小化损失

7、CTC还有将token设置为word的

二、RNA

1、Recurrent Neural Aligner

2、给一个h_i得到一个token,前后具有依赖性

三、RNN-T

1、给一个h_i输出多个token,直到model觉得自己输出完了,输出一个null;进行下一个h_i的操作

2、还有另一种忽略null的情况

四、Neural Transducer

1、一次给固定多个h_i加上attention输出多个token直到输出null再进行下一组。

2、不同的attention会有不同的正确率

五、MoChA

1、Monotonic Chunkwise Attention

2、现在窗口可以是不固定的了

3、输出还是跟前面的Neural Transducer一样

六、总结

相关推荐
T0uken19 分钟前
【Python】UV:境内的深度学习环境搭建
人工智能·深度学习·uv
AI即插即用32 分钟前
即插即用系列 | 2025 MambaNeXt-YOLO 炸裂登场!YOLO 激吻 Mamba,打造实时检测新霸主
人工智能·pytorch·深度学习·yolo·目标检测·计算机视觉·视觉检测
studytosky4 小时前
深度学习理论与实战:MNIST 手写数字分类实战
人工智能·pytorch·python·深度学习·机器学习·分类·matplotlib
哥布林学者5 小时前
吴恩达深度学习课程三: 结构化机器学习项目 第一周:机器学习策略(二)数据集设置
深度学习·ai
【建模先锋】6 小时前
精品数据分享 | 锂电池数据集(四)PINN+锂离子电池退化稳定性建模和预测
深度学习·预测模型·pinn·锂电池剩余寿命预测·锂电池数据集·剩余寿命
九年义务漏网鲨鱼6 小时前
【大模型学习】现代大模型架构(二):旋转位置编码和SwiGLU
深度学习·学习·大模型·智能体
CoovallyAIHub6 小时前
破局红外小目标检测:异常感知Anomaly-Aware YOLO以“俭”驭“繁”
深度学习·算法·计算机视觉
云雾J视界7 小时前
AI芯片设计实战:用Verilog高级综合技术优化神经网络加速器功耗与性能
深度学习·神经网络·verilog·nvidia·ai芯片·卷积加速器
噜~噜~噜~15 小时前
最大熵原理(Principle of Maximum Entropy,MaxEnt)的个人理解
深度学习·最大熵原理
小女孩真可爱17 小时前
大模型学习记录(五)-------调用大模型API接口
pytorch·深度学习·学习