Transformer学习

这里写目录标题

Seq2Seq

语音翻译为何不直接用语音辨识+机器翻译?

因为有的语言没有文字,比如将狗叫翻译出来。

语法分析

将任务转化成翻译任务,硬训一发,效果不错。

文章归类问题

目标检测

Transformer

Encoder结构

multi-head attention block

为何batch-norm 不如 layer-norm?

https://arxiv.org/abs/2003.07845
https://zhuanlan.zhihu.com/p/428620330

Decoder结构

decoder流程

decoder结构

encoder和decoder基本一样,decoder多了一个masked mutil-head attention

decoder比encoder多了一个masked self-attention,why?

因为decoder计算每次都依赖前一个节点的输出,所以a_n只能看到1~n个节点的输出

decoder如何决定自己输出的长度?

增加一个停止token,一般来会跟begin用一个符号

Decoder-Non-autoregressive(NAT)

NAT decoder如何决定输出长度?

  1. 训练一个分类器用来预测输出长度
  2. 输出一个固定的较长的长度,通过END tocken来截取最终输出

优势

  1. AT decoder需要一个一个输出,NAT可以一次输出整个
  2. 较容易控制输出长度,比如在语音合成的应用

劣势

NAT的表现通常不如AT。原因:multi-modality

Transformer结构

cross attention

训练

训练和测试的区别

相关推荐
蓝桉8022 小时前
如何进行神经网络的模型训练(视频代码中的知识点记录)
人工智能·深度学习·神经网络
liliangcsdn3 小时前
Leiden社区发现算法的学习和示例
学习·数据分析·知识图谱
星期天要睡觉3 小时前
深度学习——数据增强(Data Augmentation)
人工智能·深度学习
笑脸惹桃花3 小时前
50系显卡训练深度学习YOLO等算法报错的解决方法
深度学习·算法·yolo·torch·cuda
DKPT4 小时前
JVM中如何调优新生代和老生代?
java·jvm·笔记·学习·spring
phltxy4 小时前
JVM——Java虚拟机学习
java·jvm·学习
anneCoder4 小时前
AI大模型应用研发工程师面试知识准备目录
人工智能·深度学习·机器学习
骑驴看星星a4 小时前
没有深度学习
人工智能·深度学习
THMAIL6 小时前
深度学习从入门到精通 - AutoML与神经网络搜索(NAS):自动化模型设计未来
人工智能·python·深度学习·神经网络·算法·机器学习·逻辑回归
山烛7 小时前
深度学习:残差网络ResNet与迁移学习
人工智能·python·深度学习·残差网络·resnet·迁移学习