Transformer学习

这里写目录标题

Seq2Seq
Transformer
- Encoder结构
- - [multi-head attention block](#multi-head attention block)
  - [为何batch-norm 不如 layer-norm？](#为何batch-norm 不如 layer-norm？)
- Decoder结构
- - decoder流程
  - decoder结构
  - [decoder比encoder多了一个masked self-attention，why？](#decoder比encoder多了一个masked self-attention，why？)
  - decoder如何决定自己输出的长度？
- Decoder-Non-autoregressive(NAT)
- - [NAT decoder如何决定输出长度？](#NAT decoder如何决定输出长度？)
  - 优势
  - 劣势
- Transformer结构
- - [cross attention](#cross attention)
  - 训练
  - 训练和测试的区别

Seq2Seq

语音翻译为何不直接用语音辨识+机器翻译？

因为有的语言没有文字，比如将狗叫翻译出来。

语法分析

将任务转化成翻译任务，硬训一发，效果不错。

文章归类问题

目标检测

Transformer

Encoder结构

multi-head attention block

为何batch-norm 不如 layer-norm？

https://arxiv.org/abs/2003.07845
https://zhuanlan.zhihu.com/p/428620330

Decoder结构

decoder流程

decoder结构

encoder和decoder基本一样，decoder多了一个masked mutil-head attention

decoder比encoder多了一个masked self-attention，why？

因为decoder计算每次都依赖前一个节点的输出，所以a_n只能看到1~n个节点的输出

decoder如何决定自己输出的长度？

增加一个停止token，一般来会跟begin用一个符号

Decoder-Non-autoregressive(NAT)

NAT decoder如何决定输出长度？

训练一个分类器用来预测输出长度
输出一个固定的较长的长度，通过END tocken来截取最终输出

优势

AT decoder需要一个一个输出，NAT可以一次输出整个
较容易控制输出长度，比如在语音合成的应用

劣势

NAT的表现通常不如AT。原因：multi-modality