Transformer Decoder的输入

大部分引用参考了既安的https://www.zhihu.com/question/337886108/answer/893002189这篇文章，个人认为写的很清晰，此外补充了一些自己的笔记。

弄清楚Decoder的输入输出，关键在于图示三个箭头的位置：

以翻译为例：

因为输入（"我爱中国"）在Encoder中进行了编码，这里我们具体讨论Decoder的操作，也就是如何得到输出（"I Love China"）的过程。

Time Step 1

Time Step 2

Time Step 3

论文在Decoder的输入上，对Outputs有Shifted Right操作。

Shifted Right 实质上是给输出添加起始符/结束符，方便预测第一个Token/结束预测过程。

正常的输出序列位置关系如下：

但在执行的过程中，我们在初始输出中添加了起始符，相当于将输出整体右移一位（Shifted Right），所以输出序列变成如下情况：

这样我们就可以通过起始符预测"I"，也就是通过起始符预测实际的第一个输出。

Transformer中Decoders也是 N=6 层，通过上图我们可以看到每层 Decoder 包括 3 个 sub-layers：

第一个 sub-layer是 Masked Multi-Head Self-Attention，这个层的输入是：

前一时刻Decoder输入+前一时刻Decoder的预测结果 + Positional Encoding。
第二个sub-layer是Encoder-Decoder Multi-Head Attention，这个层的输入是：

Encoder Embedding+上层输出。

也就是在这个层中：

Q是Decoder的上层输出（即Masked Multi-Head Self-Attention的输出）

K\V是Encoder的最终输出
++tips：这个层不是Self-Attention，K=V!=Q（等号是同源的意思）。++
第三个 sub-layer 是前馈神经网络层，与 Encoder 相同。

Transformer Decoder的输入：