手撕 Transformer (1)：Transformer 的结构拆解

茴香豆的茴12026-04-01 9:20

在手撕 Transformer 之前，我们要先了解一下 Transformer 的结构。乍一看，它的结构有点复杂，其实还好。我们分开看就可以了，可以把 Transformer 看成四个部分：输入部分、输出部分、编码器部分、解码器部分。这篇文章不讲每个部分的作用只做拆解，每个部分的作用将在后续文章详细说明。可以带着问题去读后续文章。

输入部分

如下图所示，Transformer 的输入部分分为两部分，一部分是源文本嵌入层（图中 Inuput Embedding）+ 位置编码（图中 Positional Encoding），另一部分是目标文本嵌入层（图中 Output Embedding）+ 位置编码（图中 Positional Encoding）

输出部分

如下图所示，Transformer 的输出部分由 Linear 和 Softmax 组成。

编码器

如下图所示，Transformer 的编码器由 N 个编码器层(Encoder Layer)组成，每个编码器层由 2 个子层组成。第一个子层由一个多头自注意力 （Multi-Head Self-Attention，图中 Multi-Head Attention）和一个层归一化 （Layer Normalization，图中为 Norm），以及一个残差连接组成。第二个子层由一个前馈层 （图中 Feed Forward）和一个层归一化 （图中 Norm），以及一个残差连接组成。

解码器

如下图所示，Transformer 的解码器由 N 个解码器层(Decoder Layer)组成，每个解码器层由 3 个子层组成。第一个子层由一个掩码多头自注意力 （Masked Multi-Head Self-Attention，图中 Masked Multi-Head Attention）和一个层归一化，以及一个残差连接组成。第二个子层由一个多头注意力（不是自注意力，而是交叉注意力 ，图中 Multi-Head Attention）和一个层归一化，以及一个残差连接组成。第三个子层由一个前馈层 和一个层归一化，以及一个残差连接组成。

手撕 Transformer (1)：Transformer 的结构拆解

输入部分

输出部分

编码器

解码器

文章链接