transform详解 - 技术栈

cnn是通过卷积核的方式实现权重偏置的计算，y=wk+b，激活，前馈神经网络，反向传播。

transform的attention也是需要用权重代表重要程度，输入*权重=输出，再用输出和label计算loss，transform的权重是通过自注意力机制（Q，K，V）计算得到的。

transformer：输入，位置编码，编码器（attention，前馈网络），解码器（attention，前馈网络，mask），loss，反向传播，优化器。

cnn：输入，卷积核，前馈网络，loss，反向传播，优化器。

下图是Transform 的整体架构，由decoder和encoder构成。构件可以拆解为：

输入嵌入（Input Embedding）: 输入序列首先被转换成固定维度的嵌入向量，这里的embedding是可训的。
位置编码（Positional Encoding）: 由于Transformer不像循环神经网络（RNN）那样自然地处理序列的顺序信息，所以需要添加位置编码以保持序列中单词的位置信息，在Transformer中位置编码不是可训的，是根据位置直接计算的。
多头自注意力机制（Multi-Head Self-Attention）: 允许模型在处理每个序列元素时，同时考虑序列中的所有其他元素，这是通过注意力权重实现的，其中更重要的元素将获得更高的权重。
前馈网络（Feed-Forward Network）: attention模块后接着是一个前馈网络，该网络对每个位置应用相同的全连接层。
残差连接（Residual Connection）和归一化（Normalization）: 在每个子层的输出上，都会进行残差连接，然后在做蹭归一化(Layer-Norm)。
解码器：Transformer模型中的解码器会根据编码器的输出以及之前已生成的输出序列来生成下一个输出。解码器的架构与编码器类似，但它包含一个额外的子层来进行编码器-解码器注意力操作。同时解码器和编码器一样，解码器通常由多个相同的解码层堆叠而成。解码器的遮掩注意力: 防止解码器在生成输出序列时提前"看到"正确答案（后面结合mask原理解释）。
线性层和Softmax: 解码器的最后输出通过一个线性层和Softmax层，将解码器输出转换为预测的下一个词的概率分布。
输入+位置编码：

Self-Attention 的过程如下图所示：

attention参考：https://zhuanlan.zhihu.com/p/685724799
Attention的基本原理
Attention机制本质上是一个加权机制。对于给定的输入序列，模型会学习一个权重分布，用于表征每个元素对当前任务的重要程度。这些权重随后被用来计算加权平均（或加权和），生成一个固定大小的"上下文向量"（context vector），该向量蕴含了当前任务最为关键的信息。