【机器学习】Transformer核心架构与工作原理深度解析

一、自注意力机制与多头自注意力（核心基础层）

• 核心知识点：自注意力计算（Self-Attention） ：通过自注意力的矩阵运算，每个Token都能产生对其他Token的抽象理解，这种理解最终体现在一组V向量（即生成的Z向量 ）中，核心目的是建立句子内部词与词之间的关联性。
• 核心局限性：单次自注意力的缺陷 ：如果只进行一次自注意力计算，模型只能对其他词产生单一维度的理解。一个 512 维的原始向量里包含了一个词的所有信息（词性、时态、语义、指代等）。如果只用"单头"去计算，模型必须在一个统一的计算过程里处理所有这些属性，容易导致信息冲突 或重点模糊。
• 核心重点：多头自注意力机制（Multi-Head Attention） ：这是Transformer的绝对核心模块 。其解决方案是将原始的高维词向量（例如10512维度）拆分成多个低维的词向量组（如8个1064维度的向量组，即"8个头"）。
• 核心结论：多头机制的优势 ：拆分后的8组向量各自独立进行自注意力计算，最后再合并成原始维度的Z向量。这种机制使得模型能够从多角度、多维度独立提取并整合复杂的语义信息 。（易混淆点：多头并不是增加了信息总量，而是提供了多个不同的语义观察视角，从而更全面地捕捉复杂的上下文特征。）
• 多头机制的核心逻辑：拆分即解构 ：通过多头机制，模型可以将这些杂糅的特征解耦（Decoupling）：
- 头 1 专门负责找指代关系 （比如"它"到底指代哪个名词）；
- 头 2 专门负责找修饰关系 （比如这个形容词在修饰哪个对象）；
- 头 3 专门负责找逻辑衔接 （比如"但是"后面接的是什么）。

二、残差连接、归一化与前馈神经网络（特征强化与稳定层）

• 核心重点：残差连接（Add）与层归一化（Norm） ：在注意力层的输出后，会接入残差连接，并对每层输出的数值进行归一化（Layer Normalization）。
• 核心知识点：归一化的作用 ：将向量中的数值约束在一定范围内（如0~1之间或标准正态分布），其核心目的是防止训练过程中出现波动极大的数值，保证梯度稳定传播，加速模型收敛。经过归一化的输出向量记为A。
• 核心知识点：前馈神经网络（FFN） ：在每一层注意力机制后都会追加一个FFN层。该层对A向量的每个元素使用激活函数（如ReLU）进行非线性变换，进一步提升模型对复杂特征的拟合与表达能力。
• 核心结论：编码器（Encoder）的整体闭环 ：输入向量 -> 多头自注意力 -> 残差与归一化 -> FFN -> 残差与归一化。这套流程组合成一层完整的Encoder Block，经过N次堆叠后，输出最终包含全局语境的编码器输出向量（X_out）。

三、解码器（Decoder）的核心机制与运行逻辑（生成层）

• 核心重点：解码器的双重输入：解码器在工作时必须接收两部分信息：
1. 瞻前输入：编码器输出的全局语义向量（X_out）。
2. 顾后输入 ：模型已生成的单词序列。
• 核心机制：自回归生成方式 ：模型的生成是逐个Token（单词）进行 的。每生成一个新单词，都需要将之前生成的所有序列重新输入到解码器中，以预测下一个Token。在开始生成第一个词时，需输入特殊的起始符（如<sos>）。
• 核心重点：掩码多头自注意力机制（Masked Multi-Head Attention） ：输入已生成序列时，向量会先进入掩码层。计算机制与普通多头注意力一致，但加入了**掩码（Mask）**操作。（高频考点/易混淆点 ：为何使用掩码？为了防止解码器在训练预测时"偷看"到当前词之后的未来信息，确保模型只能依赖当前及以前生成的词来做预测。）

四、交叉注意力机制与模型的应用演变（对齐与输出层）

• 核心知识点：编码器-解码器注意力（Cross-Attention） ：位于解码器的第二层。其核心目的是融合编码器理解的源文本语义信息，实现输入与输出的完美"对齐" 。计算时同样采用多头机制，并伴随残差连接与归一化（结构依然遵循：多头计算 -> 残差 -> 归一化 -> FFN -> 残差 -> 归一化）。
• 核心结论：解码器的最终输出：掩码自注意力层与交叉注意力层等堆叠N次后，输出解码器的最终预测向量（Y_out），再经过线性层与Softmax转化为词表概率分布，完成生成。
• 核心知识点：Transformer的应用与架构演化：
- 翻译任务 ：将中文转化为向量，再通过上述架构解码为英文，本质是解决不同语言文本之间的对齐任务。
- 问答系统 ：采用"问题-答案"配对的方式训练模型，模型即可化身为问答机器人。这是当前主流大语言模型（LLM）的底层训练方式。
- 架构裁剪 ：根据实际的业务使用场景，Transformer可以灵活变体。例如对于单纯的文本生成任务，可以完全省去编码器（Encoder），仅保留解码器（Decoder），这也是当前GPT系列等生成式大模型的核心架构选择。