一、自注意力机制与多头自注意力(核心基础层)
-
• 核心知识点:自注意力计算(Self-Attention) :通过自注意力的矩阵运算,每个Token都能产生对其他Token的抽象理解,这种理解最终体现在一组V向量(即生成的Z向量 )中,核心目的是建立句子内部词与词之间的关联性。
-
• 核心局限性:单次自注意力的缺陷 :如果只进行一次自注意力计算,模型只能对其他词产生单一维度的理解。一个 512 维的原始向量里包含了一个词的所有信息(词性、时态、语义、指代等)。如果只用"单头"去计算,模型必须在一个统一的计算过程里处理所有这些属性,容易导致信息冲突 或重点模糊。
-
• 核心重点:多头自注意力机制(Multi-Head Attention) :这是Transformer的绝对核心模块 。其解决方案是将原始的高维词向量(例如10512维度)拆分成多个低维的词向量组(如8个1064维度的向量组,即"8个头")。
-
• 核心结论:多头机制的优势 :拆分后的8组向量各自独立进行自注意力计算,最后再合并成原始维度的Z向量。这种机制使得模型能够从多角度、多维度独立提取并整合复杂的语义信息 。(易混淆点:多头并不是增加了信息总量,而是提供了多个不同的语义观察视角,从而更全面地捕捉复杂的上下文特征。)
-
• 多头机制的核心逻辑:拆分即解构 : 通过多头机制,模型可以将这些杂糅的特征解耦(Decoupling):
-
头 1 专门负责找指代关系 (比如"它"到底指代哪个名词);
-
头 2 专门负责找修饰关系 (比如这个形容词在修饰哪个对象);
-
头 3 专门负责找逻辑衔接 (比如"但是"后面接的是什么)。
-
二、残差连接、归一化与前馈神经网络(特征强化与稳定层)
-
• 核心重点:残差连接(Add)与层归一化(Norm) :在注意力层的输出后,会接入残差连接,并对每层输出的数值进行归一化(Layer Normalization)。
-
• 核心知识点:归一化的作用 :将向量中的数值约束在一定范围内(如0~1之间或标准正态分布),其核心目的是防止训练过程中出现波动极大的数值,保证梯度稳定传播,加速模型收敛。经过归一化的输出向量记为A。
-
• 核心知识点:前馈神经网络(FFN) :在每一层注意力机制后都会追加一个FFN层。该层对A向量的每个元素使用激活函数(如ReLU)进行非线性变换,进一步提升模型对复杂特征的拟合与表达能力。
-
• 核心结论:编码器(Encoder)的整体闭环 :输入向量 -> 多头自注意力 -> 残差与归一化 -> FFN -> 残差与归一化。这套流程组合成一层完整的Encoder Block,经过N次堆叠后,输出最终包含全局语境的编码器输出向量(X_out)。
三、解码器(Decoder)的核心机制与运行逻辑(生成层)
-
• 核心重点:解码器的双重输入:解码器在工作时必须接收两部分信息:
-
瞻前输入:编码器输出的全局语义向量(X_out)。
-
顾后输入 :模型已生成的单词序列。
-
-
• 核心机制:自回归生成方式 :模型的生成是逐个Token(单词)进行 的。每生成一个新单词,都需要将之前生成的所有序列重新输入到解码器中,以预测下一个Token。在开始生成第一个词时,需输入特殊的起始符(如
<sos>)。 -
• 核心重点:掩码多头自注意力机制(Masked Multi-Head Attention) :输入已生成序列时,向量会先进入掩码层。计算机制与普通多头注意力一致,但加入了**掩码(Mask)**操作。(高频考点/易混淆点 :为何使用掩码?为了防止解码器在训练预测时"偷看"到当前词之后的未来信息,确保模型只能依赖当前及以前生成的词来做预测。)
四、交叉注意力机制与模型的应用演变(对齐与输出层)
-
• 核心知识点:编码器-解码器注意力(Cross-Attention) :位于解码器的第二层。其核心目的是融合编码器理解的源文本语义信息,实现输入与输出的完美"对齐" 。计算时同样采用多头机制,并伴随残差连接与归一化(结构依然遵循:多头计算 -> 残差 -> 归一化 -> FFN -> 残差 -> 归一化)。
-
• 核心结论:解码器的最终输出:掩码自注意力层与交叉注意力层等堆叠N次后,输出解码器的最终预测向量(Y_out),再经过线性层与Softmax转化为词表概率分布,完成生成。
-
• 核心知识点:Transformer的应用与架构演化:
-
翻译任务 :将中文转化为向量,再通过上述架构解码为英文,本质是解决不同语言文本之间的对齐任务。
-
问答系统 :采用"问题-答案"配对的方式训练模型,模型即可化身为问答机器人。这是当前主流大语言模型(LLM)的底层训练方式。
-
架构裁剪 :根据实际的业务使用场景,Transformer可以灵活变体。例如对于单纯的文本生成任务,可以完全省去编码器(Encoder),仅保留解码器(Decoder),这也是当前GPT系列等生成式大模型的核心架构选择。
-