【HuggingFace Transformers】OpenAIGPTModel的核心——Block源码解析在 GPT 模型中,Block 是 Transformer 架构的核心组成部分。每个 Block 主要由三个部分构成:Attention、MLP以及两个Layer Norm。首先,Attention 层负责计算输入中各位置之间的注意力权重,并生成加权的表示。接着,将Attention 的输出与输入进行残差连接,并通过第一个Layer Norm层进行层归一化,形成中间状态。随后,MLP 层进一步处理这些中间状态,通过激活函数引入非线性变换。最后将MLP 层的输出和输入进行残差连接,并通过第二个Layer N