Transformer结构完全解读:从Attention到LLM

Transformer 基础架构

Transformer 的核心在于自注意力机制(Self-Attention),它能够捕捉序列中任意位置的关系。输入序列通过嵌入层转换为向量后,加入位置编码(Positional Encoding)以保留顺序信息。编码器和解码器均由多层相同结构堆叠而成,每层包含多头注意力(Multi-Head Attention)和前馈神经网络(FFN)。

自注意力计算通过查询(Query)、键(Key)、值(Value)矩阵实现: \\text{Attention}(Q, K, V) = \\text{softmax}\\left(\\frac{QK\^T}{\\sqrt{d_k}}\\right)V 其中 (d_k) 为键向量的维度,缩放因子用于防止梯度消失。

多头注意力机制

多头注意力将输入分成多组,每组独立计算注意力后拼接结果,增强模型捕捉不同子空间信息的能力: \\text{MultiHead}(Q, K, V) = \\text{Concat}(\\text{head}_1, ..., \\text{head}_h)W\^O 每个注意力头的计算为: \\text{head}_i = \\text{Attention}(QW_i\^Q, KW_i\^K, VW_i\^V) 参数矩阵 (W_i^Q, W_i^K, W_i^V) 和输出投影矩阵 (W^O) 为可学习参数。

位置编码与残差连接

位置编码通过正弦和余弦函数生成,为模型提供序列位置信息: PE_{(pos, 2i)} = \\sin(pos/10000\^{2i/d_{\\text{model}}}) PE_{(pos, 2i+1)} = \\cos(pos/10000\^{2i/d_{\\text{model}}}) 残差连接和层归一化(LayerNorm)缓解梯度消失问题: \\text{LayerNorm}(x + \\text{Sublayer}(x))

解码器的核心改进

解码器通过掩码多头注意力(Masked Multi-Head Attention)防止未来信息泄露。编码器-解码器注意力层将编码器输出作为Key和Value,解码器自注意力输出作为Query。输出层通过线性变换和softmax生成概率分布。

从Transformer到LLM的演进

大型语言模型(LLM)基于Transformer架构扩展:

  • 模型缩放:增加层数(如GPT-3的96层)和隐藏层维度(达12288)。
  • 训练数据:使用万亿级token的语料库,涵盖多语言和多领域文本。
  • 优化技术:混合精度训练、梯度裁剪、学习率调度(如余弦退火)。
  • 稀疏注意力:如Longformer的局部+全局注意力,处理长序列。

关键技术优化

Flash Attention :通过分块计算和IO优化,降低内存占用并加速训练。
Rotary Position Embedding (RoPE) :旋转位置编码增强远程依赖性,应用于LLaMA等模型。
激活函数:从ReLU转向GeLU/Swish,平衡梯度流动和非线性能力。

代码示例(PyTorch风格伪代码):

python 复制代码
class TransformerBlock(nn.Module):
    def __init__(self, d_model, nhead):
        super().__init__()
        self.attn = MultiHeadAttention(d_model, nhead)
        self.ffn = FFN(d_model)
        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)

    def forward(self, x):
        x = self.norm1(x + self.attn(x))
        x = self.norm2(x + self.ffn(x))
        return x
相关推荐
编码者卢布2 分钟前
【Azure AI Search】 searchMode=any 和 searchMode=all 有什么区别?
人工智能·python·flask
Samooyou8 分钟前
大模型微调(Fine Tuning)
人工智能·python·ai·语言模型
石榴树下的七彩鱼10 分钟前
如何去除豆包生图上的水印?2026年AI图片去水印全攻略(含官方技巧+API接入方案)
人工智能·ai去水印·石榴智能·图片去水印api·豆包生图·豆包去水印方法·ai图片修复
花间相见13 分钟前
【端侧AI模型】—— Google Gemma 4 全面解析:端侧大模型的新标杆
人工智能·google·ai编程·gemini
三更两点18 分钟前
AI拉呱-2026年06月10日AI技术洞察简报
人工智能
领麦微红外19 分钟前
ATT01-从出风口测温到感知头发温度
人工智能·智能家居
土星云SaturnCloud20 分钟前
边缘计算赋能智慧工地:从“看得见“到“管得住“的智能化升级
服务器·人工智能·ai·边缘计算
UXbot24 分钟前
AI网页开发工具能替代工具吗?5大平台对比
前端·人工智能·低代码·ui·原型模式·web app
mit6.82424 分钟前
Ralph Loops: 用简单循环替代复杂AI工作流
人工智能
DXM052128 分钟前
第9期|从机器学习到深度学习:AI遥感解译的进化逻辑
人工智能·算法·计算机视觉