[学习笔记]Transformer技术纵深

第2章 Transforemer架构

除主要模块外,Transformer 模型还应用了 LayerNorm (Layer Normalization/LN, 层归一化),Dropout 和残差连接(Residual Connection)等设计方法,这些辅助模块对提升模型性能至关重要。

  1. LayerNorm

LayerNorm有助于稳定训练并提高收敛性,其通过归一化输入特征来确保激活的均值和方差一致,从而缓解内部协变量偏移问题,使模型学习更高效,降低对初始权重的敏感性。

在Transformer架构中,LayerNorm通常应用于每个Transformer模块的自注意力机制和FFN层之后,尽管实际应用中可能有所不同。

  1. Dropout

Dropout是一种正则化技术,通过在训练期间随机将部分模型权重设为零,防止过拟合。

这促使模型学习更强大的特征,减少对特定神经元的依赖,从而更好地泛化到新数据。

3.残差连接

残差连接将网络的输人和输出相加,形成新的输出F(x)+x。这种设计允许信息和梯度直接跨过一层或多层传播,保留原始信息,有效缓解梯度消失问题,使训练更深的网络成为可能。