[学习笔记]Transformer技术纵深

第2章 Transforemer架构

除主要模块外，Transformer 模型还应用了 LayerNorm (Layer Normalization/LN，层归一化),Dropout 和残差连接(Residual Connection)等设计方法，这些辅助模块对提升模型性能至关重要。

LayerNorm有助于稳定训练并提高收敛性，其通过归一化输入特征来确保激活的均值和方差一致，从而缓解内部协变量偏移问题，使模型学习更高效，降低对初始权重的敏感性。

在Transformer架构中，LayerNorm通常应用于每个Transformer模块的自注意力机制和FFN层之后，尽管实际应用中可能有所不同。

Dropout是一种正则化技术，通过在训练期间随机将部分模型权重设为零，防止过拟合。

这促使模型学习更强大的特征，减少对特定神经元的依赖，从而更好地泛化到新数据。

3.残差连接

残差连接将网络的输人和输出相加，形成新的输出F(x)+x。这种设计允许信息和梯度直接跨过一层或多层传播，保留原始信息，有效缓解梯度消失问题，使训练更深的网络成为可能。