为什么Transformer模型中使用Layer Normalization（Layer Norm）而不是Batch Normalization（BN）

❤️觉得内容不错的话，欢迎点赞收藏加关注😊😊😊，后续会继续输入更多优质内容❤️
👉有问题欢迎大家加关注私戳或者评论（包括但不限于NLP算法相关，linux学习相关，读研读博相关......）👈

博主原文链接：https://www.yourmetaverse.cn/nlp/484/

（封面图由文心一格生成）

为什么Transformer模型中使用Layer Normalization（Layer Norm）而不是Batch Normalization（BN）

在当今深度学习的浪潮中，Transformer模型已成为自然语言处理（NLP）的一颗璀璨明星。自从其在2017年被提出以来，Transformer已在机器翻译、文本生成、语音识别等领域取得了显著成就。在深度学习模型的训练过程中，Normalization技术扮演着至关重要的角色，它不仅加速了训练过程，还提高了模型的泛化能力。在众多Normalization技术中，为何Transformer选择了Layer Normalization（Layer Norm）而非更为普遍的Batch Normalization（BN）？

Transformer架构概览

Transformer模型的核心在于其自注意力机制，该机制能够处理输入序列中不同部分之间的依赖关系。此外，多头注意力机制允许模型同时从不同的表示子空间获取信息。Normalization在这一架构中起着关键作用，它有助于维持梯度流动，避免在深层网络中出现梯度消失或爆炸的问题。

Batch Normalization（BN）简介

BN通过对每个mini-batch内的数据进行标准化来调整其均值和方差。这种技术在许多深度神经网络中都显示出显著的优势，例如加速收敛速度和减少对初始参数设置的依赖。然而，BN的有效性依赖于较大的batch大小，这在处理小批量数据或单个数据样本时成为一个限制。

Layer Normalization（Layer Norm）简介

与BN不同，Layer Norm是沿特征维度对单个数据样本进行标准化。它的一个关键优点是不依赖于batch的大小，使其适用于小批量甚至单样本的场景。这种独立于batch大小的特性使Layer Norm成为处理变长序列和小批量数据的理想选择。

为什么Transformer选择Layer Norm而不是BN

在Transformer的上下文中，Layer Norm的优势尤为明显：

计算依赖性：BN依赖于整个mini-batch的数据，这与Transformer并行处理机制的需求相悖。
序列长度变化：Transformer通常处理不同长度的序列，BN难以适应这种变化，而Layer Norm则无此问题。
训练稳定性：Layer Norm在处理变长输入时显示出更好的稳定性，这对于提高模型的泛化能力至关重要。
内存效率：处理大规模数据时，Layer Norm的内存效率优于BN，这对于构建大型模型尤为重要。