大模型面试题33：Transformer为什么用LayerNorm，而非BatchNorm？

我们先从 "归一化的目标"和"数据的特点" 两个生活化角度讲透核心区别，再逐步深入技术细节，结合Transformer的场景分析原因。

归一化（Normalization）的本质是 "让数据分布更稳定，帮模型更快学知识"，就像我们考试时"分数标准化"------把不同难度试卷的分数换算成统一标准，才好比较。

LayerNorm（LN）和BatchNorm（BN）的核心区别，在于 "选哪些数据来做标准化" ，用一个班级成绩的比喻就能秒懂：

归一化类型	核心操作（大白话）	类比班级成绩标准化
BatchNorm（批次归一化）	按批次维度计算均值/方差 → 横向归一化	全班同学的数学成绩放在一起算平均分、标准差，再把每个人的数学分标准化。（只看同一科目，跨人计算）
LayerNorm（层归一化）	按特征维度计算均值/方差 → 纵向归一化	每个同学自己的语、数、英三科成绩放在一起算平均分、标准差，再把自己的每科分标准化。（只看同一个人，跨科目计算）

举个更具体的例子，假设输入数据是 [班级人数, 科目数]（比如 [30人, 3科]）：

Transformer处理的是序列数据 （比如句子），输入形状一般是 [batch_size, seq_len, hidden_dim]（批次大小、序列长度、特征维度）。这个数据的特点，刚好戳中了BatchNorm的"软肋"，而LayerNorm完美适配。

BatchNorm的计算必须依赖同一个批次里的所有样本 ：比如要算所有样本第5个token的特征均值，需要把batch里所有样本的第5个token都凑起来。

但Transformer的序列有个大问题------句子长度不一样！

而LayerNorm只看单个样本自己的特征：对每个token的hidden_dim维特征算均值/方差，完全不依赖其他样本，<PAD>的影响可以通过mask屏蔽，小batch也完全不影响。

BatchNorm训练时，会维护一个移动均值/方差（相当于记录训练时的"全局标准"）；推理时，必须用这个记录的均值/方差来标准化数据------如果推理时的输入分布和训练不一样（比如单样本推理），结果就会变差。

而Transformer的推理场景（比如翻译一句话、生成一段文本），大多是单样本或小样本输入。LayerNorm因为是"自给自足"------每个样本自己算均值方差，不需要依赖训练时的记录，推理时和训练时的逻辑完全一致，用起来特别方便。

Transformer的核心是自注意力------每个token要学习和其他token的关联，不同token的特征分布差异可能很大。

我们用输入形状 [B, S, D] 来定义（B=批次大小，S=序列长度，D=特征维度），对比两者的计算逻辑：

BatchNorm的归一化维度是 B和S（跨样本、跨token，只固定特征维度）：

对每个特征维度 d，计算整个批次所有token 的均值 μd\mu_dμd 和方差 σd2\sigma_d^2σd2：
μd=1B×S∑b=1B∑s=1Sxb,s,d\mu_d = \frac{1}{B \times S} \sum_{b=1}^B \sum_{s=1}^S x_{b,s,d}μd=B×S1b=1∑Bs=1∑Sxb,s,d
σd2=1B×S∑b=1B∑s=1S(xb,s,d−μd)2\sigma_d^2 = \frac{1}{B \times S} \sum_{b=1}^B \sum_{s=1}^S (x_{b,s,d}-\mu_d)^2σd2=B×S1b=1∑Bs=1∑S(xb,s,d−μd)2
用 μd\mu_dμd 和 σd2\sigma_d^2σd2 对每个 xb,s,dx_{b,s,d}xb,s,d 做标准化。

问题：如果不同样本的S不一样（有padding），μd\mu_dμd 和 σd2\sigma_d^2σd2 会被padding的无效值污染；小B时统计量误差极大。

LayerNorm的归一化维度是 D（只固定样本和token，跨特征维度）：

对每个样本的每个token (b,s)，计算该token所有特征维度 的均值 μb,s\mu_{b,s}μb,s 和方差 σb,s2\sigma_{b,s}^2σb,s2：
μb,s=1D∑d=1Dxb,s,d\mu_{b,s} = \frac{1}{D} \sum_{d=1}^D x_{b,s,d}μb,s=D1d=1∑Dxb,s,d
σb,s2=1D∑d=1D(xb,s,d−μb,s)2\sigma_{b,s}^2 = \frac{1}{D} \sum_{d=1}^D (x_{b,s,d}-\mu_{b,s})^2σb,s2=D1d=1∑D(xb,s,d−μb,s)2
用 μb,s\mu_{b,s}μb,s 和 σb,s2\sigma_{b,s}^2σb,s2 对该token的特征做标准化。

优势：完全不依赖其他样本和其他token，padding可以通过mask排除，小B、变长序列都能完美适配。

对变长序列和padding更友好

Transformer的输入序列长度通常不一致，padding是常态。LayerNorm只在单个token的特征维度计算，不会被padding的无效值干扰；而BatchNorm的统计量会被padding污染，导致归一化效果失真。
不依赖batch_size，训练和推理更稳定
- 训练时：小batch_size是Transformer的常态（长序列显存占用高），BatchNorm在小batch下统计量方差大，模型收敛慢甚至发散；LayerNorm完全不受batch_size影响。
- 推理时：BatchNorm需要依赖训练时的移动均值/方差，单样本推理时分布易偏移；LayerNorm是"样本内归一化"，训练和推理逻辑一致，无需额外参数。
更适配自注意力的特征学习需求

自注意力的目标是让每个token学习到和序列内其他token的关联，不同token的特征分布本就应该有差异。LayerNorm保留了token间的分布差异，而BatchNorm强制同一位置token的分布一致，会破坏token的个性化特征，不利于注意力机制学习。

BatchNorm是"全班一起标准化"，依赖别人；LayerNorm是"自己跟自己比"，独立自主。Transformer处理的句子长短不一，用LayerNorm更灵活、更稳定！

LayerNorm在单个样本的特征维度做归一化，不依赖批次统计量，完美适配Transformer的变长序列、padding和小batch训练场景，同时保留token的个性化特征，更利于自注意力机制学习。