批量归一化层(Batch Normalization,简称 BN 层)详细解析
一、核心公式与两个可学习参数 γ、β

二、BN 的放置位置(关键考点)
标准位置:卷积层 / 全连接层的输出之后,激活函数之前
- 错误理解:放在卷积 / 全连接层输入上。 正确流程: 卷积全连接层层激活函数等
- 为什么不能放在激活之后? 激活函数会改变数据分布,先归一化再激活,才能稳定送入激活的输入分布,有效缓解内部协变量偏移(ICS),加速收敛、防止梯度消失。
三、全连接层 VS 卷积层:BN 归一化的维度差异
1. 作用在全连接层:在特征维做归一化
假设 batch 大小 = 32,全连接输出维度 [32, 512]
- 32:一个批次 32 个样本;512:每个样本 512 维特征
- BN 会对每一列(单个特征维度),统计 32 个样本的均值、方差做归一化;
- 可学习参数 、 长度 = 特征维度数(512)。
2. 作用在卷积层:在通道维做归一化(CNN 最常用)
假设卷积输出特征图 [32, 256, 28, 28]
- 32:batch 样本数;256:通道数;28×28:特征图空间尺寸
- 同一个通道内:把该通道下所有样本、所有空间位置的像素全部当成一组数据,统计均值方差归一化;
- 通俗理解:每个卷积通道独享一组 、,参数长度 = 通道数(256);
- 优势:符合 CNN 权重共享特性,保证同一张卷积核提取的特征分布稳定。
四、BN 层四大核心作用
- 缓解内部协变量偏移(ICS),大幅加快模型收敛速度 网络训练时,前面层参数更新会导致后面层输入分布不断变化,BN 强制每层输入分布稳定,学习率可以调大,训练迭代轮次显著减少。
- 缓解梯度消失 / 梯度爆炸 数据归一化后落在激活函数的梯度敏感区间,梯度不容易饱和,深层网络更容易训练。
- 自带轻微正则化效果,降低过拟合风险 每次用一个 batch 的均值方差做归一化,会给训练引入随机噪声,等效于微弱正则,可轻微减少 Dropout 的使用。
- 降低模型对参数初始化、学习率的敏感度 不用精细微调初始化权重,学习率可以设置更大,训练稳定性大幅提升。
五、训练阶段 vs 推理阶段 BN 的区别
- 训练时:用当前 mini-batch 的均值、方差做归一化,同时更新 、;并且滑动平均记录全局均值、方差。
- 推理(预测)时 :不再使用单批次的均值方差,直接用训练阶段统计的全局滑动均值、全局方差做归一化,保证单张图片预测结果稳定。
补充易错点总结
- BN 有且仅有两个可学习参数:缩放γ、偏移β;均值μ、方差σ是统计量,不参与梯度更新学习。
- 固定放置顺序:
Conv/FC → BN → Activation,不能放在激活之后、不能放在层输入。 - FC:按特征维归一化;CNN:按通道维归一化。