面试官：BatchNorm、LayerNorm、GroupNorm、InstanceNorm 有什么本质区别？

📚推荐阅读

面试官：你能讲讲 BatchNorm、LayerNorm、GroupNorm、 InstanceNorm 有什么本质区别吗？

很多同学肯定对这三个方法都很熟悉，但是一时间竟然不知道该怎么组织语言回答他们之间的区别，也不知道该从哪些方面进行对比，今天我们就来一次彻底拆解，不背定义、不绕术语，争取讲清楚三者的核心思想和差异本质。

所有相关源码示例、流程图、模型配置与知识库构建技巧，我也将持续更新在Github：AIHub，欢迎关注收藏！

一、为什么需要"Norm"？

我们都知道深度网络训练的时候，经常会出现两种极端情况：

前向时：激活值爆炸或消失；
反向时：梯度爆炸或消失。

这两种情况都会让训练不稳定，模型收敛困难。而 "Normalization" 的核心目标就是让每一层的分布保持稳定，保证梯度流动顺畅。

二、BatchNorm 的本质：跨样本的统计归一化

Batch Normalization（BN）是最早被广泛使用的归一化方式，它的思想非常直白：在每一层里，把一个 batch 中的所有样本的均值和方差对齐。

公式如下：

BN 通过在 batch 维度上计算均值与方差，让输入保持"零均值、单位方差"，从而稳定了分布。

BatchNorm 可以缓解梯度消失和梯度爆炸，加快收敛速度，并且可以起到轻微的正则化作用 （因为 batch 统计会引入噪声）；但是BatchNorm对 batch size 敏感，小 batch 会导致统计方差不准 ，在 RNN / 在线推理中不方便（统计量难以同步），并且推理阶段需要固定全局均值与方差，增加了复杂度。

在梯度流动性方面，由于使用批内统计量，BN 在反向传播时会引入样本间的梯度耦合，这会在一定程度上"平滑"梯度更新，有助于稳定训练。